Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 2단원] 3.1 기술 통계 (기술=Descriptive) PDF (여기부터 어려움)

Data Analyst / PO 2024. 8. 15. 14:15
반응형

 

  1. 데이터 요약
  2. 표본추출
  3. 확률분포
  4. 표본분표

[빅분기2단원]3.1 기술 통계.pdf
0.29MB


*기술통계란 데이터 분석의 목적으로 수집된 데이터를 확률, 통계적으로 정리,요약하는 기초적인 통계이다.

*기술통계는 분석 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출한다.

*통계적 수치를 계산하고 도출(평균, 분산, 표준편차)하거나 그래프를 활용하여 데이터에 대한 전반적인 이해를 돕는다.

1. 데이터 요약

(1) 기초 통계량

  • 평균 (mean) : 표본평균(X), 모평균(뮤), 가중평균
  • 중위수
  • 최빈값
  • 범위 (최대데이터 값-최소데이터값)
  • 분산 : 표본분산( 데이터값과 평균차이인 편차의 제곱의 합 / n-1) , 모분산(모집단의 분산 나누기 n)
  • 표준편차 : 분산의 양에 제곱근
  • 평균의 표준 오차 : 표본 평균의 표본 추출 분포에 대한 표준 편차. 모집단으로부터 수많은 표본들을 추출한 후 각 표본들에 대한 평균을 구하고, 각 평균들에 대한 전체 평균을 다시 구한 값으로 각 평균들이 전체 평균으로부터 평균적으로 얼마나 떨어져있는지를 나타낸 값.
  • 분포 : 첨도(뾰족, 첨도가 0보다 작으면 반원모양), 왜도

(2) 상관분석

개념 : 두 개 이상의 변수간에 존재하는 연관성의 정도를 측정, 분석하는 방법. (하나의 변수가 다른 변수와 어떤 연관성을 가지고 변하는가)

  • 분석 방법
    • 단순 상관분석 : 두 변수 사이의 연관성
    • 다중 상관분석 : 3개 이상
  • 상관 분석의 종류
    • 수치적 데이터 변수의 상관 분석 : 수치적 데이터 변수로 이루어진 두 변수 간 선형적 연관성을 계량적으로 파악. 피어슨 상관계수를 선형관련성 정도로 측정하는 척도로 사용함. -1≤r≤1
    • 명목적 데이터 변수의 상관 분석 : 항목 분류를 위한 명목적 데이터 변수들로 이루어진 변수들 간 연관성을 계량적으로 파악하기 위한 통계적 기법. 발생 빈도를 기반으로 변수간 연관성을 추론하기 위해 x2검정을 사용한다.
    • 순서적 데이터 변수의 상관 분석 : 스피어만 순위 상관계수

(3) 회귀 분석

  • 회귀 분석 개념 : 하나 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정할 수 있는 통계기법. 독립변수와 종속변수의 개수 및 형태에 따라 다양한 세부 모델들로 분류함
  • 회귀 분석 모형의 종류 : 회귀 분석 모형을 도출한 이후에는 이에 대한 적합성을 평가해야 함
    • 단순 회귀 모형 : 독립변수와 종속변수가 1개씩이면서 모두 수치형 변수인 경우
    • 다중 회귀 모형 : 2개 이상의 독립변수이면서 수치형 혹은 범주형. 1개의 수치형 종속변수
  • 회귀 분석 모형의 적합성 평가
    • 통계적으로 유의미한지를 평가하기 위해 분산 분석표를 활용한다.
    • 모형이 얼마나 설명력을 가지는지 확인하기 위해 결정계수 R2을 확인해야 함.
    • 회귀 분석 결과를 신뢰하고 효과적으로 활용하기 위한 5가지 전제 조건
    • 회귀분석 전제 조건
      • 선형성 : 독립변수와 종속변수 간에는 선형관계가 존재
      • 등분산성 : 잔차(추정오차)들은 같은 분산을 가짐
      • 독립성 : 잔차와 독립변수의 값이 관련 없음
      • 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
      • 정규성 : 잔차는 평균이 0 이고 분산이 σ²인 정규 분포를 따름
  • 독립변수 선택 방법
    • 후진 제거법 : 모든 독립변수를 사용해 하나의 회귀식을 수립. 회귀식에서 중요하지 않은 독립변수들 중 작은 변수부터 차례로 제거하고 남은 나머지 독립변수들로 회귀식을 다시 추정하는 방법.
    • 전진 선택법 : 종속변수에 가장 큰 영향을 줄 것 같은 하나의 독립변수를 이용해 회귀식을 수립한 후, 단계마다 중요하다고 판단되는 독립변수를 하나씩 회귀식에 추가해 회귀모델을 다시 추정하여 새로운 독립변수의 부분 검정을 통해 중요 정도를 계산하는 방법
    • 단계적 방법 : 절충 형태. 종속변수에 가장 큰 상관관계가 있는 독립변수를 택함과 동시에 각 단계의 회귀식에서 중요하지 않은 독립변수를 제거. 가장 많이 활용.

(4) 분산 분석

  • 분산 분석의 개념 ANOVA Analysis of Variance
    • 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법.
  • 분산 분석 특징
    • 검정 통계랑 Test Static : 표본 데이터에서 계산되어 가설검정에 사용되는 랜덤 변수. 검정 통계량을 사용해 귀무 가설의 기각 여부를 확인할 수 있다.
    • 검정 통계량인 F-검정 통계량 값은 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 값으로 해석된다.
    • 분산 분석은 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이가 있다고 할 수 있는지, 혹은 차이가 없다고 할 수 있는지를 판정하는 분석 방법이다.
  • 분산 분석 종류
    • 일원분산 분석 : 집단을 나누는 요인인 독립변수가 1개이고 종속변수도 1개인 경우. 독립변수에 의한 집단 사이의 종속 변수 평균 차이를 비교하기 위한 분석
    • 이원분산 분석 : 독립변수가 2개이고 종속변수가 1개일 경우 집단 간 종속변수의 평균 차이를 분석하는 방법
    • 다변량 분산 분석 : 종속변수가 2개 이상인 경우에 집단 간 종속 변수의 평균 차이를 비교하는 방법
    • 공분산 분석 : 연속형 외생변수가 종속변수에 미치는 영향을 제거한 후 , 순수한 집단 간 종속변수의 평균 차이를 평가하는 방법

(5) 주성분 분석 PCA : Principal Component Analysis

  • 주성분 분석
    • 많은 변수의 분산 방식(분산,공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
  • 주성분 분석 특징
    • 원래 변수 정보를 축약한 변수. 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법임.
    • P개의 변수가 있는 경우 이를 통해 얻은 정보를 P보다 상당히 적은 K개의 변수로 요약하는 것.
    • 가장 적은 수의 주성분을 사용해 분산의 최대량을 설명한다.

(6) 판별 분석

  • 판별 분석 개념
    • 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법이다.
    • 다변량 기법 : 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 한 번에 분석하는 통계적 기법이다.

2. 표본 추출

(1) 표본 추출 기법

  • 단순 무작위 추출 : 모집단에서 정해진 규칙 없이 표본 추출
  • 계통 추출 : 모집단을 일정한 간격으로 추출 (끝자리 7로 끝나는 사람)
  • 층화 추출 : 모집단을 여러 계층으로 나누고 계층별로 무작위 추출. 계층은 내부적으로 동질적이고 외부적으로 이질적이어야 함 (지역별로 나누고 각 도에서 추출)
  • 군집 추출 : 모집단을 여러 군집으로 나누고 일부 군집의 전체 또는 일부를 추출. 계층과는 다르게 군집의 성질은 따로 고려되지 않음. (무작위로 색 칠하고 파란색만 모두 추출)

(2) 자료 측정

측정하는 행위는 대상의 속성을 숫자 또는 기호로 표시하는 일이고, 관계를 부여하기 위해 사용되는 규칙을 척도라고 한다.

  • 척도
    • 질적 속성
      • 명목 척도 : 주소, 계정, 옷 색깔, 성별
      • 순서 척도 : 평점, 선호도
    • 양적 속성
      • 구간 척도 : 온도, 지능지수 (등간척도. 서열과 의미 있는 차이를 가짐)
      • 비율 척도 : 질량, 나이, 개수, 길이 (구간척도에서 척도간의 비(ration)도 의미가 있는 척도) 절대적 기준 0

3. 확률 분포 Probability Distribution

(1) 확률분포 개념

  • 확률 변수가 특정한 값을 가질 확률을 나타내는 분포
  • 확률 변수의 종류에 따라 크게 이산확률분포와 연속확률분포로 나뉨.
  • 확률변수 Random Variable : 확률적인 과정에 따라 값이 결정되는 변수. 같은 확률 공간에 정의된 여러 확률 변수에 대해 이들의 조건부 확률이나 독립 여부를 정의할 수 있음

(2) 확률분포의 종류

  • 이산확률분포
    • 개념 : 이산확률 변수 X가 가지는 확률 분포. X가 0,1,2...와 같이 하나씩 셀 수 있는 값을 취함
    • 종류
      • 포아송 분포 : 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타냄. 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ라고 했을때 그 사건이 n회 일어날 확률. 기댓값 E(X)=λ 분산 V(X)=λ
      • 베르누이 분포 : 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포 기댓값 E(X)=p 분산 V(X)=p(1-p)
      • 이항 분포 : n번 시행 중에 각 시행의 확률이 p일 때 , k번 성공할 확률 분포. n과 k가 1이면 베르누이 실행. 기댓값 E(X)=np 분산 V(X)=np(1-p)
  • 연속확률분포
    • 개념 : 확률변수 X가 실수와 같이 연속적인 값을 취할 때는 이를 연속확률변수라 하고 이런 연속확률변수 X가 가지는 확률분포를 연속확률분포라 한다.
    • 종류
      • 정규 분포 : (기댓값 μ 분산 σ²)
      • 표준 정규 분포 : (기댓값 0 분산 1)
      • T-분포 : (기댓값 0 분산 k/k-2) . 정규 분포의 μ 해석에 많이 쓰이는 분포. 모집단이 정규 분포라는 정도만 알고, 모 표준편차 σ는 모를 때 사용
      • 카이제곱 분포 (x² 분포) : (기댓값 k 분산 2k.) K개의 서로 독립적인 표준정규확률변수를 각각 제곱한 다음 합쳐어 얻어지는 분포. K는 자유도.
      • F-분포 : (기댓값 d/d-2) 독립적인 x² 분포가 있을 때, 두 확률 변수의 비. 모집단 분산이 서로 동일하다고 가정되는 두 모집단으로부터 표본 크기가 n1,n2인 독립적인 2개의 표본을 추출했을 때 2개의 표본분산 s1,s2의 비율. (s1²/s2²)

4. 표본 분포 (sampling distribution)

(1) 표본 분포의 개념

  • 모집단에서 추출한 크기가 일정한(n개인) 표본이 가지는 추정량의 확률분포.
  • 통계량에 의해 모집단에 있는 모수를 추론한다.

(2) 표본 분포

  • 표본 분포 용어
    • 모집단
    • 모수 : 모집단의 특성을 나타내는 대푯값
    • 통계량 : 평균, 표준오차 같은 값. 이 값을 통해 모수를 추정함
    • 추정량 : 모수의 추정을 위해 구해진 통계량
    • 표준편차 : 자료의 변동 정도
    • 표준오차 : 통계량의 변동 정도. 평균을 낸 값들의 표준 편차를 표준오차라고 부름.
  • 표본 조사 관련 용어
    • 표본오차 Sampling Error : 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못하기 때문에 발생하는 오차
    • 비표본오차 Non-Sampling Error : 표본 오차를 제외한 모든 오차. 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사 대상이 증가하면 오차가 커짐
    • 표본편의 Sampling Bias : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본 추출 방법에서 기인하는 오차. 표본편의는 확률화에 의해 최소화할 수 있음

*확률화 : 모집단으로부터 편의되지 않은 표본을 추출하는 절차. 확률화 절차에 의해 추출된 표본을 확률포본이라 함.

*자유도 : 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수

(3) 표본 분포와 관련된 법칙

  • 큰 수의 법칙 : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워짐. 데이터의 퍼짐이 적어져 정확해짐
  • 중심 극한 정리 : 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포는 정규 분포에 근사.

(4) 표본 분포의 유형

  • Z-분포 : 표본 통계량이 표본 평균일 때, 이를 표준화(정규화)시킨 표본 분포. 개념적으로 정규 분포와 동일해 정규 분포 평균의 해석에 많이 쓰이는 분포.
  • T-분포 : 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를 때 사용하는 표본 분포
  • 카이제곱 분포 : k개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포. 표본통계량=표본분산
  • F-분포 : 표본 통계량이 두 독립 표본에서 계산된 표본분산들의 비율일 때의 표본 분포
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형