Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 2단원] 3.2 추론통계 Pdf

Data Analyst / PO 2024. 8. 15. 14:18
반응형
  1. 점 추정
  2. 구간 추정
  3. 가설 검정

[빅분기2단원]3.2 추론통계.pdf
0.20MB


1. 점 추정

(1) 점 추정 개념

  • 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법이다.
  • 표본의 평균, 중위수 , 최빈값 등을 사용

(2) 점 추정 조건

  • 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
  • 효율성 : 추정량의 분산이 작을수록 좋음
  • 일치성 ; 표본의 크기가 아주 커지면 추정량이 모수와 거의 같아짐
  • 충족성 : 추정량은 모수에 대해 모든 정보를 제공

*추정량 : 모수의 추정을 위해 구해진 통계량

(3) 점 추정에 사용되는 통계

  • 표본평균 ; 모집단의 평균 추정. 확률 표본의 평균값.
  • 표본분산
  • 중위수
  • 최빈값

2. 구간 추정

(1) 구간 추정 개념

  • 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
  • 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 함.

(2) 구간 추정 용어

  • 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률. α-0.05 (1-α)=0.95
  • 신뢰구간 ; 신뢰 수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

점 추정 : a후보의 지지율은 54.1%입니다.

구간 추정 : a후보의 지지율은 신뢰수준 95%로 신뢰구간 51.3~57.3% 내에 있다.

신뢰구간 추정할떄는 모분산에 따라 확률 분포를 사용하는데, 모분산을 알고 있는 경우에는 정규 분포를, 모르는 경우에는 t-분포를 사용한다.

3. 가설 검정

(1) 가설

  • 가설 개념
  • 가설 종류
    • 귀무가설 H0 (null) : 현재까지 주장되어온 것이나 기존과 비교해 변화 혹은 차이가 없음을 나타내는 가설. (두통약 a와 b 간의 효과 차이가 없다)
    • 대립가설 H1 (alternative) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설. 연구가설. (두통약 a와 b간의 효과 차이가 존재한다)

(2) 가설 검정

  • 가설 검정 개념 : 모집단에 가설 세운 후 표본을 통해 얻은 정보를 이용해 통계적 가설의 진위를 판단하는 과정. 표본을 활용해 모집단에 대입해봤을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
  • 가설 검정 절차
    • p-값과 유의 수준을 비교해 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 된다.
    • 유의 수준 : 제1종 오류를 범할 최대 허용확률을 의미하고 알파로 표기함
    • 가설검정 → 유의수준 설정 → 검정방법 설정 → p-값 산출 → p-값 > 유의수준 yes : 귀무가설H0, no : 대립가설 H1
    • p-값은 귀무가설이 참이라는 전제하에서 구한 검정 통계량의 값이 나타날 가능성.
    • p-값 < 유의수준 (검정통계량의 값이 나타날 가능성이 작으면) → 대립가설.
    • p-값 > 유의수준 → 귀무가설
  • 가설검정 방법

대립가설의 형태에 따라 나뉨

  • 양측 검정
    • 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 같은지 여부를 판단
  • 단측 검정
    • 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 큰지 작은지 여부를 판단

(3) 가설 검정의 오류

  • 가설검정 오류의 개념
  • 가설검정 오류의 종류
    • 제1종 오류 : 귀무 가설이 참인데 잘못하여 이를 기각하게 되는 오류
      • 유의 수준 : 제1종 오류를 범할 최대 허용확률을 의미. α로 표기
      • 신뢰 수준 : 귀무가설이 참일 때 이를 참이라고 판단하는 확률 (1-α)
    • 제2종 오류 : 귀무 가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
      • 베타 수준 : 제2종 오류를 범할 최대 허용확률을 의미 β
      • 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 (1-β)
    *일반적으로 1종 오류의 영향이 2종오류의 영향보다 크므로, 유의수준(α)을 기준으로 가설검정을 수행한다.

제목 없는 데이터베이스

(4) 검정 통계량

  • 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
  • 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산된다

(5) p-값

  • 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률을 p-값이라고 함.
  • 검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로도 볼 수 있다.

제1종오류에서 '우리가 내린 판정이 잘못되었을 실제 확률'은 p-값으로 나타낼 수 있다.

 

혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
 
반응형