[빅데이터 분석기사 2단원] 3.2 추론통계 Pdf

Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 2단원] 3.2 추론통계 Pdf

Data Analyst / PO 2024. 8. 15. 14:18

점 추정
구간 추정
가설 검정

[빅분기2단원]3.2 추론통계.pdf

1. 점 추정

(1) 점 추정 개념

표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법이다.
표본의 평균, 중위수 , 최빈값 등을 사용

(2) 점 추정 조건

불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
효율성 : 추정량의 분산이 작을수록 좋음
일치성 ; 표본의 크기가 아주 커지면 추정량이 모수와 거의 같아짐
충족성 : 추정량은 모수에 대해 모든 정보를 제공

*추정량 : 모수의 추정을 위해 구해진 통계량

(3) 점 추정에 사용되는 통계

표본평균 ; 모집단의 평균 추정. 확률 표본의 평균값.
표본분산
중위수
최빈값

2. 구간 추정

(1) 구간 추정 개념

추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 함.

(2) 구간 추정 용어

신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률. α-0.05 (1-α)=0.95
신뢰구간 ; 신뢰 수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

점 추정 : a후보의 지지율은 54.1%입니다.

구간 추정 : a후보의 지지율은 신뢰수준 95%로 신뢰구간 51.3~57.3% 내에 있다.

신뢰구간 추정할떄는 모분산에 따라 확률 분포를 사용하는데, 모분산을 알고 있는 경우에는 정규 분포를, 모르는 경우에는 t-분포를 사용한다.

3. 가설 검정

(1) 가설

가설 개념
가설 종류
- 귀무가설 H0 (null) : 현재까지 주장되어온 것이나 기존과 비교해 변화 혹은 차이가 없음을 나타내는 가설. (두통약 a와 b 간의 효과 차이가 없다)
- 대립가설 H1 (alternative) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설. 연구가설. (두통약 a와 b간의 효과 차이가 존재한다)

(2) 가설 검정

가설 검정 개념 : 모집단에 가설 세운 후 표본을 통해 얻은 정보를 이용해 통계적 가설의 진위를 판단하는 과정. 표본을 활용해 모집단에 대입해봤을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
가설 검정 절차
- p-값과 유의 수준을 비교해 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 된다.
- 유의 수준 : 제1종 오류를 범할 최대 허용확률을 의미하고 알파로 표기함
- 가설검정 → 유의수준 설정 → 검정방법 설정 → p-값 산출 → p-값 > 유의수준 yes : 귀무가설H0, no : 대립가설 H1
- p-값은 귀무가설이 참이라는 전제하에서 구한 검정 통계량의 값이 나타날 가능성.
- p-값 < 유의수준 (검정통계량의 값이 나타날 가능성이 작으면) → 대립가설.
- p-값 > 유의수준 → 귀무가설
가설검정 방법

대립가설의 형태에 따라 나뉨

양측 검정
- 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 같은지 여부를 판단
단측 검정
- 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 큰지 작은지 여부를 판단

(3) 가설 검정의 오류

가설검정 오류의 개념
가설검정 오류의 종류
- 제1종 오류 : 귀무 가설이 참인데 잘못하여 이를 기각하게 되는 오류
  - 유의 수준 : 제1종 오류를 범할 최대 허용확률을 의미. α로 표기
  - 신뢰 수준 : 귀무가설이 참일 때 이를 참이라고 판단하는 확률 (1-α)
- 제2종 오류 : 귀무 가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
  - 베타 수준 : 제2종 오류를 범할 최대 허용확률을 의미 β
  - 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 (1-β)
*일반적으로 1종 오류의 영향이 2종오류의 영향보다 크므로, 유의수준(α)을 기준으로 가설검정을 수행한다.

제목 없는 데이터베이스

(4) 검정 통계량

가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산된다

(5) p-값

귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률을 p-값이라고 함.
검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로도 볼 수 있다.

제1종오류에서 '우리가 내린 판정이 잘못되었을 실제 확률'은 p-값으로 나타낼 수 있다.

혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.