Data Analyst/빅데이터 분석기사
[빅데이터 분석기사 2단원] 3.2 추론통계 Pdf
Data Analyst / PO
2024. 8. 15. 14:18
반응형
- 점 추정
- 구간 추정
- 가설 검정
[빅분기2단원]3.2 추론통계.pdf
0.20MB
1. 점 추정
(1) 점 추정 개념
- 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법이다.
- 표본의 평균, 중위수 , 최빈값 등을 사용
(2) 점 추정 조건
- 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
- 효율성 : 추정량의 분산이 작을수록 좋음
- 일치성 ; 표본의 크기가 아주 커지면 추정량이 모수와 거의 같아짐
- 충족성 : 추정량은 모수에 대해 모든 정보를 제공
*추정량 : 모수의 추정을 위해 구해진 통계량
(3) 점 추정에 사용되는 통계
- 표본평균 ; 모집단의 평균 추정. 확률 표본의 평균값.
- 표본분산
- 중위수
- 최빈값
2. 구간 추정
(1) 구간 추정 개념
- 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 함.
(2) 구간 추정 용어
- 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률. α-0.05 (1-α)=0.95
- 신뢰구간 ; 신뢰 수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
점 추정 : a후보의 지지율은 54.1%입니다.
구간 추정 : a후보의 지지율은 신뢰수준 95%로 신뢰구간 51.3~57.3% 내에 있다.
신뢰구간 추정할떄는 모분산에 따라 확률 분포를 사용하는데, 모분산을 알고 있는 경우에는 정규 분포를, 모르는 경우에는 t-분포를 사용한다.
3. 가설 검정
(1) 가설
- 가설 개념
- 가설 종류
- 귀무가설 H0 (null) : 현재까지 주장되어온 것이나 기존과 비교해 변화 혹은 차이가 없음을 나타내는 가설. (두통약 a와 b 간의 효과 차이가 없다)
- 대립가설 H1 (alternative) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설. 연구가설. (두통약 a와 b간의 효과 차이가 존재한다)
(2) 가설 검정
- 가설 검정 개념 : 모집단에 가설 세운 후 표본을 통해 얻은 정보를 이용해 통계적 가설의 진위를 판단하는 과정. 표본을 활용해 모집단에 대입해봤을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
- 가설 검정 절차
- p-값과 유의 수준을 비교해 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 된다.
- 유의 수준 : 제1종 오류를 범할 최대 허용확률을 의미하고 알파로 표기함
- 가설검정 → 유의수준 설정 → 검정방법 설정 → p-값 산출 → p-값 > 유의수준 yes : 귀무가설H0, no : 대립가설 H1
- p-값은 귀무가설이 참이라는 전제하에서 구한 검정 통계량의 값이 나타날 가능성.
- p-값 < 유의수준 (검정통계량의 값이 나타날 가능성이 작으면) → 대립가설.
- p-값 > 유의수준 → 귀무가설
- 가설검정 방법
대립가설의 형태에 따라 나뉨
- 양측 검정
- 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 같은지 여부를 판단
- 단측 검정
- 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 큰지 작은지 여부를 판단
(3) 가설 검정의 오류
- 가설검정 오류의 개념
- 가설검정 오류의 종류
- 제1종 오류 : 귀무 가설이 참인데 잘못하여 이를 기각하게 되는 오류
- 유의 수준 : 제1종 오류를 범할 최대 허용확률을 의미. α로 표기
- 신뢰 수준 : 귀무가설이 참일 때 이를 참이라고 판단하는 확률 (1-α)
- 제2종 오류 : 귀무 가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
- 베타 수준 : 제2종 오류를 범할 최대 허용확률을 의미 β
- 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 (1-β)
- 제1종 오류 : 귀무 가설이 참인데 잘못하여 이를 기각하게 되는 오류
(4) 검정 통계량
- 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
- 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산된다
(5) p-값
- 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률을 p-값이라고 함.
- 검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로도 볼 수 있다.
제1종오류에서 '우리가 내린 판정이 잘못되었을 실제 확률'은 p-값으로 나타낼 수 있다.
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형