1. 변수 선택 (1) 변수 Feature 개념 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수 RDBMS에서 '속성(열)'이라고 부르는 것을 머신러닝에서는 통계학의 영향으로 '변수(Feature)'라고 한다. (키와체중으로 성별을 예측할 때 변수는 3개다.) 키, 체중처럼 값이 알려진 값과 성별처럼 값을 예측해야 되는 값은 다른 유형으로 구분한다. 변수 명칭 알려진 값 : 변수(feature), 속성(attribute), 예측 변수(Predictor), 차원(dimension), 관측치(observation), 독립변수 (independent Variable) 예측 값 : 라벨(label), 클래스(class), 목푯값 (target), 반응(response), 종속변수(dependent..
2. 추론통계 점 추정 = 모수를 특정한 수치로 표현 point estimation 조건 : 불편성, 모든 표본 추정량의 기댓값 = 모집단의 모수 효율성, 추정량의 분산이 작을수록 좋음 일치성, 표본 크기 커지면 추정량이 모수와 같아짐. 표본의 크기가 모집단 규모에 근접해야 함. 충족성, 추정량은 모수에 대해 모든 정보를 제공. 표본이 충분히 모집단의 대표성을 가져야 함 사용하는 통계량 : 표본평균, 표본분산, 중위수, 최빈값 구간추정 = 모수를 범위로 추정. 신뢰수준 신뢰구간 : 평균 -z X 표준오차 ≤ 평균 ≤ 평균 + z X 표준오차 가설검정 귀무가설 : 현재까지 주장되어온 것. 대립가설 : 입증하고자 하는 것. = 연구가설 가설을 기각/채택하는 기준은 유의수준 (a, 제1종오류) 귀무가설을 기각..
2.3 통계 기법의 이해 1. 기술통계 통계량 중심경향 통계량 : 평균, 중위수, 최빈수 산포토 통계량 : 범위, 분산, 표준편차, 평균의 표준오차 분포 통계량, 첨도, 왜도 자료 측정 질적자료 : 명목척도, 순서척도 양적자료 : 구간척도, 비율척도 표본추출 기법 단순 무작위 추출 계통 추출 (동일한 구간 정해서 무작위 추출) 층화 추출 (지도) 군집 추출 (파란색 공) 확률 분포 이산확률 분포 : 이항 분포, 포아송 분포 연속 확률 분포 : 정규 분포, 표준 정규분포, t-분포, 카이제곱 분포, f-분포 표본 분포 모집단, 모수, 표본, 통계량, 추정량, 큰 수의 법칙, 중심 극한 정리
7. 통계량 계산 표본 평균값 = 산술평균 (아는 데이터의 대푯값) 기댓값 = 확률 X 그때의 값 (모르는 데이터의 대푯값) 모평균과 표본평균 분산(표본분산) = 편차의 제곱합 / N 분산(불편분산) = 편차의 제곱합 / N-1 표본분산이 편향성을 가지는 이유. 표준편차 = 불편분산에 제곱근. = Standard Deviation 8. 확률론 기본 집합 요소 집합의 2가지 표현 A = { a; a (- Z 그리고 0 ≤ a ≤ 5 } 부분집합 벤다이어그램 교집합과 합집합 차집합 공집합 전체집합 여집합 표본점, 표본공간, 사상 표본점 (w) = 일어날 수 있는 가능한 결과. = 요소 표본공간 (Ω) = 표본점 전체의 집합. = 전체집합 합사상 결합사상 근원사상 = 단 1개의 표본점(요소)만 있고, 그 이상..