1. 데이터 탐색 개요 (1) 데이터 탐색의 개념 데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다. EDA 4가지 주제별 특징이 중요. (2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s 탐색적 데이터 분석의 4가지 주제 저항성 resistance 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(medi..
5. 불균형 데이터 처리 탐색하는 타깃 데이터의 수가 매우 극소수인 경우에 불균형 데이터 처리를 함 화재발생 확률이 1%이하인 불균형 데이터에서 정확도가 높아도 재현율(Recall)이 급격이 작아진다. 100개 데이터 중 1개가 화재면, 모두 정상으로 예측해도 정확도가 99%다. 언더 샘플링 오버 샘플링 임곗값 이동 Threshold Moving 앙상블 Ensemble 언더 샘플링 (다운 샘플링) 다수 클래스의 데이터를 일부만 선택해 데이터의 비율을 맞추는 방법 언더 샘플링의 겨우 데이터의 소실이 매우 크고 때로는 중요한 정상 데이터를 잃을 수 있다. 언더 샘플링 기법 랜덤 언더 샘플링 : 무작위로 다수 클래스 데이터의 일부만 선택하는 방법 ENN (Edited Nearest Neighbours) : 소..
2. 차원 축소 (1) 차원 축소 dimensionality reduction 개념 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석 기법이다. 원래의 데이터를 최대한 효과적으로 축약하기 위해 목표변수는 사용하지 않고 특성변수(설명변수)만 사용하기 때문에 비지도 학습 머신러닝 기법이다. (2) 차원 축소 특징 축약되는 변수 세트는 원래의 전체 데이터의 변수 정보는 최대한 유지 해당 변수 결합만으로도 전체변수를 적절히 설명할 수 있어야 함 하나의 완결된 분석기법으로 사용되기보다는 다른 분석과정을 위한 전단계, 분석수행 후 개선방법, 효과적인 시각화 목적. 고차원 변수보다 변환된 저차원으로 학습할 경우, 회귀나 분류, 클러스터링 등의 머신러닝 알고리즘이 더..
1. 변수 선택 (1) 변수 Feature 개념 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수 RDBMS에서 '속성(열)'이라고 부르는 것을 머신러닝에서는 통계학의 영향으로 '변수(Feature)'라고 한다. (키와체중으로 성별을 예측할 때 변수는 3개다.) 키, 체중처럼 값이 알려진 값과 성별처럼 값을 예측해야 되는 값은 다른 유형으로 구분한다. 변수 명칭 알려진 값 : 변수(feature), 속성(attribute), 예측 변수(Predictor), 차원(dimension), 관측치(observation), 독립변수 (independent Variable) 예측 값 : 라벨(label), 클래스(class), 목푯값 (target), 반응(response), 종속변수(dependent..
2. 추론통계 점 추정 = 모수를 특정한 수치로 표현 point estimation 조건 : 불편성, 모든 표본 추정량의 기댓값 = 모집단의 모수 효율성, 추정량의 분산이 작을수록 좋음 일치성, 표본 크기 커지면 추정량이 모수와 같아짐. 표본의 크기가 모집단 규모에 근접해야 함. 충족성, 추정량은 모수에 대해 모든 정보를 제공. 표본이 충분히 모집단의 대표성을 가져야 함 사용하는 통계량 : 표본평균, 표본분산, 중위수, 최빈값 구간추정 = 모수를 범위로 추정. 신뢰수준 신뢰구간 : 평균 -z X 표준오차 ≤ 평균 ≤ 평균 + z X 표준오차 가설검정 귀무가설 : 현재까지 주장되어온 것. 대립가설 : 입증하고자 하는 것. = 연구가설 가설을 기각/채택하는 기준은 유의수준 (a, 제1종오류) 귀무가설을 기각..
2.3 통계 기법의 이해 1. 기술통계 통계량 중심경향 통계량 : 평균, 중위수, 최빈수 산포토 통계량 : 범위, 분산, 표준편차, 평균의 표준오차 분포 통계량, 첨도, 왜도 자료 측정 질적자료 : 명목척도, 순서척도 양적자료 : 구간척도, 비율척도 표본추출 기법 단순 무작위 추출 계통 추출 (동일한 구간 정해서 무작위 추출) 층화 추출 (지도) 군집 추출 (파란색 공) 확률 분포 이산확률 분포 : 이항 분포, 포아송 분포 연속 확률 분포 : 정규 분포, 표준 정규분포, t-분포, 카이제곱 분포, f-분포 표본 분포 모집단, 모수, 표본, 통계량, 추정량, 큰 수의 법칙, 중심 극한 정리