
점 추정구간 추정가설 검정1. 점 추정(1) 점 추정 개념표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법이다.표본의 평균, 중위수 , 최빈값 등을 사용(2) 점 추정 조건불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음효율성 : 추정량의 분산이 작을수록 좋음일치성 ; 표본의 크기가 아주 커지면 추정량이 모수와 거의 같아짐충족성 : 추정량은 모수에 대해 모든 정보를 제공*추정량 : 모수의 추정을 위해 구해진 통계량(3) 점 추정에 사용되는 통계표본평균 ; 모집단의 평균 추정. 확률 표본의 평균값.표본분산중위수최빈값2. 구간 추정(1) 구간 추정 개념추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법항상 추정량의 분포에 대한 전제가 주어져야 하고, ..

데이터 탐색 개요상관관계 분석기초통계량 추출 및 이해시각적 데이터 탐색1. 데이터 탐색 개요(1) 데이터 탐색의 개념데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.EDA 4가지 주제별 특징이 중요.(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s탐색적 데이터 분석의 4가지 주제저항성 resistance저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음탐색적 데이터 분석은 저항성이 큰 통계적 ..

변수 선택차원 축소파생변수 생성변수 변환불균형 데이터 처리1. 변수 선택(1) 변수 Feature 개념데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수RDBMS에서 '속성(열)'이라고 부르는 것을 머신러닝에서는 통계학의 영향으로 '변수(Feature)'라고 한다. (키와체중으로 성별을 예측할 때 변수는 3개다.)키, 체중처럼 값이 알려진 값과 성별처럼 값을 예측해야 되는 값은 다른 유형으로 구분한다.변수 명칭알려진 값 : 변수(feature), 속성(attribute), 예측 변수(Predictor), 차원(dimension), 관측치(observation), 독립변수 (independent Variable)예측 값 : 라벨(label), 클래스(class), 목푯값 (target), 반응(..

데이터 정제데이터 결측값 처리데이터 이상값 처리1. 데이터 정제(1) 데이터 전처리의 중요성전처리 결과가 분석 결과에 직접적인 영향 주기 때문에 전처리는 반복적으로 수행해야 함가장 많은 시간이 소요되는 단계가 데이터 수집과 전처리 단계.데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서로 진행된다.(2) 데이터 정제 (data Cleansing) 개념결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업(3) 데이터 정제 절차데이터 오류 원인 분석 : 원천 데이터의 오류로 인해 발생하거나 빅데이터 플로우의 문제로부터 발생데이터 정제 대상 선정 : 모든 데이터를 대상으로 정제 활동데이터 정제 방법 결정 : 오류 데이터를 삭제, 대체, 예측값으로 삽입데이터 오류 원인..