
점 추정구간 추정가설 검정1. 점 추정(1) 점 추정 개념표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법이다.표본의 평균, 중위수 , 최빈값 등을 사용(2) 점 추정 조건불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음효율성 : 추정량의 분산이 작을수록 좋음일치성 ; 표본의 크기가 아주 커지면 추정량이 모수와 거의 같아짐충족성 : 추정량은 모수에 대해 모든 정보를 제공*추정량 : 모수의 추정을 위해 구해진 통계량(3) 점 추정에 사용되는 통계표본평균 ; 모집단의 평균 추정. 확률 표본의 평균값.표본분산중위수최빈값2. 구간 추정(1) 구간 추정 개념추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법항상 추정량의 분포에 대한 전제가 주어져야 하고, ..

데이터 요약표본추출확률분포표본분표*기술통계란 데이터 분석의 목적으로 수집된 데이터를 확률, 통계적으로 정리,요약하는 기초적인 통계이다.*기술통계는 분석 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출한다.*통계적 수치를 계산하고 도출(평균, 분산, 표준편차)하거나 그래프를 활용하여 데이터에 대한 전반적인 이해를 돕는다.1. 데이터 요약(1) 기초 통계량평균 (mean) : 표본평균(X), 모평균(뮤), 가중평균중위수최빈값범위 (최대데이터 값-최소데이터값)분산 : 표본분산( 데이터값과 평균차이인 편차의 제곱의 합 / n-1) , 모분산(모집단의 분산 나누기 n)표준편차 : 분산의 양에 제곱근평균의 표준 오차 : 표본 평균의 표본 추출 분포에 대한 표준 편차. 모집단으로부터 수많은 표본들을..

시공간 데이터 탐색다변량 데이터 탐색비정형 데이터 탐색1. 시공간 데이터 탐색(1) 시공간 데이터시공간 데이터의 특징이산적 변화 : 데이터 수집 주기가 일정하지 않은 데이터. 시간의 변화에 따라 데이터가 추가됨연속적 변화 : 일정한 주기로 수집되는 데이터를 이용해 연속적으로 표현. 함수 이용시공간 데이터의 타입포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구정폴리곤 타입 : n개(n≥3)의 노드와 n개의 세그먼트로 구성폴리라인 타입 : n개(n≥3)의 노드와 n-1개의 세그먼트로 구성(2) 시공간 데이터 탐색 절차주소를 행정구역으로 변환 : 엑셀split : split("a,bc",",")find : 문자열에서 가장 왼쪽..

데이터 탐색 개요상관관계 분석기초통계량 추출 및 이해시각적 데이터 탐색1. 데이터 탐색 개요(1) 데이터 탐색의 개념데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.EDA 4가지 주제별 특징이 중요.(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s탐색적 데이터 분석의 4가지 주제저항성 resistance저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음탐색적 데이터 분석은 저항성이 큰 통계적 ..

변수 선택차원 축소파생변수 생성변수 변환불균형 데이터 처리1. 변수 선택(1) 변수 Feature 개념데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수RDBMS에서 '속성(열)'이라고 부르는 것을 머신러닝에서는 통계학의 영향으로 '변수(Feature)'라고 한다. (키와체중으로 성별을 예측할 때 변수는 3개다.)키, 체중처럼 값이 알려진 값과 성별처럼 값을 예측해야 되는 값은 다른 유형으로 구분한다.변수 명칭알려진 값 : 변수(feature), 속성(attribute), 예측 변수(Predictor), 차원(dimension), 관측치(observation), 독립변수 (independent Variable)예측 값 : 라벨(label), 클래스(class), 목푯값 (target), 반응(..

데이터 정제데이터 결측값 처리데이터 이상값 처리1. 데이터 정제(1) 데이터 전처리의 중요성전처리 결과가 분석 결과에 직접적인 영향 주기 때문에 전처리는 반복적으로 수행해야 함가장 많은 시간이 소요되는 단계가 데이터 수집과 전처리 단계.데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서로 진행된다.(2) 데이터 정제 (data Cleansing) 개념결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업(3) 데이터 정제 절차데이터 오류 원인 분석 : 원천 데이터의 오류로 인해 발생하거나 빅데이터 플로우의 문제로부터 발생데이터 정제 대상 선정 : 모든 데이터를 대상으로 정제 활동데이터 정제 방법 결정 : 오류 데이터를 삭제, 대체, 예측값으로 삽입데이터 오류 원인..