티스토리 뷰

반응형

 

  1. 평가 지표
  2. 분석 모형 진단
  3. 교차 검증
  4. 모수 유의성 검정
  5. 적합도 검정

[빅분기4단원]1.1분석모형평가.pdf
0.41MB


분석 모형 : 빅데이터 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석을 가능하게 하는 모형.

  • 구축한 빅데이터 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 매우 중요.
  • 분석 모형 평가는 고려된 모형들 중 어떤 것이 가장 우수한지 등을 분석하는 과정
    • 일반화의 가능성 : 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가
    • 효율성 : 적은 입력변수가 필요할수록 효율성이 높은 것으로 평가
    • 예측과 분류의 정확성

1. 평가지표

(1) 회귀 모형의 평가지표

  1. 회귀 모형의 이해를 위한 지표 : 위에 ^ 붙어있으면 예측값. y^=ax+b, 위에-붙어있으면 평균값.
  2. 회귀 모형의 기본 평가지표 :
    • SSE : 오차 제곱합. 예측값과 실제값 의 차이(오차) 제곱의 합. error sum of square
    • SST : 전체 제곱합. SSE+SSR
    • SSR : 회귀 제곱의 합. 예측값과 평균값 차이 제곱의 합
    • AE : 평균 오차 . 예측한 결괏값의 오류 평균. 예측값들이 평균적으로 미달하는지 초과하는지 확인
    • MAE : 평균 절대 오차. 평균 오차 절댓값의 평균
    • RMSE : 평균 제곱근 오차. SSE 평균의 제곱근
    • MAPE : 평균 절대 백분율 오차.
  3. 회귀 모형의 결정 계수와 Mallow's Cp에 대한 평가 지표
  • 결정 계수
    • R2. 선형 회귀 분석의 성능 검증 지표로 많이 이용. 상관계수 R의 제곱.
    • 회귀모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
    • 결정계수가 1에 가까울수록 실젯값을 잘 설명
    • 값의 범위 0 ≤ R제곱 ≤ 1
    • 독립변수의 개수가 많은 모형의 평가에는 사용이 부적합
  • 수정된 결정 계수
    • 모형에 유의하지 않은 변수의 개수가 증가하더라도 결정계수는 증가하는 단점을 보완
    • 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
    • 적절하지 않은 변수들을 추가할수록 수정된 결정계수의 값은 감소
    • 반대로 모형에 유용한 변수들을 추가할수록 수정된 결정계수의 값은 증가
    • 수정된 결정계수는 결정계수보다 항상 작음
    • 독립변수의 개수가 많은 모형을 평가할 때 사용 가능
  • Mallow's Cp
    • 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 페널티를 부과한 통계량
    • Mallow's Cp가 작을수록 실젯값을 잘 설명

(2) 분류 모형의 평가지표

  • 분류 모형의 결과를 평가하기 위해서는 혼동행렬을 이용한 평가지표과 ROC 곡선의 AUC를 많이 사용한다.
  • 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파 통계량을 통하여 설명할 수 있다.
  1. 혼동 행렬
  • 개념 : 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬.
  • 혼동 행렬 작성 방법
    • P/N은 예측한 값, T/F는 예측한 값과 실젯값의 비교 결과.
    • 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표가 도출된다
    • 모델의 정확도를 예측값과 실젯값의 일치 빈도를 통해 평가할 수 있다.
    • 예측이 정확한 경우 : TP, TN(실제값이 negative고 예측값도 ngative)
    • 예측이 틀린 경우 : FP(실젯값은 n,예측값은 p), FN(실젯값은 p이나 예측값이 n이었던 경우)

혼동 행렬 작성 방법

  • 혼동 행렬을 통한 분류 모형의 평가 지표
    • 정확도(accuracy) : TP+TN / TP+TN+FP+FN 실제 분류 범주를 정확하게 예측한 비율 . 전체 예측에서 참 긍정(TP)와 참부정(TN)이 차지하는 비율.
    • 오차 비율(Error Rate) : FP+TN / FP+TN+FP+FN = 1-정확도
    • 민감도(sensitivity = TP rate) : TP / TP+FN 참 긍정률(TP rate). 실제 긍정 범주 중 진짜 긍정 (=재현율 Recall, Hit Ratio)
    • 특이도(specificity) : TN / TN+FP 실제 부정 범주 중 부정으로 올바르게 예측한 비율
    • 거짓 긍정률(FP rate) : FP / TN+FP = 1-특이도. 부정 범주 중에서 긍정으로 잘못 예측한(FP) 비율.
    • 정밀도(precision) : TP / TP+FP 긍정으로 예측한 비율 중 실제 긍정인 비율
    • F-Measure : 2 X Precision(정밀도)XRecall(민감도) / Precision+Recall : 정밀도와 민감도(재현율)를 하나로 합한 성능평가 지표. 0~1 사이의 범위를 가짐. 정밀도와 민감도 모두 클 때 F-measure도 큼
    • 카파 통계량 : K(카파 상관계수) = Pr(a) - Pr(e) / 1-Pr(e)
      • Pr(a) : 예측이 일치할 확률
      • Pr(e) : 예측이 우연히 일치할 확률
      • 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
      • 0~1의 값을 가지며 1에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실젯값이 불일치
      • 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명
  1. ROC 곡선
  • ROC 곡선 개념 : 가로축을 혼동 행렬의 거짓 긍정률(FP rate)로 두고 세로축을 민감도로 두어 시각화한 그래프. 왼쪽 꼭대기에 가까울수록 분류 성능이 우수
  • ROC 곡선의 특징
    • 거짓 긍정률(FP Rate)과 민감도(TP Rate)는 서로 반비례(trade-off) 관계에 있다.
    • AUC(area under ROC) 는 진단의 정확도를 측정할 때 사용하는 것으로 ROC 곡선 아래의 면적을 모형의 평가지표로 삼는다.
    • AUC의 값은 항상 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형이다.
    • AUC 의 판단 기준
  1. 이익 도표 (Gain Chart)
  • 분류 모형의 성능을 평가하기 위해서 사용되는 그래프 분석 방법이다.
  • 이익(Gain)은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값이다.
  • 이익 도표 (Gain Chart)는 이익 곡선 (Gain Curve), 리프트 곡선 (Lift Curve)이라고도 부른다.

2. 분석 모형 진단

(1) 데이터 분석 모형의 오류

  • 일반화 오류 (Generalization Error) - 과대 적합 : 분석 모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류. 주어진 데이터 집합은 모집단 일부분임에도 불구하고 그것이 가지고 있는 주변적인 특성, 단순 잡음 등 모두 묘사하기 때문에 일반화 오류가 발생.
  • 학습 오류 (Training Error) - 과소 적합 : 주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류. 학습 오류가 지나치게 자주 발생하는 모형은 과대 적합에 반대되는 개념이라 과소 적합 되었다고 함.

(2) 데이터 분석 모형 검증

  • 홀드 아웃 교차 검증 : 데이터 집합을 서로 겹치지 않는 학습 집합과 시험 집합으로 무작위 구분 후, 학습 집합을 이용하여 분석 모형을 구축하고 시험 집합을 이용하여 분석 모형의 성능을 평가하는 기법.
  • 다중 교차 검증 : 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분 집합으로 나누고, 그 중 1개를 시험 집합으로, 나머지 k-1개를 학습 집합으로 선정하여 분석 모형을 평가하는 기법. 종류로는 Random Sub-sampling, K-Fold Cross Validation, Leave-One-out cross Validation, Bootstrap.

(3) 분석 모형 시각화

  • 정보 구조화 : 데이터 수집 및 탐색, 데이터 분류하기, 데이터 배열하기, 데이터 재배열
  • 정보 시각화 : 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 여러 변수 비교, 공간 시각화
  • 정보 시각 표현 : 그래픽 7요소, 그래픽 디자인 기본 원리, 인터랙션, 시각정보 디자인 7원칙

(4) 분석 모형 진단

  • 데이터 분석에서 분석 모형의 기본 가정에 대한 진단 없이 모형이 사용될 경우 그 결과가 오용될 수도 있다.
  • R과 같은 분석 소프트웨어 발달로 분석 결과를 쉽게 얻을 수 있지만 선택한 분석 방법이 적절했는지에 대해서는 진단이 필요하다
  • 분석 모형에 대한 기본 가정을 만족시키지 못했지만 가설검정은 통과하는 경우가 발생할 수도 있으므로 선정한 분석 모형에 대한 진단이 필요하다.
  • 다음은 대표적인 분석 모형인 회귀 분석에 대한 진단 방법을 나타낸 것이다.
  • 회귀 분석은 잔차를 이용하여 모형을 진단한다.
  • 회귀 모형에 대한 진단
    • 선형성 : 잔차의 산점도를 통하여 선형성 파악 (단순 회귀 모형의 경우)
    • 독립성 : 잔차의 산점도를 통하여 잔차들이 일정한 경향성 없이 일정하게 분포되었는지 확인. 통계량으로는 더빈-왓슨 검정 실시. (이때 귀무가설은 "자기 상관 관계가 없다" 즉 "독립적이다.")
    • 등분산성 : 잔차의 산점도로 파악. 잔차들의 흩어진 모양이 전체적으로 고르게 분포되었는지 확인.
    • 정상성(정규성) : 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정을 이용하여 검정. 시각화를 통한 검정 기법으로 Q-Q Plot을 주로 사용

3. 교차 검증

(1) 교차 검증 개념

  • 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법

(2) 교차 검증 종류

  1. 홀드 아웃 교차 검증
  • 홀드 아웃 교차 검증 개념 Holdout Cross Validation
    • 전체 데이터를 비복원 추출 방법을 이용해 랜덤하게 학습 데이터와 평가 데이터로 나눠 검증하는 기법
  • 홀드 아웃 교차 검증 특징
    • 일반적으로 5:5, 3:7, 2:1 등의 비율로 데이터를 나누어 학습(training)과 평가(test)에 사용한다
    • 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생한다.
    • 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다.
    • 홀드 아웃 교차 검증의 데이터 구분
      • 학습 데이터 : 분류기를 만들 때 사용하는 데이터
      • 검증 데이터 : 분류기들의 매개변수를 최적화하기 위해 사용하는 데이터
      • 평가 데이터 : 최적화된 분류기의 성능을 평가할 때 사용하는 데이터
  1. 랜덤 서브샘플링
  • 랜덤 서브샘플링 개념 : 모집단으로부터 조사의 대상이 되는 표본을 무작위로 추출하는 기법이다.
  • 랜덤 서브샘플링 특징 : 홀드아웃을 반복하여 데이터 손실 방지를 해결할 수 있다. 각 샘플들이 학습과 평가에 얼마나 많이 사용할 것인지 횟수를 제한하지 않아 특정 데이터만 학습되는 경우가 발생할 수 있다.
  1. K-Fold Cross Validation
  • K-Fold Cross Validation 개념 : 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그중 1개 집합을 평가 데이터(test set)로, 나머지 k-1개 집합을 학습 데이터(training set)로 선정하여 분석 모형을 평가하는 기법.
  • 모드 데이터를 학습(Training) 과 평가(Test)에 사용할 수 있으나, K값이 증가하면 수행 시간과 계산량도 많아진다.
  • K-Fold Cross Validation 절차
    • 동등 분할 : 전체 데이터를 K개 같은 크기의 부분집합으로 랜덤하게 나눔
    • 학습/평가 데이터 구성 : k-1개 부분집합들은 학습데이터로, 나머지 1개 부분집합은 평가 데이터로 하는 K개의 실험데이터를 구성
    • 분류기 학습 : 각 실험 데이터마다 학습 데이터로 분류기를 학습시키고, 평가 데이터로 분류기의 성능을 평가
    • 분류기 성능 확인 : 실험 결과 K개를 종합하여 해당 분류기의 최종 성능을 구함
  1. Leave-One-Out Cross Validation (LOOCV)
  • 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 (n-1)개는 학습 데이터로 사용하는 과정을 n번 반복하는 교차검증기법.
  • K-fold와 같은 방법을 사용하며, K는 전체 데이터 N과 같다. K=N
  • 가능한 많은 데이터를 학습에 사용할 수 있지만, 수행 시간과 계산량이 많다
  • 작은 크기의 데이터에 사용하기 좋다
  1. LpOCV (Leave-p-Out Cross Validation)
  • LpOCV는 LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용한다.
  • 계산 시간에 대한 부담이 매우 큼
  • nCp 10개 샘플데이터에서 p=2일 경우에 반복되는 교차 검증은 몇번? 10C2 → 10!/8!2! =10X9/2 = 45
  1. RLT (Repeated Learning-Testing)
  • 랜덤하게 비복원추출.
  • RLT 절차
    • 데이터 분리 : 랜덤하게 학습데이터와 검증 데이터 분리
    • 데이터 훈련 : 검증 데이터를 빼놓고 나머지 학습 데이터로 훈련
    • 에러 계산 : 검증 데이터로 에러 계산
    • 반복 : 차례대로 2-3을 2회 더 반복
    • 평균 오류율 계산 : 에러의 합 / 전체 샘플 수
  1. 부트스트랩
  • 개념 : 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법
  • 특징 :
    • 무작위 복원추출 방법으로, 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출하고 이를 학습 데이터로 함.
    • 전체 데이터 샘플이 N개이고 부트스트랩으로 N개의 샘플을 추출하는 경우 특정 샘플이 학습 데이터에 포함될 확률은 약 63.2%
    • 부트스트랩을 통해 100개의 샘플을 추출하더라도 샘플에 한 번도 선택되지 않는 원 데이터가 발생할 수 있는데 전체 샘플의 약 36.8%가 해당됨
    • 한 번도 포함되지 않는 샘플들은 평가에 사용함

(3) 주요 교차 검증 간의 비교

K-Fold 교차 검증은 n개의 데이터 세트에서 n/k 개의 데이터를 검증용 데이터로 사용하여 k번 반복 사용하고, LOOVC는 1개의 데이터를 검증용 데이터로 n번 박복 사용함

주요 교차 검증 방법의 장단점 비교

4. 모수 유의성 검정

검정 대상인 모집단의 평균과 분산에 따라 가설의 유의성을 검정한다.

(1) 모집단과 모수 관계

  • 모집단은 분석의 대상, 전체 그룹. 모수는 모집단을 설명하는 어떤 값. → 모집단의 평균은 모수임.
  • 표본은 모집단 분석을 위해 추출한 집단의 관측치. 통계량은 모집단을 설명하는 어떤 값을 표본으로부터 구한 값이다. → 표본으로부터 구한 평균은 통계량임.

(2) 모집단을 알고 있을 때 평균에 대한 유의성 검정

  1. Z-검정
  • Z-검정 개념 : 귀무가설에서 검정 통계량의 분포를 정규 분포로 근사할 수 있는 통계 검정이다.
  • Z-검정 절차
    • 정규 분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설을 검증하기 위해 사용한다.
    • 모집단 분산 σ²를 이미 알고 있을 때 분포의 평균을 테스트한다.
    • Z-검정 통계량 값이 임계치보다 크고 작음에 따라 가설을 기각 또는 채택함.
  1. T-검정
  • T-검정 개념 : 검정하는 통계량이 귀무가설 하에서 T-분포를 따르는 통계적 가설검정이다. 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용함
  • T-분포 특징 :
    • T-분포는 정규 분포의 평균을 측정할 때 많이 사용하는 분포.
    • 모집단이 정규 분포라는 정도만 알고, σ²(모분산)을 모를 때, s²(표본분산)으로 대체하여 모평균을 구할 때 사용한다.
    • 적은 표본으로도 모집단 평균을 추정하려고 정규 분포 대신에 사용되는 확률분포이다.
    • 표준 정규 분포와 유사하게 0을 중심으로 좌우대칭이나, 표준 정규 분포보다 평평하고 기다란 꼬리를 갖는다.
    • 자유도가 증가할수록 표준 정규 분포에 가까워진다. 자유도=표본수-1
    • 자유도가 30이 넘으면 표준 정규 분포와 비슷해지며 이를 '중심 극한 정리' 라고 함.

*등분산성 : 비교 집단들의 분산이 같다

  1. 분산 분석
  • 분산 분석 개념 : 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용해 가설검정을 수행하는 방법
  • 분산 분석 종류
    • 일원 분산 분석 : 하나의 독립변수의 변화가 종속 변수에 미치는 영향을 분석함, 하나의 독립변수에 의한 집단간의 차이를 비교함
    • 이원 분산 분석 : 하나의 독립변수의 변화가 독립변수에 미치는 영향이 다른 독립변수의 수준에 따라 달라지는지 분석함. 두 개의 독립변수에 의한 집단간의 차이를 비교함

(3) 모집단의 분산 유의성 검정

  1. 카이제곱 검정
  • 카이제곱 검정 개념
    • 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되며 카이제곱 분포에 기초한 통계적 검정 방법.
    • 단일 표본의 모집단이 정규 분포를 따르며 분산을 알고 있는 경우에 적용함
    • 두 집단 간의 동질성 검정에 활용됨
  • 카이제곱 분포
    • 각각 독립인 표준 정규 분포를 취하는 확률변수 Z의 제곱의 합 X를 따르는 확률 분포임.
    • 자유도 n이 작을수록 왼쪾으로 치우치는 비대칭적 모양.
    • 자유도 n≥3부터 단봉형태이고, n이 클수록 정규 분포에 가까워짐
  1. F-검정
  • F-검정 개념 : 두 표본의 분산에 대한 차이가 통계적으로 유의한가를 판별하는 검정 기법
  • 두 모집단 분산 간의 비율에 대한 검정이다.
  • F-검정 활용 사례
    • 표본 평균 : 동질성 검정에 이용
    • 다변량 정규 분포 : 평균 벡터 검정에 이용
    • 다중 상관계수 : 상관계수가 0인지에 대한 검정에 이용

5. 적합도 검정

(1) 적합도 검정 개념 Goodness of Fit Test

표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법

(2) 적합도 검정 기법 유형

  • 가정된 확률 검정 :
    • 가정된 확률이 정해져있을 경우에 사용하는 검정 방법
    • 카이제곱 검정을 이용하여 검정 수행. (귀무가설 : 데이터가 가정된 확률을 따름. 대립가설 : 데이터가 가정된 확률을 따르지 않음)
  • 정규성 검정 :
    • 가정된 확률이 정해져있지 않을 경우에 사용하는 기법.
    • 샤피로-윌크 검정, 콜모고로프-스미르노프 K-S 검정을 이용하여 검정 수행
    • 시각화를 통한 검정 기법으로 Q-Q Plot 을 사용
  1. 카이제곱 검정
  • R언어에서 chisq.test() 함수를 이용하여 나온 결과의 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있음.
  • 카이제곱 검정 결과 도출된 p-값이 0.05보다 크면 귀무가설을 채택함.
  1. 정규성 검증
  • 일반적으로 데이터가 정규 분포를 따른다는 가정 아래 검정 통계량과 p-값을 계산하므로, 정규성 가정을 만족하지 못한다면 모형의 타당성이 떨어지고 모형의 신뢰성을 의심받게 된다.
  • 정규성 검정을 수행해서 정규성 가정을 만족하는지 봐야 함
  • 표본이 2,000개 이상이면 K-S Test, 이하면 샤피로-윌크 검정을 주로 사용함
  • 샤피로-윌크 검정
    • R에서 shapiro.test() 함수를 이용. 귀무가설=표본은 정규분포를 따른다
    • shapiro.test() 함수의 인수에는 1개의 수치형 벡터만 사용할 수 있으며, 이때 데이터의 수는 3개부터 5,000개 이하만 사용이 가능(5,000개보다 큰 경우 오류가 발생)하다.
  • 콜모고로프-스미르노프 적합성 검정 K-S test
    • K-S검정은 데이터가 어떤 특정한 분포를 따르는가를 비교하는 검정 기법
    • 비교 기준이 되는 데이터를 정규 분포를 가진 데이터로 두어서 정규성 검정을 실시할 수 있다.
    • ks.test() 함수 이용. 인자는 x,y,alternative 등이 있음
    • x는 검정할 데이터, y는 비교 검정할 데이터이거나 이론적 분포. y에 이론적 분포를 이용한다면 평균과 표준편차를 입력할 수 있다.
    • alternative는 양측검정을 할 것인지, 단측검정을 할 것인지에 대한 인자이다.
  • Q-Q Plot
    • Q-Q Plot은 그래프를 이용하여 정규성 가정을 시각적으로 검정하는 방법이다.
    • Q-Q Plot에서 대각선 참조선을 따라서 값들이 분포하게 되면 정규성 가정을 만족한다고 할 수 있다.
    • 한쪽으로 치우치는 모습이라면 정규성 가정에 위배되었다고 볼 수 있다.
    • 한쪽으로 치우쳤다고 판단하는 기준이 모호하므로 결과 해석이 상당히 주관적일 수 있다.
    • 따라서 Q-Q Plot은 보조용으로 사용하는 것이 좋다.

 

혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함