Data Analyst/빅데이터 분석기사
[2.1 데이터 전처리_분석변수 처리] 변수 선택 , 지도 방식, 비지도 방식
Data Analyst / PO
2022. 3. 21. 17:58
반응형
1. 변수 선택
(1) 변수 Feature 개념
- 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수
- RDBMS에서 '속성(열)'이라고 부르는 것을 머신러닝에서는 통계학의 영향으로 '변수(Feature)'라고 한다. (키와체중으로 성별을 예측할 때 변수는 3개다.)
- 키, 체중처럼 값이 알려진 값과 성별처럼 값을 예측해야 되는 값은 다른 유형으로 구분한다.
- 변수 명칭
- 알려진 값 : 변수(feature), 속성(attribute), 예측 변수(Predictor), 차원(dimension), 관측치(observation), 독립변수 (independent Variable)
- 예측 값 : 라벨(label), 클래스(class), 목푯값 (target), 반응(response), 종속변수(dependent variable)
- 변수 명칭
(2) 변수 유형
- 인과관계
- 독립 변수 :
- 종속변수
- 변수 속성
- 범주형 : 명목형, 순서형
- 수치형 : 이산형(변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우), 연속형
- 독립 변수 : 예측 변수, 회귀자, 통제변수, 조작변수, 노출변수, 리스크팩터, 설명변수, 입력변수
- 종속 변수 : 독립변수(실험변수)의 영향을 받아 그 값이 변할 것이라고 가정한 변수
- 변수 간 관계 : 연속형 자료=공변량(Covariate), 범주형 자료=요인(factor)
(3) 변수 선택
- 변수 선택 Feature Selection 개념
- 데이터의 독립변수(x) 중 종속변수(y)에 가장 관련성이 높은 변수(feature)만을 선정하는 방법이다.
- 변수 선택 특징
- 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합으 줄여 일반화를 해주는 장점이 있다.
- 변수 선택을 통하여 모델의 정확도 향상 및 성능 향상을 기대할 수 있다.
*차원의 저주 : 차원이 증가할수록 샘플데이터 증가
*과적합 over-fitting : 제한된 학습 데이터 세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 커지는 현상
- 변수 선택 기법
- 예측대상이 되는 분류를 참고하지 않고 변수들만으로 수행하는 비지도 방식과 분류를 참고하여 변수를 선택하는 지도 방식으로 분류.
- 비지도 방식 (unsupervised) : 입력값만 있는 훈련 데이터를 이용해 입력들이 규칙성을 찾는 기계학습 (machine learning)의 한 방법
- 차원축소
- 지도 방식 (supervised) : 지도 방식은 훈련 데이터(training data)로부터 하나의 함수를 유추해내기 위한 기계학습의 한 방법
- 필터 기법 filter method : 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법
- 래퍼 기법 wrapper method : 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 택해나가는 기법
- 임베디드 기법 embedded method : 모델 자체에 변수 선택이 포함된 기법
- 변수 선택 기법 상세 (그림 참고)
- 필터 기법 : 계산 속도가 빠르고 변수 간 상관관계를 알아내는 데 적합해 래퍼 기법을 사용하기 전에 전처리하는 데 사용한다.
- 필터 기법 사례
- 정보 소득 information gain : 가장 정보 소득이 높은 속성을 선택해 데이터를 더 잘 구분하게 하는 것
- 카이제곱 검정 chi-square test : 관찰된 빈도가 기대되는 빈도와 의미있게 다른지 여부를 검증하기 위해 사용되는 검증 방법
- 피셔 스코어 fisher score : 최대 가능성 방정식을 풀기 위해 통계에 사용되는 뉴턴의 방법
- 상관계수 correlation coefficient : 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치로 나타낸 계수
- 필터 기법 사례
- 래퍼 기법 :
- 예측 정확도 측면에서 가장 좋은 성능을 보이는 하위 집합을 선택하는 기법.
- 검색 가능한 방법으로 하위 집합을 반복해서 선택하여 테스트하는 것이므로 그리디 알고리즘에 속한다.
- 그리디 알고리즘 : 문제를 해결하는 과정에서 순간마다 최적의 결정 방식을 통해 최종 해답에 도달하는 문제해결방식
- 반복하여 선택하는 방법으로 시간이 오래 걸리고 부분집합의 수가 기하급수적으로 늘어 과적합의 위험이 발생함.
- 필터방법보다 예측 정확도가 높음
- 변수 선택을 위한 알고리즘과 선택기준을 결정해야 한다.
- 변수 선택을 위한 알고리즘 유형
- 전진 선택법 : 모형을 가장 많이 향상시키는 변수를 하나씩 점진적으로 추가하는 방법. 비어 있는 상태에서 시작하며 변수 추가 시 선택 기준이 향상되지 않으므로 변수 추가를 중단
- 후진 제거법 : 모두 포함된 상태에서 시작하며 가장 적은 영향을 주는 변수부터 하나씩 제거. 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거를 중단
- 단계적 방법 : 전진 선택과 후진 제거를 함께 사용하는 방법
- 래퍼 기법 상세
- RFE recursive feature elimination : SVM(support vector machine)을 사용하여 재귀적으로 제거하는 방법. 전진 선택, 후진 제거, 단계적 방법 이용.
- SFS sequential feature selection : 그리디 알고리즘으로 빈 부분 집합에서 특성 변수를 하나씩 추가하는 방법
- 유전 알고리즘 genetic algorithm : 자연 세계의 진화과정에 기초한 계산 모델. 존 홀랜드가 1975년에 개발한 전역 최적화 기법, 최적화 문제를 해결하는 기법
- 단변량 선택 univariate selection : 하나의 변수선택법으로 각 피처를 개별적으로 검사하여 피처와 반응변수 간 관계의 강도를 결정하는 방법 . 실행 및 이해가 간단
- mRMR minimum redundancy maximum relevance : 특성 변수의 중복성을 최소화하는 방법. 종속 변수를 잘 예측하면서, 독립변수들과도 중복성이 적은 변수들을 선택하는 방법
- 변수 선택을 위한 알고리즘 유형
- 임베디드 기법 : 모델의 정확도에 기여하는 변수를 학습함. 좀더 적은 계수를 가지는 회귀식을 찾는 방향으로 제약조건을 주어 이를 제어함
- 임베디드 기법 사례
- 라쏘 LASSO : 가중치의 절댓값의 합을 최소화하는 것을 추가적인 제약조건으로 하는 방법. L1-norm을 통해 제약을 주는 방법
- 릿지 Ridge : 가중치들의 제곱 합을 최소화하는 것을 추가적인 제약조건으로 하는 방법. L2-norm을 통해 제약을 주는 방법
- 엘라스틱 넷 Elastic Net : 가중치 절댓값의 합과 제곱합을 동시에 추가적인 제약조건으로 하는 방법 . 라쏘와 릿지 두개를 선형 결합한 방법
- SelectFromModel : 의사결정나무 기반 알고리즘에서 변수를 선택하는 방법
- 임베디드 기법 사례
- 필터 기법 : 계산 속도가 빠르고 변수 간 상관관계를 알아내는 데 적합해 래퍼 기법을 사용하기 전에 전처리하는 데 사용한다.
반응형