[2.1 데이터 전처리_분석변수 처리] 차원 축소, 파생변수 생성, 변수 변환

Data Analyst/빅데이터 분석기사

[2.1 데이터 전처리_분석변수 처리] 차원 축소, 파생변수 생성, 변수 변환

Data Analyst / PO 2022. 3. 21. 18:04

2. 차원 축소

(1) 차원 축소 dimensionality reduction 개념

분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석 기법이다.
원래의 데이터를 최대한 효과적으로 축약하기 위해 목표변수는 사용하지 않고 특성변수(설명변수)만 사용하기 때문에 비지도 학습 머신러닝 기법이다.

(2) 차원 축소 특징

축약되는 변수 세트는 원래의 전체 데이터의 변수 정보는 최대한 유지
해당 변수 결합만으로도 전체변수를 적절히 설명할 수 있어야 함
하나의 완결된 분석기법으로 사용되기보다는 다른 분석과정을 위한 전단계, 분석수행 후 개선방법, 효과적인 시각화 목적.
고차원 변수보다 변환된 저차원으로 학습할 경우, 회귀나 분류, 클러스터링 등의 머신러닝 알고리즘이 더 잘 작동된다.
새로운 저차원 변수 공간에서 가시적으로 시각화하기도 함

(3) 차원축소 기법

주성분 분석 PCA (principal component analysis) : 변수들의 공분산 행렬이나 상관행렬을 이용. 원래 데이터 특징을 잘 설명해주는 성분을 추출하기 위해 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법. 행과 열의 수가 같은 정방형행렬에서만 사용
특이값 분해 SVD (singular value decomposition) : MxN 차원의 행렬 데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법
요인 분석 (Factor Analysis) : 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정. 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법. 주로 사회과학이나 설문 조사 등에서 많이 활용
독립성분 분석 ICA (independent component analysis) : 주성분 분석과는 달리 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리해 차원을 축소. 독립 성분의 분포는 비정규 분포를 따르게 되는 차원축소 기법
다차원 척도법 MDS (multi-dimensional scaling) : 개체들 사이의 유사성, 비유사성을 측정해 2차원 또는 3차원 공간상에 점으로 표현해 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

(4) 차원축소 기법 주요 활용 분야

탐색적 데이터 분석부터 정보 결과의 시각화까지 다양하게 활용
분석하려는 데이터가 많은 차원으로 구성되어 있을 때 더 쉽게 데이터를 학습하고 모델을 생성하고자 할 때 주로 활용됨
대상에 대한 패턴인식이나 추천시스템 구현 결과의 성능 등을 개선할 때도 사용함
- 주요 활용 분야
  - 탐색적 데이터 분석
  - 변수

3. 파생변수 (Derived Variance) 생성 (유도변수)

기존 변수에 특정 조건 혹은 함수를 사용해 새롭게 정의한 변수
데이터에 들어있는 변수만 이용해 분석할수도 있지만, 변수를 조합하거나 함수를 적용해 새 변수를 만들어 분석함
변수를 생성할 때에는 논리적 타당성과 기준을 가지고 생성하도록 함
- 파생변수 생성 방법
  - 단위 변환 : 24시간 → 하루
  - 표현 형식 변환 : 날짜로 요일 변환, 남여 를 01 이진 변수로 변환
  - 요약 통계량 변환 : 요약 통계량 등을 활용하여 생성. 고객별 누적 방문 횟수 집계
  - 변수 결합 : 다양한 함수 등 수학적 결합을 통해 새로운 변수를 정의. 매출액과 방문 횟수 데이터로 1회 평균 매출액 추출

4. 변수 변환 (Variable Transformation)

분석을 위해 불필요한 변수를 제거하고 변수를 반환하며 새로운 변수를 생성시키는 작업.
변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들변 분석하기 쉬움
- 변수 변환 방법
  - 단순 기능 변환 : 한 쪽으로 치우친 변수를 변환해 분석 모형을 적합하게 하는 방법. ex) 로그,역수,루트,제곱변환
  - 비닝 : 기존 데이터를 범주화하기 위해 사용. categorizaiton 기술의 결정은 비즈니스 도메인 지식 필요. 두 개 이상 변수의 값에 따라 공변량 비닝 수행 ex) 수입을 상, 중, 하의 범주로 나누기
  - 정규화 : 데이터를 특정 구간으로 바꾸는 척도법. 최소-최대 정규화, Z-스코어 정규화. ex) 공식.
  - 표준화 : 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법. 표준화와 정규화는 데이터 전처리에서 상호 교환하여 사용. 공식.

(1) 단순 기능 변환 방법 (simple functions transformation) : 단순한 함수로 변환하는 기능

로그 : 변수의 분포를 변경하기 위함. 분포가 오른쪽으로 기울어진 것을 감소. 로그 특성상 0 과 음수는 적용 불가
제곱/세제곱 루트 변환 : 로그에 비해 많이 사용 안함. 세제곱 루트 변환은 음수값과 0에 적용 가능. 제곱 루트 변환은 0을 포함한 양수 값이 가능

(2) 비닝 binning

비닝은 데이터값을 몇 개의 bin(bucket)으로 분할하여 계산하는 방법이다.
데이터 평활화(벗어나는 값 변환)에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.
- 동일 빈도 빈으로 분할 후 빈 평균으로 평활화

(3) 변수 변환 사례 : 분석 모델 만들기 전 최적화 모델을 만들기 위해 적용됨.

매출, 판매수량, 가격, 가구소득 : log(x)
지리적 거리 : 1/x, 1/x2, log(x)
효용에 근거한 시장 점유율, 선호점유율 : e2/1+e2
우측으로 꼬리가 긴 분포 : 루트x, log(x)
좌측으로 꼬리가 긴 분포 : x2