Data Analyst/빅데이터 분석기사

[2.1 데이터 전처리_분석변수 처리] 차원 축소, 파생변수 생성, 변수 변환

Data Analyst / PO 2022. 3. 21. 18:04
반응형

2. 차원 축소

(1) 차원 축소 dimensionality reduction 개념

  • 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석 기법이다.
  • 원래의 데이터를 최대한 효과적으로 축약하기 위해 목표변수는 사용하지 않고 특성변수(설명변수)만 사용하기 때문에 비지도 학습 머신러닝 기법이다.

(2) 차원 축소 특징

  • 축약되는 변수 세트는 원래의 전체 데이터의 변수 정보는 최대한 유지
  • 해당 변수 결합만으로도 전체변수를 적절히 설명할 수 있어야 함
  • 하나의 완결된 분석기법으로 사용되기보다는 다른 분석과정을 위한 전단계, 분석수행 후 개선방법, 효과적인 시각화 목적.
  • 고차원 변수보다 변환된 저차원으로 학습할 경우, 회귀나 분류, 클러스터링 등의 머신러닝 알고리즘이 더 잘 작동된다.
  • 새로운 저차원 변수 공간에서 가시적으로 시각화하기도 함

(3) 차원축소 기법

  • 주성분 분석 PCA (principal component analysis) : 변수들의 공분산 행렬이나 상관행렬을 이용. 원래 데이터 특징을 잘 설명해주는 성분을 추출하기 위해 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법. 행과 열의 수가 같은 정방형행렬에서만 사용
  • 특이값 분해 SVD (singular value decomposition) : MxN 차원의 행렬 데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법
  • 요인 분석 (Factor Analysis) : 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정. 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법. 주로 사회과학이나 설문 조사 등에서 많이 활용
  • 독립성분 분석 ICA (independent component analysis) : 주성분 분석과는 달리 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리해 차원을 축소. 독립 성분의 분포는 비정규 분포를 따르게 되는 차원축소 기법
  • 다차원 척도법 MDS (multi-dimensional scaling) : 개체들 사이의 유사성, 비유사성을 측정해 2차원 또는 3차원 공간상에 점으로 표현해 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

(4) 차원축소 기법 주요 활용 분야

  • 탐색적 데이터 분석부터 정보 결과의 시각화까지 다양하게 활용
  • 분석하려는 데이터가 많은 차원으로 구성되어 있을 때 더 쉽게 데이터를 학습하고 모델을 생성하고자 할 때 주로 활용됨
  • 대상에 대한 패턴인식이나 추천시스템 구현 결과의 성능 등을 개선할 때도 사용함
    • 주요 활용 분야
      • 탐색적 데이터 분석
      • 변수

3. 파생변수 (Derived Variance) 생성 (유도변수)

  • 기존 변수에 특정 조건 혹은 함수를 사용해 새롭게 정의한 변수
  • 데이터에 들어있는 변수만 이용해 분석할수도 있지만, 변수를 조합하거나 함수를 적용해 새 변수를 만들어 분석함
  • 변수를 생성할 때에는 논리적 타당성과 기준을 가지고 생성하도록 함
    • 파생변수 생성 방법
      • 단위 변환 : 24시간 → 하루
      • 표현 형식 변환 : 날짜로 요일 변환, 남여 를 01 이진 변수로 변환
      • 요약 통계량 변환 : 요약 통계량 등을 활용하여 생성. 고객별 누적 방문 횟수 집계
      • 변수 결합 : 다양한 함수 등 수학적 결합을 통해 새로운 변수를 정의. 매출액과 방문 횟수 데이터로 1회 평균 매출액 추출

4. 변수 변환 (Variable Transformation)

  • 분석을 위해 불필요한 변수를 제거하고 변수를 반환하며 새로운 변수를 생성시키는 작업.
  • 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들변 분석하기 쉬움
    • 변수 변환 방법
      • 단순 기능 변환 : 한 쪽으로 치우친 변수를 변환해 분석 모형을 적합하게 하는 방법. ex) 로그,역수,루트,제곱변환
      • 비닝 : 기존 데이터를 범주화하기 위해 사용. categorizaiton 기술의 결정은 비즈니스 도메인 지식 필요. 두 개 이상 변수의 값에 따라 공변량 비닝 수행 ex) 수입을 상, 중, 하의 범주로 나누기
      • 정규화 : 데이터를 특정 구간으로 바꾸는 척도법. 최소-최대 정규화, Z-스코어 정규화. ex) 공식.
      • 표준화 : 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법. 표준화와 정규화는 데이터 전처리에서 상호 교환하여 사용. 공식.

(1) 단순 기능 변환 방법 (simple functions transformation) : 단순한 함수로 변환하는 기능

  • 로그 : 변수의 분포를 변경하기 위함. 분포가 오른쪽으로 기울어진 것을 감소. 로그 특성상 0 과 음수는 적용 불가
  • 제곱/세제곱 루트 변환 : 로그에 비해 많이 사용 안함. 세제곱 루트 변환은 음수값과 0에 적용 가능. 제곱 루트 변환은 0을 포함한 양수 값이 가능

(2) 비닝 binning

  • 비닝은 데이터값을 몇 개의 bin(bucket)으로 분할하여 계산하는 방법이다.
  • 데이터 평활화(벗어나는 값 변환)에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.
    • 동일 빈도 빈으로 분할 후 빈 평균으로 평활화

(3) 변수 변환 사례 : 분석 모델 만들기 전 최적화 모델을 만들기 위해 적용됨.

  • 매출, 판매수량, 가격, 가구소득 : log(x)
  • 지리적 거리 : 1/x, 1/x2, log(x)
  • 효용에 근거한 시장 점유율, 선호점유율 : e2/1+e2
  • 우측으로 꼬리가 긴 분포 : 루트x, log(x)
  • 좌측으로 꼬리가 긴 분포 : x2
반응형