티스토리 뷰

반응형

1. 데이터 탐색 개요

(1) 데이터 탐색의 개념

  • 데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.
  • EDA 4가지 주제별 특징이 중요.

(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s

  • 탐색적 데이터 분석의 4가지 주제
    • 저항성 resistance
      • 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
      • 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
      • 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(median)를 대푯값으로 선호
    • 잔차해석 residual
      • 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
      • 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
      • 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
    • 자료 재표현 re-expression - 로그변환, 제곱근변환, 역수변환
      • 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
      • 자료의 재표현을 통해 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조 파악과 해석에 도움을 얻는 경우가 많음
    • 현시성 graphic representation
      • Display, Visulization, 데이터 시각화로도 불림
      • 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
      • 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능

(3) 개별 변수 탐색 방법

  • 범주형 데이터 (질적 데이터) : 명목척도와 순위 척도에 대한 데이터 탐색. 막대형 그래프. 빈도수, 최빈값, 비율, 백분율 등을 이용해 데이터 분포 특성을 중심성, 변동성 측면에서 파악
  • 수치형 데이터 (양적 데이터) : 등간 척도와 비율 척도에 대한 데이터 탐색. 박스플롯이나 히스토그램. 평균, 분산, 표준편차 등을 이용해 데이터 분포 특성을 중심성, 변동성, 정규성 측면에서 파악

(4) 다차원 데이터 탐색 방법

  • 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 시각화 막대형 그래프(bar plot)를 주로 이용
  • 수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용해 시각화. 공분산을 통해 방향성 파악. 피어슨 상관관계수를 통해 방향과 각도 파악
  • 범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교. 그룹 간 비교를 위해 주로 박스 플롯으로 시각화

2. 상관관계 분석

(1) 상관관계 분석의 개념 Correlation Analysis

  • 상관관계 분석이란 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법이다
  • 예를 들면, A기업에서 광고비 지출이 매출액의 증가에 어느정도 영향이 있는지를 파악할 때 사용하는 방법이다.

(2) 변수 사이의 상관관계의 종류

  • 양(+)의 상관관계 : 정비례. 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
  • 음(-)의 상관관계 : 반비례.
  • 상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

(3) 상관관계의 표현 방법

  1. 산점도(Scatter Plot)를 통한 표현 방법 : 변수 사이의 관계를 산점도 그래프를 통해 표현하는 방법.
  2. 공분산(Covariance)을 통한 표현 방법 공분산의 개념 : 2개 변수 사이의 상관 정도를 나타내는 값 공분산의 수학적 정의 : 공분산(COV) 해석 : COV>0 → 2개 변수 중 하나가 상승하면 다른값도 상승. COV<0 → 하나의 값이 상승하면 다른 값이 하강. 공분산 음수가 됨. 공분산의 특징 : 상관관계 혹은 하강하는 경향을 이해할 수 있음. 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
  3. 상관계수(Correlation Coefficient)를 통한 표현 방법 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법 상관계수(r)의 범위 : -1≤r≤1 (상관계수가 절댓값 1에 가까울수록 강한 상관관계)

(4) 상관관계 분석의 분류

  1. 변수의 개수에 따른 분류

분석 대상 변수 개수가 2개 = 산순상관분석, 변수의 개수가 3개 이상 = 다중상관분석

  • 변수의 개수에 따른 상관성 분석 방법의 종류
    • 단순 상관 분석 : 2개. 나이와 급여 사이의 상관관계
    • 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석. 직위, 나이, 급여 사이의 상관성 분석
  • 변수의 속성에 따른 상관성 분석 방법의 분류
    • 수치적 데이터 = 피어슨 상관계수 Pearson
      • 수치형 데이터인 등간 척도, 비율 척도에 해당
      • 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 : 나이, 몸무게, 이동 거리
      • 변수의 연산이 가능 : 이동거리의 평균
    • 순서적 데이터 = 스피어만 순위 상관 분석Spearman
      • 성적순, 학력, 변수의 연산 불가능
    • 명목적 데이터 = 카이제곱 검정(교차분석)
      • 명목척도. 데이터 특성 구분을 위해 숫자나 기호을 할당한 데이터 변수. 변수의 연산 불가능. 성별, 1반3반5반
  • 수치적 데이터의 상관성 분석
    • 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
    • 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다.
    • 전제조건 : 두 변수의 분산이 동일하다는 전제조건 아래에서 사용함.
  • 명목적 데이터의 상관성 분석
    • 두 변수가 지역과 종교같은 명목적 데이터일 경우에 두 변수 사이의 연관성은 X2(chi-squared:카이제곱) 검정을 통하여 분석한다.
    • 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수(변수사이 통계관계표현)를 계산하는 것은 큰 의미가 없다
    • 카이제곱 검정은 교차 분석이라고도 불린다.
  • 순서적 데이터의 상관성 분석
    • 두 변수가 언어 성적 순위와 수리성적 순위같은 순서적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
    • 순서적 데이터의 분석에는 스피어만 순위상관계수를 이용해 분석한다.
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함