티스토리 뷰

반응형
  1. 데이터 탐색 개요
  2. 상관관계 분석
  3. 기초통계량 추출 및 이해
  4. 시각적 데이터 탐색

[빅분기2단원]2.1데이터탐색기초.pdf
0.28MB


1. 데이터 탐색 개요

(1) 데이터 탐색의 개념

  • 데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.
  • EDA 4가지 주제별 특징이 중요.

(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s

  • 탐색적 데이터 분석의 4가지 주제
    • 저항성 resistance
      • 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
      • 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
      • 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(median)를 대푯값으로 선호
    • 잔차해석 residual
      • 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
      • 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
      • 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
    • 자료 재표현 re-expression - 로그변환, 제곱근변환, 역수변환
      • 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
      • 자료의 재표현을 통해 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조 파악과 해석에 도움을 얻는 경우가 많음
    • 현시성 graphic representation
      • Display, Visulization, 데이터 시각화로도 불림
      • 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
      • 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능

(3) 개별 변수 탐색 방법

  • 범주형 데이터 (질적 데이터) : 명목척도와 순위 척도에 대한 데이터 탐색. 막대형 그래프. 빈도수, 최빈값, 비율, 백분율 등을 이용해 데이터 분포 특성을 중심성, 변동성 측면에서 파악
  • 수치형 데이터 (양적 데이터) : 등간 척도와 비율 척도에 대한 데이터 탐색. 박스플롯이나 히스토그램. 평균, 분산, 표준편차 등을 이용해 데이터 분포 특성을 중심성, 변동성, 정규성 측면에서 파악

(4) 다차원 데이터 탐색 방법

  • 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 시각화 막대형 그래프(bar plot)를 주로 이용
  • 수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용해 시각화. 공분산을 통해 방향성 파악. 피어슨 상관관계수를 통해 방향과 각도 파악
  • 범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교. 그룹 간 비교를 위해 주로 박스 플롯으로 시각화

2. 상관관계 분석

(1) 상관관계 분석의 개념 Correlation Analysis

  • 상관관계 분석이란 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법이다
  • 예를 들면, A기업에서 광고비 지출이 매출액의 증가에 어느정도 영향이 있는지를 파악할 때 사용하는 방법이다.

(2) 변수 사이의 상관관계의 종류

  • 양(+)의 상관관계 : 정비례. 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
  • 음(-)의 상관관계 : 반비례.
  • 상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

(3) 상관관계의 표현 방법

  1. 산점도(Scatter Plot)를 통한 표현 방법 : 변수 사이의 관계를 산점도 그래프를 통해 표현하는 방법.
  2. 공분산(Covariance)을 통한 표현 방법 공분산의 개념 : 2개 변수 사이의 상관 정도를 나타내는 값 공분산의 수학적 정의 : 공분산(COV) 해석 : COV>0 → 2개 변수 중 하나가 상승하면 다른값도 상승. COV<0 → 하나의 값이 상승하면 다른 값이 하강. 공분산 음수가 됨. 공분산의 특징 : 상관관계 혹은 하강하는 경향을 이해할 수 있음. 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
  3. 상관계수(Correlation Coefficient)를 통한 표현 방법 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법 상관계수(r)의 범위 : -1≤r≤1 (상관계수가 절댓값 1에 가까울수록 강한 상관관계)

(4) 상관관계 분석의 분류

  1. 변수의 개수에 따른 분류

분석 대상 변수 개수가 2개 = 산순상관분석, 변수의 개수가 3개 이상 = 다중상관분석

  • 변수의 개수에 따른 상관성 분석 방법의 종류
    • 단순 상관 분석 : 2개. 나이와 급여 사이의 상관관계
    • 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석. 직위, 나이, 급여 사이의 상관성 분석
  • 변수의 속성에 따른 상관성 분석 방법의 분류
    • 수치적 데이터 = 피어슨 상관계수 Pearson
      • 수치형 데이터인 등간 척도, 비율 척도에 해당
      • 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 : 나이, 몸무게, 이동 거리
      • 변수의 연산이 가능 : 이동거리의 평균
    • 순서적 데이터 = 스피어만 순위 상관 분석Spearman
      • 성적순, 학력, 변수의 연산 불가능
    • 명목적 데이터 = 카이제곱 검정(교차분석)
      • 명목척도. 데이터 특성 구분을 위해 숫자나 기호을 할당한 데이터 변수. 변수의 연산 불가능. 성별, 1반3반5반
  • 수치적 데이터의 상관성 분석
    • 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
    • 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다.
    • 전제조건 : 두 변수의 분산이 동일하다는 전제조건 아래에서 사용함.
  • 명목적 데이터의 상관성 분석
    • 두 변수가 지역과 종교같은 명목적 데이터일 경우에 두 변수 사이의 연관성은 X2(chi-squared:카이제곱) 검정을 통하여 분석한다.
    • 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수(변수사이 통계관계표현)를 계산하는 것은 큰 의미가 없다
    • 카이제곱 검정은 교차 분석이라고도 불린다.
  • 순서적 데이터의 상관성 분석
    • 두 변수가 언어 성적 순위와 수리성적 순위같은 순서적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
    • 순서적 데이터의 분석에는 스피어만 순위상관계수를 이용해 분석한다.

3. 기초통계량 추출 및 이해

(1) 중심 경향성의 통계량 : 평균, 중위수(중앙값), 최빈값

중위수 : 홀수면 n+1/2에 있는 수

최빈값 : 가장 많이 관측되는 수

(2) 산포도의 통계량 : 흩어진 정도 표현. 범위, 분산, 표준편차

  • 범위 = 최댓값 - 최솟값
  • 분산 : 평균으로부터 흩어진 정도. 편차 : 데이터-평균. 이므로, "편차의 제곱의 합"으로 계산. 모분산 = 편차의 제곱의 합 / 모집단의 수 표본 분산 = 데이터-표본평균의 제곱의 합 / 표본의 수 -1
  • 표준편차 : 분산의 양의 제곱근의 값 = 분산에 루트 씌운거.
  • 변동계수 CV Coefficient of Variation :
    • 측정 단위가 서로 다른 경우. 표준편차나 분산은 단위가 다른 두 자료 군의 산표도를 비교하는데는 부적절함.
    • 상대표준편차
    • 표준편차를 표본평균으로 나눈 값.
    • 값이 클수록 상대적인 차이가 크다.
    • 평균과 표준편차를 나누어서 단위가 없으므로 서로 다른 단위의 산포도를 비교할 수 있다.
    • 표준편차 / 평균
  • 사분위 수 범위 IQR InterQuartile Range
    • 자료들의 중간 50%에 포함되는 자료의 산포도를 나타냄. 제1 사분위수와 제3 사분위수의 차이.
      • 사분위 수 구하는법 : 오름차순정렬 → 중위수 구함 → 중위수 기준 좌측중의수(Q1)과 우측중위수(Q3) 각각 구함. → IQR=Q3-Q1

(3) 데이터의 분포를 나타내는 통계량

  • 왜도 : 정규분포로부터 오,왼으로 치우친 정도를 보여주는 값
    • 왼쪽 편포(왜도<0) : 평균<중위수<최빈값. 왼쪽편포(왼쪽 꼬리 분포)의 왜도는 0보다 작음
    • 오른쪽 편포(왜도>0) : 최빈값<중위수<평균 : 오른쪽편포(오른쪽 꼬리 분포)의 왜도는 0보다 큼
  • 첨도
    • 위아래로 뾰족한 정도. 정규분포의 첨도는 3이지만 그걸 0으로 기준잡음.
    • 첨도>0 → 뾰족한 그래프

4. 시각적 데이터 탐색

(1) 히스토그램 : 자료 분포 형태를 직사각형으로. 가로축은 수치형 데이터. 연속형 자료에 대한 도수분소표

(2) 막대형 그래프 Barplot : 막대 넓이가 다를 수 있음

(3) 박스 플롯 Boxplot :

  • 수염 whiskers : Q3,Q1로부터 IQR 의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
  • 상위경계, 하위경계 : Q1-1.5IQR, Q3+1.5IQR

(4) 산점도 Scatter Plot : 연속형 변수의 상관관계 파악에 가장 도움 됨

혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
 
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함