티스토리 뷰
Data Analyst/빅데이터 분석기사
[2.2 데이터 탐색_기초] 상관관계, 수치형, 순서형, 명목형 속성에 따른 상관성 분석 종류
Data Analyst / PO 2022. 3. 21. 18:13반응형
1. 데이터 탐색 개요
(1) 데이터 탐색의 개념
- 데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.
- EDA 4가지 주제별 특징이 중요.
(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s
- 탐색적 데이터 분석의 4가지 주제
- 저항성 resistance
- 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
- 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
- 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(median)를 대푯값으로 선호
- 잔차해석 residual
- 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
- 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
- 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
- 자료 재표현 re-expression - 로그변환, 제곱근변환, 역수변환
- 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
- 자료의 재표현을 통해 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조 파악과 해석에 도움을 얻는 경우가 많음
- 현시성 graphic representation
- Display, Visulization, 데이터 시각화로도 불림
- 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
- 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능
- 저항성 resistance
(3) 개별 변수 탐색 방법
- 범주형 데이터 (질적 데이터) : 명목척도와 순위 척도에 대한 데이터 탐색. 막대형 그래프. 빈도수, 최빈값, 비율, 백분율 등을 이용해 데이터 분포 특성을 중심성, 변동성 측면에서 파악
- 수치형 데이터 (양적 데이터) : 등간 척도와 비율 척도에 대한 데이터 탐색. 박스플롯이나 히스토그램. 평균, 분산, 표준편차 등을 이용해 데이터 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
(4) 다차원 데이터 탐색 방법
- 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 시각화 막대형 그래프(bar plot)를 주로 이용
- 수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용해 시각화. 공분산을 통해 방향성 파악. 피어슨 상관관계수를 통해 방향과 각도 파악
- 범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교. 그룹 간 비교를 위해 주로 박스 플롯으로 시각화
2. 상관관계 분석
(1) 상관관계 분석의 개념 Correlation Analysis
- 상관관계 분석이란 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법이다
- 예를 들면, A기업에서 광고비 지출이 매출액의 증가에 어느정도 영향이 있는지를 파악할 때 사용하는 방법이다.
(2) 변수 사이의 상관관계의 종류
- 양(+)의 상관관계 : 정비례. 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
- 음(-)의 상관관계 : 반비례.
- 상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계
(3) 상관관계의 표현 방법
- 산점도(Scatter Plot)를 통한 표현 방법 : 변수 사이의 관계를 산점도 그래프를 통해 표현하는 방법.
- 공분산(Covariance)을 통한 표현 방법 공분산의 개념 : 2개 변수 사이의 상관 정도를 나타내는 값 공분산의 수학적 정의 : 공분산(COV) 해석 : COV>0 → 2개 변수 중 하나가 상승하면 다른값도 상승. COV<0 → 하나의 값이 상승하면 다른 값이 하강. 공분산 음수가 됨. 공분산의 특징 : 상관관계 혹은 하강하는 경향을 이해할 수 있음. 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
- 상관계수(Correlation Coefficient)를 통한 표현 방법 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법 상관계수(r)의 범위 : -1≤r≤1 (상관계수가 절댓값 1에 가까울수록 강한 상관관계)
(4) 상관관계 분석의 분류
- 변수의 개수에 따른 분류
분석 대상 변수 개수가 2개 = 산순상관분석, 변수의 개수가 3개 이상 = 다중상관분석
- 변수의 개수에 따른 상관성 분석 방법의 종류
- 단순 상관 분석 : 2개. 나이와 급여 사이의 상관관계
- 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석. 직위, 나이, 급여 사이의 상관성 분석
- 변수의 속성에 따른 상관성 분석 방법의 분류
- 수치적 데이터 = 피어슨 상관계수 Pearson
- 수치형 데이터인 등간 척도, 비율 척도에 해당
- 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 : 나이, 몸무게, 이동 거리
- 변수의 연산이 가능 : 이동거리의 평균
- 순서적 데이터 = 스피어만 순위 상관 분석Spearman
- 성적순, 학력, 변수의 연산 불가능
- 명목적 데이터 = 카이제곱 검정(교차분석)
- 명목척도. 데이터 특성 구분을 위해 숫자나 기호을 할당한 데이터 변수. 변수의 연산 불가능. 성별, 1반3반5반
- 수치적 데이터 = 피어슨 상관계수 Pearson
- 수치적 데이터의 상관성 분석
- 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다.
- 전제조건 : 두 변수의 분산이 동일하다는 전제조건 아래에서 사용함.
- 명목적 데이터의 상관성 분석
- 두 변수가 지역과 종교같은 명목적 데이터일 경우에 두 변수 사이의 연관성은 X2(chi-squared:카이제곱) 검정을 통하여 분석한다.
- 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수(변수사이 통계관계표현)를 계산하는 것은 큰 의미가 없다
- 카이제곱 검정은 교차 분석이라고도 불린다.
- 순서적 데이터의 상관성 분석
- 두 변수가 언어 성적 순위와 수리성적 순위같은 순서적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 순서적 데이터의 분석에는 스피어만 순위상관계수를 이용해 분석한다.
반응형
'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글
[2.2 데이터 탐색_고급 데이터 탐색] 시공간, 다변량, 비정형 데이터 탐색 (0) | 2022.03.21 |
---|---|
[2.2 데이터 탐색_기초] 변동계수 CV, 왜도 첨도 (0) | 2022.03.21 |
[2.1 데이터 전처리_분석변수 처리] 불균형 데이터 처리 (0) | 2022.03.21 |
[2.1 데이터 전처리_분석변수 처리] 차원 축소, 파생변수 생성, 변수 변환 (0) | 2022.03.21 |
[2.1 데이터 전처리_분석변수 처리] 변수 선택 , 지도 방식, 비지도 방식 (0) | 2022.03.21 |