[2.2 데이터 탐색_기초] 상관관계, 수치형, 순서형, 명목형 속성에 따른 상관성 분석 종류

티스토리 뷰

Data Analyst/빅데이터 분석기사

[2.2 데이터 탐색_기초] 상관관계, 수치형, 순서형, 명목형 속성에 따른 상관성 분석 종류

Data Analyst / PO 2022. 3. 21. 18:13

1. 데이터 탐색 개요

(1) 데이터 탐색의 개념

데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.
EDA 4가지 주제별 특징이 중요.

(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s

탐색적 데이터 분석의 4가지 주제
- 저항성 resistance
  - 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
  - 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
  - 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(median)를 대푯값으로 선호
- 잔차해석 residual
  - 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
  - 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
  - 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
- 자료 재표현 re-expression - 로그변환, 제곱근변환, 역수변환
  - 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
  - 자료의 재표현을 통해 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조 파악과 해석에 도움을 얻는 경우가 많음
- 현시성 graphic representation
  - Display, Visulization, 데이터 시각화로도 불림
  - 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
  - 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능

(3) 개별 변수 탐색 방법

범주형 데이터 (질적 데이터) : 명목척도와 순위 척도에 대한 데이터 탐색. 막대형 그래프. 빈도수, 최빈값, 비율, 백분율 등을 이용해 데이터 분포 특성을 중심성, 변동성 측면에서 파악
수치형 데이터 (양적 데이터) : 등간 척도와 비율 척도에 대한 데이터 탐색. 박스플롯이나 히스토그램. 평균, 분산, 표준편차 등을 이용해 데이터 분포 특성을 중심성, 변동성, 정규성 측면에서 파악

(4) 다차원 데이터 탐색 방법

범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 시각화 막대형 그래프(bar plot)를 주로 이용
수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용해 시각화. 공분산을 통해 방향성 파악. 피어슨 상관관계수를 통해 방향과 각도 파악
범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교. 그룹 간 비교를 위해 주로 박스 플롯으로 시각화

2. 상관관계 분석

(1) 상관관계 분석의 개념 Correlation Analysis

상관관계 분석이란 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법이다
예를 들면, A기업에서 광고비 지출이 매출액의 증가에 어느정도 영향이 있는지를 파악할 때 사용하는 방법이다.

(2) 변수 사이의 상관관계의 종류

양(+)의 상관관계 : 정비례. 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
음(-)의 상관관계 : 반비례.
상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

(3) 상관관계의 표현 방법

산점도(Scatter Plot)를 통한 표현 방법 : 변수 사이의 관계를 산점도 그래프를 통해 표현하는 방법.
공분산(Covariance)을 통한 표현 방법 공분산의 개념 : 2개 변수 사이의 상관 정도를 나타내는 값 공분산의 수학적 정의 : 공분산(COV) 해석 : COV>0 → 2개 변수 중 하나가 상승하면 다른값도 상승. COV<0 → 하나의 값이 상승하면 다른 값이 하강. 공분산 음수가 됨. 공분산의 특징 : 상관관계 혹은 하강하는 경향을 이해할 수 있음. 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
상관계수(Correlation Coefficient)를 통한 표현 방법 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법 상관계수(r)의 범위 : -1≤r≤1 (상관계수가 절댓값 1에 가까울수록 강한 상관관계)

(4) 상관관계 분석의 분류

변수의 개수에 따른 분류

분석 대상 변수 개수가 2개 = 산순상관분석, 변수의 개수가 3개 이상 = 다중상관분석

변수의 개수에 따른 상관성 분석 방법의 종류
- 단순 상관 분석 : 2개. 나이와 급여 사이의 상관관계
- 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석. 직위, 나이, 급여 사이의 상관성 분석
변수의 속성에 따른 상관성 분석 방법의 분류
- 수치적 데이터 = 피어슨 상관계수 Pearson
  - 수치형 데이터인 등간 척도, 비율 척도에 해당
  - 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 : 나이, 몸무게, 이동 거리
  - 변수의 연산이 가능 : 이동거리의 평균
- 순서적 데이터 = 스피어만 순위 상관 분석Spearman
  - 성적순, 학력, 변수의 연산 불가능
- 명목적 데이터 = 카이제곱 검정(교차분석)
  - 명목척도. 데이터 특성 구분을 위해 숫자나 기호을 할당한 데이터 변수. 변수의 연산 불가능. 성별, 1반3반5반
수치적 데이터의 상관성 분석
- 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다.
- 전제조건 : 두 변수의 분산이 동일하다는 전제조건 아래에서 사용함.
명목적 데이터의 상관성 분석
- 두 변수가 지역과 종교같은 명목적 데이터일 경우에 두 변수 사이의 연관성은 X2(chi-squared:카이제곱) 검정을 통하여 분석한다.
- 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수(변수사이 통계관계표현)를 계산하는 것은 큰 의미가 없다
- 카이제곱 검정은 교차 분석이라고도 불린다.
순서적 데이터의 상관성 분석
- 두 변수가 언어 성적 순위와 수리성적 순위같은 순서적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 순서적 데이터의 분석에는 스피어만 순위상관계수를 이용해 분석한다.

'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글

[2.2 데이터 탐색_고급 데이터 탐색] 시공간, 다변량, 비정형 데이터 탐색 (0)	2022.03.21
[2.2 데이터 탐색_기초] 변동계수 CV, 왜도 첨도 (0)	2022.03.21
[2.1 데이터 전처리_분석변수 처리] 불균형 데이터 처리 (0)	2022.03.21
[2.1 데이터 전처리_분석변수 처리] 차원 축소, 파생변수 생성, 변수 변환 (0)	2022.03.21
[2.1 데이터 전처리_분석변수 처리] 변수 선택 , 지도 방식, 비지도 방식 (0)	2022.03.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

사두용미

티스토리 뷰

[2.2 데이터 탐색_기초] 상관관계, 수치형, 순서형, 명목형 속성에 따른 상관성 분석 종류

1. 데이터 탐색 개요

2. 상관관계 분석

'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글

티스토리툴바