[빅데이터 분석기사 2단원] 2.1 데이터 탐색 기초 PDF

티스토리 뷰

Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 2단원] 2.1 데이터 탐색 기초 PDF

Data Analyst / PO 2024. 8. 15. 14:12

데이터 탐색 개요
상관관계 분석
기초통계량 추출 및 이해
시각적 데이터 탐색

[빅분기2단원]2.1데이터탐색기초.pdf

0.28MB

1. 데이터 탐색 개요

(1) 데이터 탐색의 개념

데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.
EDA 4가지 주제별 특징이 중요.

(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s

탐색적 데이터 분석의 4가지 주제
- 저항성 resistance
  - 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
  - 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
  - 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(median)를 대푯값으로 선호
- 잔차해석 residual
  - 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
  - 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
  - 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
- 자료 재표현 re-expression - 로그변환, 제곱근변환, 역수변환
  - 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
  - 자료의 재표현을 통해 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조 파악과 해석에 도움을 얻는 경우가 많음
- 현시성 graphic representation
  - Display, Visulization, 데이터 시각화로도 불림
  - 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
  - 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능

(3) 개별 변수 탐색 방법

범주형 데이터 (질적 데이터) : 명목척도와 순위 척도에 대한 데이터 탐색. 막대형 그래프. 빈도수, 최빈값, 비율, 백분율 등을 이용해 데이터 분포 특성을 중심성, 변동성 측면에서 파악
수치형 데이터 (양적 데이터) : 등간 척도와 비율 척도에 대한 데이터 탐색. 박스플롯이나 히스토그램. 평균, 분산, 표준편차 등을 이용해 데이터 분포 특성을 중심성, 변동성, 정규성 측면에서 파악

(4) 다차원 데이터 탐색 방법

범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 시각화 막대형 그래프(bar plot)를 주로 이용
수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용해 시각화. 공분산을 통해 방향성 파악. 피어슨 상관관계수를 통해 방향과 각도 파악
범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교. 그룹 간 비교를 위해 주로 박스 플롯으로 시각화

2. 상관관계 분석

(1) 상관관계 분석의 개념 Correlation Analysis

상관관계 분석이란 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법이다
예를 들면, A기업에서 광고비 지출이 매출액의 증가에 어느정도 영향이 있는지를 파악할 때 사용하는 방법이다.

(2) 변수 사이의 상관관계의 종류

양(+)의 상관관계 : 정비례. 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
음(-)의 상관관계 : 반비례.
상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

(3) 상관관계의 표현 방법

산점도(Scatter Plot)를 통한 표현 방법 : 변수 사이의 관계를 산점도 그래프를 통해 표현하는 방법.
공분산(Covariance)을 통한 표현 방법 공분산의 개념 : 2개 변수 사이의 상관 정도를 나타내는 값 공분산의 수학적 정의 : 공분산(COV) 해석 : COV>0 → 2개 변수 중 하나가 상승하면 다른값도 상승. COV<0 → 하나의 값이 상승하면 다른 값이 하강. 공분산 음수가 됨. 공분산의 특징 : 상관관계 혹은 하강하는 경향을 이해할 수 있음. 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
상관계수(Correlation Coefficient)를 통한 표현 방법 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법 상관계수(r)의 범위 : -1≤r≤1 (상관계수가 절댓값 1에 가까울수록 강한 상관관계)

(4) 상관관계 분석의 분류

변수의 개수에 따른 분류

분석 대상 변수 개수가 2개 = 산순상관분석, 변수의 개수가 3개 이상 = 다중상관분석

변수의 개수에 따른 상관성 분석 방법의 종류
- 단순 상관 분석 : 2개. 나이와 급여 사이의 상관관계
- 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석. 직위, 나이, 급여 사이의 상관성 분석
변수의 속성에 따른 상관성 분석 방법의 분류
- 수치적 데이터 = 피어슨 상관계수 Pearson
  - 수치형 데이터인 등간 척도, 비율 척도에 해당
  - 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 : 나이, 몸무게, 이동 거리
  - 변수의 연산이 가능 : 이동거리의 평균
- 순서적 데이터 = 스피어만 순위 상관 분석Spearman
  - 성적순, 학력, 변수의 연산 불가능
- 명목적 데이터 = 카이제곱 검정(교차분석)
  - 명목척도. 데이터 특성 구분을 위해 숫자나 기호을 할당한 데이터 변수. 변수의 연산 불가능. 성별, 1반3반5반
수치적 데이터의 상관성 분석
- 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다.
- 전제조건 : 두 변수의 분산이 동일하다는 전제조건 아래에서 사용함.
명목적 데이터의 상관성 분석
- 두 변수가 지역과 종교같은 명목적 데이터일 경우에 두 변수 사이의 연관성은 X2(chi-squared:카이제곱) 검정을 통하여 분석한다.
- 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수(변수사이 통계관계표현)를 계산하는 것은 큰 의미가 없다
- 카이제곱 검정은 교차 분석이라고도 불린다.
순서적 데이터의 상관성 분석
- 두 변수가 언어 성적 순위와 수리성적 순위같은 순서적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 순서적 데이터의 분석에는 스피어만 순위상관계수를 이용해 분석한다.

3. 기초통계량 추출 및 이해

(1) 중심 경향성의 통계량 : 평균, 중위수(중앙값), 최빈값

중위수 : 홀수면 n+1/2에 있는 수

최빈값 : 가장 많이 관측되는 수

(2) 산포도의 통계량 : 흩어진 정도 표현. 범위, 분산, 표준편차

범위 = 최댓값 - 최솟값
분산 : 평균으로부터 흩어진 정도. 편차 : 데이터-평균. 이므로, "편차의 제곱의 합"으로 계산. 모분산 = 편차의 제곱의 합 / 모집단의 수 표본 분산 = 데이터-표본평균의 제곱의 합 / 표본의 수 -1
표준편차 : 분산의 양의 제곱근의 값 = 분산에 루트 씌운거.
변동계수 CV Coefficient of Variation :
- 측정 단위가 서로 다른 경우. 표준편차나 분산은 단위가 다른 두 자료 군의 산표도를 비교하는데는 부적절함.
- 상대표준편차
- 표준편차를 표본평균으로 나눈 값.
- 값이 클수록 상대적인 차이가 크다.
- 평균과 표준편차를 나누어서 단위가 없으므로 서로 다른 단위의 산포도를 비교할 수 있다.
- 표준편차 / 평균
사분위 수 범위 IQR InterQuartile Range
- 자료들의 중간 50%에 포함되는 자료의 산포도를 나타냄. 제1 사분위수와 제3 사분위수의 차이.
  - 사분위 수 구하는법 : 오름차순정렬 → 중위수 구함 → 중위수 기준 좌측중의수(Q1)과 우측중위수(Q3) 각각 구함. → IQR=Q3-Q1

(3) 데이터의 분포를 나타내는 통계량

왜도 : 정규분포로부터 오,왼으로 치우친 정도를 보여주는 값
- 왼쪽 편포(왜도<0) : 평균<중위수<최빈값. 왼쪽편포(왼쪽 꼬리 분포)의 왜도는 0보다 작음
- 오른쪽 편포(왜도>0) : 최빈값<중위수<평균 : 오른쪽편포(오른쪽 꼬리 분포)의 왜도는 0보다 큼
첨도
- 위아래로 뾰족한 정도. 정규분포의 첨도는 3이지만 그걸 0으로 기준잡음.
- 첨도>0 → 뾰족한 그래프

4. 시각적 데이터 탐색

(1) 히스토그램 : 자료 분포 형태를 직사각형으로. 가로축은 수치형 데이터. 연속형 자료에 대한 도수분소표

(2) 막대형 그래프 Barplot : 막대 넓이가 다를 수 있음

(3) 박스 플롯 Boxplot :

수염 whiskers : Q3,Q1로부터 IQR 의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
상위경계, 하위경계 : Q1-1.5IQR, Q3+1.5IQR

(4) 산점도 Scatter Plot : 연속형 변수의 상관관계 파악에 가장 도움 됨

혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.

'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글

[빅데이터 분석기사 2단원] 3.1 기술 통계 (기술=Descriptive) PDF (여기부터 어려움) (0)	2024.08.15
[빅데이터 분석기사 2단원] 2.2 고급 데이터 탐색 PDF (0)	2024.08.15
[빅데이터 분석 기사 2단원] 1.2 분석 변수 처리 PDF 제공 (0)	2024.08.15
[빅데이터 분석기사 2단원] 1.1 데이터 정제 PDF 제공 (양 많음 주의) (0)	2024.08.15
[빅데이터 분석기사 1단원] 3.2 데이터 적재 및 저장 PDF 제공 (0)	2024.08.11

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 분석가 토토

티스토리 뷰