티스토리 뷰
반응형
- 데이터 탐색 개요
- 상관관계 분석
- 기초통계량 추출 및 이해
- 시각적 데이터 탐색
[빅분기2단원]2.1데이터탐색기초.pdf
0.28MB
1. 데이터 탐색 개요
(1) 데이터 탐색의 개념
- 데이터 분석 전 그래프나 통계적인 방법을 이용해 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법. 도표, 그래프, 요약 통계를 이용한다.
- EDA 4가지 주제별 특징이 중요.
(2) 탐색적 데이터 분석 EDA (Exploratory Data Analysis) 의 4가지 주제(특징) = 4R. four R;s
- 탐색적 데이터 분석의 4가지 주제
- 저항성 resistance
- 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
- 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
- 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 = 평균보다 저항성이 큰 중위수(median)를 대푯값으로 선호
- 잔차해석 residual
- 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
- 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
- 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
- 자료 재표현 re-expression - 로그변환, 제곱근변환, 역수변환
- 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
- 자료의 재표현을 통해 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조 파악과 해석에 도움을 얻는 경우가 많음
- 현시성 graphic representation
- Display, Visulization, 데이터 시각화로도 불림
- 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
- 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능
- 저항성 resistance
(3) 개별 변수 탐색 방법
- 범주형 데이터 (질적 데이터) : 명목척도와 순위 척도에 대한 데이터 탐색. 막대형 그래프. 빈도수, 최빈값, 비율, 백분율 등을 이용해 데이터 분포 특성을 중심성, 변동성 측면에서 파악
- 수치형 데이터 (양적 데이터) : 등간 척도와 비율 척도에 대한 데이터 탐색. 박스플롯이나 히스토그램. 평균, 분산, 표준편차 등을 이용해 데이터 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
(4) 다차원 데이터 탐색 방법
- 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 시각화 막대형 그래프(bar plot)를 주로 이용
- 수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용해 시각화. 공분산을 통해 방향성 파악. 피어슨 상관관계수를 통해 방향과 각도 파악
- 범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교. 그룹 간 비교를 위해 주로 박스 플롯으로 시각화
2. 상관관계 분석
(1) 상관관계 분석의 개념 Correlation Analysis
- 상관관계 분석이란 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법이다
- 예를 들면, A기업에서 광고비 지출이 매출액의 증가에 어느정도 영향이 있는지를 파악할 때 사용하는 방법이다.
(2) 변수 사이의 상관관계의 종류
- 양(+)의 상관관계 : 정비례. 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
- 음(-)의 상관관계 : 반비례.
- 상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계
(3) 상관관계의 표현 방법
- 산점도(Scatter Plot)를 통한 표현 방법 : 변수 사이의 관계를 산점도 그래프를 통해 표현하는 방법.
- 공분산(Covariance)을 통한 표현 방법 공분산의 개념 : 2개 변수 사이의 상관 정도를 나타내는 값 공분산의 수학적 정의 : 공분산(COV) 해석 : COV>0 → 2개 변수 중 하나가 상승하면 다른값도 상승. COV<0 → 하나의 값이 상승하면 다른 값이 하강. 공분산 음수가 됨. 공분산의 특징 : 상관관계 혹은 하강하는 경향을 이해할 수 있음. 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
- 상관계수(Correlation Coefficient)를 통한 표현 방법 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법 상관계수(r)의 범위 : -1≤r≤1 (상관계수가 절댓값 1에 가까울수록 강한 상관관계)
(4) 상관관계 분석의 분류
- 변수의 개수에 따른 분류
분석 대상 변수 개수가 2개 = 산순상관분석, 변수의 개수가 3개 이상 = 다중상관분석
- 변수의 개수에 따른 상관성 분석 방법의 종류
- 단순 상관 분석 : 2개. 나이와 급여 사이의 상관관계
- 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석. 직위, 나이, 급여 사이의 상관성 분석
- 변수의 속성에 따른 상관성 분석 방법의 분류
- 수치적 데이터 = 피어슨 상관계수 Pearson
- 수치형 데이터인 등간 척도, 비율 척도에 해당
- 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 : 나이, 몸무게, 이동 거리
- 변수의 연산이 가능 : 이동거리의 평균
- 순서적 데이터 = 스피어만 순위 상관 분석Spearman
- 성적순, 학력, 변수의 연산 불가능
- 명목적 데이터 = 카이제곱 검정(교차분석)
- 명목척도. 데이터 특성 구분을 위해 숫자나 기호을 할당한 데이터 변수. 변수의 연산 불가능. 성별, 1반3반5반
- 수치적 데이터 = 피어슨 상관계수 Pearson
- 수치적 데이터의 상관성 분석
- 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다.
- 전제조건 : 두 변수의 분산이 동일하다는 전제조건 아래에서 사용함.
- 명목적 데이터의 상관성 분석
- 두 변수가 지역과 종교같은 명목적 데이터일 경우에 두 변수 사이의 연관성은 X2(chi-squared:카이제곱) 검정을 통하여 분석한다.
- 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수(변수사이 통계관계표현)를 계산하는 것은 큰 의미가 없다
- 카이제곱 검정은 교차 분석이라고도 불린다.
- 순서적 데이터의 상관성 분석
- 두 변수가 언어 성적 순위와 수리성적 순위같은 순서적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출해 분석하는 방법
- 순서적 데이터의 분석에는 스피어만 순위상관계수를 이용해 분석한다.
3. 기초통계량 추출 및 이해
(1) 중심 경향성의 통계량 : 평균, 중위수(중앙값), 최빈값
중위수 : 홀수면 n+1/2에 있는 수
최빈값 : 가장 많이 관측되는 수
(2) 산포도의 통계량 : 흩어진 정도 표현. 범위, 분산, 표준편차
- 범위 = 최댓값 - 최솟값
- 분산 : 평균으로부터 흩어진 정도. 편차 : 데이터-평균. 이므로, "편차의 제곱의 합"으로 계산. 모분산 = 편차의 제곱의 합 / 모집단의 수 표본 분산 = 데이터-표본평균의 제곱의 합 / 표본의 수 -1
- 표준편차 : 분산의 양의 제곱근의 값 = 분산에 루트 씌운거.
- 변동계수 CV Coefficient of Variation :
- 측정 단위가 서로 다른 경우. 표준편차나 분산은 단위가 다른 두 자료 군의 산표도를 비교하는데는 부적절함.
- 상대표준편차
- 표준편차를 표본평균으로 나눈 값.
- 값이 클수록 상대적인 차이가 크다.
- 평균과 표준편차를 나누어서 단위가 없으므로 서로 다른 단위의 산포도를 비교할 수 있다.
- 표준편차 / 평균
- 사분위 수 범위 IQR InterQuartile Range
- 자료들의 중간 50%에 포함되는 자료의 산포도를 나타냄. 제1 사분위수와 제3 사분위수의 차이.
- 사분위 수 구하는법 : 오름차순정렬 → 중위수 구함 → 중위수 기준 좌측중의수(Q1)과 우측중위수(Q3) 각각 구함. → IQR=Q3-Q1
- 자료들의 중간 50%에 포함되는 자료의 산포도를 나타냄. 제1 사분위수와 제3 사분위수의 차이.
(3) 데이터의 분포를 나타내는 통계량
- 왜도 : 정규분포로부터 오,왼으로 치우친 정도를 보여주는 값
- 왼쪽 편포(왜도<0) : 평균<중위수<최빈값. 왼쪽편포(왼쪽 꼬리 분포)의 왜도는 0보다 작음
- 오른쪽 편포(왜도>0) : 최빈값<중위수<평균 : 오른쪽편포(오른쪽 꼬리 분포)의 왜도는 0보다 큼
- 첨도
- 위아래로 뾰족한 정도. 정규분포의 첨도는 3이지만 그걸 0으로 기준잡음.
- 첨도>0 → 뾰족한 그래프
4. 시각적 데이터 탐색
(1) 히스토그램 : 자료 분포 형태를 직사각형으로. 가로축은 수치형 데이터. 연속형 자료에 대한 도수분소표
(2) 막대형 그래프 Barplot : 막대 넓이가 다를 수 있음
(3) 박스 플롯 Boxplot :
- 수염 whiskers : Q3,Q1로부터 IQR 의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
- 상위경계, 하위경계 : Q1-1.5IQR, Q3+1.5IQR
(4) 산점도 Scatter Plot : 연속형 변수의 상관관계 파악에 가장 도움 됨
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형
'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사 2단원] 3.1 기술 통계 (기술=Descriptive) PDF (여기부터 어려움) (0) | 2024.08.15 |
---|---|
[빅데이터 분석기사 2단원] 2.2 고급 데이터 탐색 PDF (0) | 2024.08.15 |
[빅데이터 분석 기사 2단원] 1.2 분석 변수 처리 PDF 제공 (0) | 2024.08.15 |
[빅데이터 분석기사 2단원] 1.1 데이터 정제 PDF 제공 (양 많음 주의) (0) | 2024.08.15 |
[빅데이터 분석기사 1단원] 3.2 데이터 적재 및 저장 PDF 제공 (0) | 2024.08.11 |