티스토리 뷰
하나 이상의 독립 변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
회귀 = Regression = 돌아간다
목적 : 독립변수로 종속변수를 예측하기 위함.
예측을 위해 필요한 것 : 추세선 -> 점을 예측. 추세선을 예측하는 것이 회귀분석의 최종 목적
오차가 발생함. 측정값 - 예측값. 오차가 작은 측정
- 표준오차 : 대부분 표본으로 통계분석을 하는데, 표본이 모집단에 가까운지 아닌지 판단해야 함. 표준오차가 작으면 참값에 가깝다는 뜻.
- 회귀계수(기울기)는 최소제곱법으로 구해진다.
- 표준오차가 작으면 회귀계수가 우연일 확률이 낮다. -> 의미가 있을 것이다
- 이 확률을 어떻게 계산할까? t-test
- t-test
- t-value = 회귀계수(기울기) / 표준오차
- 기울기가 0이면 독립변수가 원인으로 아무 역할을 못하므로 유의하지 않음. 표준오차가 아무리 작아도 아무 의미 없음. (선형 회귀분석)
- 회귀분석의 특징
- 곡선/구 형태로 되어있으면 기울기는 0. 직선 형태가 아니라면 분석할 수 없음. = 선형성
- 회귀 분석 전에 산포도를 찍어 봐야 함. 결국 y=a + bx의 직선을 구하는 것이 목적이니
- 회귀계수(기울기)는 결국 t-test 평균값 차이와 동일한 개념. 따라서 회귀계수는 t-test 로 그 유의성을 테스트함.
- R2 (R 스퀘어)를 어떻게 해석해야할까?
- 통계란? 분산의 마법!
- 회귀분석에서는
- 왜 표준화계수를 쓰는가?
- 어떤 독립변수의 표준화계수가 가장 큰지 알 수 있음
- 종속변수에 대한 독립변수들의 단위를 통일시킨 계숭ㅣㅁ.
- (0,0)을 지나가 절편이 0 이고 해석이 어려움.
- 더미변수
- 값이 오직 0 / 1만 있는 변수. 기본적으로는 이산형/범주형 변수인데 연속형 변수처럼 사용.
- 범주의 개수 -1 만큼 더미가 필요함.
- 다중공선성
- 유사한 독립변수들이 동시에 모델이 들어가는 상황.
- 최소제곱법 계산이 안되고, 다중공선성이 높으면 회귀계수의 표준오차가 비정상적으로 커짐
- 유의미하면 그대로 두고, 유의해야할 변수가 유의하지 않으면 변수 중 누군가를 빼야 함
- 분산팽창지수.
- 이분산성
- 동분산성의 반대. 회귀계수의 분산이 다르다는 뜻.
- 회귀계수의 표준오차(분산)이 다르다는 의미임.
- t-값은 회귀계수를 표준오차로 나눈 것.
독립변수가 1개일 때: 단순 회귀 모델
독립변수가 2개 이상일 때: 다중 회귀 모델
종속변수가 1개일 때: 단 변량 회귀 모델
종속변수가 2개일 때: 이변량 회귀 모델
종속변수가 그 이상일 때: 다변량 회귀 모델
독립 변수가 1개, 종속변수가 1개 -> 단 변량 단순 선형 회귀 모델 (Univariate simple linear regression model)
독립 변수가 1개, 종속변수가 2개 이상 -> 다변량 단순 선형 회귀 모델 (Multivariate simple linear regression model)
독립 변수가 2개, 종속변수가 1개 -> 단 변량 다중 선형 회귀 모델(Univariate Multiple linear regression model)
독립 변수가 2개, 종속변수가 2개 이상 -> 다변량 다중 선형 회귀 분석(Multivariate multiple linear regression model)
- 단순 회귀 : 독립변수가 1개. 종속변수와의 관계가 직선
- 다중 회귀 : 독립변수가 K개. 종속변수와의 관계가 선형(1차함수)
- 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계. (단, 독립변수가 1개일때는 2차함수 이상)
- 곡선 회귀 : 독립변수가 1개. 종속변수와의 관계가 곡선
- 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용. 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
- 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
- 선형 회귀 모형 : 종속변수가 연속형인 경우에 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 모형
----
- 인과관계의 예측
원인 : 거실의 크기
결과 : 매매 가격
---
로지스틱 회귀분석
종속변수가 범주형/이항변수인 경우(성공실패, 앞뒤, 생존죽음 등)에 사용함.
종석변수가 범주형인데 선형회귀분석을 사용하면 해석이 안되고, 결과가 0/1로 나오지도 않음.
로짓이라는 개념을 이용해 종속변수를 연속변수처럼 바꿔줌
- 오즈 (Odds)란?
- 사건이 발생할 확률이 발생하지 않을 확률의 몇 배인지?
- 경마장에서 지불률을 정할 때 사용.
- p / 1-p
- 로짓
- 오즈에 로그 붙여서 -무한대 ~ 무한대로 변환하는 과정.
'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사 1단원] 1.2 빅데이터 기술 및 제도 PDF제공 (0) | 2024.08.11 |
---|---|
[빅데이터 분석기사 1단원] 1.1 빅데이터 개요 및 활용 PDF 제공 (0) | 2024.08.11 |
[2.2 데이터 탐색_고급 데이터 탐색] 시공간, 다변량, 비정형 데이터 탐색 (0) | 2022.03.21 |
[2.2 데이터 탐색_기초] 변동계수 CV, 왜도 첨도 (0) | 2022.03.21 |
[2.2 데이터 탐색_기초] 상관관계, 수치형, 순서형, 명목형 속성에 따른 상관성 분석 종류 (0) | 2022.03.21 |