티스토리 뷰

반응형

하나 이상의 독립 변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법

회귀 = Regression = 돌아간다

목적 : 독립변수로 종속변수를 예측하기 위함.

예측을 위해 필요한 것 : 추세선 -> 점을 예측. 추세선을 예측하는 것이 회귀분석의 최종 목적

오차가 발생함. 측정값 - 예측값. 오차가 작은 측정

  • 표준오차 : 대부분 표본으로 통계분석을 하는데, 표본이 모집단에 가까운지 아닌지 판단해야 함. 표준오차가 작으면 참값에 가깝다는 뜻.
    • 회귀계수(기울기)는 최소제곱법으로 구해진다.
    • 표준오차가 작으면 회귀계수가 우연일 확률이 낮다. -> 의미가 있을 것이다
    • 이 확률을 어떻게 계산할까? t-test 
  • t-test
    • t-value = 회귀계수(기울기) / 표준오차
    • 기울기가 0이면 독립변수가 원인으로 아무 역할을 못하므로 유의하지 않음. 표준오차가 아무리 작아도 아무 의미 없음. (선형 회귀분석)
  • 회귀분석의 특징
    • 곡선/구 형태로 되어있으면 기울기는 0. 직선 형태가 아니라면 분석할 수 없음. = 선형성
    • 회귀 분석 전에 산포도를 찍어 봐야 함. 결국 y=a + bx의 직선을 구하는 것이 목적이니
    • 회귀계수(기울기)는 결국 t-test 평균값 차이와 동일한 개념. 따라서 회귀계수는 t-test 로 그 유의성을 테스트함. 
  • R2 (R 스퀘어)를 어떻게 해석해야할까?
    • 통계란? 분산의 마법!
    • 회귀분석에서는 
  • 왜 표준화계수를 쓰는가?
    • 어떤 독립변수의 표준화계수가 가장 큰지 알 수 있음
    • 종속변수에 대한 독립변수들의 단위를 통일시킨 계숭ㅣㅁ.
    • (0,0)을 지나가 절편이 0 이고 해석이 어려움. 
  • 더미변수
    • 값이 오직 0 / 1만 있는 변수. 기본적으로는 이산형/범주형 변수인데 연속형 변수처럼 사용. 
    • 범주의 개수 -1 만큼 더미가 필요함.
  • 다중공선성 
    • 유사한 독립변수들이 동시에 모델이 들어가는 상황.
    • 최소제곱법 계산이 안되고, 다중공선성이 높으면 회귀계수의 표준오차가 비정상적으로 커짐
    • 유의미하면 그대로 두고, 유의해야할 변수가 유의하지 않으면 변수 중 누군가를 빼야 함
    • 분산팽창지수. 
  • 이분산성
    • 동분산성의 반대. 회귀계수의 분산이 다르다는 뜻.
    • 회귀계수의 표준오차(분산)이 다르다는 의미임. 
    • t-값은 회귀계수를 표준오차로 나눈 것. 

 

독립변수가 1개일 때: 단순 회귀 모델

독립변수가 2개 이상일 때: 다중 회귀 모델

종속변수가 1개일 때: 단 변량 회귀 모델

종속변수가 2개일 때: 이변량 회귀 모델

종속변수가 그 이상일 때: 다변량 회귀 모델

 

독립 변수가 1개, 종속변수가 1개 -> 단 변량 단순 선형 회귀 모델 (Univariate simple linear regression model)

독립 변수가 1개, 종속변수가 2개 이상 -> 다변량 단순 선형 회귀 모델 (Multivariate simple linear regression model)

독립 변수가 2개, 종속변수가 1개 -> 단 변량 다중 선형 회귀 모델(Univariate Multiple linear regression model)

독립 변수가 2개, 종속변수가 2개 이상 -> 다변량 다중 선형 회귀 분석(Multivariate multiple linear regression model)

  • 단순 회귀 : 독립변수가 1개. 종속변수와의 관계가 직선
  • 다중 회귀 : 독립변수가 K개. 종속변수와의 관계가 선형(1차함수)
  • 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계. (단, 독립변수가 1개일때는 2차함수 이상)
  • 곡선 회귀 : 독립변수가 1개. 종속변수와의 관계가 곡선
  • 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용. 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
  • 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
  • 선형 회귀 모형 : 종속변수가 연속형인 경우에 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 모형

 

----

- 인과관계의 예측

원인 : 거실의 크기

결과 : 매매 가격

 

---

로지스틱 회귀분석

종속변수가 범주형/이항변수인 경우(성공실패, 앞뒤, 생존죽음 등)에 사용함.

종석변수가 범주형인데 선형회귀분석을 사용하면 해석이 안되고, 결과가 0/1로 나오지도 않음. 

로짓이라는 개념을 이용해 종속변수를 연속변수처럼 바꿔줌

 

  • 오즈 (Odds)란?
    • 사건이 발생할 확률이 발생하지 않을 확률의 몇 배인지?
    • 경마장에서 지불률을 정할 때 사용. 
    • p / 1-p
  • 로짓
    • 오즈에 로그 붙여서 -무한대 ~ 무한대로 변환하는 과정. 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함