회귀식 검정
결정계수 R²
- 모형이 종속변수를 얼마나 잘 설명하는지를 나타내는 지표
- 값이 1에 가까울수록 설명력이 높음
- 단, 설명변수의 개수가 많아질수록 값이 커지는 경향이 있음 > 모델 비교 지표로는 한계 존재
수정된 결정계수 (Adjusted R²)
- 설명변수 개수를 보정한 결정계수
- 불필요한 설명변수를 추가했을 때 값이 감소할 수 있음
- 서로 다른 모델(설명변수 개수가 다른)을 비교할 때 적합
회귀식 검정
오차항에 대한 기본 가정
회귀분석을 수행하기 위해서는 오차항이 다음 성질을 만족해야 함
- 독립성 : 서로 독립
- 등분산성 : 동일한 분산 가짐
- 정규성 : 정규분포를 따름
F-검정 (모형 전체 유의성 검정)
- 회귀식 자체가 유의미한지를 검정
- 귀무가설 H0: 축소모형 (RM, reduced model)이 적절
- 대립가설 H1: 전체모형 (FM, full model)이 적절
t-검정 (개별 회귀계수 유의성 검정)
- 각 설명변수가 종속변수 Y를 설명하는 데 유의미한지 검정
- 특정 변수의 회귀계수가 0인지 여부를 확인
회귀 진단
데이터 진단
이상치 (Outlier)
- 표준화 잔차의 절대값이 2~3보다 큰 경우 이상치를 판단
- 이상치는 y축 방향으로 멀리 떨어진 값
- LSE는 이상치에 민감 > 로버스트 회귀(Robust Regression) 등 대안 사용 가능
지렛값 (Leverage Point)
- x축 방향으로 평균에서 멀리 떨어진 데이터
- 회귀계수 추정에 영향을 줄 수 있음
영향점 (Influential Point)
- 특정 데이터가 회귀직선의 기울기에 큰 영향을 주는 경우
- 제거 여부에 따라 회귀식이 크게 달라질 수 있음
모형 진단
선형성 검토
- 회귀모형은 선형성을 전제로 함
- scatter plot, 잔차 vs 예측값 그래프 등을 통해 확인
- 위반 시 Box-Cox 변환, 변수 변환 등을 고려
오차항의 기본 가정 점검
- 정규성
- 잔차가 정규분포를 따라야 함
- F-test, t-test 모두 정규성을 전제로 하므로 위반 시 결과 신뢰 불가
- 진단 : QQ plot, 정규성 검정
- 해결 : Box-Cox 변환
- 등분산성
- 모든 오차항이 동일한 분산을 가져야 함
- 위반 시 MSE 추정이 왜곡
- 진단 : scale-location plot, 등분산 검정
- 해결 : 분산 안정화 변환, 가중 최소제곱법
- 독립성
- 오차항은 서로 독립이어야 함
- 위반 시 자기상관(autocorrelation) 발생
- 진단 : ACF plot, Run test, Durbin-Watson test
- 해결 : 데이터 수 증가, 시계열 분석 기법 활용
다중공선성 (Multicollinearity)
- 설명변수들 간에 강한 상관관계가 존재하는 경우
- 회귀계수의 분산이 커져 추정이 불안정해짐
- 대처 방법
- 벌점 회귀 (Shrinkage Method)
- 회귀계수에 penalty term을 추가해 계수를 추측
- ex) Ridge, Lasso 회귀
- 변수 선택 (Variable Selection)
- 불필요한 설명변수를 제거해 다중공선성 완화
- Best Subset Selection
- 모든 변수 조합 (2^p개)을 고려, SSE 기준으로 최적 모델 선정
- 계산량이 많지만 가장 강력한 방법
- Forward Stepwise Selection
- 변수를 하나씩 추가하면서 유의한 변수만 선택
- Backward Stepwise Elimination
- 모든 변수를 포함한 상태에서 유의하지 않은 변수를 하나씩 제거
- Hybrid Selection
- Forward와 Backward 방식을 혼합하여 변수 선택 수행
- 벌점 회귀 (Shrinkage Method)