메인 콘텐츠로 이동하기
  1. 블로그 글/

통계 - 회귀 분석

·3 분

본  글은 통계학에서 회귀 분석을 설명하기 위해 작성되었습니다.

회귀 분석이란? #

회귀 분석이란 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법을 말합니다.

회귀 분석의 변수 #

종속변수(Dependent Variable) y는 영향을 받는 변수로,  반응변수 (Response Variable), 결과변수 (Outcome Variable)이라고도 합니다. 모델에서 예측하려는 변수로, 종속 변수는 다른 변수들에 의해 영향을 받습니다.

독립변수(Independent Variable) x는 영향을 주는 변수로, 설명변수 (Explanatory Variable), 예측변수 (Predictor Variable)이라고도 합니다. 독립변수는 종속 변수에 영향을 미치는 변수들로, 예측 모델을 구축할 때 사용됩니다.

변수의 개수에 따른 회귀분석 방법 #

회귀분석은 변수의 개수에 따라 접근하는 방법이 상이합니다.

독립 변수의 개수가 하나이면 단순선형회귀분석으로,  독립 변수의 개수가 두 개 이상이면 다중선형회귀분석 접근이 가능합니다.

1. 단순선형회귀분석(Simple Linear Regression) #

하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법을 말합니다. 예측값과 실제 데이터의 오차*(= 잔차)*가 가장 작은 직선을 회귀직선으로 선택합니다. 회귀직선은 수많은 직선들 중에서, 데이터에 대해 잔차제곱합(Residual Sum of Squares, RSS) 이 더욱 작은 직선을 뜻합니다.

이는 최소제곱법(Ordinary Least Square) 을 통해 이뤄집니다.

최소제곱법 : 측정값을 기초로 제곱합을 만들고 그것이 최소인 값을 구하여 처리하는 방법, 잔차제곱합이 가장 작은 선을 선택합니다.

2. 다중선형회귀분석(Multiple Linear Regression) #

두 개 이상의 독립변수가 하나의 종속변수에 미치는 영향을 추정하는 통계기법을 말합니다. 다중선형회귀분석에는 회귀계수의 유의성을 판단하는 것이 중요합니다. 왜냐하면, 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형을 확인할 수 있기 때문입니다.

회귀계수의 유의성은 단순회귀분석의 회귀계수 유의성 검토와 같이 회귀계수 t-통계량을 통해 확인이 가능합니다.

다중선형회귀분석다중공선성(Multicollinearity) #

다중 공선성은 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 현상을 의미합니다. 즉, 하나의 독립변수를 나머지 독립변수들로 예측할 수 있는 경우에 발생합니다.

다중공선성이 발생하면 각 독립변수의 회귀계수의 정확한 추정이 어려워집니다. 또한, 각 독립변수의 회귀계수가 종속변수에 미치는 영향력을 올바로 설명하지 못하게 됩니다.

다중 공선성 검사 방법

분산팽창요인 (VIF, Variance Inflation Factor):

분산팽창요인은 각 독립변수의 분산이 얼마나 증가했는지를 나타내며, 이 값이 크면 다중공선성이 증가했다고 판단합니다. 이는 각 독립변수를 다른 독립변수들로 선형회귀한 결과의 분산 비율로 계산됩니다. 일반적으로, 분산팽창요인이 4보다 크다면 다중공선성이 존재한다고 판단하며, 10보다 크다면 심각한 문제가 있는 것으로 해석됩니다.

회귀 분석 시 검토 사항 #

회귀 분석을 시행할 경우, 검토해야 하는 사항은 다음과 같이 세 가지 항목이 있습니다.

1. 회귀계수들이 유의미한가? #

해당 계수의 t-통계량의 p-값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의미하다고 판단합니다. 즉, 계수가 종속변수에 대해 유의미한 영향을 미친다는 것을 의미합니다.

2. 모형이 얼마나 설명력을 갖는가? #

모형이 얼마나 설명력을 갖는지 확인하기 위해서는 결정계수*(𝑅²)*를 확인해야 합니다.

결정계수(Coefficient of Determination; 𝑅²) #

결정계수는 0에서 1 사이의 값으로, 1에 가까울수록 모형이 종속변수의 변동을 잘 설명한다는 것을 의미합니다. 변동을 잘 설명한다는 의미는 회귀선에 얼마나 변동이 되는지 확인이 가능하다는 뜻입니다.

높은 결정계수는 모형의 예측 능력이 높다는 것을 나타냅니다.

3. 모형이 데이터를 잘 적합하고 있는가? #

모형이 데이터를 잘 적합하는지 판단하기 위해서 잔차를 그래프로 그리고 회귀진단을 수행합니다. 잔차는 실제 값과 모델의 예측 값 간의 차이를 의미하며, 이를 시각적으로 검토하여 모델이 데이터를 얼마나 잘 적합하고 있는지를 확인합니다. 일반적으로 잔차는 정규분포를 따르고, 특정한 패턴이나 추세가 없어야 합니다. 또한, 잔차의 등분산성도 확인되어야 합니다. 이상치나 영향력 있는 데이터 포인트가 있는지도 검토하며, 필요시 이를 제거하거나 조정하여 모델의 안정성을 확인합니다.

이러한 검토를 통해 회귀 분석의 신뢰성과 모델의 적합성을 평가할 수 있습니다.