統計 - 回帰分析
目次
この投稿は統計学における回帰分析について説明するために作成されました。
回帰分析とは? #
回帰分析とは、一つまたはそれ以上の独立変数が従属変数に与える影響を推定できる統計技術を指します。
回帰分析の変数 #
従属変数(Dependent Variable) yは影響を受ける変数で、応答変数(Response Variable)、結果変数(Outcome Variable)とも呼ばれます。モデルで予測しようとする変数であり、従属変数は他の変数によって影響を受けます。
独立変数(Independent Variable) xは影響を与える変数で、説明変数(Explanatory Variable)、予測変数(Predictor Variable)とも呼ばれます。独立変数は従属変数に影響を与える変数であり、予測モデルを構築する際に使用されます。
変数の数による回帰分析方法 #
回帰分析は変数の数に応じてアプローチ方法が異なります。独立変数の数が一つならば単純線形回帰分析で、独立変数の数が二つ以上ならば多重線形回帰分析アプローチが可能です。
1. 単純線形回帰分析(Simple Linear Regression) #
一つの独立変数が従属変数に与える影響を推定できる統計技術を指します。予測値と実際のデータの誤差(=残差)が最も小さい直線を回帰直線として選びます。回帰直線は数多くの直線の中から、データに対して 残差平方和(Residual Sum of Squares, RSS) がより小さい直線を意味します。
これは 最小二乗法(Ordinary Least Square) を通じて行われます。
最小二乗法 #
測定値を基に平方和を作り、それが最小となる値を求めて処理する方法、残差平方和が最も小さい線を選びます。
2. 多重線形回帰分析(Multiple Linear Regression) #
二つ以上の独立変数が一つの従属変数に与える影響を推定する統計技術を指します。多重線形回帰分析では 回帰係数の有意性を判断することが重要です。なぜなら、選択された変数の組み合わせでモデルを確認できるように、すべての回帰係数の有意性が統計的に検証される必要があるからです。
回帰係数の有意性は単純回帰分析の回帰係数有意性検討と同様に 回帰係数 t-統計量 を通じて確認が可能です。
多重共線性(Multicollinearity) #
多重共線性は回帰分析で独立変数間に強い相関関係が現れる現象を意味します。つまり、一つの独立変数を他の独立変数で予測できる場合に発生します。
多重共線性が発生すると、各独立変数の回帰係数の正確な推定が困難になります。また、各独立変数の回帰係数が従属変数に与える影響力を正しく説明できなくなります。
多重共線性をチェックする方法
分散拡大係数 (VIF, Variance Inflation Factor):
分散拡大係数は、各独立変数の分散がどれだけ増加したかを示し、この値が大きいと多重共線性が増加したと判断します。これは各独立変数を他の独立変数で線形回帰した結果の分散比率で計算されます。一般的に、分散拡大係数が 4以上であれば 多重共線性が存在する と判断され、 10以上であれば 重大な問題がある と解釈されます。
回帰分析時の検討事項 #
回帰分析を実施する場合、検討すべき事項は以下の三つの項目があります。
1. 回帰係数は有意性 #
該当係数の t-統計量のp値が 0.05より小さければ該当回帰係数が統計的に有意であると判断します。つまり、係数が従属変数に対して 有意な影響を与える ことを意味します。
2. モデルはどれくらい説明力を持つか? #
モデルがどれくらい説明力を持つか確認するためには 決定係数(𝑅²) を確認する必要があります。
決定係数(Coefficient of Determination; 𝑅²) #
決定係数は0から1の間の値で、1に近いほどモデルが従属変数の変動をよく説明していることを意味します。変動をよく説明するとは、回帰線にどれだけ変動があるか確認が可能であるという意味です。
高い決定係数はモデルの予測能力が高いことを示します。
3. モデルはデータによく適合しているか? #
モデルがデータによく適合しているかを判断するためには、残差をグラフに描き回帰診断を行います。残差は実際の値とモデルの予測値との差を意味し、これを視覚的に検討してモデルがデータにどれくらいよく適合しているかを確認します。一般的に、残差は正規分布に従い、特定のパターンや傾向がないことが望ましいです。また、残差の等分散性も確認される必要があります。異常値や影響力のあるデータポイントがあるかも検討し、必要に応じてこれを除去または調整してモデルの安定性を確認します。
これらの検討を通じて、回帰分析の信頼性とモデルの適合性を評価することができます。