回帰分析において、決定係数はモデルの適合度を示す重要な指標ですが、単純な決定係数だけでは十分な評価ができません。特に、説明変数を追加することで決定係数がどのように変化するのかについては、細心の注意が必要です。この記事では、「自由度修正決定係数」について解説し、決定係数が必ず増加する理由やその限界について詳しく説明します。
決定係数と自由度修正決定係数の違い
回帰分析における決定係数(R^2)は、モデルがデータにどれだけ適合しているかを示す指標です。R^2は、0から1の範囲で変動し、1に近いほどモデルがデータをよく説明していることを意味します。しかし、単純な決定係数にはいくつかの問題点があり、特に説明変数を追加することでR^2が必ず増加してしまうという性質があります。
この問題を解決するために、自由度修正決定係数(Adjusted R^2)が用いられます。Adjusted R^2は、モデルに追加された説明変数が本当に有用であるかを評価するための指標です。この指標は、説明変数がモデルに与える影響を考慮して、過剰適合(オーバーフィッティング)を防ぐ役割を果たします。
決定係数が必ず増加する理由
決定係数R^2は、モデルに新しい説明変数を追加すると、必ず増加するか、少なくとも減少しないという特性を持っています。これは、R^2の計算式において、説明変数を追加することで残差平方和(SSR)が小さくなるため、モデルがデータにより適合するように見えるからです。
例えば、すべての値が0の説明変数を追加した場合、モデルの適合度が実際には改善されていなくても、R^2は変化しないか、わずかに増加することがあります。このように、R^2は必ずしもモデルの実際の予測力を反映しないため、自由度修正決定係数を使用することで、より正確な評価が可能になります。
自由度修正決定係数の計算方法
自由度修正決定係数(Adjusted R^2)は、以下の式で計算されます。
Adjusted R^2 = 1 - (1 - R^2) * (n - 1) / (n - p - 1)
ここで、nはサンプル数、pは説明変数の数を表します。この式によって、自由度修正決定係数は、モデルに追加した説明変数が本当に有益であるかどうかを判断する手助けとなります。新しい変数を追加することでAdjusted R^2が減少する場合、その変数は予測力に貢献していない可能性が高いと判断できます。
実例で考える決定係数と自由度修正決定係数
実際のデータを用いて、決定係数と自由度修正決定係数がどのように変動するかを見てみましょう。例えば、ある回帰分析のモデルで、最初に2つの説明変数を用いて回帰分析を行った結果、R^2が0.85となったとします。次に、全ての値が0である無意味な説明変数を追加して再度回帰分析を行った場合、R^2は必ず増加または変わらず、例えば0.86に増加するかもしれません。
しかし、自由度修正決定係数を計算すると、追加した無意味な説明変数が実際にはモデルの予測力に貢献していないことが分かります。もしAdjusted R^2が減少していれば、その変数は無駄であるという結論に至ります。
まとめ
回帰分析において、決定係数(R^2)はモデルの適合度を示す指標として非常に重要ですが、説明変数を追加することでR^2が必ず増加する性質を持っているため、そのままではモデルの性能を正しく評価することはできません。この問題を解決するために、自由度修正決定係数(Adjusted R^2)が使用され、過剰適合を避け、モデルに追加した説明変数が実際に有用かどうかを評価することができます。
コメント