相関係数は、2つのデータセットの関連性を示す指標で、統計学において非常に重要です。相関係数を求める方法には、主に「共分散と標準偏差を使う方法(定義式)」と「データを標準化してから積和を計算する方法」の2通りがあります。本記事では、この2つの方法について、実際の計算方法と共に解説します。
相関係数とは?
相関係数は、2つの変数の間の線形関係の強さと方向を示す統計量です。相関係数が1に近いほど、2つの変数は強い正の相関があり、-1に近いほど強い負の相関があります。相関係数が0に近い場合、2つの変数には線形関係がほとんどないことを意味します。
相関係数の計算方法
相関係数の計算方法には、主に次の2通りがあります。
- 共分散と標準偏差を使う方法(定義式):共分散を2つのデータセットの標準偏差で割ったものが相関係数となります。
- データを標準化してから積和を計算する方法:各データを標準化(平均を引き、標準偏差で割る)し、それらの積和を求める方法です。
共分散と標準偏差を使う方法
共分散と標準偏差を使って相関係数を求める式は次の通りです。
r = Σ{(Xi - X̄)(Yi - Ȳ)} / (√Σ(Xi - X̄)² * Σ(Yi - Ȳ)²)
ここで、Xi、YiはそれぞれデータセットAとBの値、X̄、Ȳはそれぞれのデータセットの平均です。この方法では、2つのデータセットの間にどれくらい共通の変動があるか(共分散)を計算し、その変動を標準偏差で正規化して相関係数を求めます。
データの標準化と積和の方法
データを標準化してから積和を計算する方法は、次のようなステップで行います。
- 各データセットAとBの平均を計算します。
- 各データからその平均を引き、標準偏差で割ります(これを標準化と言います)。
- 標準化したデータ同士の積を求め、その合計を計算します。
この方法では、データを標準化することで、各データセットのスケールを統一し、より直感的に相関係数を計算できます。
参考書で紹介されている方法の確認
質問の参考書に記載された式は、データAとBの積和を計算して相関係数を求める方法です。具体的には、「(データA)×(データB)}の合計/{√(Aの偏差平方和)×(Bの偏差平方和)}」という式は、まさにデータの標準化と積和を使った方法です。
この方法は、共分散を求める方法と非常に似ていますが、標準化したデータを用いることで、スケールの違いを無視して相関を計算できるため、比較的簡単に相関関係を視覚化することができます。
まとめ
相関係数の求め方には、共分散と標準偏差を使う方法と、データを標準化してから積和を計算する方法の2つがあります。質問にあった参考書の方法は、後者の「データを標準化してから積和を計算する方法」に該当します。この方法を使うことで、スケールに依存せずに相関を求めることができ、非常に便利です。


コメント