統計で登場する「相関係数」は、2つのデータの関係の強さを表す数として知られています。しかし大学数学や統計学を少し深く学ぶと、「相関係数は2つのベクトルがなす角の余弦(cos)」として解釈できる、という説明が出てきます。最初はかなり不思議に感じますが、実は相関係数の式とベクトルの内積の式が非常によく似ているためです。この記事では、相関係数と余弦の関係を、できるだけ直感的にわかりやすく解説します。
まず相関係数とは何か
相関係数は、2つのデータがどれくらい似た動きをするかを表す値です。
例えば、
- 身長と体重
- 勉強時間と点数
- 気温とアイスの売上
などの関係を見る時に使われます。
相関係数rは、
- 1に近い → 強い正の相関
- 0に近い → 相関が弱い
- -1に近い → 強い負の相関
という意味を持ちます。
相関係数の式を見てみる
相関係数は一般に次のように書かれます。
r=Σ(xi-x平均)(yi-y平均)÷√[Σ(xi-x平均)^2 Σ(yi-y平均)^2]
かなり複雑に見えますが、実はこれはベクトルの内積と非常に似ています。
ベクトルの余弦公式との共通点
ベクトルでは、2つのベクトルa,bがなす角θについて、
cosθ=(a・b)÷(|a||b|)
という公式があります。
これは「内積」を使った角度の公式です。
実際に比較すると、相関係数の式は、
- 分子 → 内積
- 分母 → ベクトルの長さ
の形になっています。
つまり相関係数は、“2つのデータベクトルの角度”を見ているとも解釈できます。
データをベクトルとして考える
ここが重要なポイントです。
例えば、
x=(1,2,3)
y=(2,4,6)
というデータがあるとします。
これは数学的には、3次元空間のベクトルとして見ることができます。
すると、「似た増え方をするデータ」は、ベクトルの向きも似てきます。
つまり、角度が小さくなります。
なぜ「平均を引く」のか
相関係数では、単純にx,yを使うのではなく、
(xi-x平均)
のように平均を引いています。
これは、「データの中心からどれだけズレたか」を見たいからです。
もし平均を引かなければ、単に値が大きいだけで相関が強く見えてしまうことがあります。
つまり、相関係数は、
「平均からの動き方が似ているか」
を測っています。
角度が小さいほど相関が強い
ベクトルの余弦には次の性質があります。
| 角度 | cosθ | 意味 |
|---|---|---|
| 0° | 1 | 完全に同じ向き |
| 90° | 0 | 無関係 |
| 180° | -1 | 逆向き |
これは相関係数の意味とほぼ一致しています。
つまり、
- 同じ方向に変化する → 正の相関
- 無関係 → 相関なし
- 逆方向に変化する → 負の相関
ということです。
直感的には「データの向き」を見ている
相関係数を感覚的に言うと、
「2つのデータの向きがどれくらい揃っているか」
を数値化したものです。
例えば、
- xが増えるとyも増える
- xが減るとyも減る
なら、同じ方向を向いているため、相関係数は1に近づきます。
逆に、
- xが増えるとyが減る
なら、逆方向を向くので、-1に近づきます。
相関係数が「-1〜1」になる理由
相関係数が必ず-1〜1の範囲になるのも、余弦として考えると自然です。
なぜなら、cosθの値も、
-1≦cosθ≦1
だからです。
つまり、相関係数の範囲は、ベクトルの角度の性質そのものなのです。
統計と線形代数は繋がっている
高校数学では統計とベクトルは別々に学ぶことが多いですが、大学数学ではかなり深く繋がっています。
特に、
- 内積
- 射影
- 直交
- 行列
などの考え方は、統計学でも頻繁に使われます。
相関係数を「余弦」と見る考え方は、その代表例です。
まとめ
相関係数が「ある角の余弦」と解釈できるのは、相関係数の式が、ベクトルの内積を使った余弦公式と同じ形をしているからです。
具体的には、
- 分子 → 内積
- 分母 → ベクトルの長さ
となっています。
そのため、相関係数は、
「2つのデータベクトルの向きがどれだけ似ているか」
を表しているとも考えられます。
この視点で見ると、
- なぜ相関係数が-1〜1なのか
- なぜ正負があるのか
- なぜ相関が“方向”を表すのか
がかなり自然に理解できるようになります。


コメント