「確率変数には必ず確率分布があるの?」をわかりやすく解説|カイ二乗分布が存在する理由とは

大学数学

統計学や確率論を学び始めると、「正規分布に従う」「カイ二乗分布に従う」という表現が頻繁に出てきます。しかし、そこでふと「そもそも、その確率分布って本当に存在するの?」という疑問を持つ人は意外と多いです。

特にカイ二乗分布の定義では、

χ²=X₁²+…+X_k²

という新しい確率変数を作り、「これが従う分布をカイ二乗分布と呼ぶ」と説明されます。

この記事では、「確率変数にはなぜ確率分布が存在するのか」「カイ二乗分布はどうして存在すると言えるのか」を、確率論の基本からできるだけわかりやすく整理して解説します。

そもそも「確率分布」とは何か

まず、「確率変数」と「確率分布」は少し違います。

用語 意味
確率変数 結果に応じて数を返すルール
確率分布 その値がどれくらいの確率で出るか

例えばサイコロなら、

  • 出た目を返すのが確率変数
  • 1〜6がそれぞれ1/6で出るのが確率分布

です。

つまり確率分布とは、「その確率変数がどんな値をどれくらいの確率で取るか」という情報そのものです。

実は「確率変数を作った時点で分布は決まる」

ここが重要なポイントです。

確率変数Xが定義されると、

P(X≦x)

という値を考えられます。

つまり、「Xがx以下になる確率」です。

これを全てのxについて集めると、Xの分布が決まります。

そのため、確率変数が存在するなら、その分布も自動的に存在すると考えられます。

カイ二乗分布の場合は何をしているのか

カイ二乗分布では、まず独立な正規分布の確率変数

X₁,…,X_k

を考えます。

それぞれがN(0,1)に従うので、値はランダムに動きます。

次に、それらを使って

χ²=X₁²+…+X_k²

という新しい確率変数を作ります。

ここで重要なのは、χ²もちゃんと「ランダムな値を返すルール」になっていることです。

つまりχ²も確率変数です。

したがって、その分布も存在します。

「存在する」とはどういう意味なのか

数学で「分布が存在する」というのは、「その確率を矛盾なく定められる」という意味です。

例えば、χ²について

P(χ²≦a)

を全てのaについて考えられるなら、それで分布が決まります。

実際、カイ二乗分布では積分計算を行うことで密度関数が求まります。

つまり、

  • χ²という確率変数が定義できる
  • その確率を計算できる

ので、分布も存在すると言えるわけです。

任意の確率変数には分布があるのか

基本的には、はいです。

確率論では、確率変数Xがあると、

F(x)=P(X≦x)

という関数を定義できます。

これを「分布関数」と呼びます。

つまり、どんな確率変数にも少なくとも分布関数は存在します。

したがって、確率変数と確率分布は切り離せない関係にあります。

ただし「密度関数」がない場合もある

ここで少し注意点があります。

「分布」と「確率密度関数」は同じではありません。

例えば、

  • 離散型分布(サイコロなど)
  • 連続型分布(正規分布など)

では扱いが違います。

さらに、特殊な分布では密度関数を持たない場合もあります。

しかし、分布関数そのものは必ず存在します。

つまり、「密度関数がない」ことはあっても、「分布がない」ことは基本的にありません。

なぜ統計では新しい分布を作るのか

統計学では、既存の確率変数を組み合わせて新しい分布を作ることが非常に多いです。

例えば、

  • 正規分布 → カイ二乗分布
  • カイ二乗分布 → F分布
  • 正規分布とカイ二乗分布 → t分布

などがあります。

これは、「標本平均」「分散」「検定統計量」などを扱うためです。

つまり、カイ二乗分布は“偶然作られた”のではなく、統計学で自然に現れる分布なのです。

まとめ

カイ二乗分布では、独立な正規分布の確率変数を2乗して足し合わせることで、新しい確率変数χ²を作っています。

そして、確率変数が定義されると、その値がどのような確率で現れるかを表す分布関数も自動的に定まります。

そのため、「χ²が従う分布」が存在することは、確率変数χ²が定義できている時点で保証されていると考えられます。

統計学では、こうした「確率変数を加工して新しい分布を作る」という考え方が非常に重要になります。

コメント

タイトルとURLをコピーしました