母比率の標準化はどっちを使う?pとp̂の違いを統計初心者向けにわかりやすく解説

高校数学

統計学の「母比率の推定」や「仮説検定」を勉強していると、標準化の式が2種類出てきて混乱しやすくなります。特に、母比率 p と標本比率 p̂ を使った次の2つの式は、見た目が似ているため「どちらを使えばいいのか分からない」と感じる人が多いです。

Z=(p̂-p)/√(p(1-p)/n)

Z=(p̂-p)/√(p̂(1-p̂)/n)

実は、この2つは「何を前提にしているか」が異なります。この記事では、母比率の標準化で p を使う場合と p̂ を使う場合の違いや、仮説検定・推定での使い分けをわかりやすく整理します。

まずは母比率 p と標本比率 p̂ の違いを整理する

混乱を防ぐためには、まず p と p̂ の意味を整理することが重要です。

記号 意味
p 母集団の本当の比率(未知の値)
標本から計算した比率

例えば、ある商品の不良率を調べる場合を考えます。

本当の不良率が p ですが、これは普通は分かりません。

そこで、100個調べて8個不良だったなら、

p̂ = 8/100 = 0.08

のように標本比率を使って推定します。

つまり、p は「本当の値」、p̂ は「観測した値」です。

なぜ標準化で p を使うのか

統計学では、標本比率 p̂ は近似的に正規分布に従うことが知られています。

そのとき、平均と分散は次のようになります。

平均:p

分散:p(1-p)/n

したがって、理論的に標準化すると、

Z=(p̂-p)/√(p(1-p)/n)

になります。

これは、「母比率 p が分かっている」という前提で導かれる標準化です。

つまり、理論上の正しい標準化はこちらになります。

ではなぜ p̂ を使う式が出てくるのか

実際の問題では、母比率 p は普通わかりません。

そこで、未知の p を標本比率 p̂ で近似します。

すると、分母は

√(p̂(1-p̂)/n)

となります。

つまり、

Z=(p̂-p)/√(p̂(1-p̂)/n)

は、「未知の母比率を標本比率で置き換えた近似式」です。

これは特に、信頼区間の推定などでよく使われます。

仮説検定では p を使うことが多い

仮説検定では、帰無仮説によって p の値を仮定できます。

例えば、

「不良率は 0.1 である」

という帰無仮説なら、p=0.1 が与えられています。

そのため、分母にも p を使って、

Z=(p̂-0.1)/√(0.1×0.9/n)

のように計算できます。

つまり、仮説検定では「帰無仮説の p を使う」ケースが多いのです。

一方で、推定問題では p が不明なので、p̂ を代わりに使います。

問題によって式が違って見える理由

参考書や問題集によって、式が異なる理由は、「検定なのか推定なのか」が違うためです。

場面 分母 理由
仮説検定 p(1-p) 帰無仮説で p が与えられる
区間推定 p̂(1-p̂) p が未知だから近似する

この違いを知らないと、「どちらが正しいのか」と混乱しやすくなります。

しかし実際には、「状況によって使い分けている」だけです。

直感的には「分からないものは代わりを使う」

統計では、「本当の値」が分からないことがよくあります。

そのため、未知の値を標本から推定するという考え方が基本になります。

つまり、

  • p が分かる → p を使う
  • p が分からない → p̂ で代用する

という理解でかなり整理しやすくなります。

最初は公式だけ見ると難しく感じますが、意味を考えると自然な流れになっています。

まとめ

母比率の標準化では、

Z=(p̂-p)/√(p(1-p)/n)

が理論的な標準化公式になります。

ただし、実際には母比率 p が未知なことが多いため、

Z=(p̂-p)/√(p̂(1-p̂)/n)

のように、標本比率 p̂ を使って近似する場合があります。

特に、仮説検定では帰無仮説の p を使い、区間推定では p̂ を使うことが多いです。

公式だけを暗記すると混乱しやすいですが、「本当の値が分かっているかどうか」を基準に考えると、使い分けが理解しやすくなります。

コメント

タイトルとURLをコピーしました