統計学の「母比率の推定」や「仮説検定」を勉強していると、標準化の式が2種類出てきて混乱しやすくなります。特に、母比率 p と標本比率 p̂ を使った次の2つの式は、見た目が似ているため「どちらを使えばいいのか分からない」と感じる人が多いです。
Z=(p̂-p)/√(p(1-p)/n)
Z=(p̂-p)/√(p̂(1-p̂)/n)
実は、この2つは「何を前提にしているか」が異なります。この記事では、母比率の標準化で p を使う場合と p̂ を使う場合の違いや、仮説検定・推定での使い分けをわかりやすく整理します。
まずは母比率 p と標本比率 p̂ の違いを整理する
混乱を防ぐためには、まず p と p̂ の意味を整理することが重要です。
| 記号 | 意味 |
|---|---|
| p | 母集団の本当の比率(未知の値) |
| p̂ | 標本から計算した比率 |
例えば、ある商品の不良率を調べる場合を考えます。
本当の不良率が p ですが、これは普通は分かりません。
そこで、100個調べて8個不良だったなら、
p̂ = 8/100 = 0.08
のように標本比率を使って推定します。
つまり、p は「本当の値」、p̂ は「観測した値」です。
なぜ標準化で p を使うのか
統計学では、標本比率 p̂ は近似的に正規分布に従うことが知られています。
そのとき、平均と分散は次のようになります。
平均:p
分散:p(1-p)/n
したがって、理論的に標準化すると、
Z=(p̂-p)/√(p(1-p)/n)
になります。
これは、「母比率 p が分かっている」という前提で導かれる標準化です。
つまり、理論上の正しい標準化はこちらになります。
ではなぜ p̂ を使う式が出てくるのか
実際の問題では、母比率 p は普通わかりません。
そこで、未知の p を標本比率 p̂ で近似します。
すると、分母は
√(p̂(1-p̂)/n)
となります。
つまり、
Z=(p̂-p)/√(p̂(1-p̂)/n)
は、「未知の母比率を標本比率で置き換えた近似式」です。
これは特に、信頼区間の推定などでよく使われます。
仮説検定では p を使うことが多い
仮説検定では、帰無仮説によって p の値を仮定できます。
例えば、
「不良率は 0.1 である」
という帰無仮説なら、p=0.1 が与えられています。
そのため、分母にも p を使って、
Z=(p̂-0.1)/√(0.1×0.9/n)
のように計算できます。
つまり、仮説検定では「帰無仮説の p を使う」ケースが多いのです。
一方で、推定問題では p が不明なので、p̂ を代わりに使います。
問題によって式が違って見える理由
参考書や問題集によって、式が異なる理由は、「検定なのか推定なのか」が違うためです。
| 場面 | 分母 | 理由 |
|---|---|---|
| 仮説検定 | p(1-p) | 帰無仮説で p が与えられる |
| 区間推定 | p̂(1-p̂) | p が未知だから近似する |
この違いを知らないと、「どちらが正しいのか」と混乱しやすくなります。
しかし実際には、「状況によって使い分けている」だけです。
直感的には「分からないものは代わりを使う」
統計では、「本当の値」が分からないことがよくあります。
そのため、未知の値を標本から推定するという考え方が基本になります。
つまり、
- p が分かる → p を使う
- p が分からない → p̂ で代用する
という理解でかなり整理しやすくなります。
最初は公式だけ見ると難しく感じますが、意味を考えると自然な流れになっています。
まとめ
母比率の標準化では、
Z=(p̂-p)/√(p(1-p)/n)
が理論的な標準化公式になります。
ただし、実際には母比率 p が未知なことが多いため、
Z=(p̂-p)/√(p̂(1-p̂)/n)
のように、標本比率 p̂ を使って近似する場合があります。
特に、仮説検定では帰無仮説の p を使い、区間推定では p̂ を使うことが多いです。
公式だけを暗記すると混乱しやすいですが、「本当の値が分かっているかどうか」を基準に考えると、使い分けが理解しやすくなります。


コメント