統計検定2級や統計学の学習では、「標準誤差」の式が突然複雑になり、なぜそうなるのか分からなくなることがあります。特に、二項分布や標本比率を扱う問題では、「nで割るはずなのに、どこに行ったの?」と混乱しやすいです。
この記事では、地域ごとの標本比率を組み合わせたときの標準誤差について、式の意味を一つずつ分解しながら解説します。
まず問題の式を整理する
問題の標準誤差は、次の形でした。
√[(N1/(N1+N2))²×p̂1(1-p̂1)/n1 + (N2/(N1+N2))²×p̂2(1-p̂2)/n2]
ここで、
- p̂1:地域1の標本比率
- p̂2:地域2の標本比率
- n1,n2:各地域の標本数
- N1,N2:各地域の母集団サイズ
です。
一見すると「√σ²/n」の形に見えないため、不安になります。
実は「nで割る」は既に入っている
結論から言うと、
nで割る処理は、すでに各項の中に含まれています。
具体的には、
p̂1(1-p̂1)/n1
や
p̂2(1-p̂2)/n2
の部分です。
つまり、標本比率 p̂ の分散そのものが、すでに
Var(p̂)=p(1-p)/n
という形になっています。
そもそも標準誤差とは?
標準誤差は、「標本統計量のばらつき」を表します。
例えば平均なら、
SE=√(σ²/n)
という有名な式になります。
しかし、今回扱っているのは「平均」ではなく、
標本比率
です。
二項分布では、標本比率の分散は最初から
p(1-p)/n
になるため、別にもう一回 n で割る必要はありません。
なぜ p(1-p)/n になるの?
二項分布 X~Bin(n,p) では、
平均:np
分散:np(1-p)
です。
標本比率は、
p̂=X/n
なので、分散の性質を使うと、
Var(p̂)=Var(X/n)
=Var(X)/n²
=np(1-p)/n²
=p(1-p)/n
となります。
つまり、最初から n が分母に入っています。
今回の式は「重み付き平均」の分散
今回の式は、地域1と地域2の標本比率を、母集団サイズで重み付けして合成しています。
つまり、
(N1/(N1+N2))p̂1 + (N2/(N1+N2))p̂2
という量の標準誤差を求めています。
ここで重要なのは、
和の分散は、重みの2乗が付く
というルールです。
分散の基本公式
独立な確率変数 X,Y に対して、
Var(aX+bY)=a²Var(X)+b²Var(Y)
となります。
これを今回に当てはめると、
a=N1/(N1+N2)
b=N2/(N1+N2)
であり、
Var(p̂1)=p̂1(1-p̂1)/n1
Var(p̂2)=p̂2(1-p̂2)/n2
なので、テキストの式になります。
「√σ²/n」と違って見える理由
今回混乱しやすい理由は、
- 平均の標準誤差
- 標本比率の標準誤差
が別物だからです。
平均の場合は、母分散 σ² をあとから n で割ります。
しかし標本比率では、分散自体がすでに
p(1-p)/n
という形になっています。
つまり、「nで割る」が埋め込まれているわけです。
数式をシンプルに見るコツ
統計学では、式が長くなると本質が見えにくくなります。
今回の式も、実は次の2ステップだけです。
- 各標本比率の分散を求める
- 重み付き和の分散公式を使う
これだけです。
式を「一気に見る」のではなく、
- 何の分散か
- どの公式を使っているか
を分解して考えると理解しやすくなります。
まとめ
今回の標準誤差の式で、「nで割っていないように見える」のは、
標本比率の分散そのものに、すでに 1/n が含まれているから
です。
つまり、
- Var(p̂)=p(1-p)/n
- 重み付き和の分散公式を適用
- 最後に平方根を取って標準誤差にする
という流れになっています。
統計学では「何の分散を扱っているのか」を意識すると、複雑な式でも理解しやすくなります。


コメント