統計検定2級｜二項分布の標準誤差で「nで割っていないように見える」理由をわかりやすく解説

統計検定2級や統計学の学習では、「標準誤差」の式が突然複雑になり、なぜそうなるのか分からなくなることがあります。特に、二項分布や標本比率を扱う問題では、「nで割るはずなのに、どこに行ったの？」と混乱しやすいです。

この記事では、地域ごとの標本比率を組み合わせたときの標準誤差について、式の意味を一つずつ分解しながら解説します。

まず問題の式を整理する
実は「nで割る」は既に入っている
そもそも標準誤差とは？
なぜ p(1-p)/n になるの？
今回の式は「重み付き平均」の分散
1. 分散の基本公式
「√σ²/n」と違って見える理由
数式をシンプルに見るコツ
まとめ

まず問題の式を整理する

問題の標準誤差は、次の形でした。

√[(N1/(N1+N2))²×p̂1(1-p̂1)/n1 + (N2/(N1+N2))²×p̂2(1-p̂2)/n2]

ここで、

p̂1：地域1の標本比率
p̂2：地域2の標本比率
n1,n2：各地域の標本数
N1,N2：各地域の母集団サイズ

です。

一見すると「√σ²/n」の形に見えないため、不安になります。

実は「nで割る」は既に入っている

結論から言うと、

nで割る処理は、すでに各項の中に含まれています。

具体的には、

p̂1(1-p̂1)/n1

や

p̂2(1-p̂2)/n2

の部分です。

つまり、標本比率 p̂ の分散そのものが、すでに

Var(p̂)=p(1-p)/n

という形になっています。

そもそも標準誤差とは？

標準誤差は、「標本統計量のばらつき」を表します。

例えば平均なら、

SE=√(σ²/n)

という有名な式になります。

しかし、今回扱っているのは「平均」ではなく、

標本比率

です。

二項分布では、標本比率の分散は最初から

p(1-p)/n

になるため、別にもう一回 n で割る必要はありません。

なぜ p(1-p)/n になるの？

二項分布 X～Bin(n,p) では、

平均：np

分散：np(1-p)

です。

標本比率は、

p̂=X/n

なので、分散の性質を使うと、

Var(p̂)=Var(X/n)

=Var(X)/n²

=np(1-p)/n²

=p(1-p)/n

となります。

つまり、最初から n が分母に入っています。

今回の式は「重み付き平均」の分散

今回の式は、地域1と地域2の標本比率を、母集団サイズで重み付けして合成しています。

つまり、

(N1/(N1+N2))p̂1 + (N2/(N1+N2))p̂2

という量の標準誤差を求めています。

ここで重要なのは、

和の分散は、重みの2乗が付く

というルールです。

分散の基本公式

独立な確率変数 X,Y に対して、

Var(aX+bY)=a²Var(X)+b²Var(Y)

となります。

これを今回に当てはめると、

a=N1/(N1+N2)

b=N2/(N1+N2)

であり、

Var(p̂1)=p̂1(1-p̂1)/n1

Var(p̂2)=p̂2(1-p̂2)/n2

なので、テキストの式になります。

「√σ²/n」と違って見える理由

今回混乱しやすい理由は、

平均の標準誤差
標本比率の標準誤差

が別物だからです。

平均の場合は、母分散 σ² をあとから n で割ります。

しかし標本比率では、分散自体がすでに

p(1-p)/n

という形になっています。

つまり、「nで割る」が埋め込まれているわけです。

数式をシンプルに見るコツ

統計学では、式が長くなると本質が見えにくくなります。

今回の式も、実は次の2ステップだけです。

各標本比率の分散を求める
重み付き和の分散公式を使う

これだけです。

式を「一気に見る」のではなく、

何の分散か
どの公式を使っているか

を分解して考えると理解しやすくなります。

まとめ

今回の標準誤差の式で、「nで割っていないように見える」のは、

標本比率の分散そのものに、すでに 1/n が含まれているから

です。

つまり、

Var(p̂)=p(1-p)/n
重み付き和の分散公式を適用
最後に平方根を取って標準誤差にする

という流れになっています。

統計学では「何の分散を扱っているのか」を意識すると、複雑な式でも理解しやすくなります。