統計検定2級|二項分布の標準誤差で「nで割っていないように見える」理由をわかりやすく解説

大学数学

統計検定2級や統計学の学習では、「標準誤差」の式が突然複雑になり、なぜそうなるのか分からなくなることがあります。特に、二項分布や標本比率を扱う問題では、「nで割るはずなのに、どこに行ったの?」と混乱しやすいです。

この記事では、地域ごとの標本比率を組み合わせたときの標準誤差について、式の意味を一つずつ分解しながら解説します。

まず問題の式を整理する

問題の標準誤差は、次の形でした。

√[(N1/(N1+N2))²×p̂1(1-p̂1)/n1 + (N2/(N1+N2))²×p̂2(1-p̂2)/n2]

ここで、

  • p̂1:地域1の標本比率
  • p̂2:地域2の標本比率
  • n1,n2:各地域の標本数
  • N1,N2:各地域の母集団サイズ

です。

一見すると「√σ²/n」の形に見えないため、不安になります。

実は「nで割る」は既に入っている

結論から言うと、

nで割る処理は、すでに各項の中に含まれています。

具体的には、

p̂1(1-p̂1)/n1

p̂2(1-p̂2)/n2

の部分です。

つまり、標本比率 p̂ の分散そのものが、すでに

Var(p̂)=p(1-p)/n

という形になっています。

そもそも標準誤差とは?

標準誤差は、「標本統計量のばらつき」を表します。

例えば平均なら、

SE=√(σ²/n)

という有名な式になります。

しかし、今回扱っているのは「平均」ではなく、

標本比率

です。

二項分布では、標本比率の分散は最初から

p(1-p)/n

になるため、別にもう一回 n で割る必要はありません。

なぜ p(1-p)/n になるの?

二項分布 X~Bin(n,p) では、

平均:np

分散:np(1-p)

です。

標本比率は、

p̂=X/n

なので、分散の性質を使うと、

Var(p̂)=Var(X/n)

=Var(X)/n²

=np(1-p)/n²

=p(1-p)/n

となります。

つまり、最初から n が分母に入っています。

今回の式は「重み付き平均」の分散

今回の式は、地域1と地域2の標本比率を、母集団サイズで重み付けして合成しています。

つまり、

(N1/(N1+N2))p̂1 + (N2/(N1+N2))p̂2

という量の標準誤差を求めています。

ここで重要なのは、

和の分散は、重みの2乗が付く

というルールです。

分散の基本公式

独立な確率変数 X,Y に対して、

Var(aX+bY)=a²Var(X)+b²Var(Y)

となります。

これを今回に当てはめると、

a=N1/(N1+N2)

b=N2/(N1+N2)

であり、

Var(p̂1)=p̂1(1-p̂1)/n1

Var(p̂2)=p̂2(1-p̂2)/n2

なので、テキストの式になります。

「√σ²/n」と違って見える理由

今回混乱しやすい理由は、

  • 平均の標準誤差
  • 標本比率の標準誤差

が別物だからです。

平均の場合は、母分散 σ² をあとから n で割ります。

しかし標本比率では、分散自体がすでに

p(1-p)/n

という形になっています。

つまり、「nで割る」が埋め込まれているわけです。

数式をシンプルに見るコツ

統計学では、式が長くなると本質が見えにくくなります。

今回の式も、実は次の2ステップだけです。

  1. 各標本比率の分散を求める
  2. 重み付き和の分散公式を使う

これだけです。

式を「一気に見る」のではなく、

  • 何の分散か
  • どの公式を使っているか

を分解して考えると理解しやすくなります。

まとめ

今回の標準誤差の式で、「nで割っていないように見える」のは、

標本比率の分散そのものに、すでに 1/n が含まれているから

です。

つまり、

  • Var(p̂)=p(1-p)/n
  • 重み付き和の分散公式を適用
  • 最後に平方根を取って標準誤差にする

という流れになっています。

統計学では「何の分散を扱っているのか」を意識すると、複雑な式でも理解しやすくなります。

コメント

タイトルとURLをコピーしました