統計学において、標本分散と不偏分散は母集団の分散を推定する際に重要な概念です。不偏分散は標本の大きさによる偏りを補正しており、母集団の真の分散に近い推定値を与えます。Rを用いたシミュレーションで、標本分散と不偏分散の違いを確認してみましょう。
1. 標準正規分布から30個の標本を抽出
まず平均0、標準偏差1の正規分布から標本を抽出し、オブジェクトに格納します。
# 標本の抽出
x <- rnorm(30, mean=0, sd=1)
2. 平均、標本分散、不偏分散の計算
抽出した標本の平均、標本分散(偏差平方和/n)、不偏分散(偏差平方和/(n-1))を計算します。
# 平均
mean_x <- mean(x)
# 偏差平方和
dev_sq <- sum((x - mean_x)^2)
# 標本分散
var_sample <- dev_sq / length(x)
# 不偏分散(Rのvar関数)
var_unbiased <- var(x)
3. シミュレーションによる比較
母集団分散に対して、標本分散と不偏分散の平均がどれくらい近いか確認します。10万回のシミュレーションで標本の大きさを30に設定します。
# シミュレーション回数
n_sim <- 100000
# 標本サイズ
n <- 30
# 結果を格納するベクトル
sample_vars <- numeric(n_sim)
unbiased_vars <- numeric(n_sim)
for (i in 1:n_sim) {
x <- rnorm(n, mean=0, sd=1)
mean_x <- mean(x)
dev_sq <- sum((x - mean_x)^2)
sample_vars[i] <- dev_sq / n
unbiased_vars[i] <- var(x)
}
# 平均値の比較
mean(sample_vars)
mean(unbiased_vars)
4. まとめ
このシミュレーションにより、標本分散よりも不偏分散の平均値の方が母集団分散に近いことが確認できます。Rのvar関数は自動で不偏分散を計算してくれるため、母集団分散を推定する際には不偏分散を用いることが望ましいです。


コメント