複数の地域やグループの平均に差があるかどうかを調べるときに用いられるのが分散分析(ANOVA)です。本記事では、店舗売上データを例に、群間・群内の分散や自由度、F値の求め方、そして有意差検定の考え方を整理して解説します。
分散分析の基本構造を理解する
分散分析では、データのばらつきを「群間」と「群内」に分解して考えます。
群間は「地域ごとの平均の違いによるばらつき」、群内は「同じ地域内でのばらつき」を意味します。
この2つを比較することで、地域差が統計的に意味があるかを判断します。
与えられた分散と標本分散の関係
問題では群間変動0.2204、群内変動0.3370が与えられています。
全体の不偏標本分散は「群間変動+群内変動」をデータ数に応じて調整して考えます。
今回のように20店舗ある場合、全体のばらつきはこの2つの和として扱われます。
自由度の求め方
自由度はデータの独立な情報量を表します。
群間の自由度は「地域数−1」で、4地域なので3となります。
群内の自由度は「全データ数−地域数」で、20−4=16となります。
分散と平均平方の計算
群間分散は群間変動を自由度で割って求めます。
同様に群内分散も群内変動を自由度で割ります。
この2つの比を取ることでF値を求める準備ができます。
F値の意味と求め方
F値は「群間分散 ÷ 群内分散」で計算されます。
この値が大きいほど、地域間の差が偶然ではない可能性が高くなります。
統計的検定では、この値を基準に有意差の有無を判断します。
有意水準5%での検定の考え方
有意水準5%とは「誤って差があると判断する確率を5%に抑える」という意味です。
F分布表を用いて臨界値と比較し、F値がそれを超えるかどうかで判断します。
超えていれば地域ごとの売上には統計的に有意な差があると結論づけます。
まとめ
分散分析はデータのばらつきを群間と群内に分解し、その比率から差の有無を判断する手法です。
自由度・分散・F値の計算手順を正しく理解することで、検定問題は一貫した流れで解けるようになります。
統計的な判断は「偶然か意味のある差か」を見極めるための重要な考え方です。


コメント