四分位数の削除後の残りのデータ数についての誤解

数学

この質問では、四分位数を基準にして観測値を削除した後に残るデータ数が51個であることに関して、なぜその答えが正しくないのかを解説します。質問者が示したように、第一四分位数よりも小さい24個、第三四分位数よりも大きい24個の計48個を削除したとして、99個から48個を引いた51個が残ると思ったが、なぜそれが間違いなのかを詳しく説明します。

第一四分位数と第三四分位数の定義

四分位数はデータを4つの等しい部分に分ける基準となる数値です。第一四分位数(Q1)はデータの下位25%を表し、第三四分位数(Q3)は上位25%を表します。この2つの四分位数はデータの散らばりを理解するために重要です。

第一四分位数より小さい値と、第三四分位数より大きい値を削除する場合、いわゆる「外れ値」を取り除いて、残るデータは中央50%の範囲に収まります。この時、Q1とQ3の間のデータが残ることになります。

残るデータの個数に関する誤解

質問者は、第一四分位数より小さい観測値24個と、第三四分位数より大きい観測値24個を削除すると考えましたが、実際には残るデータ数は51個ではありません。なぜなら、第一四分位数(Q1)と第三四分位数(Q3)の間に位置するデータには、Q1とQ3を含む場合が多いからです。

データの分布により、Q1より小さいデータやQ3より大きいデータが必ずしも24個ずつというわけではない場合があるため、このように単純に足し算をして削除する数を求めるのは間違いです。具体的には、Q1とQ3の位置によって残るデータ数が異なることを考慮する必要があります。

四分位範囲内のデータ数

実際に残るデータ数を正確に求めるためには、Q1からQ3の範囲内にどれだけのデータが存在するのかを確認する必要があります。四分位範囲(Q3 – Q1)を使って、データの分布を理解し、残るデータがどのように配置されるかを把握することが重要です。

一般的に、Q1とQ3の間に収まるデータは全体の50%を占めるため、正しく計算すると、残るデータ数は約50個前後になります。質問者の計算結果は、外れ値を削除する際の考え方が不正確だったため、誤った結論に至ったのです。

まとめ

四分位数を基にしたデータの削除後に残るデータ数について、第一四分位数と第三四分位数を基にした計算で残るデータが51個になると思ったのは誤りです。正しい計算を行うためには、Q1とQ3の間に残るデータが50%であることを理解し、データの分布に基づいた計算を行うことが重要です。

コメント

タイトルとURLをコピーしました