中央値(メジアン)の意味と求め方
もくじ
中央値(メジアン)とは
中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ります。
例として、次のデータの中央値を求めてみましょう。これは、生徒数 11 人のあるクラス(A クラスとします)で行った英語の試験の得点分布です。
A クラス (xi) |
---|
49(=x(1)) |
55(=x(2)) |
56(=x(3)) |
62(=x(4)) |
65(=x(5)) |
76(=x(6)) |
78(=x(7)) |
80(=x(8)) |
84(=x(9)) |
90(=x(10)) |
97(=x(11)) |
この得点データは小さい順に並んでいて、その中央に位置する値は上から 6 番目の数値 x(6)=76(点)です。この数値の前には 5 個のデータが、後にも 5 個のデータがあることから、ちょうど真ん中にあることを確認できますね。よって、このデータの中央値は 76 点と求まりました。
さて、中央値にはどのような意味があるのかを考えてみましょう。統計でよく用いられる代表値には「平均値」がありますが、これと中央値にはどのような違いがあるのかを説明します。
例として、次のデータを考えます。A クラスと B クラスの英語の得点データを小さい順に並べました。A クラスの得点データは上に挙げた例と同じです。
A クラス (x(i)) | B クラス (y(i)) | |
---|---|---|
49(=x(1)) | 2(=y(1)) | |
55(=x(2)) | 4(=y(2)) | |
56(=x(3)) | 55(=y(3)) | |
62(=x(4)) | 62(=y(4)) | |
65(=x(5)) | 65(=y(5)) | |
76(=x(6)) | 76(=y(6)) | |
78(=x(7)) | 78(=y(7)) | |
80(=x(8)) | 80(=y(8)) | |
84(=x(9)) | 84(=y(9)) | |
90(=x(10)) | 90(=y(10)) | |
97(=x(11)) | 97(=y(11)) | |
平均値 | 72(=¯x) | 63(=¯y) |
中央値 | 76 | 76 |
このデータは、説明がしやすいように、先頭の 2 つの得点以外は左右で同じ点数にしています。
それぞれのクラスの平均点を計算すると、A クラスの得点の平均値(¯x)が 72 点、B クラスの得点の平均値(¯y)が 63 点と求まります。
平均点は B クラスの方が平均点がだいぶ低いですね… では、この平均点の差を理由に「B クラス(平均 63 点)は A クラス(平均 72 点)よりも英語ができない」ということができるでしょうか?そのような分析は適切といえるでしょうか?
それはデータの分布を見ると適切とは言えません。なぜなら、B クラスの平均点が低いのは、2 点と 4 点を取っている 2 人の影響が大きいからです。それを無視して、平均点だけでクラス全体の評価をするのは正しいとは言えません。
下に、このデータのヒストグラムを示しました。B クラスの 2 点と 4 点が全体から見て異常に小さい値であることを確認してください。
明らかに値が小さい(または、大きい)このような値を異常値といい、B クラスではこれが平均点を押し下げています。平均値は異常値の影響を受けやすいという性質があるため、異常値が含まれる場合、平均値をデータの代表値とするのはあまり適切ではありません。
そこで、データの代表値として中央値を考えます。中央値はデータを大きさの順に並べたときに中央に位置する値のことでした。上の例では A クラスも B クラスもその中央値は 76 点と等しくなります。この例の場合、クラス全体の評価をするには、平均点よりも中央値の方が適切と考えられます。
このように、中央値は異常値の影響を受けにくいという性質があります。
中央値を用いる意味を分かっていただけたでしょうか?それでは続いて、中央値の求め方を説明します。
中央値の求め方
粗データに対する中央値は、次のように求められます。
中央値(メジアン)の求め方
データを小さい順に並び替えたものを x(1),x(2),⋯,x(n) としたとき、中央値 Me は次のように求まる。
Me={x(n+12)(nが奇数)x(n2)+x(n2+1)2(nが偶数)
ここからは、粗データに対する中央値の求め方を、データ数が奇数の場合と偶数の場合に分けて説明しています。
データ数が奇数の場合
データ数が奇数個の場合、中央に位置する 1 つの値が存在するので、それがそのまま中央値となります。
データ数が n 個(奇数個)の場合、中央に位置するのは n+12 番目なので、x(n+12) が中央値となります。
例題を解いて確認してみましょう。ちなみに、下に示したデータは「中央値(メジアン)とは」の項目で用いた例と同じです。
次に示した英語の得点データの中央値を求めよ。
A クラス (xi) |
---|
49(=x(1)) |
55(=x(2)) |
56(=x(3)) |
62(=x(4)) |
65(=x(5)) |
76(=x(6)) |
78(=x(7)) |
80(=x(8)) |
84(=x(9)) |
90(=x(10)) |
97(=x(11)) |
データはすでに小さい順に並んでいます。
データ数(n)は 11 個なので、その中央値は n+12=11+12=6(番目)のデータです。よって、中央値は x(6)=76(点)と求まりました。
データ数が偶数の場合
データ数が偶数個の場合、中央に 1 つの値が位置していません。そこで、中央の 2 つの値の平均値を中央値とします。
データ数が n 個(偶数個)の場合、中央に位置するのは n2 番目と n2+1 番目の 2 つの数なので、その平均値 x(n2)+x(n2+1)2 が中央値となります。
例題を解いて確認してみましょう。
次に示した英語の得点データの中央値を求めよ。
C クラス (xi) |
---|
55(=x(1)) |
56(=x(2)) |
62(=x(3)) |
65(=x(4)) |
76(=x(5)) |
78(=x(6)) |
80(=x(7)) |
84(=x(8)) |
90(=x(9)) |
97(=x(10)) |
データはすでに小さい順に並んでいます。
データ数(n)は 10 個なので、その中央値は n2=102=5(番目)と n+12=102+1=6(番目)のデータの平均値です。よって、中央値は x(5)+x(6)2=76+782=77(点)と求まりました。