Processing math: 100%

中央値(メジアン)の意味と求め方

中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ることで求められます。

中央値(メジアン)の求め方

データを小さい順に並び替えたものを x(1),x(2),,x(n) としたとき、中央値 Me は次のように求まる。

Me={x(n+12)(nが奇数)x(n2)+x(n2+1)2(nが偶数)

このページの続きでは、中央値の意味求め方を、分かりやすく説明しています。



もくじ

  1. 中央値(メジアン)とは
  2. 中央値の求め方
    1. データ数が奇数の場合
    2. データ数が偶数の場合

中央値(メジアン)とは

中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ります。

例として、次のデータの中央値を求めてみましょう。これは、生徒数 11 人のあるクラス(A クラスとします)で行った英語の試験の得点分布です。

A クラスの英語の得点データ
A クラス
xi
49(=x(1)
55(=x(2)
56(=x(3)
62(=x(4)
65(=x(5)
76(=x(6)
78(=x(7)
80(=x(8)
84(=x(9)
90(=x(10)
97(=x(11)

この得点データは小さい順に並んでいて、その中央に位置する値は上から 6 番目の数値 x(6)=76(点)です。この数値の前には 5 個のデータが、後にも 5 個のデータがあることから、ちょうど真ん中にあることを確認できますね。よって、このデータの中央値は 76 点と求まりました。


さて、中央値にはどのような意味があるのかを考えてみましょう。統計でよく用いられる代表値には「平均値」がありますが、これと中央値にはどのような違いがあるのかを説明します。

例として、次のデータを考えます。A クラスと B クラスの英語の得点データを小さい順に並べました。A クラスの得点データは上に挙げた例と同じです。

A クラスの英語の得点データ
 A クラス
x(i)
B クラス
y(i)
 49(=x(1)2(=y(1)
 55(=x(2)4(=y(2)
 56(=x(3)55(=y(3)
 62(=x(4)62(=y(4)
 65(=x(5)65(=y(5)
 76(=x(6)76(=y(6)
 78(=x(7)78(=y(7)
 80(=x(8)80(=y(8)
 84(=x(9)84(=y(9)
 90(=x(10)90(=y(10)
 97(=x(11)97(=y(11)
平均値72(=¯x63(=¯y
中央値7676

このデータは、説明がしやすいように、先頭の 2 つの得点以外は左右で同じ点数にしています。

それぞれのクラスの平均点を計算すると、A クラスの得点の平均値(¯x)が 72 点、B クラスの得点の平均値(¯y)が 63 点と求まります。

平均点は B クラスの方が平均点がだいぶ低いですね… では、この平均点の差を理由に「B クラス(平均 63 点)は A クラス(平均 72 点)よりも英語ができない」ということができるでしょうか?そのような分析は適切といえるでしょうか?

それはデータの分布を見ると適切とは言えません。なぜなら、B クラスの平均点が低いのは、2 点と 4 点を取っている 2 人の影響が大きいからです。それを無視して、平均点だけでクラス全体の評価をするのは正しいとは言えません。

下に、このデータのヒストグラムを示しました。B クラスの 2 点と 4 点が全体から見て異常に小さい値であることを確認してください。

A クラスのヒストグラム
A クラスのヒストグラム
B クラスのヒストグラム
B クラスのヒストグラム

明らかに値が小さい(または、大きい)このような値を異常値といい、B クラスではこれが平均点を押し下げています。平均値は異常値の影響を受けやすいという性質があるため、異常値が含まれる場合、平均値をデータの代表値とするのはあまり適切ではありません。

そこで、データの代表値として中央値を考えます。中央値はデータを大きさの順に並べたときに中央に位置する値のことでした。上の例では A クラスも B クラスもその中央値は 76 点と等しくなります。この例の場合、クラス全体の評価をするには、平均点よりも中央値の方が適切と考えられます。

このように、中央値は異常値の影響を受けにくいという性質があります。


中央値を用いる意味を分かっていただけたでしょうか?それでは続いて、中央値の求め方を説明します。

中央値の求め方

粗データに対する中央値は、次のように求められます。

中央値(メジアン)の求め方

データを小さい順に並び替えたものを x(1),x(2),,x(n) としたとき、中央値 Me は次のように求まる。

Me={x(n+12)(nが奇数)x(n2)+x(n2+1)2(nが偶数)

ここからは、粗データに対する中央値の求め方を、データ数が奇数の場合偶数の場合に分けて説明しています。

データ数が奇数の場合

データ数が奇数個の場合、中央に位置する 1 つの値が存在するので、それがそのまま中央値となります。

データ数が n 個(奇数個)の場合、中央に位置するのは n+12 番目なので、x(n+12) が中央値となります。

例題を解いて確認してみましょう。ちなみに、下に示したデータは「中央値(メジアン)とは」の項目で用いた例と同じです。

次に示した英語の得点データの中央値を求めよ。

A クラスの英語の得点データ
A クラス
xi
49(=x(1)
55(=x(2)
56(=x(3)
62(=x(4)
65(=x(5)
76(=x(6)
78(=x(7)
80(=x(8)
84(=x(9)
90(=x(10)
97(=x(11)

データはすでに小さい順に並んでいます。

データ数(n)は 11 個なので、その中央値は n+12=11+12=6(番目)のデータです。よって、中央値は x(6)=76(点)と求まりました。

データ数が偶数の場合

データ数が偶数個の場合、中央に 1 つの値が位置していません。そこで、中央の 2 つの値の平均値を中央値とします。

データ数が n 個(偶数個)の場合、中央に位置するのは n2 番目と n2+1 番目の 2 つの数なので、その平均値 x(n2)+x(n2+1)2 が中央値となります。

例題を解いて確認してみましょう。

次に示した英語の得点データの中央値を求めよ。

C クラスの英語の得点データ
C クラス
xi
55(=x(1)
56(=x(2)
62(=x(3)
65(=x(4)
76(=x(5)
78(=x(6)
80(=x(7)
84(=x(8)
90(=x(9)
97(=x(10)

データはすでに小さい順に並んでいます。

データ数(n)は 10 個なので、その中央値は n2=102=5(番目)と n+12=102+1=6(番目)のデータの平均値です。よって、中央値は x(5)+x(6)2=76+782=77(点)と求まりました。