中央値(メジアン)の意味と求め方

中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ることで求められます。

中央値(メジアン)の求め方

データを小さい順に並び替えたものを $x_{(1)},\,x_{(2)},\,\cdots ,\,x_{(n)}$ としたとき、中央値 $Me$ は次のように求まる。

\begin{align*} Me = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & (n\,\text{が奇数}) & \\[5pt] \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & (n\,\text{が偶数}) & \\[5pt] \end{cases} \end{align*}

このページの続きでは、中央値の意味求め方を、分かりやすく説明しています。



もくじ

  1. 中央値(メジアン)とは
  2. 中央値の求め方
    1. データ数が奇数の場合
    2. データ数が偶数の場合

中央値(メジアン)とは

中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ります。

例として、次のデータの中央値を求めてみましょう。これは、生徒数 11 人のあるクラス(A クラスとします)で行った英語の試験の得点分布です。

A クラスの英語の得点データ
A クラス
($x_i$)
49($=x_{(1)}$)
55($=x_{(2)}$)
56($=x_{(3)}$)
62($=x_{(4)}$)
65($=x_{(5)}$)
76($=x_{(6)}$)
78($=x_{(7)}$)
80($=x_{(8)}$)
84($=x_{(9)}$)
90($=x_{(10)}$)
97($=x_{(11)}$)

この得点データは小さい順に並んでいて、その中央に位置する値は上から 6 番目の数値 $x_{(6)} = 76$(点)です。この数値の前には 5 個のデータが、後にも 5 個のデータがあることから、ちょうど真ん中にあることを確認できますね。よって、このデータの中央値は 76 点と求まりました。


さて、中央値にはどのような意味があるのかを考えてみましょう。統計でよく用いられる代表値には「平均値」がありますが、これと中央値にはどのような違いがあるのかを説明します。

例として、次のデータを考えます。A クラスと B クラスの英語の得点データを小さい順に並べました。A クラスの得点データは上に挙げた例と同じです。

A クラスの英語の得点データ
 A クラス
($x_{(i)}$)
B クラス
($y_{(i)}$)
 49($=x_{(1)}$)2($=y_{(1)}$)
 55($=x_{(2)}$)4($=y_{(2)}$)
 56($=x_{(3)}$)55($=y_{(3)}$)
 62($=x_{(4)}$)62($=y_{(4)}$)
 65($=x_{(5)}$)65($=y_{(5)}$)
 76($=x_{(6)}$)76($=y_{(6)}$)
 78($=x_{(7)}$)78($=y_{(7)}$)
 80($=x_{(8)}$)80($=y_{(8)}$)
 84($=x_{(9)}$)84($=y_{(9)}$)
 90($=x_{(10)}$)90($=y_{(10)}$)
 97($=x_{(11)}$)97($=y_{(11)}$)
平均値72($=\overline{x}$)63($=\overline{y}$)
中央値7676

このデータは、説明がしやすいように、先頭の 2 つの得点以外は左右で同じ点数にしています。

それぞれのクラスの平均点を計算すると、A クラスの得点の平均値($\overline{x}$)が 72 点、B クラスの得点の平均値($\overline{y}$)が 63 点と求まります。

平均点は B クラスの方が平均点がだいぶ低いですね… では、この平均点の差を理由に「B クラス(平均 63 点)は A クラス(平均 72 点)よりも英語ができない」ということができるでしょうか?そのような分析は適切といえるでしょうか?

それはデータの分布を見ると適切とは言えません。なぜなら、B クラスの平均点が低いのは、2 点と 4 点を取っている 2 人の影響が大きいからです。それを無視して、平均点だけでクラス全体の評価をするのは正しいとは言えません。

下に、このデータのヒストグラムを示しました。B クラスの 2 点と 4 点が全体から見て異常に小さい値であることを確認してください。

A クラスのヒストグラム
A クラスのヒストグラム
B クラスのヒストグラム
B クラスのヒストグラム

明らかに値が小さい(または、大きい)このような値を異常値といい、B クラスではこれが平均点を押し下げています。平均値は異常値の影響を受けやすいという性質があるため、異常値が含まれる場合、平均値をデータの代表値とするのはあまり適切ではありません。

そこで、データの代表値として中央値を考えます。中央値はデータを大きさの順に並べたときに中央に位置する値のことでした。上の例では A クラスも B クラスもその中央値は 76 点と等しくなります。この例の場合、クラス全体の評価をするには、平均点よりも中央値の方が適切と考えられます。

このように、中央値は異常値の影響を受けにくいという性質があります。


中央値を用いる意味を分かっていただけたでしょうか?それでは続いて、中央値の求め方を説明します。

中央値の求め方

粗データに対する中央値は、次のように求められます。

中央値(メジアン)の求め方

データを小さい順に並び替えたものを $x_{(1)},\,x_{(2)},\,\cdots ,\, x_{(n)}$ としたとき、中央値 $Me$ は次のように求まる。

\begin{align*} Me = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & (n\,\text{が奇数}) & \\[5pt] \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & (n\,\text{が偶数}) & \\[5pt] \end{cases} \end{align*}

ここからは、粗データに対する中央値の求め方を、データ数が奇数の場合偶数の場合に分けて説明しています。

データ数が奇数の場合

データ数が奇数個の場合、中央に位置する 1 つの値が存在するので、それがそのまま中央値となります。

データ数が $n$ 個(奇数個)の場合、中央に位置するのは $\frac{n+1}{2}$ 番目なので、$ x_{\left(\frac{n+1}{2}\right)}$ が中央値となります。

例題を解いて確認してみましょう。ちなみに、下に示したデータは「中央値(メジアン)とは」の項目で用いた例と同じです。

次に示した英語の得点データの中央値を求めよ。

A クラスの英語の得点データ
A クラス
($x_i$)
49($=x_{(1)}$)
55($=x_{(2)}$)
56($=x_{(3)}$)
62($=x_{(4)}$)
65($=x_{(5)}$)
76($=x_{(6)}$)
78($=x_{(7)}$)
80($=x_{(8)}$)
84($=x_{(9)}$)
90($=x_{(10)}$)
97($=x_{(11)}$)

データはすでに小さい順に並んでいます。

データ数($n$)は 11 個なので、その中央値は $\frac{n+1}{2}=\frac{11+1}{2}=6$(番目)のデータです。よって、中央値は $x_{(6)} = 76$(点)と求まりました。

データ数が偶数の場合

データ数が偶数個の場合、中央に 1 つの値が位置していません。そこで、中央の 2 つの値の平均値を中央値とします。

データ数が $n$ 個(偶数個)の場合、中央に位置するのは $\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の 2 つの数なので、その平均値 $\frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2}$ が中央値となります。

例題を解いて確認してみましょう。

次に示した英語の得点データの中央値を求めよ。

C クラスの英語の得点データ
C クラス
($x_i$)
55($=x_{(1)}$)
56($=x_{(2)}$)
62($=x_{(3)}$)
65($=x_{(4)}$)
76($=x_{(5)}$)
78($=x_{(6)}$)
80($=x_{(7)}$)
84($=x_{(8)}$)
90($=x_{(9)}$)
97($=x_{(10)}$)

データはすでに小さい順に並んでいます。

データ数($n$)は 10 個なので、その中央値は $\frac{n}{2}=\frac{10}{2}=5$(番目)と $\frac{n+1}{2}=\frac{10}{2}+1=6$(番目)のデータの平均値です。よって、中央値は $\frac{x_{(5)}+x_{(6)}}{2} = \frac{76+78}{2} = 77$(点)と求まりました。