中央値（メジアン）の意味と求め方

中央値（メジアン）とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ることで求められます。

中央値（メジアン）の求め方

データを小さい順に並び替えたものを $x_{(1)},\,x_{(2)},\,\cdots ,\,x_{(n)}$ としたとき、中央値 $Me$ は次のように求まる。

\begin{align*} Me = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & (n\,\text{が奇数}) & \\[5pt] \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & (n\,\text{が偶数}) & \\[5pt] \end{cases} \end{align*}

このページの続きでは、中央値の意味と求め方を、分かりやすく説明しています。

中央値（メジアン）とは
中央値の求め方
1. データ数が奇数の場合
2. データ数が偶数の場合

中央値（メジアン）とは

中央値（メジアン）とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ります。

例として、次のデータの中央値を求めてみましょう。これは、生徒数 11 人のあるクラス（A クラスとします）で行った英語の試験の得点分布です。

A クラスの英語の得点データ
A クラス（$x_i$）
49（$=x_{(1)}$）
55（$=x_{(2)}$）
56（$=x_{(3)}$）
62（$=x_{(4)}$）
65（$=x_{(5)}$）
76（$=x_{(6)}$）
78（$=x_{(7)}$）
80（$=x_{(8)}$）
84（$=x_{(9)}$）
90（$=x_{(10)}$）
97（$=x_{(11)}$）

この得点データは小さい順に並んでいて、その中央に位置する値は上から 6 番目の数値 $x_{(6)} = 76$（点）です。この数値の前には 5 個のデータが、後にも 5 個のデータがあることから、ちょうど真ん中にあることを確認できますね。よって、このデータの中央値は 76 点と求まりました。

さて、中央値にはどのような意味があるのかを考えてみましょう。統計でよく用いられる代表値には「平均値」がありますが、これと中央値にはどのような違いがあるのかを説明します。

例として、次のデータを考えます。A クラスと B クラスの英語の得点データを小さい順に並べました。A クラスの得点データは上に挙げた例と同じです。

A クラスの英語の得点データ
	A クラス（$x_{(i)}$）	B クラス（$y_{(i)}$）
	49（$=x_{(1)}$）	2（$=y_{(1)}$）
	55（$=x_{(2)}$）	4（$=y_{(2)}$）
	56（$=x_{(3)}$）	55（$=y_{(3)}$）
	62（$=x_{(4)}$）	62（$=y_{(4)}$）
	65（$=x_{(5)}$）	65（$=y_{(5)}$）
	76（$=x_{(6)}$）	76（$=y_{(6)}$）
	78（$=x_{(7)}$）	78（$=y_{(7)}$）
	80（$=x_{(8)}$）	80（$=y_{(8)}$）
	84（$=x_{(9)}$）	84（$=y_{(9)}$）
	90（$=x_{(10)}$）	90（$=y_{(10)}$）
	97（$=x_{(11)}$）	97（$=y_{(11)}$）
平均値	72（$=\overline{x}$）	63（$=\overline{y}$）
中央値	76	76

このデータは、説明がしやすいように、先頭の 2 つの得点以外は左右で同じ点数にしています。

それぞれのクラスの平均点を計算すると、A クラスの得点の平均値（$\overline{x}$）が 72 点、B クラスの得点の平均値（$\overline{y}$）が 63 点と求まります。

平均点は B クラスの方が平均点がだいぶ低いですね… では、この平均点の差を理由に「B クラス（平均 63 点）は A　クラス（平均 72 点）よりも英語ができない」ということができるでしょうか？そのような分析は適切といえるでしょうか？

それはデータの分布を見ると適切とは言えません。なぜなら、B クラスの平均点が低いのは、2 点と 4 点を取っている 2 人の影響が大きいからです。それを無視して、平均点だけでクラス全体の評価をするのは正しいとは言えません。

下に、このデータのヒストグラムを示しました。B クラスの 2 点と 4 点が全体から見て異常に小さい値であることを確認してください。

明らかに値が小さい（または、大きい）このような値を異常値といい、B クラスではこれが平均点を押し下げています。平均値は異常値の影響を受けやすいという性質があるため、異常値が含まれる場合、平均値をデータの代表値とするのはあまり適切ではありません。

そこで、データの代表値として中央値を考えます。中央値はデータを大きさの順に並べたときに中央に位置する値のことでした。上の例では A クラスも B クラスもその中央値は 76 点と等しくなります。この例の場合、クラス全体の評価をするには、平均点よりも中央値の方が適切と考えられます。

このように、中央値は異常値の影響を受けにくいという性質があります。

中央値を用いる意味を分かっていただけたでしょうか？それでは続いて、中央値の求め方を説明します。

中央値の求め方

粗データに対する中央値は、次のように求められます。

中央値（メジアン）の求め方

データを小さい順に並び替えたものを $x_{(1)},\,x_{(2)},\,\cdots ,\, x_{(n)}$ としたとき、中央値 $Me$ は次のように求まる。

ここからは、粗データに対する中央値の求め方を、データ数が奇数の場合と偶数の場合に分けて説明しています。

データ数が奇数の場合

データ数が奇数個の場合、中央に位置する 1 つの値が存在するので、それがそのまま中央値となります。

データ数が $n$ 個（奇数個）の場合、中央に位置するのは $\frac{n+1}{2}$ 番目なので、$ x_{\left(\frac{n+1}{2}\right)}$ が中央値となります。

例題を解いて確認してみましょう。ちなみに、下に示したデータは「中央値（メジアン）とは」の項目で用いた例と同じです。

次に示した英語の得点データの中央値を求めよ。

A クラスの英語の得点データ
A クラス（$x_i$）
49（$=x_{(1)}$）
55（$=x_{(2)}$）
56（$=x_{(3)}$）
62（$=x_{(4)}$）
65（$=x_{(5)}$）
76（$=x_{(6)}$）
78（$=x_{(7)}$）
80（$=x_{(8)}$）
84（$=x_{(9)}$）
90（$=x_{(10)}$）
97（$=x_{(11)}$）

データはすでに小さい順に並んでいます。

データ数（$n$）は 11 個なので、その中央値は $\frac{n+1}{2}=\frac{11+1}{2}=6$（番目）のデータです。よって、中央値は $x_{(6)} = 76$（点）と求まりました。

データ数が偶数の場合

データ数が偶数個の場合、中央に 1 つの値が位置していません。そこで、中央の 2 つの値の平均値を中央値とします。

データ数が $n$ 個（偶数個）の場合、中央に位置するのは $\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の 2 つの数なので、その平均値 $\frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2}$ が中央値となります。

例題を解いて確認してみましょう。

次に示した英語の得点データの中央値を求めよ。

C クラスの英語の得点データ
C クラス（$x_i$）
55（$=x_{(1)}$）
56（$=x_{(2)}$）
62（$=x_{(3)}$）
65（$=x_{(4)}$）
76（$=x_{(5)}$）
78（$=x_{(6)}$）
80（$=x_{(7)}$）
84（$=x_{(8)}$）
90（$=x_{(9)}$）
97（$=x_{(10)}$）

データはすでに小さい順に並んでいます。

データ数（$n$）は 10 個なので、その中央値は $\frac{n}{2}=\frac{10}{2}=5$（番目）と $\frac{n+1}{2}=\frac{10}{2}+1=6$（番目）のデータの平均値です。よって、中央値は $\frac{x_{(5)}+x_{(6)}}{2} = \frac{76+78}{2} = 77$（点）と求まりました。