中央値(メジアン)の意味と求め方
中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ることで求められます。
中央値(メジアン)の求め方
データを小さい順に並び替えたものを $x_{(1)},\,x_{(2)},\,\cdots ,\,x_{(n)}$ としたとき、中央値 $Me$ は次のように求まる。
\begin{align*} Me = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & (n\,\text{が奇数}) & \\[5pt] \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & (n\,\text{が偶数}) & \\[5pt] \end{cases} \end{align*}
もくじ
中央値(メジアン)とは
中央値(メジアン)とは、データを大きさの順に並べたとき、全体の中央に位置する値のことです。データ数が偶数個の場合は、中央に位置する 2 つの数の平均値を取ります。
例として、次のデータの中央値を求めてみましょう。これは、生徒数 11 人のあるクラス(A クラスとします)で行った英語の試験の得点分布です。
A クラス ($x_i$) |
---|
49($=x_{(1)}$) |
55($=x_{(2)}$) |
56($=x_{(3)}$) |
62($=x_{(4)}$) |
65($=x_{(5)}$) |
76($=x_{(6)}$) |
78($=x_{(7)}$) |
80($=x_{(8)}$) |
84($=x_{(9)}$) |
90($=x_{(10)}$) |
97($=x_{(11)}$) |
この得点データは小さい順に並んでいて、その中央に位置する値は上から 6 番目の数値 $x_{(6)} = 76$(点)です。この数値の前には 5 個のデータが、後にも 5 個のデータがあることから、ちょうど真ん中にあることを確認できますね。よって、このデータの中央値は 76 点と求まりました。
さて、中央値にはどのような意味があるのかを考えてみましょう。統計でよく用いられる代表値には「平均値」がありますが、これと中央値にはどのような違いがあるのかを説明します。
例として、次のデータを考えます。A クラスと B クラスの英語の得点データを小さい順に並べました。A クラスの得点データは上に挙げた例と同じです。
A クラス ($x_{(i)}$) | B クラス ($y_{(i)}$) | |
---|---|---|
49($=x_{(1)}$) | 2($=y_{(1)}$) | |
55($=x_{(2)}$) | 4($=y_{(2)}$) | |
56($=x_{(3)}$) | 55($=y_{(3)}$) | |
62($=x_{(4)}$) | 62($=y_{(4)}$) | |
65($=x_{(5)}$) | 65($=y_{(5)}$) | |
76($=x_{(6)}$) | 76($=y_{(6)}$) | |
78($=x_{(7)}$) | 78($=y_{(7)}$) | |
80($=x_{(8)}$) | 80($=y_{(8)}$) | |
84($=x_{(9)}$) | 84($=y_{(9)}$) | |
90($=x_{(10)}$) | 90($=y_{(10)}$) | |
97($=x_{(11)}$) | 97($=y_{(11)}$) | |
平均値 | 72($=\overline{x}$) | 63($=\overline{y}$) |
中央値 | 76 | 76 |
このデータは、説明がしやすいように、先頭の 2 つの得点以外は左右で同じ点数にしています。
それぞれのクラスの平均点を計算すると、A クラスの得点の平均値($\overline{x}$)が 72 点、B クラスの得点の平均値($\overline{y}$)が 63 点と求まります。
平均点は B クラスの方が平均点がだいぶ低いですね… では、この平均点の差を理由に「B クラス(平均 63 点)は A クラス(平均 72 点)よりも英語ができない」ということができるでしょうか?そのような分析は適切といえるでしょうか?
それはデータの分布を見ると適切とは言えません。なぜなら、B クラスの平均点が低いのは、2 点と 4 点を取っている 2 人の影響が大きいからです。それを無視して、平均点だけでクラス全体の評価をするのは正しいとは言えません。
下に、このデータのヒストグラムを示しました。B クラスの 2 点と 4 点が全体から見て異常に小さい値であることを確認してください。
明らかに値が小さい(または、大きい)このような値を異常値といい、B クラスではこれが平均点を押し下げています。平均値は異常値の影響を受けやすいという性質があるため、異常値が含まれる場合、平均値をデータの代表値とするのはあまり適切ではありません。
そこで、データの代表値として中央値を考えます。中央値はデータを大きさの順に並べたときに中央に位置する値のことでした。上の例では A クラスも B クラスもその中央値は 76 点と等しくなります。この例の場合、クラス全体の評価をするには、平均点よりも中央値の方が適切と考えられます。
このように、中央値は異常値の影響を受けにくいという性質があります。
中央値を用いる意味を分かっていただけたでしょうか?それでは続いて、中央値の求め方を説明します。
中央値の求め方
粗データに対する中央値は、次のように求められます。
中央値(メジアン)の求め方
データを小さい順に並び替えたものを $x_{(1)},\,x_{(2)},\,\cdots ,\, x_{(n)}$ としたとき、中央値 $Me$ は次のように求まる。
\begin{align*} Me = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & (n\,\text{が奇数}) & \\[5pt] \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & (n\,\text{が偶数}) & \\[5pt] \end{cases} \end{align*}
ここからは、粗データに対する中央値の求め方を、データ数が奇数の場合と偶数の場合に分けて説明しています。
データ数が奇数の場合
データ数が奇数個の場合、中央に位置する 1 つの値が存在するので、それがそのまま中央値となります。
データ数が $n$ 個(奇数個)の場合、中央に位置するのは $\frac{n+1}{2}$ 番目なので、$ x_{\left(\frac{n+1}{2}\right)}$ が中央値となります。
例題を解いて確認してみましょう。ちなみに、下に示したデータは「中央値(メジアン)とは」の項目で用いた例と同じです。
次に示した英語の得点データの中央値を求めよ。
A クラス ($x_i$) |
---|
49($=x_{(1)}$) |
55($=x_{(2)}$) |
56($=x_{(3)}$) |
62($=x_{(4)}$) |
65($=x_{(5)}$) |
76($=x_{(6)}$) |
78($=x_{(7)}$) |
80($=x_{(8)}$) |
84($=x_{(9)}$) |
90($=x_{(10)}$) |
97($=x_{(11)}$) |
データはすでに小さい順に並んでいます。
データ数($n$)は 11 個なので、その中央値は $\frac{n+1}{2}=\frac{11+1}{2}=6$(番目)のデータです。よって、中央値は $x_{(6)} = 76$(点)と求まりました。
データ数が偶数の場合
データ数が偶数個の場合、中央に 1 つの値が位置していません。そこで、中央の 2 つの値の平均値を中央値とします。
データ数が $n$ 個(偶数個)の場合、中央に位置するのは $\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の 2 つの数なので、その平均値 $\frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2}$ が中央値となります。
例題を解いて確認してみましょう。
次に示した英語の得点データの中央値を求めよ。
C クラス ($x_i$) |
---|
55($=x_{(1)}$) |
56($=x_{(2)}$) |
62($=x_{(3)}$) |
65($=x_{(4)}$) |
76($=x_{(5)}$) |
78($=x_{(6)}$) |
80($=x_{(7)}$) |
84($=x_{(8)}$) |
90($=x_{(9)}$) |
97($=x_{(10)}$) |
データはすでに小さい順に並んでいます。
データ数($n$)は 10 個なので、その中央値は $\frac{n}{2}=\frac{10}{2}=5$(番目)と $\frac{n+1}{2}=\frac{10}{2}+1=6$(番目)のデータの平均値です。よって、中央値は $\frac{x_{(5)}+x_{(6)}}{2} = \frac{76+78}{2} = 77$(点)と求まりました。