共分散の意味と求め方、共分散公式の使い方
共分散とは、2 種類のデータの関係を示す指標です。共分散を求めるには、2 つの変数の偏差の積の平均を計算します。
共分散は次の公式で求めることができます。
共分散を求める公式
$x$ と $y$ の共分散 $s_{xy}$ は次の式で求まる。
\[ s_{xy} = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) \]
ここで、
$n$ はデータの総数
$x_i$ と $y_i$ は個々のデータの数値
$\overline{x}$ と $\overline{y}$ はそれぞれの変数の平均値
を表します。
この式は、各変数の偏差を計算してから、その積の平均を計算することを表しています。順番に計算すれば、簡単に計算することができます。
このページでは、共分散の意味と求め方を、例題を用いて分かりやすく説明しています。また、共分散を求める別の方法である共分散公式についても説明しています。
もくじ
共分散とは
共分散とは、2 種類(2 変数)のデータの関係を示す指標です。1 変数データに対する分散を 2 変数データに拡張した統計量になります。
2 つの変数、例えば、あるクラスの英語の点数と数学の点数の関係を考えることにしましょう。
共分散が正であるときは、一方の値が増加するともう一方の値が増加する傾向にあるといえます。これを正の相関といいます。
一般的には、英語の点数が高い人は数学の点数もよいという傾向がありそうですね?この場合、英語の点数と数学の点数の共分散は正となり、正の相関があるといえます。この例の共分散は「共分散の求め方」の項目の例題で実際に計算します。
一方、共分散が負である時は、一方の値が増加するともう一方の値が減少する傾向にあるといえます。これを負の相関といいます。
また、共分散の絶対値が大きいほどその相関関係は強く、共分散が 0 に近いほど相関関係は小さいといえます。
相関については、共分散から求められる統計量「相関係数」の説明ページで図を用いた詳しい説明をしていますので、ご覧ください。
共分散の求め方
共分散を求めるには、2 つの変数の偏差の積の平均値を計算します。共分散は次の公式で求めることができます。
共分散を求める公式
$x$ と $y$ の共分散 $s_{xy}$ は次の式で求まる。
\[ s_{xy} = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) \]
ここで、
$n$ はデータの総数
$x_i$ と $y_i$ は個々のデータの数値
$\overline{x}$ と $\overline{y}$ はそれぞれの変数の平均値
を表します。
この式の意味を分解して、共分散は次の 3 つのステップで求めるとよいでしょう。
それでは、例題を解いて、具体的に共分散を求めてみましょう。
次に示した英語と数学の得点データの共分散を求めよ。
英語($x$) | 数学($y$) | |
---|---|---|
A さん | 50 ($=x_1$) | 40 ($=y_1$) |
B さん | 60 ($=x_2$) | 70 ($=y_2$) |
C さん | 70 ($=x_3$) | 90 ($=y_3$) |
D さん | 80 ($=x_4$) | 60 ($=y_4$) |
E さん | 90 ($=x_5$) | 100 ($=y_5$) |
最初のステップでは、それぞれのデータの平均値($\overline{x}$ と $\overline{y}$)を求めます。それぞれ計算すると、次のようになります。
\begin{align*} \overline{x} &= \frac{50+60+70+80+90}{5}\hphantom{0} = 70 \\[5pt] \overline{y} &= \frac{40+70+90+60+100}{5} = 72 \end{align*}
よって、英語の平均点($\overline{x}$)は 70 点、数学の平均点($\overline{y}$)は 72 点と求まりました。
共分散を求める 2 番目のステップでは、各データの偏差を計算します。偏差とは、各データの数値から平均値を引いた差のことです。すなわち、変数 $x$ に対しては $x_i-\overline{x}$、変数 $y$ に対しては $y_i-\overline{y}$ を計算します。偏差について詳しくは「偏差の意味と求め方」をご覧ください。
例えば、A さんの英語の偏差は
(A さんの英語の得点 $x_1$)-(英語の平均値 $\overline{x}$)=50 - 70 = -20(点)と求まります。
A さんの数学の偏差は
(A さんの数学の得点 $y_1$)-(数学の平均値 $\overline{y}$)=40 - 72 = -32(点)となります。
このようにして、B さんから E さんまでの偏差を計算すると、英語と数学でそれぞれ次の表のようになります。
英語の点数 ($x_i$) | 偏差($x_i-\overline{x}$) | |
---|---|---|
A さん | 50($=x_1$) | -20($=x_1-\overline{x}$) |
B さん | 60($=x_2$) | -10($=x_2-\overline{x}$) |
C さん | 70($=x_3$) | 0($=x_3-\overline{x}$) |
D さん | 80($=x_4$) | 10($=x_4-\overline{x}$) |
E さん | 90($=x_5$) | 20($=x_5-\overline{x}$) |
平均値 | 70($=\overline{x}$) | ー |
数学の点数 ($y_i$) | 偏差($y_i-\overline{y}$) | |
---|---|---|
A さん | 40($=y_1$) | -32($=y_1-\overline{y}$) |
B さん | 70($=y_2$) | -2($=y_2-\overline{y}$) |
C さん | 90($=y_3$) | 18($=y_3-\overline{y}$) |
D さん | 60($=y_4$) | -12($=y_4-\overline{y}$) |
E さん | 100($=y_5$) | 28($=y_5-\overline{y}$) |
平均値 | 72($=\overline{y}$) | ー |
これで、偏差を求めるステップは終了です。
共分散を求めるための 3 番目のステップでは、偏差の積 $(x_i-\overline{x})(y_i-\overline{y})$ の平均値を計算します。
まずは偏差の積を求めましょう。例えば A さんの偏差の積は、A さんの数学の偏差(-20 点)と英語の偏差(-32 点)を掛け合わせます。
これを計算すると、(-20) × (-32) = 640(単位:点2)になります。偏差の積の単位は、点数と点数の積なので「点数の二乗(点2)」になります。
同様に、B さんから E さんまでの偏差の積を計算したものが、次の表です。
英語の偏差 | 数学の偏差 | 偏差の積 | |
---|---|---|---|
A さん | -20 | -32 | 640 |
B さん | -10 | -2 | 20 |
C さん | 0 | 18 | 0 |
D さん | 10 | -12 | -120 |
E さん | 20 | 28 | 560 |
最後に、偏差の積の平均を計算します。この計算で共分散を得ることができます。
上の表より、偏差の積の平均(=共分散 $s_{xy}$)を計算すると
\begin{align*} s_{xy} &= \frac{640+20+0+(-120)+560}{5} \\[5pt] &= 220 \end{align*}
よって共分散($s_{xy}$)は 220(点2)と求まりました。共分散は偏差の積の平均なので、その単位は偏差の積と同じく、「点数の二乗(点2)」です。
共分散公式
共分散は定義式のほか、(共分散)=(積の平均)-(平均の積)でも求めることができます。これを、共分散公式といいます。1 変数データに対する分散公式を 2 変数データに拡張した形式になっています。
共分散公式
\[ s_{xy} = \frac{1}{n}\sum_{i=1}^nx_iy_i-\overline{x}\overline{y} \]
共分散公式を使って、上の例題(英語の得点と数学の得点)の共分散を計算してみましょう。
次に示した英語と数学の得点データの共分散を求めよ。
英語($x$) | 数学($y$) | |
---|---|---|
A さん | 50 ($=x_1$) | 40 ($=y_1$) |
B さん | 60 ($=x_2$) | 70 ($=y_2$) |
C さん | 70 ($=x_3$) | 90 ($=y_3$) |
D さん | 80 ($=x_4$) | 60 ($=y_4$) |
E さん | 90 ($=x_5$) | 100 ($=y_5$) |
共分散公式を使うと、偏差を求める過程を経ず、それぞれの得点($x_i,\,y_i$)と平均点($\overline{x},\,\overline{y}$)から直接共分散を求めることができます。英語の平均点は 70 点、数学の平均点は 72 点なので、
(分散)=(積の平均)-(平均の積)より
\begin{align*} s_{xy} &= \frac{50\cdot 40+60\cdot 70+70\cdot 90+ 80\cdot 60 + 90\cdot 100}{5}-70\cdot 72 \\[5pt] &= 5260 - 5040 \\[5pt] &= 220 \end{align*}
よって、上の例題で解いたのと同じく、共分散は 220(点2)と求まりました。共分散公式を使うと、各データの偏差を求める手順がないため早く計算できます。