相関係数の意味と求め方 - 公式と計算例

相関係数とは、2 種類のデータの関係を示す指標です。相関係数は無単位なので、単位の影響を受けずにデータの関連性を示します。

相関係数を求めるには、共分散をそれぞれの変数の標準偏差で割ります。次の公式で計算することができます。

相関係数を求める公式

$x$ と $y$ の相関係数 $r$ は次の式で求まる。

\begin{align*} r &= \frac{s_{xy}}{s_xs_y} \\[5pt] &= \frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2}} \end{align*}

ここで、
 $s_{xy}$ は $x$ と $y$ の共分散
 $s_{x}$ は $x$ の標準偏差
 $s_{y}$ は $y$ の標準偏差
 $n$ は 2 変数データ $(x,\,y)$ の総数
 $x_i$ と $y_i$ は個々の数値
 $\overline{x}$ と $\overline{y}$ はそれぞれの平均値
を表します。

この式をいきなり見ても意味が分からないと思いますが、平均値 → 偏差分散標準偏差共分散 をこの順に計算することで、相関係数を求めることができます。

このページでは、相関係数の意味求め方を、例題を用いて分かりやすく説明しています。



もくじ

  1. 相関係数とは
  2. 相関係数の求め方

相関係数とは

相関係数とは、2 種類のデータの関係を示す指標です。相関係数は無単位なので、単位の影響を受けずにデータの関連性を示します。

相関係数は -1 から 1 までの値を取ります。相関係数がどの程度の値なら 2 変数のデータ間に相関があるのか、という統一的な基準は決まっていませんが、おおよそ次の表に示した基準がよく用いられています。

相関係数の値と相関(目安)
相関係数 $r$ の値相関
$ -1\hphantom{.0} \leq r \leq -0.7 $強い負の相関
$ -0.7 \leq r \leq -0.4 $負の相関
$ -0.4 \leq r \leq -0.2 $弱い負の相関
$ -0.2 \leq r \leq \hphantom{-} 0.2 $ほとんど相関がない
$ \hphantom{-}0.2 \leq r \leq \hphantom{-}0.4 $弱い正の相関
$ \hphantom{-}0.4 \leq r \leq \hphantom{-}0.7 $正の相関
$ \hphantom{-}0.7 \leq r \leq \hphantom{-}1\hphantom{.7} $強い正の相関

2 つの変数、例えば、あるクラスの英語の点数と数学の点数の関係を考えることにしましょう。

相関係数が正であるときは、一方の値が増加するともう一方の値が増加する傾向にあるといえます。これを正の相関といいます。

一般的には、英語の点数が高い人は数学の点数もよいという傾向がありそうですね?この場合、英語の点数と数学の点数の相関係数は正となり、正の相関があるといえます。この例の相関係数は「相関係数の求め方」の項目の例題で実際に計算します。

正の相関を示す散布図(相関係数 r > 0)
正の相関を示す散布図(相関係数 r > 0)

一方、相関係数が負であるときは、一方の値が増加するともう一方の値が減少する傾向にあるといえます。これを負の相関といいます。

負の相関を示す散布図(相関係数 r > 0)
負の相関を示す散布図(相関係数 r < 0)

また、相関係数の絶対値が大きいほどその相関関係は強く、相関係数が 0 に近いほど相関関係は小さいといえます。


相関係数はあくまで、2 変数の間に線形的な相関があるかどうかを示す尺度にすぎません。そのため、その扱いには注意が必要で、データの関係性を調べる際には必ず、散布図と相関係数の両方から判断することが必要です。

例えば、相関係数が 0 に近く線形的な相関がない場合でも、散布図から 2 次関数的な関係が見られる場合があります。また、大きな外れ値が相関係数に影響を与えている場合もあります。

相関係数の求め方

相関係数を求めるには、共分散をそれぞれの変数の標準偏差で割ります。相関係数は次の公式で求めることができます。

相関係数を求める公式

$x$ と $y$ の相関係数 $r$ は次の式で求まる。

\begin{align*} r &= \frac{s_{xy}}{s_xs_y} \\[5pt] &= \frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2}} \end{align*}

ここで、
 $s_{xy}$ は $x$ と $y$ の共分散
 $s_{x}$ は $x$ の標準偏差
 $s_{y}$ は $y$ の標準偏差
 $n$ は 2 変数データ $(x,\,y)$ の総数
 $x_i$ と $y_i$ は個々の数値
 $\overline{x}$ と $\overline{y}$ はそれぞれの平均値
を表します。

この式をいきなり見せられても、意味が分からないと思います。そこで、相関係数は次の 6 つのステップで求めるとよいでしょう。

相関係数の求め方

  1. それぞれの変数の平均値を求める
  2. それぞれの変数の偏差(数値 - 平均値)を求める
  3. それぞれの変数の分散偏差の二乗平均)を求める
  4. それぞれの変数の標準偏差分散の正の平方根)を求める
  5. 共分散偏差の積の平均)を求める
  6. 共分散を 2 つの変数の標準偏差で割って相関係数を得る

それでは、例題を解いて、具体的に相関係数を求めてみましょう。

次に示した英語と数学の得点データの相関係数を求めよ。

英語と数学の得点データ
 英語($x$)数学($y$)
A さん50
($=x_1$)
40
($=y_1$)
B さん60
($=x_2$)
70
($=y_2$)
C さん70
($=x_3$)
90
($=y_3$)
D さん80
($=x_4$)
60
($=y_4$)
E さん90
($=x_5$)
100
($=y_5$)

相関係数の公式にいきなり代入するのではなく、平均値 → 偏差分散標準偏差共分散 → 相関係数 の順で一つずつ求めていきます。

ステップ 1:平均値を求める

最初のステップでは、それぞれのデータの平均値($\overline{x}$ と $\overline{y}$)を求めます。それぞれ計算すると、次のようになります。

\begin{align*} \overline{x} &= \frac{50+60+70+80+90}{5}\hphantom{0} = 70 \\[5pt] \overline{y} &= \frac{40+70+90+60+100}{5} = 72 \end{align*}

よって、英語の平均点($\overline{x}$)は 70 点、数学の平均点($\overline{y}$)は 72 点と求まりました。

ステップ 2:偏差を求める

相関係数を求める 2 番目のステップでは、各データの偏差を計算します。偏差とは、各データの数値から平均値を引いた差のことです。すなわち、変数 $x$ に対しては $x_i-\overline{x}$、変数 $y$ に対しては $y_i-\overline{y}$ を計算します。偏差について詳しくは「偏差の意味と求め方」をご覧ください。

例えば、A さんの英語の偏差
(A さんの英語の得点 $x_1$)-(英語の平均値 $\overline{x}$)=$50-70 = -20$(点)と求まります。

A さんの数学の偏差
(A さんの数学の得点 $y_1$)-(数学の平均値 $\overline{y}$)=$40-72 = -32$(点)となります。

このようにして、B さんから E さんまでの偏差を、英語と数学についてそれぞれ計算したものが次の表です。

英語の得点データと平均値、偏差
 英語の点数
($x_i$)
偏差($x_i-\overline{x}$)
A さん50($=x_1$)-20($=x_1-\overline{x}$)
B さん60($=x_2$)-10($=x_2-\overline{x}$)
C さん70($=x_3$)0($=x_3-\overline{x}$)
D さん80($=x_4$)10($=x_4-\overline{x}$)
E さん90($=x_5$)20($=x_5-\overline{x}$)
平均値70($=\overline{x}$)
数学の得点データと平均値、偏差
 数学の点数
($y_i$)
偏差($y_i-\overline{y}$)
A さん40($=y_1$)-32($=y_1-\overline{y}$)
B さん70($=y_2$)-2($=y_2-\overline{y}$)
C さん90($=y_3$) 18($=y_3-\overline{y}$)
D さん60($=y_4$)-12($=y_4-\overline{y}$)
E さん100($=y_5$)28($=y_5-\overline{y}$)
平均値72($=\overline{y}$)

ステップ 3:分散を求める

相関係数を求める 3 番目のステップでは、各変数の分散を求めます。分散とは、偏差の二乗の平均のことです。分散について詳しくは「分散の意味と求め方」をご覧ください。

前のステップで求めた偏差を用いて、英語の得点の分散 $ {s_x}^2 $ と 数学の得点の分散 $ {s_y}^2 $ は次のように計算できます。

\begin{align*} {s_x}^2 &= \frac{(-20)^2+(-10)^2+0^2+10^2+20^2}{5}= 200 \\[5pt] {s_y}^2 &= \frac{(-32)^2+(-2)^2+18^2+(-12)^2+28^2}{5}= 456 \\[5pt] \end{align*}

よって、英語の得点の分散 $ {s_x}^2 $ は 200(単位:点2)、数学の得点の分散 $ {s_y}^2 $ は 456(点2)と求まりました。

ステップ 4:標準偏差を求める

相関係数を求める 4 番目のステップでは、各変数の標準偏差を求めます。標準偏差とは、分散の正の平方根のことです。標準偏差について詳しくは「標準偏差の意味と求め方」をご覧ください。

前のステップで分散を求めているので、英語の得点の標準偏差 $ {s_x} $ と 数学の得点の標準偏差 $ {s_y} $ は次のように簡単に計算できます。

\begin{align*} s_x &= \sqrt{{s_x}^2} = \sqrt{200} \approx 14.14 \\[5pt] s_y &= \sqrt{{s_y}^2} = \sqrt{456} \approx 21.35 \end{align*}

よって、英語の得点の標準偏差 $ {s_x} $ は 14.14(単位:点)、英語の得点の標準偏差 $ {s_y} $ は 21.35(点)と求まりました。

ステップ 5:共分散を求める

相関係数を求める 5 番目のステップでは、共分散を求めます。共分散とは、偏差の積 $(x_i-\overline{x})(y_i-\overline{y})$ の平均値です。共分散について詳しくは「共分散の意味と求め方」をご覧ください。

偏差は 2 番目のステップで既に求めました。この計算結果およびその積を下の表に示します。

なお、偏差の積とは、例えば A さんについて、A さんの数学の偏差($-20$ 点)と英語の偏差($-32$ 点)を掛け合わせたものです。この計算結果は、$(-20)\times (-32) = 640$(単位:点2)になります。

同様に B さんから E さんまで偏差の積を計算した結果を次の表に載せています。

英語と数学の偏差とその積
 英語の偏差数学の偏差偏差の積
A さん-20-32640
B さん-10-220
C さん0180
D さん10-12-120
E さん2028560

偏差の積の平均を取ったものが、共分散です。上の表より、共分散 $s_{xy}$ は次のように計算できます。

\begin{align*} s_{xy} &= \frac{640+20+0+(-120)+560}{5} \\[5pt] &= 220 \end{align*}

よって共分散($s_{xy}$)は 220(単位:点2)と求まりました。

ステップ 6:相関係数を求める

相関係数を求める最後のステップでは、共分散 $s_{xy}$ を 英語の得点の標準偏差 $s_x$ と数学の得点の標準偏差 $s_y$ で割ります。この結果が相関係数です。

4 番目のステップで求めた、英語と数学それぞれの標準偏差 $s_x,\,s_y$ は

\begin{align*} s_x &\approx 14.14 \,\text{点} \\[5pt] s_y &\approx 21.35 \,\text{点} \\[5pt] \end{align*}

であり、5 番目のステップで求めた共分散 $s_{xy}$ は

\begin{align*} s_{xy} &= 220 \,\text{点}^2 \end{align*}

だったので、相関係数 $r$ は次のように計算できます。

\begin{align*} r &= \frac{s_{xy}}{s_xs_y} \\[5pt] &= \frac{220}{14.14 \times 21.35} \\[5pt] &\approx 0.73 \end{align*}

よって、英語の得点と数学の得点の相関係数 r は、r = 0.73 と求まりました。r > 0.7 なので、一般的な基準を用いれば、この 2 つの点数の間には強い正の相関があると言えるでしょう。

最後に、この例の散布図を示します。

英語と数学の得点データの散布図と回帰直線
英語と数学の得点データの散布図と回帰直線