相関係数の意味と求め方 - 公式と計算例
相関係数とは、2 種類のデータの関係を示す指標です。値が 1 や -1 に近いほど相関が強く、0 に近いほど相関が弱いといえます。相関係数は無単位なので、単位の影響を受けずにデータの関連性を示します。
相関係数を求めるには、共分散をそれぞれの変数の標準偏差で割ります。具体的には、次の公式で計算することができます。
相関係数を求める公式
$x$ と $y$ の相関係数 $r$ は次の式で求まる。
\begin{align*} r &= \frac{s_{xy}}{s_xs_y} \\[5pt] &= \frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2}} \end{align*}
ここで、
$s_{xy}$ は $x$ と $y$ の共分散
$s_{x}$ は $x$ の標準偏差
$s_{y}$ は $y$ の標準偏差
$n$ は 2 変数データ $(x,\,y)$ の総数
$x_i$ と $y_i$ は個々のデータの数値
$\overline{x}$ と $\overline{y}$ はそれぞれの変数の平均値
を表します。
長い式ですが、意味を分解しながら、平均値 → 偏差 → 分散 → 標準偏差 → 共分散 の順番で計算することで、相関係数を求めることができます。
もくじ
相関係数とは
相関係数の概要
相関係数とは、2 種類のデータの関係を示す指標です。別名で、ピアソンの積率相関係数ともいいます。相関係数は無単位なので、単位の影響を受けずにデータの関連性を示すことができます。
相関係数は -1 から 1 までの値を取ります。そして、値が 1 や -1 に近いほど(つまり、絶対値が 1 に近いほど)直線的な相関が強く、0 に近いほど相関が弱いといえます。
相関係数がどの程度の値なら 2 変数のデータ間に相関があるのか、という統一的な基準は決まっていませんが、おおよそ次の表に示した基準がよく用いられています。
相関係数 $r$ の値 | 相関 |
---|---|
$ -1\hphantom{.0} \leq r \leq -0.7 $ | 強い負の相関 |
$ -0.7 \leq r \leq -0.4 $ | 負の相関 |
$ -0.4 \leq r \leq -0.2 $ | 弱い負の相関 |
$ -0.2 \leq r \leq \hphantom{-} 0.2 $ | ほとんど相関がない |
$ \hphantom{-}0.2 \leq r \leq \hphantom{-}0.4 $ | 弱い正の相関 |
$ \hphantom{-}0.4 \leq r \leq \hphantom{-}0.7 $ | 正の相関 |
$ \hphantom{-}0.7 \leq r \leq \hphantom{-}1\hphantom{.7} $ | 強い正の相関 |
具体例を使って相関係数の理解を深めましょう。2 つの変数の例として、あるクラスの英語の点数と数学の点数の関係を考えることにします。
相関係数が正であるときは、一方の値が増加するともう一方の値が増加する傾向にあるといえます。これを正の相関といいます。
一般的には、英語の点数が高い人は数学の点数もよいという傾向がありそうですね?そのような場合、英語の点数と数学の点数の相関係数は正となり、正の相関があるといえます。この例の相関係数は「相関係数の求め方」の項目の例題で実際に計算します。
下の図は、正の相関が見られる場合の 2 変数の関係です。例えば、横軸 x が英語の点数、縦軸 y が数学の点数です。
一方で、相関係数が負であるときは、一方の値が増加するともう一方の値が減少する傾向にあるといえます。これを負の相関といいます。2 変数の散布図は次のような形状になります。
相関係数を使うときの注意点
相関係数はあくまで、2 変数の間に線形的な相関があるかどうかを示す尺度にすぎません。そのため、扱いには注意が必要で、データの関係性を調べる際には必ず、散布図と相関係数の両方から判断することが必要です。
例えば、相関係数が 0 に近く線形的な相関がない場合でも、散布図から 2 次関数的な関係が見られる場合があります。また、大きな外れ値が相関係数に影響を与えている場合もあります。
さらに、データ分析をして事象間に何らかの関係性を見つけようとする場合、相関関係は必ずしも因果関係を意味しないことにも注意が必要です。因果関係があるというためには、相関関係の他に、時間的順序性(原因の後に結果がある)と第 3 因子が存在しないことが条件として必要になります。
第 3 因子とは、対象とする 2 変数と関連が強い第 3 の変数のことを言います。このような第 3 因子がある場合に現れる相関を、擬相関(見かけ上の相関)といいます。
相関係数の求め方
相関係数を求めるには、共分散をそれぞれの変数の標準偏差で割ります。相関係数は次の公式で求めることができます。
相関係数を求める公式
$x$ と $y$ の相関係数 $r$ は次の式で求まる。
\begin{align*} r &= \frac{s_{xy}}{s_xs_y} \\[5pt] &= \frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2}} \end{align*}
ここで、
$s_{xy}$ は $x$ と $y$ の共分散
$s_{x}$ は $x$ の標準偏差
$s_{y}$ は $y$ の標準偏差
$n$ は 2 変数データ $(x,\,y)$ の総数
$x_i$ と $y_i$ は個々のデータの数値
$\overline{x}$ と $\overline{y}$ はそれぞれの変数の平均値
を表します。
長い式ですが、この式の意味を分解すると単純な計算になります。そこで、相関係数は次の 6 つのステップで求めるとよいでしょう。
相関係数の求め方
それでは、例題を解いて、具体的に相関係数を求めてみましょう。
次に示した英語と数学の得点データの相関係数を求めよ。
英語($x$) | 数学($y$) | |
---|---|---|
A さん | 50 ($=x_1$) | 40 ($=y_1$) |
B さん | 60 ($=x_2$) | 70 ($=y_2$) |
C さん | 70 ($=x_3$) | 90 ($=y_3$) |
D さん | 80 ($=x_4$) | 60 ($=y_4$) |
E さん | 90 ($=x_5$) | 100 ($=y_5$) |
相関係数の公式にいきなり代入するのではなく、平均値 → 偏差 → 分散 → 標準偏差 → 共分散 → 相関係数 の順で一つずつ求めていきます。
ステップ 1:平均値を求める
最初のステップでは、それぞれのデータの平均値($\overline{x}$ と $\overline{y}$)を求めます。それぞれ計算すると、次のようになります。
\begin{align*} \overline{x} &= \frac{50+60+70+80+90}{5}\hphantom{0} = 70 \\[5pt] \overline{y} &= \frac{40+70+90+60+100}{5} = 72 \end{align*}
よって、英語の平均点($\overline{x}$)は 70 点、数学の平均点($\overline{y}$)は 72 点と求まりました。
ステップ 2:偏差を求める
相関係数を求める 2 番目のステップでは、各データの偏差を計算します。偏差とは、各データの数値から平均値を引いた差のことです。すなわち、変数 $x$ に対しては $x_i-\overline{x}$、変数 $y$ に対しては $y_i-\overline{y}$ を計算します。偏差について詳しくは「偏差の意味と求め方」をご覧ください。
例えば、A さんの英語の偏差は
(A さんの英語の得点 $x_1$)-(英語の平均値 $\overline{x}$)=50 - 70 = -20(点)と求まります。
A さんの数学の偏差は
(A さんの数学の得点 $y_1$)-(数学の平均値 $\overline{y}$)=40 - 72 = -32(点)となります。
このようにして、A さんから E さんまでの偏差を、英語と数学についてそれぞれ計算したものが次の表です。
英語の点数 ($x_i$) | 偏差($x_i-\overline{x}$) | |
---|---|---|
A さん | 50($=x_1$) | -20($=x_1-\overline{x}$) |
B さん | 60($=x_2$) | -10($=x_2-\overline{x}$) |
C さん | 70($=x_3$) | 0($=x_3-\overline{x}$) |
D さん | 80($=x_4$) | 10($=x_4-\overline{x}$) |
E さん | 90($=x_5$) | 20($=x_5-\overline{x}$) |
平均値 | 70($=\overline{x}$) | ー |
数学の点数 ($y_i$) | 偏差($y_i-\overline{y}$) | |
---|---|---|
A さん | 40($=y_1$) | -32($=y_1-\overline{y}$) |
B さん | 70($=y_2$) | -2($=y_2-\overline{y}$) |
C さん | 90($=y_3$) | 18($=y_3-\overline{y}$) |
D さん | 60($=y_4$) | -12($=y_4-\overline{y}$) |
E さん | 100($=y_5$) | 28($=y_5-\overline{y}$) |
平均値 | 72($=\overline{y}$) | ー |
ステップ 3:分散を求める
相関係数を求める 3 番目のステップでは、各変数の分散を求めます。分散とは、偏差の二乗の平均のことです。分散について詳しくは「分散の意味と求め方」をご覧ください。
前のステップで求めた偏差を用いて、英語の得点の分散 $ {s_x}^2 $ と 数学の得点の分散 $ {s_y}^2 $ は次のように計算できます。
\begin{align*} {s_x}^2 &= \frac{(-20)^2+(-10)^2+0^2+10^2+20^2}{5}= 200 \\[5pt] {s_y}^2 &= \frac{(-32)^2+(-2)^2+18^2+(-12)^2+28^2}{5}= 456 \\[5pt] \end{align*}
よって、英語の得点の分散 $ {s_x}^2 $ は 200(単位:点2)、数学の得点の分散 $ {s_y}^2 $ は 456(点2)と求まりました。
ステップ 4:標準偏差を求める
相関係数を求める 4 番目のステップでは、各変数の標準偏差を求めます。標準偏差とは、分散の正の平方根のことです。標準偏差について詳しくは「標準偏差の意味と求め方」をご覧ください。
前のステップで分散を求めているので、英語の得点の標準偏差 $ {s_x} $ と 数学の得点の標準偏差 $ {s_y} $ は次のように簡単に計算できます。
\begin{align*} s_x &= \sqrt{{s_x}^2} = \sqrt{200} \approx 14.14 \\[5pt] s_y &= \sqrt{{s_y}^2} = \sqrt{456} \approx 21.35 \end{align*}
よって、英語の得点の標準偏差 $ {s_x} $ は 14.14(単位:点)、英語の得点の標準偏差 $ {s_y} $ は 21.35(点)と求まりました。
ステップ 5:共分散を求める
相関係数を求める 5 番目のステップでは、共分散を求めます。共分散とは、偏差の積 $(x_i-\overline{x})(y_i-\overline{y})$ の平均値です。共分散について詳しくは「共分散の意味と求め方」をご覧ください。
偏差は 2 番目のステップで既に求めました。この計算結果およびその積を下の表に示します。
なお、偏差の積とは、例えば A さんについて、A さんの数学の偏差(-20 点)と英語の偏差(-32 点)を掛け合わせたものです。この計算結果は、(-20) × (-32) = 640(単位:点2)になります。
同様に B さんから E さんまで偏差の積を計算した結果が次の表です。
英語の偏差 | 数学の偏差 | 偏差の積 | |
---|---|---|---|
A さん | -20 | -32 | 640 |
B さん | -10 | -2 | 20 |
C さん | 0 | 18 | 0 |
D さん | 10 | -12 | -120 |
E さん | 20 | 28 | 560 |
偏差の積の平均が、共分散です。上の表より、共分散 $s_{xy}$ は次のように計算できます。
\begin{align*} s_{xy} &= \frac{640+20+0+(-120)+560}{5} \\[5pt] &= 220 \end{align*}
よって共分散($s_{xy}$)は 220(単位:点2)と求まりました。
ステップ 6:相関係数を求める
相関係数を求める最後のステップでは、共分散 $s_{xy}$ を 英語の得点の標準偏差 $s_x$ と数学の得点の標準偏差 $s_y$ で割ります。この結果が相関係数です。
4 番目のステップで求めた、英語と数学それぞれの標準偏差 $s_x,\,s_y$ は
\begin{align*} s_x &\approx 14.14 \,\text{点} \\[5pt] s_y &\approx 21.35 \,\text{点} \\[5pt] \end{align*}
であり、5 番目のステップで求めた共分散 $s_{xy}$ は
\begin{align*} s_{xy} &= 220 \,\text{点}^2 \end{align*}
であるので、相関係数 $r$ は次のように計算できます。
\begin{align*} r &= \frac{s_{xy}}{s_xs_y} \\[5pt] &= \frac{220}{14.14 \times 21.35} \\[5pt] &\approx 0.73 \end{align*}
よって、英語の得点と数学の得点の相関係数 r は、r = 0.73 と求まりました。r > 0.7 なので、一般的な基準を用いれば、この 2 つの点数の間には強い正の相関があると言えるでしょう。
最後に、この例で用いたデータの散布図を示します。
相関を判断するためには、相関係数の値だけではなく、散布図からデータの関係性を把握することが大切です。上の図より、このデータには直線的な関係性が見られるため、相関係数で相関を考えることは妥当であると言えます。
図に点線で描いた回帰直線を求める方法は、別の記事「最小二乗法の意味と計算方法 - 回帰直線の求め方」をご覧ください。