最小二乗法の意味と計算方法 - 回帰直線の求め方
最小二乗法(または、最小自乗法)とは、誤差を伴う測定値の処理において、その誤差の二乗の和を最小にすることで、最も確からしい関係式を求める方法です。
最小二乗法の意味
最小二乗法とは、モデル関数を $f(x)$ とするとき、
\[ \sum_{i=1}^n\{y_i-f(x)\}^2 \]
が最小となるように $f(x)$ を求めることである。
モデル関数を 1 次関数とするとき、これを直線回帰といい、次のように式を求めることができます。
最小二乗法による回帰係数の計算方法
回帰直線を $y=ax+b$ とするとき
\begin{align*} a &= \frac{s_{xy}}{{s_x}^2} \\[5pt] &= \frac{\sum_{n=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{n=1}^n(x_i-\overline{x})^2} \\[5pt] b &= \overline{y}-a\overline{x} \\[5pt] \end{align*}
ここで、
$s_{xy}$ は $x$ と $y$ の共分散
${s_{x}}^2$ は $x$ の分散
$n$ は 2 変数データ $(x,\,y)$ の総数
$x_i$ と $y_i$ は個々のデータの数値
$\overline{x}$ と $\overline{y}$ はそれぞれの変数の平均値
を表します。
もくじ
最小二乗法とは
最小二乗法(または、最小自乗法)とは、誤差を伴う測定値の処理において、その誤差の二乗の和を最小にすることで、最も確からしい関係式を求める方法です。
ここでは、最小二乗法によって回帰直線(1 次関数)を求める場合を例にとって、最小二乗法の説明をします。
2 変数のデータの間に、次の散布図に示すような関係があったとします。例えば、2 つの変数としてテストの「英語の得点」と「数学の得点」を考えてみましょう。同じ人が英語と数学の 2 つの教科のテストを受けたとして、2 つの教科の得点の関係を考えます。下の図に、サンプルデータをプロットしました。横軸が英語の得点、縦軸に数学の得点を表しています。
散布図を見ると、プロット(点)はなんとなく右上がりの関係になっていることが分かります。つまり、英語の得点が高い人は数学の得点も高い、という関係が言えそうです。
このような関係にもっともふさわしい直線を引くと、次のようになります。このような直線を引くことを、直線回帰といいます。
さて、このような右上がりの直線は「なんとなく」引くこともできますが、最小二乗法を使うことで、これを数学的な根拠をもとに引くことができます。最小二乗法では、プロットの $y$ 座標($y_i$)と、回帰直線上の $y$ 座標($f(x_i)$)の差(=残差)の二乗($\{y_i-f(x_i)\}^2$)の和が最小になる関数 $f(x)$ を求めます。
つまり、下の図に示した緑色の矢印の長さの二乗の和が最小になる直線を求めます。
これを式で表すと、次のようになります。
最小二乗法の意味
最小二乗法とは、モデル関数を $f(x)$ とするとき、
\[ \sum_{i=1}^n\{y_i-f(x)\}^2 \]
が最小となるような $f(x)$ を求めることである。
最小二乗法を使って直線回帰をすると、このような 2 変数のデータに対して、もっともふさわしい唯一の直線を求めることができます。
続いて、実際に最小二乗法を使った計算をして、回帰直線を求めてみましょう。
最小二乗法による回帰直線の求め方
最小二乗法で回帰直線を求めるには、次の計算を行います。
最小二乗法による回帰係数の計算方法
回帰直線を $y=ax+b$ とするとき
\begin{align*} a &= \frac{s_{xy}}{{s_x}^2} \\[5pt] &= \frac{\sum_{n=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{n=1}^n(x_i-\overline{x})^2} \\[5pt] b &= \overline{y}-a\overline{x} \\[5pt] \end{align*}
ここで、
$s_{xy}$ は $x$ と $y$ の共分散
${s_{x}}^2$ は $x$ の分散
$n$ は 2 変数データ $(x,\,y)$ の総数
$x_i$ と $y_i$ は個々のデータの数値
$\overline{x}$ と $\overline{y}$ はそれぞれの変数の平均値
を表します。
この式にいきなり代入してもいいのですが、この後の例題では、次の 6 つのステップに分けて順番に計算していきます。
最小二乗法による回帰係数の求め方
それでは、例題を一緒に解いて確認してみましょう。
次に示した英語と数学の得点データの回帰直線を求めよ。
英語($x$) | 数学($y$) | |
---|---|---|
A さん | 50 ($=x_1$) | 40 ($=y_1$) |
B さん | 60 ($=x_2$) | 70 ($=y_2$) |
C さん | 70 ($=x_3$) | 90 ($=y_3$) |
D さん | 80 ($=x_4$) | 60 ($=y_4$) |
E さん | 90 ($=x_5$) | 100 ($=y_5$) |
はじめに、このデータの散布図を次に示します。この図から、データには正の相関があり、回帰直線の傾き $ a $ は正の値であることが予想されます。
このプロットに最もふさわしい直線を最小二乗法によって求めましょう。
回帰係数を求めるため、平均値 → 偏差 → 分散 → 共分散 → 傾き → y 切片 の手順で一つずつ計算していきます。
ステップ 1:平均値を求める
最初のステップでは、それぞれの変数の平均値($\overline{x}$ と $\overline{y}$)を求めます。それぞれ計算すると、次のようになります。
\begin{align*} \overline{x} &= \frac{50+60+70+80+90}{5}\hphantom{0} = 70 \\[5pt] \overline{y} &= \frac{40+70+90+60+100}{5} = 72 \end{align*}
よって、英語の平均点($\overline{x}$)は 70 点、数学の平均点($\overline{y}$)は 72 点と求まりました。
ステップ 2:偏差を求める
2 番目のステップでは、各データの偏差を計算します。偏差とは、各データの数値から平均値を引いた差のことです。すなわち、変数 $x$ に対しては $x_i-\overline{x}$、変数 $y$ に対しては $y_i-\overline{y}$ を計算します。偏差について詳しくは「偏差の意味と求め方」をご覧ください。
例えば、A さんの英語の偏差は
(A さんの英語の得点 $x_1$)-(英語の平均値 $\overline{x}$)=50 - 70 = -20(点)と求まります。
A さんの数学の偏差は
(A さんの数学の得点 $y_1$)-(数学の平均値 $\overline{y}$)=40 - 72 = -32(点)となります。
このようにして、B さんから E さんまでの偏差を、英語と数学についてそれぞれ計算したものが次の表です。
英語の点数 ($x_i$) | 偏差($x_i-\overline{x}$) | |
---|---|---|
A さん | 50($=x_1$) | -20($=x_1-\overline{x}$) |
B さん | 60($=x_2$) | -10($=x_2-\overline{x}$) |
C さん | 70($=x_3$) | 0($=x_3-\overline{x}$) |
D さん | 80($=x_4$) | 10($=x_4-\overline{x}$) |
E さん | 90($=x_5$) | 20($=x_5-\overline{x}$) |
平均値 | 70($=\overline{x}$) | ー |
数学の点数 ($y_i$) | 偏差($y_i-\overline{y}$) | |
---|---|---|
A さん | 40($=y_1$) | -32($=y_1-\overline{y}$) |
B さん | 70($=y_2$) | -2($=y_2-\overline{y}$) |
C さん | 90($=y_3$) | 18($=y_3-\overline{y}$) |
D さん | 60($=y_4$) | -12($=y_4-\overline{y}$) |
E さん | 100($=y_5$) | 28($=y_5-\overline{y}$) |
平均値 | 72($=\overline{y}$) | ー |
ステップ 3:変数 x の分散を求める
3 番目のステップでは、変数 x の分散を求めます。分散とは、偏差の二乗の平均のことです。分散について詳しくは「分散の意味と求め方」をご覧ください。
前のステップで求めた偏差を用いて、英語の得点の分散 $ {s_x}^2 $ は次のように計算できます。
\begin{align*} {s_x}^2 &= \frac{(-20)^2+(-10)^2+0^2+10^2+20^2}{5}= 200 \\[5pt] \end{align*}
よって、英語の得点の分散 $ {s_x}^2 $ は 200(単位:点2)と求まりました。
ステップ 4:共分散を求める
4 番目のステップでは、共分散を求めます。共分散とは、偏差の積 $(x_i-\overline{x})(y_i-\overline{y})$ の平均値です。共分散について詳しくは「共分散の意味と求め方」をご覧ください。
偏差は 2 番目のステップで既に求めました。この計算結果およびその積を下の表に示します。
なお、偏差の積とは、A さんを例にとると、A さんの数学の偏差(-20 点)と英語の偏差(-32 点)を掛け合わせたものです。この計算結果は、(-20) × (-32) = 640(単位:点2)になります。
同様に B さんから E さんまで偏差の積を計算したが次の表です。
英語の偏差 | 数学の偏差 | 偏差の積 | |
---|---|---|---|
A さん | -20 | -32 | 640 |
B さん | -10 | -2 | 20 |
C さん | 0 | 18 | 0 |
D さん | 10 | -12 | -120 |
E さん | 20 | 28 | 560 |
偏差の積の平均を取ったものが、共分散です。上の表より、共分散 $s_{xy}$ は次のように計算できます。
\begin{align*} s_{xy} &= \frac{640+20+0+(-120)+560}{5} \\[5pt] &= 220 \end{align*}
よって共分散($s_{xy}$)は 220(単位:点2)と求まりました。
ステップ 5:傾きを求める
ステップ 3 で求めた英語の得点の分散 $s_x$ と、ステップ 4 で求めた共分散 $s_{xy}$ は以下の通りでした。
\begin{align*} s_{xy} &= 220\,\text{点}^2 \\[5pt] {s_x}^2 &= 200\,\text{点}^2 \end{align*}
したがって、最小二乗法で回帰係数を求める公式より、回帰直線の傾き $a$ は次のように求まります。
\begin{align*} a &= \frac{s_{xy}}{{s_x}^2} \\[5pt] &= \frac{220}{200} \\[5pt] &= 1.1 \end{align*}
したがって、回帰直線の傾き $a$ は 1.1 と求まりました。単位は分母と分子で打ち消しあうため、ありません。
ステップ 6:y 切片を求める
最後に、回帰直線の y 切片 $b$ を求めます。ステップ 1 で求めた平均値 $\overline{x},\,\overline{y}$ と、ステップ 5 で求めた傾き $a$ を、回帰直線を求める公式に代入します。
\begin{align*} b &= \overline{y} - a\overline{x} \\[5pt] &= 72 - 1.1 \times 70 \\[5pt] &= -5.0 \end{align*}
よって、回帰直線の y 切片 $b$ は -5.0(単位:点)と求まりました。
最後に、傾きと切片をまとめて書くと、次のようになります。
\[ y = 1.1 x - 5.0 \]
これで最小二乗法に基づく回帰直線を求めることができました。
散布図に、いま求めた回帰直線を書き加えると、次の図のようになります。