next up previous
Next: 4 回転不変性について Up: 相関係数に関する一考察 Previous: 2 通常の相関係数の定義 (PDF ファイル: corel1.pdf)


3 通常の回帰直線の定義

次に通常の回帰直線の話を簡単に述べる。

回帰直線とは、データに直線的な相関がある場合に、 それを表す、最も妥当だと思われる直線を回帰直線という。 実際にはそれは以下のようにして求める。

まず、求める直線を $y=ax+b$ とすると、データ $(x_j,y_j)$ に直線相関がある場合は $y_j\approx ax_j+b$ となるので、 その誤差 ($=y_j-(ax_j+b)$) の平方和を最も小さくする $a$,$b$ を取る、 という最小自乗法を用いる。 すなわち、

\begin{displaymath}
f(a,b)=\sum_{j=1}^n\{y_j-(ax_j+b)\}^2
\end{displaymath}

として、この 2 変数関数 $f(a,b)$ の最小値を与える $a$, $b$ を求める。 通常の教科書では、偏微分を用いてこの 2 変数関数 $f(a,b)$ の最小値を求める ものが多いように思うが、$f(a,b)$ は 2 次式なので、ここではより素朴な方法、 すなわち
$b$ に関して最小になるところの中で、$a$ に関して最小になるところを求める
によって求めることにする。そのために次の性質を利用する。

\begin{eqnarray*}S_{xx} & = & \sum_j (x_j-\overline{x}\,)^2
= \sum_j (x_j^2-2x_...
...ne{y}\,\\
& = & n(\overline{xy}\,-\overline{x}\,\overline{y}\,)\end{eqnarray*}

ここで、

\begin{displaymath}
\overline{x^2}\,=\frac{1}{n}\sum_{j=1}^n x_j^2,\hspace{1zw}
...
...^2,\hspace{1zw}
\overline{xy}\,=\frac{1}{n}\sum_{j=1}^n x_jy_j
\end{displaymath}

などとした。

これらを用いると、$f(a,b)$ は以下のように展開される。

\begin{eqnarray*}f(a,b)
& = & \sum_j\{y_j-(ax_j+b)\}^2
= \sum_j\{y_j^2-2y_j(a...
...xy}\,-2b\overline{y}\,+a^2\overline{x^2}\,+2ab\overline{x}\,+b^2)\end{eqnarray*}

これを $b$ に関する 2 次式と見て、$b$ について整理する。

\begin{eqnarray*}\frac{1}{n}f(a,b)
& = & b^2 + 2(a\overline{x}\,-\overline{y}\...
...,)^2 + \frac{a^2}{n}S_{xx}-\frac{2a}{n}S_{xy}
+\frac{1}{n}S_{yy}\end{eqnarray*}

よって、$f(a,b)$ は、$b$ に関しては $b=\overline{y}\,-a\overline{x}\,$ のときに最小になり、 その最小値は

\begin{displaymath}
f_1(a)=f(a,\overline{y}\,-a\overline{x}\,)=a^2S_{xx}-2aS_{xy}+S_{yy}
\end{displaymath}

である。これは $a$ に関する 2 次式であるから、 これを今度は $a$ について整理すれば、

\begin{eqnarray*}f_1(a)
& = & a^2S_{xx}-2aS_{xy}+S_{yy}
= S_{xx}\left(a^2-2a\...
...{S_{xy}}{S_{xx}}\right)^2
+ \frac{S_{xx}S_{yy}-S_{xy}^2}{S_{xx}}\end{eqnarray*}

となる。$S_{xx}$ は定義より 0 以上で、これが 0 ではないとすれば (通常はそう)、 $f_1(a)$ $a=S_{xy}/S_{xx}$ のときに最小となり、 その最小値は

\begin{displaymath}
f_m = \frac{S_{xx}S_{yy}-S_{xy}^2}{S_{xx}}(=S_{yy}(1-r^2))
\end{displaymath}

となる。よって、

\begin{displaymath}
b=\overline{y}\,-a\overline{x}\,,\hspace{1zw}a=\frac{S_{xy}}{S_{xx}}
\end{displaymath}

のときに回帰直線となり、よってそれは

\begin{displaymath}
y-\overline{y}\,=a(x-\overline{x}\,) = \frac{S_{xy}}{S_{xx}}(x-\overline{x}\,)
\end{displaymath}

となる。これが通常教科書に書かれている結果である。

しかし、この式は明らかに $x$,$y$ に関して対称ではない。 すなわち、「元のデータを $(x_j,y_j)$ とみて回帰直線を求めたもの」 と、「元のデータを $(y_j,x_j)$ とみて回帰直線を求めたもの」は、 $y=x$ に関して対称にはならない。

例えば「$x=$身長、$y=$体重」のようなデータの場合、 どちらを横軸に取ってどちらを縦軸に取るか、 ということに余り意味はなさそうであるが、 上の非対称性は、そのどちらを横軸に取るかで回帰直線が本質的に変わってしまう、 ということを意味している。

前の、相関係数の回転不変性に対する疑問と同様に、 これも直線相関を意味するものとして適当なのだろうかと疑問に思う。

そのような非対称性が起こるのは、もちろん、

\begin{displaymath}
f(a,b)=\sum_{j=1}^n\{y_j-(ax_j+b)\}^2
\end{displaymath}

の定義に問題がある。つまり、この式は 「データと直線の距離の平方和」 を意味しているのではなく、 「データと、それと同じ $x$ 座標を持つ直線上の点との距離の平方和」 を取っていて、すなわち $y$ 軸に平行に距離を計っているために そのような対称性が崩れてしまう。 その定義からもすぐに分かるが、回帰直線にも回転不変性はない。

回帰直線に回転不変性や、$x$,$y$ の入れ替えに対する不変性を持たせるためには、 「データと直線の距離の平方和」を最小にする直線を考えれば良い。 これらの疑問をまとめると以下のようになる。

問題 3 データ点と直線の距離の平方和を最小にする直線はどのような式になるか、 また、なぜ通常それを用いないのか


next up previous
Next: 4 回転不変性について Up: 相関係数に関する一考察 Previous: 2 通常の相関係数の定義
Shigeharu TAKENO
2004年 10月 18日