next up previous
Next: 3 通常の回帰直線の定義 Up: 相関係数に関する一考察 Previous: 1 はじめに (PDF ファイル: corel1.pdf)


2 通常の相関係数の定義

まず、通常の相関係数の話を簡単に述べる。

2 次元のデータ $(x_j,y_j)$ ( $j=1,2,\ldots,n$) があるとき、 これを $xy$ 平面上に表示したときに (散布図)、 その点がある直線に近い、すなわち $x$$y$ に ほぼ一次的な関係があるときに相関があると言い、 そういう直線的な相関の見られないデータを相関がない、と言う。

その相関を計る指標として相関係数がある。それは以下のように定義される。 まず、$x_j$ の標本平均 $\overline{x}\,$$y_j$ の標本平均 $\overline{y}\,$

\begin{displaymath}
\overline{x}\, = \frac{1}{n}\sum_{j=1}^n x_j = \frac{x_1+x_2...
..., = \frac{1}{n}\sum_{j=1}^n y_j = \frac{y_1+y_2+\cdots+y_n}{n}
\end{displaymath}

と定め、$x$ の平方和 $S_{xx}$, $y$ の平方和 $S_{yy}$, および $x$$y$ の積和 $S_{xy}$

\begin{displaymath}
S_{xx} = \sum_{j=1}^n(x_j-\overline{x}\,)^2,\hspace{1zw}
S_{...
...
S_{xy} = \sum_{j=1}^n(x_j-\overline{x}\,)(y_j-\overline{y}\,)
\end{displaymath}

と定める。このとき、相関係数 $r$
\begin{displaymath}
r = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}\end{displaymath} (1)

で定義される。 そして、$\vert r\vert\leq 1$ であり、 $r=1$ に近ければ正の相関 (傾きが正の直線による相関)、 $r=-1$ に近ければ負の相関 (傾きが負の直線による相関)、 $r=0$ に近ければ相関がない、とするのである。

この $\vert r\vert\leq 1$ であること、 そして $r=\pm 1$ のときにデータが本当に一直線上にのるかを以下に説明する。

$n$ 次元ベクトル $\vec{x}$, $\vec{y}$

\begin{displaymath}
\vec{x} = (x_1-\overline{x}\,,x_2-\overline{x}\,,\ldots,x_n...
...-\overline{y}\,,y_2-\overline{y}\,,\ldots,y_n-\overline{y}\,)
\end{displaymath}

とすると、

\begin{displaymath}
S_{xy} = \vec{x}\cdot\vec{y},\hspace{1zw}
S_{xx} = \vert\vec{x}\vert^2,\hspace{1zw}
S_{yy} = \vert\vec{y}\vert^2
\end{displaymath}

なので

\begin{displaymath}
r=\frac{\vec{x}\cdot\vec{y}}{\vert\vec{x}\vert\vert\vec{y}\vert}
\end{displaymath}

となる。厳密には、シュワルツの不等式から、

\begin{displaymath}
-\vert\vec{x}\vert\vert\vec{y}\vert\leq \vec{x}\cdot\vec{y}\leq \vert\vec{x}\vert\vert\vec{y}\vert
\end{displaymath}

で、かつ等号成立は $\vec{x}//\vec{y}$ となることが導かれ、 よって $-1\leq r\leq 1$ で、

\begin{displaymath}
r=-1\Rightarrow \vec{y}=-\alpha\vec{x}\ (\alpha>0),\hspace{1zw}
r=1\Rightarrow \vec{y}=\alpha\vec{x}\ (\alpha>0)
\end{displaymath}

となることが言えるのであるが、 多少図形的なイメージで説明すると、高校の内積の定義にあるように

\begin{displaymath}
\vec{x}\cdot\vec{y}=\vert\vec{x}\vert\vert\vec{y}\vert\cos\...
...は $\vec{x}$\ と $\vec{y}$\ のなす角},
\ 0\leq\theta\leq\pi)
\end{displaymath}

なので $r=\vec{x}\cdot\vec{y}/\vert\vec{x}\vert\vert\vec{y}\vert=\cos\theta$ となり、 よってまず $\vert r\vert\leq 1$ がいえる。

$r=-1$ となるのは $\theta=\pi$ のときなので $\vec{x}$$\vec{y}$ が丁度逆向きのベクトルのとき、 すなわち $\vec{y}=-\alpha\vec{x}$ ($\alpha>0$) となるが、 それを成分で見ると

\begin{displaymath}
y_j-\overline{y}\,=-\alpha(x_j-\overline{x}\,) \hspace{1zw}(j=1,2,\ldots,n)
\end{displaymath}

となり、これは $(x_j,y_j)$ が一つの直線 $y-\overline{y}\,=-\alpha(x-\overline{x}\,)$ 上にあることを意味することになる。

$r=1$ の場合も同様で、この場合は $\theta=0$ となるので $\vec{x}$$\vec{y}$ が同じ向きのベクトルになり、 後は上の $-\alpha$$\alpha$ に変えれば良い。

これにより、 $-1\leq r\leq 1$ で、$r=1$$r=-1$ は確かに直線相関なので、 そこから離れて 0 に近くなると確かに相関が小さいような気がする。 しかし、例えば $r=0$ の場合に本当に相関がない、と言えるのだろうか。 上の式によれば $r=0$ の場合は $\vec{x}\cdot\vec{y}=0$、すなわち $\vec{x}\perp\vec{y}$ を意味するが、 それが「相関がない状態を意味している」と見なせるだろうか。

これが私が感じた最初の疑問である。

問題 1 $r=0$ の状態は本当に (直線的な) 相関がない、といえるのだろうか

そして、$r$ に含まれる式をみていてぼんやり思ったのは以下の疑問である。

問題 2 $r$ の値は、$(x_j,y_j)$ 全体を原点の周りに $\theta$ だけ 回転しても変わらないだろうか
本来 $r$ が「直線相関」を計る指標である、 というからにはそのような不変性も同時に備えている必要があると思うが、 果して $r$ にはそのような性質があるだろうか。 これは後 (4 節) で検証する。


next up previous
Next: 3 通常の回帰直線の定義 Up: 相関係数に関する一考察 Previous: 1 はじめに
Shigeharu TAKENO
2004年 10月 18日