2 次元のデータ ( ) があるとき、 これを 平面上に表示したときに (散布図)、 その点がある直線に近い、すなわち と に ほぼ一次的な関係があるときに相関があると言い、 そういう直線的な相関の見られないデータを相関がない、と言う。
その相関を計る指標として相関係数がある。それは以下のように定義される。
まず、 の標本平均
、 の標本平均
を
この であること、 そして のときにデータが本当に一直線上にのるかを以下に説明する。
次元ベクトル , を
とすると、
なので
となる。厳密には、シュワルツの不等式から、
で、かつ等号成立は となることが導かれ、 よって で、
となることが言えるのであるが、 多少図形的なイメージで説明すると、高校の内積の定義にあるように
なので となり、 よってまず がいえる。
となるのは のときなので と が丁度逆向きのベクトルのとき、 すなわち () となるが、 それを成分で見ると
となり、これは が一つの直線 上にあることを意味することになる。
の場合も同様で、この場合は となるので と が同じ向きのベクトルになり、 後は上の を に変えれば良い。
これにより、 で、 と は確かに直線相関なので、 そこから離れて 0 に近くなると確かに相関が小さいような気がする。 しかし、例えば の場合に本当に相関がない、と言えるのだろうか。 上の式によれば の場合は 、すなわち を意味するが、 それが「相関がない状態を意味している」と見なせるだろうか。
これが私が感じた最初の疑問である。
問題 1 の状態は本当に (直線的な) 相関がない、といえるのだろうか
そして、 に含まれる式をみていてぼんやり思ったのは以下の疑問である。
問題 2 の値は、 全体を原点の周りに だけ 回転しても変わらないだろうか本来 が「直線相関」を計る指標である、 というからにはそのような不変性も同時に備えている必要があると思うが、 果して にはそのような性質があるだろうか。 これは後 (4 節) で検証する。