6 多次元データの主成分分析
次はデータ解析で用いられる主成分分析を紹介する。
例えば、個々の学生の複数科目の成績や学習時間のデータのように、
1 つのデータに複数の情報がついている多次元データについて、
その傾向を知るためや、データの次元の低減化などのために
「主成分分析」という手法が用いられることがある。
2 次元データの場合の回帰直線に多少似たところもある。
今、 個の 次元データ
を考える。各 行データ () の
標本平均を , 標本分散を とすると、
となり、これにより各 を正規化した値を
とする。これにより、 は に関する標本平均が 0、
標本分散が 1 となり、 次元データ
の各行は「同じような大きさ」のデータとなる。
それに対し、
を位置ベクトルとする 次元空間の
点 の散布図に対し、
データが最も長く伸びている方向 (回帰直線のようなもの) を
探すのが主成分分析である。
具体的には、
の任意の単位ベクトル
に対して、
このデータの
方向への正射影
(内積) の標本分散
が最大となる方向
を求めることが
目標となる。
() の平均は、
なので、標本分散
は、
(12)
となる。
なお、原点を通る
方向の直線 に から
引いた垂線の足を とすると (図 5)、
なので、
は が直角の
直角三角形なので、
となり、
は
なので、
を最大にするような方向
は、
と との距離の平方和
を最小にする方向、という風に見ることもでき、
2 次元データに対する回帰直線に似たものになる。
ただし回帰直線は、データ点から回帰直線までの距離ではなく、
データ点と 方向の回帰直線までの距離を考えるので、
実際には は回帰直線とは少し違うものになる (cf.[1])。
さて、(12) の内積の平方は、行列と見て、
と書けるので、
は、
(13)
となり、さらにこの は、
となり、 は
の 行と 行のデータの
標本共分散
であるから、 は 行と 行の相関係数、
すなわち は
の各行に関する相関行列になる。
は対称行列であり、よって は 個の実数の固有値
および正規直交基底をなす固有ベクトル
を
持ち、
は直交行列で、
となる。よって、
(
) とすると、
となる。
は任意の
に対して 0 以上
だから
で、 は直交行列だから
なので、(14) より
の
最大値は で、
、
すなわち
のときにその最大値を取る。
つまり最大固有値に対する固有ベクトル
が主成分方向となる。
は、それに垂直な第 2 主成分方向となり、以下同様となる。
つまり、軸を
で考えれば、
最初のいくつかの軸にデータの傾向が顕著に現れ、
最後の軸の方ではデータ毎の違いが小さくなっている。
そのため、最初のいくつかの軸成分のみを取ることで
データの傾向をあまり変えずにデータの次元を削減することができるようになる。
竹野茂治@新潟工科大学
2024-02-29