tags: 統計学 データビジュアライズ

主成分分析


主成分分析の理論


主成分分析の概要

主成分分析(PCA: Principal component analysis)とは代表的な次元削減のアルゴリズムのことです。国語・算数・理科・社会の点数という4つの特徴を、言語力と論理的思考力という2つの特徴で表現できるように、複数の特徴からなるデータをより少ない特徴で表現しようという試みです。

データを射影したときに、その分散が最大になるような軸を第1主成分と呼び、第1主成分と直交する軸の中で、射影されたデータの分散が最大となる軸を第2主成分と呼びます。第1主成分、第2主成分と直交する軸のうち、射影されたデータの分散が最大となる軸を第3主成分と呼び、その後も同様に、各主成分と直交する軸の中で、データを射影したときにその分散が最大となる軸を

k主成分と呼びます。

つまり、軸を回転させることにより、データを良く説明する成分を抽出し、その成分について考察するというのが主成分分析の目的です。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

このように分散の大きい順に主成分を抽出し、寄与率(各主成分の分散の総分散に対する割合)の高い順に任意の数を選択することが主成分分析の仕組みです。第2主成分までを選択すれば、4次元のデータを2次元に圧縮したことと同値です。

主成分分析の数理

長さ1のベクトル

w=(w1,,wp)T,wTw=1

を定義します。

次に、

p次元の変数ベクトル
X=(X1,,Xp)T
w
の方向への射影

Y=wTX=w1X1++wpXp

の分散を最大にする

w を求めます。この
w
を第1主成分という。

n 個の
p
次元データ
x1,,xp
が与えられたとき、これらのデータからなる行列を

X=(x1TxnT)=(x11x12x1px21x22x2pxn1xn2xnp)

とおく。

X に対する標本分散共分散行列を
V
とすると、
n
個のデータ
(wTx1,,wTxn)T
から求まる標本分散は、

wTVw

と表される。この標本分散を最大化する

w が第1主成分となる。そして、第1主成分
w1
と直交する軸のうちで分散を最大化する軸を第2主成分
w2
とし、以下同様に第
k
主成分が求められる。

V は対称行列なので、主成分分析は固有値問題に帰着させることができる

つまり、

V
X
の標本分散共分散行列としたときに、
V
の固有値を大きい順に
λ1,λ2,,λp
とし、それに対応する固有ベクトルを
w1,w2,,wp
とする。このとき、第
k
主成分は
wk
で与えられる。

ただし、データによっては変数ごとに単位・スケールが異なることがあるため、分散共分散行列ではなく、相関行列に対する固有値問題を解く手法が主流である。

主成分分析の実践


テストの点数の例

データセットは統計科学研究所の『成績のデータ』です。以下のURLからダウンロードしました。

https://statistics.co.jp/reference/statistical_data/statistical_data.htm

Pythonのscikit-learnというライブラリで主成分分析をおこないます。データの可視化にはmatplotlibとseabornというライブラリを使います。

データの概要

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
国語と英語の成績の散布図

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

散布図をプロットしてみると、国語と英語の成績には正の相関がありそうなことがわかります。ほかの教科の組み合わせでもう少し散布図を描いてみます。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
数学と理科の成績の散布図

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

数学と理科の成績をプロットしてみると、国語と英語の成績の相関より強い相関がありそうなことがわかります。今度は数学と体育の成績の相関をプロットしてみます。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
数学と体育の成績の散布図

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

数学と体育の成績の相関は、「国語ー英語」「数学ー理科」に比べて、明らかに弱いことが見てわかります。体育は実技系の科目なので、座学との相関は弱いのではないだろうかと思い散布図を描いてみたのですが、思った通り相関は弱いみたいです。

相関係数で見てみると、「国語ー英語」の相関係数は0.76、「数学ー理科」の相関係数は0.81、「数学ー体育」の相関係数は0.15でした。

相関行列は以下の通りです。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

散布図行列はこのようになっています。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

ラベルが小さくて少し見づらいですが、体育だけほかの教科との相関が弱いという特徴が見て取れます。

三次元の散布図もプロットしてみました。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
「数学ー英語ー国語」の三次元散布図

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

主要3科目なので、まんべんなく勉強するはずだろうということで、相関が強く出るだろうと思っていましたが、散布図を見る限り正の相関がありそうです。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
「数学ー音楽ー体育」の三次元散布図

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

さきほどの「数学ー英語ー国語」の三次元散布図よりも、相関が弱そうなことがわかります。

もっと次元を増やしてデータを可視化したいのですが、当然ながら3次元までしかプロットできません。なので、主成分分析を用いてデータをよく説明する成分を抽出し、次元削減を試みたいと思います。

主成分分析

Pythonのscikit-learnというライブラリを用いて主成分分析をおこないました。データを標準化し、相関行列の固有値問題を解く手法で分析しています。

因子負荷量をプロット

主成分分析をおこなって、因子負荷量(主成分と各変数の相関係数)を2次元プロットしました。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

横軸で見て、”体育”・”技家(技術家庭)”・”美術”などに比べ、”国語”・”理科”・”英語”などの教科の因子負荷量の絶対値が大きいことを踏まえると、第1主成分は主要科目の因子だと考察できます。また、縦軸で見たときに、”体育”にのみ因子負荷量の絶対値が極端に大きいことを踏まえると、第2主成分は体育の因子であると考えられます。

主成分得点をプロット

次に、主成分得点を2次元プロットしました。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

データはばらついていて、特に大きなグループには分けられなさそうなことがわかります。

バイプロット(biplot)

最後に、主成分分析においてよく用いられるデータビジュアライズ手法であるbiplotをおこないました。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

biplotとは、主成分得点と因子負荷量をスケーリングして重ねたグラフです。今回の例では、右にあるデータほど主要科目の得点が高く、上にあるデータほど体育の得点が高いという風に解釈できます。したがって、以下の4つのグループ分けができると考えていいでしょう。

グループ 特性
左下のグループ 主要科目も体育も苦手
左上のグループ 主要科目は苦手だが体育は得意
右下のグループ 体育は苦手だが主要科目は得意
右上のグループ 体育も主要科目も得意

このように、主成分分析によって、9科目のデータを2つの因子によって表現することができました。

主成分分析とはざっくり言えば、データができるだけ散らばるようにしながら、より少ない成分でデータを表現するということなのだと理解しました。高次元のデータを可視化できることは、データを要約して説明するという際に役に立つと思うので、その他の次元削減の手法も調査しようと思います。また、matplotlib, seaborn以外のデータ可視化ツール(Tableau等)の調査もしようと思います。

今回のソースコードはこちらにアップしました。