主成分分析とは
多くの特徴量を持つデータを分析する場合、もとの特徴量を組み合わせて新たな特徴量(主成分)を構成することで、より少ない次元でデータを説明できる場合があります。そのような手法を 主成分分析 (PCA) といいます。
導出:2つの特徴量
第1主成分
簡単のために2つの特徴量 で を説明することを考えます。このようなシチュエーションでは重回帰分析を適用することもできますが、より多くの特徴量を考える場合にはあまり現実的ではなくなります。
いま、 をおのおの標準化した および を考え、これらの線形結合として、
をなる特徴量(第1主成分) を構成します。これがもとの特徴量 の性質をよく反映するためには、 が与えたデータの情報を広く含んでいる必要があるでしょう。すなわち、 の分散:
を条件つきで最大化することで係数の組 を定めます。
ここで、 は標準化してあるため、
となることを用いています。いま、制約条件 のもとで を最大化するために、未定乗数 を導入したラグランジュ関数 :
を与え、これをおのおのの変数で微分すると、固有方程式:
が導かれます。すなわち、性質のいい を構成するために標準化した特徴量 の相関行列 を考え、その固有ベクトル として の線形結合係数を与えることになります。
ところで、
ですから、相関行列 の固有値 は の分散に等しく、これを最大化するという要請から、ここでの は の最大固有値 に相当することになります。
第2主成分以降
第2主成分を とするとき、これは では拾いきれなかった情報を拾うために、 と無相関であるように定めます。導出は省略しますが、結果としてそのような は の第2固有値 に対応する固有ベクトルとして求まります。
これらから帰納的に考えて、第 主成分 は の第 固有値 に対応する固有ベクトルから決まります。
寄与率・累積寄与率
第 主成分がどの程度情報を保持しているかの指標として、次の 寄与率 を定義します:
また、寄与率を累積した 累積寄与率 も主成分を選択するうえでの指標となります:
ところで、 に相似な対角行列を とするとき、トレースの相似変換における対称性:
があるため、 の全固有値の総和は必ず採択可能な主成分の数に等しくなります。
主成分負荷量
主成分 ともとの特徴量 の間の相関係数:
を 主成分負荷量 といい、各主成分がどの程度もとの特徴量の情報を反映しているかの指標となります。
一般の場合
個の特徴量 に対し、主成分分析の適用を考えます。
相関行列による方法
相関行列 :
の固有値問題を考える場合、以下のアルゴリズムとなります:
主成分分析
- 特徴量を標準化
- 標準化した特徴量の相関係数 を総当たりで求める
- 相関行列 の固有値問題を解き、第 主成分の固有値 と対応する固有ベクトル を得る
- 累積寄与率などを参考にいくつかの主成分を取り出してプロット
主成分負荷量は、
と計算されます。ただし は の第 成分を表します。
分散共分散行列による方法
分散共分散行列から始める場合、特徴量を標準化する必要はありません。もとの特徴量 間の共分散 をならべた分散共分散行列 :
を用いると、主成分負荷量については、
と計算されます。これは、分散共分散行列 と相関行列 の間に、標準偏差 をならべた対角行列 を介して、
の関係があるためです。
参考
永田靖・棟近雅彦『多変量解析入門』(サイエンス社, 2001)第9章
『統計学実践ワークブック』(学術図書出版社, 2020)第22章