主成分分析

概要

 主成分分析は、データの評価軸を整理し、取得したデータをわかりやすく捉え直す為の分析手法です。例えば、Table 1のように、身長、胸囲、腹囲、殿囲の測定データがあったとします。
 実は、このデータには身長は低いけれど腹囲が特徴的に大きくなる、肥満体系の人を含むデータになっています。2つの指標を測定する評価軸をまとめて一つの軸1にしてしまえば、誰が【肥満体系かどうか】を測定する軸ができると言うことです(Table 2)。取得したサンプルがたくさんの指標を含んでいる時に主成分分析を行えば、各指標をよりわかりやすく評価する為の軸を作ってくれて、そのデータの様態をよりわかりやすくしてくれるでしょう。

Table 1 A高校の身体測定データ

Table 2 主成分分析の出力結果(固有ベクトル, 固有値, 寄与率2)例

Table 3 第1主成分得点と第2主成分得点を用いた散布図

分析する時の条件

  • 新たに提示された主成分によって合成得点(主成分得点)を算出3し、その主成分の基準で各データを評価したい時に主成分分析を選択する。上記の例で言えば、腹囲の値だけで肥満体系を評価してしまうと、大柄で全ての値が高い人も肥満体系と評価してしまう恐れがある。身長と腹囲を重視(重みづけ)した評価をした方がより妥当な形になる。ただし、主成分の解釈は分析者の判断に委ねられるため、慎重に検討する必要があることに注意する。
  • 分析に用いる変数は量的変数(比例尺度や間隔尺度)でなければならない。 7件法 等の段階評定式の回答を用いる場合もあるが、その変数が順序尺度ではなく間隔尺度とみなせることを説明する必要がある。
  • いくつまでの主成分を採用するかは、寄与率を足し合わせて導かれる累積寄与率を基準とすることが多い。多くの場合、80%を上回るところまで採用する。ただし、固有値が1を下回る主成分は採用を避けた方が良い為、80%以下の累積寄与率で主成分数を決定する場合もある。

論文(レポート)における記載例

 身長、胸囲、腹囲、殿囲の測定データを用いて主成分分析を行った結果、第2主成分までで固有値の推移が緩やかになり、累積寄与率が91.1%となった。そこで、第2主成分までの固有ベクトルをもとに解釈を行い、主成分得点の分布を検討することとした。第1主成分は~(各主成分がどのような解釈なのか、主成分得点の分布や統計量がどうなっているかを記述していく)。

参考になる書籍・サイト

より深く知りたい人は


  1. 複数の指標をまとめて新しく作成した評価軸を主成分と呼びます。 ↩︎

  2. 固有値と寄与率を基準にその主成分の重要度を確認出来る。固有値はその主成分がどのくらいの情報量を持っているか、寄与率はその主成分が取得データ全体に対してどのくらいの割合を説明できるかを示す。 ↩︎

  3. 合成得点(主成分得点)を算出することで各データを評価できる。主成分得点は多くの統計解析ソフトにて自動で算出してくれる。※手計算で行う場合は Excelを用いた主成分分析 を参照してください。 ↩︎

Avatar
大塚啓太(Keita Otsuka)
研究員 (Researcher), 客員研究員 (Visiting researcher)

My research interests include distributed robotics, mobile computing and programmable matter.

次へ
前へ

関連項目