クラスター分析
概要
クラスター分析は、複数の変数・データを活用して“似たもの同士”を分類して群(クラスター)を作っていく分析です。集団を似たような特徴をもつ群へ細かく分けるイメージで、それを統計的に行います。各サンプル間で属性(ex.性別、出身地)や取得した複数の変数データ(ex.心理得点、学力試験の点数)が似ているならば近い距離に、似ていないならば遠い距離に分類されます。「ある調査によって得た複数のデータを手掛かりに被験者を群分けしたい」、「今回対象とした被験者に類型できるような特徴(回答傾向)があるか?」といった疑問があるならば、この分析を選択して良いでしょう。
Figure1 階層的手法によって得られるデンドログラムの例
分析する時の条件
- 階層的手法と非階層的手法がある。
- 階層的手法は似ているサンプル同士 1 をどんどんまとめていくようにクラスターを形成していく。多くの場合デンドログラム(系統樹)を作成し、視覚的に分析結果が提示できる。
- 非階層型はサンプル全体を俯瞰して見て、似ているもの同士が同じクラスターになるように分割するラインを引くことでサンプルを群分けする。予め何分割するかを決めておき、その方針に沿ってクラスターを分けることができる。
- サンプル同士の“似ている”かどうか、それを判断する「距離」を分析時に選択する。量的変数を扱っている場合であればユークリッド平方距離を使うことが最も多い。質的変数の場合は適宜検討する。
- クラスタリング(群分け)する方法も指定する必要がある。階層的手法ではWard法、非階層的手法ではk-means法を用いる事が多い。複数の手法があるので、その都度検討するのが良い。
論文(レポート)における記載例
回答者121名の回答を用いて階層的クラスター分析(ユークリッド平方距離, ward法)を行い得られたデンドログラムを確認すると、回答者は解釈可能な水準で6つのクラスターに分類された。分類された6つのクラスターそれぞれの特徴は、~(各クラスター内で用いた指標の記述統計量を比較する等して、クラスターの特徴を記述していく)。
参考になる書籍・サイト
より深く知りたい人は
-
サンプル同士をクラスター化するだけでなく、変数(質問項目の回答など)同士をクラスター化するように分析指定することもできる。 ↩︎