クラスター分析

概要

 クラスター分析は、複数の変数・データを活用して“似たもの同士”を分類して群(クラスター)を作っていく分析です。集団を似たような特徴をもつ群へ細かく分けるイメージで、それを統計的に行います。各サンプル間で属性(ex.性別、出身地)や取得した複数の変数データ(ex.心理得点、学力試験の点数)が似ているならば近い距離に、似ていないならば遠い距離に分類されます。「ある調査によって得た複数のデータを手掛かりに被験者を群分けしたい」、「今回対象とした被験者に類型できるような特徴(回答傾向)があるか?」といった疑問があるならば、この分析を選択して良いでしょう。

Figure1 階層的手法によって得られるデンドログラムの例


分析する時の条件

  • 階層的手法と非階層的手法がある。
  • 階層的手法は似ているサンプル同士 1 をどんどんまとめていくようにクラスターを形成していく。多くの場合デンドログラム(系統樹)を作成し、視覚的に分析結果が提示できる。
  • 非階層型はサンプル全体を俯瞰して見て、似ているもの同士が同じクラスターになるように分割するラインを引くことでサンプルを群分けする。予め何分割するかを決めておき、その方針に沿ってクラスターを分けることができる。
  • サンプル同士の“似ている”かどうか、それを判断する「距離」を分析時に選択する。量的変数を扱っている場合であればユークリッド平方距離を使うことが最も多い。質的変数の場合は適宜検討する。
  • クラスタリング(群分け)する方法も指定する必要がある。階層的手法ではWard法、非階層的手法ではk-means法を用いる事が多い。複数の手法があるので、その都度検討するのが良い。

論文(レポート)における記載例

 回答者121名の回答を用いて階層的クラスター分析(ユークリッド平方距離, ward法)を行い得られたデンドログラムを確認すると、回答者は解釈可能な水準で6つのクラスターに分類された。分類された6つのクラスターそれぞれの特徴は、~(各クラスター内で用いた指標の記述統計量を比較する等して、クラスターの特徴を記述していく)。

参考になる書籍・サイト

より深く知りたい人は


  1. サンプル同士をクラスター化するだけでなく、変数(質問項目の回答など)同士をクラスター化するように分析指定することもできる。 ↩︎

Avatar
大塚啓太(Keita Otsuka)
研究員 (Researcher), 客員研究員 (Visiting researcher)

My research interests include distributed robotics, mobile computing and programmable matter.

次へ
前へ

関連項目