クラスター分析

大塚啓太（Keita Otsuka）

2021-03-12 最終更新 2021-08-22 3 分で読める

概要

　クラスター分析は、複数の変数・データを活用して“似たもの同士”を分類して群（クラスター）を作っていく分析です。集団を似たような特徴をもつ群へ細かく分けるイメージで、それを統計的に行います。各サンプル間で属性（ex.性別、出身地）や取得した複数の変数データ（ex.心理得点、学力試験の点数）が似ているならば近い距離に、似ていないならば遠い距離に分類されます。「ある調査によって得た複数のデータを手掛かりに被験者を群分けしたい」、「今回対象とした被験者に類型できるような特徴（回答傾向）があるか？」といった疑問があるならば、この分析を選択して良いでしょう。

Figure1 階層的手法によって得られるデンドログラムの例

分析する時の条件

階層的手法と非階層的手法がある。
階層的手法は似ているサンプル同士 ¹ をどんどんまとめていくようにクラスターを形成していく。多くの場合デンドログラム（系統樹）を作成し、視覚的に分析結果が提示できる。
非階層型はサンプル全体を俯瞰して見て、似ているもの同士が同じクラスターになるように分割するラインを引くことでサンプルを群分けする。予め何分割するかを決めておき、その方針に沿ってクラスターを分けることができる。
サンプル同士の“似ている”かどうか、それを判断する「距離」を分析時に選択する。量的変数を扱っている場合であればユークリッド平方距離を使うことが最も多い。質的変数の場合は適宜検討する。
クラスタリング（群分け）する方法も指定する必要がある。階層的手法ではWard法、非階層的手法ではk-means法を用いる事が多い。複数の手法があるので、その都度検討するのが良い。

論文（レポート）における記載例

　回答者121名の回答を用いて階層的クラスター分析（ユークリッド平方距離, ward法）を行い得られたデンドログラムを確認すると、回答者は解釈可能な水準で6つのクラスターに分類された。分類された6つのクラスターそれぞれの特徴は、～（各クラスター内で用いた指標の記述統計量を比較する等して、クラスターの特徴を記述していく）。

参考になる書籍・サイト

より深く知りたい人は

サンプル同士をクラスター化するだけでなく、変数（質問項目の回答など）同士をクラスター化するように分析指定することもできる。 ↩︎

統計大学生クラスター分析