相関分析
概要
相関分析は、2つのデータ(変数)間に相互に対応するような関係があるかどうかを確認する分析です。変数Aと変数Bがあったとして、その間に「変数Aが1増えれ(減れ)ば、変数Bも一定量増え(減)る」という対応関係があるかを統計的に確認します。実際のデータは「Aが1増えればBも1増える(Figure1の左)」という完全な相関関係は示しません。「Aが1増えれば、Bは0.8~1.2くらいの幅で増える(Figure1の右)」という感じになるでしょう。自分が取得した複数のデータのどれとどれに対応関係があるか?、あったとして、どのくらいはっきりとした関係があると言えるのか?を確かめるときに相関分析を行います。
Figure.1 相関関係のある散布図の例
- 「変数Aが増えれば、Bも増える」というように変化が同じ方向になるものは「正の相関」と言う。相関係数(r)は正の値となる。
- 「変数Aが増えると、Bは減る」というように変化が異なる方向になるものは「負の相関」と言う。相関係数(r)は負の値となる。
- 算出された相関係数は以下の基準で判断されることが多い。
分析する時の条件
- 分析に用いるデータがどのようなものか(名義尺度、順序尺度、間隔尺度、比率尺度)によって、適用する相関分析が異なる。基本的には以下のように選択する。
- 名義尺度では基本的に相関分析を用いることが出来ない。
- 順序尺度の場合、スピアマンの順位相関分析を行うことが一般的。ただし、取得したデータ数が少ない場合はケンドールの順位相関係数を選択するのが良い。
- 間隔尺度や比率尺度の場合、基本的にピアソンの積率相関分析を行う。
- 算出された相関係数が統計的に有意か(その相関係数が信頼できるか)は、p値で判断する必要がある。もし、相関係数が高いのに有意ではない場合は、その相関係数は今回のデータで偶然高い相関が出ただけ(見かけ上の相関)かもしれないという事になる。或いは、別の規則性(直線的ではない、例えば、下図のようなU字やW字型の分布)がある可能性もある。相関係数が低くても、散布図を作成する等してデータの規則性を検討することは必要である。
論文(レポート)における記載例
イネの出穂までにかかった日数と茎(主幹直径)の関係を見るために相関分析を行った。その結果、出穂までの日数と主幹直径の間には、高い正の相関が認められた ( r = .647, p < .001)。