散布図とは
データがそれぞれ\(n\)個\(x_{1}\ , \ x_{2}\ ,\ x_{3}\ ,\ \cdots \ ,\ x_{n}\) と \(y_{1}\ , \ y_{2}\ ,\ y_{3}\ ,\ \cdots \ ,\ y_{n}\)があるとします。これを横軸と縦軸にとってグラフのようにしたものを「散布図」といいます。
例えば
この学生5人に対する身長と体重について散布図を書くと次のようになります。
イメージがわいたでしょうか。今回の場合は横軸に身長、縦軸に体重をとってA~Eの学生のデータをプロットしたものになります。このようなものを散布図といい、これを見るとデータがどういう関係にあるのかが見えてくるのです。
このデータの場合、身長が高くなるにつれ、体重もやはり重くなっていることが分かります。日常的にも「通常」はそんな気がしますね。
このデータに関してはそれが現れています。このように
ある\(x\)というデータが増加したとき\(y\)というデータも増加する傾向にあるとき、
\(x\)と\(y\)は正の相関がある
といいます。この「正の相関がある」データの散布図を書くと上記のように右上がりの直線上にデータが集まります。より正の相関が強ければ、その分データは右上がりの直線状になります。
逆に
ある\(x\)というデータが増加したとき\(y\)というデータは減少する傾向にあるとき、
\(x\)と\(y\)は負の相関がある
といいます。
そして、このデータがこのどちらにも当てはまらないとき、そのデータ\(x\)と\(y\)は相関が無い(強い相関が無い)といいます。
そして、この散布図を描いたときに見える「相関」を数値的に出してくれるのが、私たちが計算で出すことのできる「相関係数」なのです。
ちなみに例題のデータの相関係数は別記事で計算しています。計算すると\(r=0.825\)でしたので、正の相関があることが分かります。確かに散布図の見え方と一致しますね。
いったん広告の時間です。
共分散は何者か
では「共分散」はいったい何なのでしょうか。
式を少し思い返してみましょう。共分散は
”それぞれのデータの偏差の積の平均”
でした。すなわち、
共分散が大きい
→\(x\)、\(y\)のデータがどちらも同様に平均から離れているようなデータが多い(=\(x\)、\(y\)のどちらもプラスで離れているorマイナスで離れている)
→\(x\)が「大」の時\(y\)も「大」
ですし、
共分散がほぼ0
→\(x\)、\(y\)のデータのほとんどが平均値に近い
→\(x\)、\(y\)にはほぼ関係はない
となり、
共分散が小さい
→\(x\)、\(y\)のデータがどちらも逆向きに平均から離れているようなデータが多い
→\(x\)が「大」の時\(y\)は「小」
と考えることができます。これはすなわち散布図で考えた話と同じですね。
実はもともとは、データの相関を考えるのなら共分散で十分です。ですが、共分散は「変換に対して一定の値を吐き出さない」という欠点があります。すなわち同じデータにも関わらず共分散が100になったり、10になったりして、一概に値だけで相関が強いかどうかを判断できないのです。
そこでそれを補ったのが「相関係数」なわけですね。相関係数にはちゃんと共分散が使われていることが納得できるでしょう。
少し難しく言うと、”相関係数は共分散を規格化したものである”と言えます。もう少し詳しく知りたい人は高校数学の美しい物語さんの記事を参考にするとよいでしょう。
終わりに
ここでは共分散と相関係数について散布図を見ながら解説していきました。相関係数を計算することでその2つのデータがどのような相関を持つかを判断することができます。
ではまた。
コメント