2つのデータで分散を考えたい
今までは一つのデータ集に対して分散を考えてきましたが、2つ以上のデータ集に対して分散を考える場面があります。
例えばある学校のテストで社会のテストと理科のテストをやった場合、生徒一人一人に対して2つのデータが得られます。このような時に、2つのデータの分散を考えることで実は「2つのデータの関係性」がわかります。これの意味は別の記事に譲るとして、ここではこの2つのデータの分散である「共分散」を計算できるようにしましょう。
いったん広告の時間です。
共分散の計算方法
まずは一般論から。2つのデータ集でそれぞれ\(n\)個のデータ\(x_{1}\ , \ x_{2}\ ,\ x_{3}\ ,\ \cdots \ ,\ x_{n}\) と \(y_{1}\ , \ y_{2}\ ,\ y_{3}\ ,\ \cdots \ ,\ y_{n}\)があるとします。
この時共分散は次の式で計算されます。
上の式にある通り、出てくるのはそれぞれのデータの偏差です。データは全く関係ないものを扱うことはできません。あくまで先ほどの例にあった通り、ある一つの対象に対して2つのデータが与えられている場合を考えます。この式でいうと\(x_{1}\)と\(y_{1}\)が対応しています。そして、その積を計算し平均をとります。
すなわち
といえるでしょう。実際に例を見て確認していきます。
いったん広告の時間です。
共分散を計算してみる
次の表はある学生の身長 \(x\ cm\)と体重 \(y\ kg\) を測定した結果である。この時、この2つのデータの共分散を求めよ。
データの個数は少ないですが、一人の学生に対して身長と体重という2つのデータがあります。これらの共分散を求めていくわけですが、まず必要なのは偏差です。さらに偏差を求めるためには平均値が必要になるので、平均値から求めていきます。
そしてさらにその前に、このようなデータを整理していくときには、下のような表を事前に作っておくと便利です。
共分散を求めるために必要なものを表につけ足していきます。もし普通に\(x\)の分散を求めたければ、さらにこの表に\((x-\overline{x})^2\)の項を増やせばよいです。
今回は共分散なので、それぞれのデータの偏差と、その積を計算するスペースを作っておきました。
一番下には合計を書く欄も作っています。これは平均値をとることが多いので計算しておくと便利だからですね。
というわけでこれを埋めていきます。まず平均値を出すためにデータの合計が必要です。平均値まで求めると
$$\overline{x}=\frac{855}{5}=171$$
$$\overline{y}=\frac{325}{5}=65$$
となります。これを踏まえて表を埋めていきましょう。
できましたか?埋めるとこのようになります。
これで準備は完了です。共分散は一番右の欄の合計を個数で割ったもの、すなわち一番右の欄の平均値ですから
$$共分散=\frac{140}{5}=28$$
と計算できます。簡単ですね。
いったん広告の時間です。
共分散を使って得られる指標~相関係数~
さて、ここまでで共分散を計算できるようになりましたが、これを使ってもう一つ別の指標を考えることができます。
それは「相関係数」です。相関係数は次の式で求められます。
$$r=\frac{s_{xy}}{s_{x}s_{y}}$$
\(r\)が相関係数です。分母にある\(s_{xy}\)は先ほど学んだ共分散で、分子にある\(s_{x}\)と\(s_{y}\)はそれぞれ\(x\)、\(y\)の標準偏差です。
すなわち
と、言葉で書くとなります。では例題のデータでこれを計算してみましょう。
先ほどは共分散を出しましたが、そのほかに標準偏差が必要です。よって分散が必要なので、表をもう少し追加しましょう。
これで分散が計算できます。分散を求めると
$$s^2_{x}=\frac{160}{5}=32}$$
$$s^2_{y}=\frac{160}{5}=32$$
となります。分散は\(s^2_{x}\)と表されることが多いです。
よって標準偏差は
$$s_{x}=\sqrt{s^2_{x}}=\sqrt{32}$$
$$s_{y}=\sqrt{s^2_{y}}=\sqrt{32}$$
より相関係数\(r\)は
$$r=\frac{28}{\sqrt{32}\sqrt{32}}=\frac{28}{32}=0.875$$
と計算できます。この計算結果が意味することは別の記事で説明します。
終わりに
今回はとにかく共分散と相関係数なるものを計算できるようになることを目標としてきました。計算自体は複雑なことはありません。とにかく偏差が大事であることが分かってきたと思います。偏差から作られる指標がほとんどですので、それぞれが「偏差をどのように計算して出している指標なのか」を押さえながら勉強を続けてください。
ではまた。
コメント