分散とは
分散とは
データの散らばり具合を表す指標
です。四分位範囲でもデータの散らばり具合はわかりますが、分散という新しい評価の仕方を考えることで、より詳細に散らばり具合を調べることができます。
「四分位範囲ってなんだっけ」という方は一旦こちらで確認しましょう。
さらに今後「共分散」という2つのデータを一緒に考えた分散を考えることで、2つのデータの関連性を見ることができます。その前段階であると考えてもよいのではないでしょうか。
いずれにせよ、分散の計算方法を学び、それを実践することが大事ですので、ここではその方法について学んでいきます。
いったん広告の時間です。
分散の計算方法
さっそく分散の計算方法を説明します。分散は以下の式によって定義されています。
分母は和をとります。ここで「偏差」という新しい言葉が出てきたので解説します。偏差は
と定義されています。要するに、データの平均値を、それぞれのデータから引いてくださいということです。
なかなか言葉だけではイメージできないと思いますので、実際のデータを使って確認していくことにします。
次のデータについて考えましょう。
$$1\ ,\ 2\ ,\ 2\ ,\ 4\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 8\ ,\ 10\ ,\ 10$$
まずは10個のデータの平均値を求めます。これが分散の計算のみならず、これから先のデータ分析の出発点です。
上のデータの平均値は
$$\frac{1+2+2+4+6+7+8+8+10+10}{10}={58}{10}=5.8$$
です。次に「偏差」を求めます。偏差はそれぞれのデータから平均を引くことによって得られるのでした。偏差をそれぞれのデータで計算すると例えば最初のデータである1の場合
$$1-5.8=-4.8$$
より偏差は\(-4.8\)になります。同じようにしてすべてのデータについて偏差を計算すると
$$-4.8\ ,\ -3.8\ ,\ -3.8\ ,\ -1.8\ ,\ 0.2\ ,\ 1.2\ ,\ 2.2\ ,\ 2.2\ ,\ 4.2\ ,\ 4.2$$
となります。これが偏差の計算方法です。難しくありませんね。
では分散に行きましょう。分散には偏差ではなく偏差の2乗が必要です。後々それを個数で割れば分散になるのでした。
なので、まずは今出した偏差を2乗してしまいましょう。例えば最初のデータ1について偏差は\(-4.8\)でしたのでその2乗は
$$(-4.8)^2=23.04$$
です。同様にしてほかのデータも2乗すると
$$23.04\ ,\ 14.44\ ,\ 14.44\ ,\ 3.24\ ,\ 0.04\ ,\ 1.44\ ,\ 4.84\ ,\ 4.84\ ,\ 17.64\ ,\ 17.64$$
となります。少し計算が大変でした。あとはこれらの和をとって個数である10で割るだけです。要するに
$$\frac{23.04+14.44+14.44+3.24+0.04+1.44+4.84+4.84+17.64+17.64}{10}={101.6}{10}=10.16$$
と計算できました。この\(10.16\)が分散です。
今やってわかった通り、分散は結局何をしているかというと
をやっているにすぎません。2乗を忘れずにやってから平均値をとることに気を付けなくてはなりません。
ほかのあらゆるデータについても同じようにやれば分散は計算できます。手順としては
- データの平均値を求める
- それぞれのデータの偏差を求める
- 偏差をそれぞれ2乗する
- すべてのデータの偏差の和を求め、個数で割る(=偏差の2乗の平均値を求める)=分散
です。まずはこの手順をしっかりと覚えることから始めましょう。
終わりに
分散は高校数学のデータの分析では欠かせないものとなっています。まずはとにかく出し方を抑えることからです。これは種々の応用問題にも対応できる基礎ですから、簡単だと思った人もしっかりと頭に入れておいてください。
ではまた。
コメント