標準偏差とは
分散とほぼ同じ”データの散らばり具合”を表す指標として「標準偏差」を採用する場合があります。標準偏差は分散から計算できて
のように分散の値のルートを取ったものになります。たったこれだけです。したがって分散を計算できれば標準偏差も計算できることになります。
それなら分散でいいじゃないかと思う人がいると思いますが、この「標準偏差」をとるのにはちゃんと理由があります。
それは”元のデータと単位をそろえるため”です。
分散の計算方法を思い出してみると
で計算できて、言い方を変えれば”偏差の2乗の平均”でした。ですからデータを2乗していることがわかります。
これはすなわち、例えばデータの単位が\(m\)(メートル)だった場合、偏差の単位は\(m\)ですが、分散の単位は\(m^2\)(平方メートル)になってしまいます。
データ自体の単位は\(m\)なのに、計算した分散が\(m^2\)になってしまい、少し違和感がありますよね。なのでそれを解消するために単位をデータとそろえるために、分散のルートを取ることにし、それを標準偏差と呼ぶようにしたのです。
あくまでも標準偏差は分散のルートですから、やはりデータの散らばりぐらいを表している点は変わりません。
いったん広告の時間です。
分散の計算方法は2種類
分散は”偏差の2乗の平均値”と学びましたが、実は別の方法で分散を出すこともできます。その計算方法は、もちろん”偏差の2乗の平均”から変形して得られるものなので分散であることに変わりはありません。その式とは、
という式です。上線がついていると思いますが、これは平均値を表す記号です。
ある\(n\)個のデータを\(x_{1}\ , \ x_{2}\ ,\ x_{3}\cdots x_{n}\)と表すことにして、その平均値を\(\overline{x}\)と表すことと約束します。すると
$$\overline{x}=\frac{x_{1}+x_{2}+x_{3}+\cdots +x_{n}}{n}$$
となります。平均値を求める当たり前の式ですね。このようにして平均値の記号を導入します。
したがって\((\overline{x})^2\)は
$$(\overline{x})^2=\frac{x_{1}^2+x_{2}^2+x_{3}^2+\cdots +x_{n}^2}{n}$$
となります。これはすなわち、”それぞれのデータをすべて2乗してから平均値をとる”ということです。したがって分散の式は次のように言い換えることもできます。
データの平均と、データの2乗の平均を用意しておけば分散を求められることになるのです。場合によっては使い勝手がよさそうですよね。というか、場合によって使い分けます。
いったん広告の時間です。
分散の式の証明
さて、上記で与えられた分散の2つ目の表式はどうやれば得られるのでしょうか。答えは簡単で、元の分散の定義からスタートして変形していった結果が上記の表式です。これを実際にやってみましょう。
分散の式は偏差の2乗の平均でしたが、これを\(n\)個のデータ\(x_{1}\ , \ x_{2}\ ,\ x_{3}\cdots x_{n}\)に対して考えると、分散は次のように書けます。
$$分散=\frac{(x_{1}-\overline{x})^2+(x_{2}-\overline{x})^2+\cdots +(x_{n}-\overline{x})^2}{n}$$
式になったら突然思考停止する人がいますが、やっていることはデータの偏差をとって2乗し、平均値をとっているだけです。今までと何ら変わりません。
ではこれの分母を展開してみましょう。
順番を入れ替えておきます。
\((\overline{x})^2\)は\(n\)個あるのでまとめてしまいました。さらに後ろの掛け算のところを\(-2\overline{x}\)でくくってみると、
となります。これで準備は完了です。よって分散は
です。分数ですから、それぞれに\(n\)を分けてあげれば
となります。第一項目はまさにデータの2乗の平均値を表しています。第2項目は\(n\)が約分されてデータの平均の2乗が残ります。最後の項は
$$\overline{x}=\frac{x_{1}+x_{2}+x_{3}+\cdots +x_{n}}{n}$$
なので、データの平均が出てきて
と計算できるわけです。元の分散の式から変形のみでここまで来られます。
終わりに
標準偏差と分散の異なる計算方法はこれで大丈夫ですね。分散の式はかならず自分でもう一度導出の過程を追うことをお勧めします。見るだけだと絶対に自分でできません。実際に手を動かすことで初めて自分のものになります。
ではまた。
コメント