データが変更された(変数変換)時の平均値と偏差、分散

スポンサーリンク

データに変更が加わると指標はどうなる?

データの分析の問題ではデータに変更を加えるタイプの問題が多くあります。

特に聞かれるのが変更を施した後に「平均値」と「分散」がどうなるか、そして分散から求められる「標準偏差」がどうなるかです。

これらについて多くの参考書は”公式”を出していますが、そんなものは覚えなくても良いと私は考えています。なぜなら、一度その”公式”の意味がわかればすぐにどうなるかがイメージできるからです。

最初は数式を使ってしっかりと解説しますが、その後に”言葉”で覚えてもらいます。覚えるというよりかは「感覚を身につける」の方が近いかもしれません。

それでは実際に考えてみましょう。キーワードは「偏差」です。

平均値の変更

データを変更する手段は2つです。1つは「全てのデータに定数を足す、または引く」です。例えば全てのデータに2を加える、とか全てのデータから10だけ引いてください、とかです。

ではこの場合、変更を加える前の平均値\(\overline{x}\)と、定数を足すor引くをした後の平均値\(\overline{x’}\)はどのような関係になるでしょうか。

これはとても簡単で、データが全て同じだけズレるので、平均値も足されたもしくは引かれた分だけ変わります。例えば

$$1\ ,\ 2\ ,\ 2\ ,\ 4\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 8\ ,\ 10\ ,\ 10$$

のデータの平均値は\(\overline{x}=5.8\)でした。では全てのデータに2を足してみましょう。すると

$$3\ ,\ 4\ ,\ 4\ ,\ 6\ ,\ 8\ ,\ 9\ ,\ 10\ ,\ 10\ ,\ 12\ ,\ 12$$

とデータが変更されます。これの平均値を実際に計算してみると

$$\overline{x’}=\frac{3+4+4+6+8+9+10+10+12+12}{10}=\frac{78}{10}=7.8$$

となります。確かに

$$\overline{x’}=\overline{x}+2$$

となっていますね。イメージできたでしょうか。足されたor引かれた分だけ平均値はずれますね。

2つ目の変更は「定数倍」です。全てのデータを3倍するとか\(-2\)倍するとかですね。これをした場合にはどうなるでしょうか。

これも1つ目と同じようにとても単純です。もちろん定数倍したら、変更前と変更後で平均値も定数倍になります。

要するにデータを\(k\)倍するとすると、

$$\overline{x’}=k\overline{x}$$

となります。実際に先ほどの例でやってみるのをオススメします。イメージを膨らませながらやってみてください。

私のイメージは

「定数倍」することによって全てのデータが定数倍されるので、平均ももちろんずれて、その定数倍のぶんだけズレるだろう

という感じでしょうか。頭の中で整理しながら考えましょう。

分散の変更をみるには偏差を見よう

さて、ここからが本番です。平均値の変化をみたのは言うまでもないですが分散を計算する時に使うからです。正直なところ平均がどう変更されるかがわかれば、分散もわかります。

ですがその前に「偏差」が必要になるので、変更を加えた後の偏差がどうなるかを見なくてはなりません。

というわけで偏差を考えて見ましょう。ある\(n\)個のデータ\(x_{1}\ , \ x_{2}\ ,\ x_{3}\ ,\ \cdots \ ,\ x_{n}\)がある時、これらに定数\(k\)を足すことを考えます。もちろん変更した後のデータは

$$x_{1}+k\ , \ x_{2}+k\ ,\ x_{3}+k\ ,\ \cdots\ ,\  x_{n}+k$$

ですね。これの平均値を\(\overline{x’}\)とすると、もちろん元のデータの平均値\(\overline{x}\)を使って

$$\overline{x’}=\overline{x}+k$$

となります。ここから偏差を出していきましょう。偏差はデータそれぞれから平均値を引けばよかったので

$$x_{1}+k-(\overline{x}+k)\ , \ x_{2}+k-(\overline{x}+k)\ ,\ x_{3}-(\overline{x}+k)+k\ ,\ \cdots\ ,\  x_{n}+k-(\overline{x}+k)$$

です。計算してみると

$$x_{1}-\overline{x}\ , \ x_{2}-\overline{x}\ ,\ x_{3}-\overline{x}\ ,\ \cdots\ ,\  x_{n}-\overline{x}$$

となります。ここであれ?となる人はいい感じです。見たことある証拠ですね。そうです。実はこれ、変更する前の偏差とおんなじになっています。

定数を足したのにも関わらず、その変更した後のデータの偏差は変更前となんら変わりないのです。

ということは、これで分散を計算したところで結果は変更前と変わりません。

すなわち

データに定数を加えても偏差が変わらず、分散は変更前と同じである

ことがわかります。偏差が変更されないというところが大事です。実際にそうなっていましたものね。

では定数倍の場合はどうでしょうか。同じようにやっていきましょう。

平均値はやはり変更後は変更前の定数倍でしたからデータを\(k\)倍するとした時

$$\overline{x’}=k\overline{x}$$

でありました。定数倍した後のデータは

$$kx_{1}\ , \ kx_{2}\ ,\ kx_{3}\ ,\ \cdots ,\ kx_{n}$$

ですから、偏差は

$$kx_{1}-k\overline{x}\ , \ kx_{2}-k\overline{x}\ ,\ kx_{3}-k\overline{x}\ ,\ \cdots\ ,\ kx_{n}-k\overline{x}$$

\(k\)でくくれそうなのでくくってみると

$$k(x_{1}-\overline{x})\ , \ k(x_{2}-\overline{x})\ ,\ k(x_{3}-\overline{x})\ ,\ \cdots \ ,\ k(x_{n}-\overline{x})$$

となりました。先ほどとは違って偏差が\(k\)倍されています。ということはこれを2乗してしまうので最終的に分散は元のデータと比べて\(k^2\)倍されそうです。

実際にやってみると、

確かになっています。偏差が\(k\)倍されているので、分散は2乗が入り、元のデータの分散と比べて\(k^2\)倍されるわけです。

ということは標準偏差は言わずもがな、ルートを取るのですから、

となり、標準偏差は\(k\)倍される結果が得られました。

イメージとしても、単位を合わせるために標準偏差を作ったのですから、データを\(k\)倍すれば標準偏差も\(k\)倍されてほしいですね。

まとめると次のようになります。

 

データに定数を足したり、引いたりした場合

平均値=定数ぶん増えるor減る

偏差=変化なし

分散=変化なし

標準偏差=変化なし

 

 

データを定数倍した場合

平均値=定数倍される

偏差=定数倍される

分散=(定数倍)\(^2\)倍される

標準偏差=定数倍される

 

少しイメージが湧きましたでしょうか。とにかく見てほしいのは「平均値」と「偏差」です。偏差がどうなるかが分散を計算する際に効いてきます。

終わりに

ここではデータの分析の問題によく出てくる問題の対策として、データ変更の問題を考えて見ました。計算自体はほとんどない問題が多いですが、このように「考える力」や「順序立てて考える」ことが重要になる問題は今後さらに試験で出されやすくなると思われます。この記事を通して出てきた指標のイメージをさらに膨らませることができれば大いに役に立つでしょう。

ではまた。

 

コメント

タイトルとURLをコピーしました