「高校数学の知識庫」を今より10倍活用する方法

データ分析の初歩

スポンサーリンク

 


 

 

こんにちは。 da Vinch (@mathsouko_vinch)です。

 

 

データの分析には何が必要か

データは身近なところにたくさんあります。会社でいうと一年間での売り上げの推移や顧客数の変化、従業員の売り上げなどなど。学校のテストでも平均点や偏差値、標準偏差、順位など色々な「指標」が出てきます。膨大なデータを整理するには「指標」が必要です。データはどんな傾向にあるのか、どんな分布になっているのかなどがすぐにわかる指標を私たちはこれから学びます。

数学においてこのデータ分析は一生なくならないものでしょう。なぜなら現代は情報社会であり、あらゆるものを「分析」する能力と、その手法がどんどんと進化しているからです。このデータ分析というものがある種、世間一般の当たり前になる日もそう遅くはないでしょう。この高校数学でデータの分析という分野があることが何よりの証拠だと思います。

さて、前置きが長くなりましたが、このデータ分析には何が必要なのでしょうか。

最初はデータに対して

「平均値」「中央値」「最大値」「最小値」

などを計算します。これで大まかにデータがどの範囲にあるのかがわかりますね。さらに

「第1四分位数」「第3四分位数」

を考えると、データが”どの程度広がっているか”をなんとなく感じることができます。

この記事ではまずはここまでを目標に説明していきます。上にあげた6つの言葉を聞いた時に何を示すのかが説明できるようになるのが目標です。ではいきましょう。

いったん広告の時間です。

スポンサーリンク

データ整理での4つの基本的な指標

例えば次のようなデータがあったとしましょう。

$$6\ ,\ 5\ ,\ 20\ ,\ 11\ ,\ 9\ ,\ 8\ ,\ 15\ ,\ 12\ ,\ 7\ ,\ 17$$

まずはこのデータの平均値を求めます。平均値は

データすべての和を、データの個数で割ったもの

です。100個あるなら100個のデータをすべて足して100で割るのです。今回はデータが10個ですからそこまで大変ではないですね。やってみましょう。

$$\frac{6+5+20+11+9+8+15+12+7+17}{10}$$

より

$$\frac{110}{10}=11$$

となります。平均は11ですね。

次に最大値最小値を考えます。これはその名の通り

データの中で一番大きい値と一番小さい値

のことです。今のデータでは最大値が20、最小値が5ですね。

次に中央値を求めますがこれは

データを小さいほうから順に並べたとき、ちょうど真ん中に位置するデータ

のことを言います。なのでまずはデータを並び替えなければなりません。正直なところ平均値をとる段階で小さいほうから並べるのが無難です。並べましょう。

$$5\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 9\ ,\ 11\ ,\ 12\ ,\ 15\ ,\ 17\ ,\ 20$$

こうしたほうが最大値と最小値も見やすいですね。

話を戻しましょう。中央値はちょうど真ん中に位置するデータのことですが、今回のように偶数個の時には真ん中がありません。こういう時は中央の2つの数字の平均値を中央値とします

よって中央値は

$$\frac{9+11}{2}=10$$

となります。ここまでは簡単ですね。

いったん広告の時間です。

スポンサーリンク

第一四分位数と第三四分位数

第一四分位数第三四分位数とは

データを中央で半分に分けたとき

前半のデータの中央値=第一四分位数

後半のデータの中央値=第三四分位数

 

と決めています。例で確認しましょう。

先ほどのデータを中央で半分に分けると

$$5\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 9\ |\ 11\ ,\ 12\ ,\ 15\ ,\ 17\ ,\ 20$$

になりますね。前半のデータは

$$5\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 9$$

となり、これの中央値なので第一四分位数は7となります。

同様に後半のデータは

$$11\ ,\ 12\ ,\ 15\ ,\ 17\ ,\ 20$$

となり、第三四分位数は15となります。この指標の意味は意味は後々考えることとして、計算自体は簡単でしたね。

終わりに

今回はデータ分析の初歩ということで、データの分析には欠かせない指標について計算できるようになりました。これが基本となってデータ分析の分野は発展していきますので、まずは計算方法を覚えましょう。

ではまた。

スポンサーリンク
データの分析
スポンサーリンク
高校数学の知識庫

コメント