箱ひげ図からわかること

スポンサーリンク

箱ひげ図とは

箱ひげ図と聞いて数学の用語だとわかるのは、高校数学を学んだ人限定でしょう。

ここまで数学用語っぽくない名前の図はないと思いますが、データの分析の初歩を学ぶにはうってつけのものです。

この箱ひげ図を使えば「平均値」「中央値」「最大値」「最小値」「四分位数」「四分位範囲」などがすぐにわかるようになっています。そして最も良いことは見るだけでデータの傾向が少しわかることです。

少し解説をします。

箱ひげ図の前に一つ指標を教えましょう。

データの散らばり具合を表すのが「四分位範囲」です。これは

(四分位範囲)=(第三四分位数)-(第一四分位数)

と定義されています。これはデータがどれぐらい中央値に近いかを表す指標です。これが小さいとデータはより中央に値が集まっていることになります。

例えば次の二つのデータについて上の四分位数と四分位範囲を調べてみましょう。

$$4\ ,\ 4\ ,\ 5\ ,\ 5\ ,\ 6\ ,\ 6\ ,\ 6\ ,\ 7\ ,\ 7\ ,\ 8$$

$$1\ ,\ 2\ ,\ 2\ ,\ 4\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 8\ ,\ 10\ ,\ 10$$

上のデータは

中央値=\(6\), 第一四分位数=\(5\), 第三四分位数=\(7\)

で、下のデータは

中央値=\(6.5\), 第一四分位数=\(2\), 第三四分位数=\(8\)

となるので四分位範囲を計算すると上のデータは\(7-5=2\)で、下のデータは\(8-2=6\)になります。

このぐらいの数だと明らかに、上のデータが中央に集中していて、下のデータが全体的にデータが散らばっていることがわかります。それが四分位範囲にも表れているのがわかるでしょうか。

データの散らばりが小さい2つ四分位数も近くなるのでその差である四分位範囲は小さくなります。逆にデータの散らばりが大きいと2つの四分位範囲は明らかに遠ざかりますから、四分位範囲も大きくなるのです。

かなり数の多いデータだと見ただけでは判断がつかないことがありますが、四分位範囲を調べれば2つ異なるデータを比べたときにどちらがより中央に近いのかがわかるのです。

ではここまでデータについて分析したなら図に書いておきたい、ということで箱ひげ図の登場です。これは次のように書くことで得られます。

  1. データの「最大値」「最小値」「中央値」「第一四分位数」「第三四分位数」を求める。
  2. それを数直線上に記述し、順番に値を入れる
  3. 箱ひげ図にする

 

まず大事なのは事前に5つの指標を計算しておくことです。平均値も書くことがあるので求めておくとよいでしょう。

そのあとは実際に図にする作業です。これは今から例を出します。例えば

$$1\ ,\ 2\ ,\ 2\ ,\ 4\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 8\ ,\ 10\ ,\ 10$$

のデータでは

最小値=\(1\), 第一四分位数=\(2\), 中央値=\(6.5\), 第三四分位数=\(8\), 最大値=\(10\)

なので箱ひげ図は下の図のようになります。

最小値と最大値は短い縦線で表します。第一四分位数と第三四分位数を長めの線で書いたら、長方形にします。これが箱ひげ図と呼ばれている所以です。最後に中央値を箱の中に書けば完成です。

この箱ひげ図を見ると四分位範囲が箱の長さであることに気づきます。なので箱ひげ図を書けばすぐにデータの散らばり具合がわかるのです。実際に

$$4\ ,\ 4\ ,\ 5\ ,\ 5\ ,\ 6\ ,\ 6\ ,\ 6\ ,\ 7\ ,\ 7\ ,\ 8$$

$$1\ ,\ 2\ ,\ 2\ ,\ 4\ ,\ 6\ ,\ 7\ ,\ 8\ ,\ 8\ ,\ 10\ ,\ 10$$

先ほど四分位範囲を考えた2つのデータの箱ひげ図を描いてみると

見ただけで散らばり具合がわかりますね。なかなか便利でしょう。

箱ひげ図はあくまで「こんな感じ」

さて、ここまで箱ひげ図について説明してきましたが、これはあくまで四分位範囲を考えたに過ぎないので「こんな感じ」としか言えないものです。

やはり私たちはもう少し「数値的に」散らばり具合を出す方法を考えるべきです。統計的に考えるのであれば踏み込んで考えたいところですよね。さらにはデータ一つ一つを考えたデータ整理をしなければなりません。

そこで出てくるのが

「分散」「標準偏差」

です。

これらはデータの散らばり具合を一つ一つのデータを反映して数値的に計算するものです。これを使えばデータについてもっと深い理解ができることでしょう。

終わりに

箱ひげ図はもう書けますね。データ分析において箱ひげ図に登場する指標は大事ですので、箱ひげ図を書く練習をする際にしっかりと身につけましょう。分散、標準偏差の前段階ですので、このパートでデータの扱いに慣れましょうね。

ではまた。

コメント

タイトルとURLをコピーしました