食わず嫌いを直そう、小学生の知識で統計データを可視化する(その3):山浦恒央の“くみこみ”な話(75)(1/2 ページ)
「統計」と聞くと頭が痛くなる人も多いかと思いますが、「今持っている知識でも何とかなる」ものです。その第一歩として、簡単なデータの可視化手法について紹介します。
1.はじめに
「2つの物があれば良い方を選ぶこと」は、人類のDNAに深く刻まれています。赤ん坊に同じ食べ物を2つ見せると、本能的に大きい方を取ろうとします。2つ以上の物を比較することは非常に重要なことです。目に見える場合は簡単ですが、データが大量にあり、いろいろな形式を取っている場合は、統計的な手法が必要となります。統計的な分析は、簡単ではないように思えますが、そんな「統計の食わず嫌い」を直すのがこのシリーズです。
前回は、データには4種類あることを解説しました。すなわち、名義尺度(他の値と区別するための数字で、数値を「a」「b」「c」に置き換え可。加減乗除はできない)、順序尺度(「a」「b」「c」に置換できないが、数値の大きさ(順番)の大小に意味があり、数値は等間隔で並ばない。加減乗除は不可)、間隔尺度(0や1のような原点は決まっていないが、数値は等間隔で並ぶ。加減算はできるが、乗除算はできない)、比例尺度(0や1といった原点が決まっていて、数値は等間隔で並び、加減乗除が可能)の4つで、そのようなデータの性質を理解して、加減乗除することが重要と解説しました。
データの解析は、「統計処理を理解している特別な人にだけ可能な分析手法」ではありません。そんなふうに思っていると、一生データの解析はできません。英会話と同じで、「今持っている知識と経験でなんとかする」ことが重要ですし、十分、何とかなります。
まずは、認識を変えましょう。難解な数式を知らなくても、現状の知識や経験だけで、高度なデータ解析は十分可能なのです。
その第一歩として、今回、データを可視化することの重要性を解説し、いろいろなデータを目に見えるようにするための簡単な技法として、ヒストグラムを紹介します。
2.データ処理の基本
データを統計的に処理する基本的な手順は、(1)「データを収集する」、(2)「解析する」、(3)「まとめる」ことです。まず、入手できそうなあらゆるデータを集め、統計処理を施します。その後、データを整理し、全体像を鳥瞰できる表や図にまとめます。表や図などにまとめることによって、データの特徴を把握できます。
統計処理というと、(2)の「解析」での小難しい数式処理に目が行きがちで、敬遠するソフトウェア技術者も多いようですが、表や図を使用してデータを整理し、見やすくするだけでも立派なデータ分析です。表や図であれば、(私のような)統計アレルギーの人でも、今の知識(小学生レベルの知識)で十分処理ができることが少なくありません。今回は、データを整理する手法の1つである度数分布表と、その図式表現を紹介します。
3.度数分布表での図的表現
表.1に、ある学校の生徒11人分の身長データを示します。136cm〜151cmの間に分布しています。
表.1 クラスの身長データ | |
---|---|
あるクラスの生徒の身長 | 136 cm、138 cm、139 cm、144 cm、141 cm、142 cm、143 cm、142 cm、146 cm、146 cm、151 cm |
表.2 度数分布表の例 | ||
---|---|---|
階級(より大 以下) | 階級値 | 度数 |
130 〜 135 | 132.5 | 0 |
135 〜 140 | 137.5 | 3 |
140 〜 145 | 142.5 | 5 |
145 〜 150 | 147.5 | 2 |
150 〜 155 | 152.5 | 1 |
表.1は文字の羅列であり、データの傾向を読み取るのは容易ではありません。この11人分の身長データを分かりやすく見る方法として、度数分布表があります(聞いたことがある人も多いでしょうが、基本的なことは小中学校や高校で学習しているはずです)。
これは、データを適当な間隔に分割して表したもので、表.1を度数分布表で表すと表.2のようになります。表.2には、左から、階級、階級値、度数という項目があります。10年以上前に学習済みだと思いますが、それぞれについて、以下に簡単に解説します。
- 3.1 階級
階級とは、データを適当な間隔に分割した際の区間です。身長が131cmの生徒の場合、「130〜135」の区間に入りますし、144.1cmの場合、「140〜145」の区間内になります。
- 3.2 階級値
階級値とは、階級の中間の値のことです。「130〜135」の階級値は132.5cmになります。
- 3.3 度数
度数とは、データが階級内に入っている頻度のことです。表.1には、身長140cm〜145cmの生徒が5人いますので、「140〜145」の区間のデータが5ということになります。
表.1のように、ただの身長データの羅列だけですと、データの特徴を把握しにくいのですが、表にまとめると、データの特徴が簡単にわかります。
Copyright © ITmedia, Inc. All Rights Reserved.