「統計」と聞くだけで及び腰になる気持ちも分かりますが、ツールの充実した今、そう難しいものではありません。第一歩として、統計における「数値の種類」について、理解を進めましょう。
ソフトウェアを開発する上でさまざまなデータを目にしますが、データを「統計的」に解析、分析できるエンジニアはあまり多くいません。統計的な処理と聞くと、数式だらけの書籍が目に浮かび、モチベーションが急激に下がる技術者も多いことでしょう。
筆者も、そんな「統計嫌い」「数式アレルギー」でした。本シリーズは、「統計的な分析は意外に簡単で、非常に効果が高い」ことを理解するのが目的です。統計の基本的な概念さえ分かれば、あとの複雑な計算はExcelの統計計算ツールに任せればOKです。
前回はエンジニアが統計を学ぶ「御利益」についてご説明しました。今回は、統計の第一歩として、数値には4種類あることを解説します。
普段、私たちは何げなくいろいろな数値を使用しています。例えば、ファミリーレストランへ行き、「ただいまキャンペーン実施中です。こちらのアンケートに回答いただきますと料金を30%割り引きいたします」と言われて、「お客様満足度アンケート」を手渡されたとします。30%引きは大きいし、記入に要する時間も1〜2分であれば引き受ける人も多いでしょう。
この満足度アンケートには、「性別」「年齢」とともにオーダーした食事に対し、「1.非常に満足している」「2.やや満足している」「3.満足も不満も感じない」「4.やや不満に思う」「5.非常に不満」のように、5段階(あるいは「1.よい」「2.普通」「3.悪い」の3段階評価)での商品評価項目がのっているはずです。オーダーしたハンバーグ定食は、まずまず美味かったし、コストパフォーマンスもよいので、「やや満足」の「2」に丸をつけたとします。
アンケートに記入した「性別(男)」「年齢(32歳)」「2.やや満足」の3つのデータは同じようなデータに見えますが、実はこの3つは全くの別物です。性別は「男」「女」の2種類だけを表すデータで、引き算足し算はできません。年齢は“0〜100歳”のように基準点の0歳を起点とした数値です。「満足度の評価点」は、1、2、3、4、5ではなく、(A)(B)(C)(D)(E)と置き換えが可能です。このように、数値データの特性を把握することが非常に重要で、統計的分析の第一歩と言えます。
統計手法を使用する際、データの特性に注意する必要があります。筆者は、学部生の卒業研究や、院生の修士論文を見る機会があるのですが、ドラフト段階の論文の内容を聞くと、データの種類を把握しないまま――極端な例を挙げると、「5cm+午前10時+7位=22」のように――「してはならない計算」をしている場合があります。
データには図.1のように4種類あります。
まず、データは大きく分けて「質的データ」「量的データ」の2つに分かれます。
質的データとは、四則演算ができないデータのことです。例えば、性別(男、女)や電話番号です。「電話番号の平均値」には何の意味もありません。また、「100m走で3位になった」の何位に当たる部分も質的なデータです。このデータは四則演算をしても意味のある数値になりません。この種類のデータで四則演算ができないのは、「原点」が定義されておらず、各数値の間隔も同じでないためです(例えば、3位と4位の「数値的な間隔」と、同じく1位だけ違う8位と9位の「数値的な間隔」は同じではありません)。
一方、量的データとは、四則演算ができるデータのことです。例えば、身長、体重の値が相当します。
Copyright © ITmedia, Inc. All Rights Reserved.