連載
食わず嫌いを直そう、統計計算の王様「平均値」の落とし穴(その4):山浦恒央の“くみこみ”な話(76)(3/4 ページ)
思わず身構えてしまう「統計」ですが、手をつけてしまえば何とかなるものです。今回はデータ解析手法の“王様”である「平均」について、解説します。
3.平均値の救世主:分散と標準偏差
上記2の落とし穴を避けるには、データのバラツキを考慮する必要があります。バラツキを表すのが「分散」と「標準偏差」です(統計学っぽい用語が出てきますが、複雑な計算式は出てきませんのでご安心ください)。
分散とは、「データが平均の周りにどれくらい集まっているか」「どれくらい散らばっているか」を表したものです。分散だけでは、データの比較が難しいため、「標準偏差」を使用します。
計算法は付録に記載しますが、面倒な計算をしたくない人は、エクセルのVARP(分散)、STDEVP(標準偏差)関数で簡単に求められます(エクセルの統計系の計算機能は非常に強力で、単なる表計算プログラムだった昔のエクセルが自動車だとすると、統計計算で武装したエクセルは自動車に翼とジェットエンジンを搭載して旅客機に仕立て上げた感があります)。表.5のデータをもとに、分散と標準偏差を求めると表.6になります。
表.6 2つのプロジェクトのエンジニアの生産性(LOC) | ||
---|---|---|
名前 | チームAの生産性(LOC) | チームBの生産性(LOC) |
エンジニアA | 850 | 350 |
エンジニアB | 1090 | 2030 |
エンジニアC | 900 | 1500 |
エンジニアD | 1050 | 440 |
エンジニアE | 890 | 460 |
平均 | 956 | 956 |
分散 | 9104 | 465784 |
標準偏差 | 95.41 | 682.48 |
表.6でプロジェクトA、Bを比較してみます。プロジェクトAの標準偏差は95.41なのに対し、プロジェクトBは682.48です。標準偏差と分散は、データのバラツキが大きいほど、大きい値になります。バラツキの小さいプロジェクトAは、プロジェクト内で個人の能力差が少なく、プロジェクトBはできる人とできない人の差があることが分かるでしょう。
ただ平均値を見るだけではなく、データのバラツキを考慮すると、より良いデータ分析が可能となります。
Copyright © ITmedia, Inc. All Rights Reserved.