上記2の落とし穴を避けるには、データのバラツキを考慮する必要があります。バラツキを表すのが「分散」と「標準偏差」です(統計学っぽい用語が出てきますが、複雑な計算式は出てきませんのでご安心ください)。
分散とは、「データが平均の周りにどれくらい集まっているか」「どれくらい散らばっているか」を表したものです。分散だけでは、データの比較が難しいため、「標準偏差」を使用します。
計算法は付録に記載しますが、面倒な計算をしたくない人は、エクセルのVARP(分散)、STDEVP(標準偏差)関数で簡単に求められます(エクセルの統計系の計算機能は非常に強力で、単なる表計算プログラムだった昔のエクセルが自動車だとすると、統計計算で武装したエクセルは自動車に翼とジェットエンジンを搭載して旅客機に仕立て上げた感があります)。表.5のデータをもとに、分散と標準偏差を求めると表.6になります。
表.6 2つのプロジェクトのエンジニアの生産性(LOC) | ||
---|---|---|
名前 | チームAの生産性(LOC) | チームBの生産性(LOC) |
エンジニアA | 850 | 350 |
エンジニアB | 1090 | 2030 |
エンジニアC | 900 | 1500 |
エンジニアD | 1050 | 440 |
エンジニアE | 890 | 460 |
平均 | 956 | 956 |
分散 | 9104 | 465784 |
標準偏差 | 95.41 | 682.48 |
表.6でプロジェクトA、Bを比較してみます。プロジェクトAの標準偏差は95.41なのに対し、プロジェクトBは682.48です。標準偏差と分散は、データのバラツキが大きいほど、大きい値になります。バラツキの小さいプロジェクトAは、プロジェクト内で個人の能力差が少なく、プロジェクトBはできる人とできない人の差があることが分かるでしょう。
ただ平均値を見るだけではなく、データのバラツキを考慮すると、より良いデータ分析が可能となります。
Copyright © ITmedia, Inc. All Rights Reserved.