今回は、データ分析で平均値を使用する場合の注意点を解説しました。平均は、簡単で非常に強力なデータ分析手法ですが、いくつか注意点があります。データを分析する際に知っておくと、データの中のより深い情報を読み取れるようになります。
あえて、統計計算の「茨の道」へ踏み込みたい勇気あるエンジニアのために、分散を求める手順を以下に記します。
ここで2乗することがポイントです。あるプロジェクトの平均生産性が1,100で、エンジニアAが1300、エンジニアBが900だとすると、平均との単なる差は「200」と「-200」なので、加算するとゼロになります。これを避けるため2乗しています。
この手順を、表.5のプロジェクトAのデータを使用して分散、標準偏差を求めた結果を表.7に示します。
表.7 あるプロジェクトのエンジニアの生産性(LOC) | |||
---|---|---|---|
名前 | チームAの生産性(LOC) | 平均値との差 | 平均値の2乗 |
エンジニアA | 850 | -106 | 11236 |
エンジニアB | 1090 | 134 | 17956 |
エンジニアC | 900 | -56 | 3136 |
エンジニアD | 1050 | 94 | 8836 |
エンジニアE | 890 | -66 | 4356 |
平均値 | 956 | - | - |
平均値の2乗の合計 | - | - | 45520 |
分散 | - | - | 9104 |
分散を計算する詳細手順は以下の通りです。上記の表を参考にして考えてください。
平均値 = (850 + 1090 + 900 + 1050 + 890) / 5となりますので、956です。次に、それぞれの値と平均値の差を求めます。(956 - 850) = -106、(1090 - 956) = 134, (900 - 956) = -56となります。
それぞれのデータを2乗し、加算します。つまり、( (-106)2 + (134) 2 + (-56) 2 + (94) 2 + (-66)2 ) = 45520となります。2乗する理由は、上述の通り、平均値との差がプラスマイナスを防ぐためです。例えば、( -106 + 134 - 56 + 94 - 66) / 5をすると0となってしまい、データのバラツキを表す指標が0になってしまいます。
平均値の2乗の合計をデータ数で割ります。(45520 / 5)となり、分散は9104となります。
標準偏差は、分散値の平方根を取れば算出できます。付録1の(2)で、各データを2乗しました。標準偏差はその値を元に戻す作業と考えればよいでしょう。今回の場合は、√45520となり、約95となります。ルートの計算はエクセルのSQRT関数を使用すると簡単に計算が可能です。
東海大学 大学院 組込み技術研究科 准教授(工学博士)
Copyright © ITmedia, Inc. All Rights Reserved.