食わず嫌いを直そう、「平均値」だけが平均じゃない!(その5):山浦恒央の“くみこみ”な話(77)(1/3 ページ)
データ解析の王様ともいえる「平均値」ですが、それが本当に母集団の性質を表現しているかは確認すべき事項です。母集団によっては「最頻値」や「中央値」の採用を考慮すべきです。
1.はじめに
組み込み系のソフトウェア開発プロジェクトの管理者は、例えば、自分のプロジェクトの生産性(1カ月あたりの開発ステップ数。通常は1キロステップ前後)、1キロステップあたりのバグの数など、いろいろな統計情報を収集し、プロジェクトをよい方向へ導びこうとします。また、他のプロジェクトと比較して良い値なのか、改善が必要なのか、とても気になります。あるいは、データを見た社長から、「生産性を上げろ」「品質が悪いぞ」と叱られている管理者も多いことでしょう。
モノを比較することは、人間が生き残る上で非常に重要です。スーパーマーケットでコロッケを買う場合も、重さは(ほぼ)同じとは分かっていても、無意識に一番大きい(ように見える)物を買います。
社内の他プロジェクトや、他社の開発チームと、生産性やバグの数を比較する場合、平均値を計算して比べることになります。これまで、本シリーズでは、単純な「平均値」が、実は平均値ではない可能性があると解説しました。
例えば8人の生徒を10段階評価した場合、「5, 5, 6, 5, 4, 5, 5, 5」のグループと、「9, 2, 7, 4, 1, 6, 3, 8」では、平均値はどちらも「5」ですが、内容は全く異なります。母集団が8人程度なら、生のデータを加工せずにそのまま見せればいいのですが、数百人、数千人の生産性データは、数が多すぎるので平均を計算して比較することになり、「平均値」が、本当に母集団の性質を表しているかが重要となります。
2.前回の復習
前回は簡単な統計計算手法である「平均値」と「標準偏差」について紹介しました。平均値が5、標準偏差が1の場合、「データは5±1の付近に散らばっている」という意味となります。平均値は、計算方法は簡単ですが2つの注意点がありました。
- 1.1 外れ値がある場合
外れ値(他の数値から極端に離れたもの)があると平均値に大きく影響し、データの傾向を見落とす可能性があります。チーム内の生産性の場合、例えば、1カ月に5キロステップも開発する超エース級のエンジニアが1人いると、生産性の平均は、他のプロジェクトの倍近い数値になり、プロジェクト全体の生産性が高いと勘違いする可能性があります。
- 1.2 バラツキがある場合
見かけ上の平均値は同じでもデータのバラツキが異なる場合があります。そのため、標準偏差を考慮してデータを分析する必要があります。5段階評価のアンケートで「1:不満」「2:やや不満」「3:どちらでもない」「4:やや満足」「5:満足」で200人に回答してもらうとします。その場合、見かけ上の平均値は「3」でも、不満が100人、満足が100人という両極端のケースや、「どちらでもない」が200人のこともあります(そもそも、この数字は、加重平均できませんが)。
上記のように、ただ平均値を見るのではなく、データのバラツキを考慮する必要があります。今回は、バラツキが大きい場合、具体的にどうすればよいかを解説します。
Copyright © ITmedia, Inc. All Rights Reserved.