連載
» 2015年09月01日 12時00分 公開

食わず嫌いを直そう、「平均値」だけが平均じゃない!(その5)山浦恒央の“くみこみ”な話(77)(3/3 ページ)

[山浦恒央 東海大学 大学院 組込み技術研究科 准教授(工学博士),MONOist]
前のページへ 1|2|3       

3.4 4種類の「代表値」の分析

 上記の生産性の代表値を算術平均値、中央値、最頻値、トリム平均値で計算すると次のようになります。

表.3 平均値、中央値、最頻値、トリム平均値の計算結果
算術平均 1552
中央値 834
最頻値(表.1) 834
トリム平均値 891

 今回の生産性データは、極端な外れ値があるため、算術平均ではなく、中央値、トリム平均値、最頻値のどれかを採用するのが現実的だと筆者は考えます。

 膨大なデータに対し、上記の代表値を計算するのは面倒なようですが、Excel→「分析ツール」→「基本統計量」を使用すると、算術平均、中央値、最頻値は勝手に計算できますので、全ての特徴値を見てから、採用する代表値を判断すると良いでしょう。

4. 代表値のメリットとデメリットの一覧表

 代表値(算術平均、中央値、最頻値)の特徴をまとめると以下のようになります[1]。

表.4 代表値のメリットとデメリット
代表値 メリット デメリット
算術平均 全てのデータを有効に使える、結果は必ず1つ 外れ値の影響を受ける
中央値 外れ値の影響を受けない、結果は必ず1つ 未使用のデータがある
最頻値 外れ値の影響を受けない 未使用のデータがある、最頻値が複数存在する場合がある、最頻値が存在しない場合がある

 以上のメリットとデメリットを把握できれば、目的に沿って現実的にデータを分析できます。

5. 終わりに

 今回は、データの特徴を表す「代表値」について説明しました。4種類の代表値には、それぞれ得意・不得意がありますのでそれらに注意して使用すると効果的なデータ分析ができます。開発プロジェクトでのデータ分析で、ぜひ活用してください。


【 筆者紹介 】
山浦 恒央(やまうら つねお)

東海大学 大学院 組込み技術研究科 准教授(工学博士)


1977年、日立ソフトウェアエンジニアリングに入社、2006年より、東海大学情報理工学部ソフトウェア開発工学科助教授、2007年より、同大学大学院組込み技術研究科助教授、現在に至る。

主な著書・訳書は、「Advances in Computers」 (Academic Press社、共著)、「ピープルウエア 第2版」「ソフトウェアテスト技法」「実践的プログラムテスト入門」「デスマーチ 第2版」「ソフトウエア開発プロフェッショナル」(以上、日経BP社、共訳)、「ソフトウエア開発 55の真実と10のウソ」「初めて学ぶソフトウエアメトリクス」(以上、日経BP社、翻訳)。


前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.