上記の生産性の代表値を算術平均値、中央値、最頻値、トリム平均値で計算すると次のようになります。
表.3 平均値、中央値、最頻値、トリム平均値の計算結果 | |
---|---|
算術平均 | 1552 |
中央値 | 834 |
最頻値(表.1) | 834 |
トリム平均値 | 891 |
今回の生産性データは、極端な外れ値があるため、算術平均ではなく、中央値、トリム平均値、最頻値のどれかを採用するのが現実的だと筆者は考えます。
膨大なデータに対し、上記の代表値を計算するのは面倒なようですが、Excel→「分析ツール」→「基本統計量」を使用すると、算術平均、中央値、最頻値は勝手に計算できますので、全ての特徴値を見てから、採用する代表値を判断すると良いでしょう。
代表値(算術平均、中央値、最頻値)の特徴をまとめると以下のようになります[1]。
表.4 代表値のメリットとデメリット | ||
---|---|---|
代表値 | メリット | デメリット |
算術平均 | 全てのデータを有効に使える、結果は必ず1つ | 外れ値の影響を受ける |
中央値 | 外れ値の影響を受けない、結果は必ず1つ | 未使用のデータがある |
最頻値 | 外れ値の影響を受けない | 未使用のデータがある、最頻値が複数存在する場合がある、最頻値が存在しない場合がある |
以上のメリットとデメリットを把握できれば、目的に沿って現実的にデータを分析できます。
今回は、データの特徴を表す「代表値」について説明しました。4種類の代表値には、それぞれ得意・不得意がありますのでそれらに注意して使用すると効果的なデータ分析ができます。開発プロジェクトでのデータ分析で、ぜひ活用してください。
参考文献
[1] 『例題で学ぶ初歩からの統計学 第2版』 (白砂堤津耶 著、2015年、日本評論社)
『統計と確率ケーススタディ30―基礎知識と実戦的な分析手法』 (ニュートンムック Newton別冊)
『まずはこの一冊から 意味がわかる統計解析』 (涌井貞美 著、2013年、ベレ出版社)
東海大学 大学院 組込み技術研究科 准教授(工学博士)
Copyright © ITmedia, Inc. All Rights Reserved.