検索
連載

食わず嫌いを直そう、「平均値」だけが平均じゃない!(その5)山浦恒央の“くみこみ”な話(77)(3/3 ページ)

データ解析の王様ともいえる「平均値」ですが、それが本当に母集団の性質を表現しているかは確認すべき事項です。母集団によっては「最頻値」や「中央値」の採用を考慮すべきです。

Share
Tweet
LINE
Hatena
前のページへ |       

3.4 4種類の「代表値」の分析

 上記の生産性の代表値を算術平均値、中央値、最頻値、トリム平均値で計算すると次のようになります。

表.3 平均値、中央値、最頻値、トリム平均値の計算結果
算術平均 1552
中央値 834
最頻値(表.1) 834
トリム平均値 891

 今回の生産性データは、極端な外れ値があるため、算術平均ではなく、中央値、トリム平均値、最頻値のどれかを採用するのが現実的だと筆者は考えます。

 膨大なデータに対し、上記の代表値を計算するのは面倒なようですが、Excel→「分析ツール」→「基本統計量」を使用すると、算術平均、中央値、最頻値は勝手に計算できますので、全ての特徴値を見てから、採用する代表値を判断すると良いでしょう。

4. 代表値のメリットとデメリットの一覧表

 代表値(算術平均、中央値、最頻値)の特徴をまとめると以下のようになります[1]。

表.4 代表値のメリットとデメリット
代表値 メリット デメリット
算術平均 全てのデータを有効に使える、結果は必ず1つ 外れ値の影響を受ける
中央値 外れ値の影響を受けない、結果は必ず1つ 未使用のデータがある
最頻値 外れ値の影響を受けない 未使用のデータがある、最頻値が複数存在する場合がある、最頻値が存在しない場合がある

 以上のメリットとデメリットを把握できれば、目的に沿って現実的にデータを分析できます。

5. 終わりに

 今回は、データの特徴を表す「代表値」について説明しました。4種類の代表値には、それぞれ得意・不得意がありますのでそれらに注意して使用すると効果的なデータ分析ができます。開発プロジェクトでのデータ分析で、ぜひ活用してください。


【 筆者紹介 】
山浦 恒央(やまうら つねお)

東海大学 大学院 組込み技術研究科 准教授(工学博士)


1977年、日立ソフトウェアエンジニアリングに入社、2006年より、東海大学情報理工学部ソフトウェア開発工学科助教授、2007年より、同大学大学院組込み技術研究科助教授、現在に至る。

主な著書・訳書は、「Advances in Computers」 (Academic Press社、共著)、「ピープルウエア 第2版」「ソフトウェアテスト技法」「実践的プログラムテスト入門」「デスマーチ 第2版」「ソフトウエア開発プロフェッショナル」(以上、日経BP社、共訳)、「ソフトウエア開発 55の真実と10のウソ」「初めて学ぶソフトウエアメトリクス」(以上、日経BP社、翻訳)。


Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る