連載
» 2015年09月01日 12時00分 公開

食わず嫌いを直そう、「平均値」だけが平均じゃない!(その5)山浦恒央の“くみこみ”な話(77)(2/3 ページ)

[山浦恒央 東海大学 大学院 組込み技術研究科 准教授(工学博士),MONOist]

3.データの特徴を表す指標

 「データの特徴を表現する代表的な手法は?」と聞かれると、誰もが「平均値」と即答します。確かに、「平均値」はデータの特徴を表す指標ですが、上記の通り、万能ではありません。

 統計学をかじった読者(そして、食中毒を起こした人)はご存じでしょうが、データの特徴を表す指標を「代表値」と呼びます。データの特徴を表すのは平均値だけではありません。代表値の種類には、「最頻値(データ内に最も頻繁に現れる数値)」「中央値(データの中央に位置する値)」もあり、「データにバラツキがある」と思えば、平均値に固執することなく「最頻値」や「中央値」の採用を考慮すべきです。

 表.1で、代表値を解説します。表.1はあるチームの1カ月あたりの新規開発ステップ数を表しています。

表.1 あるチームの生産性(LOC)
名前 生産性(LOC)
エンジニアA 710
エンジニアB 802
エンジニアC 834
エンジニアD 834
エンジニアE 956
エンジニアF 1030
エンジニアG 5700

 表.1を特徴値から分析すると、次のようになります。

photo

3.1 平均値による分析

 加重した平均値を考えます。エンジニアAからエンジニアGの生産性を加算し、データ数(7人分)で割ると、平均値は1552となります。「よし、生産性の平均は1カ月あたり1552ステップだ!」と胸を張りたいところですが、外れ値(エンジニアGの生産性5700ステップ)が平均値を押し上げています。この値を押し通すのも1つの選択肢ですが、この平均値の弱点を回避するため、「トリム平均」があります。

 今までの「平均値」は、「算術平均(*1)」と呼びます(以降、この平均値を算術平均と呼びます)。トリム平均とは、外れ値を取り除いたデータに対し算術平均を適用する手法で、最大値と最小値を除いて算術平均を求めます。フィギュアスケートの採点では、これを適用しています。

 具体的なトリム平均の計算は、データをソートし、両端の5%〜20%の指定された部分を削除して残りの算術平均を求めます。上記の生産性のデータでは、両端のデータを削除すると、「802, 834, 834, 956, 1030」となり、算術平均を求めると「891」となります。

(*1)加重平均、幾何平均と呼ぶこともあります

3.2 中央値から分析する場合

 データの代表値を計算する手法は算術平均だけではありません。データにバラツキがある時は、「中央値(*2)」がおススメです。中央値の強みは、算術平均と異なり、外れ値の影響を受けません。欠点は、全てのデータを考慮せずに処理するため、極端に大きな数値は無視してしまいます。

 中央値は、データをソートし、中央にくる値です。上記の生産性データ、「710, 802, 834, 834, 956, 1030, 5700」では、データが7個ありますので中央値は4番目の834となります。算術平均値の1566と比べると、中央値の834を選択する方が現実的に思えます。

 一見、中央値は万能に見えますが、中央値では1カ月に5700ステップもコーディングできる天才プログラマ、Gさんを考慮していません。つまり、Gさんが月に1万行のコードを書いても、算術平均の値は増えますが、中央値は変わらないのです。

(*2)中央値は「メジアン」とも呼ばれています

3.3 最頻値から分析する場合

 最頻値(*3)は、データ内で最も多く出現する値です。例えば、「5, 3, 7, 3, 4, 3, 5」というデータがある際、最頻値は最も多く出現する「3」になります。最頻値の強みは、外れ値の影響を受けないことです。一方、データ内に同じ数値が存在しない場合、最頻値が存在しないことになり、使い勝手が難しい手法です。

(*3)最頻値は「モード」とも呼ばれています

 最頻値は、表.1では834となります。ただし、片方のデータが835となっている場合、すなわち、「710, 802, 834, 835, 956, 1030, 5700」には最頻値が求まりません。その場合は、度数分布表とセットにして使用するとよいでしょう。上記のデータを度数分布表で表したものを表.2に示します。

表.2 度数分布表
階級 階級値 度数
700以上〜800未満 750 1
800〜900 850 3
900〜1000 950 1
・・・ ・・・ ・・・
5700〜5800 5750 1

 最頻値は、度数が最も大きい部分の階級値となるので、表.2の最頻値は850となります。このように、度数分布とセットで使うと、バラツキを影響されず多数派が分かります。

Copyright © ITmedia, Inc. All Rights Reserved.