食わず嫌いを直そう、「平均値」だけが平均じゃない!(その5):山浦恒央の“くみこみ”な話(77)(2/3 ページ)
データ解析の王様ともいえる「平均値」ですが、それが本当に母集団の性質を表現しているかは確認すべき事項です。母集団によっては「最頻値」や「中央値」の採用を考慮すべきです。
3.データの特徴を表す指標
「データの特徴を表現する代表的な手法は?」と聞かれると、誰もが「平均値」と即答します。確かに、「平均値」はデータの特徴を表す指標ですが、上記の通り、万能ではありません。
統計学をかじった読者(そして、食中毒を起こした人)はご存じでしょうが、データの特徴を表す指標を「代表値」と呼びます。データの特徴を表すのは平均値だけではありません。代表値の種類には、「最頻値(データ内に最も頻繁に現れる数値)」「中央値(データの中央に位置する値)」もあり、「データにバラツキがある」と思えば、平均値に固執することなく「最頻値」や「中央値」の採用を考慮すべきです。
表.1で、代表値を解説します。表.1はあるチームの1カ月あたりの新規開発ステップ数を表しています。
表.1 あるチームの生産性(LOC) | |
---|---|
名前 | 生産性(LOC) |
エンジニアA | 710 |
エンジニアB | 802 |
エンジニアC | 834 |
エンジニアD | 834 |
エンジニアE | 956 |
エンジニアF | 1030 |
エンジニアG | 5700 |
表.1を特徴値から分析すると、次のようになります。
3.1 平均値による分析
加重した平均値を考えます。エンジニアAからエンジニアGの生産性を加算し、データ数(7人分)で割ると、平均値は1552となります。「よし、生産性の平均は1カ月あたり1552ステップだ!」と胸を張りたいところですが、外れ値(エンジニアGの生産性5700ステップ)が平均値を押し上げています。この値を押し通すのも1つの選択肢ですが、この平均値の弱点を回避するため、「トリム平均」があります。
今までの「平均値」は、「算術平均(*1)」と呼びます(以降、この平均値を算術平均と呼びます)。トリム平均とは、外れ値を取り除いたデータに対し算術平均を適用する手法で、最大値と最小値を除いて算術平均を求めます。フィギュアスケートの採点では、これを適用しています。
具体的なトリム平均の計算は、データをソートし、両端の5%〜20%の指定された部分を削除して残りの算術平均を求めます。上記の生産性のデータでは、両端のデータを削除すると、「802, 834, 834, 956, 1030」となり、算術平均を求めると「891」となります。
(*1)加重平均、幾何平均と呼ぶこともあります
3.2 中央値から分析する場合
データの代表値を計算する手法は算術平均だけではありません。データにバラツキがある時は、「中央値(*2)」がおススメです。中央値の強みは、算術平均と異なり、外れ値の影響を受けません。欠点は、全てのデータを考慮せずに処理するため、極端に大きな数値は無視してしまいます。
中央値は、データをソートし、中央にくる値です。上記の生産性データ、「710, 802, 834, 834, 956, 1030, 5700」では、データが7個ありますので中央値は4番目の834となります。算術平均値の1566と比べると、中央値の834を選択する方が現実的に思えます。
一見、中央値は万能に見えますが、中央値では1カ月に5700ステップもコーディングできる天才プログラマ、Gさんを考慮していません。つまり、Gさんが月に1万行のコードを書いても、算術平均の値は増えますが、中央値は変わらないのです。
(*2)中央値は「メジアン」とも呼ばれています
3.3 最頻値から分析する場合
最頻値(*3)は、データ内で最も多く出現する値です。例えば、「5, 3, 7, 3, 4, 3, 5」というデータがある際、最頻値は最も多く出現する「3」になります。最頻値の強みは、外れ値の影響を受けないことです。一方、データ内に同じ数値が存在しない場合、最頻値が存在しないことになり、使い勝手が難しい手法です。
(*3)最頻値は「モード」とも呼ばれています
最頻値は、表.1では834となります。ただし、片方のデータが835となっている場合、すなわち、「710, 802, 834, 835, 956, 1030, 5700」には最頻値が求まりません。その場合は、度数分布表とセットにして使用するとよいでしょう。上記のデータを度数分布表で表したものを表.2に示します。
表.2 度数分布表 | ||
---|---|---|
階級 | 階級値 | 度数 |
700以上〜800未満 | 750 | 1 |
800〜900 | 850 | 3 |
900〜1000 | 950 | 1 |
・・・ | ・・・ | ・・・ |
5700〜5800 | 5750 | 1 |
最頻値は、度数が最も大きい部分の階級値となるので、表.2の最頻値は850となります。このように、度数分布とセットで使うと、バラツキを影響されず多数派が分かります。
Copyright © ITmedia, Inc. All Rights Reserved.