食わず嫌いを直そう、統計計算の王様「平均値」の落とし穴（その4）：山浦恒央の“くみこみ”な話（76）（3/4 ページ）

思わず身構えてしまう「統計」ですが、手をつけてしまえば何とかなるものです。今回はデータ解析手法の“王様”である「平均」について、解説します。

[山浦恒央　東海大学大学院組込み技術研究科准教授（工学博士），MONOist] PC用表示関連情報

LINE

Hatena

前のページへ | 次のページへ

3.平均値の救世主：分散と標準偏差

　上記2の落とし穴を避けるには、データのバラツキを考慮する必要があります。バラツキを表すのが「分散」と「標準偏差」です（統計学っぽい用語が出てきますが、複雑な計算式は出てきませんのでご安心ください）。

　分散とは、「データが平均の周りにどれくらい集まっているか」「どれくらい散らばっているか」を表したものです。分散だけでは、データの比較が難しいため、「標準偏差」を使用します。

　計算法は付録に記載しますが、面倒な計算をしたくない人は、エクセルのVARP（分散）、STDEVP（標準偏差）関数で簡単に求められます（エクセルの統計系の計算機能は非常に強力で、単なる表計算プログラムだった昔のエクセルが自動車だとすると、統計計算で武装したエクセルは自動車に翼とジェットエンジンを搭載して旅客機に仕立て上げた感があります）。表.5のデータをもとに、分散と標準偏差を求めると表.6になります。


表.6　2つのプロジェクトのエンジニアの生産性（LOC）
名前	チームAの生産性（LOC）	チームBの生産性（LOC）
エンジニアA	850	350
エンジニアB	1090	2030
エンジニアC	900	1500
エンジニアD	1050	440
エンジニアE	890	460
平均	956	956
分散	9104	465784
標準偏差	95.41	682.48

　表.6でプロジェクトA、Bを比較してみます。プロジェクトAの標準偏差は95.41なのに対し、プロジェクトBは682.48です。標準偏差と分散は、データのバラツキが大きいほど、大きい値になります。バラツキの小さいプロジェクトAは、プロジェクト内で個人の能力差が少なく、プロジェクトBはできる人とできない人の差があることが分かるでしょう。

ただ平均値を見るだけではなく、データのバラツキを考慮すると、より良いデータ分析が可能となります。

食わず嫌いを直そう、統計計算の王様「平均値」の落とし穴（その4）：山浦恒央の“くみこみ”な話（76）（3/4 ページ）

3.平均値の救世主：分散と標準偏差

関連キーワード

リスクマネジメント | 組み込み | プロジェクトマネジメント | ソフトウェアテスト | 山浦恒央の“くみこみ”な話