【STEP 1】の「2. 水準の効果」と「3. バラツキ」を数値的に考察します。まず「2. 水準の効果」ですが、シフトごとに測定した製品重量も変動しているので、データを眺めているだけでは結論は出ません。そこで、製品重量を平均値で代表させます。次に「3. バラツキ」ですが、標準偏差を計算します。Excelの関数は、平均値がAVERAGE、標準偏差がSTDEVです。計算の仕方は、前回記事をご確認ください。計算結果は表1のとおりです。
群 | 平均値 | 標準偏差 |
---|---|---|
昼勤 | 500.21 | 9.293 |
夜勤 | 492.34 | 8.853 |
表1 製品重量の平均値と標準偏差 |
平均値を見ると昼勤の方が大きく、差は約8グラムです。実用的な見地から見て、8グラムが特に気にする必要のない意味のない差であれば、昼勤と夜勤の製品重量は同じであると結論付け、分析を終了します。標準偏差も同様です。
ただし、標準偏差に2倍以上の乖離(かいり)がある状況で、同等であると見なすのは問題があります。統計的な方法も異なってくるので注意が必要です。ただ、このような場合は、先に述べたとおり、昼勤と夜勤の製品重量の差を議論するよりも先にバラツキが異なる原因を追究して、それが同等になるよう改善活動を実施します。
さて、この8グラムの差が実用的に無視できない差であるときは、どう結論付けたらよいでしょうか。昼勤の製品重量の方が夜勤のそれよりも大きいといってしまってよいのでしょうか。
問題は、この差は、抜き取り検査の対象となったおのおの12個のデータから計算された標本平均の差であり、再度、抜き取り検査を実施すれば差が変動するということです。たまたま8グラムもの差が出ただけで、仮に検査を繰り返したとして計算した標本平均の差を平均すると差はない、すなわち差は0かもしれません。この場合、昼勤と夜勤の製品重量に差はないことになります。
議論の対象とすべきは母平均で、母平均に差があるかどうかを調査しなければ、結論付けはできません。しかし、手元には1回検査したおのおの12個のデータしかありません。ここで登場するのが、標本から母集団を推測する推測統計と呼ばれる統計的方法です。推測統計は、母集団の状況を確率的に議論する方法で、検定と推定という、大きく2つの方法があります。
標本から得られた結論はシフトごとの製品重量に差がある(昼勤の標本平均≠夜勤の標本平均)でした。この差が母集団でも成り立つのか、検証することを目的に実施するのが検定です。
検定は統計学の理論の花形ですが、本連載では、理論よりも実用性を重視するため、特に理論についての細かな説明はしません。興味のある方は、一般の統計書をご参照ください。実務においては、実験・検査全体の流れを理解することが重要です。断片的に統計的方法だけを覚えても無意味です。そして、実用的に検定を使うといったスタンスで割り切るのであれば話は簡単です。次の「I 検定法の選択」「II 判定」の2点を理解できれば十分です。
検定の方法は、因子の数と比較する統計量により決まり、平均値を比較する検定には表2のような方法があります。分散分析というと、データのバラツキを検定する方法に聞こえますが、そうではなく平均値の差を検定する方法です。水準ごとの平均値のバラツキで平均値の差を検定することから(水準ごとの平均値のバラツキ0=平均値が等しい)、分散分析と呼ばれます。
因子の数 | 方法 | Excel |
---|---|---|
1 | 一元配置分散分析 | ○ |
2 | 二元配置分散分析 | ○ |
3つ以上 | 多元配置分散分析 | × |
表2 因子数と統計量で決まる検定の方法 |
【STEP 1】で外れ値があり、それが除外できない場合は、表3の方法を選択した方がよいです。
因子の数 | 方法 | Excel |
---|---|---|
1 | クラスカルワリス検定 | × |
2 | フリードマン検定 | × |
3つ以上 | なし | × |
表2 因子数と統計量で決まる検定の方法(外れ値がある場合) |
検定には、Excel関数や分析ツールで実行できる方法もありますが、Excelは統計の専門ソフトではないので、すべての検定を実行できるわけではありません。Excelにない方法を利用したい場合は、統計ソフトを準備する必要があります。
ソフトで検定を実行すると、因子ごとにP値(有意確率)と呼ばれる確率が計算されます。P値は、大まかにいうと、水準ごとの母統計量が等しい確率です。P値が小さいとき、水準間の母統計量が等しい確率は小さいので、逆説的に水準間の母統計量は異なると結論付けます。
問題は、“小さい”の基準です。この基準のことを有意水準と呼びます。有意水準の設定は、確率が大きい、小さいといった程度の問題なので、必然性のある基準はないのですが、一般に0.05(5%)や0.01(1%)が用いられます。有意水準を5%とした場合、P値がその値以下であれば、母統計量が等しい確率は小さいと見なし、差があると結論付けます。このとき、“水準5%で因子の効果は有意である”、もしくは“水準5%で平均値の差は有意である”と表現します。逆にP値が0.05を上回る場合、”水準5%で因子の効果は有意でない”、もしくは“水準5%で平均値の差は有意でない”と表現します。P値と有意水準、判定の方法は、あらゆる検定で同様です。
ソフトで計算を実行すると、P値のほかに見慣れないさまざまな値が出力されます。それらは、P値の計算の途中結果と考えてください。実用的には、それ以上、特に気にする必要はありません。“検定→見るのはP値”です。
以上の2点をベースに、今回の例について、検定の流れを解説します。
Copyright © ITmedia, Inc. All Rights Reserved.