教師データが足りないと「異常予測」は難しい、ならば「異常検知」から始めよう：もう失敗しない！製造業向け機械学習Tips（3）（1/2 ページ）

製造業が機械学習で間違いやすいポイントと、その回避の仕方、データ解釈の方法のコツなどについて、広く知見を共有することを目指す本連載。第3回は、「異常予測」と「異常検知」について取り上げる。教師データ量の不足が課題になる「異常予測」に対して、「異常検知」は教師データなしでも始められることが特徴だ。

[山本祐也（DataRobot），MONOist] PC用表示関連情報

LINE

Hatena

⇒連載「もう失敗しない！製造業向け機械学習Tips」バックナンバー

　製造業では、生産設備の故障や製品の不良など、さまざまな異常の発生を予測する目的で機械学習が活用されています。しかし、異常発生の予測に機械学習を使う場合、多くの企業は故障の教師データ不足という課題に直面します。そこで今回は、機械学習プロジェクトにおいて教師データが不足している場合の対処法について解説します。

教師あり異常予測ではなく、教師なし異常検知を実施する

　機械学習を活用して生産設備の故障、不良品発生を予測する場合、教師データとしてこれまでの故障や不良のイベントが発生したポジティブデータを含む必要があります。しかし、製造業において故障や不良品は事業への打撃が大きいことから、極力それらが発生しないように設計されています。そのため、ポジティブデータが十分にない、あるいは全くないという状況は、珍しいことではありません。

　機械学習では、教師データがどの程度の量あるかで、その予測性能は大きく変わります。教師データの量が多いほど予測精度は上がり、少なければ精度は下がります。では、ポジティブデータがほとんど、あるいは全くない場合にはどうすればよいのでしょうか？

QCやQAの文脈と親和性の高い異常検知アルゴリズム

　1つの方法としては、教師あり学習による異常予測ではなく、異常検知のために使うことが考えられます。異常検知では、設備のログデータ、製造の工程データなどを説明変数として活用するため、教師データを必要としません。製造業では、QC（Quality Control）、QA（Quality Assurance）の文脈で工程管理表をプロットし、管理幅から外れたらアラートを出すというような取り組みを続けてきました。これは、データを監視して通常とは異なるデータが発生したらアラートを出すという、機械学習の異常検知アルゴリズムと考え方が同じであるため、製造業に携わる方にとっては、機械学習の予測よりもなじみやすく、この方式を取り入れたいという要望は少なくありません。

　教師データなしの異常検知アルゴリズムの1つが、機械学習以前から使われているマハラノビス距離です。これは、特徴空間内のデータ分布からの距離を見て評価する用途で使われ、分布から離れている方向を加味して異常を検知することができます。また、Local Outlier Factor（LOF）という、分布ではなくデータの密度から、他のデータと懸け離れていないかどうかを見るアルゴリズムもあります。

図1　マハラノビス距離（左）とLOF（右）（クリックで拡大）

教師データなしの異常検知の限界を知り、仮説ドリブンで実装する

　　　　　　 | 次のページへ