偽相関の罠に陥らない、製造業における機械学習を用いた要因分析のコツ:もう失敗しない!製造業向け機械学習Tips(4)(1/2 ページ)
製造業が機械学習で間違いやすいポイントと、その回避の仕方、データ解釈の方法のコツなどについて、広く知見を共有することを目指す本連載。第4回は、製品不良や設備故障などの要因分析に機械学習を適用する際に留意するべきことなどを紹介します。
売り上げ予測、ローンの貸し倒れ予測、保険金請求額予測など、当たり前かもしれませんが機械学習は未知データに対する予測を行うために活用されるのが主な用途です。一方で、製造業の場合は製品不良や設備故障の予測そのものよりも、その要因を分析するために機械学習が使われる事例も多い点が特徴的と言えます。
そこで今回は、製造業における機械学習を用いた要因分析について解説します。
⇒連載「もう失敗しない!製造業向け機械学習Tips」バックナンバー
製造業は要因分析を業務改善に生かせる
製造業では、故障の要因や性能に影響する材料配合などに機械学習が使われています。連載第2回で紹介した最適化では、モデルを使って配合や工程の最適な値を計算しましたが、今回ご紹介する要因分析では結果を人間が分析し、業務改善に生かします。製造業の場合は、他業界と比較して、要因が分かれば製造プロセスを適切にコントロールする、つまり介入が可能な点が特徴の一つであり、そのために要因分析はとても有用なアプローチになります。
- 要因分析の使い所の例
- 材料の処方開発における支配因子を明らかにする
- 製品不良の要因が工程のどこにあるかを突き止める
- 製品の性能低下が最近行った原料供給元の切り替え起因かを調べたい
ご存じの通り、製造業における要因分析では、主に実験計画法が用いられています。これは少数のデータから効率的に要因の切り分けができるように実験を行い、着目している事象の要因を明らかにする強力な方法です。技術系社員の研修などで取り入れている会社も多いでしょう。しかし、介入試験のアプローチでは仮にデータが大量にあったとしても、計画以前のデータから要因を分析することはできません。
一方で、過去のデータを分析することで要因に迫ろうというアプローチはさまざまなものが知られていますが、従来のシンプルなモデルでは複雑な事象を十分に表現できるとは限りませんでした。ここで機械学習のアプローチを取り入れることで、過去の工程データや配合の実験データなど、多変量、大量、非線形の複雑なモデルを簡単に構築できるようになり、製造業の要因分析、ひいては工程改善につなげることができます。
その変数は本当に要因なのか?
生成したモデルの変数重要度を参照し、要因の候補を注意深く絞り込んでいくのが多くの場合で第1ステップですが、ここで本当に着目している事象との間に因果関係があるかには注意する必要があります。一見関連があるように見えても、偽相関である可能性があるからです。
分かりやすいシンプルな例があります。野球選手のスキルを分析した結果、三振が多い選手にホームランが多かったとしましょう。実際は、バッドを振るスピードなど数値には出ていない交絡因子が真の要因であったとしても、三振とホームランの数だけを見ていたら、ホームランを増やすために三振を増やすといった間違った方向をゴールに、無駄な努力をしてしまうかもしれません(いや、この例自体はあり得ないかもしれませんが、構造的にはこれと全く同じ間違いはよく起こります)。
また予測をする場合、因果関係を正しく捉えないと、結果のシグナルを変数にしてしまうといったミスも発生します。例えば、故障が発生した時にアラートが出る設定である場合、アラートは故障の結果ですから、それを予知のための変数には使えないということです。
因果推論の詳細については良い本がたくさんあります※1)のでそちらをご参照いただければと思いますが、相関があるからといって因果とは限らないということをまずは肝に命じましょう。その上であれば、事業ドメインの知識は判断を行う上で非常に有用でしょう。介入試験には実験や試作を伴い、高コストで実施が困難なケースもありますが、設備やプロセスの構造を考慮することで、相関がある場合には因果関係を想定できる場合もあるかと思います。
Copyright © ITmedia, Inc. All Rights Reserved.