偽相関の罠に陥らない、製造業における機械学習を用いた要因分析のコツ：もう失敗しない！製造業向け機械学習Tips（4）（2/2 ページ）

製造業が機械学習で間違いやすいポイントと、その回避の仕方、データ解釈の方法のコツなどについて、広く知見を共有することを目指す本連載。第4回は、製品不良や設備故障などの要因分析に機械学習を適用する際に留意するべきことなどを紹介します。

LINE

Hatena

要因分析の事例

　機械学習モデルを活用した要因分析の面白い例として、ある機械の故障が「部品起因」なのか、「組み立て工程起因」なのかの切り分けについて見てみましょう。その機械は、組み立て後の特定の部品Xの不良が頻発しており、A工場で組み立てた製品と比較してB工場で組み立てた製品の方が完成品検査で不良頻度が高いとします。また、A工場とB工場では別工場というだけでなく、部品Xが組み込まれる対象製品が例えば型番違いなどで微妙に異なるなど、単純な比較が難しいとしましょう（図1）。

図1　部品Xを採用した製品における故障の要因分析の切り分けイメージ（クリックで拡大）

　改善施策を考える上では、まずこのA工場とB工場の不良頻度の高さがそれぞれに供給されている部品Xの差異起因なのか、それとも組み立て工程や組み込み対象製品の設計起因なのかなどの切り分けが必要になります。

　切り分けのアプローチの一つとしては、「部品Xの検査結果などの前工程のデータから、それぞれの部品XがA工場向けかB工場向けかの分類課題を解いてみる」というものがあります。仮にこれを高い精度で識別できるモデルができてしまったとしたら、それぞれの工場に届いている部品Xには偏りがあり、すなわち別モノということになるでしょう。その場合、不良頻度の違いは組み立て工程のせいではなく、前工程から届く部品Xの輸送履歴を含む素性の違いが要因かもしれません。

　このアプローチは従来の傾向スコア法の文脈で捉えることもできますし、機械学習におけるAdversarial Validation^※2）の文脈で捉えることもできます。しかし、近年の機械学習アルゴリズムとその解釈技術の発展の恩恵を受けてモデル精度が向上しており、さらには変数重要度や部分依存、SHAP値（Shapley Additive Explanation Values）などの各種インサイトを参照することによって、どのような差異がどこになぜ生じているのかに迫る手助けを得ることもできる点がメリットと言えます。

製造業における機械学習の発展のために

　機械学習で得られた要因分析の結果は、製造の現場におけるインサイト（洞察力）そのものです。機械学習のモデルによる計算結果を人間が解釈し、妥当なのかを考えます。連載第2回で取り上げた逆問題解析による最適化の解説で述べたように、結果は現実のさまざまな制約に即したものとは限りません。結果は人間が解釈、検証していかなければなりません。

　さて本連載では、製造業における機械学習の活用と注意点について解説してきました。製造業が機械学習を活用するに当たって、ぶつかりやすいデータリーケージの問題をはじめとして、知っておけば間違いを犯さずに効率的にプロジェクトを進められます。機械学習の使い所を押さえて、ぜひ製品改良や業務改善などに生かしてください。（連載完）

参考文献

※1）効果検証入門（安井翔太、技術評論社）

※2）Kaggleで勝つデータ分析の技術（門脇大輔、阪田隆司、保坂桂佑、平松雄司、p295、技術評論社）

筆者プロフィール

山本祐也（やまもとゆうや） DataRobot データサイエンティスト

DataRobot入社前は雪印メグミルクで約3年間、有限要素法と機械学習による計算設計を用いた乳製品の包装材料の開発に携わる。またその前は富士フイルムで約5年間、位相差フィルム、ミラーフィルム、光学的に透明な接着フィルム、透明導電フィルムなど、タッチパネルに関連する機能性フィルムの開発に従事。2010年に東京大学で物質科学分野の博士号を取得。Kaggleでのランキング上位入賞経験多数。

・DataRobot https://www.datarobot.com/jp/

偽相関の罠に陥らない、製造業における機械学習を用いた要因分析のコツ：もう失敗しない！製造業向け機械学習Tips（4）（2/2 ページ）

要因分析の事例

製造業における機械学習の発展のために

参考文献

筆者プロフィール

関連記事