ここまでは、入手したデータを活用していかに要因分析を行うかについて説明しました。ここからは、要因分析手法の一つであるAutoMLについて説明します。
要因分析では、さまざまな手法やアルゴリズムを活用できます。例えば、多種類のデータを基にデータの相互関連性を分析する統計的技法である多変量解析では、重回帰分析、クラスター分析、決定木などがあります。Excelなどでも利用できるおなじみの分析手法ですね。
しかしながら、多変量解析は手法によって扱える要因の数が限られる、という問題点があったりします。筆者の経験から言うと、要因の数が10個ぐらいになるとかなり解釈が難しくなる印象があります。
このような問題点から、機械学習を使った要因分析も最近はよく利用されるようになりました。具体的には、機械学習モデルの変数重要度を使って要因の重要度を算出することで要因分析に活用する手法です。
一方で機械学習モデルの変数重要度を使う場合、機械学習モデルのアルゴリズムによって変数重要度の意味合いが異なること、アルゴリズムによってはノイズに弱いなどの欠点があります。また、数値データ以外のデータを要因分析する際には、何らかの手法をもって数値データに変換する必要があります(図2)。
これらの背景から機械学習モデルを用いて要因分析をする場合は、高度なデータサイエンティストのスキルが必要になることが多いです。これでは現場の方、例えば製造工場でラインを設計しているような方が要因分析に取り組み易いとはいえません。このような問題を解決するために最近着目されているのがAutoMLを活用した要因分析です。
AutoMLとはAutomated Machine Learning、機械学習の自動化を実現するための各種機能の集合体のことを指し示します。
具体的には、データの前処理や特徴量の変換、欠損値の補完、最適な機械学習モデルの自動選定など、機械学習モデルを構築する際に必要となる手順をユーザーが複雑な操作を行うことなくAutoMLが実施した上で、高度な機械学習モデルを生成することが可能です。
これらAutoMLを要因分析に活用することで、数値やカテゴリーなどさまざまなデータが含まれているデータや欠損値などが含まれるデータにおいても、データの前処理の必要がなくなります。AutoMLツールが提供するGUIを活用することで、プログラミングを行う必要がなくなるといった利点がありますので、一般の人でも容易に要因分析を行えるようになります。
また、AutoMLのツールによっては、データが少量しかなくても安定的に要因分析を行える機能や機械学習アルゴリズムが組み込まれている場合があります。
製造業が要因分析を実施する場合、データ数が少なくて苦労するケースが多いようです。しかし、AutoMLのこのような機能を活用することで、より効率的な要因分析が可能となります。
このような特徴から、AutoMLを要因分析に活用することで、本質的な作業、カイゼンや新たな分析テーマの作成にリソースを集中させることができるようになるのです(表2)。
自動車業界のデータ活用が進む中で求められている要因分析を中心に解説してきました。要因分析は、何らかの結果をもたらしている要因を特定する作業であり、人間が主体的に介入できる要因を発見できれば、現状を好ましい方向に変化させられます。
今回は自動車業界を例に説明しましたが、研究開発、ヘルスケア、マーケティング、人事などさまざまな分野で要因分析が活用されています。この要因分析を効率的に行う上で、AutoMLは重要な問題解決のツールになるのではないでしょうか。
(連載完)
山本 光穂(やまもと みつお) DataRobot データサイエンティスト
約15年間、自動車業界において最先端のIT技術を活用した製品プロトタイプ開発やデータ分析業務などに携わった知見を活用して、製造業、特に自動車関連企業の課題解決支援に従事。またコミュニティー活動に積極的に取り組んでおり、データ分析コミュニティーであるPyData.Tokyoのメインオーガナイザを務める。
Copyright © ITmedia, Inc. All Rights Reserved.