機械学習はどうやって使うのか――意外と地道な積み重ねいまさら聞けない機械学習入門(後編)(2/4 ページ)

» 2018年05月22日 10時00分 公開

3.集めたデータの分析

 データを整理し機械学習ツールの形式に成形したところで、ようやくツールの出番となる。まずは集めたデータを分析し、ゴール変数に対してどの入力変数がどのくらい関係しているのかを見てみる。

 図2の例では、ThingWorx Analyticsが持つシグナル機能により、エスプレッソマシンのグラインダーの故障に、どの要因が関係してるかをランクが高い順に表示している。要因のトップは1日当たりの平均使用回数だ。これだけを見ると当たり前すぎて何の知見も得られないと思われるが、画面右側には故障率順に使用回数のヒストグラムが表示されており、350.5回を境に故障率がおよそ24%から60%に跳ね上がることが読み取れる。このように具体的な数値として要因を分析できるのがツールの便利なところである。

図2 図2 エスプレッソマシンのグラインダーの故障要因(クリックで拡大)

 さらに複数の入力変数の組み合わせによりゴール変数の値が高く(もしくは低く)なるグループを探し出すのが、ThingWorx Analyticsのプロファイル機能だ。図3では、先のエスプレッソマシンのグラインダーの故障に一番関わるグループを示している。画面では1日の平均使用回数が350.5〜483回のときにおよそ66%の故障率だが、グラインダーがサテライトタイプだと83%に上がると表示されている。使用回数とこのグラインダーのタイプに何か問題があると推測され、設計や顧客への利用ガイドの検討材料となるだろう。

図3 図3 故障率との関係の強い組み合わせ(クリックで拡大)

 これらの分析から、入力変数を見直すこともできるだろう。特に、入力変数の数が多い場合は、ゴール変数と関係の弱い入力変数を、この後おこなう予測モデル作成対象から外すことで予測モデルの作成時間を短縮できる。

Copyright © ITmedia, Inc. All Rights Reserved.