機械学習の2つの壁「分類モデルの選定」と「過学習」への対処法：AI基礎解説（1/2 ページ）

さまざまなデータを用いた機械学習でスマートな製品開発を目指す上で課題になるのが、「分類モデルの選定」と「過学習」への対応だ。本稿では、分類モデルと過学習について概説するとともに、基礎的な対処法について説明する。

[阿部悟（MathWorks Japan），MONOist] PC用表示関連情報

LINE

Hatena

　エンジニアや科学者は、産業データに基づいた解析によるADAS（先進運転支援システム）や予知保全（predictive maintenance）アプリケーションなど、よりスマートな製品やサービスを構築しています。分析モデリング（analytics modeling）とは、データ準備、特徴量エンジニアリング（feature engineering）、機械学習のためのドメイン固有の技術を使用して、過去のデータからシステムの挙動を記述し、予測する技術のことです。これらと自動コード生成の組み合わせは、エッジからクラウドまでを対象として、アクションと意思決定を自動化しながらの再利用を可能にします。

　産業界で得られるビッグデータの可用性や計算処理能力の向上、スケーラブルなソフトウェアツールが使いやすくなっていることをきっかけに、エンジニアリングアプリケーションにおいて機械学習はこれまで以上に簡単に利用できるようになっています。機械学習の手法は、モデルとしてあらかじめ決められた方程式に頼ることなく、産業データから直接「学習」するものであり、今日の複雑なシステムに特に適しています。

　しかし、機械学習によるモデリングを行っているエンジニアや科学者が直面することが多い課題が2つあります。1つはドメイン固有のデータを分類するための適切な機械学習モデルの選択、もう1つはデータの過学習（overfitting：過適合、過剰適合とも）の排除です。

　分類モデル（classification model）は、過去のデータから抽出された工学的特徴の特定のセットに基づいて、項目を離散的なグループまたはクラスに割り当てます。最適な分類モデルを決定することは、各データセットの独自性や望ましい結果を考えると、しばしば困難を伴います。

　一方、過学習は、ノイズやエラーを含む可能性のある限られた学習データにモデルがあまりにも密着している場合に発生します。過学習したモデルは、学習セット外のデータにうまく一般化できず、生産システムでの有用性が制限されます。

　拡張性の高いソフトウェアツールと機械学習モデルを統合することで、エンジニアや科学者は、特定の産業データや目標に最適なモデルを効率的に特定し、過学習を防ぐことができます。

分類モデルの選定

　分類モデルはそれぞれが独自の特徴を有しており、対象とする問題に合わせて分類モデルを選定する必要があります。

　手始めに、データの種類と目的について、幾つかの質問に答えなければなりません。「モデルは何を達成しようとしているのか」「どのくらいのデータがあり、どのようなタイプのデータなのか」「どのくらいの詳細が必要なのか」「ストレージは制限要因になるのか」などです。これらの質問に答えることで、選択肢を絞り込み、正しい分類モデルを選定することができます。エンジニアや科学者は、モデルがどれだけ正確にデータを評価するかをテストするために交差検証を使用することができます。交差検証の後、最も適合する分類モデルを選択することができます。

　分類モデルには多くの種類がありますが、ここでは一般的な5つを紹介します。

ロジスティック回帰（logistic regression）
- そのシンプルさから基準的なモデルとしてよく使用されます。データを2つのクラスに分ける問題に最適です。データポイントが各クラスに属する可能性がどれほど高いかの確率を返します
k近傍法（k-nearest neighbor：KNN）
- このシンプルで効果的な分類方法は、学習データセット内の他の点との距離に基づいてデータ点を分類します。KNNの学習時間は短いですが、データに重みをかけない限り、特にデータ点の数が増えてくると、無関係な属性と重要な属性を混同してしまう可能性があります
決定木（decision tree）
- 木構造を用いるこれらのモデルは視覚的に応答を予測し、根（root）から葉（leaf）に至るまでの決定パスをたどることが比較的容易です。どのようにして結論に達したかを示すことが重要な場合に特に有用です
サポートベクターマシン（support vector machine：SVM）
- このモデルは、データを2つ以上のクラスに分けるために超平面（hyperplane）を使用します。精度が高く、過学習しにくい傾向があり、比較的簡単に解釈できますが、特に大規模なデータセットの場合、学習時間が長くなることがあります
人工ニューラルネットワーク（artificial neural network：ANN）
- 分類や時系列予測を含むさまざまな問題を解決するために設定し、学習することができます。しかし、学習されたモデルは解釈が難しいことが知られています

　エンジニアや科学者は、さまざまなソフトウェアツールを使用して、特徴量セットに最適なモデルを決定してその性能を評価し、モデルの精度を比較して改善し、最終的に最適なモデルを出力することで、意思決定プロセスを簡素化することができます。これらのツールは、データの探索、特徴の選択、検証スキームの指定、複数のモデルの学習にも役立ちます。

分類モデルの選定にはさまざまなソフトウェアツールを活用できる。画面はマスワークスの「MATLAB」を使用した事例（クリックで拡大）

過学習への対応

　　　　　　 | 次のページへ