過学習は、あるモデルがデータセットに適合していても、新しいデータに対してうまく一般化しない場合に発生します。特に、そのモデルを使って機械学習を行っている担当者自身がデータ収集を行っていない場合、学習データが不十分であることが多いため、過学習を回避するのは困難です。過学習を回避する最善の方法は、モデルの多様性と複雑性を正確に反映するために十分な学習データを使用することです。
エンジニアや科学者が過学習を避けるには、データの正則化(regularization)と汎化(generalization)という追加的な2つの手法があります。
正則化は、モデルが個々のデータポイントに過度に依存することを防ぐ技術です。正則化アルゴリズムは、モデルに追加情報を導入し、モデルをより分かりやすく正確にすることで、多重共線性と冗長な予測変数を処理します。これらのアルゴリズムは通常、モデルの係数を最小化に追加したり、粗さのペナルティーを含んだりなど、複雑さに対するペナルティーを適用することで動作します。
汎化では、利用可能なデータを3つのサブセットに分割し、交差検証(cross-validation)を行います。最初のサブセットは機械学習を行うための学習セット(training set)であり、2番目のサブセットは検証セット(validation set)です。検証セットの誤差は、学習プロセス中に監視され、モデルが正確になるまで微調整されます。3番目のサブセットはテストセット(test set)で、学習セットと検証セットを用いた機械学習を終えた後、モデルが学習セットと検証セットに対して過学習していないことを確認するためのものです。
過学習を防ぐ交差検証の手法は幾つかありますが、ここでは以下の6つを紹介します。
機械学習の初心者も熟練者も、分類モデルの選定と過学習の課題に直面します。機械学習を取り巻く課題は難しく感じるかもしれませんが、適切なツールを活用し、ここで取り上げた検証方法を活用することで、エンジニアや科学者が実世界のプロジェクトに機械学習をより簡単に適用できるようになります。
阿部 悟(あべ さとる) MathWorks Japan インダストリーマーケティング部 部長
1989年から、本田技術研究所 基礎研究所で超低エミッションエンジン、希薄燃焼エンジンなどの制御システム基礎研究、Formula-1、Indy Carレースの電装システム開発部門で開発をリーディング。2003年からはContinental、AVLなどサプライヤーサイドでエンジン、ボディー、シャシーなどの電装製品の開発に従事。2012年から現職。これまでの経験を生かして業界マーケティング活動を通してモデルベース開発の推進に尽力している。
Copyright © ITmedia, Inc. All Rights Reserved.