データが少なくても高精度に判断できる機械学習技術を開発人工知能ニュース

富士通研究所は、学習に必要なデータが少なくても高精度に判断できる機械学習技術「Wide Learning」を開発した。重要度の高い仮説を選別し、それぞれの影響度を制御することで、データに偏りがあっても、均等に正しい分類/判断ができる。

» 2018年10月03日 10時00分 公開
[MONOist]

 富士通研究所は2018年9月19日、学習に必要なデータが少なくても高精度に判断できる機械学習技術「Wide Learning(ワイドラーニング)」を発表した。データ項目を組み合わせて、その全てのパターンを仮説とし、各仮説に対し分類ラベルのヒット率で仮説の重要度を判断する。

 例えば、商品の購入傾向をAI(人工知能)で分析する際は、これまでの購入者、未購入者(分類ラベル)のデータ項目から「女性、免許所有」「未婚、20〜34歳」など全てのパターンを組み合わせて仮説とし、実際の商品購入者のデータとどれくらいヒットするかを分析する。

 一定以上ヒットした仮説をナレッジチャンクと呼び、重要な仮説であると定義する。これにより、もともとの判断対象となるデータ数が少ない場合でも、注目すべき仮説を漏れなく抽出したり、新たな仮説を発見したりできる。

photo 仮説列挙とナレッジチャンクの抽出(クリックで拡大) 出典:富士通研究所

 また、ナレッジチャンクを構成するそれぞれの項目に多くの重複が見られる場合は、分類モデルへの影響度が小さくなるように制御する。そのため、ラベルやデータに偏りがある場合も均等に分類できる。

 一般的には、影響度を制御せずに、商品未購入の男性のデータが大多数を占めているデータを学習した場合、性別とは関係なく得られた「免許所有」を含むナレッジチャンクが分類に影響しなくなる。Wide Learningでは、項目の重複から「男性」が含まれるナレッジチャンクの影響度を抑えて、少数である「免許所有」が含まれるナレッジチャンクの影響度が相対的に大きくなるように学習する。その結果、「男性」「免許所有」のいずれでも正しく分類できるモデルを構築する。

photo 分類モデル構築時のナレッジチャンクの影響度調整(クリックで拡大) 出典:富士通研究所

 Wide Learningを、マーケティングや医療分野のベンチマークデータを用いたテストで検証したところ、ディープラーニングと比較して正解データを当てる精度が約10〜20%向上した。また、サービスに加入する可能性が高い客や罹患患者を見逃す確率を約20〜50%低減できることが分かった。

 従来のディープラーニングでは、AIの判断理由を人間が理解・説明できないという課題があった。Wide Learningのベースになっているナレッジチャンクは論理的な表現形式を持つため、モデルの修正が必要になった場合も、人がその理由を理解して、より適切な修正ができる。

 今後は、不正利用や設備の故障といった低頻度の案件や、金融取引、医療診断などAIの判断理由を求められる業務に適用し、2019年度の実用化を目指す。また、判断理由を説明できるという同技術の特性を生かして、より高度な意思決定の支援や、人間と協働可能なシステム設計に向けて、研究を進めていく。

Copyright © ITmedia, Inc. All Rights Reserved.