「AIの民主化」掲げる米国ベンチャーが日本進出、機械学習の結果も説明可能に人工知能ニュース(2/2 ページ)

» 2017年03月01日 06時00分 公開
[朴尚洙MONOist]
前のページへ 1|2       

機械学習をどうやって自動化するのか、モデルはどう説明するのか

 会見ではデータロボットを使った機械学習プロセスのデモンストレーションも行われた。使用したのは米国の糖尿病患者のデータで項目数は50。目的は退院後の再入院の防止に設定した。

Excelで用意した米国の糖尿病患者のデータ Excelで用意した米国の糖尿病患者のデータ。目的は再入院の防止になる(クリックで拡大) 出典:データロボット

 デモで使用したデータのようにExcelやCSV形式などの帳票データを用意できていれば、まずはデータロボットのWebブラウザ画面にデータをドラッグ&ドロップすればよい。なおデモではクラウドベースのSaaS版を使用したが、プライベートクラウド版、オンプレミス版もあるという。

データロボットの画面データをドラッグ&ドロップするとデータ項目の入力確認画面になる データロボットの画面(左)にデータをドラッグ&ドロップするとデータ項目の入力確認画面になる(右)(クリックで拡大) 出典:データロボット

 ドラッグ&ドロップの後、データ項目が入力されたかを確認して、目的となる項目(今回のデモは「再入院」)を選択。かなり大きな開始ボタンを押すと機械学習によるモデル作成が始まる。

再入院をターゲットとして開始ボタンを押す機械学習によるモデル作成が始まる 再入院をターゲットとして開始ボタンを押すと(左)に機械学習によるモデル作成が始まる(右)。画面の右側でさまざまな「ブループリント」で機械学習が行われていることが分かる(クリックで拡大) 出典:データロボット

 このモデル作成は、データのクリーニングや補完、言語対応といった前処理と機械学習のアルゴリズムを組み合わせた「ブループリント」によって行われる。ブループリントの数は1000〜2000あり、その中から対象データに適合しそうなものを30〜40選んで機械学習を行う。これらの機械学習の結果を競わせて、その成績順でモデルを上から表示する。

 モデルの内容は確認可能であり、「特徴量のインパクト」からそのモデルに与えるデータの影響度などを見ることができる。一般的には、このデータの影響度を考慮してモデル作成を再度行うことを繰り返して、機械学習の結果得られたモデルの「グレーボックス化」を進める。「機械学習ではブラックボックス化するという意見もあるが、導き出したモデルを使う理由をきちんと説明できることがデータロボットの特徴の1つでもある」(データロボット データサイエンティスト シバタアキラ氏)という。

機械学習で導き出したモデルの内容「特徴量のインパクト」 機械学習で導き出したモデルの内容(左)と「特徴量のインパクト」(右)(クリックで拡大) 出典:データロボット

 モデルの作成を完了すれば、あとは予測対象のデータをモデルに入力すればよい。デモでは、入院中の10人の患者が再入院する確率を算出。その算出結果と関わりの深いデータ項目を「リーズンコード」として示す機能があるので、予測結果についても説明することが可能だ。

 この確率を基に、入院期間を延ばすか、いったん退院させてから訪問検診するかなどの判断は、人間である医師が行うことになる。

選択したモデルに予測対象のデータを入力入院中の10人の患者が再入院する確率が算出される 選択したモデルに予測対象のデータを入力すれば(左)と入院中の10人の患者が再入院する確率が算出される(右)(クリックで拡大) 出典:データロボット
算出結果と関わりの深いデータ項目を示す「リーズンコード」の画面 算出結果と関わりの深いデータ項目を示す「リーズンコード」の画面(クリックで拡大) 出典:データロボット
前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.