会見ではデータロボットを使った機械学習プロセスのデモンストレーションも行われた。使用したのは米国の糖尿病患者のデータで項目数は50。目的は退院後の再入院の防止に設定した。
デモで使用したデータのようにExcelやCSV形式などの帳票データを用意できていれば、まずはデータロボットのWebブラウザ画面にデータをドラッグ&ドロップすればよい。なおデモではクラウドベースのSaaS版を使用したが、プライベートクラウド版、オンプレミス版もあるという。
ドラッグ&ドロップの後、データ項目が入力されたかを確認して、目的となる項目(今回のデモは「再入院」)を選択。かなり大きな開始ボタンを押すと機械学習によるモデル作成が始まる。
このモデル作成は、データのクリーニングや補完、言語対応といった前処理と機械学習のアルゴリズムを組み合わせた「ブループリント」によって行われる。ブループリントの数は1000〜2000あり、その中から対象データに適合しそうなものを30〜40選んで機械学習を行う。これらの機械学習の結果を競わせて、その成績順でモデルを上から表示する。
モデルの内容は確認可能であり、「特徴量のインパクト」からそのモデルに与えるデータの影響度などを見ることができる。一般的には、このデータの影響度を考慮してモデル作成を再度行うことを繰り返して、機械学習の結果得られたモデルの「グレーボックス化」を進める。「機械学習ではブラックボックス化するという意見もあるが、導き出したモデルを使う理由をきちんと説明できることがデータロボットの特徴の1つでもある」(データロボット データサイエンティスト シバタアキラ氏)という。
モデルの作成を完了すれば、あとは予測対象のデータをモデルに入力すればよい。デモでは、入院中の10人の患者が再入院する確率を算出。その算出結果と関わりの深いデータ項目を「リーズンコード」として示す機能があるので、予測結果についても説明することが可能だ。
この確率を基に、入院期間を延ばすか、いったん退院させてから訪問検診するかなどの判断は、人間である医師が行うことになる。
Copyright © ITmedia, Inc. All Rights Reserved.