中山氏は「機械学習のほとんどの作業は、変数をどう減らすかに尽きる」と語った。先ほどの例では42個の変数があり、それの15個のサンプルに対してフィッティングすることは無理がある。そこで実際には42個の変数に拘束条件をかけて3つの変数にまとめている。変数を減らす方法には今回使ったPLS(部分的最小二乗法)や主成分分析(PCA)などがある。
「(予測式を導出することによって)42変数のうちどれが効いているのかも簡単に知ることができる。この変数があると物性値が大きく変わる、この構造が変わっても大して物性値は変わらないといった傾向を読み取ることができる。そのため材料設計のフィードバックにも使えるだろう」(中山氏)。
フィッティングができない場合は、ベイズ最適化法が有効になる。フィッティングがよくなければ抜き取りサンプル数を増やすことになる。従来の統計の考え方では必ずランダムにサンプリングしなければならないが、ベイズ最適化ではサンプリングにバイアスを掛けられる。
中山氏は1600サンプルと規模の大きなLiF系材料を例に説明した。ベイズ最適化を適用することにより、この1600サンプルのうち160サンプルを探した段階で最も良いデータに行きついた。一方ランダムサーチでは探すほど良くはなるものの、いつまでたっても良いデータにはたどり着かない。ベイズ最適化では全サンプルのうち10分の1だけ計算すれば出ており、かなり短いステップで済む。
「こうしたベイズ最適化による結果は、通常データと違い、伝承できるのが良い点になる」(中山氏)という。Li系材料の結果で得られた知識をNa系材料に応用してイオン伝導度の高いサンプルを探索することにより、より高速に評価できた例を示した。
紹介した例のように、数千から数万の単位の材料であっても、ハイスループット計算、機械学習、ベイズ最適化を適用することで、現実的な時間スケールで最適化することは可能になる。システム作りは相当大変だが、対応は可能な範囲ということだ。
「今後の課題は、データベースにない材料の探索になる」(中山氏)という。先ほどの1600件のデータを化学組成の類似性や結晶構造の類似性からプロットし、材料の地図を作ると、一部分については非常にデータが充実しているが、別の部分では穴開きということも分かってくる。「そもそも合成できるのかは検証が必要だが、調べていない空間がかなりあることが分かる。これらを中心にデータベースにない材料を調べていきたいと考えている」(中山氏)。
Copyright © ITmedia, Inc. All Rights Reserved.