産総研のフィジカルAIプロジェクトに迫る 10万年ギャップを超えろ!:組み込みイベントレポート(3/5 ページ)
産業技術総合研究所(産総研)が「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトについて解説するウェビナーを開催。同プロジェクトを構成する6つのグループから最新の研究成果が報告された。
バイオ分子デザインのための基盤モデル開発とAI for Scienceへの展開
産総研 人工知能研究センター オーミクス情報研究チーム 特定フェローの齋藤裕氏は、バイオインフォマティクスによる生体分子のデザインについて紹介した。
同グループでは、大量データを解析して生命のルールを読み解き、そのルールを用いて生体分子を改良/設計するという研究を行っている。今回は主に後者に当たる、AIを用いた機能分子としてのタンパク質のデザインについて紹介した。タンパク質はアミノ酸の配列によってできている。この配列が変わると機能が変わる。すなわち、タンパク質のデザインとはアミノ酸配列をデザインすることだが、その配列パターンは膨大であり、AIを活用した効率的なデザインが重要となる。
アミノ酸を英字1文字で表すことで、タンパク質の分子構造は文字列情報として表現でき、文字列データ用の機械学習を適用できる。この考え方を基にしたpLM(タンパク質言語モデル)が研究や産業現場でも既に広く使われている。また、タンパク質は構成される各原子の座標から成る画像データとして扱うこともできる。そうすると拡散モデルのような画像データ用の機械学習技術を利用可能だ。このようにバイオ分子はAIと親和性が高く、巨大IT企業が続々とバイオ分野に参入している。
産総研はバイオ分子設計のための基盤AI開発、すなわち「バイオものづくり」の問題解決のための基盤を構築しており、蛍光タンパク質、酵素、抗体などのウェットな実験データの収集を行う他、実験ロボット「まほろ」のデジタルツイン化なども進めている。齋藤氏は、蛍光タンパク質の発光色の緑から黄への変更、基盤モデルを酵素配列で継続事前学習させたFMO(高機能化酵素)の創出、実験データと計算値を組み合わせる機能予測の省力化、量子アニーリングとAIを活用した抗体分子のデザイン最適化などの成果を紹介した。
タンパク質以外の分子、DNAやRNAのデザインも進めている。良いタンパク質を大量生産するためには宿主生物種に導入して大量生産させる必要があるからだ。そこで「mRNA逆翻訳言語モデル」を開発し、mRNA配列を生成できるようにした。RNAを生成するためのモデルは自前で作成した。
ロボティクスを使ったバイオ分子設計実験の自律化に向けた試みも進められている。分子デザインのAIによる効率化の次は実験自動化というわけだ。コンピュータ上に「バーチャルまほろ」を作り、物理シミュレーター上で冷蔵庫の扉を開けたり、道具を操作したりして強化学習させる。Sim-to-Realによる実機への移植の試みも進めている。まだ初期段階ではあるものの、良好な結果が得られているという。
細胞画像解析技術も構築している。産総研の生命工学領域と連携し、細胞内の画像を超解像/高速で取得して、細胞内の異常部位を可視化する。齋藤氏は最後に、バイオでもAIが今は熱いと述べ、融合分野として面白くなっていると訴えた。
AIを活用するための基盤技術
産総研 人工知能研究センター 社会知能研究チーム 研究チーム長の大西正輝氏は、さまざまなAI技術をどのように社会実装するのかについて紹介した。産総研では深層学習におけるハイパーパラメータ最適化(HPO)を高速化/効率化するためのオープンソースライブラリ「aiaccel」をGitHubで公開している。AI活用における試行錯誤を自動化することを目指した研究の中で公開したものだ。
その後、ニューラルネットワークやデータセットにはさまざまなものが登場したが、産総研では人材育成や研究分野の周知にも力を入れ、HPOモジュールコンテストや、自然画像を用いない事前学習用データセット作成モジュールの開発などを、コンテスト形式で行った。
大西氏は「こういった基盤的な取り組みを続けながら、自分たちのデータに合わせてファインチューニングするための枠組みなどを提案していた」とこれまでの取り組みを振り返った上で、「しかし、ChatGPTの登場以降は様相が大きく変化した」と述べる。AIモデルが巨大化し、研究速度が高速化し、さまざまなモダリティを組み合わせられるようになり、研究者たちの取り組み方も変化した。
研究速度が高速化した結果、研究者が多くの試行錯誤の中から正解を見つけ出すことが難しくなっている。公開コードやデータにさえ誤りが多く「学習/評価パイプラインの統一が必要だ」(大西氏)という。また、モデルの超巨大化により、学習を何度も繰り返すことが難しく、そもそも超巨大データを持っていないと一から再学習させることはできなくなっている。大西氏は「高速評価によるハイパーパラメータ最適化技術が必要だと考えている」と指摘する。
極めて多くの論文が発表される状況になり、研究それぞれの継続性や継承も難しくなっているが、学習/評価パイプラインの統一は重要なテーマである。そこでaiaccelを標準フレームワークの利便性を改善するヘルパーライブラリとして作り直した。分散学習、HPO探索の自動化、効率的なファイル設定、計算機環境の抽象化、再現性を担保するワークフロー管理などの各パッケージは独立して実装されており、使いたい部分だけ使えるように切り出せる設計となっている。
また、モデルの超巨大化によって、学習に時間がかかるようになり、改善の全体ループを回すことも難しくなっている。これらの課題解決に向けて、人間ならばまず成功例から法則を探すだろうというアイデアから、軽量な簡易モデルでまず学習させ、そこから複雑なモデルのパラメーターを推定させるようなモデル間を橋渡しする「モデルブリッジ」を作り、最適パラメーターを推測させている。複雑な探索空間を、軽量モデルとの関係性を調べることで単純化して、ハイパーパラメータの最適化を行うわけだ。
大西氏は応用例として、視聴覚音響イベント物体検出基盤モデルを紹介した。同基盤モデルは、音を発する物体の位置と、その種別を推定できる。また、音響言語モデルを使って環境音に関する質問に答えるLLM(大規模言語モデル)、ノイズ環境下での会議のような複数の音声を分離するための実時間音声対話分析システム、少ないデータから模倣学習するマルチロボットでの自律分散システム、4脚ロボットによるマルチモーダル歩容獲得、交通シミュレーションのデータ同化技術などを開発したと紹介した。
Copyright © ITmedia, Inc. All Rights Reserved.









