産総研のフィジカルAIプロジェクトに迫る 10万年ギャップを超えろ!:組み込みイベントレポート(1/5 ページ)
産業技術総合研究所(産総研)が「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトについて解説するウェビナーを開催。同プロジェクトを構成する6つのグループから最新の研究成果が報告された。
産業技術総合研究所(以下、産総研)は2026年3月23日、「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトについて解説するウェビナーを開催した。日本の主力産業である製造業を中心に注目を集めるフィジカルAI(人工知能)がテーマになっていることもあり、参加者は400人を超えたという。
フィジカルAIはサイバー世界とも相互作用する
冒頭では、プロジェクトの概要と狙いを、産総研 人工知能研究センター 首席研究員の佐藤雄隆氏が解説した。2024〜2026年度の3年間で計画されている同プロジェクトは、産総研としてフィジカルAIの基盤モデルを活用したシステム、アプリケーションを広く浸透させるとともに、日本のさまざまな産業の業務改善、業務改革を促して国際競争力の維持/向上に寄与することを目指している。また、透明性を持つ基盤モデルの構築と、実世界への応用も志向している。なお、フィジカルAIへの注目が集まったのは2025年後半からだが、プロジェクトが立案されたのは2023年度である。
同プロジェクトにおけるフィジカルAIの定義は以下の通りだ。従来のAIはサイバー世界で入出力が完結していたが、フィジカルAIは、フィジカル世界に必要に応じて直接の観測や作用が可能で、サイバー世界とも相互作用するものだ。すなわち、従来のAIの領域を包含しつつ、現実世界を観測/作用するものとして捉えられている。
研究体制はモダリティと応用領域によって分けられた、画像、音声/音響、言語、ロボット、基盤技術、バイオの6つのグループから成る。これらのうちバイオは、横断的応用領域として捉えられており、ロボットは観測/理解/行動を結び付ける存在とされている。
なお、同プロジェクトの研究開発成果としてこれまでに、「Llama 3.1 Swallow」や、6万時間の日本語音声データを使った日本語音声基盤モデル「いざなみ」「くしなだ」、双腕ロボットAIの開発を支援するデータセット「AIST-Bimanual Manipulation」をはじめ約7件のプレスリリースが出ている。
ロボット基盤モデル構築に向けた取り組み
続いて、ロボットの基盤モデル構築に向けた研究成果を、産総研 人工知能研究センター 実体知能研究チーム 研究チーム長の堂前幸康氏が紹介した。堂前氏は三菱電機でマシンビジョンやロボットマニピュレーションの研究に取り組んだ後、2018年からは産総研でロボティクス分野について研究している。
堂前氏は冒頭で、約10年前に開催された物流向けピッキングロボットのコンテストである「Amazon Picking Challenge 2015」を振り返り、当時と同じ問題に今取り組むと、VLM(視覚言語モデル)に身体を制御する知識が内包されていることが分かると同時に、まだ課題があることも分かると紹介した。
現在、多くのスタートアップや研究機関が、さまざまな基盤モデルの開発を続けている。印象的な例として、DeepMindの研究者が立ち上げたスタートアップのGeneralistによるデータドリブンベースのデモを挙げた。堂前氏のように製造現場に携わってきた人間の目から見ても、かなり印象的なレベルに達していると感じるという。
基盤モデルのさまざまな応用も進められている。マニピュレーションだけではなく、ナビゲーションでもSim-to-Real(仮想環境で学習したAIモデルを現実世界に適用させるアプローチ)がうまくできるようになっている。模倣学習手法の一つであるMT-ACT(Multi-task Action Chunking Transformer)を使ってロボットのマニピュレーションをやらせると、約6時間の収集データで言語指示で動くシステムを構築できた。速度は遅いものの、各モーダルが滑らかに接続されており、可能性を感じさせるとコメントした。
Copyright © ITmedia, Inc. All Rights Reserved.




