産総研のフィジカルAIプロジェクトに迫る　10万年ギャップを超えろ！：組み込みイベントレポート（5/5 ページ）

産業技術総合研究所（産総研）が「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトについて解説するウェビナーを開催。同プロジェクトを構成する6つのグループから最新の研究成果が報告された。

LINE

Hatena

限定資源下におけるマルチモーダル／視覚基盤モデルの構築

　最後に、産総研人工知能研究センターコンピュータビジョン研究チーム上級主任研究員の片岡裕雄氏が、産総研で構築している限定資源下でのVFM（視覚基盤モデル）について紹介した。データ、モデル両方のノウハウを持つメンバーで開発を行っており、4つのモダリティ（2D画像、3D点群、動画、視覚と言語のマルチモーダル）のモデルを構築して統合していると全体像を紹介した。

産総研コンピュータビジョン研究チームの戦略の全体像［クリックで拡大］出所：産総研

　片岡氏らは「リミテッド」、すなわち限定資源下におけるマルチモーダル／視覚基盤モデル構築をテーマとしている。複数モダリティを効率的に個別構築し、データ収集とモデル構築の経験を積み重ねながら横展開／社会実装を通じて知見を獲得し、学習を継続改善していく戦略を採用している。プロジェクトでは仮想国際連携拠点「LIMIT.Lab」を結成して、英国、ドイツ、オランダなどとも国際連携しており、トップカンファレンスでのワークショップ開催なども行い、年間70本以上の論文を輩出している。活動の中から、「スケーリングバックワーズ（Scaling Backwards）」というパラダイムも生まれている。計算量が少なくデータが少ない条件下でもトランスフォーマーモデルを効率よく学習できるという思想であり、特に合成データの活用によって高効率な基盤モデル構築が可能であることが示されている。

　技術的な取り組みはモダリティごとに異なる。VFMは超解像基盤モデルを構築している。フィルタリングによってデータをある程度削減する一方、より高品質なデータのみを残すことで、むしろ性能が向上することを明らかにした。さらに、テキストから生成した合成画像データを活用することで、特にアート領域の超解像における性能向上が確認されている。画像認識のロバスト性についてはモアレ画像を混ぜ込むことでロバスト性が増すという。

視覚基盤モデル［クリックで拡大］出所：産総研

　3D点群の基盤モデル構築にも取り組んでおり、こちらには動画を用いている。従来、3次元データの収集は人がスキャナーを持って現実世界をスキャンする方法が主流だったが、手間がかかる。これが3D自己教師あり学習（Self-Supervised Learning）のボトルネックである。そこで動画から3次元再構成モデルを使って3D点群データに変換し、そのデータを自己教師あり学習に投入することで、3D空間表現を獲得させるという手法で、この問題を解決しようとしている。動画から再構成した3Dデータだけで、実世界スキャンデータに匹敵する性能が得られたという。

ビデオ生成ポイントクラウドデータセット「RoomTours」。3次元再構成モデルにより動画を3D点群データに変換した［クリックで拡大］出所：産総研

　動画モデルについては、動作分類にとどまらず、一人称視点からの手と物体の相互作用といった細粒度の理解に焦点を当てている。行動／プロセス／物体の状況変化に対応できているかを計測するベンチマークとして新しく「HanDyVQA」を設定し、一人称視点映像に特化した評価基盤を整備している。

動画モデル［クリックで拡大］出所：産総研

　4つ目がマルチモーダルである。VLMを基本として、より良い生成学習データの探索、Text-to-Imageモデルを活用した高精細セグメンテーションモデルの構築などを進めている。

マルチモーダルモデル［クリックで拡大］出所：産総研

　高精細画像セグメンテーションは、ピクセル単位の精密なアノテーションが必要であり、人手によるラベル付けに膨大な時間を要するという問題があった。そこでText-to-Imageモデルを活用し、画像だけでなくラベルまでも自動生成するという手法を採用した。また、Metaが公開している汎用視覚特徴抽出モデル「DINOv3」をバックボーンとして活用している。約13.9万枚の画像とラベルのペアデータを自動生成し、高品質な視覚特徴を基盤モデルから取り込み、カテゴリーごとに出力／評価し、認識精度が高かったカテゴリーをフィードバックしてプロンプトを調整するループ構造を作ってアノテーションを反復改善させたところ、実データを1枚も使わず、合成データのみでベースラインを超えるスコアを達成した。この成果は「基盤モデルが次の基盤モデル開発のベースとなる」という発展が可能であることを実証している。

高精細画像セグメンテーションのデータを自動生成して次の基盤モデルを構築［クリックで拡大］出所：産総研

　実世界での応用では、人工衛星画像基盤モデル、野生動物保全ベンチマーク「AnimalClue」、豊田自動織機との連携による自動運転フォークリフトの開発を挙げ、研究から社会実装までを一貫して行っているという。

産総研の視覚基盤モデルの応用例［クリックで拡大］出所：産総研

産総研による学術成果と社会実装の橋渡し

　最後に、産総研人工知能研究センター研究センター長の片桐恭弘氏が全体をまとめた。片桐氏は「この分野は変化が速い。なるべく早く実態を伝えてフィードバックすることが必要と考え今回のイベントを開催した。まだまだやるべきことがある。国研として、学術成果の学会発表と社会実装の橋渡しの両方が必要。コラボレーションも大歓迎だ。これからも拡大していくのでぜひ参加してほしい」と述べている。

⇒その他の「組み込みイベントレポート」の記事はこちら

産総研のフィジカルAIプロジェクトに迫る 10万年ギャップを超えろ！：組み込みイベントレポート（5/5 ページ）

限定資源下におけるマルチモーダル／視覚基盤モデルの構築

産総研による学術成果と社会実装の橋渡し

関連記事

産総研のフィジカルAIプロジェクトに迫る　10万年ギャップを超えろ！：組み込みイベントレポート（5/5 ページ）