NVIDIAは、ビジョンリーズニング、ワールド生成、アクション予測を単一システムに統合したフィジカルAI用のオープンな世界基盤モデル「Cosmos 3」を発表した。トレーニングと評価のサイクルを数日へ短縮する。
NVIDIAは2026年6月1日(現地時間)、ビジョンリーズニング、ワールド生成、アクション予測を単一のシステムに統合した、フィジカルAI(人工知能)用の世界基盤モデル「NVIDIA Cosmos 3」を発表した。従来は数カ月を要していたトレーニングと評価のサイクルにかかる時間を数日に短縮する。
本モデルは、mixture-of-transformersアーキテクチャに基づき、テキスト、画像、動画、環境音、アクションを感覚的に理解して生成できるオープンなオムニモデルだ。ロボット、AV(自動運転車)などに対し、フィジカルAIの基本課題に取り組むために開発された。
リーズニングのためのトランスフォーマーとエキスパート生成型トランスフォーマーを組み合わせることにより、動画や動作軌跡を生成する前に、オブジェクトの相互作用、動き、空間と時間的な関係を理解できる。
本モデルは、テキスト、画像、動画、サウンド、動作軌跡から得られた数十億ものサンプルを含むフィジカルAIデータセットを用いて学習しており、より少ないデータと低い学習コストでフィジカルAIシステムを構築するための、事前学習済み基盤モデルとして機能する。用途としては、「視覚言語モデル」「世界基盤モデルまたは動画基盤モデル」「世界行動モデルのバックボーン」などが挙げられる。
ラインアップとしては、ロボティクスおよび自動運転向けモデルのポストトレーニングに適した「Cosmos 3 Super」、数分の1秒で高品質な動画生成とアクションリーズニングが可能な「Cosmos 3 Nano」の提供を開始しており、エッジにおけるリアルタイム推論に最適な「Cosmos 3 Edge」も近日公開予定だ。
併せて同社は、Agile Robots、Black Forest Labs、Generalist、LTXなどの主要ラボやロボティクスのリーダーとグローバルなエコシステム構想「Cosmos Coalition」を立ち上げた。メンバーはCosmos 3の技術、トレーニングツール、大規模トレーニング用のクラウドインフラを使用しながら、モデル、研究、評価手法を提供でき、業界におけるオープンな世界モデルを推進し、迅速なイノベーションと広範な相互運用性を目指す。
CES 2026でも過熱する「フィジカルAI」、バズワードを脱して本格的なトレンドへ
NVIDIAが新たにロボタクシー向けオープンAIモデル「Alpamayo 2 Super」を開発
NVIDIAがフィジカルAIのオープン展開を加速、自動運転向けで「Alpamayo」を公開
NVIDIAが生み出す半導体産業の“正の循環”、AIフィジックスが新たな原動力に
NVIDIAがロボットシミュレーション用物理モデル「Newton」のβ版を公開
NVIDIAがフィジカルAI向けの生成AIモデルとブループリントを発表Copyright © ITmedia, Inc. All Rights Reserved.
組み込み開発の記事ランキング
コーナーリンク