検索
ニュース

フィジカルAI用のオープンな世界基盤モデルを開発人工知能ニュース

NVIDIAは、ビジョンリーズニング、ワールド生成、アクション予測を単一システムに統合したフィジカルAI用のオープンな世界基盤モデル「Cosmos 3」を発表した。トレーニングと評価のサイクルを数日へ短縮する。

Share
Tweet
LINE
Hatena

 NVIDIAは2026年6月1日(現地時間)、ビジョンリーズニング、ワールド生成、アクション予測を単一のシステムに統合した、フィジカルAI(人工知能)用の世界基盤モデル「NVIDIA Cosmos 3」を発表した。従来は数カ月を要していたトレーニングと評価のサイクルにかかる時間を数日に短縮する。

キャプション
フィジカルAI用の世界基盤モデル「NVIDIA Cosmos 3」を発表[クリックで拡大] 出所:NVIDIA

 本モデルは、mixture-of-transformersアーキテクチャに基づき、テキスト、画像、動画、環境音、アクションを感覚的に理解して生成できるオープンなオムニモデルだ。ロボット、AV(自動運転車)などに対し、フィジカルAIの基本課題に取り組むために開発された。

 リーズニングのためのトランスフォーマーとエキスパート生成型トランスフォーマーを組み合わせることにより、動画や動作軌跡を生成する前に、オブジェクトの相互作用、動き、空間と時間的な関係を理解できる。

 本モデルは、テキスト、画像、動画、サウンド、動作軌跡から得られた数十億ものサンプルを含むフィジカルAIデータセットを用いて学習しており、より少ないデータと低い学習コストでフィジカルAIシステムを構築するための、事前学習済み基盤モデルとして機能する。用途としては、「視覚言語モデル」「世界基盤モデルまたは動画基盤モデル」「世界行動モデルのバックボーン」などが挙げられる。

 ラインアップとしては、ロボティクスおよび自動運転向けモデルのポストトレーニングに適した「Cosmos 3 Super」、数分の1秒で高品質な動画生成とアクションリーズニングが可能な「Cosmos 3 Nano」の提供を開始しており、エッジにおけるリアルタイム推論に最適な「Cosmos 3 Edge」も近日公開予定だ。

 併せて同社は、Agile Robots、Black Forest Labs、Generalist、LTXなどの主要ラボやロボティクスのリーダーとグローバルなエコシステム構想「Cosmos Coalition」を立ち上げた。メンバーはCosmos 3の技術、トレーニングツール、大規模トレーニング用のクラウドインフラを使用しながら、モデル、研究、評価手法を提供でき、業界におけるオープンな世界モデルを推進し、迅速なイノベーションと広範な相互運用性を目指す。

⇒その他の「人工知能ニュース」の記事はこちら

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る