現在のVLAについて、リアルワールド 日本代表取締役のイ・フン氏は「時間的な動きを理解する『Motion Awareness』、どの製品が箱の中に入っていたのかなど過去のコンテキストを理解する『Long-term Memory』、USBソケットにプラグを正しく入れるといった接触を伴うタスクを理解する『Physical Sensing』が足りていない」と語る。
これを踏まえてリアルワールドは独自のVLM(視覚言語モデル)と、同社のコアアーキテクチャ「マルチストリーム・アクション・トランスフォーマー(Multi-Stream Action Transformer、MSAT)」で差別化を図っている。
従来のVLAモデルは視覚/言語/行動/触覚/メモリといった異なる信号を単一ストリームで処理していた。これに対しMSATは、各モダリティに独立したストリームを設け、モダリティ間のジョイントアテンションによって統合する構造を採用している。
さらに、力や触覚といった視覚では捉えられない物理信号や長期記憶についても、専用モジュール(Physics Module、Memory Module)で処理することで、単一モデルが「見て(see)/感じて(feel)/記憶し(remember)/適応する(adapt)」一連のプロセスを実現している。
リアルワールドは、SKテレコム、LG電子、CJ大韓通運、ロッテ、KDDI、ANAホールディングス、三井化学、島津製作所など、日韓の主要企業から出資を受けており、10社以上の企業とベンチマークの共同開発やPoC(概念実証)、RX(Robotics Transformation)プロジェクトを推進している。
会見では、同社がKDDIやヒューマノイドロボットスタートアップEnacticと進めている協業についても説明した。KDDIとは新商品の陳列作業の自動化に向けたデータの収集/学習やフィジカルAIに必要な計算基盤やネットワークインフラの共同実証を進めている。一方、Enacticとは同社が開発したロボットアーム「OpenArm」を駆使した物流現場での実証や、OpenArmベンチマークを活用してRLDX-1の評価手法の確立を目指す。
物理世界と相互作用する「フィジカルAI」 AWSが語るロボット制御の進化とは
ソニーのフィジカルAIが卓球の一流選手に勝利、自律システム「Ace」の研究成果
日立のフィジカルAI統合モデル「IWIM」の実力は? 試作ロボット2種を公開
川崎重工が米国にフィジカルAI社会実装拠点、注力分野は医療/介護など
三菱電機と燈が目指す暗黙知のデータ化、現場で使えるフィジカルAI
“熟練作業者の目”を再現 中堅製造業向けの状況認識AI「メニナルAI」とは何かCopyright © ITmedia, Inc. All Rights Reserved.
組み込み開発の記事ランキング
コーナーリンク