Preferred Networksは、自律稼働デバイス向けに軽量な大規模視覚言語モデル(VLM)「PLaMo 2.1-8B-VL」を開発した。言語情報と視覚情報を高度に統合して処理できるため、高度な画像理解が可能だ。
Preferred Networks(PFN)は2025年12月16日、自律稼働デバイス向けに軽量な大規模視覚言語モデル(VLM)「PLaMo 2.1-8B-VL」を開発したと発表した。
PLaMo 2.1-8B-VLは、80億パラメーターの軽量モデルでありながら、言語情報と視覚情報を高度に統合して処理できる。また、特定の作業タスクの分析や、画像認識を通じて異常を検知するといった複雑な判断を、デバイス単体で完結できる。従来のクラウド型AI(人工知能)では困難だった、低遅延が求められるロボットや自律移動体などのエッジ環境での運用を想定している。
PLaMo 2.1-8B-VLの開発に当たっては、大規模言語モデル「PLaMo 2.0-31B」をプルーニングと蒸留で軽量化した「PLaMo 2.1-8B」をベースモデルとして使用している。
PLaMo 2.1-8B-VLは、位置関係の把握や属性認識、複合的な説明文の理解といった、基本性能を評価するベンチマークで高い性能を示した。
例えば、VQA(Visual Question Answering)ベンチマーク「JA-VG-VQA-500」では、「前方」という位置表現から、該当の場所にある物を特定できた。
テキストが示す人物や物体を画像から正確に特定する能力を評価する、Visual Groundingベンチマーク「Ref-L4」でも、位置関係を正しく理解し、指示通りに座標を出力できた。
Visual Groundingベンチマークの例(位置関係理解)。犬の視線など複数の手掛かりから対象となる犬を特定[クリックで拡大] 出所:[写真]lasta29「Search and rescue dog, Japan Rescue Association」、[出典]Wikimedia Commons、[URL]https://commons.wikimedia.org/wiki/File:Search_and_rescue_dog,_Japan_Rescue_Association_(34690315563).jpg、[ライセンス]Creative Commons Attribution 2.0 Generic(CC BY 2.0、https://creativecommons.org/licenses/by/2.0/)、本記事に掲載するに当たりバウンディングボックス(緑枠)を追加している今回の軽量視覚言語モデルの開発により、同社は物理的な世界で動作するフィジカルAIの実装をさらに加速させ、製造業やインフラ点検などの領域における自動化、省人化のニーズに応える。
なお、同社は実際の現場データによる技術検証や用途の具体化、社会実装に向けたフィードバックの取得を目的に、PLaMo 2.1-8B-VLのモニター企業を募集している。クラウドAPI経由で同モデルを2026年3月末まで無償提供し、技術検証の結果を性能向上や用途ごとのアプリケーション開発に生かす。
ロボットに生成AIを適用すると何ができるのか、課題は何なのか
PFNの次世代MN-CoreをRapidusが製造、さくらインターネットと国産AIインフラ構築
ソニー・ホンダはVLMを用いたE2E方式のレベル4自動運転へ、車内を自由空間に
NVIDIAがフィジカルAIのオープン展開を加速、自動運転向けで「Alpamayo」を公開
パナソニックHDが画像生成AIの効率を5倍に、一人称視点映像からの未来予測も
NVIDIAがロボットシミュレーション用物理モデル「Newton」のβ版を公開Copyright © ITmedia, Inc. All Rights Reserved.
組み込み開発の記事ランキング
コーナーリンク