検索
ニュース

ドローンやロボット向けの高性能で軽量なVLMを開発、8Bと2Bの2モデルを展開人工知能ニュース

Preferred Networksは、ドローンやロボットなどの自律稼働デバイス向けに、高精度で軽量な視覚言語モデル「PLaMo-VL」を開発した。8Bモデルは日本語での画像理解や対象物の位置特定で、同規模の既存モデルの性能を上回った。

Share
Tweet
LINE
Hatena

 Preferred Networksは2026年4月3日、ドローン、ロボット、監視カメラなどの自律稼働デバイス向けに、高精度で軽量なVision-Language Model(VLM:視覚言語モデル)「PLaMo-VL」を開発したと発表した。また、同モデルのマルチモーダル基盤モデル2種について、モデルウェイトと技術情報ブログを公開した。

 2種のモデルは、同社の生成AI(人工知能)基盤モデル「PLaMo 2.1-8B」「PLaMo 2.1-2B」に画像理解能力を統合したマルチモーダル基盤モデルの「PLaMo 2.1-8B-VL」(8Bモデル)と「PLaMo 2.1-2B-VL」(2Bモデル)だ。同社のPLaMo-VLは、エッジデバイスの限られた計算資源でも動作するよう設計されており、VQA(視覚的質問応答)とVisual Grounding(対象物の位置特定)を強化することで、物理世界の状況を「どこで何が起きているか」というレベルで理解し、判断の根拠を言語で説明できる。

 8Bモデルについては、日本語VQAとVisual Groundingの両ベンチマークにおいて、同規模の既存オープンモデルを上回る性能が確認された。2Bモデルはさらに小型で手軽に試せるモデルとなっている。

 同社は、PLaMo 2.1-8B-VLを用いた実証実験において、工場での複雑な作業工程の理解や、発電プラント設備における異常検出に取り組んだ。作業タスク分類では、工具の種類と位置を特定した上で作業内容を推定し、高い精度で工程を把握できることを確認した。

キャプション
使用工具を手掛かりに、工場内の作業タスクをゼロショットで認識。PLaMo 2.1-8B-VL推論結果はエアブロー(正解)[クリックで拡大] 出所:Preferred Networks

 ドローンを用いた点検では、照明変化などの外乱に惑わされず、異常箇所をバウンディングボックスで提示することに成功した。

キャプション
正常時の参照画像(右)に対して、異常検出対象画像(左)ではタオルと工具を検出[クリックで拡大] 出所:Preferred Networks

 これらの成果は、経済産業省などが推進する生成AI開発プロジェクト「GENIAC」の第3期(2025年8月〜2026年2月)において高く評価され、GENIACモデル賞を受賞した。

 Preferred Networksは今後、産業現場の特定用途に合わせた追加学習を通じて、同基盤モデルのさらなる性能向上を図り、ロボットによる作業支援や設備点検、物流管理、交通監視など、高い安全性と運用信頼性が求められる現場でのフィジカルAIの実装を加速させる。

⇒その他の「人工知能ニュース」の記事はこちら

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る