パナソニック ホールディングスはテキストと参照画像を用いて未学習の物体も指示できる対話型セグメンテーション技術を開発した。
パナソニック ホールディングスは2025年4月17日、テキストと参照画像を用いて未学習の物体も指示できる対話型セグメンテーション技術「SegLLM」を開発したと発表した。
パナソニックグループはさまざまな事業を手掛けており、それぞれがAI(人工知能)の活用に取り組んでいる。物体検出や領域認識などのAIを適用するには、教師データの構築やアノテーションに時間やコストがかかる。特に時間がかかるのがアノテーションだといわれる。AIの差別化のポイントでもあるが、負担が大きい。現場ごとにデータ収集やアノテーション、チューニングに取り組むので、AI活用のプロジェクトを拡大しにくいという課題も抱えている。
こうした状況を受けて、アノテーションの自動化や、チューニングも含めた効率化などに取り組んできたが、似たような外観を持つ認識対象の中から特定の物体を選び出して認識する必要があるなど、より複雑な課題も発生している。これに対応するため開発したのが、今回発表した対話型セグメンテーション技術のSegLLMだ。
SegLLMは、2023年11月に発表した独自開発のマルチモーダル基盤「HIPIE」の後継モデルとなる。
HIPIEはLLM(大規模言語モデル)の事前知識を活用して、任意のテキスト入力に応じてセグメンテーションを行うが、一問一答形式でプロンプトを入力するため、複雑な指示になると誤検知が発生し、指示をやり直さなければならないのが課題だった。
これに対し、SegLLMは対話形式で直前の指示で検出した領域を引用することができる。テキストだけでなく画像を用いた指示が可能になり、複雑な場面でもセグメンテーションしやすくなる。HIPIEでは「PCの上にある左の部品」のように修飾語が長くなると誤検知が増えてしまうが、SegLLMは「PC」をまず指示し、その後で「その(=直前に指示した「PC」)上にある左の部品」と指示することで従来よりも複雑な場面にも対応できる。
Copyright © ITmedia, Inc. All Rights Reserved.