パナソニックグループはさまざまな事業を手掛けており、それぞれがAI（人工知能）の活用に取り組んでいる。物体検出や領域認識などのAIを適用するには、教師データの構築やアノテーションに時間やコストがかかる。特に時間がかかるのがアノテーションだといわれる。AIの差別化のポイントでもあるが、負担が大きい。現場ごとにデータ収集やアノテーション、チューニングに取り組むので、AI活用のプロジェクトを拡大しにくいという課題も抱えている。

物体を検出するAIの開発イメージ［クリックで拡大］出所：パナソニックホールディングス

現場ごとにAIに必要なデータを構築してアノテーションするのは負担が大きい［クリックで拡大］出所：パナソニックホールディングス

　こうした状況を受けて、アノテーションの自動化や、チューニングも含めた効率化などに取り組んできたが、似たような外観を持つ認識対象の中から特定の物体を選び出して認識する必要があるなど、より複雑な課題も発生している。これに対応するため開発したのが、今回発表した対話型セグメンテーション技術のSegLLMだ。

これまでにもアノテーションやチューニングの効率化を進めてきた［クリックで拡大］出所：パナソニックホールディングス

直前の対話結果を踏まえる

　SegLLMは、2023年11月に発表した独自開発のマルチモーダル基盤「HIPIE」の後継モデルとなる。

　HIPIEはLLM（大規模言語モデル）の事前知識を活用して、任意のテキスト入力に応じてセグメンテーションを行うが、一問一答形式でプロンプトを入力するため、複雑な指示になると誤検知が発生し、指示をやり直さなければならないのが課題だった。

複雑なシーンのアノテーションを効率化するのが課題に［クリックで拡大］出所：パナソニックホールディングス

　これに対し、SegLLMは対話形式で直前の指示で検出した領域を引用することができる。テキストだけでなく画像を用いた指示が可能になり、複雑な場面でもセグメンテーションしやすくなる。HIPIEでは「PCの上にある左の部品」のように修飾語が長くなると誤検知が増えてしまうが、SegLLMは「PC」をまず指示し、その後で「その（＝直前に指示した「PC」）上にある左の部品」と指示することで従来よりも複雑な場面にも対応できる。