パナソニックが画像認識マルチモーダル基盤を刷新、HIPIEからSegLLMへ:人工知能ニュース(2/2 ページ)
パナソニック ホールディングスはテキストと参照画像を用いて未学習の物体も指示できる対話型セグメンテーション技術を開発した。
パナソニック ホールディングス DX・CPS本部 デジタル・AI技術センター AIソリューション部 1課 シニアエンジニアの加藤祐介氏は「SegLLMはモデルのサイズとしてはかなり小さいので、それに合わせた適切な複雑さのテキストでなければ部分的な単語に反応したり、コンテキストを反映できなかったりする。マルチモーダルモデルはLLMと他のモデルも学習するため規模を大きくするのが難しい。学習自体が困難になる」と説明した。
一見すると既存の手法でもプロンプトを分割すれば検知精度を高められるようにみえるが、対話結果を保持できないので、長文だけでなく、対話的なやりとりでもセグメンテーション性能が低下する。開発したSegLLMは、複数ラウンドの対話であってもセグメンテーション性能が保たれるが、かなり長い対話にも対応できるというわけではない。
パナソニック ホールディングス DX・CPS本部 デジタル・AI技術センター AIソリューション部 1課課長の小塚和紀氏は「この物体の中のこれ、さらにその中にあるこれ……というように対話を繰り返すほどセグメンテーションの難易度が高まる。それはSegLLMでも同様だが、従来の手法では2ラウンド目でも壊滅的に低下するので、それに比べて改善できている」と説明する。
2025年度中に社内展開
SegLLMはまずは2025年度中に自社で活用する既存の独自アノテーションツールに導入し、パナソニックグループの各事業での複雑なシーンへの対応に活用していく。
現在導入しているアノテーションツールは、冷蔵庫の中にある野菜をAIで検知するサービスに使われている。ツールで自動化することで、対象物1点のアノテーションにかかる時間を60秒から5秒に短縮できている。今後は冷蔵庫など家電以外にも展開していくが、工場や流通の現場では検知対象が冷蔵庫の中身よりも難易度が高い。そこでSegLLMを活用する。
SegLLMのアップデートも同時並行で進める。パナソニック専用のマルチモーダルモデル「Panasonic-LLM-100b」で、SegLLMと内部のLLMを置き換えることにより、パナソニックグループの業務に最適化していく。Panasonic-LLM-100bはハルシネーションや日本語に強く、パナソニックグループの業務内容に関して回答できる。現場に合わせたモデルのカスタマイズにも対応している。置き換えによる性能向上は確認済みだ。
従来のセグメンテーションLLMとの違い
従来のセグメンテーションLLMは、入力画像に対して画像エンコーダーやコネクターを通して画像の内容をLLMで扱えるように特徴化し、変換する。テキストプロンプトは、トークナイザーによってLLMで扱える単位に分割する。セグメンテーションはこうして入力された画像とテキストを組み合わせて画像の中の領域を当てる問題を設定する。テキストと画像の関係が分かりにくくなると性能が低下してしまう。
新開発のSegLLMでは、画像プロンプトを処理するマスクエンコーダーを追加することで、最初の指示で検知した領域の画像を次のプロンプトに使えるようにした。
対話型のセグメンテーションデータはこれまで非常に規模が小さく、対話のバリエーションが少ないという課題があった。そこで、既存の対話型ではないデータセットから物体同士の位置関係や相互関係、階層的な関係を問うさまざまなバリエーションのデータセットを自動作成した。
人とモノの関係性を表したラベルや、画像の中でどこに何が映っているか位置情報を表すラベルを活用し、その中の特定の単語だけを入れ替えて会話風のデータに変換。LLMで対話の表現や文法を自然なセンテンスに修正し、対話のデータセットを自動で作成した。これにより、対話文120万、画像70万、対話長最大19の学習データセットを作成できたという。
アカデミアの分野では、新たな研究分野に資するデータの提供を高く評価する。データセットの提案により研究コミュニティーへの貢献が評価され、AI分野のトップカンファレンス「ICLR2025」に採択された。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AIで勝つ企業へ、パナソニックグループは2035年までにAI関連売上30%を宣言
パナソニック ホールディングス グループCEOの楠見雄規氏が、「CES 2025」のオープニングキーノートに登壇した。本稿では、このオープニングキーノートとパナソニックブースの展示内容を前後編に分けて紹介する。パナソニックHDがAI開発コスト10分の1へ、画像生成AIのパーソナライズをN倍効率化
パナソニック R&D カンパニー オブ アメリカとパナソニック ホールディングスは、ユーザーの「Good(いいね)」や「Bad(嫌い)」といったバイナリフィードバックで生成モデルを調整し、ユーザーの目的や好みに合わせた画像を効率よく生成できる画像生成AI「Diffusion-KTO」を開発した。松下幸之助を生成AIで再現、「怖いくらい似ている」と親族驚く
パナソニックホールディングスとPHP研究所は松下幸之助氏を再現したAIを開発した。現在も改良を重ねている。AI活用の障壁であるアノテーションの自動化でパナソニックHDとFastLabelが協業
パナソニックHDとFastLabelは、パナソニックグループのAI開発の効率化を目的とし協業を行う。AIプロセス全体の効率化とともに、パナソニックHDが開発するマルチモーダル基盤モデル「HIPIE」とFastLabelのData-Centric AIプラットフォームを統合し、自動アノテーションモデルとして構築する。パナソニック コネクトが生成AI技術を応用、画像認識学会のコンペで世界第2位に
パナソニック コネクトのAIマルチエージェントシステムが、画像認識の学会「CVPR2024」のコンペで世界第2位の評価を獲得した。3分間の動画を見て最適な回答を選ぶタスクに挑戦し、正解率71%を達成した。画像認識AIの現場実装作業が10分の1に、パナソニックHDが汎用基盤モデルを開発
パナソニックHDは、画像認識AIを現場実装する際に必要なアノテーションなどの作業負荷を大幅に削減可能な画像認識向けマルチモーダル基盤モデル「HIPIE」を開発した。