検索
ニュース

画像認識AIの現場実装作業が10分の1に、パナソニックHDが汎用基盤モデルを開発人工知能ニュース(2/2 ページ)

パナソニックHDは、画像認識AIを現場実装する際に必要なアノテーションなどの作業負荷を大幅に削減可能な画像認識向けマルチモーダル基盤モデル「HIPIE」を開発した。

Share
Tweet
LINE
Hatena
前のページへ |       

構造上の特徴はマルチモーダルでマルチタスク

 従来型の画像認識AIモデルは、入力画像を特徴量に変換するエンコーダーと特徴量を認識結果に変換するデコーダーの組み合わせになっている。また、認識対象は学習データを決めた時点で固定されており、推論の段階ではAIモデルが学習していない物体は学習データの種類で無理やり答えてしまう。

従来型の画像認識AIモデルの構成従来型の画像認識AIモデルの学習/実行フェーズ 従来型の画像認識AIモデルの構成(左)と学習/実行フェーズ(右)[クリックで拡大] 出所:パナソニックHD

 これに対してHIPIEは、LLMの一つであるBERTベースの言語AIとトランスフォーマーモデルで構築した画像AIという2つのエンコーダーを持つとともに、物体検出やセグメンテーションなどの複数の認識タスクに対応したデコーダーも有している。つまり、言語AIと画像AIによるマルチモーダル、複数デコーダーによるマルチタスクが構造上の特徴になっている。

「HIPIE」の構造
「HIPIE」の構造[クリックで拡大] 出所:パナソニックHD

 HIPIEでは、BERTに基づく言語AIの特徴量と画像AIの特徴量を近づける学習を行っており、言語AIと画像AIの特徴量が対応するような仕組みになっている。未知の対象を認識する場合には、認識対象に関するテキストプロンプト入力から得られた言語AIの特徴量を参照して画像AIの特徴量とマッチングさせることで、未知の画像であっても再学習せずに認識できるようになっているという。

「HIPIE」における学習「HIPIE」における未知の対象を認識するプロセス 「HIPIE」における学習(左)と未知の対象を認識するプロセス(右)[クリックで拡大] 出所:パナソニックHD

 複数タスクへの対応でも8種類のタスクで高い認識性能を確認しており、これまでの最高性能(SOTA:State-of-the-Art)を上回る結果が得られている。

「HIPIE」は8種類の画像認識タスクで高い認識性能を確認している
「HIPIE」は8種類の画像認識タスクで高い認識性能を確認している[クリックで拡大] 出所:パナソニックHD

UCバークレーとの連携による研究成果

 今回のHIPIEの研究開発は、2021年度からパナソニック本体の研究開発部門で進めてきた、海外トップ大学や海外研究拠点との「バーチャルラボ体制」に基づくもので、UCバークレー傘下で世界トップクラスのAI研究機関であるBAIR(Berkley AI Research)と連携している。パナソニックHD テクノロジー本部 デジタル・AI技術センター AIソリューション部 1課 課長の小塚和紀氏は「バーチャルラボ体制から公表する開発成果としては2件目になる。この体制では、新たな研究成果も早々に陳腐化してしまうAI技術を早期に実用化するために、事業会社も加わっていることが特徴になっている」と強調する。

「HIPIE」はバーチャルラボ体制によって開発された
「HIPIE」はバーチャルラボ体制によって開発された[クリックで拡大] 出所:パナソニックHD

 なお、HIPIEの開発成果は、AI/機械学習技術の国際カンファレンスである「37th Conference on Neural Information Processing Systems (NeurIPS 2023)」(2023年12月10〜16日、米国ニューオリンズ)に採択された。論文の著者は、UCバークレーの3人と、パナソニックHDの米国研究開発拠点であるPanasonic R&D Company of America(PRDCA)の1人、そして小塚氏と加藤氏の連名となっている。

会見に登壇したパナソニックHD テクノロジー本部の加藤祐介氏(左)と小塚和紀氏(右)
会見に登壇したパナソニックHD テクノロジー本部の加藤祐介氏(左)と小塚和紀氏(右)[クリックで拡大] 出所:パナソニックHD

⇒その他の「人工知能ニュース」の記事はこちら

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る