パナソニックHDが画像生成AIの効率を5倍に、一人称視点映像からの未来予測も:人工知能ニュース(1/2 ページ)
パナソニックHDが画像生成AI技術の新たな成果を発表。推論時にAIが自らの生成結果を振り返って改善する「Reflect-Dit」と、一人称視点の映像や頭部軌道から現在の動作推定や未来の動作予測を可能にする「UniEgoMotion」の2つである。
パナソニック ホールディングス(パナソニックHD)は2025年10月17日、画像生成AI(人工知能)技術の新たな成果を発表した。推論時にAIが自らの生成結果を振り返って改善する「Reflect-Dit」と、一人称視点の映像や頭部軌道から現在の動作推定や未来の動作予測を可能にする「UniEgoMotion」の2つで、両技術ともAIとコンピュータビジョンの国際会議「ICCV(IEEE/CVF International Conference on Computer Vision) 2025」に採択された。
画像生成AIの改善効率を向上する「Reflect-Dit」
画像生成AIは大規模データ、大規模モデルによる学習により性能を高めてきたが、膨大な計算資源や学習時間が必要になり開発の負担が大きい問題を抱えている。LLM(大規模言語モデル)は、推論時に追加の計算を行って生成結果を自動で改善する技術により、計算資源や学習時間を削減する取り組みが進み始めている。一方、画像生成AIと関わりの深い、画像と言語の両方を取り扱うマルチモーダルモデルの分野では、LLMのような推論時の改善技術は発展途上であり、既存研究では画像生成AIが自らの生成結果を振り返る仕組みが存在しない。このため、数千枚に上るような大量の画像を生成し、その中から最も良い画像を選定する「Best-of-N」という方法が主流になっているが、効率に課題があった。
今回、パナソニックHDとパナソニックR&Dカンパニー オブ アメリカ(PRDCA)、UCLA(カリフォルニア大学ロサンゼルス校)の研究者らが共同開発したReflect-Ditでは、画像生成AIの入力部分にフィードバック内容を処理するネットワーク(フィードバック処理部)を新たに追加した。フィードバック処理部では、生成された画像と元のテキストプロンプトをVLM(視覚言語モデル)が見比べることで見いだした改善点をフィードバック内容としてテキストで記述し、生成された画像とのペアで出力する。このペアを画像生成AIに入力することでAIが自らの生成結果を振り返り、次の新たな画像の生成に生かす自動改善のループを実現した。
Reflect-Ditのフィードバック処理部の開発では、1つのプロンプトに対して画像を20枚生成し、各生成画像の改善点となるフィードバックをGPTで生成することにより、フィードバック+正答を1組のデータとして約8万組のデータを作成して学習を行った。
Reflect-Ditとフィードバック処理部を持たない既存のBest-of-Nの手法について、指定された物体の個数(Count.)、属性(Att.)、位置(Pos.)などの観点で生成画像の品質を評価したところ、全ての項目でReflect-Ditがより高い性能を示していることが確認されたという。また、同じ品質の画像を生成するのに必要な画像生成の回数でも、Reflect-Ditは既存手法に比べて約5分の1で済んだとしている。これは画像生成AIの生成効率が5倍になったことを意味する。
なお、パナソニックグループが手掛ける事業へのReflect-Ditの適用例としては、住宅事業における顧客提案の際の住宅レイアウト/照明デザインカタログの作成が挙げられる。営業担当者は手元のPCで簡単にカタログを編集できるので業務を効率化できるという。
Copyright © ITmedia, Inc. All Rights Reserved.