これらの工夫により、生成の過程で3つのモーダルの異なるデータ特徴を「アテンション機構」によって直接結び付けることで、従来手法のように各モーダルの特徴を平均するだけでは得られないデータ間の複雑な関係を学習できるようになった。
性能評価に用いたOmniFlowは以下のプロセスで作成した。まず、画像生成AIである「Stable Diffusion 3」を用いて「テキスト→画像」の学習を行い、この「テキスト→画像」のモデルのテキスト処理部に音声処理を加えて「テキスト→音」の学習を行った。その後、2つのモデルのテキスト処理部のパラメーターを平均して1つのテキスト処理部として扱うことで、テキストと画像、音の3モーダルの入出力が可能なモデルを作成した。最後に、このモデルに3つのモーダルが全てそろったペアデータを使って学習することで、Any-to-Anyに対応するマルチモーダル生成AIであるOmniFlowが得られる。OmniFlowを得る最後の学習プロセスに必要となる3つのモーダルが全てそろったペアデータの量は、ここまで全ての学習プロセスに用いたデータ量の6%に抑えられている。
このOmniFlowを用いて、「テキスト→画像」と「テキスト→音」のデータ生成を行ったところ、既存のマルチモーダル生成AIだけでなく単一モーダル特化型生成AIと比べても高品質のデータを生成できた。また、学習データ量については、既存のマルチモーダル生成AIと比べると60分の1まで削減できている。
「OmniFlow」のマルチモーダルでのデータ生成性能。左側の表中の赤色の点線で示したImagesを基にUnidiff(2B)とOmniFlow(30M)の学習データ量を比較すると約60分の1になっている[クリックで拡大] 出所:パナソニックHDOmniFlowの用途としては、音声認識の現場適用向けに雑音/環境音データを生成するなど、新たな現場でのデータ収集コストを抑えてAI適用先を拡大することなどが検討されている。
パナソニックHDは、データから実装まで一貫したAI開発プロセスの高度化に取り組んでおり、これまでに学習データのアノテーションを効率化するマルチモーダル基盤モデル「HIPIE」や「SegLLM」、FastLabelとの協業で構築したアノテーションプラットフォーム、生成AIチューニング技術「Diffusion-KTO」などを開発している。これらのうちDiffusion-KTOは、OmniFlowとの組み合わせにより商品や現場数が多い領域に対するデータ生成の活用に適しているという。
なお、OmniFlowの研究開発成果は、2025年6月11〜15日に米国ナッシュビルで開催予定のAI/コンピュータビジョンのカンファレンス「CVPR 2025」に採択された。
パナソニックが画像認識マルチモーダル基盤を刷新、HIPIEからSegLLMへ
パナソニックHDがAI開発コスト10分の1へ、画像生成AIのパーソナライズをN倍効率化
AI活用の障壁であるアノテーションの自動化でパナソニックHDとFastLabelが協業
画像認識AIの現場実装作業が10分の1に、パナソニックHDが汎用基盤モデルを開発
構造改革の中、パナソニックHDがR&Dで注力する領域と凍結する領域の考え方
AIで勝つ企業へ、パナソニックグループは2035年までにAI関連売上30%を宣言Copyright © ITmedia, Inc. All Rights Reserved.
組み込み開発の記事ランキング
コーナーリンク
よく読まれている編集記者コラム