パナソニックHDがマルチモーダル生成AIで新たな成果、学習データ量を60分の1に：人工知能ニュース（2/2 ページ）

パナソニックホールディングスとパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者と共同で、テキストや画像、音などの異なるデータ形式を自由に相互変換できる“Any-to-Any手法”のマルチモーダル生成AI「OmniFlow」を開発した。

[朴尚洙，MONOist] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

生成AIチューニング技術「Diffusion-KTO」との組み合わせも

　これらの工夫により、生成の過程で3つのモーダルの異なるデータ特徴を「アテンション機構」によって直接結び付けることで、従来手法のように各モーダルの特徴を平均するだけでは得られないデータ間の複雑な関係を学習できるようになった。

従来手法に対して「アテンション機構」によってマルチモーダル入力の表現能力向上した［クリックで拡大］出所：パナソニックHD

　性能評価に用いたOmniFlowは以下のプロセスで作成した。まず、画像生成AIである「Stable Diffusion 3」を用いて「テキスト→画像」の学習を行い、この「テキスト→画像」のモデルのテキスト処理部に音声処理を加えて「テキスト→音」の学習を行った。その後、2つのモデルのテキスト処理部のパラメーターを平均して1つのテキスト処理部として扱うことで、テキストと画像、音の3モーダルの入出力が可能なモデルを作成した。最後に、このモデルに3つのモーダルが全てそろったペアデータを使って学習することで、Any-to-Anyに対応するマルチモーダル生成AIであるOmniFlowが得られる。OmniFlowを得る最後の学習プロセスに必要となる3つのモーダルが全てそろったペアデータの量は、ここまで全ての学習プロセスに用いたデータ量の6％に抑えられている。

性能評価に用いた「OmniFlow」の学習プロセス［クリックで拡大］出所：パナソニックHD

　このOmniFlowを用いて、「テキスト→画像」と「テキスト→音」のデータ生成を行ったところ、既存のマルチモーダル生成AIだけでなく単一モーダル特化型生成AIと比べても高品質のデータを生成できた。また、学習データ量については、既存のマルチモーダル生成AIと比べると60分の1まで削減できている。

「OmniFlow」のマルチモーダルでのデータ生成性能。左側の表中の赤色の点線で示したImagesを基にUnidiff（2B）とOmniFlow（30M）の学習データ量を比較すると約60分の1になっている［クリックで拡大］出所：パナソニックHD

　OmniFlowの用途としては、音声認識の現場適用向けに雑音／環境音データを生成するなど、新たな現場でのデータ収集コストを抑えてAI適用先を拡大することなどが検討されている。

「OmniFlow」の用途［クリックで拡大］出所：パナソニックHD

　パナソニックHDは、データから実装まで一貫したAI開発プロセスの高度化に取り組んでおり、これまでに学習データのアノテーションを効率化するマルチモーダル基盤モデル「HIPIE」や「SegLLM」、FastLabelとの協業で構築したアノテーションプラットフォーム、生成AIチューニング技術「Diffusion-KTO」などを開発している。これらのうちDiffusion-KTOは、OmniFlowとの組み合わせにより商品や現場数が多い領域に対するデータ生成の活用に適しているという。

「OmniFlow」は生成AIチューニング技術「Diffusion-KTO」との組み合わせでも効果を発揮する［クリックで拡大］出所：パナソニックHD

　なお、OmniFlowの研究開発成果は、2025年6月11～15日に米国ナッシュビルで開催予定のAI／コンピュータビジョンのカンファレンス「CVPR 2025」に採択された。

⇒その他の「人工知能ニュース」の記事はこちら

パナソニックHDがマルチモーダル生成AIで新たな成果、学習データ量を60分の1に：人工知能ニュース（2/2 ページ）

生成AIチューニング技術「Diffusion-KTO」との組み合わせも

関連記事

関連リンク