検索
ニュース

パナソニックHDがマルチモーダル生成AIで新たな成果、学習データ量を60分の1に人工知能ニュース(2/2 ページ)

パナソニック ホールディングスとパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者と共同で、テキストや画像、音などの異なるデータ形式を自由に相互変換できる“Any-to-Any手法”のマルチモーダル生成AI「OmniFlow」を開発した。

Share
Tweet
LINE
Hatena
前のページへ |       

生成AIチューニング技術「Diffusion-KTO」との組み合わせも

 これらの工夫により、生成の過程で3つのモーダルの異なるデータ特徴を「アテンション機構」によって直接結び付けることで、従来手法のように各モーダルの特徴を平均するだけでは得られないデータ間の複雑な関係を学習できるようになった。

従来手法に対して「アテンション機構」によってマルチモーダル入力の表現能力向上した
従来手法に対して「アテンション機構」によってマルチモーダル入力の表現能力向上した[クリックで拡大] 出所:パナソニックHD

 性能評価に用いたOmniFlowは以下のプロセスで作成した。まず、画像生成AIである「Stable Diffusion 3」を用いて「テキスト→画像」の学習を行い、この「テキスト→画像」のモデルのテキスト処理部に音声処理を加えて「テキスト→音」の学習を行った。その後、2つのモデルのテキスト処理部のパラメーターを平均して1つのテキスト処理部として扱うことで、テキストと画像、音の3モーダルの入出力が可能なモデルを作成した。最後に、このモデルに3つのモーダルが全てそろったペアデータを使って学習することで、Any-to-Anyに対応するマルチモーダル生成AIであるOmniFlowが得られる。OmniFlowを得る最後の学習プロセスに必要となる3つのモーダルが全てそろったペアデータの量は、ここまで全ての学習プロセスに用いたデータ量の6%に抑えられている。

性能評価に用いた「OmniFlow」の学習プロセス
性能評価に用いた「OmniFlow」の学習プロセス[クリックで拡大] 出所:パナソニックHD

 このOmniFlowを用いて、「テキスト→画像」と「テキスト→音」のデータ生成を行ったところ、既存のマルチモーダル生成AIだけでなく単一モーダル特化型生成AIと比べても高品質のデータを生成できた。また、学習データ量については、既存のマルチモーダル生成AIと比べると60分の1まで削減できている。

「OmniFlow」のマルチモーダルでのデータ生成性能
「OmniFlow」のマルチモーダルでのデータ生成性能。左側の表中の赤色の点線で示したImagesを基にUnidiff(2B)とOmniFlow(30M)の学習データ量を比較すると約60分の1になっている[クリックで拡大] 出所:パナソニックHD

 OmniFlowの用途としては、音声認識の現場適用向けに雑音/環境音データを生成するなど、新たな現場でのデータ収集コストを抑えてAI適用先を拡大することなどが検討されている。

「OmniFlow」の用途
「OmniFlow」の用途[クリックで拡大] 出所:パナソニックHD

 パナソニックHDは、データから実装まで一貫したAI開発プロセスの高度化に取り組んでおり、これまでに学習データのアノテーションを効率化するマルチモーダル基盤モデル「HIPIE」や「SegLLM」、FastLabelとの協業で構築したアノテーションプラットフォーム、生成AIチューニング技術「Diffusion-KTO」などを開発している。これらのうちDiffusion-KTOは、OmniFlowとの組み合わせにより商品や現場数が多い領域に対するデータ生成の活用に適しているという。

「OmniFlow」は生成AIチューニング技術「Diffusion-KTO」との組み合わせでも効果を発揮する
「OmniFlow」は生成AIチューニング技術「Diffusion-KTO」との組み合わせでも効果を発揮する[クリックで拡大] 出所:パナソニックHD

 なお、OmniFlowの研究開発成果は、2025年6月11〜15日に米国ナッシュビルで開催予定のAI/コンピュータビジョンのカンファレンス「CVPR 2025」に採択された。

⇒その他の「人工知能ニュース」の記事はこちら

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る