これらの工夫により、生成の過程で3つのモーダルの異なるデータ特徴を「アテンション機構」によって直接結び付けることで、従来手法のように各モーダルの特徴を平均するだけでは得られないデータ間の複雑な関係を学習できるようになった。
性能評価に用いたOmniFlowは以下のプロセスで作成した。まず、画像生成AIである「Stable Diffusion 3」を用いて「テキスト→画像」の学習を行い、この「テキスト→画像」のモデルのテキスト処理部に音声処理を加えて「テキスト→音」の学習を行った。その後、2つのモデルのテキスト処理部のパラメーターを平均して1つのテキスト処理部として扱うことで、テキストと画像、音の3モーダルの入出力が可能なモデルを作成した。最後に、このモデルに3つのモーダルが全てそろったペアデータを使って学習することで、Any-to-Anyに対応するマルチモーダル生成AIであるOmniFlowが得られる。OmniFlowを得る最後の学習プロセスに必要となる3つのモーダルが全てそろったペアデータの量は、ここまで全ての学習プロセスに用いたデータ量の6%に抑えられている。
このOmniFlowを用いて、「テキスト→画像」と「テキスト→音」のデータ生成を行ったところ、既存のマルチモーダル生成AIだけでなく単一モーダル特化型生成AIと比べても高品質のデータを生成できた。また、学習データ量については、既存のマルチモーダル生成AIと比べると60分の1まで削減できている。
OmniFlowの用途としては、音声認識の現場適用向けに雑音/環境音データを生成するなど、新たな現場でのデータ収集コストを抑えてAI適用先を拡大することなどが検討されている。
パナソニックHDは、データから実装まで一貫したAI開発プロセスの高度化に取り組んでおり、これまでに学習データのアノテーションを効率化するマルチモーダル基盤モデル「HIPIE」や「SegLLM」、FastLabelとの協業で構築したアノテーションプラットフォーム、生成AIチューニング技術「Diffusion-KTO」などを開発している。これらのうちDiffusion-KTOは、OmniFlowとの組み合わせにより商品や現場数が多い領域に対するデータ生成の活用に適しているという。
なお、OmniFlowの研究開発成果は、2025年6月11〜15日に米国ナッシュビルで開催予定のAI/コンピュータビジョンのカンファレンス「CVPR 2025」に採択された。
Copyright © ITmedia, Inc. All Rights Reserved.