パナソニック R&D カンパニー オブ アメリカとパナソニック ホールディングスは、ユーザーの「Good(いいね)」や「Bad(嫌い)」といったバイナリフィードバックで生成モデルを調整し、ユーザーの目的や好みに合わせた画像を効率よく生成できる画像生成AI「Diffusion-KTO」を開発した。
パナソニック R&D カンパニー オブ アメリカとパナソニック ホールディングス(パナソニックHD)は2024年12月2日、カリフォルニア大学などの研究者と共同で、ユーザーの「Good(いいね)」や「Bad(嫌い)」といったバイナリフィードバックで生成モデルを調整し、ユーザーの目的や好みに合わせた画像を効率よく生成できる画像生成AI(人工知能)「Diffusion-KTO(Knowledge Transfer Optimization)」を開発したと発表した。AIモデルの開発では、学習データの収集が困難な現場や製品が多くあるが、Diffusion-KTOを活用すればAIモデルの開発に最適な画像を従来より手間をかけずに生成することが可能になる。
これまでパナソニックHDは、AIモデルの開発プロセスにおいて、アノテーションを自動化する「HIPIE」や、アノテーション/チューニングの効率化を目指すFastLabelとの協業などの取り組みを進めてきた。HIPIEは既に全社展開済みで、FastLabelとの協業は2024年度内をめどに展開する計画。さらに、今回のDiffusion-KTOを2025年度内に展開し、これらの取り組み全体により、AI開発プロセス全体でかかるコストを10分の1に削減することを目指す。
画像生成AIをユーザーの好みに合わせてパーソナライズする際には、生成された画像にユーザーの好みに関する情報を入力する「選好学習(DPO:Direct Preference Optimization)」が用いられている。この選好学習は、LLM(大規模言語モデル)のアライメント分野で提案された手法であり、2つのデータを直接比較して順位付けを行う必要がある。画像生成AIの選好学習では、2枚の画像を直接比較して順位付けを行うが、N枚の画像それぞれに対してペアを作る必要があるため最悪N2のオーダーで手間が増えることが課題になっていた。
新たに開発したDiffusion-KTOは、1枚の画像に対して「いいね」や「嫌い」というラベルを付与するだけで済むので、N枚の画像に対してはラベルをN回分付与する手間しかかからない。このため、従来の選好学習と比べて画像生成AIのパーソナライズの手間を最大でN倍短縮できることになる。
なお、Diffusion-KTOは、拡散プロセスに基づいた生成モデル(拡散モデル)を採用する「Stable Diffusion v1-5」がベースになっている。拡散モデルは、元画像データに徐々にノイズを付加する「拡散プロセス」と、拡散プロセスを逆にたどりつつ徐々にノイズを除去して新たな画像データを生成する「逆拡散プロセス」から構成される。Diffusion-KTOは、「いいね」のラべルを付与した画像データについては、逆拡散プロセスにおいて元の画像データに近づくようにノイズ除去を行う。一方、「嫌い」のラべルを付与した画像データについては、逆拡散プロセスにおいて元の画像データから離れるようにノイズ除去を行っている。
Copyright © ITmedia, Inc. All Rights Reserved.