人間の肉声に近い高品質な音声波形を高速に合成できる新手法を開発人工知能ニュース

国立情報学研究所は、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル」を開発した。人間の肉声に近い高品質な音声波形を生成できる。

» 2019年01月18日 08時00分 公開
[MONOist]

 国立情報学研究所は2018年12月25日、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル(NSF法)」を開発したと発表した。人間の肉声に近い高品質な音声波形を生成できるだけでなく、ニューラルネットワークの学習も安定して行える。同研究所コンテンツ科学研究系 准教授の山岸順一氏らの研究チームによる成果となる。

 NSF法は、深層学習によって、1960年に発表された音声生成モデル「ソースフィルター・ボコーダ法」を発展させた新たな手法となる。ニューラルネットワークをソースフィルター・ボコーダ法に導入し、人間の肉声に近い高品質な音声波形を生成する。

 ニューラルネットワークの機械学習のために必要な音声データは、1時間程度となる。簡易な構造のニューラルネットワークにより、パラメーターの調整なしに正しい予測結果を得られる。また、大規模な検証により、深層学習を駆使し、人間の肉声に近い高品質な音声波形が生成できる音声合成手法「WaveNet法」から生成された音声と同等に高品質であることが示されている。

 NSF法は、海外の有力ICT企業の特許技術とは理論が異なる。NSF法の活用によって音声合成の技術開発の進展が期待できるため、NSF法のソースコードは無償で公開するという。現在、今回の評価に使ったソースコードや学習済みのモデルなど機械学習データのサンプル、実際に合成された日本語および英語の音声データのサンプルを公開している。

Copyright © ITmedia, Inc. All Rights Reserved.