国立情報学研究所は、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル」を開発した。人間の肉声に近い高品質な音声波形を生成できる。
国立情報学研究所は2018年12月25日、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル(NSF法)」を開発したと発表した。人間の肉声に近い高品質な音声波形を生成できるだけでなく、ニューラルネットワークの学習も安定して行える。同研究所コンテンツ科学研究系 准教授の山岸順一氏らの研究チームによる成果となる。
NSF法は、深層学習によって、1960年に発表された音声生成モデル「ソースフィルター・ボコーダ法」を発展させた新たな手法となる。ニューラルネットワークをソースフィルター・ボコーダ法に導入し、人間の肉声に近い高品質な音声波形を生成する。
ニューラルネットワークの機械学習のために必要な音声データは、1時間程度となる。簡易な構造のニューラルネットワークにより、パラメーターの調整なしに正しい予測結果を得られる。また、大規模な検証により、深層学習を駆使し、人間の肉声に近い高品質な音声波形が生成できる音声合成手法「WaveNet法」から生成された音声と同等に高品質であることが示されている。
NSF法は、海外の有力ICT企業の特許技術とは理論が異なる。NSF法の活用によって音声合成の技術開発の進展が期待できるため、NSF法のソースコードは無償で公開するという。現在、今回の評価に使ったソースコードや学習済みのモデルなど機械学習データのサンプル、実際に合成された日本語および英語の音声データのサンプルを公開している。
古くて新しい組み込み技術「音声認識/合成」のいま
VRに燃えろ、キャラに萌えろ――VTuberって何だ?「VTuberハッカソン長野・塩尻大会」
小型IoT機器向けに、低コストで音声合成機能を実装できるミドルウェアを開発
機械との対話が自然かつ滑らかに、ヤマハの自然応答技術を電子工作基板に搭載
「印象指定」でイメージ通りの音声合成、東芝が開発
留守番電話のメッセージを文字化する、音声認識エンジンを発売Copyright © ITmedia, Inc. All Rights Reserved.
組み込み開発の記事ランキング
コーナーリンク
よく読まれている編集記者コラム