ニュース
人間の肉声に近い高品質な音声波形を高速に合成できる新手法を開発:人工知能ニュース
国立情報学研究所は、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル」を開発した。人間の肉声に近い高品質な音声波形を生成できる。
国立情報学研究所は2018年12月25日、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル(NSF法)」を開発したと発表した。人間の肉声に近い高品質な音声波形を生成できるだけでなく、ニューラルネットワークの学習も安定して行える。同研究所コンテンツ科学研究系 准教授の山岸順一氏らの研究チームによる成果となる。
NSF法は、深層学習によって、1960年に発表された音声生成モデル「ソースフィルター・ボコーダ法」を発展させた新たな手法となる。ニューラルネットワークをソースフィルター・ボコーダ法に導入し、人間の肉声に近い高品質な音声波形を生成する。
ニューラルネットワークの機械学習のために必要な音声データは、1時間程度となる。簡易な構造のニューラルネットワークにより、パラメーターの調整なしに正しい予測結果を得られる。また、大規模な検証により、深層学習を駆使し、人間の肉声に近い高品質な音声波形が生成できる音声合成手法「WaveNet法」から生成された音声と同等に高品質であることが示されている。
NSF法は、海外の有力ICT企業の特許技術とは理論が異なる。NSF法の活用によって音声合成の技術開発の進展が期待できるため、NSF法のソースコードは無償で公開するという。現在、今回の評価に使ったソースコードや学習済みのモデルなど機械学習データのサンプル、実際に合成された日本語および英語の音声データのサンプルを公開している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 古くて新しい組み込み技術「音声認識/合成」のいま
古くから研究開発されてきた音声認識/音声合成。近年この分野が大きく進化している。ESECで見た最新動向を紹介しよう - VRに燃えろ、キャラに萌えろ――VTuberって何だ?「VTuberハッカソン長野・塩尻大会」
最近、自分の周辺で「ハッカソン」という言葉を見聞きすることが多くなりました。でもまだまだ「ハッカソンってなに?どういうことをするの?」と質問されることのほうが多く、その内容が当たり前に知られているわけではありません。 - 小型IoT機器向けに、低コストで音声合成機能を実装できるミドルウェアを開発
アクエストは、日本語音声合成ミドルウェア「AquesTalk」をベースとした、省メモリで動作する日本語テキスト音声合成ミドルウェア「AquesTalk-KM(仮称)」を開発した。日本語解析処理のデータ構造や使用メモリの管理方法を改良している。 - 機械との対話が自然かつ滑らかに、ヤマハの自然応答技術を電子工作基板に搭載
スイッチサイエンスは、ヤマハが開発した自然応答技術「HEARTalk」を搭載する電子工作向け基板「HEARTalk UU-001」の販売を開始する。HEARTalkを使えば、従来は単調だった機械の応答音声が、人間にとって自然な、強さ、抑揚、間、高さで返ってくるようになるという。 - 「印象指定」でイメージ通りの音声合成、東芝が開発
東芝が年齢や性別、明るさなどの特徴を指定することで、利用イメージに即したさまざまな合成音声を生成できる「声デザイン技術」を開発した。 - 留守番電話のメッセージを文字化する、音声認識エンジンを発売
アドバンスト・メディアは、録音メッセージを文字化する留守番電話専用の音声認識エンジンを発売した。留守番電話に特化した言語モデルをディープラーニング技術によって学習させたもので、認識率が向上している。