「印象指定」でイメージ通りの音声合成、東芝が開発

東芝が年齢や性別、明るさなどの特徴を指定することで、利用イメージに即したさまざまな合成音声を生成できる「声デザイン技術」を開発した。

» 2016年03月09日 09時54分 公開
[渡邊宏MONOist]

 東芝は2016年3月8日、年齢や性別、明るさなどの特徴を指定することで利用イメージに即したさまざまな声を生成できる「声デザイン技術」を開発したと発表した。音声広告やコミュニケーションロボット、カーナビゲーションシステムの音声ガイダンスなどの用途に向けての利用が期待され、まずは2016年度中に同社クラウド「RECAIUS」への搭載を目指す。

東芝「声デザイン技術」

 合成音声はナビゲーションや広告、ロボットのコミュニケーション手段など、さまざまな用途に使われているが、サンプルから選択する場合は選択肢が限られ、また、多数のサンプルがある場合でも、意図する特徴の声を選択するためには手間がかかっていた。

「知覚語空間モデル」 「知覚語空間モデル」

 同社の開発した「声デザイン技術」では、声を年齢や性別、明るさなど知覚できる特徴ごとに分解・モデル化した「知覚語空間モデル」を開発。モデルによって生成される“平均的な声”をもとに、知覚できるパラメーターを変化させることで、目的に合った声を作り出す。

 同社では本技術を操作するGUIも試作した。操作画面上で「かわいい」「丁寧」「知的」といった声の印象を表す言葉を選び、そこに「性別」「年齢」「明るさ」といった要素を加味することで、求めるイメージに近い声を生成できる。

Copyright © ITmedia, Inc. All Rights Reserved.