KDDI研究所の音声認識エンジンと音声合成エンジンに、人数・性別・年代推定技術を加えて統合制御。性別や年齢だけでなく、ユーザーの人数や人間関係を推定した対話が可能なシステムを新たに開発した。
KDDI研究所は音声入力やタッチパネル操作、顔画像認識などを制御し、ユーザーとディスプレイ上のキャラクターを対話させることが可能なシステムを開発したと発表した。複数ユーザーであっても、性別・年代に合わせた対話型インタフェースを提供できるという。
今回、KDDI研究所の耐雑音性に優れた音声認識エンジンと、Androidマーケットで無償配布を開始した音声合成エンジン「N2 TTS」に、タッチパネル入力や顔画像認識に基づく人数・性別・年代推定技術を加えて統合制御し、ディスプレイ上のキャラクターとユーザーとが親しみやすく対話できるシステムを開発した。
ユーザーの人数、性別、年代に合わせて対話シナリオを切り替えることが可能で、例えば、男女2人の場合は女性から優先的に問い掛けたり、推定した年齢によって問い掛けの内容や言葉遣いを変えるといったことができる。また、対話シナリオは、あらかじめ決められたあいさつなどの定型文と、ユーザーとの対話の流れから内容を把握し適切な応答を選択する動的な対話制御を組み合わせることが可能だという。
KDDIデザイニングスタジオにおいて、既に同システムを用いた子ども向け対話型アプリケーション「あてるあてる坊主」を展示している(2011年9月30日より)。今後は、双方向性のデジタルサイネージなどで早期のサービス化を目指すとともに、対話型コンテンツを自由に編集できるオーサリングツールを公開する予定だとしている。
Copyright © ITmedia, Inc. All Rights Reserved.