古くから研究開発されてきた音声認識/音声合成。近年この分野が大きく進化している。ESECで見た最新動向を紹介しよう
マイクなどを通して入力した人の声をコンピュータで解析して認識したり、テキストデータをコンピュータにしゃべらせたり……。
音声認識/音声合成は、コンピュータの可能性を具現化する好例として、古くから研究開発が行われてきた。それだけに“目新しさ”という印象は薄いが、組み込み技術の発達によって、近年この分野が大きく進化しているという。
本稿では、2009年5月13〜15日の3日間、東京ビッグサイトで開催された「第12回 組込みシステム開発技術展(ESEC2009)」のレポートとして、今年のESECから新設された「音声認識・音声合成ゾーン」にフォーカス。そこでの展示内容を紹介しながら、この“古くて新しい組み込み技術”の最新動向をお伝えする。
「何かごよう?」「人数を言ってね!」
ESECの会場にあまりそぐわない、かわいらしい“アニメボイス”が響いていたのが、ATR-Trekのブース。携帯電話向け音声認識・音声合成の技術を応用した対話型ユーザーインターフェイス「ホームコンシェルジュ」のデモンストレーションを行っていた。
モニタ画面に映し出された(なぜかメイド服の)キャラクターに向かってしゃべりかけることで、難しい操作方法をユーザーが知らなくても、自然な会話をもとに機器の操作を誘導するのがこのホームコンシェルジュの特徴。ブースでは航空機のチケット予約を音声だけで行える事例を紹介していた。
「音声認識・音声合成を用いることで、機器の操作も直感的で楽しい“対話”へと変わる。コンシェルジュに女性キャラクターを立てたのも、より自然な対話を促すため。え? なんでメイド服なのかって? それも自然な対話のためで……」(同社)。このあたりは担当者の趣味嗜(し)好が反映されたようだ。
特筆したいのは、音声認識の精度。来場者でごったがえすESECの会場内は雑音があふれており、音声認識システムにとってはかなり過酷な条件といえる。その中で、ユーザーが発した音声を的確に認識し、あたかも有人オペレーター相手に電話でチケット予約するようにテンポよく発券までの手続きが行えた。また、その対話のやりとりも「前の方でできれば通路側の席がいいんだけど。あ、でも真ん中の列はいやだな」という自然な会話を認識して答えてくれる。
「対話に必要な3つの要素(耳=音声認識、脳=対話制御アルゴリズム、口=音声合成)を1システムにまとめている。病院の予約やケータリングサービスの注文、券売機、無人受付機、ロボットなどに応用できるだろう」(同社)。
関連リンク: | |
---|---|
⇒ | ATR-Trek |
富士通のベンチャー第1号企業として1994年に設立したアニモは、音や音声をキーテクノロジーにしたソフト開発を行っている。ESECの同社ブースでは、音声合成ソフト「FineSpeech2」や音声認証や話者識別を行う「VoicePassport」など同社の代表的な音声認識/音声合成ソリューションが紹介されていたほか、参考出展として開発中の音声認識技術「KeywordFinder」の紹介も行われていた。
KeywordFinderは、自然な発話の中の決められた単語やフレーズを認識して抽出(キーワードスポッティング)する技術。例えば自動車の運転中に「帰りは横浜のレストランに寄ろう。ステーキがいいな〜」と会話をしたとき、KeywordFinderがその会話から「横浜」「レストラン」「ステーキ」という単語を抽出してカーナビの検索ワードとして入力。カーナビ画面に該当する店舗情報を表示するといった便利なシステムも構築できるという。
「KeywordFinderは、従来のコマンド入力のほかに、話題の抽出など音声認識の用途を広げる。会話全部を認識するわけではないので、低処理量でメモリ消費も少なくて済むため組み込み向けといえる。カーナビのほか、ロボットやデジタルサイネージなどにも応用できるだろう」(同社)。
関連リンク: | |
---|---|
⇒ | アニモ |
Copyright © ITmedia, Inc. All Rights Reserved.