検索
特集

古くて新しい組み込み技術「音声認識/合成」のいま組み込みイベントレポート(2/2 ページ)

古くから研究開発されてきた音声認識/音声合成。近年この分野が大きく進化している。ESECで見た最新動向を紹介しよう

PC用表示 関連情報
Share
Tweet
LINE
Hatena
前のページへ |       

音声合成を組み込みパーツ化――アクト・ブレイン

 人間並みの認識力や発声の実現に各社が尽力する中、逆の発想で音声合成を徹底的にシンプルにした提案を行っていたのがアクト・ブレイン。ブースでは、かな入力テキストの音声データ変換機能を1チップで実現する音声合成LSI「MICRO TALK」を紹介していた。

 音声合成の用途によっては、“人間らしさ”がさほど必要としないケースも少なくない。「PCの高性能化や音声データベース解析などで得られた“人間並みの美しい発声”よりも、“部品の1つ”として安価で手軽に組み込みたいというニーズに応えたのがMICRO TALK」(同社)。

 シリアルインターフェイスを介して転送された音声記号列データを、わずか14×14mmというチップサイズのMICRO TALKが直接音声データに変換。PCを使わないのはもちろん音声データのROM化も不要で、1チップ当たり2400円(サンプル価格)と安価なのも特徴だ。低コストでしかもコンパクトに、音声合成機能をさまざまな機器へ組み込みこめるという。

音声合成LSI「MICRO TALK」アンプ回路やUSB I/F、EEPROMを搭載した評価用キット 音声合成LSI「MICRO TALK」(左) アンプ回路やUSB I/F、EEPROMを搭載した評価用キット(右)

 実際にMICRO TALKによる音声合成を聴いてみた。ロボットボイス的ではあるものの、発声で重要な「分節の区切り」は“/”、「イントネーション」は“・”をテキスト内に仕込むことで対応できるので、意外と聞き取りやすい音声を生み出している。

 「数値の読み上げが得意なので、計測器に組み込めば刻々と変化する測定値を音声で確認しながら作業することができる。外部メモリにEEPROMを使えるので、固定メッセージの記録・再生も可能。火災警報器に組み込めば、建物ごとに警報メッセージを変えることができる商品にもなる」(同社)。

関連リンク:
アクト・ブレイン

Android端末でも音声認識――旭化成

 音声認識/音声合成技術の世界でパイオニア的存在なのが旭化成。同社の音声ソリューションビジネス推進部で開発された音声認識/音声合成の各種ミドルウェアは、カーナビや携帯電話、ロボットなど、数多くの製品に採用されている。

 その同社が1998年にリリースした音声認識ミドルウェアが「VORERO」だ。最新バージョンはVer.9になるなど、10年以上もバージョンアップを繰り返しているロングセラーで、ARMやSHシリーズなどの組み込み向けからWindowsPC用まで、実にさまざまなプラットフォームに対応している。三菱重工業のロボット「wakamaru(ワカマル)」やビジネスデザイン研究所の会話ロボット「ifbot(イフボット)」、最近では日産自動車のカーナビなどにもこのVOREROが使われているという。

 今回のESEC会場では、このVOREROを話題のAndroidに対応させたデモンストレーションを実施。音声による地名入力に対応したGoogleマップや、表示された色の名前を音声で答えるゲームなど、VORERO活用アプリをAndroidケータイに組み込んで紹介していた。

VORERO活用アプリをAndroidケータイに組み込んだ事例(1)VORERO活用アプリをAndroidケータイに組み込んだ事例(2) VORERO活用アプリをAndroidケータイに組み込んだ事例

 「これまでVOREROは、μ-iTRONやWindowsCE、VxWorks、Embedded-LinuxなどさまざまなOSに対応してきたが、『Androidでも使いたい』という声に応えた。音声認識にはサーバを使わず、すべて組み込み上で処理している。Android向けのVORERO開発キットは2009年内にリリースする予定」(同社)。

 今回はAndroidケータイ上でデモを行っていたが、Androidも今後はさまざまな組み込み機器への利用が見込まれている。ネットワークを使わずにスタンドアロンで音声認識が行えるVOREROの活躍の場も広がりそうだ。




 PC処理能力の向上とネットワークの高速化、ストレージ大容量化などにより、認識/合成処理の際に膨大な音声データを参照できるようになったのが、音声認識/音声合成技術が近年進化している理由。だがそれ以外にも、高機能化する携帯電話の新たなインターフェイスとして、音声認識技術が注目されている点も興味深い。

 今回のESEC取材で、あるブース担当者が「なんでも音声認識/音声合成にすると便利になる、というのは過信」と語っていたのが印象に残った。「キーボードから音声入力へ」「モニタ表示から音声案内へ」など、従来型インターフェイスの置き換えもいいが、なにげない会話から新しいサービスを生み出すなど“置換”から“創造”へのブレークスルーが今後求められるのかもしれない。

前のページへ |       

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る