ニュアンス以外にも組み込み機器向けにスピーチ技術を提供しているベンダは何社も存在し、日本語に特化したソリューションもいくつかある。では、日本のモバイルアプリケーション開発者がDragon Mobile SDKを利用するメリットはあるのだろうか。
この疑問に対してMasih氏は次のように答える。「開発者にとってiOS/Androidの魅力は世界市場で勝負できること。となれば、スピーチ機能も多言語に対応していることが必須になる。その点でわれわれのスピーチ技術は優位だ。また、サーバ集中のクラウド型でサービスを運用しているため、音声認識エンジンは使われれば使われるほどが成長する。つまり、開発者は、日々成長している音声認識機能をサービスとしてエンドユーザーに提供できる」。
Dragon Mobile SDKに含まれる音声認識機能は12カ国語(米国・英国・豪州の英語、カナダ・欧州の仏語、イタリア語、独語、米国・欧州のスペイン語、日本語、韓国語、中国語)、音声合成機能に至っては35カ国語に対応する。これはエンジニアのうち150名がスピーチ技術分野で博士号を持つのに加え、IBMともグローバルに技術提携していることも好影響しているようだ。
音声データを正しく認識するためには、統計的手法により音響・言語モデルを最適化していく必要があるわけだが、それには、より多くの音声データが必要になる。組み込み型と違い、クラウド型ならば日々膨大な音声データが集まってくる。極端な話、絶えず音響・言語モデルを最適化できるわけだ。例えば、Dragon Dictationでは、ユーザーが表示テキストをタップすると、それに近い複数の認識候補が表示されるが、ユーザーがどの候補を選択したかのデータも収集し、音声認識の精度を高めるのに役立てている。
ニュアンスのスピーチ技術はこうした優位点を持つだけに、Dragon Mobile SDKの投入は、海外で大いに注目されているようだ。「リリース後3週間で1200社の開発企業がSDKを入手している」(Masih氏)という。そもそもSDKを投入する以前から、いくつかの開発企業には個別に技術供与しており、すでに市場に出回っているモバイルアプリケーションもある。例えば、Amazon、Ask.com、Merriam-Webster(オンライン辞書サイト)、iOSアプリケーションである(いずれも米国のApp Storeで提供される)。
また、“パーソナルコンシェルジェ”とも呼ぶべき「Siri Assistant」もニュアンスのスピーチ技術を採用するiOSアプリケーションの1つ。音声検索とGPS、各種の情報サービスを組み合わせ、ユーザーの問い掛けに答える。例えば、「会社の近くでイタリアンが食べられる雰囲気のいい所がいい」と自然に語り掛けると、いくつもの候補が表示される。ユーザーはメニュー価格や店内画像を参考に選び、そのまま予約を入れる……そうした使い方ができる。
実は、Siri Assistantの開発元を米アップルは2010年4月に買収している。つまり、近々にもiPhone/iPadで標準アプリケーションになる可能性が高い。そうなればスピーチ機能がスマートフォンやタブレット端末でますます一般化するだろう。
日本のモバイルアプリケーション開発者も、いまからスピーチ機能を生かした新しいアプリケーション、サービスを考えるためにも一度、ニュアンスのDragon Mobile SDKを試してみるとよいだろう。
Copyright © ITmedia, Inc. All Rights Reserved.