“使えない”クルマの音声認識が“使える”ようになる日は近い:車載情報機器(2/3 ページ)
音声認識システム開発の大手・Nuance Communications(ニュアンス)がシリコンバレーで最新技術説明会を開催。車載器とクラウドの双方で音声認識処理を連携して行う「ハイブリッド」方式のデモを行った。さらに、人工知能技術の活用により、Appleの「Siri」をはるかに上回るレベルの音声認識技術も開発中だという。
人工知能の研究開発ラボを訪問
Nuance Automotive Innovation Dayの翌日、パルアルト市の南側に隣接するサニーベール市内にある「Nuance AI研究所」を訪問した。日本メディアに同所が公開されるのは、今回が初めてだ。
現在、ニュアンスでは、米国、カナダ、ドイツで、約150人がAIとNLU(自然言語理解、NLPとほぼ同義)の研究開発に携わっている。その中で、2013年に新設したサニーベール市のNuance AI研究所では、約30人のAI研究者が、中期から長期のロードマップに従って次世代型AIの研究に注力している。スタンフォード大学からインターンを受け入れるなど、学術関係者との連携も強い。
同社AI研究のディレクターであるCharles Ortiz氏によると、4つのサブグループのそれぞれにマネジャーがおり、研究をまとめているという。
そしてOrtiz氏は、「昨日のInnovation Dayで講演した通り、弊社のNLUとAIを連動したプロトタイプはSiriと比べて明らかに優れている」と強調した。
そうしたSiriを越えるための技術要因として2つの用語を使った。「Big Knowledge Repository(BKR)」と「Semantic Routing(SR)」だ。
音声認識システムにおけるプロセスは、(1)発話を文字化する(狭義での音声認識)の後、(2)その文字の意味を理解するNLUを介してデータがアウトプットされる。このデータ(またはソースコード)を基に、ニュアンスが契約している地図情報や商品評価のWebサイトなどにアクセスしてデータ解析を行うルーティングであるSRを行いながら、一元的なデータであるBKRの生成を繰り返す。
こうしたプロセスにより、「(シリコンバレーの)サンノゼ市近くで、VISAカードが使える、美味しくてリーズナブルな料金のイタリア料理レストランを、今夜、4人で予約して」という長く複雑な発話に対して、1回で最終的な候補リストを表示できる。
この例文の発話に対して、Siriが最終的な候補リストにたどりつくまで数度のステップが必要だった。
Ortiz氏は「ニュアンスでは、NLU、コラボレーティブ・ダイアログ・システム(発話者とクルマ側が上手く連携した対話システム)、そしてナレッジ・リプレゼンテーション・アンド・リーズニング(コンテンツプロバイダーなどと連携したデータの収集と解析)という、AIに関する重要な3領域の全てを連携させたAI研究をしているのが特徴。AIに関する学会では現在、こうした各種要素を連携した研究は行われていない」と言い切る。
また、今後のAI研究開発における課題については「コモンセンス(人間としての常識)をどのように取り入れるかだ」(同氏)とした。
Copyright © ITmedia, Inc. All Rights Reserved.