音声認識に視線や感情、眠気検知を組み合わせ、より柔軟なエージェントに:CES2019
Nuance Communications(ニュアンス)は、消費者向けエレクトロニクス展示会「CES 2019」(2019年1月8〜11日、米国ネバダ州ラスベガス)において、カメラによる視線検知と音声認識技術を組み合わせた開発中の新機能を披露した。開発技術は、POI(Point of Interest)検索やストリーミングサービス、リアルタイムな情報を得る場合にはクラウド連携が必要だが、それ以外については車載情報機器側で処理が終えられるという。
Nuance Communications(ニュアンス)は、消費者向けエレクトロニクス展示会「CES 2019」(2019年1月8〜11日、米国ネバダ州ラスベガス)において、カメラによる視線検知と音声認識技術を組み合わせた開発中の新機能を披露した。
開発技術は、POI(Point of Interest)検索やストリーミングサービス、リアルタイムな情報を得る場合にはクラウド連携が必要だが、それ以外については車載情報機器側で処理が終えられるという。
2台の車両を用いて開発技術のデモンストレーションを実施した。1台は「OK, Google」「Hey, Siri」のような音声認識機能を起動するためのコマンドの発声が不要でありながら、発話の中からクルマに関する指示を検出して操作を実行するというものだ。ドライバーが右側を見ながら「ドアを閉めて」「窓を開けて」と言うだけで、右側のドアや窓が操作対象であると認識し、その通りに操作する。地図表示の拡大や縮小も「ズームイン」「ズームアウト」と声をかけるだけで操作を行う。
また、自動運転中にフロントガラスの広い範囲に情報が投影されることが前提になる機能も実演した。例えば、ドライバーが運転中に特定の建物を見ながら「あれは何?」というと、ドライバーが見ている建物の名称を読み上げる。なお、この機能の日本語版を開発するにあたっては、都心のような建物が密集した地域でも有効か検証を進めるという。
この他、車載情報機器を手で操作する代わりに、フロントガラスに投影されたアイコンから必要な操作を視線で選択するデモも行った。例えば、ドライバーが「レベッカに電話して」と言うと、登録されている連絡先の中からファミリーネームの違う2人のレベッカのどちらに連絡するか、そのレベッカのどの電話番号に電話するかについて、ドライバーは手を動かすことなく、目を向けるだけで操作を完了できる。
1台目の車両で実施した以上のデモのうち、製品化が早いのはドアや窓の開閉、車載情報機器の操作などクルマの中に関する部分だとしている。音声認識機能の起動コマンドを不要にする技術については、量産モデルで近々採用される予定だという。デモ車両のウィンドウシールドディスプレイは、Saint-Gobain Sekurit(サンゴバンセキュリット)が開発した。
ドライバーの状態に合わせて音声認識機能が応対
2台目のデモ車両にはドライバーの感情や眠気を検知する技術を搭載した。音声認識機能は、検知したドライバーの状態に合わせて、話し方を変えたり休憩を勧めたりする。このデモに使用したドライバーモニタリング技術は、マサチューセッツ工科大学からスピンオフしたスタートアップ企業のAffectiva(アフェクティバ)が開発したものだ。
ニュアンスの2台目デモ車両では、車内に設置したカメラが、ドライバーが目をつむっているのを検知すると、初めは電子音で注意を促した。ドライバーがその後も何度か目をつむると、「眠そうですね」などと音声認識機能が声をかけ、「休憩できるガソリンスタンドを探しましょうか」と提案する。これにより、疲労などによる事故を未然に防ぐ。
この他にも、ドライバーが楽しそうにしていると声のトーンから感情を判断して音声認識機能が反応を変えたり、警告灯の表示内容について尋ねると音声認識機能がタイヤ空気圧の異常であることを答えたりする様子を実演した。
アフェクティバのドライバーモニタリング技術は、表情、頬や眉の動き、声のトーンなどを基にしている。顔認識では「喜び」「驚き」「怒り」に加えて、プラスとマイナスのどちらの感情を示す表情であるかを検出する。顔が真横を向いている場合や、上下45〜60度の範囲で傾いている場合でも顔を認識して感情を推定できる。眠気の検知に関しては首やあごの傾き方、口と目の開き方、あくびの有無などを基にする。これらはさまざまな国や地域の700万人以上の顔情報がベースとなっている。
アフェクティバはニュアンスとは別会場でデモを実施した。感情と眠気を検出するデモでは、Raspberry PiやNVIDIAのボードを用い、処理性能の異なるボードで共通の機能を実現できることを紹介。上級車種から普及モデルまで、さまざまなモデルにドライバーモニタリング機能を搭載できるとしている。
さまざまな音声のデータから、どのような状態で発した声なのかを識別するデモも実施した。デモでは、怒鳴り声と応援のエールを送る興奮した大声を聞き分けたり、赤ちゃんの声から笑っていることを認識したりした。これは、声のトーンや発声のピッチを基にしており、言語には依存していない。文化の違いから、アジア、欧州、米国など地域ごとの認識モデルに分かれる。
アフェクティバには、2〜3年前から自動車関係からの引き合いが増えたという。2019年のCESでも、ニュアンス以外に、アイシングループや起亜自動車がアフェクティバの技術を使ったデモを実施した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- クルマの操作に関する音声認識は自前で、だからこそ「ハーイ、メルセデス」
メルセデス・ベンツ日本は2018年10月18日、東京都内で会見を開き、コンパクトカー「Aクラス」の新モデルを発表した。音声認識機能を充実させた新開発のインフォテインメントシステム「MBUX(メルセデスベンツユーザーエクスペリエンス)」を初めて採用したモデルとなる。 - “使えない”クルマの音声認識が“使える”ようになる日は近い
音声認識システム開発の大手・Nuance Communications(ニュアンス)がシリコンバレーで最新技術説明会を開催。車載器とクラウドの双方で音声認識処理を連携して行う「ハイブリッド」方式のデモを行った。さらに、人工知能技術の活用により、Appleの「Siri」をはるかに上回るレベルの音声認識技術も開発中だという。 - 車載情報機器のスマホ連携基盤にニュアンス参戦、マツダ提携の米ベンチャーと
音声認識エンジンを手掛けるNuance Communications(ニュアンス)と米国ベンチャーで車載情報機器のソフトウェアプラットフォームを展開するOpenCar(オープンカー)が提携。常時通信接続を行うコネクテッドカーで重要な役割を担う、車載情報機器のスマートフォン連携プラットフォームの事業展開を加速させる。 - BMW純正の音声入力機能、スマートフォンの音声エージェントと何が違う?
今後の音声入力機能はどのような処理が主流になるのか。「新車装着用の音声入力は組み込みとクラウドの併用だ」とNuance Communicationsは見込んでいる。 - トヨタのカーナビからLINEを送れる、オープンソースのSDL対応カーナビを日本投入
トヨタ自動車とLINEは2018年10月15日、千葉市内で記者説明会を開き、LINEの各種サービスに対応したディーラー装着用車載情報機器(カーナビ)を同年12月から日本で発売すると発表した。ライン装着用では2019年夏以降、一部改良などの機会にさまざまな車種でSDL対応カーナビを設定する。 - 「OK Google、クルマのエンジンをかけて」、三菱自が2018年からスタート
三菱自動車は「第45回東京モーターショー 2017」において、スマートスピーカーの「Amazon Echo」や「Google Home」を通じてエンジンの始動やエアコンの設定、ドアの解錠・施錠を行う様子を紹介した。スマートスピーカーの普及が先行している北米で、2018年から同様のサービスを提供する。 - ルノー日産三菱がAndroid採用、「Googleの技術はクルマと人がやりとりする手段」
ルノー・日産自動車・三菱自動車のアライアンスとGoogleは2018年9月18日、複数年にわたる技術提携契約を結んだと発表した。アライアンスの3社はAndroidをOSに採用した次世代インフォテインメントシステムを2021年から搭載する。 - 車載Linux「AGL」が音声認識と車両クラウド間接続にフォーカス
車載システム向けLinuxの共同開発プロジェクトAutomotive Grade Linuxは、音声認識にフォーカスしたSpeech EGと、車両クラウド間接続にフォーカスしたV2C EGという2つのエキスパートグループを発足した。 - 「あそこで曲がって」、乗員の指示に従って走る自動運転車
アイシン精機と名古屋大学、徳島大学は2018年10月25日、音声や視線、ジェスチャーで操作する自動運転車を開発したと発表した。