音声認識に視線や感情、眠気検知を組み合わせ、より柔軟なエージェントに：CES2019

Nuance Communications（ニュアンス）は、消費者向けエレクトロニクス展示会「CES 2019」（2019年1月8～11日、米国ネバダ州ラスベガス）において、カメラによる視線検知と音声認識技術を組み合わせた開発中の新機能を披露した。開発技術は、POI（Point of Interest）検索やストリーミングサービス、リアルタイムな情報を得る場合にはクラウド連携が必要だが、それ以外については車載情報機器側で処理が終えられるという。

[齊藤由希，MONOist] PC用表示関連情報

LINE

Hatena

カメラによる視線検知と音声認識技術を組み合わせた開発中の新機能を披露した（クリックして拡大）

　Nuance Communications（ニュアンス）は、消費者向けエレクトロニクス展示会「CES 2019」（2019年1月8～11日、米国ネバダ州ラスベガス）において、カメラによる視線検知と音声認識技術を組み合わせた開発中の新機能を披露した。

　開発技術は、POI（Point of Interest）検索やストリーミングサービス、リアルタイムな情報を得る場合にはクラウド連携が必要だが、それ以外については車載情報機器側で処理が終えられるという。

　2台の車両を用いて開発技術のデモンストレーションを実施した。1台は「OK, Google」「Hey, Siri」のような音声認識機能を起動するためのコマンドの発声が不要でありながら、発話の中からクルマに関する指示を検出して操作を実行するというものだ。ドライバーが右側を見ながら「ドアを閉めて」「窓を開けて」と言うだけで、右側のドアや窓が操作対象であると認識し、その通りに操作する。地図表示の拡大や縮小も「ズームイン」「ズームアウト」と声をかけるだけで操作を行う。

　また、自動運転中にフロントガラスの広い範囲に情報が投影されることが前提になる機能も実演した。例えば、ドライバーが運転中に特定の建物を見ながら「あれは何？」というと、ドライバーが見ている建物の名称を読み上げる。なお、この機能の日本語版を開発するにあたっては、都心のような建物が密集した地域でも有効か検証を進めるという。

車載情報機器の操作を視線で選択して行っている様子（左）。「あの建物は何？」といった音声入力に答えて建物の情報を表示している（右）（クリックして拡大）

　この他、車載情報機器を手で操作する代わりに、フロントガラスに投影されたアイコンから必要な操作を視線で選択するデモも行った。例えば、ドライバーが「レベッカに電話して」と言うと、登録されている連絡先の中からファミリーネームの違う2人のレベッカのどちらに連絡するか、そのレベッカのどの電話番号に電話するかについて、ドライバーは手を動かすことなく、目を向けるだけで操作を完了できる。

　1台目の車両で実施した以上のデモのうち、製品化が早いのはドアや窓の開閉、車載情報機器の操作などクルマの中に関する部分だとしている。音声認識機能の起動コマンドを不要にする技術については、量産モデルで近々採用される予定だという。デモ車両のウィンドウシールドディスプレイは、Saint-Gobain Sekurit（サンゴバンセキュリット）が開発した。

ドライバーの状態に合わせて音声認識機能が応対

　2台目のデモ車両にはドライバーの感情や眠気を検知する技術を搭載した。音声認識機能は、検知したドライバーの状態に合わせて、話し方を変えたり休憩を勧めたりする。このデモに使用したドライバーモニタリング技術は、マサチューセッツ工科大学からスピンオフしたスタートアップ企業のAffectiva（アフェクティバ）が開発したものだ。

警告灯が表示されているので「クルマに何か問題があるのか」と尋ねると、タイヤの空気圧に異常があると答えた。また、正常な空気圧は幾つか、といった問いにも答える（クリックして拡大）

　ニュアンスの2台目デモ車両では、車内に設置したカメラが、ドライバーが目をつむっているのを検知すると、初めは電子音で注意を促した。ドライバーがその後も何度か目をつむると、「眠そうですね」などと音声認識機能が声をかけ、「休憩できるガソリンスタンドを探しましょうか」と提案する。これにより、疲労などによる事故を未然に防ぐ。

　この他にも、ドライバーが楽しそうにしていると声のトーンから感情を判断して音声認識機能が反応を変えたり、警告灯の表示内容について尋ねると音声認識機能がタイヤ空気圧の異常であることを答えたりする様子を実演した。

　アフェクティバのドライバーモニタリング技術は、表情、頬や眉の動き、声のトーンなどを基にしている。顔認識では「喜び」「驚き」「怒り」に加えて、プラスとマイナスのどちらの感情を示す表情であるかを検出する。顔が真横を向いている場合や、上下45～60度の範囲で傾いている場合でも顔を認識して感情を推定できる。眠気の検知に関しては首やあごの傾き方、口と目の開き方、あくびの有無などを基にする。これらはさまざまな国や地域の700万人以上の顔情報がベースとなっている。

アフェクティバが独自に行った自動車向け感情認識技術のデモ（左）。怒りのため、危険運転を行う状態であることも検知した（右）（クリックして拡大）

　アフェクティバはニュアンスとは別会場でデモを実施した。感情と眠気を検出するデモでは、Raspberry PiやNVIDIAのボードを用い、処理性能の異なるボードで共通の機能を実現できることを紹介。上級車種から普及モデルまで、さまざまなモデルにドライバーモニタリング機能を搭載できるとしている。

　さまざまな音声のデータから、どのような状態で発した声なのかを識別するデモも実施した。デモでは、怒鳴り声と応援のエールを送る興奮した大声を聞き分けたり、赤ちゃんの声から笑っていることを認識したりした。これは、声のトーンや発声のピッチを基にしており、言語には依存していない。文化の違いから、アジア、欧州、米国など地域ごとの認識モデルに分かれる。

　アフェクティバには、2～3年前から自動車関係からの引き合いが増えたという。2019年のCESでも、ニュアンス以外に、アイシングループや起亜自動車がアフェクティバの技術を使ったデモを実施した。

音声認識に視線や感情、眠気検知を組み合わせ、より柔軟なエージェントに：CES2019

ドライバーの状態に合わせて音声認識機能が応対

関連記事