MaaS時代のクルマは視線もインタフェースに、音声と視線認識技術を握るCerence：モビリティサービス

自動運転やMaaSの社会実装が進む中、クルマが提供する体験価値も変革が求められている。音声認識に強みを持つ車載ソフトウェアベンダーのCerenceもクルマの新たな価値を提案する企業の1社だ。同社は視線検知と音声認識を組み合わせ、乗員とクルマの双方向コミュニケーションを実現するインタフェースを開発している。

[松本貴志，MONOist] PC用表示関連情報

LINE

Hatena

　自動運転やMaaS（Mobility-as-a-Service：移動のサービス化）の社会実装が進む中、クルマが提供する体験価値も変革が求められている。音声認識に強みを持つ車載ソフトウェアベンダーのCerenceもクルマの新たな価値を提案する企業の1社だ。同社は視線検知と音声認識を組み合わせ、乗員とクルマの双方向コミュニケーションを実現するインタフェースを開発している。

Cerence Multi Modal PoCを搭載したデモカー。視線を向けた建物、ランドマークを認識し、音声案内する（クリックで拡大）

　Cerenceは米国Nuance Communicationsの車載ソフトウェア事業がスピンオフし、2019年10月1日に設立された。同社はNuanceとの資本関係を解消し、NASDAQに上場する公開企業だ。グローバルに23拠点を持ち、全従業員は1300人。ヘッドユニットに組み込まれる車載ソフトウェアや、車載ソフトウェアとつながるクラウドソリューションなどを自動車メーカーやサプライヤーに提案する。

　Cerenceの技術を搭載したクルマはこれまでに累計2億8000万台出荷されたとし、2019年度の売り上げ見込みは、3.08億～3.1億米ドル（約335億～337億円）に達するという。また、2019年第1四半期に出荷された自動車の約54％で、同社の車載ソフトウェアまたはクラウドソリューションが採用された。2023年にはグローバル自動車市場における同社車載ソフトウェアの搭載率が50％に拡大すると予測し、1台当たりの売り上げ伸張と新興国を中心としたマーケットシェア獲得を目指す。

　日本法人のCerence Japanが公開した「Cerence Multi Modal PoC」のデモカーは、同社の野心的な成長目標を裏付けるものだ。Cerence Multi Modal PoCは、視覚と聴覚など複数の感覚を用いてコミュニケーションを行う「マルチモーダルインタフェース」をクルマに実装するコンセプトだ。

　デモカーは運転席のダッシュボード上に赤外線カメラと赤外線LEDを備え、ドライバーの視線および顔の向きを捉える。また、音声認識用にマイクも設置している。ドライバーの視線と音声を組み合わせたユーザー入力、および車載センサーによる車両情報や周囲環境情報を組み合わせ、クルマはドライバーが求める最適な応答を返す。

マルチモーダルインタフェースを搭載したコクピット（クリックで拡大）出典：Cerence Japan

　Cerence Japanでシニアセールスエンジニアリングマネージャー（兼）プリンシパル・マーケティングマネージャーを務める村上久幸氏は「スマートフォンの登場前後でHMI（Human Machine Interface）やクルマのインタフェースも大きく変わった。スマートフォンに慣れたユーザーに対して、クルマのインタフェースも最適化する必要があるのではないか。音声やタッチパネル、物理スイッチ、空間でのジェスチャーなど、状況に応じて最適な入力が行えるのがクルマにおけるマルチモーダルだ」と述べる。

　報道陣向けに披露したデモは、ドライバーが視線を向けて発した質問に対してクルマが応答するというもの。建物に視線を向け「あの建物は何？」とドライバーが質問するとクルマが施設名を応答したり、「あの施設の電話番号を教えて」とドライバーが発すると当該施設の電話番号が示され、そのままシームレスに電話を掛けたりできる。

視線で示した建物に対して、クルマに「この建物は何」と尋ねると、デモカーのHMIに回答が表示された

ドライバーが画面前方奥に見える展望塔に視線を向け、施設情報をクルマに尋ねる様子。システムは船の科学館と回答した（クリックで動画再生）

　従来のカーナビゲーションシステムにおける近隣施設のPOI（Point Of Interest）設定は、自車位置を中心とした同心円状に検索する場合が多い。この設定では、既にクルマが通り過ぎた地点にある施設が選択されることもあり、非効率な経路を提案されることになる。

　Cerence Multi Modal PoCにおける近隣施設のPOI設定は、「ドライバーの視界に入ったところを分析する」（村上氏）という点が特徴だ。Cerenceは独自に3次元の市街地モデル構築を進めており、同モデルと自車位置からドライバーの視界内にどのような施設が入っているかリアルタイム分析を行う。ドライバーが発声し始めた瞬間のタイムスタンプ情報を基に、赤外線カメラから得られた3D視線検知ベクターと視界内市街地モデルを突き合わせ、どの施設にPOIを設定するか判定する。

　デモカーは音声処理、視線認識、3次元市街地モデルとの突き合わせ、HMI描画を3台のノートPCで動作させ、システム処理をローカルで完結させている。一方、今後登場が予定される商用システムは、クルマで取得した音声および視線情報をクラウドに送信、処理し、応答内容をクルマに返すことを想定している。ローカル処理することによるシステムコスト増加や市街地モデル陳腐化を防ぐ狙いだ。クラウド利用で課題となるレイテンシも「1～2秒程度」（同社担当者）に抑えられるという。

　3次元市街地モデルの開発は現在、オープンストリートマップを基に行っているが「商用向けにはHEREが提供する地図データがベースとなる可能性がある」（村上氏）としている。今後、対応地域の拡充や市街地モデルの更新なども継続して行う方針だ。また、村上氏は新たなビジネスモデルとして広告を挙げ、「ドライバーへの応答に広告主を優先して回答するといったこともできる」と話した。

　また、車外環境に加えて車両装備への視線検知にも対応する。窓に視線を向けて「あっちの窓を開けて」とドライバーが発生すると視線を向けたウインドウが開いたり、HMIに表示された内容に視線を向けて操作したりする機能も検討しているという。視線による車両装備の操作は初めて乗車するクルマであっても直観的にできるため、「MaaS時代のクルマには非常に相性が良い技術」と同社担当者は説明する。

左：Cerence Multi Modal PoCで対応する情報提供　右：車外環境に加え、車両装備への視線検知にも対応する（クリックで拡大）出典：Cerence Japan

　同ソリューションはPoC（概念実証）の段階で、現在はグローバルで自動車メーカーやサプライヤーに提案活動を行っているという。村上氏は「既に高い関心を示しているメーカーがある。欧州で先行している状況だ。Cerence Multi Modalを活用した市販車もそう遠くはない未来に登場するだろう」と述べる。

MaaS時代のクルマは視線もインタフェースに、音声と視線認識技術を握るCerence：モビリティサービス

関連記事