「これがわれわれの最新リサーチだ!!」――MSR マイクロソフトリサーチ研究事例Microsoft「2014 Technology Update」(2/3 ページ)

» 2014年02月04日 10時00分 公開
[八木沢篤,MONOist]

「Talking Head」がさらに進化! 音声・顔に関連する技術

 続いて、音声・顔に関連した技術を紹介する。Microsoftは、2012年1月に「Talking Head」と呼ばれる技術を披露しているが、Microsoft Research Asiaでは、さらに研究を続け、これを進化させた。

 従来のTalking Headは、あらかじめハイエンドカメラでスキャンした顔の3Dモデルと、表情のパラメータ、音声データを組み合わせ、本人の顔と声で表情豊かに3Dアバターを喋らせる技術だが、「緻密なデータを複数組み合わせて実現しているため、非常に大きなコンピューティングリソースを必要としていた」(加治佐氏)という。これに対し、現在Microsoft Research Asiaで研究・開発を進めているものは、音声の質と精度が向上し、より手軽に顔の3Dモデルを生成できるようになったという。

2012年1月に披露した「Talking Head」のデモ 画像6 2012年1月に披露した「Talking Head」のデモ
「Talking Head」をベースにさらに進化 画像7 「Talking Head」をベースにさらに進化

 「音声認識/音声合成などの処理に、機械学習(マシンラーニング)の分野で注目されている『Deep Learning』の技術(DNN:Deep Neural Network)を応用し、音声の質と精度を向上させている。また、従来、時間をかけて顔の3Dモデルを取り込んでいたが、身近なデバイスとクラウドのリソースを活用することで、いつでも、どこでも、簡単に取り込めるようにした」(加治佐氏)。

3D FACE3D FACE 画像8画像9 「3D FACE」のデモ。専用アプリを立ち上げた「Windows Phone」で顔を撮影する ※画像クリックで拡大表示

 その具体例として紹介されたのが「3D FACE」だ。「Windows Phone」で専用のアプリを立ち上げて、カメラで人の顔をぐるりとスキャン(1分くらいかけて撮影)すると、その撮影データが自動的にクラウドにアップロードされて処理が行われる。クラウド側での処理を終えると、Windows Phoneのアプリ上に3Dモデルが表示され、タッチ操作で自由に動かすことができる。既に、同様のコンセプトのスマートフォン向けアプリも存在するが、「3Dプリンタ」の普及とともに人物や物体を手軽に3Dスキャンできる技術にも注目が集まりそうだ。

クラウド側で処理 画像10 クラウド側で処理を行わせることで瞬時に作成される3Dモデルを、「Windows Phone」上で動かせる

Copyright © ITmedia, Inc. All Rights Reserved.