MONOist > 組み込み開発 > 2つのAIを使った音声翻訳サービス、日本語にも対応...

2つのAIを使った音声翻訳サービス、日本語にも対応：人工知能ニュース

マイクロソフトは同社が展開するクラウドベースの機械翻訳サービス「Microsoft Translator」を強化し、ニューラルネットワーク機能を盛り込み、より自然な翻訳を実現した。

» 2017年04月07日 08時00分公開

[三島一孝，MONOist]

　米国Microsoft（マイクロソフト）は2017年4月7日、同社が展開するクラウドベースの機械翻訳サービス「Microsoft Translator」を強化し、ニューラルネットワーク対応とした他、日本語に対応したことを発表した。

　マイクロソフトの翻訳サービスである「Microsoft Translator」は、クラウドベースのオープンなAPI（Application Programming Interface）サービスで、テキストの機械翻訳を行う。60以上の言語に対応。Azureサービスの一部として提供され、製品やサービスの一部に組み込んで展開することなども可能。言語翻訳については、人工知能（AI）などによる研究が進んでいるが、まだまだ人間が行う通訳に比べると品質差が大きい。しかし、人間による翻訳に大きいコストが掛かる場合や、コンテンツが頻繁に作成され更新ペースが早い場合、翻訳スピードの優先度が高い場合などでは活用の余地は大きいといえる。

「Microsoft Translator」の機能（クリックで拡大）出典：マイクロソフト

　従来の機械翻訳は、統計的手法が用いられていたが、基本的には単語ベースでの状況把握となるため、同じ単語がさまざまな意味で用いられる翻訳では、長い文章の文脈の正しい解釈と翻訳後の再構築という点で、課題を抱えていた。そこでマイクロソフトでは、新たに翻訳技術に深層学習（ディープラーニング）技術を組み込み、各単語で想定されるモデルを作成し、文章全体の中の文脈を見た上で、その文脈内で単語モデルを翻訳するという仕組みを作った。

　マイクロソフトのAI & Researchグループディレクターであるオリヴィエ・フォンタナ（Oliver Fontana）氏は「ニューラルネットワークを活用するということは自動車でいえばガスエンジンから電気エンジンへと切り替えるようなものだ。全く新しい能力を持つことになる」と価値について述べている。

ニューラルネットワークを活用した場合とそうでない場合の翻訳の違いの例（クリックで拡大）出典：マイクロソフト

2つのAIを使った音声翻訳機能

　さらに、マイクロソフトでは、ニューラルネットワークを活用したテキスト翻訳に加えて、音声認識にもAI関連技術を採用。音声翻訳は、マイクロソフトの独自技術「TrueText」で、音声認識用と機械翻訳用の2つの異なるタイプのAIを組み合わせることで実現する仕組みとしている。TrueText は認識された音声を機械翻訳で翻訳可能な形に変換する機能だ。

「Microsoft Translator Speech」の仕組み。音声認識とテキスト翻訳の2つのAI機能を活用する（クリックで拡大）出典：

　音声翻訳を行う場合、まず音声認識ニューラルネットワークシステムへと音声を送る。このシステムは、人間の自然な対話を扱えるよう設計されている。人間は自然の対話の中ではつなぎ言葉を発している。専門領域では「ディスフルエンシ（disfluencies）」と呼ばれているもので、日本語では「えーと」などに当たる。「TrueText」ではこの不要なつなぎ言葉を削除し、完全な文章に必要な大文字化や、句読点の追加を行い、翻訳ステージでの適切な処理を可能とする。

　次に、「TrueText」の出力を機械学習による2つ目のAI機能に送られ、文章の文脈を利用してより流ちょうで人間らしく聞こえる翻訳を行う。そして、最後にテキスト読み上げ機能により、音声に変換する。

　マイクロソフトではこれらの機能を、マイクロソフトの全てのアプリケーションに採用していく方針を示している。