アドバンスト・メディアが「IoT/M2M展」に展示しているウェアラブルグラスは「高速道路の高架下ぐらいの音量があっても、問題なく音声で入力できる」音声入力機能を搭載。現場での“真のハンズフリー”を実現する。
アドバンスト・メディアが「IoT/M2M展」に展示しているウェアラブルグラスは音声認識による入力を実装、ボタンやタッチパネルの操作を不要にすることで、“真のハンズフリー”を実現する。既に工場などでの試験導入が開始されており、これまでボタンや画面タッチで行っていた入力を音声入力に代替し、作業効率や作業品質を向上させる狙いだ。
“両手を離せる”特長を持つウェアラブルグラスのメリットを生かすため、入力に音声入力を利用するというアイデアはそう珍しいものではないが、生産や検査などの現場で利用する際には、周囲の騒音による認識精度の低下が問題となっていた。
同社では最適なマイクの選定とノイズキャンセリングを始めとしたソフトウェアのチューニングなどで大音量環境下での認識精度低下を克服、100デシベルの環境下でも問題なく認識できる製品とした。「高速道路の高架下ぐらいの音量があっても、問題なく音声入力が利用できる」(同社)
展示されていたウェアラブルグラスはウエストユニティスの「InfoLinker」。InfoLinkerはOSにAndroid 4.2.2を利用しており、音声認識はアドバンスト・メディアの音声認識ソフト「AmiVoice」のAndroid用SDKを利用して実装されている。
音声認識に必要な集音能力の改善という意味では、韓MightyWorksの開発した音声高音質化ミドルウェアも興味深い(国内取扱はグレープシステム)。これは音源へのズーミングやオートボリューミングなど音声認識の前処理として実装することで、音声認識の認識率向上を図る。
音源へのズーミングはビームフォーミング技術によるもの。無指向性マイク2つで事前設定した以外の範囲の音を減衰させることで、結果的に無指向性マイクを利用しながらも指向性マイクを利用したような集音性能を持たせることが可能となり、その処理も専用DSPなしでのソフトウェア実装となる。
グレープシステムではズーミング処理だけならばCortex-M4クラス、周辺処理を入れてもCortex-M7クラスの処理能力で十分に対応できるとしており、ウェアラブルデバイスのハンズフリー通話機能や電話会議システム、低価格カーナビへの搭載などが期待できそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.