東芝は、エッジデバイス上で高速に動作する、音声キーワード検出機能付きの話者認識AIを開発した。ネットワーク接続なしでも3回の発話で話者登録が完了し、音声で操作したり、話者に合わせて機器の動きを変更したりできるようになる。
東芝は2020年2月20日、エッジデバイス上で高速に動作する、音声キーワード検出機能付きの話者認識AI(人工知能)を発表した。同技術を家電に搭載することで、ネットワーク接続なしでも3回の発話で話者登録が完了し、音声で操作したり、話者に合わせて機器の動きを変更できるようになる。
今回開発されたAIは、音声が入力されるとキーワード検出のニューラルネットワークで周辺雑音などの影響を抑制しながら音声を処理し、ニューラルネットワークの中間出力を用いて話者を登録、認識する。中間出力を用いることで、話者認識の際にも周辺雑音の影響を抑えられ、話者認識にかかる処理時間を大幅に削減できる。
また、同技術では、ニューラルネットワークのデータ拡張手法を活用した。データ拡張手法は少ないデータで学習する手法であり、ニューラルネットワークのノード間の接続の重みを無作為にゼロにすることで、同一人物がさまざまな話し方で発話したかのような音声情報を模擬的に生成する。発話数が少なくても話者を学習できるため、話者登録時に必要となる発話数を削減できる。
各話者の3回の発話を話者登録に用いるという条件で同技術を評価したところ、話者100人で89%という識別結果が得られた。話者認識の一般的な手法「i-vector」は同じ条件で71%だった。また、計算量と処理速度をサーバで計測したところ、処理能力に制約がある組み込みシステムにおいても、問題なく動作することが分かった。
同社は、同技術を実際の組み込みシステムに搭載し、家電などで実用性の検証を進める。
Copyright © ITmedia, Inc. All Rights Reserved.