東芝は、エッジデバイス上で高速に動作する、音声キーワード検出機能付きの話者認識AIを開発した。ネットワーク接続なしでも3回の発話で話者登録が完了し、音声で操作したり、話者に合わせて機器の動きを変更したりできるようになる。
東芝は2020年2月20日、エッジデバイス上で高速に動作する、音声キーワード検出機能付きの話者認識AI(人工知能)を発表した。同技術を家電に搭載することで、ネットワーク接続なしでも3回の発話で話者登録が完了し、音声で操作したり、話者に合わせて機器の動きを変更できるようになる。
今回開発されたAIは、音声が入力されるとキーワード検出のニューラルネットワークで周辺雑音などの影響を抑制しながら音声を処理し、ニューラルネットワークの中間出力を用いて話者を登録、認識する。中間出力を用いることで、話者認識の際にも周辺雑音の影響を抑えられ、話者認識にかかる処理時間を大幅に削減できる。
また、同技術では、ニューラルネットワークのデータ拡張手法を活用した。データ拡張手法は少ないデータで学習する手法であり、ニューラルネットワークのノード間の接続の重みを無作為にゼロにすることで、同一人物がさまざまな話し方で発話したかのような音声情報を模擬的に生成する。発話数が少なくても話者を学習できるため、話者登録時に必要となる発話数を削減できる。
各話者の3回の発話を話者登録に用いるという条件で同技術を評価したところ、話者100人で89%という識別結果が得られた。話者認識の一般的な手法「i-vector」は同じ条件で71%だった。また、計算量と処理速度をサーバで計測したところ、処理能力に制約がある組み込みシステムにおいても、問題なく動作することが分かった。
同社は、同技術を実際の組み込みシステムに搭載し、家電などで実用性の検証を進める。
組み込みAIは必要不可欠な技術へ、推論に加えて学習も視野に
AIと機械学習とディープラーニングは何が違うのか
機械学習はどうやって使うのか――意外と地道な積み重ね
人の曖昧な命令を自動補完するエッジAI、三菱電機が2022年にも製品搭載へ
東芝が脊髄反射型アナログニューロンチップを開発、AI処理の応答速度は1μs以下
心臓病の発症リスク予想へ、AI技術開発をスタートCopyright © ITmedia, Inc. All Rights Reserved.
組み込み開発の記事ランキング
コーナーリンク
よく読まれている編集記者コラム