東京工業大学は、頭皮で記録された脳波信号から、音声を直接再構築する手法を開発した。聞いた音声を想起した時に記録されたEEGを利用し、畳み込みニューラルネットワーク(CNN)によって音源のパラメーターを推定した。
東京工業大学は2021年1月8日、頭皮で記録された脳波信号(EEG)から、音声を直接再構築する手法を開発したと発表した。同大学科学技術創成研究院 准教授の吉村奈津江氏らによる成果だ。
今回の研究では、聞いた音声を想起した時に記録されたEEGを利用し、機械学習法の1つである畳み込みニューラルネットワーク(CNN)によって音源のパラメーターを推定した。
具体的には、32カ所のEGG電極から、2つの母音「ア」「イ」と白色雑音を聞いている時、それらの音を思い出している時の脳波信号を記録し、CNNを用いて音源のパラメーター信号を推定して音源を復元した。復元した「ア」「イ」の音声の聞き取り判別試験では、元の音声を聞いていない人を含む全参加者の8割程度が判別できた。
また、CNNが音源推定に利用した脳の領域を調べたところ、脳内の聴覚処理において何の音かを特定するための信号を処理する「Whatストリーム」という脳領域群であることが判明した。さらに、音を聞いている時と音を思い出した時では、CNNが抽出した脳領域は異なり、個人間の差異も見られた。
近年、脳情報を利用して脳とコンピュータをつなげるブレイン・コンピュータ・インタフェースに関する研究が進められている。音声情報の読み出しでは、皮質脳波信号(ECoG)を利用した音声合成が試されているが、聞き取りやすい音声の合成は困難な状況にある。
今回、聴取性能の高い音声をEEGから再構成できたことで、脳内聴覚や音声、言語処理の客観的な評価に脳波を利用できる可能性がある。他に、脳のどの領域が聴覚、音声、言語処理に関係しているかの理解を深め、ブレイン・コンピュータ・インターフェイスなどの開発につながることが期待される。
Copyright © ITmedia, Inc. All Rights Reserved.