NTTは、ヒトが見た映像や思い浮かべた情景の内容を脳活動から文章として生成する技術「マインド・キャプショニング」を開発した。非言語的思考を言語化する脳解読の新手法となる。
NTTは2025年11月17日、脳活動から視覚内容を文章として生成する新技術「マインド・キャプショニング」を開発したと発表した。映像を見ているときだけでなく、記憶して想起した映像の内容も文章化でき、非言語的思考を言語へ翻訳する新たな脳情報デコーディング手法として注目される。
同技術は、脳活動のパターン解析で心や身体の状態を解読する脳情報デコーディングと、AI(人工知能)を組み合わせた「脳‐AI統合型デコーディング」を、言語AIモデルを用いて拡張したものだ。fMRI(機能的磁気共鳴画像法)で計測した脳活動を言語AIモデルの意味特徴空間にマッピングし、脳活動との類似度が高いテキストを探索しながら繰り返し最適化することで、映像内容を反映した文章を生成する。
実験では、動画を視覚的に観察している時の脳活動から文章を生成し、内容に近い説明文を自動的に構築できた。記憶から想起した映像でも同様の生成が可能で、脳から生成した文章のみを用いて、どの映像を想起しているか識別できることが確認された。
精度評価では、脳活動から生成した文章と参照文の類似度に基づき、100本の候補動画の中から知覚時で約50%、想起時で約30%の精度で正しい動画を選択できた。これは、ランダムに選んだ場合に正答する確率であるチャンス水準1%を大きく上回る。また、言語野を除外した解析でも高精度を維持し、脳の言語処理とは独立した非言語的情報を言語化していることが示された。
同技術は、複雑な視覚情報が脳内でどのように表現されているかを解明する手がかりとなる。今後は、モデルや訓練データのバイアス検証を進め、視覚以外の感覚イメージや感情、概念的思考などへの応用も視野に入れる。将来的には、発話困難者の意思伝達支援や新たなコミュニケーション手段としての活用が期待される。
一方で、思考内容が解読される可能性があるため、心的プライバシー保護への慎重な検討が求められる。NTTはデータ運用の透明性確保や倫理的議論の深化を重視し、人間の精神的自律を尊重する技術開発を進める方針だ。
宇宙とつながる、“痛み”を伝える、声を選ぶ――CEATEC AWARD 2025の注目技術
パナソニックHDが画像生成AIの効率を5倍に、一人称視点映像からの未来予測も
AIが同僚に? マイクロソフトが産業用AIエージェントで示す新たなモノづくり
リコーが図表も読み取るマルチモーダル大規模言語モデル、「日本の文書は難しい」
心で思い描いたイメージを復元する技術を開発
触覚情報と視覚情報が脳内で統合されるメカニズムを特定Copyright © ITmedia, Inc. All Rights Reserved.
医療機器の記事ランキング
コーナーリンク