非侵入性记录连续语言的脑机接口具有广泛应用。但目前解码器仅能识别少量词语。
近日,Alexander G. Huth团队提出一个新型解码器,使用fMRI记录皮质语义表征,进而实现连续语言重建,它可生成可理解的单词序列,恢复感知语音和无声视频的含义。测试发现,多个区域可单独解码连续语言。这项研究证明了非侵入性语言脑机接口的可行性。他们的成果“Semantic reconstruction of continuous language from non-invasive brain recordings”发表在最新一期的Nature Neuroscience 杂志上。
以前的脑机接口研究已经成功解码了颅内录音中的语音发音和其他信号,用于恢复失去说话能力的人的沟通。然而,这些解码器需要侵入性神经外科手术,限制了其应用范围。本研究提出了一种非侵入性大脑记录的语言解码器(图1a),利用fMRI,可以实时重建连续自然语言的感知或想象。这项研究为非侵入性语言解码提供了新的方法和工具,具有广阔的应用前景。
跨皮质区域的解码
作者训练了解码器,对三位受试者进行了大脑反应评估。解码器使用语义特征来表示语言,能够准确捕捉刺激的含义和单词短语(图1c)。使用多种语言相似性指标对解码和实际单词序列进行比较,结果显示解码性能超出预期,尤其是BERTScore (图1d,e)。行为实验表明,受试者通过解码单词能够回答大多数阅读理解问题。这表明我们能够从BOLD信号中恢复出精确的语义信息。
图1的解码结果利用多个皮层区域的响应,取得了良好的性能。为了研究每个区域对语言的表征方式,作者使用解码器进行了进一步分析。先前的研究表明,在语言处理过程中,大部分皮层区域都显示活跃,但我们尚不清楚哪些区域代表单词和短语的语义信息,哪些区域持续参与语言处理,以及不同区域之间的语言表示是否相互补充或冗余。因此,作者将大脑数据划分为语音网络 (the speech network)、顶-颞-枕关联区域(the parietal-temporal-occipital association region)和前额区域(the prefrontal region),并对每个区域进行了单独解码(图2a)。
作者使用多种语言相似性指标评估了区域解码器对语义信息的预测性能。结果显示,多个皮层区域能够以单个单词和短语的间隔(the granularity of individual words and phrases)来表示语言(图2b)。此外,作者还发现,关联和前额叶区域在整个语言处理过程中持续参与(图2c),而语音网络的参与较少。最后,不同区域之间的解码结果显示了冗余的语言表示。这些发现对于脑机接口的发展具有重要意义,即使只使用单个区域的数据,也能获得良好的性能(图2e)。
解码器应用程序和隐私影响
为了展示语义语言解码器的广泛应用,作者对大脑反应进行了训练和测试,不仅限于感知语音。首先,他们成功地使用语言解码器解码了受试者想象的语音,即在没有外部刺激的情况下(图3a,b)。此外,作者还发现解码器可以将大脑反应转化为非语言任务中的语言描述,展示了跨模态解码的能力。有趣的是,他们观察到注意力对解码的影响,解码器能够有选择性地重建受试者关注的内容(图3d)。然而,我们也要认识到隐私问题,作者的研究显示解码器仍需要受试者的合作来训练(图3e),同时受试者也可以有意识地抵制解码器的解码能力(图3f)。
这些结果展示了语义语言解码器的应用前景,并引发了对隐私和抗干扰性的伦理考虑。通过进一步的研究和探索,我们可以更好地了解和平衡这些方面,以推动大脑解码技术的发展。
解码错误的来源
为了找到改进的途径,作者评估了语言感知过程中解码错误的原因。他们考察了解码错误是否反映了fMRI记录的局限性、还是他们的模型又或者两者均有影响(图4a)。由于BOLD fMRI记录的信噪比较低,解码性能受到限制。作者通过增加训练数据集的大小来改善解码性能(图4b),但连续扫描的回报逐渐减少。此外,作者人为增加了测试数据的信噪比,发现解码性能略有提高(图4c),这说明解码错误部分来源于测试数据中的噪声。
作者还测试了解码器对高空间分辨率的依赖性,并发现即使在经过平滑处理的fMRI数据中,仍然可以解码大约50%的刺激时间点。此外,作者发现解码错误与单词的语义属性相关(图4d),而与训练数据中的噪声无关(图4e)。研究结果表明,改进编码模型将显著提高解码性能,这是解码错误的主要原因之一。
结 论
本研究将脑信号解码为连续语言,标志着非侵入性脑机接口的重要里程碑。作者的解码器能够从BOLD信号中捕获单词和短语级别的语义信息,与传统解码器不同,他们的解码器利用语义特征表示语言,并能在演讲尝试和想象期间访问。
这项技术的应用潜力包括隐蔽语音翻译,减少了单独训练数据的需求。然而,解码器在恢复精确单词方面仍有限制。最后,我们也需要重视隐私保护和认知隐私政策的制定。
原文链接:
https://doi.org/10.1038/s41593-023-01304-9
参考文献
Tang, J., LeBel, A., Jain, S. et al. Semantic reconstruction of continuous language from non-invasive brain recordings. Nat Neurosci26, 858–866 (2023).
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有