Meta AI发现自监督语言模型与人脑语音处理类似,两者具体层次可相互对应

Meta AI发现自监督语言模型与人脑语音处理类似,两者具体层次可相互对应
2022年06月24日 17:46 麻省理工科技评论

深度神经网络的性能过去十年中已经有大幅提升,在对象分类、文本翻译和语音识别训练的 AI 模型开始接近甚至某些方面已经超越人类水平。

如今,一些深度神经网络显示在相同的输入下产生类似于大脑的表现方式。

近日,META AI 测试了一个在有限数量语音上进行自监督学习的模型,以验证它是否能够在功能上等同于人类大脑的语音感知。

相关论文以《通过自监督学习来实现大脑语音处理的现实模型》(Toward a realistic model of speech processing in the brain with self-supervised learning)为题提交在 arXiv 上。

据了解,人类婴儿在几乎没有监督的情况下获得语言。几百小时的语言可以让年轻的大脑学会离散音素、分割语素,并用他们的社会群体的语言组装单词。

研究者用功能性磁共振成像(functional Magnetic Resonance Imaging,fMRI)记录了 412 名说英语(351 名)、法语(28 名)和中文普通话(33 名)的人在听约 1 小时有声书时的大脑活动。

同时,在 600 小时的语言数据集(与人类婴儿早期语言习得所需的数量相当)中自监督训练架构 Wav2Vec 2.0。该架构有着堆叠卷积层和 Transformer 层,以预测语音波形的潜在量化表示。数据集随机分成训练、验证和测试集。训练部分占据 80%,其余两项各占 10%。

然后将 Wav2Vec 2.0 和大脑的语音处理活动进行了比较。

图 | 大脑和深度神经网络中的语音表征比较(来源:

arXiv)

为了更好地理解 Wav2Vec 2.0 和大脑之间的相似性,研究者将大脑活动与该模型的每一层及它的几种变体(比如未经训练的随机模型、经过 600 小时非语音训练的模型等)进行了比较。

研究发现经训练的 Wav2Vec 2.0 与人类大脑语音波形十分相似。它的 Transformer 层的功能层次与人脑中语音的皮层层次相一致,并以前所未有的清晰度揭示了语音处理的全脑组织。

图 | 自监督学习下的 Wav2Vec 2.0 和人脑语音活动比较。星星表示随机模型和训练模型之间的差异(来源:arXiv

人脑在语音处理过程中通常涉及四个区域,即初级和次级听觉皮质(图中 A1、A2 表示)、颞上回(STG,Superior Temporal Gyrus)、颞上沟(STS,Superior Temporal Sulcus)和额下回(IFG,Infero-Frontal Gyrus)。

图 | Wav2Vec 2.0 的功能层次结构映射到大脑中的语音层次结构上(来源:

arXiv)

研究人员分别计算 Wav2Vec 2.0 的每一层的神经预测性得分(R),并估计每个体积元素。第一层(蓝色)映射到低水平的听觉皮层(A1 和 A2),而更深层(橙色和红色)映射到与更高层次过程相关的大脑区域(如 STS 和 IFG)。并且观察到卷积层比 Transformer 层的预测性更低。

另外,为了比较监督学习和自监督学习获得大脑表现的差异,研究人员用另一个有监督的目标训练了 Wav2Vec 2.0,即对相同的 600 小时的语音进行注释。

对于自监督学习和监督学习两种训练范式,研究人员从特征编码器和上下文网络中提取每一层的激活。同时使用由 10 秒的原始波形组成的输入窗口来提取这些内部表示,步幅为 5 秒。

结果显示,自监督学习比监督学习的 R 分数明显要高。

值得注意的是,语音背后的声学特征(摩擦音、元音等)也可以描述非语音的声音(风吹树叶、石头落地的声音等)。那训练模型是显示出大脑中一般听觉处理的共性,还是捕捉到特定语音的处理(参与者母语特有的大脑表征)呢?

为研究每种语言的表现方式,研究者们使用一种辨别测试任务比较了人类和模型能够区分母语和非母语语音的方式。具体来说,是比较了 386 名法国和英语参与者区分本地语音和非本地语音的能力。正如预期,相比非本地声音,参与者更善于辨别本地声音。

此外,将同样的测试应用于自监督的法语和英语模型,就像人类一样,模型能更好地区分“母语”声音。

图 | Wav2Vec 2.0 表征的专门化遵循大脑中的声学、语音和语言区域(来源:

arXiv)

这些结果扩展了关于大脑对语言的反应和深度学习模型之间的相似性的发现。越来越多的脑磁图、功能磁共振成像和电生理学研究表明,在巨大语料库上训练的基于文本的语言模型也会产生类似大脑的表征。

本研究以大脑中显著的清晰度揭示了语言理解背后的神经层次和专门化。研究人员也表示,他们的研究结果聚集了大量的个体群体,这可能会在个体层面上掩盖一个更模块化的结构。

最后,虽然自监督语音模型和大脑语音活动表现出类似,但它们之间仍然存在几个主要的区别。比如,Wav2Vec 2.0 的 Transformer 层不受时间限制,可以访问上下文窗口中的所有元素。这与大脑中必要的周期性处理过程不同。另外,也有研究表明, Wav2Vec 2.0 模型编码的语义信息明显少于基于文本的模型。

总的来说,考虑到目前人类大脑仍然是最优秀的语音处理系统,即使有足够的关于大脑各区域内容的数据,也可能没有一套标准的方程式来描述它们。本次研究结果强调了系统地评估自监督模型与类人语音表征趋同的重要性。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部