AI模型能否揭示人类语言习得之谜？_

每个婴儿在短短几年内都能学会一种语言，所以学习语言似乎并不难。但弄清楚这一过程是如何运作的，却完全是另一回事。语言学家已经设计了复杂的理论来解释语言学习，而机器学习的最新进展又给这一领域增添了新的难题。当计算机科学家开始构建为现代聊天机器人（如ChatGPT）提供动力的语言模型时，他们搁置了几十年的语言学研究，但这一冒险似乎得到了回报。然而，这些模型真的在“学习”吗？

“即使它们做的事情看起来和人类相似，但原因可能完全不同。”纽约大学的计算语言学家塔尔·林岑（Tal Linzen）说道。

这并不是关于定义的争论。如果语言模型确实在学习语言，研究人员可能需要新的理论来解释它们的学习机制。但如果这些模型只是表面上看起来像在学习语言，那么机器学习对语言学的研究可能并无真正的启发意义。

语言学界泰斗诺姆·乔姆斯基（Noam Chomsky）公开支持后一种观点。在2023年发表的一篇犀利的《纽约时报》评论文章中，他和另外两位作者提出了许多反对语言模型的论点，其中之一听起来似乎矛盾：语言模型与语言学无关，因为它们“学得太好了”。具体来说，作者声称，模型可以像掌握可能存在的语言一样轻松地掌握“不可能语言”（指那些由完全不同于已知人类语言的规则构成的语言）。

最近，五位计算语言学家测试了乔姆斯基的这一说法。他们通过修改英语文本数据库生成了12种“不可能语言”，并发现语言模型在学习这些语言时，比学习普通英语更困难。他们的论文《任务：不可能的语言模型》（Mission: Impossible Language Models）在2024年计算语言学协会会议上荣获最佳论文奖。

“这是一篇出色的论文。”普林斯顿大学的语言学家阿黛尔·戈德堡（Adele Goldberg）说道，“绝对及时且重要。”

这项研究结果表明，语言模型可能实际上是研究婴儿咿呀学语过程的有用工具。

语言障碍

20世纪上半叶，大多数语言学家都专注于记录世界各地的语言。然而，到了20世纪50年代末，乔姆斯基开创了一种替代性方法。他借鉴了理论计算机科学和数学逻辑的思想，雄心勃勃地试图揭示所有语言背后的普遍结构。

乔姆斯基认为，人类的大脑中必须有专门用于语言处理的先天机制。这可以解释语言学中的许多重大谜团，包括某些简单的语法规则从未出现在已知语言中的现象。

乔姆斯基推理，如果语言学习的方式与其他学习方式相同，它就不会偏向某些语法规则而排斥另一些规则。但如果语言确实具有特殊性，那么这种现象正是可以预期的：任何专门的语言处理系统都会使人类倾向于某些语言，而使其他语言变得“不可能”。

“如果我们说人类的脑回路被‘硬接线’来学习某些东西，那么我们也必须说这些脑回路被‘硬接线’来无法学习其他东西。”加州大学洛杉矶分校的语言学家蒂姆·亨特（Tim Hunter）说道。

乔姆斯基的方法迅速成为理论语言学研究的主流，并占据主导地位长达半个世纪。随后，机器学习革命到来。

机器崛起

语言模型基于一种名为神经网络的数学结构，后者通过连接其神经元之间的关系来处理数据。每个连接的强度由一个称为“权重”的数值量化。为了构建一个语言模型，研究人员首先选择一种特定类型的神经网络，然后随机为网络中的连接分配权重。由于这些权重是随机的，模型最初输出的内容完全是胡乱的。接着，研究人员通过训练模型逐个预测句子中下一个单词的方式来改进它。他们为模型提供大量文本数据，每次输入一段文本后，模型会预测下一个单词，然后将预测结果与实际文本进行比较，并通过调整神经元之间的连接来提升预测准确性。经过无数次的小调整，模型最终学会生成令人惊叹的流畅句子。

尽管语言模型与人类在许多方面截然不同，例如，最先进的模型需要用数万亿个单词进行训练，远远超过任何人类一生中能接触到的语言量，但它们可能为语言学习提供一种全新的测试案例。这种案例能规避对婴儿进行伦理学实验的限制。

“我们无法用动物来研究语言。”哈佛大学计算语言学家伊莎贝尔·帕帕迪米特里乌（Isabel Papadimitriou）说道，她是这篇新论文的合著者。“语言模型是我们能够用来进行干预性实验的第一个工具。”

语言模型能够正常运行这一事实，证明了某种类似于语言学习的过程可以在完全不依赖乔姆斯基所提出的专门机制的情况下发生。基于神经网络的系统在许多与语言处理完全无关的任务上取得了巨大成功，而它们的训练过程完全忽略了语言学家关于句子复杂结构的研究。

“你只是在说，‘我看到了这些词；下一个词是什么？’这是一种非常线性的语言思维方式。”萨塞克斯大学的计算语言学家杰夫·米切尔（Jeff Mitchell）说道。

2020年，杰夫·米切尔与布里斯托大学的心理学家杰弗里·鲍尔斯（Jeffrey Bowers）合作，研究语言模型的独特学习方式如何影响它们掌握“不可能语言”的能力。从零开始发明一种新语言会引入太多无法控制的变量：如果一个模型在学习这种人工语言时表现得更好或更差，很难明确其中的原因。为了解决这个问题，米切尔和鲍尔斯设计了一种对照实验方法，他们通过以不同方式操控英语文本数据集，创造出三种由奇怪规则支配的独特人工语言。例如，为了构造其中一种语言，他们将每个英语句子随机分成两部分，并颠倒第二部分的单词顺序。

实验开始时，米切尔和鲍尔斯准备了四个完全相同的未训练语言模型副本。他们用四种不同的数据集对这些模型进行训练——三种“不可能语言”和未修改的英语数据集。最后，他们为每个模型安排了一项语法测试，测试内容是该模型所训练语言中的全新句子。

结果显示，接受“不可能语言”训练的模型并未被这些复杂的语法规则所难倒。它们的表现几乎与接受英语训练的模型一样准确。

这似乎表明，语言模型真的能够“完成不可能的任务”。乔姆斯基和他的合著者在2023年的文章中引用了这些结果，认为语言模型本质上无法区分可能的语言和那些荒谬的“不可能语言”。这是否意味着争论已经结束了？

剧情反转

朱莉·卡里尼（Julie Kallini）并不确定这一结论。2023年8月，她刚开始在斯坦福大学攻读计算机科学研究生学位。乔姆斯基对语言模型的批评经常出现在同学之间的非正式讨论中。但当卡里尼深入文献时，她发现自2020年米切尔和鲍尔斯的论文以来，没有任何研究进一步验证过“不可能语言”的学习能力。她觉得那篇论文非常有趣，但乔姆斯基的宏大主张显然需要更多证据支持。乔姆斯基的观点针对所有语言模型，而米切尔和鲍尔斯的实验仅测试了一种老旧的神经网络类型，该类型在今天的研究中已不再常用。对卡里尼来说，这项任务显而易见：用现代模型测试乔姆斯基的主张。

卡里尼向她的导师克里斯托弗·波茨（Christopher Potts）提出了一个全面研究的计划，研究基于Transformer网络的现代语言模型如何学习“不可能语言”。Transformer是当今顶尖语言模型的核心。波茨起初认为这对于卡里尼作为新生的第一个项目来说太过雄心勃勃，但她坚持认为这是值得的。

卡里尼和波茨决定由她负责训练模型。但在此之前，他们需要确定具体要测试哪些Transformer模型，以及要研究哪些语言。为此，他们邀请了三位计算语言学家加入团队：伊莎贝尔·帕帕迪米特里乌（Isabel Papadimitriou）、加州大学欧文分校的理查德·富特雷尔（Richard Futrell）以及德克萨斯大学奥斯汀分校的凯尔·马霍瓦尔德（Kyle Mahowald）。团队决定使用较小的Transformer网络，这些网络以2019年推出的GPT-2为模型。较小的网络需要更少的训练数据，因此更接近人类的语言学习过程；也许它们同样会表现出偏好可能语言而非“不可能语言”的倾向。

然而，卡里尼很快发现，并非所有人都这么认为。斯坦福计算机科学系的同行虽然不是机器学习的怀疑论者，但许多人在“不可能语言”的争论中站在乔姆斯基一边。

“许多人认为，Transformer网络可以学会任何东西。”她说。

团队设计了12种“不可能语言”，其中大部分是通过对英语数据集中的句子进行不同方式的词语重新排列来实现的。例如，在最极端的情况下，这些句子的单词是随机打乱的，而其他语言则遵循一个简单的模式，比如将每个句子分成三个相邻的单词组，并交换每组中的第二个和第三个单词。他们还包括了米切尔和鲍尔斯研究过的“部分反转”语言，以及一个“完全反转”语言——通过完全颠倒训练数据中的每个句子来生成。他们设计的最后一种语言被称为“跳词”（word hop），它与普通英语最为接近。不同之处仅在于区分动词是单数还是复数的方式：不是像“runs”中的“s”那样使用词尾，而是通过在动词后面第四个单词的位置添加一个特殊符号来表示。由于这种设计灵感来源于语言学文献中的经典案例，团队对模型如何处理这种语言尤其感兴趣。

“在理论上，‘将某个标记放在另一个标记的后四个词位置’并不算特别复杂。”亨特说道，“但似乎没有任何人类语言遵循这种模式。”

所有“不可能语言”都在不同程度上扰乱了英语的语言结构，但除了随机打乱的那种语言外，其他所有语言都在理论上传递了相同的信息。“原则上，一个全能预测器在学习这些‘不可能语言’时不应该比学习可能语言更困难。”富特雷尔说道。

卡里尼和她的同事们从多个Transformer网络副本开始，每个模型分别用一种不同的语言进行训练。在训练过程中，他们会定期暂停训练，测试每个模型的单词预测能力。所有模型的表现随着时间推移都在逐渐提高。即使在极端的随机单词重排情况下，模型依然能够学会像“the”这种单词比“impossible”更常见的规律。但接受未修改的英语文本训练的模型学习速度更快，最终表现也优于其他所有模型，只有一个例外：用“跳词”训练的模型表现大致相当，因为这种语言只是用特殊符号替代了一些动词后缀，并将其放置在动词后四个单词的位置。

这种结果并不令人意外——毕竟，这种语言与普通英语之间的微妙差异对大多数单词预测任务来说并不重要。然而，当研究人员使用专门设计的测试来区分这两种语言时，差异立刻显现：对模型来说，这种“不可能语言”依然要难得多。

经典的剧情反转来了：语言模型并非无所不能。

任务完成？

研究结果显示，语言模型和人类一样，更倾向于学习某些语言模式，而非其他模式。它们的偏好在某种程度上与人类的偏好相似，但并非完全一致。同时，人类语言学习的某些方面可能依然可以用乔姆斯基的理论来解释。无论是人类大脑还是神经网络，它们的复杂程度都让人望而却步，尤其是在像语言学习这样微妙的任务上，理解它们的差异显得异常困难。论文标题《任务：不可能的语言模型》（Mission: Impossible Language Models）可谓一语双关。

但正如动作片中的英雄一样，研究人员总是乐于接受那些看似不可能的任务，并通过创造性的方法取得进展。卡里尼和她的合作者提出了一个简单的原则，称为“信息局部性”（information locality），用来解释为什么某些“不可能语言”对模型来说更难学习。这个原则可能也与人类的语言习得相关。他们的研究成果已经催生了若干具体的后续研究提案。

“这正是我喜欢这篇论文的地方。”南非开普敦大学的认知科学哲学家瑞安·内夫特（Ryan Nefdt）说道， “它开启了许多不同的研究方向和问题。”

一个值得探索的方向是研究“不可能语言”的学习难度如何依赖于神经网络的设计细节。米切尔和鲍尔斯早期实验中的负面结果已经表明，不同类型的网络在学习能力上可能表现出极大的差异。语言模型研究人员通常通过调整神经网络的设计来优化模型的性能，以便更好地学习普通语言。但或许更有意义的是，寻找那些能让模型更难学习“不可能语言”的调整方法。

“这会是一个非常有趣的项目。”波茨说道，“这正是我们正在为《任务：不可能2》（Mission: Impossible 2）所做的事情。”

像许多续集一样，这个“第二任务”也会包含一个次要情节，这一情节灵感来源于蒂姆·亨特对团队研究结果的回应。他建议将“跳词”语言与一种新的人工语言进行对比，他怀疑这种新语言会让网络更加难以应对，即便它更接近真实语言。亨特依然倾向于乔姆斯基的语言学观点，但他很高兴看到关于神经网络语言学习的主张正在被直接测试。“我希望能看到更多这样的实验研究。”他说。

卡里尼和她的团队希望，他们的研究成果能激励其他研究人员也参与到“不可能语言”的研究中。这是一个丰富的研究领域，其中蕴含着许多值得探讨的课题。

“这完全可能发展成一个许多人都能参与的研究项目。”富特雷尔说道，“它应该成为一种研究类型，而不是独占系列。”