欢迎收听Quantiscience播客。每一期节目,我们都会为您带来科学和数学发展方面的报道。我是苏珊·瓦莱特。
某些语法规则在任何已知的语言中从未出现过。通过构建具有这些规则的人工语言,语言学家可以使用神经网络来探索人们如何学习。接下来就是这个话题。量子杂志是一个编辑独立的在线出版物,由西蒙斯基金会支持,以增强公众对科学的理解。
学习一门语言应该没那么难。世界上每个婴儿都能在几年内做到这一点。弄清楚这个过程是如何运作的又是另一回事了。语言学家已经设计出复杂的理论来解释它,但机器学习的最新进展增加了一个新的因素。
当计算机科学家开始构建为现代聊天机器人(如ChatGPT)提供动力的语言模型时,他们搁置了数十年的语言学研究,他们的冒险似乎得到了回报。但他们的创造物真的在学习吗?
塔尔·林岑是纽约大学的一位计算语言学家。很难知道从这些模型的行为中得出什么结论。即使它们做的事情看起来像人类所做的事情,它们也可能是出于完全不同的原因。这不仅仅是关于定义的争论问题。如果语言模型真的在学习语言,研究人员可能需要新的理论来解释它们是如何做到的。
但如果这些模型做的是更肤浅的事情,那么也许机器学习无法为语言学提供任何见解。
语言学领域的大师诺姆·乔姆斯基公开支持后一种观点。在2023年《纽约时报》一篇措辞严厉的评论文章中,他和两位合著者列举了许多反对语言模型的论点,其中一个论点乍一听起来自相矛盾:语言模型与语言学无关,因为它们学习得太好了。
具体来说,作者声称模型可以掌握不可能的语言,这些语言遵循的规则与任何已知的人类语言都不一样,就像掌握可能的语言一样容易。最近,五位计算语言学家对乔姆斯基的这一说法进行了检验。他们修改了一个英语文本数据库,以生成十几种不可能的语言。语言模型学习这些语言的难度比学习普通英语要大。
他们的论文题为《不可能的任务:语言模型》,获得了2024年计算语言学协会会议的最佳论文奖。普林斯顿大学语言学家阿黛尔·戈德堡说:这绝对是必要的。人们认为这些大型语言模型毫无用处。
首先,他们本来就不应该能够学习语言。几十年来,这是普遍的说法。现在,情况是,他们学习语言的方式与人类不同,或者他们可以学习任何东西。这是一个反驳他们可以学习任何东西的观点的反驳论点。所以我认为这是一篇很棒的论文。我认为它非常及时且重要。结果表明,语言模型毕竟可能是研究人员寻求理解婴儿咿呀学语的有用工具。
在20世纪上半叶,大多数语言学家都致力于编目世界各地的语言。然后,在20世纪50年代后期,乔姆斯基领导了一种替代方法。他借鉴了理论计算机科学和数理逻辑的思想,雄心勃勃地试图揭示所有语言背后的普遍结构。
乔姆斯基认为,人类一定拥有专门用于语言处理的先天心理机制。这将解释语言学中的许多重大谜团,包括以下观察结果:某些简单的语法规则在任何已知的语言中从未出现过。
乔姆斯基认为,如果语言学习与其他类型的学习方式相同,它就不会偏爱某些语法规则而不是其他规则。但是,如果语言确实很特殊,这就是你所期望的:任何专门的语言处理系统都必然会使人类倾向于某些语言,从而使其他语言成为不可能。
加州大学洛杉矶分校的语言学家蒂姆·亨特说:说人类天生就能学习某些东西,而不说他们天生就不能学习其他东西,这实际上是没有意义的。乔姆斯基的方法很快成为理论语言学研究的主流。它保持了半个世纪。然后是机器学习革命。
语言模型基于称为神经网络的数学结构,这些结构根据其组成神经元之间的连接来处理数据。每个连接的强度由一个称为权重的数字来量化。为了构建语言模型,研究人员首先选择一种特定类型的神经网络。
然后,他们随机地将权重分配给连接。这使得语言模型一开始会吐出废话。然后,研究人员训练模型一次预测一个单词,句子将如何继续。他们通过向模型提供大量的文本数据来做到这一点。每次模型看到一段文本时,它都会输出下一个单词的预测,然后将此输出与实际文本进行比较,并调整神经元之间的连接以改进其预测。
经过足够的微调后,它学会了生成令人毛骨悚然的流畅句子。语言模型和人类在明显的方式上有所不同。例如,最先进的模型必须接受数万亿个单词的训练,这远远超过任何人在一生中看到的单词数量。即便如此,语言模型也可能为语言学习提供一个新的测试案例,一个规避对人类婴儿进行实验的伦理限制的案例。
哈佛大学的计算语言学家、这篇新论文的合著者伊莎贝尔·帕帕-迪米特里奥告诉记者本·布鲁贝克,没有动物语言模型。语言模型是我们第一次能够以任何干预方式进行实验的东西,关于人类语言的结构和性质。
语言模型能够工作这一事实证明,类似于语言学习的事情可以在没有任何乔姆斯基提出的专门机制的情况下发生。基于神经网络的系统在与语言处理完全无关的许多任务中都取得了巨大的成功,并且它们的训练程序忽略了语言学家关于句子复杂结构的所有学习成果。
萨塞克斯大学的计算语言学家杰夫·米切尔说,这是一种看待语言的非常线性的方式。这种学习模型,你只是试图学习下一个单词。所以你只是说,我已经看过这些单词了,接下来是什么?2020年,米切尔和布里斯托尔大学的心理学家杰弗里·鲍尔斯着手研究语言模型不同寻常的学习方式将如何影响它们掌握不可能语言的能力。
从头开始发明一种新语言会引入太多不受控制的变量。如果模型在学习人工语言方面更好或更差,很难确定原因。
相反,米切尔和鲍尔斯通过以不同的方式操纵英语文本数据集来设计实验的控制,从而创建了三种由奇特规则支配的独特人工语言。例如,为了构建一种语言,他们将每个英语句子在随机位置分成两部分,并将第二部分中的单词顺序颠倒过来。米切尔和鲍尔斯从四个相同的未经训练的语言模型副本开始。
然后,他们用不同的数据集训练每一个模型:三种不可能的语言和未修改的英语。最后,他们给每个模型一个语法测试,其中包含它所训练的语言的新句子。在不可能的语言上训练的模型对复杂的语法毫不费力。它们的准确性几乎与在英语上训练的模型一样高。
不可能的事情对语言模型来说似乎是可能的。乔姆斯基和他的合著者在他们2023年的文章中引用了这些结果,认为语言模型本质上无法区分可能的语言和最卡通化不可能的语言。就是这样。案子结了,对吧?
朱莉·科利尼并不确定。那是2023年8月,她刚开始在斯坦福大学攻读计算机科学研究生。乔姆斯基对语言模型的批评经常在她同学之间的非正式讨论中出现。但当科利尼查阅文献时,她意识到自三年前米切尔和鲍尔的论文发表以来,还没有关于不可能语言的实证工作。
她发现这篇论文很有趣,但认为乔姆斯基的概括性说法需要更多证据。它应该适用于所有语言模型,但米切尔和鲍尔斯只测试了一种现在不太流行的旧型神经网络。对科利尼来说,任务很明显:用现代模型测试乔姆斯基的说法。
科利尼会见了她的导师克里斯托弗·波茨,并提出对所谓的转换器网络中不可能的语言习得进行彻底的研究,这些网络是当今领先语言模型的核心。波茨最初认为这听起来太雄心勃勃了。“我记得有点泄气,因为这似乎需要我们训练大量的语言模型,还要解决一堆棘手的概念问题。”
“所以我有点觉得,对于你博士学位的第一个项目,也许对于整个博士学位来说,这都可以是一个项目。”朱莉对此非常执着。那实际上是录音中科利尼的笑声。因此,科利尼和波茨同意她将负责训练模型。但首先,他们必须确定要测试哪些特定的转换器模型以及要研究哪些语言。
为此,他们拉来了帕帕·迪米特里奥和另外两位计算语言学家,加州大学欧文分校的理查德·富特雷尔和德克萨斯大学奥斯汀分校的凯尔·马霍瓦尔德。该团队决定使用相对较小的转换器网络,其模型类似于GPT-2,这是为ChatGPT提供动力的语言模型的2019年前身。
较小的网络需要较少的训练数据,因此它们更像人类。也许它们也会像人类一样,偏爱可能的语言而不是不可能的语言?
科利尼很快了解到,并非每个人都这么认为。她在斯坦福大学计算机科学系的学生几乎都不是机器学习怀疑论者,但许多人仍然在不可能的语言辩论中站在乔姆斯基一边。“在这个工作正在进行的过程中,只是与斯坦福大学的其他计算机科学学生交谈,很多人都在赌转换器可以学习任何东西。”
任何东西。因此,该团队构建了十几种不可能的语言,其中大多数都是基于在普通英语数据集的每个句子中改组单词的不同程序。在一个极端情况下,改组是随机的,但在所有其他情况下,它都遵循一个简单的模式。例如,将每个句子分成三组相邻的单词,然后交换每组中的第二个和第三个单词。
他们还包括米切尔和鲍尔斯研究的部分反向语言,以及他们通过反转训练数据中的每个句子而生成的完整反向语言。
他们的最后一种语言,被称为“单词跳跃”,最接近普通英语。它只在如何判断动词是单数还是复数方面有所不同。它不使用后缀,例如“runs”中的“s”,而是使用一个放置在动词后四个单词的特殊字符。
该团队特别好奇地想看看模型是如何处理这种语言的,因为它受到了语言学文献中经典例子的启发。亨特说:“从任何一般的计算术语来看,说‘把这个词放在这个词的下游四个词’之类的说法似乎没有什么特别复杂的。这似乎正是你可能期望出现在人类语言中的那种东西。”
如果完全通用的计算原理是唯一指导因素的话。然而,我们观察一种又一种语言,却看不到任何这些。没有任何人类语言似乎遵循这种模式。所有不可能的语言都不同程度地破坏了英语的语言结构。但除了随机改组之外,它们都至少在某种特定的理论意义上传达了相同的信息。
富特雷尔说:“从理论上讲,原则上,一个无所不能的预测器对不可能的语言不会比对可能的语言有更大的困难。”科利尼和她的同事们从转换器网络的多个副本开始,并用不同的语言训练每一个副本。他们会定期暂停训练过程,以测试每个模型的单词预测能力。所有模型都随着时间的推移而变得更好。
即使在随机改组的极端情况下,模型仍然可以学习“the”比“impossible”更常见。但用未经修改的英语文本训练的模型学习速度要快得多,并且最终的表现也比其他所有模型都要好,只有一个例外。
在“单词跳跃”上训练的模型(用特殊字符替换某些动词后缀,这些字符距离动词四个单词)的表现也差不多。这并不奇怪。毕竟,这种语言和普通英语之间的细微区别对大多数单词预测并不重要。但是,当他们将在这两种语言上训练的模型与旨在精确指出这种区别的测试进行比较时,他们看到了明显的区别。
再一次,不可能的语言对它来说要难得多。这是一个经典的情节转折。语言模型毕竟并非万能的。结果表明,语言模型与人类一样,更喜欢学习某些语言模式而不是其他语言模式。它们的偏好与人类的偏好有些相似,但并不一定完全相同。乔姆斯基的理论的某些方面仍然可能在人类学习方式中发挥作用。
人脑和神经网络都非常复杂,以至于理解它们之间的区别,尤其是在像语言学习这样微妙的任务中,似乎是毫无希望的。论文标题《不可能的语言模型》在不止一个方面都非常贴切。
但是,像动作英雄一样,研究人员习惯于接受看似不可能的任务,并找到创造性的方法来取得进展。加利尼和她的合著者们确定了一个称为信息局部性的简单原理,该原理解释了为什么他们的模型发现某些不可能的语言比其他语言更难。该原理也可能与人类语言习得有关。他们的结果已经促使人们对后续研究提出了几项具体的建议。
南非开普敦大学认知科学哲学家瑞安·内夫特说:“这就是我真正喜欢凯利尼等人的论文的原因,因为他们所做的就是从理论语言学文献中提取这个高度理论性的说法,以及它所携带的所有包袱。”
“他们以尽可能中立的方式调查其各个部分,就像梳理这个连续统一样,我认为这在论文之外也很有用,即使你不相信结果,或者你质疑结果或方法论,我认为不可能的语言连续统非常有用。”
“所以我认为,从这个意义上说,它非常富有成效,因为它开辟了许多不同的途径和问题。”一种有前景的方法是研究不可能的语言学习如何取决于神经网络设计的细节。米切尔和鲍尔早期实验的负面结果已经表明,不同类型的神经网络可能具有非常不同的行为。
语言模型研究人员通常通过调整底层网络并查看哪些调整使模型在学习普通语言方面更好来改进他们的模型。寻找使模型在学习不可能的语言方面更差的调整可能更有成效。波茨说:“这是一个引人入胜的项目。这有点像我们正在为《不可能的任务2》所做的工作。”像许多续集一样,第二个任务也将包含一个情节,灵感来自亨特对团队结果的回应。
他建议将“单词跳跃”与他怀疑会给网络带来更多麻烦的一种新人工语言进行比较,即使它更像真实的语言。
亨特仍然最同情乔姆斯基的语言学方法,但他很高兴对神经网络中语言学习的说法正在直接进行检验。“我很想看到更多研究试图进行这种实验。我认为它所解决的问题非常到位。”科利尼和她的同事们希望他们的结果也能激励其他研究人员研究不可能的语言。这是一个丰富的领域,有足够的材料可以完成更多任务。
♪
阿琳·桑塔纳帮助制作了这一期节目。我是苏珊·瓦莱特。有关此故事的更多信息,请阅读本·布鲁贝克的完整文章《人工智能模型能向我们展示人们如何学习吗?不可能的语言指明了方向》,网址为quantamagazine.org。一定要告诉你的朋友们关于Quanta Science播客,并给我们一个积极的评价或关注你收听的地方。这有助于人们找到这个播客。来自公关。