AlphaGo从未停止改进。它变得超级智能,你可以投入10倍或100倍的最新资源,获得一个更超级智能的AlphaGo。因此,原则上,这些系统永无止境地学习。这只是你想投入多少资源的问题。现在,在语言模型和强化学习中,这还处于早期阶段。所以我认为我们还没有发现那种
大规模的可扩展蓝图,但已经有了立足点。欢迎来到Manifold。今天的嘉宾是Misha Laskin。Misha的背景是理论物理学。此后,他转向人工智能研究,并创立了自己的AI公司。
我认为这次采访对具有物理学或学术科学背景的人来说尤其有趣,但也对那些希望了解人工智能现状的人来说也很有趣。Misha,欢迎来到播客。感谢你的邀请,Stephen。我知道你在耶鲁大学学习物理学,并且你实际上在芝加哥大学完成了博士学位。是的。
也许只是告诉我们20多岁,20岁出头的Misha认为他会如何度过他的生活,为什么你会被物理学吸引。给我们讲述一下你那个阶段的生活片段。是的,我认为当我搬到美国时,我是俄裔以色列人,当我搬到美国……
十几岁的时候,我对两件事非常感兴趣,那就是物理学和文学。文学主要是因为我阅读能力不太好。所以我有点,你知道,这就像吃蔬菜直到你喜欢它们一样。所以一开始非常痛苦,但后来我确实开始喜欢它了。至于物理学,我们在父母的书房里有一套费曼讲义。我有很多时间,并且感到兴奋。
我认为,从某种审美角度来说,从一些第一性原理出发,理解关于世界运作方式的一些非常有趣的、非显而易见的含义,能够非常清晰地解释事物,这真的很美妙。我只是非常喜欢阅读它。所以这就是我高中时期对物理学的最初倾向。然后我基本上想做类似的事情。我想
从事有影响力的科学研究。我认为这是重点。从事有影响力的科学研究。我认为物理学将成为我的归宿。所以我对理论物理学产生了浓厚的兴趣,在物理学专业学习,并辅修文学,但在职业上真的想进入科学领域,并在芝加哥大学攻读理论物理学博士学位。
多体物理学,多体量子物理学。我认为,这实际上是一段非常美好的时光。我认为这是我,我非常怀念的时光之一。它有某种,呃,
几乎是100年前的物理学,因为至少那时你可以做理论物理学。我不知道现在是什么样子,但那时你仍然可以在黑板上做很多事情。所以我和我的导师或一些同事有很多讨论,我们会在黑板上画一些有趣的东西。是的,那是我生命中一段非常快乐的时光。
我认为在你完成博士学位后,你去了Y Combinator并创立了一家AI公司?我的细节正确吗?
是的,在我博士学位的后期,我有点,我会说,改变了想法,并不是因为我认为我正在学习的东西非常有趣,而是我觉得我成为这个非常狭窄的科学领域的专家了。虽然它在审美上非常漂亮且非常有趣,
但我很难想象,即使成功了,几十年后我会产生什么样的影响。我认为,是的,有些人从事物理学研究,我认为我能够看到,也许,我的意思是,我不知道,在年轻的时候或年长的时候,这取决于他们的耐心程度,巨大的影响。我周围就有这样的科学家。但也许我只是不耐烦。我很难想象几十年后才能知道我正在从事的工作是否……
会结果累累,或者不会……嗯,所以我做了一种……我会说,我认为我个人的信心下降了,因为这是一种我做出的赌注,我有很多信念,并投入了我近十年的生命,然后……真的不知道我应该做什么……但我想要尝试做一些……
几乎是我能想到的最实际的事情。不知何故,进入就业市场或劳动力市场似乎并不那么吸引人。坦率地说,我认为对于一个接受过非常理论训练的物理学家来说,其中一些也有些令人生畏。你有点
你知道,我没有正式学习过计算机科学。所以这一切对我来说都很陌生。所以我自学了编程。我想,这发生在我的博士学位快结束的时候。无论如何,我必须为我正在从事的一些项目学习编程。我决定对创业想法进行一次几乎可以说是随机漫步,而没有……
任何,我会说,当时我对应该构建什么没有内在的信念。这是一种随机漫步。这对其他人有用还是没用?最终,我专注于一家实际上为零售商构建库存预测系统的公司。所以,你知道,你应该为你的下一个季度制作多少件衣服,或者类似的东西?而且
在那时,我学到了很多关于创业公司的知识,主要是我学到了很多关于在那个过程中我不想要做什么的知识。但构建有用的东西也很有趣。只是我认为,关于创业公司,有一些基本的原则,也许我应该先阅读一些保罗·格雷厄姆的文章,但我是在创建创业公司时阅读它们的。我绝对认为其中一些是正确的。其中之一是简单的生产力概念。
对你的客户有深刻的同理心,并且热爱你的客户。现实情况是,我对那些我试图帮助的人,也就是零售业的人,并没有非常深刻的同理心,对吧?我不太了解他们。所以它最终变成了一个产生收入的咨询业务,但并没有围绕它建立产品。而且我并没有,你知道,特别满足于从事这项工作。
但与此同时,我看到深度学习正在兴起。特别是,我记得看到AlphaGo。这改变了我的一些想法,就我而言,我认为我生命中的那部分就像在沙漠中徘徊,试图把碎片重新组合起来,找到对我来说真正内在的、激励我的东西。当我看到它出现时,对我来说,这似乎是
我生活的时代里真正想从事的有影响力的科学。所以我基本上放弃了我正在做的一切,进入了一个洞穴,在那里我学习了深度学习和强化学习的基础知识。那是我第一次涉足人工智能。
在那阶段是什么让你,你可能立即跳槽到一家公司并开始从事人工智能工作,但你实际上去了伯克利做博士后。那么当时的思维过程是什么呢?我认为当时,人工智能作为一项有用的技术,这还不明显,这还是
在语言模型兴起之前的几年。我会说,一方面有很多行业研究正在进行,但它更多的是学术性质的。我当时正在考虑两件事。我正在与OpenAI接触。他们有一个针对来自不同领域的人员的学者项目,旨在帮助他们进入人工智能领域。与此同时,我被介绍给了
彼得·阿迪尔,他是伯克利大学的一名人工智能研究员和教授,在过去十年中做了很多基础性工作。我当时的决定是,我认为我在最短的时间内会在哪里学到最多?我认为作为一名博士后,我基本上能够迭代很多不同的想法,并且,呃,
有很多学习事件,回想起来,我的意思是,我认为这两个选择都不错。但当时,人工智能作为一个行业,作为一个商业行业,还不清楚它是否是产生最大影响的地方。而且它似乎是我当时学习最多的地方仍然是在学术环境中。现在,在这个时候,Transformer已经是大事了吗,还是才刚刚开始?
它们是,你知道,一些基础的Transformer论文已经发表了,但我记得这是在GPT-2之前。所以当我不清楚,你知道,当我加入实验室时,我想这受到了字母表的启发。我真的很想做强化学习,决策,解决我们正在讨论的问题。
我们当时只是使用RNN和NLSTM或任何需要内存的东西,而且经常只是MLP或卷积。所以使用Transformer或任何学习都很少见。它们在NLP中正在兴起,但在当时,NLP并不是,你知道,语言理解是人工智能的几个子领域之一。它不是,你知道,有计算机视觉,有,你知道,语言模型,有强化学习。我会说,当时可能最重要的是强化学习,因为它刚刚从,你知道,AlphaGo的突破中而来。而且它不是,当AlphaGo出现时,它不仅仅是AlphaGo,而是一系列论文,它们在不断地,我会说,
它们在简洁性和消除多少假设以及能力方面都变得越来越好。所以这些是AlphaGo、AlphaGo Zero,它在没有任何人类演示的情况下学习了围棋游戏。然后是AlphaZero,它从围棋游戏推广到其他游戏。还有FineRoom New Zero,它是……
一种算法,它也学习了游戏的规则,而不是被赋予规则,所以这是我认为人工智能界普遍关注的事情,我认为强化学习非常重要,即使Transformer在NLP中确实正在兴起,但这只是正在发生的事情之一,还不清楚这将是重要的事情
你是否觉得,这有点超前了,你是否觉得这个领域现在已经走了一个完整的循环,也许强化学习,因为最近的推理模型,或者强化学习调节这些推理模型的能力,它现在又回到了中心舞台?我认为它正在走向那里。这是一个非常有趣的转变,因为在我看来,在GPT-3之后,
当然在ChatGPT之后,整个强化学习领域有点退居二线了。我不会说它变得无关紧要,因为为这些模型的对齐提供动力的算法是RLHF。但它确实是……RLHF是一种相当弱的强化学习形式。许多人质疑它是否真的必要,而不是仅仅对指令微调数据进行高质量的策划。所以强化学习确实……
我会说退居二线了。所以在我参与了Gemini项目(谷歌的大型语言模型)之后,我意识到我认为这些成分可能已经摆在了桌面上,你拥有这些非常通用的对象,即语言模型。强化学习本身并没有什么根本性的错误。这不像我们学到了一些错误的东西。只是你需要一个好的……
要针对其进行优化的奖励信号,这基本上是你需要的,你需要一个任务分布来学习,你需要一个好的奖励,一种验证这些问题是否得到解决的方法,所以我认为,你知道,在我们发布了Gemini 1.5之后,这可能是开始考虑在语言模型之上扩展强化学习的时候了,我认为这在推理模型方面已经走了一个完整的循环……
这也很像,我认为,那些非显而易见的事情之一。我认为一年前,也许,是的,让我们说一年半前,推理模型是AI实验室追求的许多事情之一。还不清楚它们是否会像今天开始一样强大。所以我认为我们正在看到一种,我的意思是,这可能是这些AI浪潮的正常部分,即工作……
它开始,你知道,显然在对其他人来说很清楚之前,但当它发生时,实际上并不清楚这将是获胜的事情,除了,你知道,一小部分人对它有长期信念,并且看到了其他人没有看到的东西。
对。所以回到你的个人简介,因为我跳过了。所以观众并不真正知道你发生了什么。所以你在伯克利做了几年的博士后,然后你转到了谷歌DeepMind,如果我没记错的话。在那里你参与了Gemini项目。没错。是的,我加入DeepMind是为了……
继续基本上扩展强化学习的研究。再说一次,我不确定,你知道,当时我并没有真正从事语言模型的工作。我加入了一个名为通用代理团队的团队。所以,你知道,这真的是为了用强化学习来解决代理和自主性问题。这个团队由Vlad Mnih领导,他是深度Q网络的第一作者,也是发表了那篇论文的人,嗯,
在2013年基本上开启了深度强化学习时代,我认为……但后来发生的事情是我非常清楚地记得,我在新奥尔良的NeurIPS会议上,ChatGPT出现了,那天下午我正在做演讲,我有一种解离的时刻,你知道我为什么要说这些话,就像重要的事情显然是,你知道,你知道
我不知道,不知何故,我突然意识到现在重要的事情是如此明显。所以
那么为什么我在会议上谈论一些无关紧要的事情呢?所以当我从纽约回来后,我基本上放弃了我正在做的一切,开始研究语言模型,并参与了一个项目。当时,这是一个由少数人组成的小组。它成为了GemMod的强化学习和RLHF团队。
所以为了向观众澄清一下,你正在NeurIPS上就你倾注了心血的研究做演讲。但在你的脑海深处,你是否在想扩展Transformer作为语言模型才是真正应该关注的事情?这就是你明确的想法吗?这类似于某种想法。我在想以下几点。强化学习的问题是
在语言模型出现之前,我们已经开发出了这些极其强大的算法,它们在非常狭窄的领域中工作。你有一个超级智能的围棋玩家,很难……它并没有真正推广到任何东西。如果它确实推广了,它也是这样做的,你必须为不同的领域重新训练整个模型。而且
问题是,大多数感兴趣的领域,收集你需要的数据量并获得验证信号以使某些有用的东西在那里工作,这实际上是不切实际的。所以这是一个很大的存在性,我会说,泛化问题,我们拥有非常强大的系统。我们不知道如何使它们变得通用。当ChatGPT出现时,我那天玩了它,而且……
非常清楚。该系统非常通用。它可能还不够强大。它不是自主的。当时,它是一个相当弱的聊天机器人,但它非常通用。你可以问它几乎任何事情,它仍然会关心,对吧?它会回答。有时非常有能力。我记得当时我们发布了一个功能,它基本上将代码格式化为关于代码的博客文章。所以你可以问它关于代码的问题,然后它会为你写一篇博客文章。这真是太神奇了。所以我意识到
我们,或者至少是我,让我们说,在试图解决普遍性问题时,它已经被解决了,对吧?这些语言模型很棒,你知道。所以这只是解决问题的一种不同方法。我认为这才是真正有趣的地方。
你知道,在我很小的时候,在我真正学习任何物理学之前,我读过像《哥德尔、艾舍尔、巴赫》这样的书。所以我实际上在我了解任何物理学之前就对人工智能很感兴趣。我一直想知道这个问题,你将如何实例化关于广阔世界的知识?
在你的AI中。当时,麻省理工学院有一个非常庞大的项目,我认为,他们只是将真实的句子输入数据库,希望最终它会达到某个临界阈值,并了解世界。所以他们取得的一大成就,这让我很惊讶,就像,好的,通过下一个标记预测在数万亿个标记上训练的Transformer。哇,你得到一个世界模型
它实际上了解很多关于人类世界的信息,你知道,正如人类写作所观察到的那样。是的,这是一个零到一的时刻,这真是令人震惊。我认为人们可能仍然低估了这个零到一的时刻。就像历史学家会回顾过去,说,是的,这是整个事情中的一个不连续性。是的,这非常不明显。仍然,我的意思是,我认为对我来说仍然不清楚为什么
它有效。它确实有效,这很神奇。但是,是的,因为互联网是一个如此庞大而混乱的数据集。所以当你用它来预训练模型时,我的意思是,我们大多数人实际上并没有真正使用预训练模型,因为它,嗯,
它非常不友好。但我记得可以访问一些预训练的检查点并使用它们。如果你以正确的方式戳它们,你会得到一些非常有趣的答案。事实上,它们拥有这些强大的世界模型,然后,我会说,非常可控,就像……
进行指令微调和强化学习,你不需要做很多步骤就能从你的预训练检查点过渡到对人们有用的东西。这也很有趣。所以它解决了,在那之前人工智能领域有整个领域,也许,我的意思是,现在仍然存在,但我认为这是一种答案,即元学习,即如何从极少数示例中快速学习的概念。并且有各种复杂的算法来解释如何做到这一点。事实证明,最好的元学习者,最好的元学习算法只是互联网上的下一个标记预测。从元学习的角度来看,少样本提示基本上是从少量示例中快速学习。这真是令人惊讶。
是的,我认为在这样一个大型神经网络中,它足够通用,你强迫它进行下一个标记预测或擅长下一个标记预测,这个想法中有一些神奇之处。它通过这个自动化过程在自身内部构建反映世界事物结构。我认为先验地,我不知道会发生这种情况,但不知何故,他们偶然发现了正确的方法或一种方法来做到这一点。绝对的。是的,我认为这是……
这真的很神奇,而且一直萦绕在我的脑海中,我认为其中有一点是神奇的,在某种意义上是神奇的信念,我认为你只能从互联网上提取这么多信息。你只能从中压缩这么多信息,因为它是一种非常嘈杂的固定知识体系。在某个时候,我认为我们会达到……
一个你从你能想象到的东西中获得递减收益的点,你知道,一个无限大的大脑正在吸收互联网上的所有东西。这有点像,最大限度地发挥你的能力。而且还不清楚我们什么时候会到达那里?我们什么时候会基本上得到大脑,并说神经大脑,这些神经网络具有足够的容量,你已经从互联网上提取了几乎所有可以提取的东西。
是的,这很有趣,因为你不想达到过拟合的极限,在那里你已经记住了一切。
15万亿个标记或其他什么。你想要一些中间状态,它记住了一些东西,压缩了一些东西的版本,但它也构建了一些反映它所看到的信息之间关系的结构。所以对我来说,这似乎非常不平凡。我认为我认为那些将来拥有许多这些模型进行实验的人,他们可能比我们现在更好地理解这种动力学。
绝对的。我认为关于这个预训练时代的另一个令人惊讶的事情是,通常在机器学习中,你会考虑,你有一个纪元的概念,就像你多次训练你的数据集,你会看到你的训练和测试验证曲线在哪里发散。这就是你知道你正在过拟合的时候。但对于预训练,你做的少于一个纪元。
基本上,你扫描的互联网数据总量少于总量。所以会发生过度编码,因为有时数据是重复的。有时它会出现在互联网上两次,就像一篇文章可能会被联合发布或类似的东西,或者事情可能非常相似。但总的来说,它少于一个纪元。
你是否知道我们是否已经达到了……所以在各种论文中,例如小羊驼论文中的缩放关系中,看起来如果你想将模型大小增加一个数量级或将有用的计算量增加一个数量级,你需要更多,也许是平方根,更多的数据。至少根据这些关系,在我看来……
去年年中,在我们耗尽计算能力或模型潜在模型参数大小之前,我们会耗尽数据。这是正确的吗?这是否也是谷歌内部人士的说法?我认为这大致正确。这,这可能比一些人预测的更难从预训练语料库中提取显著的收益。我认为有一种感觉,这可以,你知道,继续,
继续扩展你的模型大小,你就会得到越来越好的模型,这些模型都训练到相同的预训练语料库。我认为我们已经开始看到收益递减了。通过重新训练作为一个领域,所以在这些实验室的多个实验室中。
而且有一段时间,好吧,首先,我认为这些模型肯定可以产生很多实际价值。即使你耗尽了预训练语料库,在指令微调、RLHF和整体数据策划以及优化架构方面,仍然有很多事情可以做。所以可能,即使没有其他变化,也可能仍然会有……
相当大的进步。但我认为人们担心这可能是这个想法的极限了。你可以提高它的效率,但你如何获得更智能的系统?我认为北极星仍然是那些系统
帮助你自主地做事,帮助你自主地完成你想要做的事情。所以作为一个科学家,它可能是,好吧,有很多编码工作和设置实验以及这些你可能想要系统的东西,但从愿望的角度来看,你希望它们也能帮助你发现新的知识,并且成为一种耐心的合作者。还不清楚仅仅用气体进行预训练,用一些气体进行对齐的预训练,
对。所以你对……也许你还在谷歌的时候,那里的推理工作开始了?或者你参与了吗?
所以当它开始的时候我在谷歌。我个人没有参与那里的推理工作,但我有一些同事参与了。当然,我正在研究RLHF和奖励模型训练的基础设施和方法。当然,使这些推理模型发挥作用的是这样一个事实,即它基本上是CAS模型。
学习推理是一个强化学习问题。所以肯定有合作,但我没有参与推理团队。对。所以我解释推理的方式,你知道,在过去,比如说,六个月或其他什么时间里推理的进步是……
你知道,你让模型不再给你一个快速的答案,它会和自己对话,它会学习推理的行为,如果它以推理的方式行事而不是以某种立即响应的方式行事,它可以做得更多。
但我对这个的思维模型,我很想听听你的想法,是预训练模型并没有变得更强大,但你让它以不同的方式行事。在这种新的行为模式下,它更强大或更有用,但你并没有真正改进底层模型。你认为这公平吗?我认为如果你谈论普遍性,这是公平的……
我认为预训练范式是互联网上数据的多样性很难人工再现。但我认为你正在提高模型的能力及其深入思考的能力。所以对于你训练它的数据分布,无论是数学、编码还是其他可验证的数据,它确实实现了一种新的能力。而且
我认为这与我们忘记语言模型并查看如何训练大规模强化学习系统的方式非常相似,它们通常具有模仿学习组件,你从中学习一些人类数据,然后是一个强化学习组件,你从人类数据结束的地方开始,
让模型自我改进,直到它变得超级智能。这就是 AlphaGo、AlphaStar、开眼界、Dota 项目、模仿学习以及随后的强化学习的蓝图。我认为现在正在发生同样的事情,你可以将预训练和指令微调视为对所有这些数据的模仿学习,对吧,所有这些数据都是人类生成的。我们现在也看到它由眼睛和合成数据生成,但它主要还是人类生成的数据。
这为你提供了一个起点,模型开箱即用就具有非平凡的推理行为。它不是说它没有推理行为,现在有了。它具有非平凡的推理行为,这就是围绕思维链提示的整个工作线,它先于推理。然后,当你将其放入在线强化学习循环中,并找到一种验证输出的方法……
你可以信任你的验证。也就是说,如果你不信任你的验证,那么它可能会被黑客攻击,你的模型就不会以正确的方式进行推理。但是,假设你弄清楚了如何解决这种奖励黑客问题,那么你就是在强化模型中已经存在的良好推理行为。但在某些时候,你实际上超越了模型先前所知内容的分布,它只是在学习新的东西。我认为这就是这些推理模型发生的事情,它们是
它们学习了预训练模型不知道的新事物。新事物实际上是在强化学习阶段学习的。所以如果我给它一些数学题,它会以某种方式调整参数,以便能够解决这些数学题,这可能会强化它对变量变化或某些三角恒等式的掌握。这样想是否公平?
是的,我认为这样想很公平,就像你说的那样。而且我认为,同样,AlphaGo 的类比在这里适用,因为 AlphaGo 和 Xero 系统学习了很多东西,很多策略是人类还不知道的,AlphaGo 的著名 37 步。而且
我认为这里也发生了类似的事情,但也许不那么,它还不那么剧烈。我认为我们还没有看到任何接近语言模型的 37 步的东西,这明显是新知识的创造。但它,你知道,我认为理解强化学习的一种方式是,它是
一种生成合成数据的方法,通过验证哪些合成数据轨迹是好是坏,你就可以放大好的轨迹,降低坏的轨迹的权重。因此,一旦你的代理偶然发现了一个有效的策略,这个策略就会得到强化和内化。这就是某种疯狂的知识的来源。起初,这是一个意外,但后来它被内化成一个实际的策略。我认为这是
我大致这样看待这些事情的方式。我认为我们现在正处于一个有趣的阶段,强化学习开始在大型语言模型之上再次发挥作用。但我们还没有达到语言模型的 AlphaGo 时刻。还没有出现这种强大的新知识创造。
所以在 DeepSeek R1 论文中,他们非常公开地说明了他们做了什么。我喜欢阅读他们的论文,因为对于谷歌、Gemini 或 OpenAI,我总是不得不猜测他们在做什么,但至少对于 DeepSeek,他们非常明确。所以在论文中,纵轴是在一些 AI 数学问题上的性能。我认为右侧可能是 RL 步骤或其他什么。
看起来曲线正在弯曲。所以它没有。或者至少训练的增长率,首先是更剧烈的,然后是更小的。事实上,在最后期限,你可以猜测它只是在稍微波动。如果不是在增加,它增加的速度非常慢。因此,对该图的一种解释可能是,如果没有以他们尚未尝试的其他方式改进基础模型,
即使沿着该方向继续进行 RL 也未必会定性地提高该模型的数学能力。你认为这是否合理,或者你认为这可能是对该图的错误解释?好吧,我认为,首先,当你查看大型语言模型或之前的强化学习曲线时,普遍存在的一点是,它们往往是线性很多的。所以他们……
如果他们将实验运行 10 倍的时间,我认为,我们可能会也可能不会看到不同的结果,但让我们这样说。如果验证是好的,如果检测到该事物是否被正确解决的方法是好的,并且模型的探索是不错的,也就是说,它正在尝试合理的策略,那么你将获得这种值得称赞的行为,它基本上永远不会停止学习。嗯哼。
现在,它……实践中的强化学习算法确实会在某个时候停止学习,但这通常……是的,通常有办法克服它。所以当你……
我的意思是,举个例子,回到 AlphaGo 之类的东西,AlphaGo 从未停止改进。它变得超级智能,你可以投入 10 倍或 100 倍的资源,获得一个更超级智能的 AlphaGo。因此,原则上,这些系统永远不会停止学习。这只是你想投入多少资源的问题。
现在,对于大型语言模型中的强化学习来说,这还处于早期阶段。所以我认为我们还没有发现这种大规模可扩展的蓝图,但已经有了立足点。所以给你一种感觉,至少我们是这样看待的,即使在我们查看 DeepSeaCard 1 时,它也是……
比普通的 RLHF 算法更强大的算法,但它实际上仍然是一种相当弱的 RL 形式。我们称之为单步强化学习,你
你知道一旦你长时间思考,然后你只生成一个解决方案,这基本上是一步,但我认为这些系统的自然演变,特别是那些在你电脑上运行的系统,将是那些将进行思考和行动或多步的系统,它们思考和行动,思考和行动,等等,并且在这些步骤之间存在某种趋势分配,所以我认为我们还处于强化学习……
在大型语言模型之上的发展故事的早期阶段,在深度强化学习开始时,DQN 出现在 2013 年。通过,你知道,Atari 和 MuJoCo 的轨迹直到 2010 年代后期才结束。所以至少有五年时间,并且取得了很多进展。
我希望在这里发生类似的事情,但在压缩的时间线上。投入这些东西的资源数量要大得多。我认为我们现在看起来更快了。基础设施更多了。所以我怀疑,而不是五年,可能只需要几年时间,我们就能在一些有意义的知识工作领域看到类似超级智能语言模型的东西。
所以我认为这种绿色学习力不会适用于它们。明白了。我认为我在另一个播客上听到你说,你知道,你距离 AGI 还有三年时间。我认为你刚才说的话也在重申这一点。所以,你知道,我期待的一件事,我期待有人发布这种类型的论文的模型的一件事是,
你知道,进行 RL,模型正在对某人的电脑采取行动,或者使用他们的浏览器或其他什么。这肯定是一件非常有成效的事情,因为,正如你所说,它思考它采取行动。它思考它采取行动。也许它试图为你从互联网上购买某些东西或其他什么。它将在每个步骤中获得反馈。所以你可以想象这就像一条非常有成效的 RL 轨迹。
RL 空间。是的,我希望有人发布一个模型,该模型非常擅长在亚马逊和易趣以及许多商业网站等地方做事情。所以是的,可能会比预期更快地发生。这是可能的。我认为这是一个我们正在进入的有趣的时代,因为
很多事情取决于你是否能够操作一个足够好的数据分布,这些数据分布对于这些任务是可验证的。所以我认为这是一个很大的问题,对于某些基于浏览器的任务来说,收集足够好的数据很难。没有基于浏览器的任务的存储库。
说,大规模且多样化的任务和奖励。所以当我们看到这些推理模型工作时,它们之所以能够工作,是因为存在用于问题和答案、数学和编码(如教科书编码)的多样化数据池。所以我们知道,当你有这种数据结构时,这些系统就能工作。但在更实际的场景中,获取这些数据池比较困难,我认为你必须在如何……
如果它们不存在于某种易于访问的格式中,那么是否存在你可以调用的某种策略,基本上可以以巧妙的方式获取你所需的数据?所以我认为这很大程度上取决于你如何操作数据收集,这绝对是一件很难做的事情。当你阅读 DeepSea 论文时,有一件事他们根本没有告诉你任何信息,对吧?是的。
我认为另一件非常有趣的事情是,强化学习某种程度上,让我们说……
它与你训练的环境相耦合。一旦你有了,我的意思是,现在我们有了这些推理模型,但一旦你有了带有工具的环境,例如用于代码编辑或浏览器或其他与计算机交互的方式,并且你通过该环境运行强化学习算法,它就会与这些工具相耦合。所以它实际上会失去通用性,对吧?因为它,
它可能会学习,除非你以某种方式训练它,如果你以这种非常通用的推理方式训练它,它可能会学习某种程度上泛化到一些新工具。但是与环境相耦合的系统很可能会在该环境中实现更深层次的性能。所以,对,如果你与……
例如,一个编码环境、一个浏览器和一些用于进行科学研究的工具相耦合。并且你有一种方法可以验证你是否正在回答科学家关心正确回答的科学问题。所以你有,你解决了数据分布问题。然后,你针对此环境训练强化学习算法,它将某种程度上掌握你提供给它的环境中的工具。而且,
但不会泛化到,比如说,其他环境中的工具。RL 方法与你训练的环境相耦合,这是一种有趣的方式。这可以追溯到大型语言模型之前强化学习发生的事情,因为这些系统与它们的环境相耦合。所以 AlphaStar 与 StarCraft 环境相耦合,AlphaGo 与围棋棋盘相耦合。我认为现在我们将看到这样的产品,它们的强化学习算法针对……
某些任务集进行训练,驱动它的神经网络与它所针对的环境相耦合。一个例子是,我不知道这实际上是否就是幕后发生的事情,但是当我查看像 OpenAI 的 Deep Research 这样的产品时,它是由 O3 驱动的,这让我觉得最有可能发生的事情是……
用于深度研究的工具,例如语言模型用来与之交互的 Web 浏览器和索引。可能,你知道,O3 或任何推理模型都被采用,然后针对这些工具进一步训练这个强化学习,以获得某种结果。所以我认为这可能是下一个,这是一个限制,但也可能是系统的优势。
所以我自己和一些我认识的其他理论物理学家一直在用这些推理模型进行实验,只是为了看看它们对我们这种研究到底有多有用。我发现的一件事是,它非常擅长查找内容并对其进行总结。
但是如果我要求它,你知道,也许解决一个实际的研究级问题或思考一些研究级的事情,它通常会返回看起来像是更能反映文献中共识的东西,这,你知道,如果我问的是一个前沿问题,可能是错误的。然后令人沮丧的部分是,如果我是在白板旁与研究生交谈,我可以纠正研究生,研究生会立即更新他们的神经连接,并且
根据我告诉他们的内容。然后他们会正确地进行推理,随后将我给他们的那个小小的推动,我给他们的那个更新整合进去。但是,关于这些模型令人沮丧的是,我可能会发现一些错误的推理,甚至是矛盾的推理,以及它反馈给我的内容。我向模型指出了这一点,但它实际上无法根据这一点进行更新。它只是继续给我同样的答案。
所以这种测试时学习或测试时记忆,你可能看到了这篇 Titans 论文。对我来说,这非常有趣。就像,它能够在测试时实际更新自己的正确方法是什么?你有没有想过这种事情?是的,我认为这是一个有趣的问题。从某种意义上说,这些推理模型是某种固有的,我认为。
预训练模型的先验知识,它们是在这些模型上训练的。再说一次,我们必须记住,他们今天训练的强化学习方法实际上是强化学习的相当弱的入门级方法。所以,这对我来说是一种,同样,我们距离 LOOP 37 时刻还很远,或者也许没那么远,你知道,因为这仍然是两年的问题。这是一个视角问题。但当我说是很远的时候,这就是我的意思。
它很大程度上回到了数据分布问题。例如,在用 RL 或其他方式训练模型时,它看到更正以及对更正的适当响应并得到强化的频率是多少?我认为其中有一点。例如,这些模型从……
不太擅长回溯到回溯。所以现在当你查看 R1 的思维链时,你会发现它经常会说,等等,也许我应该重新考虑一下并返回。有这些……
枢轴词,如等等或哦等等或等等,其中一部分可能明确地混合在数据分布中,你可以运行奖励验证器并查看,特别是如果你有一些按步骤进行的验证器,并查看它在哪里出错,然后在那里插入一个哦等等,并继续在此基础上进行训练。所以我认为很多这取决于你如何策划你训练的数据分布。
但从根本上说,我认为这些系统是用相当弱的 RL 训练的。因此,由于这个原因,它们仍然……它们学习了一些最初不在预训练模型分布中的东西。但在生成新知识方面,这非常困难。我实际上也有过与你非常相似的经历。我想知道它是否可以重现我的博士论文。这基本上是我想知道的。我的博士论文,即使它做了很多工作……
在上面工作,但我实际上可以相当快地总结所做的事情。如果你以正确的方式提出问题,这是一个相当可能的推导,但只有一两个关键部分确实很棘手。实际上,我的博士学位是研究分形单一效应的各种特征,并进行……
基本上是对各种分数霍尔态的电子密度的微扰理论近似。基本上,当你展开这个东西时,前两个矩很容易找到。第一个矩基本上是本科物理学。第二个矩是统计力学的研究生课程。第三个矩,它有一个非常有趣的……
物理常数,它是分形量子脉冲态的几何特征,是我在博士期间发现的东西。那个是非平凡的。那个,你需要一块几何来解决它。无论我怎么提示它,它都无法得到它。它只得到了教科书中存在的头两件事。它无法生成新知识。
是的,我认为是这样。我认为这是人们目前的感觉,它仍然有用。例如,如果我不了解某个领域,我只是想了解文献中已知内容的摘要,它可以简洁地提供该摘要。但对于在现有文献中没有以强有力方式存在的东西,推进它就极其困难了。是的,是的,完全正确。让我们两年后再回来看看
看看会发生什么。我认为,尤其是在物理学、方法和理论数学方面,我们可能会看到那里的变化比其他领域更快。是的。所以,我知道你时间很紧。所以我们还有大约五分钟的时间到你下一次会议。所以让我最后问一个问题。所以,
你来自理论物理学的背景,对人工智能有什么特别的看法?你带来的视角有什么独特之处?我在另一次采访中问过约翰·舒尔曼这个问题,但我很好奇你认为如何。这是一个好问题。好吧,我认为物理学首先教会你,物理学非常困难。所以当你进入人工智能领域时,人工智能实际上比物理学容易得多。至少这是我的观点,学习它很好。
速度快得多。所以你被数学所吸引。你必须学习的东西,你必须学习如何编码,这很有挑战性,成为一个非常优秀的工程师非常困难。但是,你知道,一旦你经历了,你知道,物理学的磨练,我认为你学习事物的那种意志力就足够了。所以一切皆有可能。我认为特别的是
这件事,对于物理学家来说可能是显而易见的,试图从某种简单的第一性原理集合中理解事物,并从中推导出事物,并寻找简单的解决方案,这很有趣。
在人工智能领域并不明显,甚至可能并不常见。编写人工智能论文的一种常见方法是,或者曾经是,而且我相信现在在学术界仍然是某种程度上正确的,但它是采用一种架构,使其更复杂。采用你的算法,使其更复杂。增加复杂性以获得一些性能提升,然后写一篇关于它的论文。
我认为这实际上可能是作为人工智能研究人员运作的最常见方式,即你采用现有的东西,并通过使其更复杂并获得一些性能提升来推进它。但这非常短暂。实际上,我不认为,我甚至不确定我是否读过任何有影响力的论文。这是为会议撰写论文的模板,但我不知道任何有影响力的论文实际上都使用了该模板。而且
这种从一开始就尝试简化事物,甚至做最简单的事情,以及从空白状态开始,没有任何先入之见,这非常有帮助。一个例子是,我进入强化学习领域时,基本上对什么有效,什么无效没有任何先入之见。这是人们研究基于像素的强化学习的时候,当你为机器人或电子游戏进行训练时,存在所有这些关于……
RL 很棒,但它不是数据高效的。有时它在这些基于像素的环境中不起作用。而我的第一篇论文之一是一件非常简单的事情。它只是尝试,好吧,如果我们只是简单地抖动图像,随机裁剪它们,因为也许只是这些系统总是看到相同的视角,所以它们正在记住它。而且
我采用了一位不同的同事的良好实现,一种称为 StopLockerCritic 的强化学习算法,实现了这种随机裁剪,基本上是这种摄像机的抖动。结果发现,这件简单的事情在当时超越了基本上所有具有额外复杂性水平的最新算法。所以我并不是说这是一个特别好的想法或没有影响力,但它
这让我很惊讶,以前没有人认真尝试过。所以我认为物理学家带来的一个有趣的视角是,尽可能地将问题简化到其核心原理。在某些情况下,我会说,从物理学领域进入人工智能领域的一些最有影响力的工作是关于缩放定律的工作。
就像这是一种看待在临界温度下发生的缩放定律的视角,你知道,在理论物理学中或围绕临界相变。并注意到,你知道,这些缩放定律具有某种,你知道,与之相关的普遍物理特性,并且……
在训练这些深度学习模型时可能会发生这样的事情,这在当时对人们来说并不明显。因此,领导这项开放和缩放定律工作的人甚至不是以前的物理学家。他们当时要么是最近的前物理学家,要么是当时的现任物理学家。我认为 Jared 仍然在霍普金斯大学工作。我不确定。但是是的,他会告诉。他可能在技术上仍然是一位物理学家。但是,嘿,我不想让你迟到你的下一次会议,所以……
非常感谢这次谈话。也许两年后,当我们把 AGI 装进口袋时,我们会再次邀请你。非常感谢。是的,当然。感谢你的邀请,史蒂文。