Noam Brown是OpenAI的研究科学家,他参与了O1项目的核心工作。Noam在大型语言模型(LLM)的推理方面处于领先地位,在FAIR拥有非常有趣的过往经历,在那里他致力于外交和扑克等领域的问题,我们讨论了当今LLM中关于无监督学习的最大问题。我们讨论了这些模型是否遇到了瓶颈,测试时计算能够扩展到什么程度。我们还探讨了Noam如何定义AGI,以及在过去几年中他对AI研究的看法发生了哪些改变。这是在O1正式发布后进行的一次非常有趣的访谈,我相信大家都会喜欢。话不多说,让我们开始吧。
Noam,非常感谢你来到播客节目。当然,很高兴来到这里。我已经期待这一刻很久了,而且时机也很好,因为Shipmas有一些令人兴奋的发布。是的,我也很期待。我们明天将发布O1,我想当这个播客发布时,它已经面世了。我对此非常兴奋。我认为社区会喜欢它,但是……
但是我想我们会看到的。好吧,我不应该不从我认为过去一个月围绕的一个问题开始:我们是否已经达到了模型能力的瓶颈?我认为这个问题显然有很多方面。所以也许首先要问的是,你认为在预训练的扩展方面还有多少潜力可以挖掘。
我对这个问题的看法,而且我已经公开表达过,我认为在各个方面都有更多空间可以突破,我认为这包括预训练。我认为正确的思考方式是,每次你想进一步扩展这些模型时,都会付出相应的代价。所以你看GPT-2,它的成本在5000美元到50000美元之间,具体取决于你的衡量方法。你看GPT-4,显然有很多改进,但是
最根本的、最重要的事情发生了变化,那就是投入的资源数量。你从为前沿模型花费数千到数万美元,到数十万,到数百万,到数千万,对于一些实验室来说,可能是今天的数亿美元。模型不断改进。我认为
这种情况将会持续下去。如果你投入更多资金、更多资源、更多数据,所有这些东西,你都会得到一个更好的模型。问题是,好吧,如果你想每次都提高10倍,那么在某个时候,这将成为一个难以承受的成本。
所以,好的,下一个,如果你想让它更好,你想再提高10倍,现在你说的就是数十亿美元。你想再提高10倍,现在你说的就是数百亿美元。在某个时候,继续推进它在经济上不再划算。所以你不会花费,你大概不会在模型上花费数万亿美元。所以没有硬性限制。更像是一个软性限制,最终经济因素不再起作用了。对。
对。而且看起来显然有,你知道,在许多方面,你可以通过测试时计算来推进这一点,就像,你知道,就像在成本方面有更容易实现的目标来推进这一点。没错。这就是为什么我对测试时计算如此兴奋的原因。我认为为什么,就像,你知道,很多人对此感到兴奋的原因是,我们仍然,这有点像我们回到了GPT-2时代,就像GPT-2被发现,缩放规律被发现一样,很明显,哦,你只需要把它放大一千倍,你就会得到一个更好的模型。你可以做到。
现在将预训练的东西放大1000倍有点困难,但是对于测试时计算,我们还处于早期阶段。所以我们有很多空间,很多发展空间来进一步扩展它。算法改进还有很多低垂的果实。所以我认为在这个方向上还有很多令人兴奋的事情要做。这并不是说预训练已经完成了,而是测试时计算范式还有更多进展的空间。我还应该说,这并不像,即使回到预训练一会儿,这并不像……
你知道,你可以推动两到三个数量级,然后你就完成了。你仍然会遵循摩尔定律。我认为成本会继续下降。这只是像,你能多快地扩展它?就像有一个巨大的悬空部分,很容易快速扩展它。而这正变得不那么真实了。我意识到这可能是一个过于宽泛的问题,但是测试时计算的上限有多高?你怎么看待,你知道,它能发展到哪里?我再次从美元价值的角度来考虑这个问题。所以,
一个ChatGPT查询的成本是多少?大约一美分。对于一个你非常关心的查询,你可以花费多少成本?你愿意支付多少成本?我认为有些问题,人们愿意为此付出很多钱。我说的不是一美元或五美元。我说的对社会来说最重要的一些问题,是数百万美元。
那么有多少数量级呢?就像,那是多少,八个数量级?所以我认为……
还有很大的空间可以进一步推进。我还认为算法改进还有很大的空间。这不仅仅是说,哦,我们只是要投入更多资金到查询中,然后你就会得到更好的输出。而是说,不,实际上我们可以进一步改进这个范式,并使扩展更好。你知道,我想到的一件事是,我想大约一个月前,萨姆·阿尔特曼发推文说,我们基本上知道我们必须做什么才能构建AGI。我认为你发推文说他的观点与今天OpenAI研究人员的平均观点相符。嗯哼。
你能详细说说吗?因为现在有很多人都在说,哦,我们遇到了瓶颈。你认为他们错过了什么?我觉得我们对此已经相当坦诚了,我们认为事情正在迅速发展。我认为这是我的观点。我认为萨姆表达了他的观点。我认为,你知道,我听到一些人说,哦,萨姆只是想,你知道,制造炒作之类的。我对此有点惊讶,因为我们说的是同样的事情,而且,你知道,
是的,我认为公司里普遍的观点是事情会迅速发展。你认为仅仅是预训练和测试时计算就能让我们走完大部分路程吗?或者还有,看起来还有这个算法的方面。这绝不意味着我们已经,我们已经破解了超级智能的密码,现在我们只需要,你知道,嗯,扩展它。如果你来到播客并宣布你已经做到了,那将会非常酷。呃,但是我认为,好的。所以我思考的方式,嗯,
在2021年末,2021年末,我和Ilya Sutskever喝过咖啡。他问我关于我的AGI时间表的问题。我告诉他,说实话,我认为这需要很长时间。我非常怀疑我们能在未来十年内实现这一目标。我给他的主要原因是
我们没有一种通用的方法来扩展推理计算,一种扩展测试时计算的方法。就像我看到它在游戏中产生了多大的影响,以及它在大型语言模型中没有以一种非常通用的方式存在。嗯,
对我来说,这似乎有点愚蠢,我们仅仅通过扩展预训练就能达到超级智能,因为你知道你看这些模型,是的,它们正在做一些非常聪明的事情,但是你知道那时它们甚至无法画出一个井字棋棋盘,你知道,是的,你得到了GPT-4,突然它们可以画出棋盘,并且可以做出大部分合法的移动,但是有时它们仍然会做出非法的移动,它们
在井字棋中做出非常次优的决策。而且,我毫不怀疑,如果我们将预训练再扩展一个或两个数量级,它将开始非常出色地玩井字棋。但是,如果这就是现状,我们花费数十亿美元来训练一个模型,而它几乎无法玩井字棋,你知道,这距离超级智能还差得很远。所以,
所以我告诉他,你看,在我们弄清楚如何以非常通用的方式扩展推理计算之前,我们不会达到超级智能。我认为这是一个极其困难的研究问题,可能需要至少十年才能解决。顺便说一句,令我惊讶的是,他同意我的观点。他同意仅仅扩展预训练并不能达到超级智能。我认为,当时我没有意识到,但他也在非常非常仔细地考虑这个扩展测试时计算的方向。
所以我认为这至少需要十年。它只用了两三年。我认为那是当时最难解决的研究问题。我毫不怀疑还有其他问题没有解决,还有其他研究问题没有解决。但我认为没有任何一个问题会比我们已经解决的问题更难。是的。
因此,我认为事情会继续发展。显然,你在测试时计算工作中产生了巨大的影响。而且,你知道,你的研究生涯显然是在搜索和规划方面,你知道,像扑克和外交这样的游戏。而且,据其他人说,似乎当你加入OpenAI时,你非常清楚,这就是需要推进的方向。这似乎真的得到了回报。我很好奇,当你加入时,这种方法的共识程度如何,你知道,
呃,你知道,也许谈谈让研究组织围绕这个方向展开工作。是的,很有趣。呃,当我,嗯,进入就业市场,我就像,你知道,在很多地方面试,人们普遍对这个想法很接受,好的,就像,好的,研究实验室,我认为实际上每个人,呃,大部分都在前沿研究实验室相信仅仅预训练不会让我们。目前的范式不会让我们达到超级智能,还需要其他东西。呃,所以对这个想法有很多接受度,好的,嗯,
是的,也许我们需要弄清楚如何扩展测试时计算。一些实验室比其他实验室更认同这一点。而我实际上有点惊讶OpenAI真的非常认同这一点,因为,你知道,他们是大型预训练的先驱,而且比其他任何人都更进一步地扩展了它。但是他们,他们非常认同这一点。当我与他们交谈时,我当时并不知道,在我加入之前,他们也已经考虑过这个问题一段时间了。所以当我,当我加入时,我,
你知道,这很有趣,因为我认为动机是不同的。嗯,他们想到的动机更多的是关于克服数据壁垒。嗯,不是关于,我们需要弄清楚如何扩展测试时计算。更多的是关于,我们如何,我们如何克服数据壁垒?嗯,但是技术,嗯,议程最终是相当兼容的。而且,嗯,
是的。所以实际上并不难获得,你知道,看,当我,当我们开始时,它仍然是这个探索性研究方向。嗯,有一些人在研究它,但这并不像,你知道,一半的公司都致力于它,致力于这个大规模的努力,无论如何。嗯,在我加入几个月后,呃,你知道,我们,我和其他一些人都在尝试一些事情,嗯,
其中很多都没有成功,嗯,但是你知道一个人尝试的一件事,最终得到了一些生命迹象,而且人们说,哦,这看起来很有趣,也许我们应该,你知道,尝试更多的事情,就像,你知道,你得到越来越多的生命迹象,而且,最终,我认为领导层意识到,好的,这里实际上有一些不同且有价值的东西,我们应该真正地扩展它,是的,而且
我支持这一点,但我认为其他人也支持。我认为这是OpenAI及其组织卓越的证明,它能够认识到这里有很多潜力,并且愿意投入大量资金来扩展它。我认为一个被低估的观点是,在许多方面,像O1这样的东西能够从OpenAI中产生出来,这真的很令人惊讶。它具有颠覆性,但是……
对于OpenAI的范式来说,它是具有颠覆性的,你知道,它颠覆了OpenAI开创的范式。我认为这是一个非常好的迹象,表明OpenAI并没有陷入创新者困境,并且愿意投资于一个有风险的方向。我认为在这种情况下,它会得到回报。
是的,不,这真的很有趣,因为显然,如果剧本继续上演仅仅是持续扩展预训练并筹集更多资金来做到这一点,OpenAI处于一个非常有利的地位来做到这一点。所以任何正交的方法,是的,它都是不同的。所以它来自同一个地方是很酷的。显然,你最初的时间表是,嘿,这需要十年时间才能做到。你只用了两年就做到了。你首先看到了什么让你觉得,是的,好的,实际上这可能比我想象的要快得多?
首先,这不仅仅是我。是我和许多其他人一起,在比我预测的更短的时间内做到了这一点。我首先看到了什么?我认为当我加入时,我们进行了很多关于我们希望模型执行的行为类型的讨论。这包括诸如
我们希望能够看到它尝试不同的策略来解决问题,如果一种策略不起作用。我们希望看到它处理一个涉及许多步骤的难题,并将该问题分解成更小的部分,以便它可以逐一解决。我们希望看到它认识到自己犯了错误,并纠正这些错误或避免犯这些错误。并且围绕如何获得这些单独的东西进行了很多讨论。这有点……
困扰我,事实上我们甚至试图单独解决它们,因为这似乎就像,好吧,理想情况下,我们只需要得到一些能够自己弄清楚所有这些东西的东西。当我们得到最初的生命迹象时,然后我大力倡导的我们尝试的一件事是,为什么我们不只是让它思考更长时间呢?当我们让它思考更长时间时,它会自发地做这些事情。这不像
嗯,这不像,哦,突然我们有一个,而是像,哦,这里有一些迹象表明它正在做我们想要的事情,我们正在制定策略来实现这些事情。嗯,而且很明显我们可以进一步扩展它。所以我认为,对我来说,那是,那是我们刚刚拥有它的重要时刻。
思考更长时间,突然你就会看到质的变化。就像你看到了这种质的行为,嗯,我们认为我们必须以某种方式添加到模型中,而它自己就弄明白了。当然,性能也更好。嗯,但是性能并没有好多少。看到这种质的变化,看到,嗯,那些行为,嗯,这真的让我相信,好的,这将是一件大事。
我认为那大概是2023年10月。哇。之后它很快就发布了。可能更快。我想,你会如何为我们今天的听众解释在O1型模型中规划在哪里有用,以及在哪里像,你知道,你应该坚持使用GPT-4.0,或者,你知道,它没有那么有用。以及你如何期望,我想,显然你一直在努力改进它。这在未来会如何改变?我认为最终……
只有一个模型。我认为现在我们正处于这种状态,你知道,GPT-4.0在许多方面都更好。而O1在许多方面都更好。当然,O1更智能。所以如果你有一个非常困难的问题,O1非常擅长解决这个问题。我和大学的研究人员谈过,就像,你知道,一个教授朋友……
喜欢O1,是一个真正的资深用户,因为它可以处理这些难题,通常需要拥有博士学位的人才能处理。
我认为对于某些任务,我认为创意写作可能就是其中之一,尽管如此。实际上,我不确定我是否知道对于像创意写作这样的东西,O1是否总是比GPT-4更好。我不确定O1的比较结果是什么。但是当然,GPT-4的一个主要好处是你会得到更快的响应。所以如果你只想立即得到响应,而且这不是一个非常困难的推理任务,你知道,我认为GPT-4是一个合理的选择。是的。是的。
但是我应该说,最终我们想要达到的目标是,只有一个模型,你可以向它询问任何问题。如果它需要大量的深入思考,那么它可以做到。如果不需要,并且它可以立即以相当好的响应做出回应,那么它也会这样做。多模态模型和这些模型的未来会是什么样子?
O1接受图像作为输入。是的。我认为这将非常令人兴奋。看到人们用它做什么将会非常令人兴奋。
是的,我没有看到任何障碍,就像让它们像4.0和其他模型一样多模态。O1的一个引人入胜的部分是我觉得你之前在推理方面所做的许多工作都是建立在对特定问题的推理之上的。就像我,你知道,据我了解,像围棋一样,是蒙特卡洛树搜索,这可能与扑克不太相关。就像,你知道,显然你所构建的东西如此令人印象深刻的一点是,你知道,你普遍扩展了推理计算。你能谈谈一下,
与过去为特定类型的难题所做的更具体的工作相比,需要做什么?好吧,我认为这需要,我的意思是,我不能详细介绍像,你知道,实际的技术,但我认为重要的是它需要像,也许是一种思维方式的改变,我认为当我还是一名博士生和之后,一旦我看到扩展,
测试时计算在扑克中产生了多大的影响,我想,好的,这很棒,但不幸的是,它只适用于扑克。那么我们如何扩展这种算法以能够处理越来越多的领域呢?所以有一个问题是,你如何让这种技术同时适用于扑克和围棋,或者扑克和外交等等。所以我们开发了在Hanabi中有效的技术,我们开发了在外交中有效的技术,并且
我考虑做的一件事就是尝试让这种算法玩尽可能多的游戏。尝试提出一种适用于它的算法。这类似于在扑克中所做的,但能够更广泛地工作。我认为外交工作实际上让我相信这是一种错误的思考方式,你真的需要从终点开始,那就是,好的,我们有这个极其通用的领域。语言实际上就是一个很好的例子,你拥有如此广泛的
而不是试图扩展在某个领域有效的技术来处理越来越多的领域,最终处理所有领域,我们应该从所有领域开始,并弄清楚
你知道,弄清楚某种扩展测试时计算的方法,我的猜测,当然一开始它不会扩展得很好,它不会是一种非常好的扩展测试时计算的技术,但是然后你能让它变得越来越好,我认为这种思维方式的改变,我的意思是外交工作真的让我相信,嗯,有了这种思维方式的改变,因为试图采用我们为扑克和围棋开发的技术并将其应用于外交,我们
将其应用于外交的真正通用完整游戏中。我们设法将其应用于外交,对它实际上可以做什么有一些限制。而且它所能达到的程度是有上限的。我们实际上只在外交中达到了人类水平,强大的人类水平的性能。而且很明显,如果我们进一步推动这种范式,我们将无法达到超人的表现。所以要真正解决……
外交的完整游戏并达到超人的水平,就像在外交中达到超人的表现一样,很明显我们需要一些实际上可以处理几乎任何东西的东西。所以我认为,好的,让我们,你只需要跳到终点,尝试解决所有问题。这太有趣了。我的意思是,你提到过,你知道,你有点期望所有东西都会融合成,你知道,一种模型。我
我想在中期,你认为我们会有一个统治所有模型的模型,或者,你知道,显然有很多人在为不同的用例构建专门的模型。你认为构建你自己的模型有意义吗?我想有些人正在构建法律模型或医疗保健模型或一些这样的东西。所以这是一个好问题。我经常被问到这个问题。我没有很好的答案,但是我一直在思考的一件事是,你知道,你可以问,
你可以让O1乘以两个大数,它可以做到。就像它会逐步进行算术运算来弄清楚如何,你知道,进位等等。然后实际上乘以两个大数并告诉你答案。它这样做没有任何意义。就像最佳的,就像它应该做的实际上是调用一个计算器工具或编写一个乘以这两个数字的Python脚本,运行该脚本然后告诉你输出。所以我认为这是,
那个计算器工具就像光谱的一端,非常专业,非常简单,但非常快速和便宜。
而在光谱的另一端,你拥有像O1这样的东西,它非常通用,非常强大,但也相当昂贵。我认为你很可能会看到很多东西,这些东西基本上充当这两个极端之间的工具。而O1或类似O1的模型可以使用它来节省自身和用户的成本。是的。这真的很有趣,这些工具最终并没有增强能力。它们更像是……
不需要大量的计算成本来解决一些更容易解决的问题。是的,也完全有可能其中一些工具比O1做得更好。
所以我认为我的思考方式与我思考人类如何行动的方式相同。就像,你可以要求一个人做某事,但是就像他们最好使用计算器,或者,你知道,使用某种其他类型的,使用某种其他类型的专用机器或其他东西。好吧,我想在O1方面,任何像,你提到了你的教授朋友在使用它,像你在野外看到或个人最喜欢的其他任何意想不到的用例吗?我认为我真正期待的一件事是看看O1如何用于编码。
嗯,我认为O1预览版,人们印象非常深刻,呃,它的编码能力,但在某些方面它对编码很好,而在其他方面则不是很好。所以,你知道,在编码模型中,它并不是严格意义上的主导地位。嗯,我认为O1会做得更好,而且我很期待看到,嗯,这将如何改变这个领域。是的。嗯,如果这改变了这个领域,而且,嗯,
是的,我只是真的很好奇。我在内部使用O1。其他人也在使用。我们让一些人试用它并给我们反馈,但我认为在我们实际将其部署到野外之前,我们并不真正知道它是如何使用的。是的。你是如何使用它的?
我用它来完成很多编码任务。或者,你知道,如果我有一些东西,我经常会做的是,如果我有一些很简单的东西,我会把它交给4.0。但如果我有一些我知道很难或需要编写很多代码的东西,我会把它交给0.1,让它自己完成整个事情。而且,如果我有一个难题,由于某种原因4.0无法解决,我通常会把它交给0.1,它通常会给我一个答案。它还没有进行核心人工智能研究。
O1没有进行核心人工智能研究。你提到在O1的道路上,显然你看到了一些东西,一些在推理能力方面真正有意义的里程碑。当你考虑时,显然你还在继续研究这类模型。对你来说,未来哪些里程碑是有意义的?如果你在你们继续扩展规模的过程中看到这些里程碑,对你来说会很重要。里程碑是指基准测试中的里程碑,还是其他什么?它可以是具体的基准测试,甚至只是你如何看待你希望O2拥有的下一组重要能力。
我真的很兴奋看到这些模型变得更有代理性。我认为很多人都是这样想的。所以我认为一个主要的挑战,一个实现代理人的主要障碍是,人们已经讨论代理人很久了。自从Chachapati问世以来,人们一直在谈论代理人。他们会来找我问,哦,你为什么研究代理人?我的感觉是模型太脆弱了,如果你有一个……
一个长期目标,有很多中间步骤。你需要可靠性和连贯性,才能让模型弄清楚它需要执行这些单独的步骤,然后才能执行它们。是的,人们试图提示模型能够做到这一点,你可以做到,但这总是有点脆弱,不够通用。
O1的酷之处在于,我认为这是一个真正的概念验证,你可以给它一个非常困难的问题,它可以自己找出中间步骤,并且可以自己找出如何解决这些中间步骤。因此,它能够完成一些完全超出4.0能力范围的事情,而无需进行过多的提示,我认为这是一个很好的概念验证,
它可以开始做一些具有代理性的事情。所以,是的,我对这个方向感到兴奋。今天显然有很多人都致力于代理人,我认为他们基本上利用了模型当前的局限性,并找到了解决方法,对吧?无论他们是否会将六个模型调用链接在一起以检查输出,或者他们是否会找到一些更小的微调模型来检查某些内容是否完全追溯到原始数据源。感觉好像所有这些编排和支架都是为了让它工作而构建的。感觉像……
其中一些东西仍然存在,还是最终都成为底层模型的一部分?你知道,好吧。有一篇很棒的文章叫做《苦涩的教训》。我知道我们不能在不提到《苦涩的教训》的情况下结束这次播客。你知道,因为我很惊讶。就像每当我参加各种活动(比如人工智能活动)发表演讲时一样,
嗯,你知道,有时我会问人们有多少人读过《苦涩的教训》。令人惊讶的是,如果你读过,我认为人们一直在这个领域工作。我觉得如果有人听过你的播客或在推特上关注你,他们就会接触到《苦涩的教训》。很好。好的。对于那些没有读过的人,我的意思是,我认为这是一篇很棒的文章。我强烈建议大家阅读它。它是强化学习领域的创始人理查德·萨顿写的。他谈到了这一点,他说每一次,你知道,基本上每一次都有
例如,看看国际象棋的历史。人们尝试解决国际象棋的方法是将事物编码起来,将他们的知识编码到模型中,并试图让它们做一些类似人类的事情。最终效果很好的技术是那些随着更多计算和更多数据而很好地扩展的技术。
我认为现在这些语言模型也是如此,好吧,我们已经达到了某种能力水平,尝试推动它真的很诱人。好吧,有些事情它们根本做不到,而你希望它们能够做到这些事情。因此,有一个很大的动机去添加一堆支架并添加所有这些提示技巧,以进一步推动它能够做到这些事情。为了让模型前进,你将很多人类知识编码到其中
从长远来看,最终会起作用的技术是一种能够很好地扩展更多数据和更多计算的技术。而且
有一个问题是,这些支架技术是否能够很好地扩展更多数据和更多计算?我认为答案是否定的。我认为像O1这样的东西能够很好地扩展更多数据和更多计算。所以我认为,从长远来看,我认为我们将看到很多推动边界进一步的支架技术。我认为它们将会消失。我认为这对今天的构建者来说是一个有趣的问题,比如你可以用它来解决当前的问题,然后随着时间的推移而发展。是的,这是一件棘手的事情,特别是对于初创公司来说,因为我知道
他们可能面临很多任务的需求,你知道,有些事情是模型无法触及的,他们想,好吧,如果我投入大量资金到支架和定制中,让它能够做这些事情,那么我就会,你知道,我会,然后我就会有一个,呃,一个能够做到这一点的公司,没有人能够做到这一点。嗯,我认为这很重要。这实际上是我们告诉人们的原因之一,看,这些模型将会进步,而且它们会很快进步,因为你不想处于这样的境地,嗯,
模型能力得到提高,突然模型就可以开箱即用地做到这一点。现在你已经浪费了六个月的时间来构建支架或一些专门的、你知道的、代理的工作流程,而现在模型可以开箱即用了。谈谈大型语言模型领域正在发生的事情。我的意思是,除了,你知道,测试时间计算,你还在关注哪些其他研究领域?我对Sora非常兴奋。我认为很多人都是这样想的,我认为它真的很酷。我并没有真正关注
视频模型的最新状态。所以我当时想,当我看到它的时候,我对它的能力感到非常惊讶。- 你显然在学术界磨练了自己的技能。我认为现在很多人都在思考一个问题,那就是鉴于显然可以访问完全不同级别的计算能力,学术界在今天的人工智能研究中扮演什么角色?你如何看待学术界今天所扮演的角色?
是的,这是一个非常棘手的问题。我和很多博士生谈过,他们处境艰难,他们想帮助进一步推动前沿。在一个很大程度上依赖于数据和计算能力的世界里,这很难做到。如果你没有这些资源,那么就很难推动前沿发展。我认为,一些博士生有一种诱惑,那就是去做我不应该做的事情,并添加资源。
他们的人类领域知识,添加这些小技巧来试图进一步推动前沿。因此,你采用,你采用一个前沿模型,添加一些巧妙的提示或其他什么,你稍微推动它一下,然后在某个评估中比其他人高出0.1%。而且,你知道,问题是,实际上并不是,我不,我不太责怪学生,就像,我认为学术界鼓励这种做法一样。我的意思是,
在著名的会议上发表论文是很光荣的,如果你能够证明你在某个评估中至少比其他人略好,那么就更容易在会议上发表论文。因此,激励机制的设置方式鼓励这种行为,至少在短期内是这样。但从长远来看,这最终并不是最有影响力的研究。
所以我的建议是不要试图在前沿能力上与前沿工业研究实验室竞争。我认为还有很多其他的研究可以做,而且我已经看到了一些非常有影响力的研究可以做。例如,一个例子就是调查新的架构或新的方法,
很好地扩展。如果你能证明,好吧,你可以展示扩展趋势,并证明它在投入更多数据和更多计算能力时显示出一条有希望的路径,那么这就是好的研究,即使它在某些评估中没有获得稳定的性能。人们会关注这一点。我的意思是,可能不会是
那些偶然关注该领域的人会注意到这一点。它可能不会进入新闻周期或其他什么,但是那些……
如果它显示出有希望的趋势,它就会产生影响。我向你保证,工业研究实验室会查看这类论文。如果他们看到一些显示出有希望的趋势线的东西,他们愿意投入资源来查看它在大规模情况下是否真的有效。对你来说,哪些评估仍然有意义?当你玩弄一个新模型时,你在看什么?
我认为我问了很多关于氛围的问题,我相信每个人都会问这些问题。你有没有一个常用的氛围问题?我的常用问题是井字棋。总是游戏,我猜。这说得通。是的,就像,你知道,看到这些模型玩井字棋有多么具有挑战性,这令人震惊。我开玩笑说,我认为这仅仅是因为互联网上没有足够的五岁孩子在Reddit上学习井字棋策略。是的,我们没有用大量的井字棋数据填充世界。是的,我只是……
看看这些模型如何处理我日常提出的问题。看到从4.0到0.1预览到0.1的进步,这非常酷。是的。我的意思是,你提到,显然,听起来自从21年以来,你改变了主意,然后用测试时间计算中可能实现的东西来证明这一点。在过去的一年中,你在人工智能研究领域改变了主意吗?我不应该这么说。这不像我在2021年改变了主意。我非常认同这一点
甚至基本上当我们在2017年初获得扑克结果时。是的。我认为对于语言模型来说,我认为向语言模型的转变,就像我认为我开始更多地考虑这个问题一样,比如2020年、2021年。是的。不,对不起。我的意思是更像,你在2021年认为扩展这些东西需要10年时间。而现在我认为是两年。过去一年里有什么让你,你已经做了180度转变的事情吗?
我认为我改变观点的主要事情是我认为事情进展的速度有多快。就像我说的,我记得我已经在人工智能领域工作了相当长的时间,按照今天的标准来看。所以我于2012年开始读研究生。我看到了深度学习革命的发生。我在2015年、2016年、2017年看到人们非常认真地谈论AGI和超级智能。
而且,你知道,我当时的观点是,你知道,仅仅因为AlphaGo在围棋方面超越了人类,并不意味着我们很快就会达到超级智能。我认为这实际上是正确的评估。就像,我认为人们没有足够地看待AlphaGo的局限性,以及这样一个事实,好吧,它可以玩围棋,它甚至可以玩国际象棋和将棋,但它不能玩扑克。而且没有人真正知道如何让它比这更通用。
两人零和博弈是这些非常理想的情况,你可以进行无限的自我博弈,并沿着某个方向不断攀登,从而达到超越人类的表现。现实世界并非如此。所以……
我当时,我当时相当,呃,我比较悲观,而且可能比平均人工智能研究人员更乐观,我们可以像,你知道,朝着,呃,非常,非常智能的模型发展,这些模型将会改变世界。但是我认为与,你知道,像OpenAI或其他一些地方的人相比,我比较悲观。嗯,然后我认为我对这一点的看法已经改变了很多。我认为,嗯,看到,看到,呃,
能够以非常通用的方式扩展测试时间。这改变了我的想法。我变得越来越乐观。实际上,我认为我在2021年与Ilya进行的谈话是这的开始。他让我相信,是的,我们还没有完全弄清楚整个范式。但也许它并不像10年那么遥远。也许我们可以更快地到达那里。我认为……
看到这实际上发生了改变了我的看法,我认为事情发生的进展速度将比我最初想象的要快。我的意思是,显然有很多人都试图与英伟达竞争。我认为亚马逊最近一直在积极投资Trinium,让Anthropic使用它。你对这些其他的硬件工作有什么看法?我很高兴看到对硬件的投资。我的意思是,我认为……
O1很酷的一点是,我认为它真的改变了人们应该如何看待硬件的方式。所以我认为,在此之前,人们有这样的想法,好吧,将会有这些大规模的预训练运行,但实际上,推理成本将会非常便宜,而且你知道,非常可扩展。我认为不会是这样的。我认为我们将看到向推理计算的重大转变。如果有一些方法可以围绕推理计算进行优化,我认为这将是一个巨大的胜利。所以我认为现在硬件方面有很多创造机会,你知道,
适应这个新的范式。谈到大型语言模型之外的一些问题,你知道,我觉得你与外交方面的工作非常有趣。显然,这是一个涉及谈判、预测他人行为等的博弈。很难不去思考这对于模拟社会以测试政策,甚至将人工智能作为政府的一部分的意义。你如何看待这个问题,以及随着这些模型越来越好,你对它们在社会各方面的作用有什么直觉?好吧,我认为,嗯,
我想有两个问题,但只回答其中一个。我认为我非常兴奋的这些模型的方向之一是将它们用于许多社会科学实验以及神经科学等方面。我认为你可以通过观察这些在大量人类数据上训练的并且能够很好地模仿人类的模型来了解很多关于人类的信息。当然,它们最棒的一点是,它们比雇佣一群人来进行这些实验更具可扩展性和更便宜。所以,我……
我很想知道社会科学如何利用这些模型在其领域进行很酷的研究。你能想象这会如何发生吗?我认为,你知道,通常你会做很多,比如,如果你想做,我的意思是,我不是社会科学家,所以,你知道,我没有考虑过这个问题,比如,
那样好。嗯,我认为像经济学一样,嗯,有很多,嗯,你之前在美联储工作过,对吧?我在美联储工作过。是的。我想社会科学。所以我猜博弈论实际上是一个很好的例子,你知道,我曾经在这些,呃,当我还是本科生的时候,我做过一些这样的实验,比如,你知道,他们会雇佣,嗯,他们会请一些本科生,付给他们少量钱,让他们做这些小型博弈论实验,看看,哦,他们有多理性?嗯,他们如何回应激励?他们有多在乎,嗯,
他们有多在乎赚钱而不是报复那些冤枉他们的人?现在你可以用人工智能模型做很多这些事情。很明显,它不会转化。这就像与人类的表现相匹配一样,但是
这是可以量化的。你实际上可以看到,总的来说,这些模型是否做人类会做的事情?然后,如果你有一个更昂贵的实验,那么你也许可以推断说,用人类受试者做这件事不划算,但我们可以用人工智能模型来做。或者还有伦理方面的担忧。也许你不能做这个实验,因为对人类来说这样做是不道德的,但是你可以用人工智能模型来做。所以我猜一个例子是……
最后通牒博弈。你熟悉吗?不。好的,最后通牒博弈是这样的,你有两个参与者。我们称他们为A和B。A有1000美元,他们必须将其中的一部分给B。然后B可以决定是否接受这种分配,或者说两个玩家都得不到任何东西。所以如果A有1000美元,他们给B 200美元。如果B接受,那么B得到200美元。A得到800美元。如果B拒绝,那么他们俩都得不到0美元。而且
你知道,有实验表明,如果人们得到的少于大约30%,那么他们就会拒绝。当然,还有一个问题是,好吧,如果这是一小笔钱,那么,
很容易理解,你知道,如果这是10美元,而你只得到3美元,那么你就会对那个人感到恼火,并拒绝以报复他们。如果这是10000美元,而你得到3000美元,你还会这样做吗?这是一个不同的问题。所以唯一的方法是,当然,这就像超级昂贵才能真正进行这个实验。所以他们过去一直这样做的方法是去一个不同国家的非常贫穷的社区,
并向他们提供对他们来说是一大笔钱的东西,看看他们的行为会有何不同。
但即使那样,你只能,比如,做到这一点。所以有了人工智能模型,现在也许你实际上可以,比如,获得一些关于人们在这种情况下如何反应的见解,这些情况是,比如,成本过高。这很有趣。我的意思是,而且对于,你知道,神经科学和其他事情,我一直认为,你知道,我认为社会科学的一个抱怨是所有这些实验都是针对,比如,你知道,需要在他们的入门心理学课上获得学分的大学生进行的。所以,你知道,接触更广泛的宇宙。
至少互联网可能比大多数这些实验所训练的社会范围更广,这些实验基本上都是顶级机构的19岁年轻人。是的。这是一个很好的,是的,这是一个很好的观点。我还应该说,比如,看,如果你正在做这些实验,比如GBD 3.5,比如GBD 3.5在模仿许多这些环境中人类的实际行为方面不会做得很好。嗯,
但这是一个非常可以量化的事情,你实际上可以衡量这些模型与人类行为的匹配程度。我怀疑,我实际上并没有自己看过这些实验,但我怀疑随着模型变得越来越强大,它们在模仿人类在这些环境中的行为方面做得更好。然后显然你在外交方面的工作侧重于一群人类中的人工智能玩家。是的。
如果有的化,那会如何改变?我觉得我们即将进入一个世界,在这个世界里,我们有的人工智能代理与其他人工智能代理互动、谈判等等。如果有的化,那会如何改变事情?我认为我对大型语言模型真正感到兴奋的一件事是,人工智能领域一直存在这样一个问题:你如何让人工智能相互沟通?所以人工智能领域有一个叫做涌现式沟通的领域,人们会试图
教人工智能能够相互沟通。而这个问题现在实际上已经解决了,因为你有了……
内置的语言,方便人类也使用。所以很多这些问题就像,方便地,开箱即用,就像得到了解答一样。所以很有可能,也许你不需要改变太多。你对人工智能机器人领域正在发生的事情有什么看法?你认为这个领域在未来几年会走向何方?我认为从长远来看,这是很有意义的。我获得了机器人学硕士学位。我实际上并没有与机器人一起工作太多,但我参加了这个项目,并且我有很多朋友在从事机器人学工作。
我得到的主要收获之一是硬件很难,与软件相比,迭代硬件需要更长的时间。所以我怀疑机器人学需要一段时间才能取得进展,仅仅是因为迭代实际的物理机器人既困难又昂贵。
但我认为会有进展。显然,你即将发布一个到野外,人们将在其之上构建我们两人都无法想象的各种东西。但是,你认为一般来说,哪些领域是当今未被充分探索的应用,或者你希望有更多构建者在使用这些模型的地方?我认为我真的很兴奋看到这些模型推动科学研究的发展。
我认为我们一直处于一种奇怪的状态,直到现在,模型大体上都非常强大,但它们几乎在任何领域都没有超越人类专家。我认为随着时间的推移,这种情况将越来越少。我们将开始看到模型超越人类专家在首先只是少数狭窄领域,然后是越来越多的领域所能做的事情。而且,而且,
这开启了这样一种可能性,即你实际上可以推进人类知识的前沿,并将这些模型用作,而不是研究人员的替代品,而是你可以用来做以前不可能做的事情或更快地做这些事情的伙伴。所以我认为这是我最兴奋的应用。这并不是一件像现在已经可能发生的事情,但我认为我们很快就会看到这种情况发生。你认为这对于当前的模型来说是可能的?
我不知道。这实际上是我很高兴看到O1发布的原因之一,因为你知道,我不是一个领域的科研人员,但我不是所有这些不同领域的科研人员。我不知道它是否能够改进化学研究或化学研究的现状,或者生物学研究或理论数学的现状。将模型交到这些人手中,看看他们能用它做什么,我认为会有所帮助。
给我们一些关于它在这些领域中的反馈。你提到它可能首先会更狭隘地开始,然后再扩展出去。对可能特别适合它的狭窄子集有什么直觉吗?还是让社区在他们玩弄它的时候发现?我认为这是让社区来发现的。对于O1预览版,它似乎在数学和编码方面做得特别好。是的,这些结果非常令人印象深刻。是的,我的意思是,它正在广泛地改进事物,但我们看到……
在这两方面取得了相当明显的进展。我
不会惊讶地看到这种情况继续下去,并且看到性能在广泛的领域得到改进,但因为数学和编码已经领先,所以它将继续在这两方面取得更快的进展。但我认为这将是全面的广泛改进。好吧,梅尔文,这是一次引人入胜的谈话。我们总是喜欢以快速问答环节结束,在这个环节中,我们可以快速了解你的想法。也许首先,今天人工智能领域中有什么被过度炒作的东西和什么被低估的东西?我的意思是,我认为被过度炒作的是很多这些……
有点像提示技术和支架技术,你知道,就像我说的,我认为从长远来看,这些技术将会被淘汰。被低估的是?我认为,我的意思是,我非常喜欢01。我必须说01。我认为对于那些关注该领域的人来说,这是一个很大的更新。我认为对于更广泛的世界来说,我不知道人们是否已经认识到它对他们应该认识到的程度的意义。
是的,我认为我会选择这两个。希望明天的发布能够开始实现这一点。是的,好吧,我们会看到的。你认为2025年的模型进展会与24年相同还是不同?我认为我们将看到进展加速。你如何定义AGI?我不定义。我一直在尽量避免使用这个术语。我认为……
我认为,人工智能在很长一段时间内都无法做到许多人类能够做到的事情。我认为这才是理想的情况,尤其是一些体力劳动。我认为人类在很长一段时间内都将占据优势。因此,我认为能够提高人类生产力并使我们的生活更轻松的人工智能才是更重要的事情。
比AGI更重要的术语。Noam,我一直喜欢把最后一句话留给我们的嘉宾。我觉得你可以带大家去了解你的工作、OpenAI正在发生的事情,有很多地方可以去,但现在轮到你了。你想对我们的听众说些什么,或者有什么想强调的吗?是的,我想说的是,对于那些持怀疑态度的人,我理解。
我从事这个领域已经很久了。我对现状以及围绕人工智能进步的炒作非常怀疑。我意识到人工智能将会进步,但我认为即使达到这个水平也需要更长的时间。我认为,重要的是要认识到,我们现在所处的位置与五年前甚至十年前相比,完全是科幻小说。所以
进步令人惊叹。我认为人们会合理地担心,哦,我们会撞到墙上吗?进步会停止吗?但我认为重要的是要认识到,在我看来,测试时间计算范式确实解决了这些担忧中的许多。因此,对于那些仍然对人工智能进步持怀疑态度的人,我建议
自己看看。我们在博客文章和我们的结果中非常透明地说明了事情的现状以及我们对未来发展的看法。
我认为证据非常清楚。Noam,这次谈话非常精彩,能和你坐下来聊聊真是我这份工作的一大乐趣。非常感谢你抽出时间。当然。谢谢。再次感谢Noam进行了一次精彩的对话。如果您喜欢这个节目,请考虑订阅并与朋友分享。我们一直在努力宣传这个播客。我们即将与领先的人工智能研究人员和创始人进行一系列精彩的对话。2025年将会有令人难以置信的嘉宾阵容。非常感谢您的收听,我们下周再见。
所以