这太好了。你太棒了,伙计。这太棒了。这就是我们现在知道它是合法的理由。
我跟你说,我非常期待这个。老兄,我简直无法表达我有多兴奋。告诉我你与山姆·阿尔特曼一起直播的经过。是的。所以我现在负责ArcPrize,对吧?我们运行一个名为Arc AGI的AI基准测试。这是什么?我们希望推动AGI的进步。就像我们希望推动技术的进步一样,因为我们相信这将是人类有史以来最好的技术之一,对吧?是的。
一个很大的问题是,好吧,你究竟如何才能加快进步?所以我们选择的方法是通过一个基准测试,它是由弗朗索瓦·肖莱在2019年创建的。
它采用了一种非常有趣的方法。有很多基准测试会提出博士级别以上的问题。所以他们会问你最难的问题,然后是更难的问题。他们会说,这是我们最后一次需要做的测试,因为我们想不出任何更难的问题了。人工智能最终解决了这些问题。就像它最终做得很好一样。人工智能的极限非常高。简直令人难以置信。它已经在做一些超人的事情了。所以我们采取了不同的方法。
我们想知道哪些问题对人类来说很容易,但对人工智能来说很难。我喜欢这个。原因是,说到这里,其背后的全部意义在于,我们现在只有一个通用智能的证据点。
那就是人类的大脑。所以这些问题就像草莓一样。我会说,这是一类问题,如果你能找到这样的问题,就会觉得,哎呀,人工智能做不到,但人类仍然可以。如果我们能提出这些问题,我们可能就没有AGI了,对吧?现在,困难的部分是这些都是一次性的问题。所以很容易找到一次性的问题。但是,如果你想找到一个领域,你可以在同一个类别中提出大约200个问题,你实际上可以量化这一点。
那么这就会变得困难得多。所以我们关于AGI的理论,这更像是一个工作中的理论,这是一个观察定义,而不是一个固有的定义,那就是当我们再也想不出人类能做而人工智能做不到的问题时,
那么我们就有了AGI。哇,好吧。然而,反过来,如果我们能提出人类能做而人工智能做不到的问题,那么我们就还没有AGI。我们还没到那一步。由于Arc AGI 1,我们的基准测试的第一个版本已经存在,事实上它甚至存在并且没有被解决
这是一类人类可以解决的问题。我们刚刚发布了ArcAGI 2,我们实际上召集了400个人,并在ArcAGI 2上测试了其中的每一个任务。我们确保了这一点,因为如果我们要声称人类可以做到这一点,那么人类最好能够做到这一点。所以我们在圣地亚哥召集了400个人,并在所有这些任务上对他们进行了测试,并且其中的每一个任务都至少有两名参与者在两次尝试内解决了。所以人类可以做到。我们为此拥有第一手数据,但人工智能仍然做不到。所以
我们声称我们还没有为他们开发出AGI。但这些任务有点难。它们肯定更难了。是的。好吧,疯狂的是,我认为它之间存在差距,人类可以做到,而人工智能做不到。这一差距正在缩小。因此,我们需要确保人类仍然可以在合理的尝试次数内做到这一点。我们不是在寻找博士生。我们不是在寻找两岁的孩子来查看他们是否可以做到这些。嗯哼。
一个称职的人,给他们这些任务,看看他们是否真的可以做到。所以如果你从街上随便拉一个人,他们有大学教育之类的?或多或少。所以当我们进行过滤时,我们确保他们可以使用互联网。诸如此类的事情。所以我的妈妈不行。当我们教他们什么是ARC时,我们不想教他们如何使用电脑。你明白我的意思吗?所以这并不允许我们对普通人做出这样的声明。
普通人。所以我们很小心,不这么说。这不是我们追求的目标。我们追求的是一个有能力的人。有些人喜欢与我们争论这个问题,但这又是另一个话题了。所以我们运行这个基准测试,RKGI1。好的,很好。我们在12月初收到了一封来自OpenAI董事会成员的电子邮件,我们与他们有关系,他们或多或少地说,嘿,我们有一个新模型。
我们想在Ark上测试它。在那时候,是草莓吗?是草莓模型吗?有很多名字在流传。我的意思是,那时甚至还有猎户座。有草莓。伊利亚看到了什么?你知道,有很多东西在流传。就像,谁知道哪个谣言指的是哪个生产版本?老实说,情况并没有好转。官方名称可能比谣言更糟糕。我认为这告诉你不要指望它会好转。因为它不会好转。所以同样,电子邮件说……
我们有一个新模型。我们想测试它。好的,酷。是的,听起来不错。是Open AI。他们有一个新模型。他们声称得分很高,但他们在邮件中没有说明他们的分数是多少。在ARC奖上?在ARC奖上。因为我们有公开数据。所以我们运行基准测试的方式是,你可以使用大量公开数据进行训练,并且可以对其进行测试。但是我们有一个隐藏的保留集。不错。那……
我们可以讨论为什么这很重要。是的,这是唯一的方法。这是唯一的方法。你有一个隐藏的保留集。他们说,我们想看看,我们是否过度拟合了这个?因为我们认为我们做得很好,但我们想在你的保留集上尝试一下。你会来帮我们测试一下吗?所以我们花了接下来的两周时间进行测试,基本上是与他们的团队合作来完成这项工作。这也是在去年的NeurIPS 2024期间。所以我当时在温哥华参加NeurIPS,以为我会一直放松并观看演讲。我实际上是在测试并访问OpenAI的API端点。但我们完成了,并且……
就像,我的天哪。这很好?我的意思是,真是太棒了。它比我们之前见过的任何其他模型都要好得多。请记住,这个东西已经存在五年了,而且在此之前没有取得过这种进展。所以我们想,我的天哪。所以我和杰里和纳特开了一个会。
只是为了在进行测试之前进行简要介绍。我说,你在Arc AGI上声称的分数是多少?因为我们将去验证一下。因为如果他们声称的结果不同,那将是一个大新闻。他们声称是87%。请记住,公开可用模型的最高分大约在20分左右。然后,专门为了击败Arc而构建的定制解决方案当时的得分在40到50分之间。
他们声称是87%。所以就像,好吧,这对我们来说是一件非常重要的事情。无论如何,长话短说,我们完成了测试。有趣的是,在推理时间计算领域,你不能再仅仅说,这是我们的模型,这是我们的分数。而是这是模型。这是我们花费的推理时间计算量。这是我们的分数。所以现在又增加了一个变量。我们为他们确认的是……
在低计算量下,我们稍后会讨论低计算量实际上意味着什么,他们的得分是75%。在高计算量下,我们看到,是的,我们或多或少地验证了他们的87%的得分。就像,好吧,是的,它得到了验证。所以我们撰写了我们的博客文章,它就像一个单页的谷歌文档,并且……
不知何故,或者并非不知何故,而是沿着这条线,山姆最终被拉到了这个线程上,就像我们在来回发送的电子邮件线程上一样。我们说,我们有我们的结果。它们就在这里。我们想现场讨论一下。他说,很好。我周二下午5点30分有空,或者其他时间。就像,
哦,是的。让我们开始吧。是的,让我们开始吧。就像,这是一个巨大的机会。就像,我们写了一篇博客文章,然后我们进入房间,然后我们展示,基本上放在屏幕上。我们展示了一篇博客文章。每个人都阅读了一遍。然后是讨论,讨论。他说,好的,很好。你们应该加入我们周五的直播。
所以我们坐在那里,甚至没有考虑过我们将要测试这个新模型。就像,你知道,如果你真的。然后他说,周二,你们应该在周五加入我们。我们的一个要求是我们不想只是上去让他们告诉我们该说什么。就像我们不想让他们为我们写剧本一样。所以我和迈克,迈克·诺普,ArcPrize的联合创始人,我们基本上写了我们满意的剧本。我们很舒服。我们把它给了他。他们说,是的,看起来不错。
好的,酷。就是这样。周五见。没错。好吧,所以他们有一个非常大的制作。不,我不会说大型制作团队,但称之为12个人,包括营销、沟通、摄像师、活动和声音以及所有参与其中的人。所以我们进行了两次彩排。两次彩排都进行得很好,进行了编辑。然后……
你知道,直播在周五播出或在周五播出。哇。这很有趣,因为房间并没有比这个大多少,但它是一个更大的房间,但是它在所有侧面都被隔开了,你知道,就像,你知道,舞台或其他什么。是的。意味着看起来像。它就像一张桌子。你们都坐在桌子旁。是的。他们在这方面做得非常好。但是我在隔板的另一边。我听到山姆和马克在谈论它。当时的马克·陈,他们的研究高级副总裁。
他们说,现在我们想邀请格雷格,然后从幕后走出来,跳到那里。奇怪的是,你知道有多少人在直播中观看,但这是一个小房间。就像我说的,只有大约10个人在那里。但这很酷。所以就这样做了。但这是一个未发布的模型。所以现在我们称之为O3预览,因为它有一个预览模型。它更像是一个能力演示,关于如果你将其推向极限,你实际上可以为此做些什么?这让我们对它有了新的认识。
嗯,在低计算量下,他们每个任务花费大约20美元,我们用500个任务进行了验证,所以这大约是1万美元的计算量,他们只是为了arc而花费的,就像,我的天哪,这太多了,对吧?是的,就像,这太多了,你找不到那么多愿意花1万美元来解决我们任务的人,对吧?但那是低计算量,然后O3预览是第一个推理模型,不,不,不,它不是第一个推理模型,因为我,你知道,它
取决于你什么时候想说,我相信他们的第一个推理模型是他们发布O1预览的时候。我甚至不知道那是什么时候。那一定是2024年初,2024年中,甚至可能是2023年。所以我们测试了O3预览的低计算量,然后我们还测试了高计算量。
那是更多的钱。它使用了,我忘记了确切的美元金额。每个任务都是几千美元。哦,什么?每个任务。再说一次,记住,我们测试了500个任务或其他什么。我认为它是低计算量使用的计算量的170倍。但无论如何,TLDR,就像,好吧,所以呢?那是很多钱。重要的部分是什么?重要的部分是……
它只是再次证实你可以为更好的性能付费,这太疯狂了,对吧?关于这种扩展实际上在哪里达到顶峰,还有待商榷。所以我们没有像我们希望的那样对该系统进行彻底的分析。一个很大的问题是它是否会渐近线?
或者如果你只是给它越来越多的东西,你是否可以达到100%?但请记住?这是你给它的对数。所以他们,你知道,让我们假设你花了100万美元才能获得几个百分点的升级,你需要花1000万美元,然后你花1亿美元。就像,好吧,它最终会在哪里停止?是的,权衡是什么?是的,而且你是否需要等待一年才能完成?时间很长。所以对于高计算量,这项工作需要
一夜之间,或多或少。就像,一夜之间,甚至可能需要更长时间。我忘记了它的确切持续时间,但它不是短时间。你不会坐在那里等待回应。是的,这是你做的事情。你让它运行,出去,过你的生活,然后回来看看它是否能够做到。但实际上,就在今天,上周开放,他们发布了他们的03生产版。太好了。我喜欢03。是的。
所以有一个很大的问题。就像,好吧,我们在12月测试的内容与今天公开发布的内容如何匹配?我们,嗯,我们问了开放式高,我们问了杰里,嗯,对此的确认和一些细微之处,TLDR,它不是同一个模型。没错。它不是同一个模型,并且使用的计算量更少。所以我们不应该期望相同的分数。所以我们今天刚刚测试了它,嗯,是的,正如预期的那样,它做得非常好。它没有达到我们测试的模型的水平。它不是87%。嗯,
但他们也发布了04 mini。所以他们只是,他们一直在发布模型。对。所以,嗯,很多好的测试,很多好的东西。嗯,但很酷的是,RKGI是我们用来评估这些东西的工具。我们有RKGI 2。所有这些模型在RKGI 2上的得分仍然非常低。
所以基本上Arc AGI 2意味着是下一步,更难的级别?所以我一直在寻找一个好的类比。所以抱歉,我还没有找到。但我认为,这可能是不正确的,所以如果我弄错了,请道歉。但是,如果Arc AGI 1测量……
它非常擅长测量20英里/小时到40英里/小时之间的车速。低于20,它不太好。超过40,它不太好,因为它已经达到最大值了。它就像真的超速了。它已经到达顶部了。
Arc AGI 2正在测量40英里/小时到80英里/小时之间的汽车。所以低于40英里/小时,你不会得到太多信号。你会得到一些东西。所以它必须是那些高级模型。它必须是高级模型。我们还没有看到模型在上面取得实质性进展。所以我认为目前最好的开源模型我认为大约能达到3%到4%。对不起,不是最好的开源模型。即使我们测试了O3中型,它在这个模型上的得分也只有3%到4%。
在这个范围内,我们只谈论120个任务。所以在这个范围内,我们谈论的是噪音。直到它开始达到10、15,你才会真正开始看到它的实质性内容。是的。你如何决定这些问题?是的。然后还有另一方面,你不能仅仅让它成为一个超级困难的任务。你几乎必须,你必须有创意。这不像,再说一次,因为我们坚持人类需要能够做到这一点的限制。
这限制了你只做难,难,难,难的任务。是的,它不能是这个博士级别以上。它不能是博士级别以上。但只要我们能提出这些问题,这就会告诉你人类智能和人工智能之间存在差距。人们与我争论说,哦,如果你想追求AGI,你不需要追求人类智能,因为它们是两件不同的事情。
我同意。但是我们的假设是,通往AGI的快速途径是了解人脑是如何工作的,以及差距在哪里。因为如果我们瞄准这些差距,那将告诉我们一些有趣的东西。嗯,我们稍后可以讨论这个,但是它根本没有。人脑远没有达到理论上的最佳智能水平。我们有很多生物学上的包袱。是的。
我现在可以告诉你,伙计。我的人脑永远无法发挥全部能力。所以我绝不是说它是最好的例子,但它是我们唯一一个通用智能的例子。所以我们认为它是一个有用的模型。无论如何,我们如何选择问题?2019年,弗朗索瓦·肖莱发表了一篇名为《论智力测量》的论文,这非常引人入胜,因为它就像,你如何提出问题?这实际上不是首先要问的问题。首先要问的问题是,你如何定义智力?嗯哼。
因为如果你能清晰地定义它,那么你就可以为它提出问题,这才是最引人入胜的部分。所以弗朗索瓦发表了这篇关于智力测量的论文。所以他对智力的定义是,你学习新事物的能力是什么?它不是你在国际象棋方面有多好。它不是你在围棋方面有多好。它不是你在自动驾驶方面有多好。
如果我给你一个新的任务、一个新的领域和一组你需要学习的新技能才能完成它,你能成功地学习那件事吗?它是学习速度吗?所以现在这是一个好问题。所以我对智力的开放式定义总是二元的。你能学习新事物还是不能?但他的智力实际定义是你学习新事物的效率。例如,我喜欢用两个轴来衡量效率。第一个是学习新事物所需的能量。是的。
我们稍后会讨论这个问题。但第二个维度是你学习新事物所需的数据量。所以基本上,你需要做多少次才能学会它?没错。所以一个粗略的、粗略的、粗略的例子是,如果我要教你如何下围棋,我们可能需要6个小时。我会教你规则,你会变得很基础。我们至少可以围绕它进行对话。想想有多少训练数据被用于……
最终击败围棋很多,对吧?所以当然,这对于它来说是更好的技能,但它几乎使用了过多的训练数据。所以另一种方法是,人类的大脑中是否包含互联网数量的训练数据,以输出你现在看到的智力?答案是否定的,没有。语言模型可以。所以在最近的播客中,它是与OpenAI、山姆·阿尔特曼和我相信他的名字是丹尼尔的人进行的内部播客,他谈到了语言模型的效率
以及语言模型的语言效率与人类的语言效率相比如何。他说,据他估计,我认为这可能有点低,但他表示,人类在语言方面的效率比目前的LLM高10万倍,这说明了,他们在播客中一直在谈论的一件事是,看,计算不再是阻碍我们的因素了。我们有很多计算能力。就像,
我们有很多计算能力,就像星门,所有视频中的那些。我们有如此多的计算能力。现在阻碍我们的更多的是数据方面的问题,但根本上,阻碍我们的更多的是算法方面的问题。就像我们只需要新的……
我们只需要新的算法,基本上需要突破才能达到人类的效率水平。真正说明这一点的随机点是,我喜欢使用人脑作为基准的另一个原因是,你知道人脑需要多少能量,比如卡路里,人脑消耗多少卡路里,你将卡路里转换成能量,然后你将其与解决arc所使用的推理能量进行比较,
就像你已经可以看出你领先了数英里。所以人脑对我们来说是一个很好的基准。此外,我们应该注意,这一切是否只是从大海捞针开始让你走上这条道路?那是让你爆火的东西吗?你知道,嗯,
大海捞针是我迄今为止所经历的旅程中一个有趣的要点。我不会称之为促成这一切的事情。它很酷,但它并没有让我致富。它并没有让我爆火。这是一件小事。你得到了一些转发。我从它那里得到了一些转发。我在推特上得到了一些点赞,但这并没有什么。不,但是固有的……
事情,就像,无论是什么驱动我,以及,无论是什么让我把我的精力放在哪里,大海捞针是从那个地方出现的,就像其他东西是从那个地方出现的,以及,你知道,一切。所以就像,我想说所有像,
所有发生的事情都是我选择把精力放在哪里以及其后果的症状。这些后果本身就让我走上了我现在的道路。然后它打开了大门。就像,嘿,这件事发生了。对于那些听众来说,他们也应该知道你正在做
很棒的教程。我正在做YouTube的工作。是的,我就是这样找到你的。在过去你制作YouTube教程的时候,你就像第一个制作lane change教程的人。所以这是一个另一个疯狂的故事。关于这一点,我非常简短地说明一下。我记得第一次lane change。好吧,我当时正在浏览Hacker News,只是随便浏览一下。我在10月22日看到了这个。ChatGPT发布的时候。ChatGPT发布的时候,甚至可能更早一点。是的。
它说,展示Hacker News,Langchain。所以它就像Langchain的发布博客文章一样。我看着它,心想,我的天哪。这解决了我在当时使用原始API构建时遇到的许多问题。因为请记住,当时没有聊天模型。只是DaVinci 03。所以使用那个东西很讨厌。
就像你必须去,获得价值有很多摩擦。无论如何,Langchen在这方面提供了一些帮助。我心想,这太酷了。我之前有过在YouTube上制作pandas教程的历史,但没有结果。它们太糟糕了。就像我当时在我的妈妈的地下室里,穿着我的内衣,制作pandas教程一样。至少你在做。并非完全如此,但差不多。所以-
所以我制作了,我认为大约,我不想称之为80个pandas教程或类似的东西。因为那是我的技艺。当时数据分析是我的技艺。我为此感到自豪。嗯,我看到,我去YouTube上输入lane chain,什么也没有,只有一个教程是由我后来认识的一位非常棒的人制作的。他的名字是詹姆斯·布里格斯。只有一个lane chain教程。我有点像那种小小的、小小的灯泡时刻。我心想,老兄,格雷格,你应该为pandas做你做过的事情。
但你应该为Langchain做这件事。我为Pandas所做的只是看看我对什么感兴趣,然后制作一堆教程和函数。
所以当时,仅仅基于我的pandas的成功或涟漪,它并不是成功。我只是说它带来的任何东西。我每天大约会获得三到四个新的YouTube订阅者。我做了我的第一个Langston教程,之后我获得了16个新的订阅者。我心想,那是4倍。成功。那是我的4倍。无论如何,我做了第二个,第二天我获得了25个。然后我做了第三个,第二天我获得了50个。请记住,这比我之前做的要多10倍。我把妻子拉进房间。我心想,我的天哪,伊丽莎。
这就像,这里有些东西,我、我已经、我已经重述过这个故事几次了,但就像生活中有一些时刻你会注意到,你得到的投资回报率和能量,你经常在生活中得到,这就像你付出了一单位能量,你却得到了20倍的回报,这真的不多,你可能会得到一些钱,但你并没有得到满足感,你知道的,等等。是的,在那一刻,我付出了一单位能量,却得到了两到三倍的回报,因为我获得了能量,我获得了能量。
就像我睡不着觉。就像我当时想,我得醒过来。我今天要做什么?我今天要做哪个教程?你刚刚升级了我的设置。我太兴奋了。我知道我当时就像遇到了哈里森,做了所有其他的事情。仅仅通过这些,自然而然地就产生了一些问题。比如,你怎么才能更好地检索?我之前所有这些商业问题,你怎么才能做得更好?其中一个问题是关于大海捞针的,每个人都在谈论长文本上下文。哦,
哦,越来越长,越来越长,越来越长。我看到一些推文说,是的,但它在长文本上下文中实际上并没有那么好。我当时想,你们都是白痴。让我们去测试一下这个东西。是的,我们有一个可以遵循的过程。我想,记住,我是一个数据专家,所以这是我的专长。我脑子里看到的只是一张热力图。
我想,长度?然后就有了关于你的针的位置是否会影响结果的整个问题。我想,不妨做一个二乘二的图,因为即使什么也没有,它看起来也会很漂亮。所以我最终做了这个,这就是大海捞针的由来。太疯狂了,伙计。所以我们之前在谈论
推理模型,以及测试时间的计算量。你有想法。这是一个无可争辩的事实:你在推理时花费的钱越多,你得到的性能就越好。开放性问题是,这就是人们与我争论的地方,但我仍然相信它是开放的,那就是,对于顶级前沿模型来说,它是否会渐近小于100%,或者你能达到100%?
我认为你需要花很多钱才能弄清楚这个问题的答案。这是一个很大的问题。风险太高了,为什么还要尝试?好吧,不是高风险。成本是确定的。你将花费巨额资金。你得到的回报,取决于它在哪里。现在还不值得。但还有另一件事。就像我经常谈论AGI和很多这类事情一样。我们现在拥有非常非常有用、经济上有用的模型,而无需AGI。
这很酷。这很棒。我喜欢它。这对世界有价值。我骨子里是个资本主义者。我喜欢好工具被用于造福人类。LLM、O3、O4 mini,所有这些都是很棒的工具,它们将为我们带来非常非常好的进步。AGI的讨论是一个单独的讨论。这更多的是关于理论、哲学和科学的讨论,关于什么是AGI?你如何定义它?我们该如何实现它?是的,什么是智力?什么是智力?而疯狂的是,你让我兴奋起来。
伙计。我已经开始抱怨了。疯狂的是,伙计,我们没有一个社区依赖的智力的正式定义。对于像AGI这样热门的话题以及我们现在所拥有的东西来说,这让我怀疑它是否可以被正式定义,或者是否之前就已经被定义了。我脑子里可以讲几个故事。一个是它不能被定义。
但这同时也采取了一种人类非常聪明的方法。我们一次又一次地看到,人类并不像我们认为的那样聪明。所以另一种可能性是,也许我们只是对实际工具,对我们需要的工具缺乏足够的了解。但另一个故事是,你脑子里会想到的另一个故事是,是的,它可以被定义。我们只是不知道。可能。而且我们永远都不会知道。
呃,可能。嗯,然后还有智力的一个完全不同的子类,那就是与人类相关的智力。所以,你需要某种智力才能在这里的地球上生存。这就是人类拥有的。这就是我们在这里建立起来的。但是如果你,如果你真的扩展出去,这就是我们进入更哲学化的领域的地方,从宏大的角度来看,地球只是一小块,对吧?所以如果你谈论的是普遍的智力和理论上的智力,嗯,
我们不要谈这个,但我只是、我只是点燃火柴。哦,他们关心。但是如果你,如果你跳进人们会认为我在这方面走得太远了,但是如果你跳进像模拟理论这样的东西,是什么样的智力支配着那种事情,会让我们自己的世界从那里来?我保证它与人类相关的智力无关,并且存在一个理论上的最佳值,我们甚至不会触及它。但这也是另一件事。你必须先学会走路,然后再学会跑步。无论如何,我们首先要从人类智力开始。
推理模型。我的意思是,它们很棒。我的意思是,你可以扩展它们,投入更多的资金,获得更好的性能。它们需要更长的时间思考。关于推理模型是如何工作的,存在着很大的开放性问题。所以一种简单的方法是,人们想出的第一个推理模型是,他们告诉模型,请先大声思考,然后再给我你的答案。这最终带来了更好的性能。太疯狂了,对吧?然后你所做的是,你对这样的过程进行更长时间的训练。
这是扩展这些东西的另一种方法。你说,思考更长时间,思考更长时间,等待,反思步骤,你知道的,你说,继续下去。扩展这些东西的另一种方法是,你说,好吧,我要告诉你们十个人,我希望你们十个人大声思考。然后我要看看你们十个人都做了什么回应。然后我要选择从那里得出的最佳答案。甚至还有更进一步的方法,比如,我希望你想出
你过程中的第一步。好的,现在还有哪些十个潜在的步骤会紧随第一步之后?好吧,我要选择这十个步骤中最好的一步。好的,现在我到了第二步。想出十个潜在的第三步。我要选择最好的一步,然后砰砰砰,一直往下走。这些事情总是伴随着延迟和成本的权衡。但无论如何,你从这些东西中获得的性能以及它们有多好是不可否认的。
即使通过氛围轶事和RKGI性能也是如此。所以,呃,它们非常令人印象深刻。是的。所以它几乎是主观的和客观的。别让我开始,伙计。我的意思是,这是我的另一件事。RKGI是一个可验证的领域。你可以去检查答案是否正确,对吧?让我震惊的是,没有一个关于摘要有多好的正确答案,对吧?没有一个关于AI如何记下你的电话会议记录然后将其放入Salesforce的正确答案。笔记有多好?对吧。嗯,
是的,它们对谁来说有多好?好吧,所以重点是,你必须记住,后台引擎是什么?你从中评估这些东西的评估引擎是什么?对于ARK来说,这是一个相等性检查。我们可以确定我们有正确的答案。它不是,对吧?驱动经济和驱动人类以及一切的许多东西,评估引擎是人类的偏好。好吧,这就是我想要说的。对于ARK,你是否发现
答案可能是主观的。所以如果你只是看任务是否正确,是的。如果你把声明看作是人类可以解决的或什么的,那么它就更主观了。那里有很多主观的东西。但就评估引擎而言,我有一个我最喜欢的评估引擎的优先顺序。第一位将是物理学。
我的意思是,我认为AI能为我们做的最酷的事情是发现关于现实的新知识,基本上是关于物理学的。那么你认为什么是正确的答案?好吧,科学过程对物理学说了什么?这就是评估引擎。这太酷了。没有一个包罗万象的物理学。物理学就是我们所处的环境,对吧?所以我认为这是第一位的,这超级酷。第二位是资本主义。所以你想想……
资本主义是我们都遵循的一套规则的人为结构。它是一个系统,有法律,有我们选择做事的方式。经营企业是在那个世界里进行的实验,对吧?所以这几乎就像资本主义是评估引擎,我要努力赚很多钱,但你必须遵守规则,对吧?所以有一些事情你需要去做,所以我认为资本主义是一个非常有趣的评估引擎。然后是人类的偏好,就像,这个总结有多好?但人类偏好中疯狂的是,没有办法……
像大规模量化那样,这真的很困难。这就是为什么当你做RLHF时,你必须启动像数据中心一样的东西,不是数据中心,而是巨大的、巨大的会议室,成百上千的人为你提供偏好优化,哪个更好,对吧?这就是你如何做到这一点的方法,这很疯狂,但这就是做到这些事情所需要的。所以让我们快速回到这个资本主义或甚至物理学的问题,因为在某种程度上,我们假设
作为人类,我们所发生的事情是可以被发现的,或者说是引擎,评估引擎。但可能不是。它只是我们人类。是的。所以这有一个很大的警告,我的想法是,如果这是真的,我们看到的也就是我们得到的。就像如果这是真的,现实看起来就是它是什么样子的。我知道会有,即使你开始深入研究量子力学的东西,我们也不知道多世界理论的那一面是什么,我们不知道那另一面是什么。
所以,如果从那里出现了一些令人惊讶的东西,我会很高兴,因为我喜欢真相。如果那是真相,那么就那样吧。这太棒了。除此之外,假设你看到的也就是你得到的,那么我认为我所说的仍然成立。就像我仍然认为现实是,如果有一些我们无法解释的事情,那么它就超出了我们的能力范围。
至少,我不喜欢我们没有解释的答案。但我并没有排除这种可能性。我说的是,是的,这是一个警告。但我正在朝这个方向寻找它。当我想到它的时候,这就像有什么东西超出了我们的理解。可能,这就是我们将得到帮助去理解的东西。人工智能可以帮助我们理解它,但它将超出……
我们正在关注的东西。就像你走了一步棋,然后后来就像,哦,是的,当然。我从未想过这一点,或者我们需要几十年才能弄清楚这一点。现在我们可以看到了。但这太疯狂了。我同意你的看法,伙计。而人类……
非常不擅长预测未知的未知。而现在,所有这些都是未知的未知。无数的例子,去问问1800年代的人,今天会是什么样子?他们根本不知道。他们根本不知道会发生什么。所以这也会发生在我们身上,无论发生什么。即使人们谈论这些时间线有多快,我的意思是,即使说是十年后。你知道吗?两天前我和一个朋友共进了一顿美餐,他说,我做了一个思想实验,
想出2030年不同杂志上会说的标题。所以他说,我为《连线》杂志创作了一个标题,那就是青少年在他们的地下室里用3D打印微芯片之类的东西。这是一个。然后另一个是,这是一个完全的离题,但它试图向前思考,哦,什么才是可能的?他说,
美国在月球上开设了数据中心,或者美国在月球上开设了第二个数据中心。当然。所以你会想,好吧,也许这并不遥远。是的,这两点对我来说似乎都是可行的,因为实现这些目标的途径是可以规划出来的。这是直接的。如果你说了一些没有明确、明显的谱系来实现的目标,那么我就会开始更多地考虑它。但是是的,我赞同戴维·杜伊奇的哲学,所有问题都是可以解决的。
而乐观主义的论据是,如果你相信所有问题都是可以解决的,那么没有什么东西应该让你过于担心,因为你可以去解决它。去做吧。在他告诉我之后,我试图思考,我2030年的标题会是什么?我会怎么处理?所以现在只有五年时间了?是的。四年零三个季度?如果我们要具体一点的话。是的。我的意思是,你必须处理这些事情。这就像……
这三个月可能会产生很大的不同。我一直在深入研究关于智力爆炸的重大讨论。
30%的GDP增长率等等。我对一些更离谱的想法的批评之一是,它们不像我真正希望的一些预测那样具有策略性和具体性。所以要具体一点,说四年零三个季度,这就像,好吧,该死的,OpenAI上周刚刚发布了04 Mini。04什么时候发布?04 Pro什么时候发布?会不会在2026年初?如果是这样,你只剩下三年时间了。
去做这些事情。所以具体来说,GDP是如何增长30%的?数据中心是如何到达火星的?还剩下多少发射窗口?或者到达月球或其他任何地方。所以这就像我在想的事情,一件让我有点着迷的事情是,所以埃隆想走,他有一个他想争取的火星窗口。人类不会是第一个
是的,为什么我们会是?为什么你会是?我们已经有火星探测器了。我们已经有火星探测器了。所以人类不会是第一个。这意味着他们会把擎天柱送上那里。你能,我们会在那个窗口之前在地球上拥有AGI吗?如果是这样,那么你基本上就在擎天柱身上拥有了AGI,因为你只需要发送一堆命令。所以接下来你知道的,我觉得有点不安全,但我需要提醒自己不要这么情绪化。但它就像,该死的,人类不是第一个登上火星的人。是的。
我们错过了那个机会。你知道吗?我的意思是,有点。想到这一点听起来很糟糕。但这是我的第一反应。我想,该死的,将会有一个智能的机器人,它是一个独立的人,但它不是人。然后我认为这就像,该死的,我只是肤浅吗?我只是非常热爱人类。现在我需要睁开眼睛。我们需要宣示这一点。我想把美国国旗插在火星上。你知道……
我不知道。即使它只是像人类的旗帜或其他什么。但如果你这样想,已经有火星探测器了。那么它与火星探测器有什么不同呢?这就是我的生物包袱让我沮丧的地方。仅仅因为它是一个人形?我认为对我来说,它不太是人形,而是更多的是……
一个能够做自己的事情的普遍智能存在。这是人工的。它不需要是。但火星探测器不是,火星探测器不受控制。我认为是受控制的。我认为是受控制的。他们不是会向它发送指令并告诉它该做什么吗?嗯?这是一个好问题。我应该弄清楚这一点。因为它移动得很慢。我认为它像是在等待指令。
我们必须核实一下。这太搞笑了。这就像,接下来是什么?你会说,三分钟或四分钟后,好的,右转或捡起石头或其他什么。我的意思是,我认为它并没有那么遥远。我很确定是这样的。这很有趣。是的,我认为它更自主一些。或者他们一次发送三四个指令。如果失败了,就重新发送它们,或者找出我们现在的位置。是的,类似这样的事情。
有人必须告诉我们这一点,因为这太搞笑了。你还考虑过什么?是的,就标题而言,我还没有给你我正在考虑的标题。所以2030年的标题,《连线》杂志说。我认为这并非不可能出现这样的标题:人类再也无法提出人工智能无法回答的问题,这并不耸人听闻?从轰动效应的角度来看,它有点平淡。但如果你使用AGI的观察定义,
还有什么其他的问题呢,对吧?但我仍然想知道,是否有一个世界,你已经问完了所有问题,但你仍然没有看到它。在那里,你偶尔会再次找到那个问题。
并不是说你可以找到100个,但仍然有一些愚蠢的问题,就像草莓或9·11事件一样。是的。事情是这样的。我不想给观众留下这样的印象,即我依赖它作为正式定义。我认为它肯定是一个相当不错的实用定义。它易于沟通,而且我们很容易反驳它。我认为我们会想出一个正式的定义。但正如你所说,你多久会问一个人一个问题,然后就像,你在想什么?是的。
你知道我的意思吗?所以效率是这里的一个重要组成部分。这就像那个不断流传的威尔·史密斯《我,机器人》的梗。这就像你问我一个问题,你能吗?然后我就能看到这一点。是的,我们无法提出更多的问题。或者我们必须让AI提出它无法回答的问题。可能。我认为这是一个非常未被探索的
人们谈论使用AI来帮助构建AI,帮助对齐AI,帮助测试它,所有其他事情。这将会发生,因为,再次强调,定义很重要。但看看现在有多少人使用Cursor来构建AI模型。这就像,这是在使用AI来帮助你构建AI吗?这就像,是的,是的。所以这取决于你想要如何直接地使用AI来做这件事。但是是的,所以我们正在考虑ArcGIS 3.0。
因为我们将推出RKGI2。它总有一天会被击败,对吧?我们知道RKGI2可以被暴力破解。所以如果你给出一个数据中心规模的计算能力、能量和时间,比如一个月的数据中心,是的,去暴力破解它,并使用其中一个DSL尝试所有随机排列来尝试解决ARK。是的,你会找到答案的。但这就是为什么效率是这其中的一个重要组成部分。然后你需要的能量和现金并不让我们感兴趣,因为它是一个可验证的领域。你认为ARK1……
因为87%而被击败了吗?87%是及格分吗?这就像B+。长期以来,我们一直认为85%基本上是ArcAGI 1的人类阈值。我认为这很像
MMLU的战斗,人们说,我们得到了88.8。好吧,我们得到了88.9。好吧,我们得到了90.1。在这一点上,你正在超速行驶,你的信号实际上正在告诉你,你实际上正在失去信号,并且你没有,你从信号中获得的回报递减。所以我认为Arc AGI 1的任何东西,从5到大概90%之间。我认为它能很好地告诉你某件事在哪里。任何超出这些范围的东西都不会给你很多信息。所以我认为它今天仍然是一个非常有用的工具。
然而,一旦模型变得如此擅长它,它最终会过时。它越来越近了。所以这就像你看到了它生命周期的终结。事情是这样的。没有一个基准可以统治所有基准。即使你想了解模型的能力,你也需要一个组合。不仅如此,看看有多少基准测试占据了一席之地,然后因为完成了自己的任务而被淘汰。
例如,看看ImageNet发生了什么。2012年,一个大型图像数据集。这对行业产生了巨大的影响,并且完成了它的任务。有人会去……他们今天不报告ImageNet的数据,这没关系。他们有其他类型的基准测试,他们需要更深入地研究图像视觉能力,以便更好地完成这项工作。这就是ArcAGI 2所处的位置。但正如我所说,我们还没有看到有意义的性能来给我们很多信号。暴力破解它,如果你没有,但是……
那么你就有点违背了初衷。完全正确。所以即使你可以做到,你应该这样做吗?所以我们举办了一场微积分竞赛,试图击败ArcGIS 2。
这里的激励措施是以任何必要的方式击败它,因为我们有资金在押。在比赛规则内,没有解决方案要求。所以人们总是暴力破解它。这就像我生活的另一部分。这就像,如果有人和我谈论基准测试,很好。我喜欢,我可以整天谈论它。如果有人想和我谈论举办AI竞赛,
整天和我谈论它。我们去年做了这一切。我们向任何能在Kaggle上击败Arc AGI的人提供一百万美元,但没有人能够做到。但我们看到了排行榜探测。我们看到人们绕过了规则。我们看到了我们的激励措施,我们在参与者激励措施方面做出的假设与我们的假设不符。等等,怎么会这样?是的。基本上,如果你想赢得奖金,你需要开源你的解决方案。
我们认为,金钱作为一种货币激励,足以让人们开源他们的解决方案。有一个团队有一个非常强大的解决方案,非常棒。他们做出了选择。我不太确定确切的原因。有两个原因之一。要么是我们认为,我们更有可能不开源我们的解决方案,并在明年竞争大奖。
做得非常好。所以他们想要70万美元,而不是每年10万美元。或者是因为它与他们初创公司的专有信息非常接近,所以他们不想开源它。这两者都不一定符合我们作为比赛的目标,但我们没有充分地构建激励措施,也没有及早沟通这是一个问题。所以……
我们基本上做了我们能做的事情,那就是我们将他们从排行榜上移除,因为如果你不开源,你就不会排名。然后今年我们做了更多,我们对我们的意图更加明确。你现在如何协调激励措施?是的。
通过更好的沟通。不仅如此,今年我们有一个公开排行榜和一个私密排行榜。现在看到的排行榜完全基于公开数据。但是最终的排行榜,它决定你是否排名或表现良好,都是基于隐藏数据。如果你想获得你的私密分数,你需要开源。你需要开源。好的,是的。所以我们希望这样做。无论如何,我们这里谈论的不是成千上万的团队。我们谈论的可能是十个团队正在竞争。
我可以与这十个团队中的每一个团队进行交谈,并确保他们以同样的方式看待它。还有排行榜的游戏化。你看到了吗?是的。我的意思是,人们会变得有创意,因为……钱在押。钱在押,而Kagglers是专业的竞赛人员。他们非常擅长数据科学,而且非常擅长参加比赛。所以我看到的一件事是,
他们会尝试一次性地找出关于 arc 任务的属性。他们要做的是在他们的脚本中加入一个等待语句,说,如果你看到这个当前的任务属性,就等待 50 秒。然后当他们提交他们的解决方案到 Kaggle 时,他们会说,它是立即运行的还是等待了 50 秒?然后这是一种可以让你更深入了解信息的方法。因为你得到的唯一其他信息是你得到一个分数。你得到一个单一的整数,那就是你的最终分数。你无法真正了解太多关于它的信息。
Kaggle 试图通过一些关于实际花费时间的模糊处理来防止这种情况,但是人们会想出这样的创意。现在有了 Ark Prize 2,你是否必须创建各种各样的
不同的任务,或者它非常类似于“好吧,我们在这个领域努力做到最好”,所以你之前提出一个很好的问题,我没有完全回答,那就是构建这些东西是否需要大量的研究和深入思考,所以我想说,对于 Francois 在 2019 年的论文,花费了大量的工作来整合那个假设,那个正式的定义,或者那个对智力的定义,然后从中得出,好的,使用这个智力的定义
一个能够实际测试这些东西的问题会是什么样子?这就是 arc 范式出现的地方。所以,嗯,
它基本上是你有一个输入和一个输出网格,它看起来像一个棋盘。你会看到,好的,输入以某种方式变成了输出。我需要弄清楚如何将输入转换为输出。你会得到一些例子,然后你得到一个测试。在这个测试中,你只有输入。你的目标是,你必须逐个单元格地输入输出是什么。重要的是,RKGI 上的每个单独问题都需要一个不同的规则
或不同的转换才能实际解决。我的意思是,比如说……超级多样性。超级多样性。这几乎就像一个元事物。我稍后会解释为什么这很重要。为什么这很重要的原因是,假设一个 arc 任务上有一个正方形。在输入输出上,你所做的只是在正方形上添加一个边框。好的。现在在测试输入上,我们将给你一个正方形。我们将询问你,在输出上,你只需要添加一个边框。好的,很酷。这个边框转换规则只会问一次。
在另一个任务中,我们可能会要求你做的是填充每个形状的角。你去填充所有这些不同形状的角。所以我们强迫测试者在每一个问题中学习新的微技能。然后我们强迫你通过实际操作来证明你已经学习了这项技能。通过这样做,这回到了 Francois 对智力的定义,那就是学习新技能。那是……
对我们来说很简单,对吧?比如在一个正方形上写一个边框,但这正是如此。机器之所以难以做到这一点的原因是,人类非常擅长抽象和推理。就像,哦,当然,只要加一个边框就行了。好的,但这对于人工智能来说实际上很难做到。现在,arc 1,人们会说,哦,这太简单了。这不是一个好的 AI 测试。好吧,请记住,五年来它一直没有被击败,对吧?它实际上在那一刻指出了。就像模型开始变得优秀的那一刻,正是推理模型起飞的那一刻。
好的,这只是关于推理模型的一个非常有趣的事情。使用 Arc 1 作为能力断言,你实际上可以了解一些关于推理模型的信息,那就是实际上来自它的非零水平的流体智力,这非常酷。Arc 2 是 Arc 1 领域的简单扩展。我们仍然有输入输出。
我们仍然要求你制定规则。与它的不同之处在于,这些规则要深刻得多,从人类的角度来看,需要更多的思考才能做到。所以,与其只做一个边框,我们可能会要求你做一个边框并做角。或者放一个 X。或者放一个 X。现在有两个规则了。我不会详细介绍它。Francois 实际上把它放在一起了。我们为我们的奖项捐赠者举办了 Arc AGI 2 的私人预览,因为我们是一个非营利组织。我应该早点说,非营利组织。而且。
他做了 30 分钟关于 RKGI 2 的演讲。- 哇。- 但我想谈谈 RKGI 3。- 当然。- RKGI 3 将会偏离 RKGI 1 和 RKGI 2 的框架。- 做的方式?- 做的方式。所以如果你只有矩阵、输入、输出、你知道的,细丝,它的范围非常狭窄。你在这方面没有太多的自由度。所以我们从模拟和游戏中汲取灵感。
所以在 2017 年,DeepMind,他们一起进行了一次探索。他们称之为 Agent 57。所以他们试图让一个代理,或多或少是一个强化学习代理,去尝试击败一堆不同的 Atari 游戏。大约有四款游戏他们没有解决,这非常引人入胜。
Arc AGI 一和二不允许你做的事情是,它们不会让你弄清楚目标是什么?它们不会让你弄清楚环境的规则。它们不会让你拥有带有隐藏状态的长期记忆,所以就像你在游戏早期学习了一些东西,你必须记住这件事在游戏后期仍然适用,所以我告诉人们,如果你能制造出一个能够击败一款游戏的 AI,好吧,我们已经做过很多了。我们做了一个国际象棋 AI。我们做了一个围棋 AI。好的,很酷。如果你能制造出一个能够击败 50 款游戏的 AI
嗯,这更有趣。但问题是,这 50 款游戏都是公开的,你可以拥有开发人员的智力和直觉来了解如何击败这 50 款游戏。Arc AGI 3 将会是,我们将让 AI 打败 50 款它以前从未见过的游戏,而且它们彼此之间都是新颖的。
这是一个更进一步的扩展和自由度,关于我们如何看待这一点。你可以断言击败它的模型将别无选择,只能与其环境互动,在 50 种不同的新颖情况下学习游戏规则。但你不会让它模拟数小时甚至数天。或者也许你会。这就是测试时间计算类型的事情。我们会。这就是效率的来源。
所以我们将要做的是,我们将测试 400 个人在这些 50 个游戏中,我们将看看一个人实际解决这个问题需要多少操作,以及 AI 解决这个问题需要多少操作。这就是我们获得效率的地方,此外还有由此产生的成本和能源。我想我们得走了。我刚看到老板。不过,这是一个很好的结束方式。我们就在这里剪辑。这太好了。你太棒了,伙计。这太棒了。你让我兴奋不已,伙计。但这很完美。就像……