We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Greg Kamradt: Benchmarking Intelligence | ARC Prize

Greg Kamradt: Benchmarking Intelligence | ARC Prize

2025/6/24
logo of podcast MLOps.community

MLOps.community

AI Deep Dive AI Chapters Transcript
People
G
Greg Kamradt
Topics
Greg Kamradt: 我认为加速通用人工智能(AGI)的进展至关重要,因为我相信AGI将是人类有史以来最伟大的技术之一。为了实现这一目标,我们选择通过基准测试来推动AGI的发展。这个基准测试由Francois Chollet在2019年创建,旨在评估AI在解决人类容易但AI难以解决的问题上的能力。我们关注这类问题是因为人类大脑是目前我们所知的唯一通用智能的实例。我们对AGI的定义是,当我们无法再提出人类可以解决但AI无法解决的问题时,我们就实现了AGI。为了验证这一点,我们推出了ArcAGI 2,并对400人进行了测试,以确保人类能够解决这些任务,而AI仍然不能。因此,我们认为,理解人类大脑的工作方式以及人类智能与AI之间的差距,是通往AGI的快速通道。通过专注于填补这些差距,我们可以更快地实现AGI的目标。我坚信,通过持续的努力和创新,我们最终将能够创造出真正具有通用智能的机器,从而为人类社会带来巨大的利益。

Deep Dive

Chapters
Greg Kamradt discusses the Arc AGI benchmark, which focuses on problems easy for humans but hard for AI. The goal is to identify the gap between human and artificial intelligence, using human performance as a benchmark for AGI.
  • Arc AGI benchmark focuses on human-easy, AI-hard problems.
  • Human brain is the only proof point of general intelligence.
  • Arc AGI 1 and 2 are unsolved by AI, but solvable by humans.
  • A capable human, not a PhD or toddler, is the benchmark for human performance.

Shownotes Transcript

这太好了。你太棒了,伙计。这太棒了。这就是我们现在知道它是合法的理由。

我跟你说,我非常期待这个。老兄,我简直无法表达我有多兴奋。告诉我你与山姆·阿尔特曼一起直播的经过。是的。所以我现在负责ArcPrize,对吧?我们运行一个名为Arc AGI的AI基准测试。这是什么?我们希望推动AGI的进步。就像我们希望推动技术的进步一样,因为我们相信这将是人类有史以来最好的技术之一,对吧?是的。

一个很大的问题是,好吧,你究竟如何才能加快进步?所以我们选择的方法是通过一个基准测试,它是由弗朗索瓦·肖莱在2019年创建的。

它采用了一种非常有趣的方法。有很多基准测试会提出博士级别以上的问题。所以他们会问你最难的问题,然后是更难的问题。他们会说,这是我们最后一次需要做的测试,因为我们想不出任何更难的问题了。人工智能最终解决了这些问题。就像它最终做得很好一样。人工智能的极限非常高。简直令人难以置信。它已经在做一些超人的事情了。所以我们采取了不同的方法。

我们想知道哪些问题对人类来说很容易,但对人工智能来说很难。我喜欢这个。原因是,说到这里,其背后的全部意义在于,我们现在只有一个通用智能的证据点。

那就是人类的大脑。所以这些问题就像草莓一样。我会说,这是一类问题,如果你能找到这样的问题,就会觉得,哎呀,人工智能做不到,但人类仍然可以。如果我们能提出这些问题,我们可能就没有AGI了,对吧?现在,困难的部分是这些都是一次性的问题。所以很容易找到一次性的问题。但是,如果你想找到一个领域,你可以在同一个类别中提出大约200个问题,你实际上可以量化这一点。

那么这就会变得困难得多。所以我们关于AGI的理论,这更像是一个工作中的理论,这是一个观察定义,而不是一个固有的定义,那就是当我们再也想不出人类能做而人工智能做不到的问题时,

那么我们就有了AGI。哇,好吧。然而,反过来,如果我们能提出人类能做而人工智能做不到的问题,那么我们就还没有AGI。我们还没到那一步。由于Arc AGI 1,我们的基准测试的第一个版本已经存在,事实上它甚至存在并且没有被解决

这是一类人类可以解决的问题。我们刚刚发布了ArcAGI 2,我们实际上召集了400个人,并在ArcAGI 2上测试了其中的每一个任务。我们确保了这一点,因为如果我们要声称人类可以做到这一点,那么人类最好能够做到这一点。所以我们在圣地亚哥召集了400个人,并在所有这些任务上对他们进行了测试,并且其中的每一个任务都至少有两名参与者在两次尝试内解决了。所以人类可以做到。我们为此拥有第一手数据,但人工智能仍然做不到。所以

我们声称我们还没有为他们开发出AGI。但这些任务有点难。它们肯定更难了。是的。好吧,疯狂的是,我认为它之间存在差距,人类可以做到,而人工智能做不到。这一差距正在缩小。因此,我们需要确保人类仍然可以在合理的尝试次数内做到这一点。我们不是在寻找博士生。我们不是在寻找两岁的孩子来查看他们是否可以做到这些。嗯哼。

一个称职的人,给他们这些任务,看看他们是否真的可以做到。所以如果你从街上随便拉一个人,他们有大学教育之类的?或多或少。所以当我们进行过滤时,我们确保他们可以使用互联网。诸如此类的事情。所以我的妈妈不行。当我们教他们什么是ARC时,我们不想教他们如何使用电脑。你明白我的意思吗?所以这并不允许我们对普通人做出这样的声明。

普通人。所以我们很小心,不这么说。这不是我们追求的目标。我们追求的是一个有能力的人。有些人喜欢与我们争论这个问题,但这又是另一个话题了。所以我们运行这个基准测试,RKGI1。好的,很好。我们在12月初收到了一封来自OpenAI董事会成员的电子邮件,我们与他们有关系,他们或多或少地说,嘿,我们有一个新模型。

我们想在Ark上测试它。在那时候,是草莓吗?是草莓模型吗?有很多名字在流传。我的意思是,那时甚至还有猎户座。有草莓。伊利亚看到了什么?你知道,有很多东西在流传。就像,谁知道哪个谣言指的是哪个生产版本?老实说,情况并没有好转。官方名称可能比谣言更糟糕。我认为这告诉你不要指望它会好转。因为它不会好转。所以同样,电子邮件说……

我们有一个新模型。我们想测试它。好的,酷。是的,听起来不错。是Open AI。他们有一个新模型。他们声称得分很高,但他们在邮件中没有说明他们的分数是多少。在ARC奖上?在ARC奖上。因为我们有公开数据。所以我们运行基准测试的方式是,你可以使用大量公开数据进行训练,并且可以对其进行测试。但是我们有一个隐藏的保留集。不错。那……

我们可以讨论为什么这很重要。是的,这是唯一的方法。这是唯一的方法。你有一个隐藏的保留集。他们说,我们想看看,我们是否过度拟合了这个?因为我们认为我们做得很好,但我们想在你的保留集上尝试一下。你会来帮我们测试一下吗?所以我们花了接下来的两周时间进行测试,基本上是与他们的团队合作来完成这项工作。这也是在去年的NeurIPS 2024期间。所以我当时在温哥华参加NeurIPS,以为我会一直放松并观看演讲。我实际上是在测试并访问OpenAI的API端点。但我们完成了,并且……

就像,我的天哪。这很好?我的意思是,真是太棒了。它比我们之前见过的任何其他模型都要好得多。请记住,这个东西已经存在五年了,而且在此之前没有取得过这种进展。所以我们想,我的天哪。所以我和杰里和纳特开了一个会。

只是为了在进行测试之前进行简要介绍。我说,你在Arc AGI上声称的分数是多少?因为我们将去验证一下。因为如果他们声称的结果不同,那将是一个大新闻。他们声称是87%。请记住,公开可用模型的最高分大约在20分左右。然后,专门为了击败Arc而构建的定制解决方案当时的得分在40到50分之间。

他们声称是87%。所以就像,好吧,这对我们来说是一件非常重要的事情。无论如何,长话短说,我们完成了测试。有趣的是,在推理时间计算领域,你不能再仅仅说,这是我们的模型,这是我们的分数。而是这是模型。这是我们花费的推理时间计算量。这是我们的分数。所以现在又增加了一个变量。我们为他们确认的是……

在低计算量下,我们稍后会讨论低计算量实际上意味着什么,他们的得分是75%。在高计算量下,我们看到,是的,我们或多或少地验证了他们的87%的得分。就像,好吧,是的,它得到了验证。所以我们撰写了我们的博客文章,它就像一个单页的谷歌文档,并且……

不知何故,或者并非不知何故,而是沿着这条线,山姆最终被拉到了这个线程上,就像我们在来回发送的电子邮件线程上一样。我们说,我们有我们的结果。它们就在这里。我们想现场讨论一下。他说,很好。我周二下午5点30分有空,或者其他时间。就像,

哦,是的。让我们开始吧。是的,让我们开始吧。就像,这是一个巨大的机会。就像,我们写了一篇博客文章,然后我们进入房间,然后我们展示,基本上放在屏幕上。我们展示了一篇博客文章。每个人都阅读了一遍。然后是讨论,讨论。他说,好的,很好。你们应该加入我们周五的直播。

所以我们坐在那里,甚至没有考虑过我们将要测试这个新模型。就像,你知道,如果你真的。然后他说,周二,你们应该在周五加入我们。我们的一个要求是我们不想只是上去让他们告诉我们该说什么。就像我们不想让他们为我们写剧本一样。所以我和迈克,迈克·诺普,ArcPrize的联合创始人,我们基本上写了我们满意的剧本。我们很舒服。我们把它给了他。他们说,是的,看起来不错。

好的,酷。就是这样。周五见。没错。好吧,所以他们有一个非常大的制作。不,我不会说大型制作团队,但称之为12个人,包括营销、沟通、摄像师、活动和声音以及所有参与其中的人。所以我们进行了两次彩排。两次彩排都进行得很好,进行了编辑。然后……

你知道,直播在周五播出或在周五播出。哇。这很有趣,因为房间并没有比这个大多少,但它是一个更大的房间,但是它在所有侧面都被隔开了,你知道,就像,你知道,舞台或其他什么。是的。意味着看起来像。它就像一张桌子。你们都坐在桌子旁。是的。他们在这方面做得非常好。但是我在隔板的另一边。我听到山姆和马克在谈论它。当时的马克·陈,他们的研究高级副总裁。

他们说,现在我们想邀请格雷格,然后从幕后走出来,跳到那里。奇怪的是,你知道有多少人在直播中观看,但这是一个小房间。就像我说的,只有大约10个人在那里。但这很酷。所以就这样做了。但这是一个未发布的模型。所以现在我们称之为O3预览,因为它有一个预览模型。它更像是一个能力演示,关于如果你将其推向极限,你实际上可以为此做些什么?这让我们对它有了新的认识。

嗯,在低计算量下,他们每个任务花费大约20美元,我们用500个任务进行了验证,所以这大约是1万美元的计算量,他们只是为了arc而花费的,就像,我的天哪,这太多了,对吧?是的,就像,这太多了,你找不到那么多愿意花1万美元来解决我们任务的人,对吧?但那是低计算量,然后O3预览是第一个推理模型,不,不,不,它不是第一个推理模型,因为我,你知道,它

取决于你什么时候想说,我相信他们的第一个推理模型是他们发布O1预览的时候。我甚至不知道那是什么时候。那一定是2024年初,2024年中,甚至可能是2023年。所以我们测试了O3预览的低计算量,然后我们还测试了高计算量。

那是更多的钱。它使用了,我忘记了确切的美元金额。每个任务都是几千美元。哦,什么?每个任务。再说一次,记住,我们测试了500个任务或其他什么。我认为它是低计算量使用的计算量的170倍。但无论如何,TLDR,就像,好吧,所以呢?那是很多钱。重要的部分是什么?重要的部分是……

它只是再次证实你可以为更好的性能付费,这太疯狂了,对吧?关于这种扩展实际上在哪里达到顶峰,还有待商榷。所以我们没有像我们希望的那样对该系统进行彻底的分析。一个很大的问题是它是否会渐近线?

或者如果你只是给它越来越多的东西,你是否可以达到100%?但请记住?这是你给它的对数。所以他们,你知道,让我们假设你花了100万美元才能获得几个百分点的升级,你需要花1000万美元,然后你花1亿美元。就像,好吧,它最终会在哪里停止?是的,权衡是什么?是的,而且你是否需要等待一年才能完成?时间很长。所以对于高计算量,这项工作需要

一夜之间,或多或少。就像,一夜之间,甚至可能需要更长时间。我忘记了它的确切持续时间,但它不是短时间。你不会坐在那里等待回应。是的,这是你做的事情。你让它运行,出去,过你的生活,然后回来看看它是否能够做到。但实际上,就在今天,上周开放,他们发布了他们的03生产版。太好了。我喜欢03。是的。

所以有一个很大的问题。就像,好吧,我们在12月测试的内容与今天公开发布的内容如何匹配?我们,嗯,我们问了开放式高,我们问了杰里,嗯,对此的确认和一些细微之处,TLDR,它不是同一个模型。没错。它不是同一个模型,并且使用的计算量更少。所以我们不应该期望相同的分数。所以我们今天刚刚测试了它,嗯,是的,正如预期的那样,它做得非常好。它没有达到我们测试的模型的水平。它不是87%。嗯,

但他们也发布了04 mini。所以他们只是,他们一直在发布模型。对。所以,嗯,很多好的测试,很多好的东西。嗯,但很酷的是,RKGI是我们用来评估这些东西的工具。我们有RKGI 2。所有这些模型在RKGI 2上的得分仍然非常低。

所以基本上Arc AGI 2意味着是下一步,更难的级别?所以我一直在寻找一个好的类比。所以抱歉,我还没有找到。但我认为,这可能是不正确的,所以如果我弄错了,请道歉。但是,如果Arc AGI 1测量……

它非常擅长测量20英里/小时到40英里/小时之间的车速。低于20,它不太好。超过40,它不太好,因为它已经达到最大值了。它就像真的超速了。它已经到达顶部了。

Arc AGI 2正在测量40英里/小时到80英里/小时之间的汽车。所以低于40英里/小时,你不会得到太多信号。你会得到一些东西。所以它必须是那些高级模型。它必须是高级模型。我们还没有看到模型在上面取得实质性进展。所以我认为目前最好的开源模型我认为大约能达到3%到4%。对不起,不是最好的开源模型。即使我们测试了O3中型,它在这个模型上的得分也只有3%到4%。

在这个范围内,我们只谈论120个任务。所以在这个范围内,我们谈论的是噪音。直到它开始达到10、15,你才会真正开始看到它的实质性内容。是的。你如何决定这些问题?是的。然后还有另一方面,你不能仅仅让它成为一个超级困难的任务。你几乎必须,你必须有创意。这不像,再说一次,因为我们坚持人类需要能够做到这一点的限制。

这限制了你只做难,难,难,难的任务。是的,它不能是这个博士级别以上。它不能是博士级别以上。但只要我们能提出这些问题,这就会告诉你人类智能和人工智能之间存在差距。人们与我争论说,哦,如果你想追求AGI,你不需要追求人类智能,因为它们是两件不同的事情。

我同意。但是我们的假设是,通往AGI的快速途径是了解人脑是如何工作的,以及差距在哪里。因为如果我们瞄准这些差距,那将告诉我们一些有趣的东西。嗯,我们稍后可以讨论这个,但是它根本没有。人脑远没有达到理论上的最佳智能水平。我们有很多生物学上的包袱。是的。

我现在可以告诉你,伙计。我的人脑永远无法发挥全部能力。所以我绝不是说它是最好的例子,但它是我们唯一一个通用智能的例子。所以我们认为它是一个有用的模型。无论如何,我们如何选择问题?2019年,弗朗索瓦·肖莱发表了一篇名为《论智力测量》的论文,这非常引人入胜,因为它就像,你如何提出问题?这实际上不是首先要问的问题。首先要问的问题是,你如何定义智力?嗯哼。

因为如果你能清晰地定义它,那么你就可以为它提出问题,这才是最引人入胜的部分。所以弗朗索瓦发表了这篇关于智力测量的论文。所以他对智力的定义是,你学习新事物的能力是什么?它不是你在国际象棋方面有多好。它不是你在围棋方面有多好。它不是你在自动驾驶方面有多好。

如果我给你一个新的任务、一个新的领域和一组你需要学习的新技能才能完成它,你能成功地学习那件事吗?它是学习速度吗?所以现在这是一个好问题。所以我对智力的开放式定义总是二元的。你能学习新事物还是不能?但他的智力实际定义是你学习新事物的效率。例如,我喜欢用两个轴来衡量效率。第一个是学习新事物所需的能量。是的。

我们稍后会讨论这个问题。但第二个维度是你学习新事物所需的数据量。所以基本上,你需要做多少次才能学会它?没错。所以一个粗略的、粗略的、粗略的例子是,如果我要教你如何下围棋,我们可能需要6个小时。我会教你规则,你会变得很基础。我们至少可以围绕它进行对话。想想有多少训练数据被用于……

最终击败围棋很多,对吧?所以当然,这对于它来说是更好的技能,但它几乎使用了过多的训练数据。所以另一种方法是,人类的大脑中是否包含互联网数量的训练数据,以输出你现在看到的智力?答案是否定的,没有。语言模型可以。所以在最近的播客中,它是与OpenAI、山姆·阿尔特曼和我相信他的名字是丹尼尔的人进行的内部播客,他谈到了语言模型的效率

以及语言模型的语言效率与人类的语言效率相比如何。他说,据他估计,我认为这可能有点低,但他表示,人类在语言方面的效率比目前的LLM高10万倍,这说明了,他们在播客中一直在谈论的一件事是,看,计算不再是阻碍我们的因素了。我们有很多计算能力。就像,

我们有很多计算能力,就像星门,所有视频中的那些。我们有如此多的计算能力。现在阻碍我们的更多的是数据方面的问题,但根本上,阻碍我们的更多的是算法方面的问题。就像我们只需要新的……

我们只需要新的算法,基本上需要突破才能达到人类的效率水平。真正说明这一点的随机点是,我喜欢使用人脑作为基准的另一个原因是,你知道人脑需要多少能量,比如卡路里,人脑消耗多少卡路里,你将卡路里转换成能量,然后你将其与解决arc所使用的推理能量进行比较,

就像你已经可以看出你领先了数英里。所以人脑对我们来说是一个很好的基准。此外,我们应该注意,这一切是否只是从大海捞针开始让你走上这条道路?那是让你爆火的东西吗?你知道,嗯,

大海捞针是我迄今为止所经历的旅程中一个有趣的要点。我不会称之为促成这一切的事情。它很酷,但它并没有让我致富。它并没有让我爆火。这是一件小事。你得到了一些转发。我从它那里得到了一些转发。我在推特上得到了一些点赞,但这并没有什么。不,但是固有的……

事情,就像,无论是什么驱动我,以及,无论是什么让我把我的精力放在哪里,大海捞针是从那个地方出现的,就像其他东西是从那个地方出现的,以及,你知道,一切。所以就像,我想说所有像,

所有发生的事情都是我选择把精力放在哪里以及其后果的症状。这些后果本身就让我走上了我现在的道路。然后它打开了大门。就像,嘿,这件事发生了。对于那些听众来说,他们也应该知道你正在做

很棒的教程。我正在做YouTube的工作。是的,我就是这样找到你的。在过去你制作YouTube教程的时候,你就像第一个制作lane change教程的人。所以这是一个另一个疯狂的故事。关于这一点,我非常简短地说明一下。我记得第一次lane change。好吧,我当时正在浏览Hacker News,只是随便浏览一下。我在10月22日看到了这个。ChatGPT发布的时候。ChatGPT发布的时候,甚至可能更早一点。是的。

它说,展示Hacker News,Langchain。所以它就像Langchain的发布博客文章一样。我看着它,心想,我的天哪。这解决了我在当时使用原始API构建时遇到的许多问题。因为请记住,当时没有聊天模型。只是DaVinci 03。所以使用那个东西很讨厌。

就像你必须去,获得价值有很多摩擦。无论如何,Langchen在这方面提供了一些帮助。我心想,这太酷了。我之前有过在YouTube上制作pandas教程的历史,但没有结果。它们太糟糕了。就像我当时在我的妈妈的地下室里,穿着我的内衣,制作pandas教程一样。至少你在做。并非完全如此,但差不多。所以-

所以我制作了,我认为大约,我不想称之为80个pandas教程或类似的东西。因为那是我的技艺。当时数据分析是我的技艺。我为此感到自豪。嗯,我看到,我去YouTube上输入lane chain,什么也没有,只有一个教程是由我后来认识的一位非常棒的人制作的。他的名字是詹姆斯·布里格斯。只有一个lane chain教程。我有点像那种小小的、小小的灯泡时刻。我心想,老兄,格雷格,你应该为pandas做你做过的事情。

但你应该为Langchain做这件事。我为Pandas所做的只是看看我对什么感兴趣,然后制作一堆教程和函数。

所以当时,仅仅基于我的pandas的成功或涟漪,它并不是成功。我只是说它带来的任何东西。我每天大约会获得三到四个新的YouTube订阅者。我做了我的第一个Langston教程,之后我获得了16个新的订阅者。我心想,那是4倍。成功。那是我的4倍。无论如何,我做了第二个,第二天我获得了25个。然后我做了第三个,第二天我获得了50个。请记住,这比我之前做的要多10倍。我把妻子拉进房间。我心想,我的天哪,伊丽莎。

这就像,这里有些东西,我、我已经、我已经重述过这个故事几次了,但就像生活中有一些时刻你会注意到,你得到的投资回报率和能量,你经常在生活中得到,这就像你付出了一单位能量,你却得到了20倍的回报,这真的不多,你可能会得到一些钱,但你并没有得到满足感,你知道的,等等。是的,在那一刻,我付出了一单位能量,却得到了两到三倍的回报,因为我获得了能量,我获得了能量。

就像我睡不着觉。就像我当时想,我得醒过来。我今天要做什么?我今天要做哪个教程?你刚刚升级了我的设置。我太兴奋了。我知道我当时就像遇到了哈里森,做了所有其他的事情。仅仅通过这些,自然而然地就产生了一些问题。比如,你怎么才能更好地检索?我之前所有这些商业问题,你怎么才能做得更好?其中一个问题是关于大海捞针的,每个人都在谈论长文本上下文。哦,

哦,越来越长,越来越长,越来越长。我看到一些推文说,是的,但它在长文本上下文中实际上并没有那么好。我当时想,你们都是白痴。让我们去测试一下这个东西。是的,我们有一个可以遵循的过程。我想,记住,我是一个数据专家,所以这是我的专长。我脑子里看到的只是一张热力图。

我想,长度?然后就有了关于你的针的位置是否会影响结果的整个问题。我想,不妨做一个二乘二的图,因为即使什么也没有,它看起来也会很漂亮。所以我最终做了这个,这就是大海捞针的由来。太疯狂了,伙计。所以我们之前在谈论

推理模型,以及测试时间的计算量。你有想法。这是一个无可争辩的事实:你在推理时花费的钱越多,你得到的性能就越好。开放性问题是,这就是人们与我争论的地方,但我仍然相信它是开放的,那就是,对于顶级前沿模型来说,它是否会渐近小于100%,或者你能达到100%?

我认为你需要花很多钱才能弄清楚这个问题的答案。这是一个很大的问题。风险太高了,为什么还要尝试?好吧,不是高风险。成本是确定的。你将花费巨额资金。你得到的回报,取决于它在哪里。现在还不值得。但还有另一件事。就像我经常谈论AGI和很多这类事情一样。我们现在拥有非常非常有用、经济上有用的模型,而无需AGI。

这很酷。这很棒。我喜欢它。这对世界有价值。我骨子里是个资本主义者。我喜欢好工具被用于造福人类。LLM、O3、O4 mini,所有这些都是很棒的工具,它们将为我们带来非常非常好的进步。AGI的讨论是一个单独的讨论。这更多的是关于理论、哲学和科学的讨论,关于什么是AGI?你如何定义它?我们该如何实现它?是的,什么是智力?什么是智力?而疯狂的是,你让我兴奋起来。

伙计。我已经开始抱怨了。疯狂的是,伙计,我们没有一个社区依赖的智力的正式定义。对于像AGI这样热门的话题以及我们现在所拥有的东西来说,这让我怀疑它是否可以被正式定义,或者是否之前就已经被定义了。我脑子里可以讲几个故事。一个是它不能被定义。

但这同时也采取了一种人类非常聪明的方法。我们一次又一次地看到,人类并不像我们认为的那样聪明。所以另一种可能性是,也许我们只是对实际工具,对我们需要的工具缺乏足够的了解。但另一个故事是,你脑子里会想到的另一个故事是,是的,它可以被定义。我们只是不知道。可能。而且我们永远都不会知道。

呃,可能。嗯,然后还有智力的一个完全不同的子类,那就是与人类相关的智力。所以,你需要某种智力才能在这里的地球上生存。这就是人类拥有的。这就是我们在这里建立起来的。但是如果你,如果你真的扩展出去,这就是我们进入更哲学化的领域的地方,从宏大的角度来看,地球只是一小块,对吧?所以如果你谈论的是普遍的智力和理论上的智力,嗯,

我们不要谈这个,但我只是、我只是点燃火柴。哦,他们关心。但是如果你,如果你跳进人们会认为我在这方面走得太远了,但是如果你跳进像模拟理论这样的东西,是什么样的智力支配着那种事情,会让我们自己的世界从那里来?我保证它与人类相关的智力无关,并且存在一个理论上的最佳值,我们甚至不会触及它。但这也是另一件事。你必须先学会走路,然后再学会跑步。无论如何,我们首先要从人类智力开始。

推理模型。我的意思是,它们很棒。我的意思是,你可以扩展它们,投入更多的资金,获得更好的性能。它们需要更长的时间思考。关于推理模型是如何工作的,存在着很大的开放性问题。所以一种简单的方法是,人们想出的第一个推理模型是,他们告诉模型,请先大声思考,然后再给我你的答案。这最终带来了更好的性能。太疯狂了,对吧?然后你所做的是,你对这样的过程进行更长时间的训练。

这是扩展这些东西的另一种方法。你说,思考更长时间,思考更长时间,等待,反思步骤,你知道的,你说,继续下去。扩展这些东西的另一种方法是,你说,好吧,我要告诉你们十个人,我希望你们十个人大声思考。然后我要看看你们十个人都做了什么回应。然后我要选择从那里得出的最佳答案。甚至还有更进一步的方法,比如,我希望你想出

你过程中的第一步。好的,现在还有哪些十个潜在的步骤会紧随第一步之后?好吧,我要选择这十个步骤中最好的一步。好的,现在我到了第二步。想出十个潜在的第三步。我要选择最好的一步,然后砰砰砰,一直往下走。这些事情总是伴随着延迟和成本的权衡。但无论如何,你从这些东西中获得的性能以及它们有多好是不可否认的。

即使通过氛围轶事和RKGI性能也是如此。所以,呃,它们非常令人印象深刻。是的。所以它几乎是主观的和客观的。别让我开始,伙计。我的意思是,这是我的另一件事。RKGI是一个可验证的领域。你可以去检查答案是否正确,对吧?让我震惊的是,没有一个关于摘要有多好的正确答案,对吧?没有一个关于AI如何记下你的电话会议记录然后将其放入Salesforce的正确答案。笔记有多好?对吧。嗯,

是的,它们对谁来说有多好?好吧,所以重点是,你必须记住,后台引擎是什么?你从中评估这些东西的评估引擎是什么?对于ARK来说,这是一个相等性检查。我们可以确定我们有正确的答案。它不是,对吧?驱动经济和驱动人类以及一切的许多东西,评估引擎是人类的偏好。好吧,这就是我想要说的。对于ARK,你是否发现

答案可能是主观的。所以如果你只是看任务是否正确,是的。如果你把声明看作是人类可以解决的或什么的,那么它就更主观了。那里有很多主观的东西。但就评估引擎而言,我有一个我最喜欢的评估引擎的优先顺序。第一位将是物理学。

我的意思是,我认为AI能为我们做的最酷的事情是发现关于现实的新知识,基本上是关于物理学的。那么你认为什么是正确的答案?好吧,科学过程对物理学说了什么?这就是评估引擎。这太酷了。没有一个包罗万象的物理学。物理学就是我们所处的环境,对吧?所以我认为这是第一位的,这超级酷。第二位是资本主义。所以你想想……

资本主义是我们都遵循的一套规则的人为结构。它是一个系统,有法律,有我们选择做事的方式。经营企业是在那个世界里进行的实验,对吧?所以这几乎就像资本主义是评估引擎,我要努力赚很多钱,但你必须遵守规则,对吧?所以有一些事情你需要去做,所以我认为资本主义是一个非常有趣的评估引擎。然后是人类的偏好,就像,这个总结有多好?但人类偏好中疯狂的是,没有办法……

像大规模量化那样,这真的很困难。这就是为什么当你做RLHF时,你必须启动像数据中心一样的东西,不是数据中心,而是巨大的、巨大的会议室,成百上千的人为你提供偏好优化,哪个更好,对吧?这就是你如何做到这一点的方法,这很疯狂,但这就是做到这些事情所需要的。所以让我们快速回到这个资本主义或甚至物理学的问题,因为在某种程度上,我们假设

作为人类,我们所发生的事情是可以被发现的,或者说是引擎,评估引擎。但可能不是。它只是我们人类。是的。所以这有一个很大的警告,我的想法是,如果这是真的,我们看到的也就是我们得到的。就像如果这是真的,现实看起来就是它是什么样子的。我知道会有,即使你开始深入研究量子力学的东西,我们也不知道多世界理论的那一面是什么,我们不知道那另一面是什么。

所以,如果从那里出现了一些令人惊讶的东西,我会很高兴,因为我喜欢真相。如果那是真相,那么就那样吧。这太棒了。除此之外,假设你看到的也就是你得到的,那么我认为我所说的仍然成立。就像我仍然认为现实是,如果有一些我们无法解释的事情,那么它就超出了我们的能力范围。

至少,我不喜欢我们没有解释的答案。但我并没有排除这种可能性。我说的是,是的,这是一个警告。但我正在朝这个方向寻找它。当我想到它的时候,这就像有什么东西超出了我们的理解。可能,这就是我们将得到帮助去理解的东西。人工智能可以帮助我们理解它,但它将超出……

我们正在关注的东西。就像你走了一步棋,然后后来就像,哦,是的,当然。我从未想过这一点,或者我们需要几十年才能弄清楚这一点。现在我们可以看到了。但这太疯狂了。我同意你的看法,伙计。而人类……

非常不擅长预测未知的未知。而现在,所有这些都是未知的未知。无数的例子,去问问1800年代的人,今天会是什么样子?他们根本不知道。他们根本不知道会发生什么。所以这也会发生在我们身上,无论发生什么。即使人们谈论这些时间线有多快,我的意思是,即使说是十年后。你知道吗?两天前我和一个朋友共进了一顿美餐,他说,我做了一个思想实验,

想出2030年不同杂志上会说的标题。所以他说,我为《连线》杂志创作了一个标题,那就是青少年在他们的地下室里用3D打印微芯片之类的东西。这是一个。然后另一个是,这是一个完全的离题,但它试图向前思考,哦,什么才是可能的?他说,

美国在月球上开设了数据中心,或者美国在月球上开设了第二个数据中心。当然。所以你会想,好吧,也许这并不遥远。是的,这两点对我来说似乎都是可行的,因为实现这些目标的途径是可以规划出来的。这是直接的。如果你说了一些没有明确、明显的谱系来实现的目标,那么我就会开始更多地考虑它。但是是的,我赞同戴维·杜伊奇的哲学,所有问题都是可以解决的。

而乐观主义的论据是,如果你相信所有问题都是可以解决的,那么没有什么东西应该让你过于担心,因为你可以去解决它。去做吧。在他告诉我之后,我试图思考,我2030年的标题会是什么?我会怎么处理?所以现在只有五年时间了?是的。四年零三个季度?如果我们要具体一点的话。是的。我的意思是,你必须处理这些事情。这就像……

这三个月可能会产生很大的不同。我一直在深入研究关于智力爆炸的重大讨论。

30%的GDP增长率等等。我对一些更离谱的想法的批评之一是,它们不像我真正希望的一些预测那样具有策略性和具体性。所以要具体一点,说四年零三个季度,这就像,好吧,该死的,OpenAI上周刚刚发布了04 Mini。04什么时候发布?04 Pro什么时候发布?会不会在2026年初?如果是这样,你只剩下三年时间了。

去做这些事情。所以具体来说,GDP是如何增长30%的?数据中心是如何到达火星的?还剩下多少发射窗口?或者到达月球或其他任何地方。所以这就像我在想的事情,一件让我有点着迷的事情是,所以埃隆想走,他有一个他想争取的火星窗口。人类不会是第一个

是的,为什么我们会是?为什么你会是?我们已经有火星探测器了。我们已经有火星探测器了。所以人类不会是第一个。这意味着他们会把擎天柱送上那里。你能,我们会在那个窗口之前在地球上拥有AGI吗?如果是这样,那么你基本上就在擎天柱身上拥有了AGI,因为你只需要发送一堆命令。所以接下来你知道的,我觉得有点不安全,但我需要提醒自己不要这么情绪化。但它就像,该死的,人类不是第一个登上火星的人。是的。

我们错过了那个机会。你知道吗?我的意思是,有点。想到这一点听起来很糟糕。但这是我的第一反应。我想,该死的,将会有一个智能的机器人,它是一个独立的人,但它不是人。然后我认为这就像,该死的,我只是肤浅吗?我只是非常热爱人类。现在我需要睁开眼睛。我们需要宣示这一点。我想把美国国旗插在火星上。你知道……

我不知道。即使它只是像人类的旗帜或其他什么。但如果你这样想,已经有火星探测器了。那么它与火星探测器有什么不同呢?这就是我的生物包袱让我沮丧的地方。仅仅因为它是一个人形?我认为对我来说,它不太是人形,而是更多的是……

一个能够做自己的事情的普遍智能存在。这是人工的。它不需要是。但火星探测器不是,火星探测器不受控制。我认为是受控制的。我认为是受控制的。他们不是会向它发送指令并告诉它该做什么吗?嗯?这是一个好问题。我应该弄清楚这一点。因为它移动得很慢。我认为它像是在等待指令。

我们必须核实一下。这太搞笑了。这就像,接下来是什么?你会说,三分钟或四分钟后,好的,右转或捡起石头或其他什么。我的意思是,我认为它并没有那么遥远。我很确定是这样的。这很有趣。是的,我认为它更自主一些。或者他们一次发送三四个指令。如果失败了,就重新发送它们,或者找出我们现在的位置。是的,类似这样的事情。

有人必须告诉我们这一点,因为这太搞笑了。你还考虑过什么?是的,就标题而言,我还没有给你我正在考虑的标题。所以2030年的标题,《连线》杂志说。我认为这并非不可能出现这样的标题:人类再也无法提出人工智能无法回答的问题,这并不耸人听闻?从轰动效应的角度来看,它有点平淡。但如果你使用AGI的观察定义,

还有什么其他的问题呢,对吧?但我仍然想知道,是否有一个世界,你已经问完了所有问题,但你仍然没有看到它。在那里,你偶尔会再次找到那个问题。

并不是说你可以找到100个,但仍然有一些愚蠢的问题,就像草莓或9·11事件一样。是的。事情是这样的。我不想给观众留下这样的印象,即我依赖它作为正式定义。我认为它肯定是一个相当不错的实用定义。它易于沟通,而且我们很容易反驳它。我认为我们会想出一个正式的定义。但正如你所说,你多久会问一个人一个问题,然后就像,你在想什么?是的。

你知道我的意思吗?所以效率是这里的一个重要组成部分。这就像那个不断流传的威尔·史密斯《我,机器人》的梗。这就像你问我一个问题,你能吗?然后我就能看到这一点。是的,我们无法提出更多的问题。或者我们必须让AI提出它无法回答的问题。可能。我认为这是一个非常未被探索的

人们谈论使用AI来帮助构建AI,帮助对齐AI,帮助测试它,所有其他事情。这将会发生,因为,再次强调,定义很重要。但看看现在有多少人使用Cursor来构建AI模型。这就像,这是在使用AI来帮助你构建AI吗?这就像,是的,是的。所以这取决于你想要如何直接地使用AI来做这件事。但是是的,所以我们正在考虑ArcGIS 3.0。

因为我们将推出RKGI2。它总有一天会被击败,对吧?我们知道RKGI2可以被暴力破解。所以如果你给出一个数据中心规模的计算能力、能量和时间,比如一个月的数据中心,是的,去暴力破解它,并使用其中一个DSL尝试所有随机排列来尝试解决ARK。是的,你会找到答案的。但这就是为什么效率是这其中的一个重要组成部分。然后你需要的能量和现金并不让我们感兴趣,因为它是一个可验证的领域。你认为ARK1……

因为87%而被击败了吗?87%是及格分吗?这就像B+。长期以来,我们一直认为85%基本上是ArcAGI 1的人类阈值。我认为这很像

MMLU的战斗,人们说,我们得到了88.8。好吧,我们得到了88.9。好吧,我们得到了90.1。在这一点上,你正在超速行驶,你的信号实际上正在告诉你,你实际上正在失去信号,并且你没有,你从信号中获得的回报递减。所以我认为Arc AGI 1的任何东西,从5到大概90%之间。我认为它能很好地告诉你某件事在哪里。任何超出这些范围的东西都不会给你很多信息。所以我认为它今天仍然是一个非常有用的工具。

然而,一旦模型变得如此擅长它,它最终会过时。它越来越近了。所以这就像你看到了它生命周期的终结。事情是这样的。没有一个基准可以统治所有基准。即使你想了解模型的能力,你也需要一个组合。不仅如此,看看有多少基准测试占据了一席之地,然后因为完成了自己的任务而被淘汰。

例如,看看ImageNet发生了什么。2012年,一个大型图像数据集。这对行业产生了巨大的影响,并且完成了它的任务。有人会去……他们今天不报告ImageNet的数据,这没关系。他们有其他类型的基准测试,他们需要更深入地研究图像视觉能力,以便更好地完成这项工作。这就是ArcAGI 2所处的位置。但正如我所说,我们还没有看到有意义的性能来给我们很多信号。暴力破解它,如果你没有,但是……

那么你就有点违背了初衷。完全正确。所以即使你可以做到,你应该这样做吗?所以我们举办了一场微积分竞赛,试图击败ArcGIS 2。

这里的激励措施是以任何必要的方式击败它,因为我们有资金在押。在比赛规则内,没有解决方案要求。所以人们总是暴力破解它。这就像我生活的另一部分。这就像,如果有人和我谈论基准测试,很好。我喜欢,我可以整天谈论它。如果有人想和我谈论举办AI竞赛,

整天和我谈论它。我们去年做了这一切。我们向任何能在Kaggle上击败Arc AGI的人提供一百万美元,但没有人能够做到。但我们看到了排行榜探测。我们看到人们绕过了规则。我们看到了我们的激励措施,我们在参与者激励措施方面做出的假设与我们的假设不符。等等,怎么会这样?是的。基本上,如果你想赢得奖金,你需要开源你的解决方案。

我们认为,金钱作为一种货币激励,足以让人们开源他们的解决方案。有一个团队有一个非常强大的解决方案,非常棒。他们做出了选择。我不太确定确切的原因。有两个原因之一。要么是我们认为,我们更有可能不开源我们的解决方案,并在明年竞争大奖。

做得非常好。所以他们想要70万美元,而不是每年10万美元。或者是因为它与他们初创公司的专有信息非常接近,所以他们不想开源它。这两者都不一定符合我们作为比赛的目标,但我们没有充分地构建激励措施,也没有及早沟通这是一个问题。所以……

我们基本上做了我们能做的事情,那就是我们将他们从排行榜上移除,因为如果你不开源,你就不会排名。然后今年我们做了更多,我们对我们的意图更加明确。你现在如何协调激励措施?是的。

通过更好的沟通。不仅如此,今年我们有一个公开排行榜和一个私密排行榜。现在看到的排行榜完全基于公开数据。但是最终的排行榜,它决定你是否排名或表现良好,都是基于隐藏数据。如果你想获得你的私密分数,你需要开源。你需要开源。好的,是的。所以我们希望这样做。无论如何,我们这里谈论的不是成千上万的团队。我们谈论的可能是十个团队正在竞争。

我可以与这十个团队中的每一个团队进行交谈,并确保他们以同样的方式看待它。还有排行榜的游戏化。你看到了吗?是的。我的意思是,人们会变得有创意,因为……钱在押。钱在押,而Kagglers是专业的竞赛人员。他们非常擅长数据科学,而且非常擅长参加比赛。所以我看到的一件事是,

他们会尝试一次性地找出关于 arc 任务的属性。他们要做的是在他们的脚本中加入一个等待语句,说,如果你看到这个当前的任务属性,就等待 50 秒。然后当他们提交他们的解决方案到 Kaggle 时,他们会说,它是立即运行的还是等待了 50 秒?然后这是一种可以让你更深入了解信息的方法。因为你得到的唯一其他信息是你得到一个分数。你得到一个单一的整数,那就是你的最终分数。你无法真正了解太多关于它的信息。

Kaggle 试图通过一些关于实际花费时间的模糊处理来防止这种情况,但是人们会想出这样的创意。现在有了 Ark Prize 2,你是否必须创建各种各样的

不同的任务,或者它非常类似于“好吧,我们在这个领域努力做到最好”,所以你之前提出一个很好的问题,我没有完全回答,那就是构建这些东西是否需要大量的研究和深入思考,所以我想说,对于 Francois 在 2019 年的论文,花费了大量的工作来整合那个假设,那个正式的定义,或者那个对智力的定义,然后从中得出,好的,使用这个智力的定义

一个能够实际测试这些东西的问题会是什么样子?这就是 arc 范式出现的地方。所以,嗯,

它基本上是你有一个输入和一个输出网格,它看起来像一个棋盘。你会看到,好的,输入以某种方式变成了输出。我需要弄清楚如何将输入转换为输出。你会得到一些例子,然后你得到一个测试。在这个测试中,你只有输入。你的目标是,你必须逐个单元格地输入输出是什么。重要的是,RKGI 上的每个单独问题都需要一个不同的规则

或不同的转换才能实际解决。我的意思是,比如说……超级多样性。超级多样性。这几乎就像一个元事物。我稍后会解释为什么这很重要。为什么这很重要的原因是,假设一个 arc 任务上有一个正方形。在输入输出上,你所做的只是在正方形上添加一个边框。好的。现在在测试输入上,我们将给你一个正方形。我们将询问你,在输出上,你只需要添加一个边框。好的,很酷。这个边框转换规则只会问一次。

在另一个任务中,我们可能会要求你做的是填充每个形状的角。你去填充所有这些不同形状的角。所以我们强迫测试者在每一个问题中学习新的微技能。然后我们强迫你通过实际操作来证明你已经学习了这项技能。通过这样做,这回到了 Francois 对智力的定义,那就是学习新技能。那是……

对我们来说很简单,对吧?比如在一个正方形上写一个边框,但这正是如此。机器之所以难以做到这一点的原因是,人类非常擅长抽象和推理。就像,哦,当然,只要加一个边框就行了。好的,但这对于人工智能来说实际上很难做到。现在,arc 1,人们会说,哦,这太简单了。这不是一个好的 AI 测试。好吧,请记住,五年来它一直没有被击败,对吧?它实际上在那一刻指出了。就像模型开始变得优秀的那一刻,正是推理模型起飞的那一刻。

好的,这只是关于推理模型的一个非常有趣的事情。使用 Arc 1 作为能力断言,你实际上可以了解一些关于推理模型的信息,那就是实际上来自它的非零水平的流体智力,这非常酷。Arc 2 是 Arc 1 领域的简单扩展。我们仍然有输入输出。

我们仍然要求你制定规则。与它的不同之处在于,这些规则要深刻得多,从人类的角度来看,需要更多的思考才能做到。所以,与其只做一个边框,我们可能会要求你做一个边框并做角。或者放一个 X。或者放一个 X。现在有两个规则了。我不会详细介绍它。Francois 实际上把它放在一起了。我们为我们的奖项捐赠者举办了 Arc AGI 2 的私人预览,因为我们是一个非营利组织。我应该早点说,非营利组织。而且。

他做了 30 分钟关于 RKGI 2 的演讲。- 哇。- 但我想谈谈 RKGI 3。- 当然。- RKGI 3 将会偏离 RKGI 1 和 RKGI 2 的框架。- 做的方式?- 做的方式。所以如果你只有矩阵、输入、输出、你知道的,细丝,它的范围非常狭窄。你在这方面没有太多的自由度。所以我们从模拟和游戏中汲取灵感。

所以在 2017 年,DeepMind,他们一起进行了一次探索。他们称之为 Agent 57。所以他们试图让一个代理,或多或少是一个强化学习代理,去尝试击败一堆不同的 Atari 游戏。大约有四款游戏他们没有解决,这非常引人入胜。

Arc AGI 一和二不允许你做的事情是,它们不会让你弄清楚目标是什么?它们不会让你弄清楚环境的规则。它们不会让你拥有带有隐藏状态的长期记忆,所以就像你在游戏早期学习了一些东西,你必须记住这件事在游戏后期仍然适用,所以我告诉人们,如果你能制造出一个能够击败一款游戏的 AI,好吧,我们已经做过很多了。我们做了一个国际象棋 AI。我们做了一个围棋 AI。好的,很酷。如果你能制造出一个能够击败 50 款游戏的 AI

嗯,这更有趣。但问题是,这 50 款游戏都是公开的,你可以拥有开发人员的智力和直觉来了解如何击败这 50 款游戏。Arc AGI 3 将会是,我们将让 AI 打败 50 款它以前从未见过的游戏,而且它们彼此之间都是新颖的。

这是一个更进一步的扩展和自由度,关于我们如何看待这一点。你可以断言击败它的模型将别无选择,只能与其环境互动,在 50 种不同的新颖情况下学习游戏规则。但你不会让它模拟数小时甚至数天。或者也许你会。这就是测试时间计算类型的事情。我们会。这就是效率的来源。

所以我们将要做的是,我们将测试 400 个人在这些 50 个游戏中,我们将看看一个人实际解决这个问题需要多少操作,以及 AI 解决这个问题需要多少操作。这就是我们获得效率的地方,此外还有由此产生的成本和能源。我想我们得走了。我刚看到老板。不过,这是一个很好的结束方式。我们就在这里剪辑。这太好了。你太棒了,伙计。这太棒了。你让我兴奋不已,伙计。但这很完美。就像……