We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

François Chollet: The ARC Prize & How We Get to AGI

2025/7/3

Y Combinator Startup Podcast

AI Deep Dive AI Chapters Transcript

People

François Chollet

Topics

François Chollet: 我认为目前人工智能领域存在一个根本性的问题，即我们混淆了记忆技能和真正的流体通用智能。过去，我们过于依赖扩大模型和数据规模来实现通用智能，但ARC基准测试的结果表明，这种方法存在局限性。我们需要新的思路，特别是测试时适应能力，让模型能够动态地改变自身行为以适应新情况。我认为智能是一种过程，是转化信息以应对未来不确定情况的效率。因此，我们需要重新定义和测量智能，关注流体智能本身，而不是仅仅追求特定任务的技能。我创建了ARC基准测试，旨在引导研究社区关注通往通用智能的最重要瓶颈。ARC-1已经饱和，所以我们推出了ARC-2，它更具挑战性，更注重组合泛化。未来，我们还将推出ARC-3，评估代理、探索和互动学习的能力。 François Chollet: 我认为，仅仅扩大模型和数据规模并不能自动实现通用智能，因为这些模型缺乏即时重组能力，并且效率低下。我们需要关注抽象，特别是两种类型的抽象：价值导向型抽象（Type 1）和程序导向型抽象（Type 2）。Transformer在Type 1抽象方面表现出色，但在Type 2抽象方面存在不足。要实现Type 2抽象，我们需要利用离散程序搜索，而不是仅仅操纵连续插值。我认为，智能是这两种抽象形式的结合，我们需要将感知和直觉与明确的逐步推理结合起来。因此，未来的AI系统应该更像程序员，能够根据新任务编写软件，融合深度学习子模块和算法模块，并利用离散程序搜索系统进行组装。这个搜索过程应该利用一个不断发展的抽象库，从中寻找相关的构建块，并将新的构建块上传回库中。我们的目标是创建一个能够快速组装工作模型的AI，就像人类软件工程师一样。这就是我们在ENDIA研究实验室正在做的事情，我们希望通过深度学习引导的程序搜索来构建这种程序员式的元学习器，并利用它来加速科学发现。

Deep Dive

Shownotes Transcript

大家好，我是弗朗索瓦。我很高兴与大家分享我对AGI的一些想法以及我们如何实现它。这张图表是关于世界最重要的事实之一。自1940年以来，计算机的成本每十年下降两个数量级。目前没有迹象表明这种情况会很快停止。在人工智能领域，计算机和数据长期以来一直是我们所能取得成就的主要瓶颈。2010年，

众所周知，随着基于GPU的计算和大型数据集的丰富，深度学习真正开始发挥作用。突然之间，我们在计算机视觉和自然语言处理领域长期以来似乎难以解决的问题上取得了快速进展。特别是，自监督文本建模开始发挥作用。

人工智能的主导范式变成了扩展LLM的训练。这种方法几乎击败了所有基准测试。值得注意的是，随着我们使用完全相同的架构和完全相同的训练过程来扩展模型大小和训练数据大小，它获得了可预测的更好的基准测试结果。这就是贾里德几分钟前告诉你们的缩放定律。所以看起来我们似乎已经解决了所有问题。

许多人推断，只需要更大的规模就能解决所有问题并实现AGI。我们的领域痴迷于这样一个想法：通过将越来越多的数据塞入越来越大的模型中，通用智能会自发出现。

但是有一个问题。我们对这些基准测试的真正含义感到困惑。死记硬背的技能（静态且特定于任务）与流体通用智能（能够即时理解从未见过的事物）之间存在很大差异。早在2019年，在LLM兴起之前，我就发布了一个人工智能基准测试来突出这种差异。

它被称为抽象推理语料库或ARC1。从2019年至今，例如GPT 4.5这样的模型，基础警报的规模扩大了大约5万倍

。我们的准确率从该基准测试的0%上升到大约10%，这并不多。如果您考虑到在座的每一个人得分都会远高于95%，那么它非常接近于零。

因此，事实证明，要破解流体通用智能，我们需要超越仅仅扩展预训练和进行静态推理的新想法。这个基准测试不是关于重复死记硬背的技能，而是真正地能够即时理解一个从未见过的新的问题。但去年2024年，一切都变了。人工智能研究界开始转向一种新的、截然不同的模式。

测试时自适应，创建能够在测试时改变自身状态以适应新事物的模型。

所以这不再是获取预先加载的知识了。这实际上是关于在推理时学习和适应的能力。突然之间，我们开始在Arc上看到显著的进展。所以最终，我们的人工智能显示出流体智能的真正迹象。特别是，去年12月，OpenAI预览了其O3模型，他们使用了专门针对Arc进行微调的版本

，并且通过与时间的对比，该模型在该基准测试上显示出人类水平的性能。

在今天的2025年，我们已经从预训练缩放模式转向了测试和自适应时代。测试和自适应完全关乎模型根据推理过程中遇到的特定数据动态修改自身行为的能力。因此，它涵盖了诸如测试时训练、程序合成、思维链合成等技术，其中模型试图重新编程自身

以应对手头的任务。今天，在Arc上表现良好的每一种人工智能方法都使用了其中一种技术。所以今天我想回答以下问题。首先，为什么预训练缩放范式没有让我们达到AGI？如果你回顾仅仅两年前，这是标准的教条。每个人都这么说。而今天几乎没有人再相信了。发生了什么事？

接下来，这次自适应能让我们达到AGI吗？如果是这样，也许AGI已经出现了。有些人相信这一点。最后，除了这种适应性之外，人工智能的下一步可能是什么？为了回答这些问题，我们必须回到一个更基本的问题。什么是智能？当我们说我们试图构建AGI时，我们的意思是什么？

如果你回顾过去几十年，有两种思想来定义智能和定义人工智能的目标。有一种是明斯基式的观点。人工智能是关于制造能够执行通常由人类完成的任务的机器。这与当前主流的企业观点非常吻合，即AGI将是一个能够以最经济的方式执行大多数有价值的任务的模型，例如

经常被引用为80%。但也有麦卡锡的观点，认为人工智能是关于让机器处理它们没有准备好的问题。这是关于让人工智能处理新的事物。

我的观点更像是麦卡锡的观点。智能是一个过程，技能是该过程的输出。因此，技能本身不是智能，在任何数量的任务中展示技能并不表示智能。这就像道路网络和道路建设公司之间的区别。如果你有一个道路网络，那么你可以从A到B，对于一组特定预定义的A和B。

但是如果你有一个道路建设公司，那么你可以根据你的需求变化，即时开始连接新的A、新的B。

因此，智能是处理新情况的能力。它是开辟新道路和建设新道路的能力。因此，将智能归因于我们实际上是一个结晶的行为程序，一个技能程序，这是一个范畴错误。你混淆了过程及其输出。所以不要混淆道路和创造道路的过程。

为了更正式地说明这一点，我认为智能是您拥有的信息（主要是您的过去经验，但也包括系统可能拥有的任何开发人员赋予的先验知识）

与您在可能遇到的未来情况空间中的操作区域之间的转换比率。这将具有很高的新颖性和不确定性。因此，智能是您为了应对未来而有效地运作过去信息的效率。这是一个效率比率。

这就是为什么使用类似考试的基准服务器来测试人工智能模型是一个坏主意。它们不会告诉你我们离AGI还有多远，因为人类考试并非旨在衡量智力。它们旨在衡量特定任务的技能和知识

它们是根据对人类来说合理的假设设计的，但对机器来说却不是这样。例如，大多数考试都假设你事先没有阅读和记住所有考试题和答案。因此，如果你想严格地定义和衡量智力，以下是一些你必须考虑的关键概念。

首先是静态技能和流体智能之间的区别。是在访问用于解决已知问题的静态程序集合，还是能够即时合成全新的程序来应对从未见过的难题。当然，这并不是非此即彼的二元选择，两者之间存在一个连续谱。第二个概念是操作区域。

对于一项给定的技能，在非常接近你以前见过的环境中熟练与在非常广泛的范围内熟练之间存在很大的区别。例如，如果你知道如何驾驶，你应该能够在任何城市驾驶，而不仅仅是在特定的地理围栏区域内。我可以学习在圣何塞开车，然后搬到萨克拉门托，你仍然可以开车，对吧？同样，所以这里面存在一个连续谱。它不是二元的。

最后，你应该关注信息效率。对于一项给定的技能，你需要多少信息、多少数据、多少练习才能获得这项技能？当然，更高的信息效率意味着更高的智力。这些定义之所以非常重要，是因为作为工程师，我们只能构建我们所衡量的东西。

因此，我们定义和衡量智能的方式不是一个技术细节。它真正反映了我们对认知问题的理解。它确定了我们将要问的问题，因此它决定了我们将要得到的答案。它是推动我们朝着目标前进的反馈信号。

在工程中，你经常会看到短控制现象。也就是说，当你专注于实现单一的成功指标时，你可能会成功，但你会以牺牲没有被你的指标捕捉到的所有其他东西为代价来实现这一点。你达到了目标，但你错过了重点。例如，你一直在Kaggle上看到这种情况。

我们在Netflix奖中看到了这一点，获胜的系统非常准确，但它过于复杂，无法用于生产。所以它最终没有被使用。它实际上毫无意义。

我们还在人工智能下棋中看到了这一点。人工智能界在70年代开始着手创建能够下棋的程序的原因是，人们期望这将教会我们关于人类智能的知识。然后几十年后，当深蓝击败了世界冠军卡斯帕罗夫时，我们实现了这个目标。在这个过程中，我们并没有真正了解到关于智能的任何知识。

所以你达到了目标，但你错过了重点。几十年来，人工智能一直在追逐特定任务的技能，因为这是我们对智能的定义。但是这个定义只会导致自动化，这正是我们今天拥有的那种系统。

但我们实际上想要能够自主发明的人工智能。我们不想止步于自动化已知任务。我们想要能够应对人类最困难的挑战并加速科学进步的人工智能。这就是AGI的意义所在。

为了实现这一目标，我们需要一个新的目标。我们需要开始瞄准流体智能本身，即适应和发明的能力。AGI的一种定义只允许自动化。因此，它提高了经济生产力。显然，这非常有价值。也许它还会增加失业率。

但另一个定义则开启了发明和加速科学时间表的大门。通过衡量你真正关心的东西，我们才能取得进步。我们需要一个更好的目标，我们需要一个更好的反馈信号。

那是什么样的呢？我第一次尝试创建一种衡量人工智能系统智能的方法是ArcGIS基准测试。我在2019年发布了ArcOne。它就像机器和人类的智商测试。ArcOne包含1000个像这样的任务，每个任务都是独一无二的。

这意味着你无法为Arc准备。你必须通过使用你的通用智能而不是你记忆的知识来即时解决每个任务。当然，解决任何问题都需要一些知识。在大多数基准测试中，你需要的知识先验通常是隐含的。在Arc中，我们明确地说明了它们。因此，所有Arc任务都是完全建立在核心知识先验之上的，

例如物体性、基本物理学、基本几何学、拓扑学、计数。任何四岁的孩子都已经掌握了这些概念。解决Arc只需要很少的知识，而且这些知识并不是很专业。所以你不需要为了解决Arc而准备。

Arc的独特之处在于，你也可以仅仅通过记忆模式来解决。它确实要求你通过智力来证明。与此同时，几乎所有其他基准测试的目标都是固定的、已知的任务。因此，它们实际上不能仅仅通过记忆来解决或破解。

这就是Arc对人类来说相当容易，但对人工智能来说却非常具有挑战性的原因。当你看到这样一个问题时，一个孩子可以做得很好，但最先进、最复杂的人工智能模型却难以应对，这就像一个巨大的红色闪烁的警示灯，告诉你我们缺少一些东西，需要新的想法。我想让你记住的一件事是

Arc不会告诉你一个系统是否已经是AGI。这不是它的目的。Arc实际上是一个工具，它可以将研究界的注意力引导到我们认为通往AGI的道路上最重要的未解决瓶颈。因此，Arc不是目的地，解决Arc也不是目标。Arc实际上只是一个指向正确方向的箭头。Arc完全抵制了预训练缩放范式。

即使在预训练基础警报规模扩大了5万倍之后，它们在Arc上的性能仍然接近于零。因此，我们可以最终得出结论，流体智能并非来自扩展预训练。为了展现真正的流体智能，你绝对需要测试和自适应。

重要的是，当去年出现测试和自适应时，Arc实际上是当时唯一能够提供关于正在发生深刻变化的清晰信号的基准测试。其他基准测试已经饱和，因此它们无法区分真正的智商提高和蛮力缩放。所以现在你看到了这张图表，你可能会问，好吧，显然在这一点上，Arc 1也饱和了。那么这是否意味着我们现在拥有了人类水平的人工智能？

还没有。你在这张图表上看到的是，arc 1是一个二元测试。它是流体智能的最小再现。所以它实际上只给你两种可能的模式。要么你没有流体智能，在这种情况下，你的得分接近于零，

就像基础警报一样，要么你具有非零流体智能，在这种情况下，你的得分会立即非常高，例如OpenAI的O3模型。当然，在座的每一个人得分都会在400%的噪声范围内。因此，ARC-1的饱和度远低于人类水平的流体智能。

所以现在我们需要一个更好的工具，一个更灵敏的工具，它可以提供更有用的带宽，并更好地与人类智能进行比较。这个工具就是ArcGIS 2，它于今年3月发布。

早在2019年，ARC1旨在挑战深度学习模式，在这种模式下，模型是用于静态推理的大型参数曲线。而今天的ARC2则挑战推理系统。它挑战测试自适应模式。基准测试格式仍然相同。它更加关注探测组合泛化。因此，这些任务对于人类来说仍然很容易实现，但它们要复杂得多。

因此，Arc 2不容易被蛮力破解。实际上，这意味着在Arc 1中，对于许多任务，你只需查看它就能立即看到解决方案，而无需过多考虑。对于Arc 2，所有任务都需要一定程度的深思熟虑。

但它们对人类来说仍然很容易实现。我们之所以知道这一点，是因为我们在圣地亚哥亲自对400人进行了为期几天的面对面测试。我们在这里说的不是拥有物理学博士学位的人。我们招募的是普通人，优步司机、加州大学圣地亚哥分校的学生、失业人员，基本上是任何想赚点外快的人。

Arc 2中的所有任务都至少被另外两个人解决过。每个任务平均被大约七个人看到。这告诉你，一群10个随机的人进行多数投票会在Arc 2上获得100%的分数。我们知道这些任务对于没有经过任何培训的普通人来说完全可以做到。人工智能模型的表现如何？好吧，如果你采用Bazel警报，

模型松弛、GPT 4.5、LAMA 4。很简单，它们得分为0%。仅仅通过记忆根本无法完成这些任务。接下来，如果你查看静态推理系统，即使用它们为任务生成的单一思维链的系统，它们的表现也不会好多少。它们大约在1%到2%之间。所以非常接近于噪声距离

这告诉你，要解决arc 2，你真的需要测试和自适应。所有得分明显高于零的系统都使用TTI。

但即便如此，它们仍然远低于人类水平。与Arc 1相比，Arc 2能够更精细地评估DTS系统，例如O3系统。在那里你可以看到O3和其他类似的系统还没有达到人类水平。在我看来，只要很容易想出任何一个人都能完成的任务，这些任务对人类来说很容易，但人工智能却无法解决，无论你投入多少计算能力，

我们还没有AGI。当想出这样的任务变得越来越困难时，你就会知道你已经接近拥有AGI了。我们显然还没有达到那个阶段。需要明确的是，我认为Arc 2不是最终测试。我们不会止步于Arc 2。我们已经开始开发Arc AGI 3。

Arc 3与Arc 1和2的输入/输出对格式有很大的不同。我们正在评估代理能力，即探索、交互式学习、设定目标、自主实现目标的能力。因此，你的AI被放入一个全新的环境中，它不知道控件的作用。它不知道目标是什么。它不知道游戏机制是什么。它必须即时弄清楚

一切，从它甚至应该在游戏中做什么开始。每一个游戏都是完全独特的。它们都像Arc 1和2一样，完全建立在核心知识先验之上。

所以我们将有数百个像这样的交互式推理任务。效率是ARC3设计的核心。因此，模型不仅会根据它们是否能够解决任务来评分，还会根据它们解决任务的效率来评分。我们正在对模型可以采取的操作数量设置严格的限制。我们的目标是达到与我们在人类身上观察到的相同水平的动作效率。所以我们将在2026年初发布它

下个月7月，我们将发布开发者预览版，以便您可以开始使用它。解决Arc 2需要什么？而今天我们距离它还很遥远。然后解决Arc 3。我们距离它更远。也许将来，解决Arc 4，最终实现AGI。我们还缺少什么？我说过，智能是你有效地运作过去以

应对不断变化的未来的效率。但是，当然，如果你面临的未来与过去没有任何共同之处，与你以前见过的任何事物都没有共同点，那么无论你多么聪明，你都无法理解它。但事实是这样的：没有什么东西是真正新颖的。你周围的宇宙是由许多不同的事物组成的，它们彼此相似，例如一棵树与另一棵树相似，也与神经元相似，或者

电磁学与流体力学相似，也与引力相似。所以我们周围都是同构。我称之为万花筒假设。

我们对世界的体验似乎充满了无尽的新颖性和复杂性，但你需要用来描述它的独特意义原子数量实际上非常少。你周围的一切都是这些原子的重新组合。而智能是挖掘你的经验以识别这些可以在许多不同情况下、许多不同任务中重复使用的意义原子的能力。

这包括识别不变量、结构、似乎重复出现的原则。

这些构建块，这些原子，被称为抽象。每当你遇到一种新情况时，你都会通过即时重新组合你集合中的抽象来创建一个适应这种情况的全新模型来理解它。因此，实现智能将有两个关键部分。首先是抽象获取。

你想能够有效地从过去的经验中提取可重用的抽象，例如从数据流中提取。然后是即时重组。你想能够有效地选择和重新组合这些构建块，以创建适合当前情况的模型。这里强调效率至关重要。你有多聪明，

不仅取决于你是否能够做某事，还取决于你能够多有效率地从实时体验中获取良好的抽象，以及你能够多有效率地重新组合它们来应对新颖性。如果你需要数十万小时才能获得一项简单的技能，

你就不太聪明。或者如果你需要枚举棋盘上的每一个动作才能找到最佳动作，你就不太聪明。因此，智能不仅仅是展示高超的技能，它实际上是你获取和部署这些技能的效率。它既是数据效率，也是计算效率

在这一点上，你开始明白为什么仅仅使我们的人工智能模型更大并在更多数据上训练它们并没有自动导致AGI。我们缺少一些东西。首先，这些模型缺乏即时重组的能力。因此，在训练时，它们学习了很多东西。它们获得了许多有用的抽象。但在测试时，它们是完全静态的。你只能使用它们来获取和应用预先录制的模板。

这是一个关键问题，这种适应性正在解决这个问题。TTA为我们的人工智能增加了即时重组能力。这实际上是一个巨大的进步，更接近于AGI。

这不是唯一的问题。重组并不是唯一缺失的东西。另一个问题是这些模型仍然非常低效。例如，如果你采用梯度下降，梯度下降需要大量数据来提取简单的抽象。比人类需要的多几个数量级的数据，大约多三到四个数量级。

如果你查看重组效率，即使是最新的RCT技术，它们仍然需要数千美元的计算能力才能在人类水平上解决我们的arc one。这甚至无法扩展到arc two。这里根本的问题是深度学习模型缺少组合泛化。这就是arc two试图衡量的东西。

原因是存在不止一种抽象。

这非常重要。我说过，智能是关于从数据中挖掘抽象然后重新组合它们。实际上有两种抽象。有一种是一型，另一种是二型。它们彼此非常相似。它们相互映射。因此，两者都是关于比较事物、比较实例以及通过消除实例的某些细节将单个实例合并到公共模板中。所以基本上，你拿一堆东西，你比较它们，

你丢弃不重要的细节。你剩下的就是抽象。两者之间的关键区别在于，一个在连续域上运行，另一个在离散域上运行。因此，一型或以值为中心的抽象是关于通过连续距离函数来比较事物

这是感知、模式认知、直觉以及当然还有现代机器学习背后的那种抽象。二型或以程序为中心的抽象是关于比较离散程序，也就是图。与其尝试计算它们之间的距离，不如寻找精确的结构匹配。你将寻找精确的同构，子图同构。这是潜在的

许多人类推理的基础。这也是软件工程师在重构某些代码时所做的工作。因此，如果你听到软件工程师谈论抽象，他们的意思是这种抽象。所以有两种抽象，都是由类比产生的，或者是价值类比，或者是程序类比。

所有认知都源于这两种抽象形式的结合。你可以记住左脑与右脑的隐喻，一半用于感知、直觉，另一半用于推理、规划，

严谨。Transformer擅长一型抽象。它们可以完成一型有效的任何事情：感知、直觉、模式认知。它们都运行良好。从这个意义上说，Transformer是人工智能领域的一项重大突破，但它们仍然不适合二型。这就是为什么你很难训练这些模型来完成一些非常简单的二型任务，例如对列表进行排序或添加作为标记序列提供的数字。

那么我们如何才能达到二型呢？你必须利用离散程序搜索，而不是仅仅操纵连续插值，即使是在使用梯度下降学习的空间中也是如此。搜索是解锁超越自动化发明的关键。

今天所有已知的人工智能系统，它们都能够进行某种发明，某种创造性，它们都依赖于离散搜索。即使在90年代，我们就已经使用遗传搜索来设计新的天线。或者你可以使用AlphaGo的Move37。那是离散搜索。或者最近，DeepMind的Alpha Evolved系统。所有离散搜索系统。

因此，深度学习不会发明，但搜索会。那么什么是离散程序搜索呢？它基本上是从某种语言、某种DSM中获取的一些运算符的运算符图上的组合搜索。

为了更好地理解它，你可以尝试在程序合成和你已经了解的机器学习技术之间进行类比。在机器学习中，你的模型是一个可微分的参数函数，所以它是一条曲线。在程序合成中，它将是一个离散图，一个来自某种语言的运算符图。在ML中，你的学习引擎，你创建模型的方式是梯度下降。

顺便说一句，这非常高效。梯度下降将使你能够非常快速、非常有效地找到一个适合数据的模型。在程序合成中，学习引擎是搜索，判别搜索，这显然非常低效。在机器学习中，你遇到的主要障碍是数据密度。为了拟合模型，你需要对数据流形进行密集采样。你需要大量数据。

程序合成恰恰相反。程序合成非常高效。你只需要两个或三个例子就可以拟合一个程序。但是为了找到那个程序，你必须筛选大量的潜在程序。这个空间的大小随着问题的复杂性而组合增长。你遇到了这个组合爆炸墙。

我之前说过，智力是两种抽象形式的结合，第一类和第二类。我认为，如果你只专注于其中一种，比如只专注于第一类或只专注于第二类，你都不会走得太远。我认为，如果你真的想发挥它们的潜力，你必须将它们结合起来。这正是人类智力的长处，也是使我们与众不同的地方。

我们将感知和直觉与明确的逐步推理结合起来。我们在所有思想、所有行动中都结合了两种形式的吸引力。例如，当你下棋时，使用第二类，当你计算时，当你一步一步地在你的

脑海中展开一些潜在的行动时。但你当然不会对每一种可能的行动都这样做，因为它们太多了。你只会对几个不同的选择这样做。例如，你会看看骑士、王后。而你缩小这些选择范围的方式是通过直觉，是通过对棋盘上的模式认知。你很大程度上是通过经验来建立这一点的。你已经挖掘了你过去的经验，并有意识地提取这些模式。

而这非常类似于第一类。所以使用第一类直觉来使第二类计算变得易于处理。那么第一类和第二类之间的融合将如何运作呢？关键的第二类技术是在程序空间上进行离散搜索。而你遇到的障碍是组合爆炸。同时，关键的第一类技术

是曲线填充和曲线插值。你获取大量数据，将其嵌入某种插值流形中，这使得能够对目标空间进行快速但近似的判断。而最大的想法将是利用这种快速但近似的判断来对抗组合爆炸，并使程序搜索变得易于处理。

一个简单的比喻来理解这一点就是绘制地图。你获取一个具有离散关系的离散对象空间，这通常需要组合搜索，例如地铁系统上的寻路，并将这些对象嵌入到一个潜在空间中，你可以在其中使用连续距离函数来对离散关系进行快速但近似的猜测。这使你能够在进行搜索时控制组合爆炸。

这就是全貌。

这就是我们目前正在研究的系统。人工智能将朝着更像程序员的系统发展，程序员通过为任务编写软件来处理新任务。当面临一项新任务时，你的程序员式元学习器将动态地合成一个适应该任务的程序或模型。该程序将混合用于第一类子问题的深度学习子模块，例如感知，以及

和用于第二类子问题的算法模块。这些模型将由一个离散程序搜索系统组装，该系统由基于深度学习的程序空间结构直觉引导。

而这个搜索过程不是从头开始的。它将利用一个可重用抽象构建块的全局库。该库随着从传入任务中学习而不断发展。因此，当出现新问题时，系统将搜索该库以查找相关的构建块。

并且，在解决新问题的过程中，每当你合成一个新的构建块时，你都会将其上传回库中，就像软件工程师一样，如果你为自己的工作开发了一个有用的库，你就会将其放在 GitHub 上，以便其他人可以重用它。

最终目标是拥有一个能够面对全新情况的人工智能，它将使用其丰富的抽象库快速组装一个工作模型，就像人类软件工程师可以利用现有工具、现有库快速创建软件来解决新问题一样。而这个 AI 将随着时间的推移不断改进自身，这既通过扩展其抽象库

也通过改进其对程序空间结构的直觉来实现。这个系统就是你在 ENDIA，Arneu 研究实验室正在构建的系统。我们创建 ENDIA 是因为我们相信，为了显著加速科学进步，我们需要能够进行独立发明和发现的人工智能。我们需要能够扩展知识前沿的人工智能，而不仅仅是在其内部运行。

我们真的相信，一种新的 VR 形式将成为这种加速的关键。深度学习擅长自动化，它对于自动化来说非常强大，但科学发现需要更多的东西。我们在 Endia 的方法是利用深度学习引导的程序搜索来构建这种程序员式的元学习器

为了测试我们的进展，我们的第一个里程碑将是使用一个最初对 RKGI 一无所知的系统来解决 RKGI。我们最终希望利用我们的系统进行科学研究，以增强人类研究人员的能力，并帮助加快科学的时间表

François Chollet: The ARC Prize & How We Get to AGI 34:47 Share

Y Combinator Startup Podcast

Deep Dive

Shownotes Transcript

François Chollet: The ARC Prize & How We Get to AGI