We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Inside Deep Research with Isa Fulford: Building the Future of AI Agents

Inside Deep Research with Isa Fulford: Building the Future of AI Agents

2025/4/24
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript
People
I
Isa Fulford
Topics
Isa Fulford: 我和团队大约一年前开始研发 Deep Research,起初的想法是将内部先进的强化学习算法应用于日常用户的任务,例如在线浏览和信息整合。我们最初关注的是信息合成和阅读型任务,因为许多知识工作者都需要这些能力,而且这也被认为是AGI的必要前提。Deep Research 的开发是一个迭代过程,包括创建高质量的数据集、训练模型以及开发辅助模型进行网络浏览的工具。我们使用了人工训练和合成数据集,并设计了评估数据集的方法。Deep Research 的工具集包括基于文本的浏览器、访问嵌入式图像和PDF的能力,以及Python工具进行分析和计算。强化学习微调能提升模型在特定任务上的表现,但也要权衡成本和收益,只有在任务与现有模型训练数据差异巨大,或任务对业务至关重要时,才值得尝试。信息收集和研究的专业知识在各个领域都存在,Deep Research 通过关注任务结果而非过程来利用这些知识。我们采取了广泛的用户和领域专家参与的策略,这使得模型能够在多个领域取得成功。Deep Research 的主要失败模式是幻觉,但由于输出全面且耗时,用户对其信任度较高,并通过引用来降低风险。未来理想的代理应该能够进行研究并代表用户采取行动,这需要解决能力和安全问题。未来代理可能需要设置护栏和确认机制,以在提升能力的同时保证安全。Deep Research 未来改进方向包括扩展到可执行操作、访问私有数据以及提升现有能力。OpenAI 的文化鼓励员工将个人想法转化为产品,Deep Research 就是一个例子。Deep Research 在用户未预料到的领域被应用,这验证了其价值。Deep Research 在代码搜索和数据分析方面表现出色,这得益于其强大的基础模型和浏览能力。代理的记忆功能对于处理复杂任务至关重要,可以避免重复输入信息。强化学习在构建通用人工智能方面具有高效性和潜力,但数据质量和工具创建仍然是挑战。构建通用人工智能代理面临着安全问题、上下文管理和数据工具创建等挑战。Deep Research 适用于特定且明确的查询,尤其是在需要整合在线信息的情况下,并且能够生成比一般模型更全面的输出。Deep Research 的成功之处在于其在浏览任务上的有效性,但其失败模式有时也令人惊讶。Deep Research 的速度是一个需要改进的方面,未来将寻求在速度和深度之间取得平衡。未来一年内,人们可能会对代理能够完成的任务感到惊讶,并出现更统一的代理体验。统一的代理体验能够简化用户与不同代理的交互,并提供更自然的协作方式。

Deep Dive

Shownotes Transcript

嗨,各位听众,欢迎回到《No Priors》节目。今天,我邀请到了Issa Fulford,她是OpenAI深度研究项目背后的先锋人物之一。这是一个OpenAI今年2月发布的新型智能代理产品,它利用推理和网络浏览等工具来完成多步骤的研究任务。今天,他们将其对所有美国用户免费开放。欢迎,Issa。Issa,感谢你接受采访。非常感谢你邀请我。你和你的团队发布了……

最近最令人兴奋的AI产品之一。我经常使用它,深度研究。这个想法从哪里来的?告诉我它的起源故事。是的,大约一年前,我们对内部这种新的强化学习算法的进展感到非常兴奋。我们在数学问题、科学问题和编码问题上看到了很多进展。

与此同时,我与我在OpenAI的朋友Yash合作进行了一些副项目。

我们普遍对智能代理非常感兴趣,并且想知道我们是否可以将相同的算法应用于更符合普通用户日常行为的任务。因此,我们首先想到的两件事是网上浏览任务,因为我认为在许多不同的职业中,人们确实必须进行大量研究,综合大量信息,然后提交报告。

然后我们也在考虑软件工程。我们一直在研究这些事情。我一直专注于浏览。所以首先,我们从人们已经训练的数学和编码问题入手,这些数据集已经存在。你知道,你可以有一个带有真实答案的数学问题,你可以在这些问题上进行训练。但是对于浏览来说,它更开放式。你并没有真正

像这样的存在。因此,我们真正开始研究的是,我们实际上希望最终模型擅长哪些产品用例。因此,我们实际上会列出一些事情,例如,我希望该模型能够为我找到此产品列表

并根据Reddit上的评论对其进行排名。或者我希望它能够撰写关于此主题的文献综述。我觉得很多人在想到浏览和智能代理时,都会想到同样的两三个交易用例,而我认为这些用例并不是特别令人鼓舞,对吧?所以往往是……

在DoorDash上点个汉堡之类的。或者我觉得订花也是一个非常常见的例子。你认为你为什么想出了如此不同的智能代理目标?是的,我认为……

在我们专注于采取正确的行动之前,这些都是采取正确行动的例子,我们希望在从大量来源综合信息方面做得非常好,并且主要进行只读任务。这是出于多种原因。首先,大量的知识工作职业主要就是这么做的。因此,这对这些群体的人们来说非常有用。其次,我认为OpenAI的总体目标是创造一个能够做出新的科学发现和研究的AGI。

我们觉得,能够综合信息是实现这一目标的先决条件。你知道,如果你不能写文献综述,你就写不出新的科学论文。所以这与公司的更广泛目标非常一致。这也非常具有元特性,因为你,你知道,帮助创造了一个让我更好地学习的AI。而且它正在学习。是的,我没想到这一点。我喜欢这个。更实际地说,只读任务也许是

安全问题受到的限制更多,所以这也是一个很好的起点,是的,看来,你知道,只读领域的人们也没有你或你和Yash进入时那么雄心勃勃,也许它可以理解我这一套东西,好吧,所以你想到了这些最终评估或提出了一套可以自动评分或符合使它们更适合……的任务集

算法。然后呢?这本身就是一个巨大的过程。我认为我们最初构建了一个演示来向人们推销这个想法,并且没有涉及模型训练。它完全只是提示模型使用UI来推销这个产品可能是什么样的愿景。所以我想在那之后,我们就到了必须开始考虑如何做到这一点的地步?我们该如何创建数据?我们该如何训练模型?我们需要创建哪些工具才能使模型有效地浏览互联网?

有效地。这是一个很大的迭代过程。我和Edward Sun以及其他几个人在这方面合作得非常密切。因此,我们也与RL团队进行了大量合作。我认为这绝对是一项重大的工作。一件好事是,我们能够连续几个月不受干扰地工作,让我们的最终评估指标数字上升。所以我觉得很高兴有

没有太大的压力要快速发布一些东西。我们只是能够进行迭代并使其达到良好的状态。你最喜欢的任务是什么?我们有一些任务。人们会提出不同的任务。其中一项任务是找到Liam Fetters和Barrett Zoff一起撰写的所有论文。我认为有11篇。该模型现在可以找到大部分或全部论文。我们会一直问这个问题。

然后是另一个问题,该模型实际上可能无法再回答这个问题,可能是出于充分的理由,但要找到我们一位同事的中间名。然后就我个人而言,我认为我开始很早就使用它来查找信息,例如……

产品推荐、旅行。而且我认为实际上内部有相当多的人,我们有一个streamlit游乐场,人们会使用它。很多人发现了它并正在使用它。Sam告诉我他用它买了许多东西。每次它宕机时,人们都会给我们发消息,说发生了什么?我们需要使用该模型。即使

之前的版本说实话并不是那么好。所以我认为这是一个很好的初步迹象。是的。你能谈谈实际的大部分工作,例如工具创建和数据创建吗?对于数据,我们做了很多不同的事情。我们使用了人类培训师。对于其中的一些,我们必须想出新的方法,新的数据集类型,我想。我们必须弄清楚如何设计数据集来练习我们希望模型学习的技能。

然后你必须在训练时找到一种方法来对这些数据集进行评分。然后你还必须制作好的

好的工具,以便模型能够成功完成任务。所以现在我们只有浏览工具,这是一个基于文本的浏览器,但它可以看到嵌入的图像和打开的PDF。然后它还可以访问Python工具,因此它可以进行分析和计算、绘制图表等。但是你可以想象在未来的版本中,我们将扩展工具集。因此,模型将变得更强大,但我们还需要创建实际上使模型……的数据集。

练习所有这些不同的工具,并弄清楚如何在训练期间使用它们、回溯等等。因此,它能够灵活地回答产品中用户的新的问题。很明显,在非常强大的基础模型上进行强化微调

现在可以做非常有用的事情。这太令人兴奋了。对于正在考虑为特定任务进行RFT的初创公司或其他公司,你有什么建议,例如何时值得这样做,或者他们何时可以尝试只做某种传统的编排,其中智能代理是一个组件?所以,我认为一般来说,你总是……

如果你在一个特定任务上进行训练,你会让模型在这个特定任务上变得更好。但我们也看到从一个任务的训练到其他领域的泛化有很多。因此,你可以在一个推理模型上训练大部分数学、编码和其他推理问题,它会

擅长写作,但如果你在这个特定任务上进行训练,它会更擅长。我认为,如果你有一个非常具体的任务,你认为这个任务与模型可能接受过训练的任何任务都非常不同,并且你尝试了很多次,并且你尝试了很多不同的提示,但它真的不擅长,那么也许这是一个基因测序任务或模型不知道如何解决的某些超出分布的任务。我认为

这是一个尝试强化微调的好时机。或者,如果你有一个对你的业务工作流程至关重要的任务,那么获得额外10%、15% 的性能是成败的关键,那么可能应该尝试一下。但是,如果是一些你认为,“哦,模型做得还不错,但它有时会出错”,然后你看到每个发布的下一个模型都会变得更好一点,那么如果模型自然会越来越擅长这些事情,那么可能不值得付出努力

。所以这就是我的建议。好的,很好。很好的建议。你已经谈到需要使用人类专家来创建一些数据。我认为浏览是一个普遍的任务。我想有更好和更差的浏览器。你认为你在哪里需要专业知识,或者你对浏览专业知识了解多少,而你以前不知道?或者信息收集专业知识?是的,我想这是那些基本上每个专业都涉及……的事情之一。

你知道,有一个问题或想在一个领域进行研究,然后必须从许多不同的来源查找信息来综合答案。而且在这样做的过程中,你必须具备推理能力

这是一个有用的来源吗?不是吗?这是,你知道,我应该包括这个吗?这完全偏离主题了吗?诸如此类的事情对大多数工作或大多数,你知道,科学领域,任何事情都是普遍存在的,而RL的妙处在于你不需要

一定知道一个人如何进行研究的整个过程。你只需要知道任务是什么以及结果应该是什么。模型将在训练期间学习如何从问题到一个好的答案。所以我想我们采取了一种相当广泛的方法。我认为这是一件事,如果你在像OpenAI这样的地方工作,你

我认为你可以做他们会告诉大多数初创公司不要做的事情,那就是尝试专注于非常广泛的用户群体,并获得许多不同领域的专家,然后尝试看看你是否能够同时擅长所有事情,这就是我们采取的方法。然后我们还创建了许多合成数据集等等。但人类数据绝对是使这个模型成功的关键部分。模型在这些领域学习的规划是否让你感到惊讶,例如在寻找人们方面

完美的包包或日本的餐厅或相关的论文集。是的,我想有时它会使用我不会使用的搜索词,或者,你知道,我们没有教它提前规划,但有时我们会看到它。它最终会在开始研究之前提前制定计划。有时

模型会做一些聪明的事情,并试图绕过你对它施加的限制。因此,你必须确保它没有作弊,你知道,试图使用除你提供的搜索引擎以外的其他搜索引擎等等。它会做一些聪明的事情,你必须确保你在注意,你知道,以防万一你不想让模型做这些事情。也许我们可以实际使用它作为,例如,谈论一些故障模式的时刻。例如,你如何看待智能代理的一些

经典问题,例如,你知道,复合错误或分心甚至安全?是的。所以我想对于深度研究,因为它实际上无法采取与你想到的典型智能代理安全问题不同类别的行动。但我认为事实上,响应

响应更全面且耗时更长,这意味着人们会更信任它们。所以我想幻觉可能是一个更大的问题。虽然这个模型的幻觉比我们发布的任何模型都要少,但它仍然有可能出现幻觉,大多数时候是因为它会从它的一个来源错误地推断出某些东西。这就是我们有引文的部分原因,因为用户能够检查信息来自哪里非常重要。如果它不正确,他们希望能够弄清楚。

但是是的,这绝对是模型最大的局限性之一,也是我们一直在努力改进的东西。就未来的智能代理而言,我认为理想的智能代理能够代表你进行研究并采取行动。

所以我认为这是一个我们需要解决的更难的问题。当能力和安全融合在一起时,它就有点像这样,如果你不能信任它以不会产生你不想产生的意外副作用的方式来完成任务,那么智能代理就没有用。

如果你要求它为你完成一项任务,然后在这个过程中它发送了一封令人尴尬的电子邮件或类似的东西,你知道,这并不是任务的成功完成。所以我认为这将是一个更有趣和更困难的安全领域,我们正在

开始解决。你可以告诉我,如果你没有预测,但是你认为人们会想要明确的防护措施吗?你认为你可以在模型本身中学习很多这些特性吗?如果你使用过操作员,我相信你已经使用了。你必须确认每个正确的操作。我认为首先,这很有意义。你想建立信任。

与用户。随着模型变得越来越强大,也许你已经看到它成功地做了几次事情,你开始更信任它。因此,也许你允许它,好吧,每次你都不必每次向这些人发送电子邮件时都问我,没关系。但我确实认为,随着这些智能代理开始推出,我们肯定希望拥有防护措施和确认,以便,你知道,虽然它们不是

最终状态能力。我们仍然希望确保我们有良好的监督水平,但我认为它们会变得如此出色,以至于我们会信任它们代表我们做事。深度研究作为一种产品,有哪些明显的方法会变得更好?是的,我的意思是,它将扩展到正确的方向。你刚才暗示了这一点。是的。我的意思是,我认为也许是,你知道,理想状态是拥有一个能够做所有这些不同事情的统一智能代理。任何你委托给同事的事情,它都应该能够做到。我们将如何决定是“莎拉,你做这个”还是“智能代理,请做这个”?是的,我想。或者总是先尝试智能代理?可能吧。我的意思是,如果这是我的工作,我会先尝试智能代理。这是每次模型变得更强大时,

人类的抽象级别都会更高,如果这是有意义的话。你要求它做的任务只是越来越高级,但你仍然在启动任务。所以,你知道,也许一年前,我要求它为我编写一个函数。现在我正在要求它编写一个完整的文件。也许明年它会,你知道,为我创建一个完整的PR或类似的东西。所以我认为我们仍然会在深度研究的驾驶座上。我认为深度研究的明显下一步还包括

访问私有数据,例如能够查看任何内部文档或GitHub,无论是什么。这里有一条金线,因为当我们第一次见面时,你正在研究检索。我说,这家公司不可能只有一人在研究检索。所有道路都通向检索。所以我认为这将非常酷。然后最终采取正确的行动或

调用API。然后显然还有很多事情是模型现在还不完美的,我们只需要改进。但我认为我们与强化学习团队建立了非常酷的工作关系。因此,许多团队会将数据集贡献给他们进行的大型运行。因此,我们贡献数据集。然后,当他们使用大量计算来训练模型时,它就会成为我们继续训练的更好的基础模型。所以我认为能力是复合的。

所以这不是一个低调的研究预览,而是一个变成了非常有趣的内部推销项目的副项目。你如何看待OpenAI或至少你本人想独立工作的产品与属于核心研究路径的产品?OpenAI的一件很酷的事情是,即使公司规模更大,

我认为任何人都能够提出一个想法并将其证明出来,然后将其推向完成的文化仍然,你知道,随着公司的发展而得到保持。就我个人而言,我一直被激励去做一些我自己也会使用的东西,例如研究,例如,我经常使用它来,你知道,

查找各种东西,旅行推荐。但我认为我可能是一个每日活跃用户。当你能够自己试用时很有趣。我认为我现在是一条狗。哦,太棒了。是的,我正在消耗大量的GPS。在哪些用例中,例如,你是最初的专家?你或Yash,或者你已经看到用户群使用了哪些方法,你鼓励人们使用深度研究吗?我一直对看到人们在完全没有专业知识的领域使用它感兴趣。例如,在医学研究中,或者我看到许多不同的科学家发布了他们如何使用深度研究以及它如何帮助他们做某事的信息。对我来说,这是最有趣的,因为当我们正在研究它时,我显然无法判断输出是否良好。因此,看到专家实际上批准深度研究的回应是有用的。我惊讶地看到人们在其中使用该模型的一个领域是代码搜索,用于

编码问题。我认为像使用最新软件包或任何存储库的最新版本来帮助我编写这个

文件或用于数据分析的东西也是如此,这也是模型已经相当擅长的事情,我认为它只会继续变得更好……我认为,你知道,上传文件或类似的东西并让它为你进行一些分析或进行一些研究,然后创建一个包含数值分析的报告非常有趣,我实际上还没有尝试过这个,它不是一个浏览测试,例如是什么让模型特别擅长

这个或它能够做什么?它真的是多步骤的,然后能够进行规划和对任务的理解并生成一个连贯的报告吗?是的,我认为我们开始微调的O3基础模型或模型也是一个非常强大的模型。它在

许多不同的数据集上进行了训练,包括大量的编码、推理和数学任务。因此,继承的能力非常强大。然后当你在此基础上添加浏览时,它仍然能够进行该分析。所以我认为这两者结合起来会非常强大。在播客之前,我们只是在谈论……

像学习品味或用户的偏好这样的想法,例如OpenAI刚刚发布了一堆内存功能。你认为深度研究如何,或者,你知道,一般的智能代理如何才能考虑到人们如何学习或他们的信息摄取偏好?是的,我认为智能代理内存绝对非常重要。

如果每次你要求它执行任务时,都必须重复相同的信息,你希望它如何执行任务,关于你的一切,这对于深度研究来说目前确实必须这样做,这将非常烦人。而且我认为随着任务变得越来越复杂,现在它需要5到30分钟,你可以想象在未来它可能需要

数小时或数天才能完成你要求模型执行的任务。你绝对希望模型的研究是复合的。你不想让它想每次都从头开始。所以我没有一个很好的答案,但我认为这将是非常重要的事情。许多领先实验室的许多人之间有一种共同的理解,即

AGI的秘诀,我想说,是某种程度上已知的,或者,你知道,对此充满信心。而且,你知道,RL的回归对每个人来说都非常令人兴奋。我从你和其他那里听到的立场是,对……都充满热情,

这似乎有效。我们将从中获得真正的能力。它非常高效,而且将有很多工作要做。告诉我一些关于构建深度研究的情感体验,以及这是否会改变你的观点。我同意你所说的一切。我认为看到该算法的数据效率如此之高令人印象深刻,我想,对于

你训练的数据质量更高且更小。因此,实际上策划它是一项工作。然后确保模型可以访问人类可以使用的所有工具来完成他们需要做的工作。然后确保你代表人们会发现有用或在他们的工作中做的事情,这样你就可以理解。

你知道,判断模型是否做得很好也很难。在预训练中还有许多其他挑战,你拥有如此多的数据,你必须做所有这些不同的事情,例如,我认为这只是一个不同的挑战,两者都是复合的。你需要一个非常好的基础模型才能进行RL。然后对于我们的团队,我们只做更多的RL。所以是的,这就像所有东西都是复合的,但我认为每个人都确实看到了通往RL的非常清晰的路径。

这个广泛有能力的智能代理。你认为是否有阻碍进展的主要障碍,就像你所说的那样,也许不完全是将其描述为深度研究的下一个迭代,而是对我们将拥有这些统一的智能代理能力并感觉像同事的信心?我们和它之间有什么?我们需要解决很多非常困难的安全问题。我们永远不会发布我们没有非常高信心的事情

我认为当它可以访问你的GitHub存储库、密码和你的私有数据时,风险要高得多。所以我认为这是一个非常大的挑战。我想,如果你希望模型能够完成需要很多很多小时的任务,那么找到有效管理上下文的方法,这与内存问题有点类似。但是如果你长时间执行一项任务,你就会耗尽上下文。那么,如何有效地处理这个问题,允许模型继续工作?

做它的事情。然后,是的,制作数据和制作工具的任务。我的意思是,我已经说过几次了,但这需要大量的工作。我刚刚查看了我查询的历史记录。我的用户请求是,我想看看我向深度研究提出的请求与其他模型相比,尤其是在我的记忆中。但它范围从,显然,你知道,如果我试图了解我正在查看的公司或技术主题的市场,或者旅行规划,

这是一个很大的问题。此外,我还寻找与品味相关的东西。所以我会说,好吧,我喜欢……

你知道,这套书的原因。我希望你,你知道,实际上只是给我一个关于你认为我应该阅读的其他内容的长篇总结,并解释原因。我意识到我对深度研究何时应该比O3更好没有一个非常清晰的心理模型。你在这里能给我什么直觉?当你有非常具体的查询或定义明确的查询时,深度研究非常好。所以也许不是对主题的一般概述,而是一些你正在寻找一些特定信息。而且

你认为它会得到在线现有研究的补充。即使这些信息也是,你知道,我们还在基础模型上训练了这些信息。我认为实时访问它非常有用。所以如果我对检索或特定来源有任何直觉,那么专注是有用的。我认为是这样。而且我们还训练它产生比我认为……长得多的输出。

你知道,普通模型会。所以如果你正在寻找非常全面的东西,也许对于某些任务来说过于全面,我认为深度研究对这些事情很有用。将此与深度研究的时尚任务联系起来。

我用它来寻找新品牌。所以我会说,这些是我喜欢的品牌。请找到我可以找到这种特定外套的新品牌,或者类似的东西。然后它非常擅长找到这些,而我认为基础模型或普通模型会说它会给你一些品牌,但它不一定符合我给出的所有约束条件。就像我想卖这个,你知道,这个长度的假毛皮外套,在这个季节或类似的东西,它将无法做到这一点,因为它只是没有最新的信息,而且也不一定能够一次处理查询中的所有约束条件。O1 没有像深度研究那样全面地浏览。我会用它来查找我正在寻找非常具体的东西,而找到这些东西需要花费我数小时的时间。所以我正在寻找这个非常具体的物品或毛衣,它

可能在RealReal或其他地方有售,但我找不到。或者我正在寻找一个具有非常具体约束条件的Airbnb。所以我认为深度研究适合这些类型的事情。然后更一般的,像高级的事情,你应该使用像普通搜索一样的东西。是的。好吧,我承认我有一些多年的浏览/购物任务,但我现在正在创建一个cron作业。

关于Deep Research,我想再问一个关于经验的问题,那就是,在Deep Research的训练中,有没有什么特别的成功或失败让你感到惊讶?这确实是一件我们认为在浏览任务上进行训练会奏效的事情,我们对此很有信心。但是

实际上,第一次使用这种算法在新数据集上训练模型并看到它真正运行并与模型一起玩耍时,感觉非常不可思议,即使我们认为它会奏效。所以老实说,它运行良好

如此之好,这相当令人惊讶,即使我们认为它会奏效,如果这说得通的话,是的,是的,这是那种“啊,道路铺满了草莓”之类的感官体验,但有时它失败的一些事情也令人惊讶,例如,有时它会犯一个错误,它会做一些非常聪明的事情,然后犯一个错误,我就在想你为什么要这样做,比如

停止。所以我认为肯定还有很大的改进空间。但是,是的,到目前为止,我们对该模型印象深刻。我习惯于我的所有技术工具都是即时的。Deep Research并非即时。它在思考和使用工具。它能更快吗?是的,我认为两者之间存在一个很好的中间地带,有时你并不希望它进行非常深入的研究,但你希望它做的不仅仅是搜索。我认为我们很快就会发布一些人们会

感到高兴的东西,并且我们会填补这一空白。好的。我不知道如何表达这种偏好,但我希望在某些时候能够切换,就像尽可能多的工作一样,我的意思是,我会对一个人这么说,我希望你在接下来的五分钟内尽你所能做好工作。是的,你看,我认为让用户做出这个决定实际上是一种糟糕的用户体验。模型应该更擅长知道需要思考多长时间。我认为我们在训练模型时做出了一个决定,那就是

我们将每次都选择最大思考时间。所以我肯定有时会问它一个非常简单的问题只是为了测试,然后会因为它还在思考而感到相当沮丧。所以我认为这也是一个改进的领域,即知道需要思考多长时间。但是,是的,我怀疑对于Deep Research,我们将始终关注需要最长时间的任务。然后我认为

像O3或O next之类的模型会有更好的中间地带。你能想象Deep Research未来有一天会进行什么样的测试吗?我的意思是,有些GPU正在冒烟。是的,我认为任何需要,我的意思是,现在,

在五分钟或三十分钟内,它可以完成人类专家评估需要数小时才能完成的工作。所以我想在一个小时内,它可以完成人类需要几天才能完成的事情。在一天内,它可以完成人类需要几周才能完成的事情。显然,要使其达到这样的规模,还有很多挑战。但我认为你可以想象它完成一个需要……

几周才能完成的研究项目,或者写一篇论文之类的。好的。然后我会让我们的实习生在接下来的几个月里与它竞争。是的。听起来不错。如果你要展望一年后,这在AI领域是很长一段时间,你认为会让大家感到惊讶的是代理能够做到的事情,并且实际上会被发布出来?所以它将安全考虑因素纳入了集合。一个通用的代理,可以帮助你完成很多

你知道,帮助你完成你在许多不同领域会做的许多任务。对我来说,我做了很多编码工作。我希望会有一个在编码方面相当、相当熟练的代理,但我只会相信它,我会给它一个任务,它有望创建一个PR或类似的东西。但我也许可以请同一个代理帮我预订去韩国的旅行之类的。我希望我们能够采取更统一的方法。

体验。但我也认为这些模型改进的速度会让大多数人感到相当惊讶。你为什么认为统一的体验很重要?或者你为什么认为这有意义?因为我认为今天考虑这个问题的方式是相当不同的。显然,ChatGPT是一种非常全面的体验。

但是人们在不同的环境中使用模型,例如,你知道,用于编码的下一行补全类型模型,感觉就像一个非常不同的设置。我认为你可能两者都需要。例如,你可能希望在某些时候能够覆盖或中断模型并说,“哦,不,我不是那个意思。”或者你可以接管并开始输入一些内容。是的,尤其是在短期内,因为模型在许多领域的能力不如人类,而在其他领域则更有能力。是的。

所以我认为这将是两者结合,比如你要求模型做某事,但当可能要使用编码示例时,那么你可能也在你的VS Code或任何它是什么,你的光标和你的……

它一直在为你做一些事情,但你也可以像实际输入一样,你知道,自己写一些。所以我认为这将是这些事情的结合。但我有点希望它能成为某种东西,就像拥有某种东西一样,就像在Slack上拥有某个同事或远程同事一样。你可以要求它为你做事,向他们发送Slack消息,然后他们就会开始做。然后你可以查看他们的工作,或者

你知道,在某些时候提供帮助。但这似乎是一个非常好的通用界面。你不必考虑应该要求哪个代理来执行哪个任务。你应该能够弄清楚。我对此的思维模型是我的普遍信条,实际上我喜欢我一起工作的同事。考虑到所有因素,我更喜欢与更少的人一起工作,减少管理开销,因为每个人都有

更多的上下文,我对他们的了解也更多。因此,通用的代理很有吸引力。是的。你只需要告诉它一次,它就会记住,然后它就会记住你正在处理的所有事情的状态。诸如此类的事情。太棒了。伊莎,这次谈话很棒。感谢你这样做,也感谢你发布产品。非常感谢你邀请我,也感谢你使用Deep Research。

在Twitter上关注我们@NoPriorsPod。如果你想看到我们的脸,请订阅我们的YouTube频道。在Apple Podcasts、Spotify或你收听节目的任何地方关注该节目。这样你每周都会收到新的剧集。并在no-priors.com上注册电子邮件或查找每集的文字记录。