谢谢。
今天,我们有一个故事,很容易成为主要情节。我只是认为围绕达里奥·阿马迪关于人工智能编码的预测的讨论非常有趣,我想深入探讨一下。OpenAI 发布了一套新的代理工具,这些工具绝对会加速代理平台的竞争。他们发布了这个工具,并对其中包含的所有内容进行了巨大的新分解。
该工具集包括他们的新 Responses API,他们表示该 API 将 Chat Completions API 的简单性与 Assistance API 的工具使用功能相结合,用于构建代理,内置工具包括网络搜索、文件搜索和计算机使用,一个新的 Agents SDK 用于协调单代理和多代理工作流程,以及集成的可观察性工具,用于跟踪和检查代理工作流程的执行。
现在,有时对于这样的公告,Twitter 线程男孩是无用的,因为他们太专注于他们自己夸大其词的愿望,以至于他们实际上没有任何实质性的内容。但有时,尤其是在极其密集的技术公告时,它们对于分解它非常有用。因此,让我们转向埃尔维斯,因为他对实际发布的内容做了很好的总结。他写道,OpenAI 已经推出了两个大型代理解决方案,例如 Deep Research 和 Operator。这些工具现在正在进入 API,供开发人员构建自己的代理。
第一个内置工具称为网络搜索工具。这允许模型访问来自互联网的信息,以获得最新的和事实性的响应。它与 ChatGPT 搜索使用的工具相同,由底层微调模型提供支持。
第二个工具称为文件搜索工具。这对于与代理 RAG 相关的用例非常有用。它现在支持元数据过滤和直接搜索端点,使您可以直接搜索您的向量数据库。第三个工具是计算机使用工具。这就像通过 API 提供的 Operator。它允许您控制您操作的计算机。它附带了 Operator 使用的计算机使用模型。
埃尔维斯继续说道,他们还宣布了 Responses API。与传统的聊天完成 API 不同,这个新的 API 足够灵活,可以更本地地支持多个回合和工具。
埃尔维斯继续说道,您还可以将工具与 Responses API 配对。它可以一次调用多个工具,并在一个请求中为您提供最终响应。计算机使用工具也可以与 Responses API 一起使用。您可以添加说明并自定义显示。对于那些多代理系统呢?好吧,埃尔维斯继续说道,OpenAI 还使其代理协调框架 Swarm 更加成熟。它已被重新命名为 Agents SDK。它在后台使用 Responses API,但也支持其他供应商。该
Agents SDK 是开源的,支持开箱即用地构建多代理。分类代理可以将任务与相关上下文一起移交,以执行任务。它还开箱即用地支持监控和跟踪,可用于调试您的代理。跟踪 UI 也可用于跟踪您的代理工作流程的跟踪。
非常感谢埃尔维斯,他本人就是代理构建者,至少对于更简单的分解来说是这样。基本上,这里发生的事情是 OpenAI 正在为开发人员在炙手可热的代理构建领域中确立其地位和产品。很明显,尽管我认为 OpenAI 绝对会构建一些他们自己想要拥有的代理,以保持与客户的密切关系,但他们也认识到他们无法构建所有东西,但他们确实想要参与所有事情。
奥利维尔·戈德明特写道,试图解释 Responses API 和 Agents SDK 之间的关系,项目经理 Nakunj Honda 写道,
Responses API 就像使用模型和工具来做某事的原子单元。Agents SDK 让多个这样的原子单元协同工作以解决更复杂的任务。
但这在实践中究竟意味着什么?西蒙·泰勒写道,OpenAI 的 Responses API 和 Agents SDK 对人工智能平台战争来说是一个巨大的时刻。目标是使构建工作流程代理变得非常容易。它可以执行诸如连接浏览器、文件和应用程序、将多个代理链接在一起以及实时监控性能等操作。大多数初创公司在过去一年中都在构建 OpenAI 免费提供的功能。以下是它所取代的内容。数月的提示工程和迭代、复杂的操作逻辑、
无休止的微调和测试,即可观察性和评估。最终,这意味着 OpenAI 试图成为一个多合一的平台。它会成功吗?交易是,如果使用我们的 LLM,我们将使工具变得更容易使用,但您不能使用 Claude 3.7,许多人喜欢它。然而,对于许多开发人员来说,这将非常诱人。这不是竞争的结束,而是开始。现在有两个世界愿景,Claude 的开放模型上下文协议和 OpenAI 的工具使用 SDK 和 Responses API。
我认为他绝对正确,这是一个代理平台战争中的一个重大时刻,这将决定未来几个月许多事情的形状。然而,这实际上并不是唯一的 OpenAI 新闻。GPT-4.5 明显更擅长的一件事是写作。然而,OpenAI 似乎也在开发一个新的专注于写作的代理,或者至少是一个新的模型。
昨天,萨姆·阿尔特曼发推文说,现在,为了新闻标题的缘故,我不会阅读萨姆附上的短篇故事,但您可以放心,这个模型的元虚构小说摧毁了第四堵墙。
另一个谣言是从 OpenAI 的 API 变更日志中的细微提及中渗透出来的。该帖子提到了一个名为 O3 Mini Pro 的模型。当被要求更正错字时,Adam GBT(他确实为 OpenAI 做市场营销)评论道,我没有看到任何错字。
虽然我们没有任何官方信息,但您可能可以根据名称推断出该模型的功能。如果它遵循与 O1 Pro 相同的约定,它将是底层模型的更强大的版本,该模型使用更多推理。尽管如此,在谈到命名约定时,Chubby 评论道,请不要。不要在 O1 Pro 和 O3 Mini 和 O3 Mini High 和 O3 和 O3 Pro 旁边再做一个 O3 Mini Pro。请不要,OpenAI。
最后,Meta 已开始测试其专为 AI 训练设计的内部芯片。据路透社报道,第一批芯片已从台积电运抵,Meta 已建立了一个小型集群用于测试。一位消息人士提到,该芯片是一个专用的 AI 加速器,而不是 GPU,这可能使其更节能。这是该芯片的第一个所谓的“流片”,即最终确定设计并完成第一次测试运行的过程。芯片通常会经历多次流片,以改进设计并在生产准备启动之前修复问题。每次流片通常需要三到六个月的时间。
Meta 之前曾部署过定制的 AI 芯片,但仅用于推理而不是训练。事实上,2022 年开发推理芯片的一项努力非常糟糕,导致 Meta 废弃了该项目,并转向成为英伟达最大的客户,以努力赶上人工智能竞赛。如果这项测试成功并且 Meta 可以提高产量,这将是减少对英伟达依赖的一大步。
即使一切按计划进行,该时间表也至少还有六个月的时间。尽管如此,基础设施建设仍在快速进行。目前,这就是今天的 AI Daily Brief 头条新闻。接下来是主要情节。今天的节目由 Vanta 提供。信任不仅仅是赢得的,更是被要求的。
无论您是应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的 GRC 计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是 Vanta 的用武之地。企业使用 Vanta 通过自动化超过 35 个框架(如 SOC 2 和 ISO 27001)的合规性需求来建立信任。集中的安全工作流程可以将问卷调查完成速度提高 5 倍,并主动管理供应商风险。
Vanta 可以帮助您启动或扩展您的安全计划,通过将您与审计员和专家联系起来,快速进行审计并建立您的安全计划。此外,由于整个平台都采用了自动化和人工智能,Vanta 可以为您节省时间,让您可以专注于公司建设。加入超过 9,000 家全球公司(如 Atlassian、Quora 和 Factory),他们使用 Vanta 实时管理风险并证明安全性。
在有限的时间内,这个观众可以在 vanta.com/nlw 获得 1,000 美元的 Vanta 折扣。即 v-a-n-t-a.com/nlw,可享受 1,000 美元的折扣。目前正在发生巨大的转变,从使用人工智能来帮助您完成工作
到部署人工智能代理来为您完成工作。当然,在这种转变中,有很多复杂之处。首先,在这些看似数千个代理中,哪些实际上已经准备好投入使用?哪些可以做到他们承诺的事情?除此之外,哪些代理实际上适合我的工作流程?什么可以与我们目前开展业务的方式集成?这些是超级智能代理准备就绪审计的核心问题。
我们构建了一个语音代理,可以扩展到您的整个团队,映射您的流程,更好地了解您的业务,找出您目前在人工智能和代理方面的位置,以便提供真正适合您和您公司的建议。
我们专有的代理咨询引擎和代理能力知识库将为您提供行动计划、建议和具体的后续行动,这将帮助您迈出进入新型代理员工世界的新一步。要了解有关 Super 代理准备就绪审计的更多信息,请发送电子邮件至 [email protected] 或直接给我发送电子邮件,[email protected],让我们为您设置我们一生中最具颠覆性的技术。
今天,我们讨论的话题在过去一两天里绝对点燃了 AI Twitter,那就是 Anthropic 首席执行官达里奥·阿马迪的预测,即人工智能将在一年内编写 100% 的代码或接近 100% 的代码。这源于阿马迪在对外关系委员会进行了一次广泛的采访。讨论涵盖了人工智能领导力的未来、创新在 Geostrategic 竞争中的作用以及前沿模型的前景。
尽管如此,他关于科技行业工人替代速度的评论却在网上疯传。
达里奥说,如果我看看编码,这是人工智能取得最大进展的领域之一,我们发现我们离一个世界不远了,我认为我们将在三到六个月内到达那里,人工智能将编写 90% 的代码。然后在 12 个月内,我们可能生活在一个人工智能基本上编写所有代码的世界中。对于那些没有使用所有这些文本到代码工具的人来说,这似乎是显而易见的。尽管如此,对于达里奥来说,这是他之前表达的时间表的重大加速。
事实上,我认为这是第一次,至少是我第一次看到他为采用自动化人工智能编码提供具体的预测。当他在 1 月份在达沃斯进行采访时,达里奥只笼统地谈到了整体劳动力,例如,他说:“我比以往任何时候都更有信心,我们即将拥有强大的 AI 系统。我在 Anthropic 内部和外部看到的过去几个月的经验让我相信,我们正在朝着在两年到三年内在每项任务中都超过人类的人类水平系统迈进。”
那么从那时起发生了什么事情,可能会让这种时间表感觉像是在加速,至少在编码方面是这样?达里奥的公司 Anthropic 显然是其中很大一部分。他们与他们的代理解码工具 Claude Code 一起发布了 Claude 3.7 Sonnet。这两个版本都代表了人工智能编码助手的一大进步。当然,围绕这些工具,我们还看到了氛围编码的兴起。
这是指以前不是编码员的人能够使用像 lovable 或 bolt 这样的工具来实际构建应用程序的想法。让人们以全新的方式思考构建软件的意义,以及更广泛地成为创造者的意义。Riley Brown 从成为最大的 AI TikToker 开始,已经完全转向将应用程序构建作为一种内容形式。他相信这是所有创作者都将前往的地方。几周前,2 月 18 日,
他分享了提示工程作为一个术语与氛围编码作为一个术语的 Google 搜索比较,并说一年后检查一下。然后他昨天回来展示氛围编码实际上已经开始超过提示工程
作为一个搜索词。Riley 补充道,这只花了三周时间。因此,我们非常清楚地处于软件工程工作的范式转变之中,感觉我们在某个时候可能已经越过了拐点。现在,这已经成为目前正在进行的行业对话中的一个重要话题。例如,关于人工智能编码员取代人类工程师的讨论是西南偏南大会的一个重要话题,该大会目前仍在奥斯汀举行。IBM 首席执行官 Arvind Krishna 对 Amadei 的预测表示非常怀疑。
他评论道:“我认为这个数字将更像是人工智能可以编写 20% 到 30% 的代码,而不是 90%。有一些非常简单的用例吗?是的,但也有同样数量的复杂用例,其中将为零。”现在,好吧,正如您将看到的,我不确定我是否同意这一点。
他确实补充了一些我认为非常重要的叙述,以及您可能之前在这个节目中听到过的一些内容,他说,如果您可以用相同数量的人编写 30% 的代码,您会编写更多代码还是更少代码?因为历史表明,生产力最高的公司会获得市场份额,然后您可以生产更多产品,这可以让您获得更多市场份额。
这基本上是他的一种说法,即人工智能的赢家将不是那些选择用更少的人做同样事情的人,而是那些选择用相同的人做更多事情或用更多的人做更多事情的人。因此,Arvind,如果您碰巧是一位听众,感谢您强调这一点。
马克·库班在会议上的小组讨论中也有类似的看法。虽然他没有谈到人工智能编码,但他对工作替代做出了更一般的评论,他说:“人工智能永远不是答案。人工智能是工具。无论您有什么技能,都可以使用人工智能来增强它们。”虽然我不同意这一点,但我认为证据开始显示一些不同的东西。例如,早在 10 月份,坦率地说,编码助手的能力不如现在时,谷歌首席执行官桑达尔·皮查伊在谷歌第三季度财报电话会议上表示,
今天,谷歌所有新代码中超过四分之一是由人工智能生成的,然后由工程师审查和接受。因此,如果 IBM 首席执行官说它只会是 20% 到 30%,但在 10 月份,谷歌已经看到 25% 的新代码来自人工智能,那么有人会在这里出错。
从技术角度来看,Amadei 的评论提出的一些问题是,在接下来的三到六个月内,我们需要看到哪些改进才能使 90% 的代码由人工智能生成?相应地,在一年内将这个数字提高到 100% 需要解决哪些挑战?目前的一个主要分歧是正在启动新产品的企业家和爱好者,例如氛围编码的巨大兴起,以及另一方面,使用企业代码库的专业程序员。
许多当前的工具在构建原型、查找错误、让人们快速从零到一方面都非常好。这与能够扩展到大型企业代码库(许多人必须为其做出贡献)并不相同。例如,如果您查看 Claude Reddit,您可以找到许多与处理跨企业代码库的多个文件等情况相关的斗争示例。这甚至没有涉及到协调多个工程师并行处理同一代码库的问题。还有更多平淡无奇的限制
这种转变发生的速度有多快。例如,米兰·贾南指出,如果您没有员工阅读或理解您的代码是如何工作的,您就不能签署合同说您的代码是安全的。当然,这些问题都不是无法克服的。它们使在企业层面全面使用人工智能变得更加困难,但它们也为想要应对这组特定挑战的人创造了一个非常大的诱饵。开发人员 Nick Dobos 写道,不断看到人工智能编码的版本很棒,直到您的应用程序变得过于复杂,以至于人工智能无法处理。
一些想法。在接下来的 10 到 20 年里,代码库的大小将达到 1000 倍到 100 万倍。记住所有这些将不可行。二、对于大型公司来说,这个未知的大型代码库已经是常态。现代公司的规模、成熟度和人员流动,以及库和包的使用,意味着大量内容是并且将永远是您未知的。您仍然需要在这个迷宫中保持高效。
三、人工智能编码将变得更加强大,随之而来的是人工智能理解这个迷宫的能力也会增强。您只需要在执行任务时请求摘要并询问有关代码的问题即可。试图记住大脑中的大量信息将不起作用。四、目前人工智能程序员的第一项技能是限制人工智能,并在发出命令时提供足够的上下文,以便人工智能正确地执行操作。五、这将发展到包括知道向代码库提出什么问题,以便您只有足够的信息和上下文来正确执行任务。
此外,Maza 的首席技术官 Siggy Bilstein 建议,其中一部分可能是技能问题。他写道,因此,当然,其中一个问题就变成了,如果人工智能编写了所有代码,是否意味着我们没有任何软件工程师?达里奥实际上在采访的下一部分中解决了这个问题。他说,
程序员仍然需要指定您正在做什么的条件是什么?您试图制作的整体应用程序是什么?整体设计决策是什么?我们如何与已编写的其他代码协作?我们如何对这是否是安全设计或不安全设计有一些常识?只要人类程序员需要做一些人工智能不擅长的小事情,我认为人类的生产力实际上将会提高。我认为这是真的。但我也认为,当人们听到这样的说法时,他们倾向于将它们与目前围绕人工智能听到的一些常见说法结合在一起。
例如,人工智能只会取代那些乏味的任务,或者您可能每天在 LinkedIn 上看到 20 次的这个小栗子。人工智能不会取代你。使用人工智能的人会。为了亮出我的底牌,我认为这些观点反映了惊人的数量的应对或没有看到事情的发展方向。当领导这些基础实验室的人谈到人工智能在两年到三年内在每项任务上都比人类更好时,这意味着每项任务,而不仅仅是那些乏味的任务。
那么我的基本情况是,我们今天所做的所有任务(引号)将来都将由人工智能完成。我认为人们在这里失去重点和细微之处的地方在于,这并不意味着先验地工作会消失。相反,我认为从根本上说,工作会发生变化。我认为我们 100% 的工作都会发生变化。
简而言之,我们将来不会成为任务执行者和行动者。人们将成为自己小型军队的将军和自己小型公司的首席执行官,代理和人工智能正在执行他们曾经自己完成的任务。我如此乐观的原因是,我认为所有这些都会导致更多产品的生产。这正是 IBM 首席执行官所说的,即认识到市场赢家总是生产更多产品,并通过生产更多更好的产品来赢得市场份额。
这就是人工智能将实现的目标。但实现这一目标的途径将是完全有效地 100% 地取代目前的工作结构方式,并采用一种全新的工作方式。
顺便说一句,从我坐的地方来看,我认为达里奥的时间表并没有那么疯狂。是的,我认为存在非常真实的结构性约束、人为约束、法律约束和惯性约束,这些都会减缓企业的这种转变。我认为这是绝对不可否认的。但是,当您走出企业领域时,不难看到这种变化速度有多快。Y Combinator 合伙人 Jared Freeman 最近表示,四分之一的 YC 创始人表示,他们的代码库有 95% 是人工智能生成的。
这意味着来自世界上最重要的加速器的大约四分之一的公司看到几乎所有代码都是由人工智能生成的。Gumroad 的 Sahil 说,我们已经达到 100% 了。如果您正在编写代码,那么您是在有意识地选择不请求人工智能为您编写代码。很好,但这是一种选择,类似于用手洗碗而不是使用洗碗机。
就像我说的那样,我不认为这意味着所有软件工程师都会失业。正如 Trade Your Meme 的 Adi 所说,软件工程从来都不是主要关于编写代码的。代码是下游的,精确地思考如何对特定领域进行建模。我认为他正确地认为这在未来将是一项更重要的技能。
此外,对我来说还有一个有趣的潜伏问题,那就是如果人工智能编写了所有代码,但人工智能仍然处于它不擅长发明新事物的地方,它只是擅长匹配旧事物,这是否意味着我们将永远坚持使用我们现在拥有的编程语言及其状态?如果工程师没有积极参与代码工作,我们是否会失去一些进步?
Gurgelio Rose 写道,因此,即使在这个 100% 的世界愿景中,仍然有一些有趣的事情需要探索。
无论如何,我认为此时您可能已经明白为什么这会成为如此多的谈资。是的,它与编码有关,与人工智能和代理创新的这个巨大而重要的突破领域有关,随着氛围编码的兴起,它变得更加广泛地重要,这使得所有非技术人员和非开发人员都可以开始参与其中。但它也触及了更广泛的工作置换问题以及未来工作的形式。
希望您的思想现在正在思考一些新的想法。当然,请在评论中告诉我您是否认为该预测是正确的、疯狂的还是不够雄心勃勃的。不过,就目前而言,这就是今天的 AI Daily Brief。一如既往地感谢您的收听。直到下次,再见。