We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI’s GPT-4.1: The AI That Codes Smarter, Faster, and Cheaper

OpenAI’s GPT-4.1: The AI That Codes Smarter, Faster, and Cheaper

2025/4/15
logo of podcast Elon Musk Podcast

Elon Musk Podcast

AI Deep Dive AI Chapters Transcript
People
播音员
主持著名true crime播客《Crime Junkie》的播音员和创始人。
Topics
播音员:OpenAI 发布了新一代 AI 模型 GPT-4.1,以及更小型的 4.1 Mini 和 4.1 Nano 版本。与之前的模型相比,GPT-4.1 在速度、成本和能力方面都有显著提升。它能够处理高达 1 亿个 token 的输入,这使得它能够理解复杂的文档,例如法律合同、软件库或学术论文。在 OpenAI 的内部测试中,GPT-4.1 在编码相关任务中的表现比 GPT-4.0 提高了 21%,比 GPT-4.5 研究预览版提高了 27%。GPT-4.1 不仅能够解决更多问题,而且能够以更简洁、更结构化的方式解决问题,避免不必要的代码编辑,遵循精确的格式指令,并尊重输出的预期结构。它在前端编码任务方面也进行了改进,这些任务需要严格遵守格式和视觉一致性。GPT-4.1 的改进使其能够更好地为 AI 代理提供支持,执行基于自然语言命令的复杂任务,例如排序电子邮件、整理文件或从各种来源汇编文档。由于其能够理解更长的上下文,因此它能够随着时间的推移保持更连贯和一致的操作。OpenAI 将在 7 月份停止使用 GPT-4.5 预览模型,因为 GPT-4.1 提供了更好或同等的结果,但价格却低得多。GPT-4.1 的完整版价格为每百万输入 token 2 美元,每百万输出 token 8 美元;Mini 版的价格为每百万输入 token 0.4 美元,每百万输出 token 1.6 美元;Nano 版的价格为每百万输入 token 0.1 美元,每百万输出 token 0.4 美元。Nano 版优先考虑速度和经济性,因此在需要高精度的任务中可能不是最佳选择。在 SWE Bench 基准测试中,GPT-4.1 的得分略低于 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7。GPT-4.1 的发布正值其他 AI 开发商竞争加剧之际,谷歌、Anthropic 和中国 DeepSeek 等公司都在努力构建能够独立执行复杂编码任务的模型。GPT-4.1 有可能彻底改变软件开发的方式,使开发者能够更多地依赖模型来理解他们的意图,精确地遵循指令,并生成可投入生产的代码。如果编码代理能够自主处理大型项目,人类开发者的角色可能会转变为监督者或创意提供者。虽然 GPT-4.1 并非完美,但它在成本、可靠性、指令遵循和代码性能等方面比之前的模型有了显著改进,它正在推动 AI 编码工具向自主构建软件迈进。

Deep Dive

Shownotes Transcript

为什么瑞思的花生酱杯上有棱纹?可能是为了防止它们从她手中滑落。你能想象吗?我会崩溃的。幸运的是,瑞思考虑到了这一点。我想知道他们还考虑什么。可能是巧克力和花生酱。听到吗?春天回来了。Church's Seafood 也回来了。有八只虾、海鲜盛宴或鱼三明治。每份起价 3.99 美元。优惠活动在参与活动的商家有效。

您是一位小型企业主,这意味着您也是技术人员、人力资源、私人助理、老板和实习生。您可能需要另一双像您在 Verizon 小型企业日(4 月 21 日至 27 日)找到的专家一样的手。获得免费技术检查、特价优惠等等。致电 1-800-483-4428 或访问 verizon.com/smallbusiness 预约。Verizon 企业。

大家好。欢迎回到埃隆·马斯克播客。我很高兴与大家分享一些令人兴奋的消息。在接下来的两周内,我们将进行发展。我们将拓宽视野,涵盖塑造我们世界的所有科技巨头。随之而来的是,我们的节目将成为零阶段。您仍然可以获得有关埃隆·马斯克的最新见解,以及更多内容。敬请关注我们在零阶段的正式重新启动。请进。

即将推出。现在让我们进入本集。在人工智能模型开始从头编写整个应用程序、修复其自身错误并编写其自身文档之前,它究竟能变得多么聪明和有用?

好吧,OpenAI 推出了 GPT 4.1,这是一种新一代人工智能模型,它声称比之前发布的任何模型都快、更便宜且功能更强大。但在升级数字和基准分数之下,存在着更重要的东西。OpenAI 认为,这个模型及其较小的变体最终可以作为自主编码代理的主干,这种代理不仅可以协助软件工程师,而且可以

是软件工程师。OpenAI 于周一宣布了新的 GPT 4.1 系列模型,不仅推出了全尺寸版本,还推出了名为 4.1 Mini 和 4.1 Nano 的缩小版。

每个模型都具有速度、大小、成本和功率的不同平衡。这些模型仅通过 OpenAI 的 API 提供,这意味着将它们集成到应用程序和工具中的开发人员将首先看到它们在现实环境中的性能。目前,ChatGBT 用户被排除在外。因此,在 OpenAI.com 上没有提示。

现在,GPT-4.1 的与众不同之处在于它能够理解海量输入,最多可达 1 亿个标记或 75 万字,远超 GPT-4.0 的处理能力。相比之下,这比《战争与和平》和几本技术手册加起来还要长。现在,这使其成为需要理解复杂和冗长文档的任务的理想选择,例如法律合同、软件存储库或

甚至学术论文。它还在多轮对话中更有效,在多轮对话中,之前的上下文往往会丢失。在内部,OpenAI 的自身测试表明,GPT-4.1 在与编码相关的任务中的性能比 GPT-4.0 模型提高了 21%。与之前的 GPT-4.5 研究预览相比,GPT-4.1 在同一类别中提高了 27%。

但这不仅仅是解决更多问题。而是以更清晰、更有条理的方式解决问题。GPT 4.1 经过专门改进,以避免不必要的代码编辑、遵循精确的格式指令并尊重其输出的预期结构,包括正确的排序和工具使用。测试过早期模型的开发人员经常指出,他们必须密切指导模型、纠正其结构或处理不一致的格式。

据 OpenAI 称,GPT-4.1 已被调整以避免这些常见的挫折。一位 OpenAI 代表指出,前端编码任务(需要严格遵守格式和视觉一致性的任务)是此次更新的重点。但性能提升并不仅限于编码。4.1 改进的指令遵循能力使其成为为 AI 代理提供支持的更好选择。

基于自然语言命令执行复杂任务的自动化系统。现在,无论是排序电子邮件、整理文件还是从各种来源汇编文档,GPT 4.1 都可以比以往任何时候都更有效地管理更复杂的任务,并且失误更少。

它理解更长上下文的能力也意味着它可以随着时间的推移保持更连贯和一致的动作。根据 OpenAI 的新版本,该公司将逐步淘汰 GPT 4.5,这是一个预览模型

他们将在 7 月份这样做。这一决定似乎是由成本和性能共同驱动的。GPT 4.1 提供更好或同等的结果,但价格却低得多。对开发人员来说,经济论点可能与技术升级一样具有吸引力。现在,成本是此次发布的核心要素。完整的 GPT 4.1 模型定价为每百万输入标记 2 美元,每百万输出标记 8 美元。

与早期模型相比,这是一个大幅降价。迷你版降至每输入 0.40 美元,输出 1.60 美元。而为速度和最低成本而构建的 Nano 为每百万输入 0.10 美元,输出标记为 0.40 美元。现在,这是 OpenAI 推出的最有效、最经济的模型。但是,较小的模型会以牺牲一些准确性为代价来提高效率。

例如,GPT 4.1 Nano 优先考虑速度和经济性,这意味着它可能不是需要精确度的任务的最佳选择。尽管如此,对于需要快速响应类似用例的开发人员来说,Nano 可能会提供恰到好处的平衡。OpenAI 测试了新模型

和 SWE Bench,这是一个流行的软件工程任务基准。完整的 GPT 4.1 模型得分在 52% 到 54.6% 之间。SWE Bench 验证,这是基准的人工验证子集。这略低于 Google 的 Gemini 2.5 Pro,后者达到 63.8%。在 Anthropix Claude 的 3.7 中,达到 62.3%。

OpenAI 指出,某些解决方案无法在其基础设施上运行,从而导致分数差异。现在,此次发布正值其他人工智能开发商竞争加剧之际。谷歌、Anthropic 和中国 DeepSeek 都在追求类似的目标,构建能够自行执行复杂编码任务并最终接管大部分软件工程工作流程的模型,这意味着软件工程师

将被解雇或被解雇,或找到新工作。谷歌的 Gemini 2.5 pro 和 Claude 3.7 sonnet。两者在公共基准测试中均得分很高,并包含其自身的长期上下文。

现在,开发人员的未来变得更加具体。他们不必再手工缝合多个工具或调整输出,而是可以更多地依赖能够理解其意图、精确遵循指令并生成可投入生产的代码的模型。现在,这可能会彻底改变软件的开发方式。

以及谁来开发它。现在,如果编码代理能够胜任自主处理大型项目,那么人类开发人员的角色可能会从创建者转变为监督者,然后仅仅是一个想法的生成者。但这对这些开发人员来说并不是损失。如果您有想法,那就是重点的变化。这意味着更多的人可以构建有用的软件,而无需深入的工程经验。

但 GPT 4.1 并不完美,也不是这段旅程的终点。但它标志着早期模型在对开发人员最重要的一些领域取得了明显的改进。成本、可靠性、指令遵循和代码性能。目前,它只是一个更智能的工具。在不久的将来,它可能成为所有代码开发的基础。

现在 4.1 更快、更便宜、更精确。将人工智能编码工具又向前推进了一步,使其能够自行构建软件。总有一天,你会有一个想法。你可以把它写成一个提示。为我编写一个执行 XYZ 的软件。ChatGPT 将从头到尾创建整个软件。后端、前端、数据库,以及介于两者之间的一切。那一天很快就会到来。

我希望我能见证这一切,因为我想看到这一切发生。我过去 20 年的工作一直是前端 Web 开发人员,我对 GPT 4.1 的未来感到兴奋。这将是一次疯狂的旅程。工作日开始听起来一样。在 LinkedIn 上寻找更适合您职业生涯的东西。

借助 LinkedIn 工作收藏,您可以浏览按相关行业和福利(如 FlexPTO 或混合工作场所)分类的精选收藏,以便您可以找到适合您的工作。在 linkedin.com/jobs 上开始。找到适合您的位置。LinkedIn 知道怎么做。

个人电脑让我们在家拥有了计算能力,互联网将我们连接起来,移动设备让我们几乎可以在任何地方都能做到这一点。现在,生成式人工智能让我们能够用我们自己的语言、使用我们自己的感官与技术进行交流。但是,当您亲身经历这一切时,弄清楚这一切又是另一回事了。欢迎来到“引领变革”。

这是来自 Microsoft Azure 的一个新播客。我是您的主持人 Susan Etlinger。在每一集中,领导者都会分享他们的学习成果,帮助您充满信心地应对所有这些变化。请加入我们。无论您在哪里收听播客,请收听并订阅。

使用 Uber Eats 送达几乎所有东西。

立即订购。部分市场提供酒精。产品供应可能因地区而异,请查看应用程序了解详情。

嘿,非常感谢您今天的收听。我真的很感谢您的支持。如果您能花一秒钟点击您现在正在收听的任何播客平台上的订阅或关注按钮,我将不胜感激。这将极大地帮助节目,您也不会错过任何一集。每一集大约 10 分钟或更短,让您快速了解情况。如果您想更多地支持该节目,请访问 patreon.com/stagezero。

请照顾好自己和彼此。明天见。