Andrej Karpathy's Software 3.0 talk reframes LLMs as a new kind of software—programmable, agent-native, and fundamentally different from past computing models. This episode breaks down his key ideas, from autonomy sliders to the need for new infrastructure designed for AI-first users.Source: https://www.youtube.com/watch?v=LCEmiRjPEtQ </context> <raw_text>0 今天在AI每日简报中,我们将讨论人工智能时代的软件,或者说是3.0版软件。AI每日简报是一个每日播客和视频,内容涵盖人工智能领域最重要的新闻和讨论。大家好。快速公告。首先,感谢我们今天的赞助商:毕马威、Blitzy、Plum和Vanta。要收听无广告版本的节目,您可以访问patreon.com/AIDailyBrief。
现在,今天是我们的周末节目之一,通常是我们的长篇阅读节目,从某种程度上说,这些节目与其说是关于长篇阅读,不如说是关于宏大的想法。而今天我们要探讨一个非常宏大的想法。这个想法来自前OpenAI联合创始人Andrej Karpathy。几周前,Andrej在YC创业学校发表了主题演讲。
演讲结束后,它被发布到了YouTube上。你应该完整观看整个视频。我会附上链接。我们将讨论它并尝试将其置于情境中,所以这并非仅仅重复Andre所说的话。但有趣的是,视频并没有立即发布,人们对这次演讲如此疯狂,有如此多的推文和X帖子关于它,以至于Latent Space的优秀人士实际上能够从X上的剪辑和图片中拼凑出幻灯片。
这场演讲在许多方面都是关于重新设计软件世界,使其适应LLM原生操作,并将LLM视为一种新型计算。Andrej指出的一个非常有趣的事情是,软件在很大程度上保持不变,至少从范式角度来看,大约70年了,但在很短的时间内,我们经历了两次大的转变。我们稍后会详细介绍他对这些转变的阐述,但你也可以在工程领域的讨论中看到这一点。
几年前,Latent Space发表了一篇非常重要的文章,名为“人工智能工程师的崛起”。Swix试图在这里强调的区别是,当我们现在谈论人工智能工程师时,我们不再仅仅谈论机器学习研究人员和数据科学家。
我们不仅仅谈论处理训练、评估、推理和数据的人。我们正在讨论那些建立在这个专注于产品的新生态系统之上,并利用基础模型、代理、新工具和基础设施来重新设计人们与软件交互方式的人。那篇文章实际上也引用了Andrej Karpathy当时的观点,他用数字表示,人工智能工程师的数量可能会大大超过机器学习工程师的数量。
当时,Swicks试图解释这实际上意味着什么。他说,在成功评估、应用和将人工智能产品化方面,面临着无数的挑战。他谈到了模型选择、工具选择,以及跟上研究进展和新机遇。结论,现在看来是显而易见的,那就是这是一项全职工作。
引用:“我认为软件工程将产生一个新的子学科,专门研究人工智能的应用,并有效地运用新兴的技术栈,就像站点可靠性工程师、DevOps工程师、数据工程师和分析工程师的出现一样。”
这个角色的新兴且最不令人反感的版本似乎是人工智能工程师。现在,即使是人工智能工程的含义在过去几年里也在不断发展。如果你在本周早些时候收听过我们的节目,我们讨论了上下文工程。Langchain的Harrison Chase给出的定义是这样的:上下文工程是构建动态系统,以正确的格式提供正确的信息和工具,以便LLM能够合理地完成任务。
换句话说,这是关于为AI模型提供完成其目标所需的上下文,这在处理更多上下文和更多复杂性的代理架构中变得更加重要。关键是软件和工程领域本身在不断发展,这就是Andrej演讲的背景。
在1.0版软件中,是由人类编写计算机代码来编程计算机。Andrej几年前写到的2.0版软件,将计算机代码转移到了从数据中学习的神经网络权重,输出是神经网络本身。在3.0版软件中,大型语言模型本身可以用自然语言提示进行编程。引用Andrej在2023年1月说过的话:“最热门的新编程语言是英语。”
在讨论从1.0版软件到2.0版软件的过渡时,Karpathy借鉴了他特斯拉的工作经验。随着公司开发Autopilot,代码库主要用C++编写,但大部分视觉数据由神经网络处理。随着时间的推移,随着Autopilot的改进,神经网络组件增长,而C++代码被删除。Karpathy说,2.0版软件栈实际上吞噬了Autopilot的软件栈。他认为,随着LLM的激增,我们再次看到了同样的情况。Karpathy将LLM描述为功能上一种可编程的神经网络。
用户可以对LLM进行编程以产生各种不同的结果,而不是设定一条固定的路径。这并不是关于氛围编码或让LLM输出传统代码行。这是关于改变我们的思维方式,将LLM本身视为一种全新的软件类型。例如,如果你提示LLM生成一份深入的研究报告,这类似于编写一个可以搜索网络并总结数据的Python脚本。当然,存在大量的差异。
但关键在于,我们正在谈论使用LLM来实现特定结果,就像使用传统程序一样。正因为如此,他认为我们需要以稍微不同的方式思考LLM。他有效地认为人工智能是新的电力,并指出LLM现在感觉具有公用事业的特性。Karpathy阐述了基础设施的建设方式、令牌的计量方式,甚至当主要服务中断时,人工智能的“停电”与电力中断类似。
他还认为,LLM就像计算机芯片工厂,它们需要大量的资本支出,并且在建设中拥有深藏的秘密,自然而然地倾向于少数强大的参与者。最后,他将LLM比作操作系统。他认为,与其将LLM比作电力(每个电子都相同),不如说LLM现在是复杂的生态系统,具有差异化的功能、工具使用和性能。
他直接举例说明,Cursor可以使用来自OpenAI、Google或Anthropic的模型运行,每个模型的结果都不同。展望未来,他指出,我们仍然处于LLM计算机的20世纪70年代,大型集中式参与者提供的计算能力非常有限。但Karpathy预计类似于PC革命的事情会发生在LLM上,用户最终能够在自己的硬件上运行它们。
他进一步阐述了这个比喻,认为目前的LLM仍然非常类似于通过终端直接使用操作系统,他认为:“我认为还没有以通用的方式投资GUI。ChatGPT不应该有一个不同于文本气泡的图形用户界面吗?”
今天的节目由毕马威赞助。在当今竞争激烈的市场中,释放人工智能的潜力可以帮助您获得竞争优势,促进增长,并创造新的价值。但关键在于,您不需要人工智能战略。您需要将人工智能融入您的整体业务战略,才能真正提升其效力。
毕马威可以向您展示如何将人工智能和人工智能代理集成到您的业务战略中,使其真正有效,并建立在值得信赖的人工智能原则和平台之上。查看毕马威的真实案例,了解人工智能如何帮助其客户取得成功,以及
访问www.kpmg.us/AI。再次强调,网址是www.kpmg.us/AI。本期节目由Blitzy赞助。现在,我与许多渴望实施尖端人工智能的技术和业务领导者交谈,但他们最好的工程师并没有建立竞争优势,而是陷入了现代化古老的代码库或更新框架以维持运营的困境。这些项目,例如将Java 17迁移到Java 21,通常意味着需要组建一个团队一年或更长时间。
当然,副驾驶可以提供帮助,但我们都知道它们很快就会遇到上下文限制,尤其是在大型遗留系统上。Blitzy改变了这种局面。与其让工程师完成80%的工作,不如让Blitzy的自主平台承担繁重的工作,处理数百万行代码,并自动进行80%的必要更改。一家主要的金融公司使用Blitzy在短短三个半月内对2000万行Java代码库进行了现代化改造,节省了30,000个工程小时,并加快了整个路线图的实施。
请将主题行写为“modernize”,发送邮件至[email protected],以获得优先加入的资格。在竞争对手之前访问blitzy.com。今天的节目由Plum赞助。你投入了大量时间,测试提示,改进JSON,以及在画布上整理节点。现在,是时候为你的工作获得报酬了。
Plum是唯一一个专为希望将其AI工作流程产品化的技术创作者设计的平台。使用Plum,您可以构建、共享和获利您的流程,而无需泄露您的提示或配置。当您准备好进行改进时,您可以一键向您的订阅者推送更新。
在useplum.com启动您的第一个付费工作流程。这是带有B的plum,开始扩展您的影响力。今天的节目由Vanta赞助。在当今的商业环境中,企业不能仅仅声称拥有安全性,他们必须证明这一点。实现与SOC 2、ISO 27001、HIPAA、GDPR等框架的合规性,是企业展示强大安全实践的方式。
问题在于,处理安全和合规性既费时又复杂。这可能需要数月的工作,并占用宝贵的时间和资源。Vanta通过自动化35多个框架的合规性,使其变得轻松快捷。它可以在几周而不是几个月内让您准备好接受审核,并为您节省高达85%的相关成本。事实上,最近的一份IDC白皮书发现,Vanta客户每年获得535,000美元的收益,该平台在短短三个月内就能收回成本。
事实胜于雄辩。超过10,000家全球公司信任Vanta。在有限的时间内,听众可以在vanta.com/nlw获得1,000美元的折扣。网址是v-a-n-t-a.com/nlw,可获得1,000美元的折扣。现在,当谈到一个不同的软件时代时,最有趣的是它与之前的时代有何不同。
他指出一个例子,在1.0版软件中,早期采用者是政府和大型公司,因为他们是唯一能够负担得起操作大型机的公司。2.0版软件也是如此,神经网络主要属于研究实验室和科技公司。然而,这一次,普通用户是LLM的早期采用者,并且能够访问这种强大的新型计算机编程方式。他说:“对我来说,真正令人着迷的是,我们拥有一台新的神奇计算机,它可以帮助我煮鸡蛋,而不是帮助政府进行军事弹道学研究。”
事实上,公司和政府落后于我们所有人的采用。他的观点是,这是完全史无前例的。他继续说道:“我们每个人都有一台电脑,这都是软件,ChatGPT一夜之间被传输给了数十亿人。对我来说,这种情况有点疯狂,现在是我们编程这些计算机的时候了。”这并不是说它们是完美的计算机。
事实上,随着新时代的软件出现,我们也发现了新的问题。当然,存在幻觉问题,以及更普遍的参差不齐的智能问题。换句话说,虽然LLM在某些领域拥有完美的知识,但它们也可能无法看出单词“strawberry”中有多少个字母“r”。
然而,鲜为人知的是,LLM不会原生学习新事物。虽然在组织中工作的人类会学习如何执行特定任务,但LLM一旦上下文窗口关闭,就会忘记所有内容。这带来了一些非常真实的限制,并打破了人类思维的类比。Karpathy说:“你必须同时思考这个拥有大量认知缺陷和问题的人类超能力。”
然而,Karpathy也认为,LLM解锁了一整类计算任务,而我们才刚刚开始触及皮毛。他称其中一个想法为部分自主应用程序,或者说是X的Copilot或Cursor。
这个想法是一个像Cursor这样的应用程序,它充当LLM的叠加层,并允许用户更快地移动。Cursor可以协调许多操作,而人类则监督整个过程,而不是直接与LLM操作系统对话。他指出,这些类型的应用程序通常具有他称之为自主滑块的功能,用户可以根据任务的敏感程度选择LLM采取行动和进行更改的自主程度。
Karpathy实际上建议,大多数软件都将成为部分自主的,这对需要弄清楚如何集成这种新模式的软件行业来说具有重大意义。他说:“目前的传统软件拥有所有为人类设计的开关,但这必须改变才能让LLM访问。”
其中一个结论是,软件应该努力使LLM生成和人工验证之间的反馈循环尽可能紧密。Karpathy显然对MCU的参考很感兴趣,因为他使用钢铁侠套装来解释这个自主滑块的概念。在一端,托尼·斯塔克穿着这套衣服,而在另一端,他实际上制造了可以自行操作的自主版本。
Karpathy说:“我们可以构建增强功能,也可以构建代理,但我们想同时做这两件事。在这个阶段,与易出错的LLM合作,与其构建自主代理的炫技演示,不如构建部分自主产品。”
为了进一步说明需要更流畅地连接半自主软件正在生成的内容和人类的接口,他举了氛围编码的例子。就目前而言,Karpathy说,当你想要构建一些不存在的自定义内容并且只想即兴创作时,氛围编码非常棒。但他还介绍了他正在制作的一个应用程序,该应用程序可以将餐厅菜单转换为图片,以便轻松选择。他说,代码实际上很容易。大部分工作实际上是添加身份验证和支付以及域名。所有这些都很难。我在浏览器中点击东西。
我在几个小时内就完成了应用程序,然后花了一周时间,因为我试图让它变得真实。
总而言之,Karpathy认为,需要基础设施来服务一类新的消费者,他说:“过去只有通过GUI的人类或通过API的计算机。代理是计算机,但它们像人类一样。互联网上有人的灵魂,他们需要与我们的软件基础设施互动。”他举的一个关于为这个受众设计的例子是Vercel和Stripe,它们允许LLM通过Markdown访问其文档。Karpathy说:“如果我们可以使文档对LLM可访问,它将解锁大量的用途。”并且
虽然可访问性很重要,但文档也需要从根本上改变以反映LLM将如何采取行动。例如,Vercel已经这样做了,用代理友好的API命令替换了单词“click”。Anthropix MCP建立在类似的概念之上。Karpathy说:“最大的收获是,仍然需要编写大量的代码来为代理重新架构软件世界。”
实践中的革命是关于缓慢而逐步地将滑块从增强移动到完全自动化。但Karpathy认为至少需要十年的架构构建才刚刚开始。这就是本周的LRS。就像我说的,伙计们,我几乎没有触及到这个话题的表面,并且强烈建议你们观看整个视频。不过,现在,今天的AI每日简报就到这里。一如既往,感谢你们的收听或观看。直到下次,再见。