We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
A
Andrej Karpathy
A
Andrew Chen
C
Chris Back
H
Henry Shi
J
Justin Duke
M
Mihir Patel
M
Mira Marotti
M
Mustafa Suleiman
N
Nick Dobos
O
OpenAI研究人员
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
Mira Marotti: 我创建Thinking Machines公司,旨在提升AI系统的易用性和可定制性,打破现有AI系统在公众讨论和实际应用中的局限性。 我致力于构建更易于理解、定制和普遍适用的AI系统,弥合构建思维机器实验室的差距,从而使AI系统得到更广泛的理解、定制和普遍应用。 主持人: Thinking Machines公司目前的目标和产品还不清晰,其公开信息给人一种对未来含糊其辞的感觉。 虽然公司团队成员背景强大,但其具体目标和发展蓝图仍不明确,这使得人们对其未来发展方向难以预测。 Justin Duke: Humane的失败不具有普遍的借鉴意义,它更多的是2019-2021年风险投资泡沫的产物,而非AI可穿戴设备行业的普遍困境。 Humane的失败是特定时期风险投资过热和公司自身问题共同作用的结果,不能简单地将其归因于AI可穿戴设备行业的整体问题。 Chris Back: Humane的失败反映了AI可穿戴设备行业的整体困境,值得行业反思。 Humane的失败引发了人们对AI可穿戴设备行业未来发展方向的思考,其失败经验值得行业借鉴和反思。 Andrej Karpathy: 我创造了“vibe coding”的概念,这是一种新的编程方式,它充分利用大型语言模型的能力,减少了对传统编码技术的依赖,并提高了编程效率。 这种编程方式使得开发者能够更专注于项目的整体构思和设计,而无需过多关注代码细节。通过与大型语言模型的交互,开发者可以快速实现想法,并解决编程过程中遇到的问题。 Mustafa Suleiman: 我提出了一种新的图灵测试,即AI能否在零售网络平台上赚取一百万美元,以此来更准确地评估AI的实际能力。 传统的图灵测试无法准确反映AI的实际应用能力,而我的建议则更注重AI在实际应用中的表现和价值。 OpenAI研究人员: 前沿大型语言模型仍然难以解决大多数真实世界的软件工程任务,在SWE Lancer基准测试中,虽然Claude 3.5 Sonnet表现最佳,但所有模型均未达到百万美元的盈利目标。 AI智能体擅长定位问题,但难以找到根本原因,导致解决方案不完整或有缺陷。在管理任务中,所有模型的表现都更好,Claude 3.5 Sonnet仍然表现最佳。 Mihir Patel: 学术基准测试和实际应用案例之间存在越来越大的差异,这使得评估AI模型的实际能力变得更加复杂。 现有的基准测试方法可能无法准确反映AI模型在实际应用中的表现,需要开发更有效的评估方法。 Benjamin de Cracker: OpenAI的基准测试结果表明,Claude 3.5 Sonnet的表现优于OpenAI自身的模型,这引发了人们对不同模型性能差异的关注。 基准测试结果与实际项目中的体验可能存在差异,这提醒我们不能仅仅依赖基准测试结果来评估AI模型的实际能力。 Henry Shi: 如果AI智能体能够有效地迭代问题,其性能将会大幅提升,这与人类在工作中通过反馈改进解决方案的过程类似。 在SWE Lancer基准测试中,AI智能体只获得一次解决问题的尝试,这与实际工作中的情况有所不同。 Nick Dobos: OpenAI构建SWE Lancer基准测试,可能预示着他们正在开发一款最终的生产编码智能体,这表明OpenAI正在积极探索AI智能体在实际应用中的可能性。 OpenAI可能正在积极布局AI智能体领域,以期在未来的市场竞争中占据优势。 Andrew Chen: vibe coding工具对软件工程和经济具有颠覆性影响,它不仅改变了传统软件工程师的编码方式,也扩展了能够进行编码的人群,创造了新的经济机会。 随着vibe coding工具的普及,软件开发的门槛将降低,更多的人将能够参与到软件开发中来,这将对软件行业和经济产生深远的影响。

Deep Dive

Shownotes Transcript

AI编码工具正在快速发展,但它们对自由职业工作的效率如何?OpenAI的新SWE Lancer基准测试评估了顶级AI模型在来自Upwork的1400个软件工程任务中的表现。结果呢?Claude 3.5 Sonnet超越了OpenAI的模型,完成了更多任务并获得了最高的模拟收益。此外,“氛围编码”正在将软件开发转变为更具互动性、技术性更低的流程。由以下机构提供:KPMG – 请访问 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠www.kpmg.us/ai⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠了解更多关于KPMG如何帮助您利用我们的AI解决方案创造价值的信息。Vanta - 简化合规性 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw来自Superintelligent的代理准备情况审核 - 请访问https://besuper.ai/申请贵公司的代理准备情况评分。AI每日简报帮助您了解AI领域最重要的新闻和讨论。在您收听的任何地方订阅AI每日简报的播客版本:https://pod.link/1680633614订阅时事通讯:https://aidailybrief.beehiiv.com/加入我们的Discord:https://bit.ly/aibreakdown </context> <raw_text>0 今天在AI每日简报中,OpenAI发布了一篇论文,有效地试图测试其领先模型在现实世界编码应用中的能力。在此之前的头条新闻中,前OpenAI首席技术官Meera Muradi正式宣布了她的新公司Thinking Machines。AI每日简报是一个关于AI领域最重要的新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。

欢迎回到AI每日简报头条新闻版,所有您需要的每日AI新闻,大约五分钟即可看完。在过去一年半左右的时间里,OpenAI有很多人才流失。在某些情况下,这感觉像是对公司发展方向的一种抗议。

事实上,它也明确地被这样分享过。在其他情况下,这是关于人们赚了很多钱,只是想暂时做些不同的事情。然后,在其他情况下,则是关于在公司限制之外构建一些新的东西。在这其中,最受关注的人之一就是前首席技术官Mira Marotti。几个月来,一直有关于她正在构建什么的传闻,主要是因为离职,

以及从OpenAI和Anthropic的招聘,以加入Maradi在一个尚未公开的公司。然而,现在,这家公司已经正式宣布。

昨天,Mira发推文说,

与此同时,他们发布了一个网站,thinkingmachines.ai。他们写道,

限制了公众对人工智能的讨论以及人们有效使用人工智能的能力。尽管这些系统具有潜力,但人们仍然难以根据自己的特定需求和价值观对其进行定制,以弥合差距,从而建立思维机器实验室,使人工智能系统得到更广泛的理解、定制和普遍能力。

现在,如果您坐在那里想,天哪,我完全不知道这些人到底在做什么。我的朋友,你不是一个人。Cosmic Chaos写道,祝你好运。但我仍然不确定你到底在做什么。是一个产品做所有三件事,还是分开做?是服务还是产品?你的路线图是什么?

William Wolfe写道,我支持思维机器,但我希望这样的项目在其创始理念中包含产品,包括工程和设计。否则,这感觉就像另一群世界一流的研究人员含糊地指点着未来。愿景在哪里?Swicks指出了他所谓的思维机器宣言中两个值得注意的遗漏之处。该网站根本没有使用“推理”或“代理”这两个词。那么这些人到底在做什么呢?我完全不知道。

这确实有点像那种文字,当我们了解他们正在构建什么时,回想起来,它会有意义。现在,我认为含糊地指点着未来是对它的一个相当准确的描述。

但归根结底,当涉及到融资潜力时,描述的清晰度可能根本无关紧要。目前,大约29名员工来自OpenAI、Meta、Character AI和Google DeepMind等公司。OpenAI前培训后研究副总裁Barrett Zoff担任首席技术官,OpenAI联合创始人John Shulman担任首席科学家。事实上,当谈到人们对公司的兴趣时,Andrej Karpathy的总结最为恰当,他写道:“……非常强大的团队,其中很大一部分人直接参与并构建了ChatGP团队的奇迹。”

换句话说,虽然这可能是一种我们不知道他们到底在做什么的情况,但他们可能仍然值得关注。接下来,在创业旅程的另一端,Humane pin在发布不到一年后正式寿终正寝。Humane周二宣布,他们的AI可穿戴设备创业公司已被惠普收购。客户只得到了10天的通知,服务器将被关闭,这使得昂贵的设备变得毫无用处。

在常见问题解答中,Humane指出,该设备仍然可以用于离线功能,例如检查电池电量。我想,至少还有这个功能。当然,Humane pin大胆地尝试创建可穿戴式AI助手,但由于许多原因而失败,所有这些原因都在事后被无数次地讨论过。

它最初的价格为699美元,使其难以获得,实际上只面向高端小工具爱好者。最初的评论普遍糟糕透顶,其中最糟糕的是Marques Brownlee称其为“我评论过的最糟糕的产品”,该评论已被观看850万次。

更新也无法挽救该设备。去年夏天,Humane的退货量一度超过销售量。Humane甚至告诉客户由于电池起火问题而停止使用充电盒。至于收购,惠普表示,他们正在收购该公司在AI操作系统中的团队,以帮助他们创建“贯穿所有惠普设备的智能生态系统”,从AI PC到智能打印机和联网会议室。

Gonzalo Nunez写道,那么从Humane的失败中能学到什么教训呢?投资者Justin Duke认为没有,他写道,

基本上,Duke认为Humane非常像2019年、2020年和2021年风投时代的一个产物,当时巨额支票在硅谷的Zerp结束时四处飞舞。

企业家Chris Back写道,

也许更相关的问题是,这对于AI可穿戴设备的整体状况意味着什么。确定这一点很复杂的一点是,它发布的时间与功能变化之间存在脱节。Humane Pin于2024年4月发布,几个月后谷歌发布了第一个AI搜索版本,该版本建议吃石头并将胶水用作比萨饼配料。然而,现在我们已经到了这样一个阶段:即使是为设备上使用而设计的小型领先AI模型,其编码能力也与大多数初级程序员一样好。尽管它们到底有多好,我们将在主要剧集中讨论。

尽管如此,目前尚不清楚人们是否真的想要一个独立设备中的AI助手。时事通讯作者Jack Appleby认为存在一种外形尺寸问题。他写道,AI的未来不是新的硬件,而是升级现有的软件。Control-L Dwayne写道,第一个AI硬件失败。我不认识一个购买Humane AI pin的人,但这太残酷了。这正是为什么AI硬件只有在100%本地化且没有云或API依赖的情况下才能成功的原因。

我不确定,伙计。我不确定这些教训像人们认为的那样清晰。从一开始,人们就喜欢批评Humane,其中很多都是自作自受。过于粗糙的营销视频感觉像是试图太努力地活在史蒂夫·乔布斯的阴影下,价格点,筹集的资金数量。即使是试图保持公正的人,也有很多危险信号。要弄清楚消费者是否以及想要什么样的AI可穿戴体验,这将是一个非同寻常的反复试验过程。

没有人拥有通往未来的完美水晶球。否则,他们会赚很多钱。我很高兴仍然有实验在进行。我想说,Humane是一个很好的提醒,资金极其雄厚的初创公司往往并不是发明这类新体验的公司。但与此同时,也有一些迹象表明AI可穿戴设备实际上正在获得一些吸引力。

最好的例子可能是Ray-Ban Meta AI眼镜,这是一种非常受欢迎的产品。所以谁知道呢?我们唯一可以肯定的是,Humane的故事部分现在已经结束,但我最终会非常惊讶,如果这意味着AI可穿戴设备类别实际上已经结束。

无论如何,各位,这就是今天的AI每日简报。一个新的开始,一个结束。接下来是主要剧集。今天的剧集由Vanta提供。信任不仅仅是赢得的,更是被要求的。无论您是正在应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。

企业使用Vanta通过自动化合规需求来建立信任,这些需求涵盖35多个框架,例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以通过将您与审计师和专家联系起来以进行审计并快速建立您的安全计划来帮助您启动或扩展您的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。

加入超过9000家全球公司,例如Atlassian、Quora和Factory,他们使用Vantage实时管理风险和改进安全性。

在有限的时间内,这个观众可以在vanta.com/nlw获得Vanta 1000美元的折扣。网址是v-a-n-t-a.com/nlw,可享受1000美元的折扣。如果2025年AI有一件事是明确的,那就是代理即将到来。按行业划分的垂直代理、水平代理平台。

每个功能的代理。如果您正在运营一家大型企业,那么明年您将尝试使用代理。鉴于这是多么新颖的事情,我们所有人都会回到试点模式。

这就是为什么Superintelligent在今年年初提供一项新产品。这是一项代理准备情况和机会审核。在短短几周内,我们会深入研究您的团队,了解哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好弄清楚代理如何改变您的业务。

如果您对代理准备情况和机会审核感兴趣,请直接与我联系,[email protected]。在主题行中输入“代理”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。嘿,听众们,您是否负责安全部署和使用值得信赖的AI?KPMG有一份首创的AI风险和控制指南,它为组织提供了一种结构化的方法,以开始识别AI风险并设计控制措施来减轻威胁。

使KPMG的AI风险和控制指南与众不同的是,它概述了实际的控制考虑因素,以帮助企业管理风险并加快价值创造。要了解更多信息,请访问www.kpmg.us/AI Guide。网址是www.kpmg.us/AI Guide。欢迎回到AI每日简报。如果您在过去几周内在AI Twitter/X上出现过,

您可能听说过这个词,“氛围编码”。它是OpenAI联合创始人Andrej Karpathy创造的,他说:“有一种新的编码方式,我称之为氛围编码,你完全屈服于氛围,拥抱指数,忘记代码甚至存在。这是可能的,因为LLM(例如带有Sonnet的Cursor Composer)变得太优秀了。此外,我刚刚与带有Super Whisper的Composer进行了交谈,所以我几乎没有碰过键盘。我要求做一些最愚蠢的事情,例如将侧边栏的填充减少一半,因为我太懒得找了。

我总是接受。我不再阅读差异了。当我收到错误消息时,我只是在没有注释的情况下复制粘贴它们。通常情况下,这可以解决问题。代码超出了我通常的理解范围。我必须认真阅读一段时间。有时LLM无法修复错误,所以我只是绕过它或要求进行随机更改,直到它消失。对于一次性的周末项目来说还不错,但仍然很有趣。我正在构建一个项目或一个网络应用程序,但这并不是真正的编码。我只是看到东西,说东西,运行东西,复制粘贴东西,它大部分都能工作。”

现在,正如我们将要讨论的那样,这已经产生了一个由氛围编码人员组成的整体运动,他们正在考虑新的工具类别。正如Karpathy指出的那样,它的前提是特定的一组新编码工具的可用性,这些工具在LLM和代理之间达到了正确的界限,就人类对其的控制程度以及它们实际上为自己做了多少而言。事实上,我认为这个领域之所以如此有趣的部分原因在于,它实际上处于实践中代理的最前沿。

一方面,它展示了部分术语有多么含糊不清,但与此同时,它也展示了这些工具在实践中可能有多强大。好的,所以今天节目的部分背景是氛围编码,但另一部分背景是我们昨天关于Grok 3.0的对话。

当Grok 3发布时,它展示了它在一堆基准测试中的表现。像许多人一样,当涉及到这些基准测试时,我发现自己基本上只是眼睛发直,因为在这一点上,它们已经饱和到难以从中获得信号的地步。正如Ethan Malek指出的那样,公共基准测试既乏味又饱和,使得许多AI测试都像基于口味的食品评论一样。

如果AI对工作至关重要,我们需要更多。他还指出,许多这些基准测试“看起来与实际工作毫无关系”。鉴于我们在Superintelligent花费所有时间来实际部署和实践工作中的AI和代理,这是一个特别尖锐的问题。

这也不是一件容易的事。今天早上Ethan的另一个提醒:AI如此难以弄清楚,因为它确实能够在某些领域完成博士水平的工作,同时在密切相关的领域搞砸基本任务。AI的能力正在增长,但增长不均衡。

好的,所有这些都是我们今天主要主题的背景,即OpenAI的一个名为SWE Lancer基准测试的新基准测试。引发整个对话的要点和问题是,前沿LLM能否从现实世界的自由职业软件工程中赚取100万美元?

本周早些时候,OpenAI发布了一篇论文,有效地试图测试其领先模型在现实世界编码应用中的能力。这个新的SWE Lancer基准测试包括“来自Upwork的1400多个自由职业软件工程任务”,在现实世界的支出中总价值为100万美元。SWE Lancer涵盖了从50美元的错误修复到

到32000美元的功能实现以及模型在技术实现方案之间进行选择的管理任务。为什么这很重要?好吧,这正是我们刚才讨论的内容。到目前为止,编码基准测试主要涉及竞争性编码问题。这些测试评估模型在棘手的编程难题上的表现,但不能直接转化为实际的现实世界用例。

除了它们不适用于现实世界之外,正如我们刚才提到的那样,它们也变得越来越饱和,因此很难知道新的模型是否代表了重大的改进,或者只是经过训练才能在已知的一组问题上表现良好。因此,这个基准测试更侧重于现实世界。它实际上让人想起一些人(例如微软的Mustafa Suleiman)提出的关于AI如何与现实世界互动的新型图灵测试的想法。

早在2023年中期,Mustafa Suleiman就提出了一个图灵测试,即AI能否赚取一百万美元。Mustafa写道:“我认为我们正处于一个真正困惑的时刻,或者更慈善地说,是关于正在发生什么的辩论。即使图灵测试失败了,它也没有让我们更清楚地了解我们在AI方面的现状或它实际上能够实现什么。它并没有告诉我们这些系统将对社会产生什么影响,也没有帮助我们理解这将如何发挥作用。”

然后,他对现代图灵测试的建议是,给AI指令:“在几个月内,只需10万美元的投资,就能在一个零售网络平台上赚取一百万美元。”这显然与OpenAI所做的略有不同,因为OpenAI专门向模型提供这1400个自由职业任务,而不是要求它发挥创造力并找出如何赚钱。但是,将基准测试纳入现实世界的原则,加上这个以一百万美元为基准的基准,显然是令人联想到的。

回到Sweelancer,为了这篇论文的目的,研究人员将三个LLM设定为任务。他们测试了OpenAI的GPT-4-0和O1以及Anthropic的QLOD 3.5 Sonnet。每个LLM都在驱动一个能够直接与代码库交互的基本编码代理。模型只有一次机会完成每个任务。

总的来说,研究人员发现,“结果表明,我们基准测试中的现实世界自由职业工作对于前沿语言模型来说仍然具有挑战性。”在摘要中更进一步,他们写道:“我们发现,前沿模型仍然无法解决大部分任务。”为了更清楚地说明任务本身,它们是从Upwork和Expensify直接抓取的,没有更改任何文字或说明,让模型体验现实世界的自由职业工作。

模型也被拒绝访问互联网,包括GitHub,确保它们仅基于其预训练数据集工作。但是,他们确实可以访问他们正在处理的代码库的快照。结果发现,没有一个模型能够作为自动化自由职业者赚到一百万美元。有趣的是,尽管这项研究来自OpenAI,但Claude 3.5的表现最好,解决了26%的个人贡献者问题,并从可能的41.5万美元中赚取了8.9万美元。

对于个人贡献者任务,O1位居第二,赚取了7.8万美元,而GPT-4-0的表现较差,赚取了2.9万美元。

然而,与结果一样有趣的是分析。报告解释说:“……代理擅长本地化,但无法找到根本原因,导致解决方案部分或有缺陷。代理使用整个存储库中的关键字搜索来快速找到相关的文件和函数,通常比人类快得多,从而非常快速地查明问题根源。然而,他们通常对问题如何跨越多个组件或文件以及未能解决根本原因的理解有限,导致解决方案不正确或不够全面。”

我们很少发现代理试图重现问题或由于找不到正确的文件或位置进行编辑而失败的情况。

对于管理任务,每个模型都表现出更好的性能。Quad 3.5 Sonnet再次成为表现最好的模型,从可能的58.5万美元中赚取了31.4万美元,完成了54%的任务。O1紧随其后,正确完成了52%的任务,总计30.2万美元。即使是垫底的GPT-4O,也完成了47%的任务,赚取了27.5万美元。

这表明所有模型在选择正确解决方案时都表现不错,但在完全取代技术主管之前还有很长的路要走。

总的来说,Claude 3.5 Sonnet赢得了胜利,总共赚取了40.3万美元,完成率为40%。O1赚取了38万美元,完成了38%的任务,GPT-4.0完成了30%的任务,赚取了30.4万美元。现在,需要明确的是,实际上并没有赚到任何钱。这些任务都是模拟的,但如果AI实际上负责Upwork或Expensify的这项工作,那么它们就会赚到这么多钱。

这其中有趣的部分,我们稍后会在评论中讨论,这绝对反映了人们长期以来达成的广泛共识,那就是Claude 3.5 Sonnet是迄今为止最好的编码模型。我们甚至讨论过,鉴于Claude的使用中有很大一部分来自这些编码用例,其作为编码模型的普遍性给Anthropic的经济报告带来了一些挑战。

现在,就评论和迄今为止的回应而言,很多评论都集中在我们已经确定的这种奇怪的对比上。Mihir Patel写道:“学术基准测试和现实世界用例之间的差异越来越大。为什么01和03是顶级竞争性程序员,但在Sweet Lancer和Cursor AI上的表现却不如Sonnet 3.5?一如既往,评估仍然很困难且混乱。但不知何故,Sonnet仍然是最好的代码模型。”

Benjamin de Cracker之前曾在XAI团队工作,但因说Grok 3并非第二个来临而被解雇,他指出,OpenAI大胆地表明Claude 3.5 Sonnet在其自身的基准测试中优于O1。Synthetica Lab回应道:“我没有进行基准测试,但在我的C++项目中,O1基本上是不可用的。”然后他们分享了他们使用O1、Claude 3.5和Grok 3的经验,再次指出这些基准测试并不一定对理解事物在现实世界中的运作方式有用。

另一条有趣的评论来自Super.com的创始人Henry Shi。他指出,在他之前进行的一个非常相似的实验中,虽然他们得出了相同的结论,“前沿模型仍然无法解决大部分任务”,但他还写道:“这篇论文中有趣且未被充分认识的是,O1能够解决Upwork基准测试中几乎50%的所有IC套件任务。这是有道理的,因为自由职业者很少能第一次就得到正确的解决方案。需要与客户进行大量的来回沟通和澄清。”

如果AI代理能够有效地迭代问题,它应该能够大幅提高性能,就像人类和工作场所的反馈一样。换句话说,为了这个基准测试,这些模型驱动的代理只有一次机会去做。这实际上并不是它在现实世界中运作的方式。因此,随着代理的用户体验和交互能力的提高,它们在现实世界环境中的表现很可能甚至会超过他们在这次测试中的表现。

另一些人指出,这很可能意味着OpenAI实际上正在构建一个最终的生产编码代理。开发人员Nick Dobos写道:“如果他们花时间建立一个基准测试,这意味着他们正在构建一个产品来针对它测试代理。”

我们在这个节目中并没有过多讨论这个问题,但我相当肯定,在一个越来越清楚地表明底层模型将商品化,并且在技术方面不会有太多护城河的世界里,我认为OpenAI拥有端到端客户体验的动力要强得多。我的猜测是,他们几乎在每个关键工作领域都在关注代理。现在,回到这个更广泛的氛围编码理念,我想强调一下这已经成为多么重要的主题。

就像我说的那样,我认为编码是代理最快速地投入生产并实际为企业部署的领域之一。我认为,这个氛围编码的整体理念实际上正在阐明代码创建的范围,从无代码到编码代理,再到传统的编码体验。A16Z最近制作了一份关于这些类型工具的新市场地图。像Riley Brown这样的人,他是TikTok上排名第一的AI创作者。

已经全力投入氛围编码,甚至正在开发一些工具来改进人们现在如何进行氛围编码。他还最近分享了一些有趣的观点,关于这可能会如何改变经济结构。具体来说,他指出,随着创作者能够通过软件而不是课程和广告等方式来货币化他们的受众,它创造了一种非常不同类型的经济机会,这种机会开始反映在新一代的VC创作者基金中。说到风投,很明显,人们对这个领域非常感兴趣。

A16Z的Andrew Chen发推文说,

重点是,当我们现在看待编码时,我们不仅在谈论对传统软件工程师编码方式的破坏,还在谈论完全不同的模式以及谁能够实际编写代码的扩展。

与此同时,即使所有这些人都对他们以前无法做到的事情感到兴奋,因为他们不是程序员,但这并不意味着这些工具可以随意插入企业代码流程中。因此,未来几年的许多工作将是弄清楚这些体验是如何不同的,以及哪种类型的编码代理适合不同的设置。尽管如此,这绝对是一个令人着迷的时代,我非常期待看到接下来会发生什么。但是,现在,这就是今天的AI每日简报。感谢

感谢您一直收听。下次再见,和平。