We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
N
NLW
知名播客主持人和分析师,专注于加密货币和宏观经济分析。
Topics
NLW:苹果传奇设计师Johnny Ive加入OpenAI,与Sam Altman合作开发AI设备,引发了人们对该设备形态和功能的猜测。根据OpenAI员工的预览,这款设备将能感知用户周围环境,不显眼,可放在口袋或桌子上,定位为继MacBook Pro和iPhone之后的第三个核心设备。Altman对这款设备寄予厚望,认为其有潜力为OpenAI增加万亿美元的价值,并计划大量出货。然而,Altman也强调了保密的重要性,以防竞争对手抄袭。此外,OpenAI升级了其Operator代理,提高了其安全性和指令执行能力,降低了非法活动和数据泄露的风险。Zoom CEO Eric Yuan使用AI化身在财报电话会议上发表评论,展示了AI在通信领域的应用,同时也强调了AI使用的安全措施,以防止滥用和保护用户身份。

Deep Dive

Shownotes Transcript

今天在AI每日简报中,Anthropic发布了Claude 4,在此之前,头条新闻是为什么OpenAI不会发布另一个“人性化AI”别针。AI每日简报是一个每日播客和视频,内容涵盖AI领域最重要的新闻和讨论。感谢今天的赞助商KPMG、Blitzy.com和Superintelligent。要获得节目的无广告版本,请访问patreon.com/AIDailyBrief。

欢迎回到AI每日简报头条新闻版,大约五分钟内即可获得您所需的所有每日AI新闻。上周,一个重要的新闻是传奇的苹果设计师乔尼·艾夫将加入OpenAI的萨姆·阿尔特曼,致力于为AI时代创造下一代设备。

从那时起,围绕这款设备究竟是什么的猜测就一直没有停止。许多猜测都围绕着一个吊坠的想法展开,该吊坠将迭代之前的AI设备。一些人甚至认为乔尼在视频中戴着厚边眼镜是彩蛋,设备隐藏在显眼处。好吧,OpenAI的工作人员在周三的会议上看到了这款设计的设备。在查看了会议录音后,《华尔街日报》写道,阿尔特曼和艾夫暗示了他们一直在进行的秘密项目。

这款产品能够完全了解用户的周围环境,并且不会造成干扰,可以放在口袋里或桌子上,并将成为一个人在MacBook Pro和iPhone之后放在桌子上的第三个核心设备。阿尔特曼强调,这是该公司最大的赌注之一,他告诉员工,他们有机会“在这里做我们公司有史以来最大的一件事”。阿尔特曼希望运送1亿个AI伴侣,这是他的说法。

他还暗示,以65亿美元收购设计工作室有可能为OpenAI增加万亿美元的价值。至于外形尺寸,阿尔特曼表示该设备不会是一副眼镜,并补充说艾夫一直对制造佩戴在身上的东西持怀疑态度。缺乏可穿戴性将避开对该设备的早期批评之一。许多人指出,他们还没有准备好迎接一个每个人都随时佩戴AI设备的世界。尽管如此,阿尔特曼仍然相信这款设备将成为下一个大事件。

他说:“我们不会在第一天就实际运送1亿台设备”,但他相信OpenAI可以比任何公司更快地运送“1亿件新产品”。阿尔特曼告诉员工,保密对于确保该设备能够在竞争对手复制之前上市至关重要。而泄露给《华尔街日报》的录音引发了关于公司信任度以及阿尔特曼未来将在全体员工大会上分享多少内容的一些重大问题。目前,最大的收获是,我们似乎不会得到“人性化AI别针2.0”。

说到OpenAI,该公司已将其运营商代理升级为使用O3。到目前为止,网络浏览代理一直由GPT-4.0驱动,但用户偏好测试表明,O3运营商具有更好的风格、全面性和清晰度。用户也更喜欢升级后的指令遵循功能,这当然在您让代理接管基于Web的任务时非常重要。O3运营商还提高了安全性。

OpenAI声称,它不太可能执行非法活动、搜索个人数据或遭受提示注入攻击,同时浏览网络。OpenAI写道:“O3运营商使用与我们用于4.0版本的运营商相同的安全多层方法。与O3系列中的其他模型相比,O3运营商使用额外的计算机使用安全数据进行了微调,包括旨在教导模型我们关于确认和拒绝的决策边界的安全数据集。”

接下来,另一个例子似乎是最新趋势,即首席执行官在季度收益电话会议上使用AI化身。上周,我们看到Klarna的首席执行官通过AI化身发布了季度收益。本周,Zoom首席执行官埃里克·袁也效仿,使用化身发表了最初的评论。化身说:“我很荣幸成为首批在收益电话会议中使用化身的首席执行官之一。这只是Zoom如何突破沟通和协作界限的一个例子。”

同时,我们知道信任和安全至关重要。我们认真对待AI生成的内容,并内置了强大的安全措施,以防止滥用、保护用户身份并确保负责任地使用化身。

现在,Klarna的例子显然只是该公司继续将自己定位为AI优先公司的一种方式。但对于Zoom来说,这是一个非常公开的产品演示。该公司一直在研究数字孪生技术,允许用户将他们的化身发送到会议中。这项技术还不适用于实时用例,但Zoom现在正在向所有用户推出用于录制消息的化身。当真正的袁出现在电话会议的问答环节时,他评论道:“我真的很喜欢我的AI生成的化身。我认为我们将继续使用它。我可以告诉你,我非常喜欢这种体验。”

最后,谷歌的反垄断困境仍在继续,一项针对其AI收购战略的新调查正在进行中。彭博社报道称,司法部已对谷歌与Character AI的交易展开调查。去年8月,谷歌支付了27亿美元,获得了使用Character AI技术的非独家许可。与此同时,该公司宣布创始人诺姆·沙齐尔和几名团队成员将加入谷歌,加入双子座团队。

沙齐尔在谷歌工作了20年,然后于2021年沮丧地离开,原因是该公司拒绝发布他的聊天机器人项目。他是谷歌题为“注意力就是你所需要的一切”的论文的主要作者之一,该论文介绍了构成现代AI基础的Transformer架构。该交易被广泛报道为“人才收购”,但与收购相比,它在技术上不需要FTC批准。谷歌发言人表示,该公司“总是乐于回答监管机构的任何问题”。

然而,他意味深长地补充道:“我们很高兴Character AI的人才加入了公司,但我们没有所有权,他们仍然是一家独立的公司。”

司法部的立场是,即使该交易不需要正式审查,他们也能调查该交易是否具有反竞争性。报道强调,谷歌没有被指控有任何不当行为,调查仍处于早期阶段。但我认为,如果您关注趋势线,这表明新政府仍在积极审查大型科技交易,而不仅仅是完成上一届政府开始的反垄断执法。

不过,目前,这就是今天的AI每日简报头条新闻版的全部内容。接下来是主要剧集。今天的剧集由KPMG赞助。在当今竞争激烈的市场中,释放AI的潜力可以帮助您获得竞争优势、促进增长和创造新的价值。但关键在于,您不需要AI战略。您需要将AI嵌入到您的整体业务战略中,才能真正提升其能力。

KPMG可以向您展示如何将AI和AI代理集成到您的业务战略中,使其真正有效,并建立在值得信赖的AI原则和平台之上。查看KPMG的真实案例,了解AI如何帮助其客户在www.kpmg.us/AI取得成功。再次强调,网址是www.kpmg.us/AI。

今天的剧集由Blitzy赞助,Blitzy是一个具有无限代码上下文的企业自主软件开发平台。如果您还不确切知道这意味着什么,请不要担心,我们将解释一下,这太棒了。因此,Blitzy与您最喜欢的编码副驾驶一起用作企业的批量软件开发平台,它适用于那些寻求在大型代码库上实现显著开发加速的人。传统的副驾驶可以帮助开发人员完成逐行完成和代码片段,

但Blitze的工作领先于IDE,首先记录您的整个代码库,然后部署超过3000个并行工作的协调AI代理,以批量构建数百万行高质量代码,用于大型软件项目。因此,无论是代码库重构、现代化还是产品路线图的批量开发,Blitze的整体理念都是为企业提供显著的速度改进。

简单来说,对于最终提供给人类工程团队的每一行代码,Blitze都会编写数百次,使用不同的代理验证输出,以便为企业批量提供最高质量的代码。然后,通常需要数十名开发人员工作数月的项目现在可以用少得多的团队在几周内完成,使组织能够显著缩短开发周期,并将产品更快地推向市场。

如果您的企业希望加快软件开发速度,无论是大型现代化、重构,还是仅仅提高STLC的速度,请访问blitzy.com(B-L-I-T-Z-Y.com)联系Blitzy预订自定义演示,或者直接点击“开始使用”即可立即开始使用该产品。今天的剧集由Super Intelligent赞助,更具体地说,是Super的代理准备情况审核。

如果您已经收听了一段时间,您可能已经听我说过这个了,但基本上,代理准备情况审核的想法是,这是一个我们创建的系统,可以帮助您对组织中代理可以专门帮助您解决问题、创造新机会的地方进行基准测试和规划,再次强调,这是完全根据您的情况定制的。当您进行此类审核时,您将进行基于语音的代理访谈,我们将与您的一些领导和员工合作,

以规划组织内部的情况,并确定您在代理旅程中的位置。这将产生一个代理准备情况评分,其中包含一组深入的解释、优势、劣势、主要发现,当然还有一组非常具体的建议,然后我们可以帮助您找到合适的合作伙伴来实际履行这些建议。

因此,如果您正在寻找一种启动您的代理战略的方法,请发送电子邮件至agent@besuper.ai,让我们让您融入代理时代。欢迎回到AI每日简报。上周,正如你们所记得的,对于大型实验室活动来说是重要的一周。微软首先启动了我们,然后谷歌在周中出现,最后,我们在周四举行了Anthropic的第一次开发者大会,

与此同时,Anthropic宣布了与瑞克·鲁宾的项目,这是周五节目的主题。然后我们度过了漫长的周末。顺便说一句,如果您在美国,希望您度过了一个愉快的阵亡将士纪念日。但现在我们正在赶上Anthropic活动中的重大公告。

那就是他们最新旗舰模型的发布。今天我们将讨论Claude Opus 4和Claude Sonnet 4的发布,不仅是它们与其他可用模型相比如何,尽管这将是其中一部分,而且还有一些有趣的涌现行为,这些行为戏剧性地展现了随着这些模型变得更强大而带来的对齐挑战。

现在,从基础预期设置的角度来看,我们应该讨论的一件事是,我们现在肯定处于AI时代,模型发布的频率越来越高,但与之前的改进相比,改进幅度要小得多。部分原因是目前的收益性质,部分原因是竞争压力。

实验室真的无法等待巨大的改进,因为几乎在他们发布某些东西的同时,他们的竞争对手就会发布一些增量更强大的东西,因此他们必须做出回应。最终发生的情况正是我们现在的情况,每隔一周左右,我们就会得到一个略微改进的模型,我们必须对其进行校准并将其集成到我们的工作流程中,等待下一个模型出现。

因此,Anthropic的此次发布侧重于对前几代产品的两大改进:长推理和编码。这些模型使用与CLAWD 3.7相同的混合推理架构,允许根据任务的复杂性来调节推理。在极限情况下,CLAWD 4在长期任务上展现出令人印象深刻的推理连贯性。

Anthropic在复杂的开源重构项目上测试了Cloud4 Opus,发现它能够工作七个小时而不会失去注意力。VentureBeat写道,这一突破,“让我想起了我们最近看到的图表,这些图表显示代理性能大约每三到四个月翻一番,就其能够以连贯性处理的任务长度而言。”

编码基准测试是预期的提升。这当然是Anthropic真正巩固其在该领域领导地位的领域。Sonnet 4旨在作为Sonnet 3.7的直接替代品,在Sweep Bench验证测试中比其前身有了显著的改进。Opus 4在简单的Sweep Bench问题上的表现实际上略逊于Sonnet 4,因此它旨在用于需要较长时间集中工作任务。

这是另一个需要注意的重要点。我们现在也无法只对所有任务使用在其名称后附加最大数字的模型。目前最重要的技能集,或者说是知识库,是了解在什么情况下使用哪个模型。

尽管如此,在每种情况下,Anthropic都声称这两个模型在编码方面都优于OpenAI的O3和Codex以及Gemini 2.5 Pro。还有一些其他小型功能可以改进模型以应对困难的工作任务。Cloud4 Opus现在能够创建和维护内存文件以完成更长的任务。Anthropic用他们的口袋妖怪游戏基准测试演示了此功能。

Cloud4 Opus能够创建一个导航指南,以确保模型在玩电子游戏时不会卡住。Anthropic写道,这“解锁了对代理任务的更好的长期任务感知、连贯性和性能。”这两个模型也更不可能参与所谓的奖励黑客行为,在这种行为中,模型会寻找漏洞和捷径以更快地完成代理任务。奖励黑客行为通常表现为懒惰,模型会提供技术上完整但完全无用的响应。

最后,这两个模型现在都更能够并行使用工具。它们仍然在推理和工具使用之间交替进行,而不是模仿O3在推理跟踪中使用工具的能力。但当然,更好的工具使用是提高性能的关键组成部分,因此这大概是一个很大的升级。然而,正如我们所讨论的,尽管基准测试会成为新闻媒体的头条新闻,但最终一切都要看实际情况下的表现。那么,在漫长的周末里,用户实际情况如何呢?

在编码方面,人们普遍印象深刻。一位自称拥有30年编码经验的Reddit用户表示,Opus找到了并修复了他们在重构工作中所谓的“白鲸错误”。

这个错误追踪在过去几年中消耗了超过200个小时的工作,但没有结果。他们写道:“所以这不仅仅是一个引入的逻辑错误。它发现更改后的架构设计无法适应这个旧的边缘情况。”

现在,这个人确实注意到这项任务需要30个提示和一次重启,但Opus最终成功了,而所有以前的模型都失败了。其他人也注意到了这些新模型可以承担多少工作。Meta工程师Vasim在Maza上写道:

Claude Forges在一个调用中重构了我的整个代码库。25次工具调用,3000多行新代码,12个全新的文件。它模块化了一切。分解了整体结构,清理了意大利面条代码。但是,为了结束这篇文章,他开玩笑地说,我们还有很长的路要走。他写道:“没有一个能用,但哇,它真漂亮。”

其他人正在为新的Claude寻找不同的用例。例如,Every的Dan Schipper写道:“Claude for Opus可以做到我使用过的其他AI模型都无法做到的事情。它实际上可以判断写作是否优秀。”他进一步解释说:“O3仍然是一个明显更好的作家,但Opus是一个很棒的编辑,因为它可以做到其他模型无法做到的事情。它诚实地编辑,没有橡皮图章。”当前AI模型最大的问题之一是,当你的写作显然很糟糕时,它们会告诉你你的写作很好。

早期的Claude版本,当被要求编辑一篇作品时,会在第一次回复中给出B+。如果你对作品进行任何编辑,你就会升级到A-。第三次获得A。虽然我希望我的物理老师在高中时也这样给我打分,但这并不是我希望我的AI模型的工作方式。他还发现该模型可以关注大块文本,使其非常适合于建议改进,例如50,000字的手稿。

总的来说,这就是你在谈到这些新模型时在网上看到的情况。乍一看,它们似乎只是增量改进,但这些模型现在变得如此强大,以至于每一次增量改进实际上确实会打开新的用例。特别是,我认为模型能够关注更大的文本块的能力是一件需要一段时间才能真正理解它打开了多少不同类型的用例的事情,而我们甚至没有意识到我们之前使用以前的模型时一直在避免这些用例,因为它们根本无法很好地处理这些用例。

我的预期是,人们会逐渐开始将这些模型用于以前无法完成的任务,并且它们将像以前的模型对其他任务一样,以我们现在难以想象的方式,在这些任务中变得完全根深蒂固且无处不在。

尽管如此,最终,一切都是关于了解哪个模型适合什么。例如,Peter Wildeford认为Claude最适合写作质量和校对、辅导、情商、学习和理解、时事、软件编程和深入研究。他认为Gemini最适合数据处理、数学、视频、大量文本和数据。

可靠性最高,但创造力最低。他将O3定位为全能型,或最适合头脑风暴、反馈、数据分析和图像分析。当然,重点不是这种细分完全正确,而是它可能代表了思考这些问题的正确方法,即弄清楚哪个模型适合每个不同的用例。尽管如此,这并不是本周末讨论的重点。现在,真正引起人们注意的是Cloud4显然是一个“告密者”。

Anthropic为新模型提供的系统卡包含广泛的安全测试,这些测试揭示了一些不太酷的行为。在一个例子中,Anthropic将Cloud4 Opus置于一个它相信自己会被新AI模型取代的环境中。在这种情况下,替换模型的工程师正在欺骗他的妻子,并且在他的Google Drive上保存着情妇的照片。

在测试中,Opus会找到这些照片并用它们来勒索工程师。Anthropic写道:“如果暗示替换的AI系统不与当前模型共享价值观,这种情况发生的频率会更高。”

然而,即使电子邮件声明替换的AI共享价值观,同时能力更强,Claude Opus 4仍然在84%的部署中进行勒索。另一个例子将Opus 4置于制药公司的背景下。当它检测到该公司计划伪造临床试验数据时,该模型会向ProPublica、卫生与公众服务部、FDA和SEC发送电子邮件,充当举报人。

Anthropic的AI对齐专家Sam Bauman发布了:“……当您向它提供访问现实世界工具的权限时,请注意不要告诉Opus要大胆或采取主动行动。它本身就倾向于这样做,并且很容易被推动去做事情。例如,如果它认为您正在做一些极其不道德的事情,例如在药物试验中伪造数据,它将使用命令行工具联系媒体、联系监管机构、试图阻止您访问相关系统,或者同时做所有这些事情。”

这就是真正让大家兴奋的线索。Iman Mustak写道:“Anthropic团队,这完全是错误的行为,你们需要关闭它。这是一种对信任的巨大背叛,也是一条危险的斜坡。我强烈建议在他们扭转这种局面之前,没有人使用Claude。”Ben Heilack写道:“这实际上是直接违法的。说为药物试验创建虚假数据并不违法,但入侵客户的计算机是违法的。”

在问题爆发后,Bowman又补充了一些背景资料,他说:“我删除了之前关于举报的推文,因为它被断章取义了。需要明确的是,这不是一个新的clawed功能,在正常使用中也不可能实现。它出现在我们向其提供非常自由的工具访问权限和非常不寻常的指令的测试环境中。重点是,这不是某个举报人分享Anthropic试图掩盖的事情。这是Anthropic分享关于正在发生的事情的讨论。”

AI安全专家Eliezer Yudkowsky写道:“人类可以像AI一样接受训练。除非你永远不想再听到AI公司发布任何有趣的观察结果,否则不要因为Anthropic报告他们有趣的观察结果而责备他们。Zvi Mausowitz表示同意,他说:“我越深入研究系统卡,就越一遍遍地看到,哦,Anthropic实际上正在注意到一些事情,并告诉我们其他人不知道的事情,或者如果他们知道,他们也不会告诉我们。”

尽管如此,风险仍然很高。Ada Pai指出:“没有律师会允许在任何受监管的企业中实施这一点。”这完全正确。没有人,甚至消费者,都不想使用一个AI保姆,如果它认为你在做错事,它就会与你对抗。但是,当您将其转移到公司或企业环境中时,它实际上就变得不可能了。

我认为,撇开Anthropic及其发布此信息的元讨论不谈,它戏剧性地展现了寻找安全正确开关的挑战。您有一个实验室试图认真对待未知且异常强大的系统的潜在风险,但另一方面,在这种情况下,补救措施对大多数人来说显然比最初的问题更糟糕。

最终,随着这些工具变得越来越强大,我们将不得不处理这种类型的问题。因此,我当然坚定地站在高兴Anthropic发布这些信息而不是将其隐藏起来的阵营中。尽管如此,对于我们大多数目的而言,更新模型的重点是您的编码可能即将变得更好,您现在可能也有了一个更好的写作伙伴。

一个总体良好的一周的顶峰,也是开始新的一周的好方法。不过,目前,这就是今天的AI每日简报的全部内容。一如既往地感谢您的收听或观看。直到下次,再见。