今天在AI每日简报中,我们将探讨苹果公司在WWDC上不存在的AI战略,以及深入研究一篇来自库比蒂诺公司极具争议的论文,我认为在大多数情况下,您可以安全地忽略它。但这可能仍然值得讨论。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。
好了,朋友们,像往常一样快速宣布一下。首先,感谢今天的赞助商KPMG、Blitzy.com、Vanta和Super Intelligent。与往常一样,如果您正在寻找该节目的无广告版本,您可以在patreon.com/ai-dailybrief上以3美元的价格获得它。
另外,我本周正在旅行,这意味着节目的格式可能会有一些变化。显然,你昨天进行了一次采访。今天我们有一整集专门介绍主题。不过,还有很多重要的新闻,所以我们明天肯定会恢复到正常的格式。不过,现在让我们来谈谈WWDC和“思维的错觉”。欢迎回到AI每日简报。今天,当然,我们要谈论的是苹果。
首先,我们将讨论他们在WWDC上不存在的AI,然后我们将花更多时间讨论这篇每个人都在谈论的论文——《思维的错觉》。
您可能从我的标题中可以看出我对它的看法,但这只是稍后的事情。然而,首先,让我们谈谈昨天的WWDC。现在,您可能还记得,去年,苹果终于打破僵局,自ChatGPT推出以来首次分享了其AI战略。
当然,这是苹果智能,因为苹果必须为自己的产品打上品牌。简而言之,它的理念是为日常用户提供真正对他们有用的用例。AI不是庞大、技术性强且繁琐的,而是实用的。
它的原则很好。感觉就像苹果一样。问题在于执行。他们谈论的解决方案都没有真正准备好。Siri简直是一场灾难。基本上,苹果没有推出任何值得注意的苹果智能产品,它只会越来越落后。现在,在这次活动中,人们对AI的预期已经降到了谷底,因为基本上看来他们打算完全放弃这个话题。事实上,我们得到的正是这样。
没有像往年那样有重大宣布。AI Siri完全缺席了这次会议。有一些小的功能更新和一个新的图像模型,但并没有推出真正引人注目的东西。我想,我们确实得到了一个新的iOS型号编号系统。我们还得到了iOS的图形重新设计,它因令人困惑、奇怪且没有明确目的而被普遍批评。
会议现场的报道相当糟糕。Linus Ekenstam在推特上写道:“苹果显然已经错过了太多次了。我觉得今天又是其中一次。可悲的是,苹果试图做得太多。脂肪太多了。他们需要修剪它并回归基础。苹果迫切需要重塑自我,否则就会成为新的诺基亚。”
在最初的40分钟里,没有任何让我感到惊艳的东西。事实上,一件接一件的事情,让我产生的疑问远多于答案。Genmoji、背景和群组消息、视觉智能、苹果游戏。新的统一设计语言是怎么回事?Glass UI是一场UX噩梦。演示文稿中的一个接一个的视觉效果都比之前的更糟糕。苹果需要回归其根本,创建一个真正优秀的操作系统,为其他人创建应用程序和设备上运行的软件提供真正优秀的框架。
我完全感到失望。如果情况要好转,苹果需要对其整个存在进行一次飞跃。当然,我正在使用苹果设备打字,因为没有很多选择,但显然,这次WWDC可能会成为有史以来最无聊的一次。
现在,苹果观察家彭博社的马克·古尔曼则更为宽容。他说:“优秀的WWDC,连贯的故事,设备之间的深度集成和连续性。零虚假承诺,令人印象深刻的新UI以及Mac和iPad上重要的新的生产力功能。”但缺乏任何真正新的AI功能,尽管这是我的预期,这令人吃惊。
Azim Azhar说:“如果没有AI功能,它真的能做到优秀吗?”而且,正如我提到的,在例如对新UI的看法方面,古尔曼显然是少数派。即使是不太关注科技界的投资者也开始将苹果的AI战略视为其本来面目——一场危机。
Parnassus Investments的投资组合经理Andrew Choi评论道:“很难说苹果在AI方面缺乏地位不是一种生存风险。如果它能描绘出一个未来,在这个未来中,它正在整合和商品化AI,那将是引人注目的,否则,还有什么能让人们花更多的钱购买他们的下一部手机呢?”
尽管如此,苹果公司并没有进行令人惊叹的会议发布,而是由于一个截然不同的原因成为AI Twitter上的热门话题。他们刚刚发布了一篇名为《思维的错觉》的有争议的新论文,通过问题复杂性的视角来理解推理模型的优势和局限性。AI线作者Ruben Haseed写道:“苹果刚刚证明,像Claude、DeepSeek R1和O3 Mini这样的AI推理模型根本没有真正进行推理。它们只是非常擅长记忆模式。”
现在,鲁宾实际上继续对这篇论文进行了冗长的解释,但是从这些1340万次浏览量之后点赞数下降的方式来看,很少有人读过了第一篇文章。现在,对于许多关注AI发展的人来说,苹果会发布一篇关于这个主题的有权威性的论文,这或许有些讽刺。
Henry Arith McQuine写道:“成为苹果,世界上最富有的公司,拥有所有可以想象到的优势。全力投入AI,做出无数承诺。立即被任何进入比赛两年的人超越,没有任何成果。放弃,写一篇论文来说明这一切都是假的,而且根本不重要。”
Pliny the Liberator写道:“在我能做到比在第四次尝试中创建日历事件多一点之前,我不会阅读库比蒂诺那个巨大的陈旧甜甜圈中发表的任何一篇AI研究论文。如果我是苹果的首席执行官,我的团队中有人发表了一篇论文,其重点仅仅是记录当前模型的局限性,我会当场解雇所有参与者。”Future House SF的Andrew White指出,这甚至不是苹果公司关于AI局限性的第一篇论文。
他写道:“苹果的AI研究人员已经接受了一种反LLM愤世嫉俗的理念,发表了多篇论文试图论证推理LLM在某种程度上是有限的,并且无法泛化。苹果也有最糟糕的AI产品。不知道他们的所谓战略是什么。”另一方面,这篇论文绝对被那些认为这项技术不会比现在更好的人所接受。
Gary Marcus在AI方面基本上是现实生活中“其实”表情包的版本,他发表了他自己关于这篇论文的长篇大论,称其是对LLM的致命一击。他写道:“……任何认为LLM是通往能够从根本上改变社会以造福人类的那种AGI的直接途径的人都在自欺欺人。这并不意味着神经网络领域已经消亡,或者深度学习已经消亡。LLM只是深度学习的一种形式,也许其他形式,特别是那些与符号配合得更好的形式,最终会蓬勃发展。”
时间会证明一切,但这种特殊方法的局限性日益清晰。现在,自至少2022年3月以来,Marcus每隔几个月就会宣布AI发展已经遇到了瓶颈,当时它还被称为深度学习。所以这是一个重要的背景,您可以根据自己的意愿去做。
AI安全讨论专家Kat Woods评论了论述的现状,写道:“我讨厌人们只阅读论文的标题就认为他们理解了结果。《思维的错觉》这篇论文并没有说LLM不会推理。它说,目前大型推理模型确实会推理,只是准确性不是100%,而且在非常困难的问题上也不是这样。这就像说‘当人类置身于部落环境中时,人类的推理就会崩溃,因此人类不会推理’。摘要中甚至也这样写道。人们只是被巧妙的标题分散了注意力。”
因此,考虑到这一点,让我们谈谈这项研究实际上旨在证明什么。这项研究旨在通过要求它解决许多难题来测试推理模型的局限性,特别是汉诺塔难题。这个难题的特点是一些大小不同的圆盘堆叠在一个由三个杆组成的游戏板上。
目标是在不将较大的圆盘堆叠在较小的圆盘上的情况下转移所有圆盘。这个游戏对于任意数量的圆盘都有一个算法解决方案,但是随着您向难题中添加圆盘,步骤数量呈指数级增加。这篇论文测量了推理模型无法推理出步骤的点,并观察了模型是如何失败的。
核心发现是,启用思维功能的CLAWD 3.7可以轻松完成6个圆盘的游戏,在7个圆盘的游戏中稍微挣扎了一点,并且几乎没有能力推理出8个或更多圆盘的游戏的解决方案。在其他逻辑难题中也发现了类似的结果,在这些难题中,复杂性是可以调节的。论文的摘要指出:“我们发现推理模型在精确计算方面存在局限性。它们无法使用显式算法,并且在不同难题中的推理不一致。”
从本质上讲,最大的收获是,即使还有资源剩余,推理也不会超过一定的点,其概念是,仅仅让模型思考更长时间并不会产生更好的性能。互联网很快开始对方法论中的许多问题进行分解。
Lisan Al-Gaib(scaling 01)重复了论文中使用的确切提示,并发现模型正在遇到标记限制。结构化输出每个移动需要10个标记,并且此难题的移动次数是已知的。因此,模型在可预测的复杂性级别上遇到了其限制。他们并没有达到推理的极限。他们无法在保持输出限制的同时物理地打印出所有移动。现在,这种失败最有趣的部分是,模型实际上认识到它们无法在其当前限制下推理出解决方案。
它们并没有在圆盘数量过大时开始推理过程失败,而是认识到了这一事实,并提供了如何使用解决方案算法的说明。对于Claude来说,这种行为始于8个圆盘,因此性能急剧下降。Lisan评论道:“所有这一切都是无稽之谈。但是,他们甚至没有费心查看输出。模型在它们的思维链中,以纯文本和代码的形式,逐字逐句地背诵算法。基本上,从这项分析中得出的结论是……”
苹果的研究人员并没有测量推理模型的局限性。他们只是使用大量额外的步骤来测量AI实验室对模型施加的工程限制。当AI研究被用来表明推理已经达到了根本性的瓶颈而不是技术限制时,这是一个相当大的问题。
今天的节目由KPMG赞助播出。在当今竞争激烈的市场中,释放AI的潜力可以帮助您获得竞争优势,促进增长并创造新的价值。但关键在于,您不需要AI战略。您需要将AI嵌入到您的整体业务战略中才能真正提升其能力。
KPMG可以向您展示如何将AI和AI代理集成到您的业务战略中,使其真正有效,并建立在值得信赖的AI原则和平台之上。查看KPMG的真实案例,了解AI如何通过其客户在www.kpmg.us/AI取得成功。再次强调,网址是www.kpmg.us/AI。
本集由Blitze赞助播出。现在,我与许多渴望实施尖端AI的技术和业务领导者交谈,但他们并没有建立竞争优势,而是他们最好的工程师却陷入了现代化古老的代码库或更新框架的困境,只是为了维持运营。这些项目,例如将Java 17迁移到Java 21,通常意味着要组建一个团队一年或更长时间。当然,副驾驶员可以提供帮助,但我们都知道它们很快就会遇到上下文限制,尤其是在大型遗留系统上。Blitze改变了这种局面。
Blitzy的自主平台处理繁重的工作,处理数百万行代码并自动进行80%的必要更改,而不是工程师完成80%的工作。一家主要的金融公司使用Blitzy在短短三个半月内对2000万行Java代码库进行了现代化改造,减少了30,000个工程小时,并加快了其整个路线图。
请将“modernize”作为主题行发送电子邮件至[email protected],以获得优先加入。在竞争对手之前访问blitzy.com。今天的节目由Vanta赞助播出。在当今的商业环境中,企业不能仅仅声称拥有安全性,他们必须证明这一点。通过符合SOC 2、ISO 27001、HIPAA、GDPR等框架,企业可以展示强大的安全实践。
问题在于,处理安全和合规性既费时又复杂。这可能需要数月的工作,并占用宝贵的时间和资源。Vanta通过自动化35多个框架的合规性使其变得轻松快捷。它可以在几周而不是几个月内让您准备好接受审核,并为您节省高达85%的相关成本。事实上,最近的一份IDC白皮书发现,Vanta客户每年获得535,000美元的收益,该平台在短短三个月内就能收回成本。
证据就在数字中。超过10,000家全球公司信任Vanta。在有限的时间内,听众可以在vanta.com/nlw获得1,000美元的折扣。网址是v-a-n-t-a.com/nlw,可享受1,000美元的折扣。今天的节目由Superintelligent赞助播出,特别是代理就绪审核。每个人都在努力弄清楚哪些代理用例将对他们的业务产生最大的影响,而代理就绪审核是做到这一点最快最好的方法。
我们使用语音代理来采访您的领导和团队,并处理所有这些信息以提供代理就绪分数、围绕该分数的一组见解以及关于组织差距和您应该追求的高价值代理用例的一组高度可操作的建议。一旦确定了正确的用例,您就可以使用我们的市场来寻找合适的供应商和合作伙伴。所有这些加起来就是一个更快、更好的代理策略。
请访问bsuper.ai或发送电子邮件至[email protected]了解更多信息。
然而,仔细阅读这篇论文,我们会发现研究人员实际上阻止了模型进行编码,如果我们严格讨论的是扩展推理的局限性,这是可以的。但是,如果我们讨论的是一般的模型能力,特别是实践中的模型能力,那么对编码工具的访问(这是他们可以访问的东西)应该成为讨论的一部分。
Matthew Berman评论说,访问工具确实改变了数学,他写道:“……苹果的论文表明大型推理模型可能实际上并没有进行那么好的推理,其最大的弱点是它们不包括模型编写代码来解决问题的能力。最先进的模型在使用自然语言单独解决问题时,在超过八个圆盘的复杂性阈值上未能通过汉诺塔难题。但是,要求它编写代码来解决它,它可以完美地做到看似无限的复杂性。”
多伦多大学战略管理教授Kevin Bryan评论说,这篇论文实际上是在测量自我强加的推理限制,而不是推理本身。
他写道:“当然,我们可以编写一个LLM程序,以回应‘晚上好’来输出数百万个标记,并使用强化学习来创造性地迭代各种可能的解释,然后整理,然后进行头脑风暴等等。当模型不这样做时,并不是因为它们不能。这是因为我们使用训练后过程来阻止它们做如此疯狂的事情。这确实意味着在某些情况下它应该思考更长时间。我们从像Claude这样的代码和内部基准测试中知道,随着我们增加用于推理的标记数量,性能会严格增加。”
在Circa上,尝试了每个问题领域。但LLM公司可以做到这一点。你做不到,因为你访问的模型试图避免过度思考。现在,举一个例子,您可能还记得OpenAI使用基本上无限的计算能力测试O3,并发现了一个有效地通过ArcAGI测试的模型。但是,这些运行的成本高达数百万美元,因此最终发布的模型被限制在更合理的推理量。
所有这一切的TL;DR是,这篇论文衡量的是工程和成本限制,而不是检测规模壁垒。当模型知道它们无法输出足够的标记来呈现完整的解决方案时,它们会可预测地失败。这实际上是期望的行为。您不希望推理模型花费数百美元却无法找到完整的解决方案。
失败案例也很有启发性。模型并没有在毫无意义的推理上浪费时间,这些推理无法得出结论,而是描述了一种算法解决方案。这与某些评论所暗示的那样,仅仅放弃更复杂的问题,有着根本的不同。TLDR,这篇论文最终并没有说明推理模型的根本局限性。它只是遇到了当前部署的AI系统中的资源限制。然而,这甚至不是我最不满意的部分。
我最不满意的部分是,谁在乎呢?如果你现在告诉我O3实际上并没有进行推理,我会看看我在过去一个月里用这个工具完成的大量工作,耸耸肩,然后我会继续提示O3以以前不可能的方式开展业务。
这现在导致了一个更大的分歧,一些人从研究和对AGI的长期追求的角度来看待AI,而另一些人则只关注当前的能力。总的来说,一方面是研究界,另一方面是商业界。
当然,这些事情确实相互关联。研究界需要它的位置,因为它将推动最终表现为更好性能的进步。但是,正如我之前所说,AGI对于商业人士来说是最不相关的AI术语一样,这有点类似的想法。
我不在乎我的代理是否是自动化的工作流程,只要它能显著提高我的人力效率并提升我的宝贵AI输出。我不在乎我的推理模型是否真的在进行推理,只要它能做到我的非推理模型做不到的事情。
多伦多大学管理学教授Josh Gans发表了一篇长篇文章,基本上阐述了我所说的内容。在解释推理模型实际上在企业和学术界做了大量令人难以置信的工作之后,他评论道:“它们的工作方式与人们解释的那样完全一致,并没有以其周围产生的过度关注所产生的某种奇迹般的方式工作。如果你与它们一起工作,你就会知道这一切。”
现在,就为什么这些问题实际上很重要,以及我们在这个领域的商业方面和应用方面应该关心其中的一些问题而言,机器学习科学家Francois Chalet评论道:“……除了推理和模式匹配之间可能肤浅的语义区别之外,在这些系统的实际能力和行为之间存在着根本的差距。”
你不能通过迭代自动化机器来创造发明机器。我们关心推理的原因是因为它所实现的功能。这不是关于定义,而是关于能力。您可以使用模式匹配来模拟特定众所周知的技能,但您不能使用模式匹配来在新领域产生自主的技能获取。
所有这些都很好。我只是不在乎,伙计。对于现在正在收听的大多数人来说,这也不重要。至少现在不重要。也许在未来我们会得到什么方面很重要。正如Gann总结的那样:“我不在乎我的工具是否在思考或推理。我在乎它能提供多少帮助,这是完全不同的事情。”当然,关于认知存在一个智力问题,但这与AI现在可以产生的变革性影响相去甚远。Nathan Snell写道:“我很惊讶苹果关于LRM的研究论文受到了如此多的关注。
LRM的推理能力有限。令人震惊吗?如果你使用它,很明显。但这并不意味着它不那么有价值。他还说,当他补充说:“此外,还有其他人对苹果发布的与AI相关的研究天生持怀疑态度吗?他们在那里并没有很好的记录。”我认为,对于这些研究人员来说,这是一件令人悲伤的事情之一。这一切对我来说感觉像是时机非常糟糕。
WWDC正准备宣布关于AI的“零小队”,而苹果的研究人员却发表了这篇论文,这篇论文似乎自私地表示AI的重要性不如我们所有人想象的那么大。从本质上讲,这篇论文是对AI的罗夏墨迹测试。
由于某种原因,经济中有一整个AI论述领域似乎致力于将保罗·克鲁格曼1998年关于互联网的重要性不亚于传真的引言变成一个完整的职业定位。作者Ewan Morrison发帖说:“AI已经遇到了瓶颈。AI公司会试图掩盖这一点。数百亿美元花在了错误的道路上。”
Kevin Roos在写道:“有一种AI怀疑论是根植于假装仍然是2021年,没有人能够真正自己使用这些东西。”时,真正总结了这一点。
它的生存时间比我预期的要长。看,归根结底,我认为研究人员就所有这些事情进行伟大的辩论非常重要。我认为从我作为一名在业务中使用这些工具的商业人士的角度来看,这很棒,这将不断改进模型。非常重要的学术讨论和论述确实在商业价值的上游,是的,但它仍然是同一股潮流的一部分。
Signal滑稽地发推文说:
苹果证明,这种看起来、行走、飞行和嘎嘎叫像鸭子的羽毛状水生机器人可能实际上并不是鸭子。毕竟,我们离拥有机器人鸭子更近了。我们到底在做什么?至少对于正在收听的人来说,答案是构建真正很酷的东西,做真正很酷的事情,对AI的能力感到非常兴奋,并且最终并不太关心你称之为鸭子还是羽毛状水生机器人。
这就是今天的AI每日简报。下次再见,和平。