We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Faster/Slower: Where AI Is Moving Ahead of Expectations and Where its Lagging

Faster/Slower: Where AI Is Moving Ahead of Expectations and Where its Lagging

2025/2/27
logo of podcast The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript
People
N
NLW
知名播客主持人和分析师,专注于加密货币和宏观经济分析。
Topics
NLW: 我认为2024年大部分时间,AI模型的底层能力提升速度低于预期,直到年末才出现显著提升。预训练模型的扩展性在有效性方面有所减弱,收益递减。企业对AI的采购速度远超预期,但实际应用和利用率却远低于预期。许多企业在其程序员和开发人员中遇到了对AI工具的阻力,这与消费者领域的情况形成鲜明对比。AI的成本降低速度惊人,远超摩尔定律。政策变化的速度低于预期,实际政策进展缓慢。社会上一些重大变化(例如,人们将AI用于与已故亲人的互动)的速度低于预期。中国和开源AI的发展速度都超出了预期。代理模型的能力提升速度(尤其是在特定领域和功能方面)正在加快,而通用型代理模型的应用进展相对缓慢。代理模型的采用率即将大幅提升,成为企业界讨论的焦点。 Grok: Grok的深度搜索结果显示,企业采购速度快,但实际应用和集成速度慢。 Perplexity: Perplexity的结果也显示企业采购速度快,但实际利用率低,模型创新出现停滞,监管和伦理框架进展缓慢。 ChatGPT: ChatGPT的深度研究结果显示,企业投资和初步应用快速增长,但从试点到生产的流程缓慢,大规模应用的投资回报率未实现。模型能力和创新快速发展,但可靠的推理和真实性进展缓慢。监管讨论的紧迫性增加,但正式监管滞后;消费者采用率高,但创意行业接受度和公众信任度低。 Swix: Swix的列表显示深度研究、强化学习和代理模型、开发代理和低代码代理发展迅速,但电子邮件代理、调度代理、可穿戴设备和实时语音到语音的应用进展缓慢。语音代理技术发展迅速,成为许多企业家关注的重点领域;可穿戴设备领域的AI应用进展缓慢。

Deep Dive

Chapters
The podcast opens by introducing the concept of 'punctuated equilibrium' in technological advancements, comparing it to biological evolution. It then sets the stage for discussing AI developments that have exceeded or lagged behind expectations in 2024. The episode will cover personal observations, insights from AI research tools, and a curated list from a fellow podcast host.
  • Punctuated equilibrium in AI development
  • Faster and slower advancements in AI

Shownotes Transcript

今天在AI每日简报中,我们将玩一个有趣的游戏,叫做“更快/更慢”,看看AI中哪些方面的发展速度超过预期,哪些方面的发展速度低于预期。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。♪

大家好,欢迎回到AI每日简报。你们知道,我这周在旅行,所以情况有点不同。首先没有视频,其次主题略有不同,但我认为你们会喜欢这个,或者至少我希望你们会喜欢。现在绝对正在发生的事情之一,而且我认为每个密切关注的人都感觉到了,那就是我们正处于一个间断平衡的时刻。

对于那些不熟悉这个术语的人来说,它来自史蒂芬·杰伊·古尔德,是一个用来描述并真正改变我们对进化思考方式的术语。长期以来,我们认为进化是一个稳定、逐渐上升的过程,所有的一切都以同样的速度进行,并且一直以相同的角度向上倾斜。

事实上,当你深入研究化石记录时,它实际上看起来像是长时间的休眠期,随后是巨大的爆炸性变化时期,然后是休眠期,然后是巨大的变化时期,这种有趣的阶跃函数让我们到达了同一个位置,但发生的方式与我们想象的非常不同,而且混乱得多。

技术发展也感觉有点像这样。有时,是的,只是普遍的增长,但你也会经历一些时期,感觉像是低烧。然后在其他时候,感觉一切都在同时发生变化。

现在,当然,当你深入挖掘时,也许部分差异在于,在那些理论上平静的时期,事情一直在酝酿和发展。但无论是什么,我认为可以肯定地说,2024年的大部分时间都感觉像是其中一个低谷时期。很多时间都花在了努力赶上GPT-4上,然后一切就都到位了。我们就这样坐了一会儿。

直到年底,随着推理模型的推出、更强大的代理的出现以及许多其他趋势的出现,情况开始好转,我认为人们现在都有这种感觉,我们正处于另一个间断平衡的时刻。

因此,有了这些背景,让我们谈谈一些发展速度更快和更慢的事情。我们将要做的是列出三组清单。首先,我们将讨论我脱口而出的快速清单。其次,我们将看看Grok、OpenAI和Perplexity的深度研究工具的看法。然后,我们将查看从网络上整理的一份清单,我认为这份清单特别有趣,并且包含一些与我列出的清单不同的细节。

好了,从我的清单开始,我会在更快和更慢之间切换,因为正如你们将看到的,有时两者兼而有之。所以为了真正地设定水平,让我们谈谈能力。我在引言中稍微提到了这一点,但我认为在2024年的大部分时间里,它感觉能力,我显然指的是底层模型的特定能力和最先进的技术,比人们预期的要慢一些。

感觉2023年有一场闪电般的竞赛,但随后我们在2024年的大部分时间里都停滞在了GPT-4的水平,大致如此。这看起来真的很奇怪,事实上,有些人想知道这是否是OpenAI故意放慢速度,因为它在战略上比预期的领先更合理。显然,现在这种情况已经开始发生变化,并且感觉能力有了很大的提高。

部分原因在于转向了一种新的扩展方法,这种方法并非严格基于预训练中投入的计算量和数据量,而是基于诸如测试时间计算之类的新的策略。事实上,这让我想到了我的下一个更慢的方面。很明显,预训练扩展模型的有效性已经减慢了。这并不是说没有可以获得的收益,而是如果你看看Cloud 3.7 Sonnet和之前的模型之间的差异,或者Grok 3与之前的模型(当然是在Colossus超级集群上训练的)相比,

你可能预期的收益类型并没有那么高。这并不意味着扩展模型完全失效了,正如许多人指出的那样,但这确实表明收益递减。我们的下一个方面,即更快和更慢的方面,是围绕企业采用。我认为,在重组结构以尝试采用AI和实际进行AI购买方面,企业采用速度比任何人的预期都要快得多。

我在与全国性3000人的现场会议(专门讨论生成式AI)交谈时想到了这一点,距离ChatGPT成为整个行业的起点还不到两年。企业从未如此迅速地采用任何东西。人们非常清楚地认识到这项技术将具有多么颠覆性和变革性,这种认识贯穿于整个组织结构图,但肯定直接来自高层。这体现在这些公司如何参与其中。

现在,另一方面,实际的企业采用,特别是这些工具的利用,要慢得多。当然,这里的警告是,很多使用都属于秘密半机械人类别,人们对此保密。这是去年讨论的一个重要话题,人们担心A,他们的工作不会被认为是合法的,B,他们只想使用他们可以个人使用的工具集,这领先于可用的企业工具集,

但无论如何,绝对正确的是,在许多情况下,一家大公司已经为某种工具(通常是Microsoft Copilot)购买了10,000个许可证,但只使用了其中的20%或30%。就像我说的,我认为有很多解释,包括企业工具和消费级工具之间的质量差异。但我认为一个特别有趣的领域是,许多企业在其编码人员和开发人员中遇到的阻力绝对更慢。

之所以如此有趣的部分原因在于,这与更广泛的消费者AI领域形成了鲜明对比,在消费者AI领域,编码工具彻底改变了开发人员的工作方式。如果你看看初创公司或个人开发人员、修补者、黑客、企业家、建设者、个体经营者,这些人由于这套新的编码工具,他们的工作产出是以前同职位人员的五到十倍。但在企业内部,却存在真正的犹豫。

现在,其中一部分是文化因素以及不同生产力预期之间令人不安的摩擦。也有一些真正的技术问题。个人修补者和初创公司可能愿意做出的权衡并不一定总是适用于企业。许多极高价值的低代码或无代码工具并不一定针对与企业代码库的交互进行了优化。尽管如此,我不得不说,每当我与一家新的公司交谈,他们都在努力让他们的开发人员深入研究并尝试这些新工具时,我都会感到惊讶。

我认为这个领域必须有所改变,因为我不相信那些试图继续使用旧方法的编码人员有任何获胜的机会。现在,是否有市场机会专门为企业改造某些类型的AI编码工具?绝对有。也许这就是需要的。尽管如此,我认为这是一个非常有趣的领域,它既显示了更快,也显示了更慢。

再回到更快的一面,我认为AI的成本降低速度让每个人都感到头晕目眩。AI非常昂贵,而且存在关于商业模式以及大型科技公司如何收回其在资本支出上的支出的重大问题。但撇开这一点不谈,对于使用这些工具的最终用户或最终开发人员来说,智能的成本正在以惊人的速度下降。

我认为Sam Altman最近说,它每年下降了大约10倍,这显然比摩尔定律快得多。事实上,这种变化速度过快的一个负面外部性是,我认为这将使人们很难弄清楚代理应该如何定价。我猜想,代理公司将尝试将其价格与等效的人工劳动进行比较,但其他代理公司会说,去你的,我们应该根据销售成本(实际上可以忽略不计)来确定价格。

无论如何,由于成本降低的速度比任何人的预期都要快得多,因此将会有很多非常有趣的事情发生。

在较慢的一面,我认为最引人注目的领域之一是政策转变。2023年一开始就大喊大叫,看起来将进行一场重大的政策讨论,真正让每个人都开始谈论AI。我们得到了所有这些AI安全研究所以及不同的会议和大会等等。但在实际政策方面,几乎什么也没有。世界上唯一真正实施重大措施的地区是欧盟及其《人工智能法案》,以及

而且绝大部分内容都是在生成式AI出现之前制定的。事实上,欧盟现在担心他们对生成式AI过于强硬,并且因此而损失了机会。现在,考虑到美国在2024年举行了一场非常有争议的总统选举,这一点可能更容易理解,而这从来都不是促成重大政策变化的良方,但这在我看来仍然非常值得注意。

另一个我没想到会这么慢的方面是奇怪的社会变化。我以为我们几乎会立即看到诸如人们将AI应用于他们的亲人并试图与已故亲人互动之类的事情。当然,也有一些这种类型的实验,但我没想到会有那么多关于此类事情的主流讨论。

现在,在某种程度上,这可能只是我没有注意到正在发生的重大趋势,因为它们没有摆在我的面前。当然,例如,每当我听到关于孩子们与AI机器人互动的Character AI统计数据时,它们对我来说听起来都很疯狂。因此,我完全有可能在这里错过了一些东西。

也有可能总是错误地期望这种情况会像我想象的那样快,并且需要整个世代的转变才能使诸如人们将AI应用于他们的亲人等事情正常化。但我仍然(这只是我个人感觉)觉得一些重大而奇怪的变化并没有像我想象的那样快发生。再次转向更快的一面,我认为中国和开源的发展速度都比人们预期的要快得多。

去年有了Llama 3,开源技术已经非常接近最先进的技术。事实上,从一开始,我认为开源技术一直在以超出人们(至少是开源运动之外的人)预期的速度超越闭源模型。现在,这与中国显然没有我们想象的那么落后的事实有多大关系是一个悬而未决的问题。

显然,美国总统政府在先进AI芯片的获取方面对中国采取了非常强硬的态度。然而,过去几个月的重大令人震惊的事件是DeepSeek模型,该模型虽然不一定能击败OpenAI等公司的最先进技术,但已经足够接近,足够好,以至于它绝对改变了竞争格局。如果你是一位经常收听的听众,你会知道中国紧随美国之后有很多地缘政治影响。我认为这将成为未来一年事情发展的一个重要因素。

最后,让我们谈谈代理。再一次,我认为直到大约过去几个月,许多人认为代理能力的发展速度比人们预期的要慢。在某些领域,即使到今天,我认为这种情况仍然如此。例如,我认为代理计算机的使用落后于人们的预期。我认为从历史上看,人们对通用代理的关注度非常高,对吧?就像人们的个人代理助理一样,这种用例并没有真正实现,这令一些人感到惊讶。

现在,我从未想过这就是代理的发展方向,所以这并没有让我感到那么惊讶。但我也认为,随着代理能力(尤其是在特定垂直领域和特定功能中)开始上线,我们现在正正式进入更快类别。基本上,我们需要从将代理视为通用目的转向特定目的,现在事情真的开始加速了。

除此之外,代理的采用也即将爆炸式增长。如果你经常收听,你可能会发现,在企业董事会的每个其他类型的AI讨论中,代理的采用已经完全吸收了所有的氧气。我认为这只会加速。今天的节目由Vanta赞助播出。信任不仅仅是赢得的,更是被要求的。

无论你是正在进行第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展你的GRC计划,证明你对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化超过35个框架(如SOC 2和ISO 27001)的合规需求来建立信任。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。

Vanta可以通过将你与审计师和专家联系起来,帮助你启动或扩展你的安全计划,以便快速进行审计并建立你的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为你节省时间,以便你可以专注于发展你的公司。加入Atlassian、Quora和Factory等9000多家全球公司,使用Vanta实时管理风险并证明安全性。

如果2025年AI有一件事是明确的,那就是代理即将到来。按行业划分的垂直代理、水平代理平台、HLA。

按功能划分的代理。如果你正在经营一家大型企业,你明年将尝试使用代理。鉴于这是新事物,我们所有人都会回到试点模式。

这就是为什么Superintelligent在今年年初提供了一款新产品。这是一个代理准备情况和机会审计。在短短几周内,我们将与你的团队深入探讨哪些类型的代理适合你进行测试,你需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,帮助你做好准备,弄清楚代理如何改变你的业务。

如果你对代理准备情况和机会审计感兴趣,请直接联系我,[email protected]。在主题行中输入“agent”一词,以便我知道你在说什么。让我们让你成为AI市场最具活力部分的领导者。这就是我个人对更快和更慢的清单。但现在让我们看看几个不同的研究模型的看法。首先,我使用了Grok3的深度搜索。

在进展较快的领域,他们列出了模型性能和能力、企业采购以及新的应用程序和用例。在进展较慢的领域,他们列出了实际利用和集成、伦理和偏差问题、数据质量和管理、员工采用和变革管理以及法规和治理。基本上,Grok与我一致的地方在于企业采购(发展速度更快)与企业适应的其他各个方面(发展速度更慢)之间的区别。

事实上,Grok所有进展较慢的领域都与企业内部的实际利用或采用有关。Perplexity呢?Perplexity再次首先指出企业采购和工具获取是一个加速的领域。他们认为另一个有趣的领域是合成数据采用,我认为这是一个很好的说明。我们遇到的可用信息壁垒比我们想象的要快得多,这在很多情况下都迫使人们转向合成数据采用。

现在,在进展较慢的一面,他们再次指出组织成熟度和集成以及购买工具的利用不足。因此,就目前而言,在我、Grok和Perplexity之间,企业采购和企业利用之间存在很大的差距。Perplexity还发现存在模型创新停滞现象,这显然是我谈论过的事情,他们还指出,监管和伦理框架的进展出乎意料地缓慢。

那么,Chat GPT的大佬及其深度研究呢?深度研究采取的方式不是列出更快和更慢的清单,而是按类别进行,查看每个类别中哪些更快或更慢。因此,在企业和业务采用方面,他们再次指出,比预期发展更快的是投资的快速增长以及最初的投资回报率和用例交付,但试点到生产的流程进展缓慢,并且大规模的投资回报率尚未实现。

在研究和突破方面,他们发现能力方面令人惊讶的飞跃以及模型创新和多样性的爆炸式增长,但指出可靠的推理和真实性发展速度比预期慢。

在监管和政策方面,他们指出,监管讨论的突然紧迫性发展速度更快,但正式监管远远落后。在创意和消费者采用方面,也许是最明显的一个,他们指出,消费者采用正在以创纪录的速度发生,创意工具的采用和产出令人难以置信,但创意行业的接受度以及公众信任和内容质量问题的发展速度较慢。

在基础设施和计算方面,他们指出,AI基础设施投资激增以及专用硬件和工具的进步发展速度比预期快,但能源效率和成本难题以及供应限制和GPU短缺发展速度比预期慢。因此,我们从其他领域听到的许多相同主题。

最后,来自Swix(Latent Space播客的主持人,也是我周五在纽约主持的AI工程师峰会的策展人)的几个方面。他列出的比预期快的内容包括深度研究、强化学习和代理、开发代理和低代码代理(如Cursor和Bolt)、语音客户支持代理(如Sierra和Decagon)。但在较慢的一面,他指出了电子邮件代理、调度代理、可穿戴设备和实时语音到语音。

我想从Swix的清单中特别指出几个方面。首先,语音代理作为一个主题现在绝对是上升的。我认为现在判断它在实践中的效果如何还为时过早,但它绝对正在以惊人的速度发生,并且对于许多企业家(包括我们)来说,这是一个巨大而主要的建设领域。我们一直在关注的一个问题是,语音在何种情况下是更好的信息输入方法,因为语音代理能够做到这一点。

我认为Swix指出的另一个非常明显的问题必须提及的是可穿戴设备。在AI可穿戴设备领域显然是一片混乱,也许最好的例子是整个Humane pin团队最近开始从事AI连接打印机的工作。这就是目前更快和更慢的清单。显然,这场对话是为了激发对话。加入我们的评论,分享你的想法,在Twitter上联系我。但就目前而言,这就是今天的AI每日简报。一如既往地感谢您的收听。下次再见,和平。