We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
A
Accelerate Harder
C
Cocktail Peanut
E
Ethan Malek教授
播客主持人
播客主持人,专注于英语学习和金融话题讨论,组织了英语学习营,并深入探讨了比特币和美元的关系。
马克·扎克伯格
Topics
马克·扎克伯格:Meta的Llama模型下载量已突破10亿,展现了AI模型的巨大潜力。 Ethan Malek教授:对Llama模型的下载量表示质疑,认为无需每次使用都下载模型。同时,也指出虽然AI智能体在处理长任务方面取得了快速进步,但其可靠性仍有待提高,50%的成功率对于企业应用来说是不够的。 Cocktail Peanut:认为自己贡献了大约100万次Llama模型下载。 Accelerate Harder:认为Llama模型的10亿下载量可能是由于Hugging Face的下载数据统计方式造成的。 播客主持人:对AI智能体能力指数级增长的研究结果进行了详细解读,并分析了其对企业战略的影响。强调了指数级增长的概念,以及企业需要尽快制定AI智能体战略的重要性。同时,也讨论了摩尔定律在AI领域的应用,以及现有研究中的一些局限性,例如50%成功率的阈值设定,以及对未来发展趋势的不确定性。 Meryl Lutzky:Graphite的编码工具专注于根据开发者评论提供代码建议、生成代码摘要和修复代码错误,其收入在2024年增长了20倍。 Amy Deng:相信AI能力的指数级进步,认为到2027年底,一天的工作将实现自动化。 Lawrence Chan:选择合适的成功率阈值对于准确评估AI智能体能力至关重要。 Joshua Ganz:对AI能力提升趋势的长期持续性表示质疑。 Robin Hansen:如果AI能力提升趋势持续,那么8年内AI就能完成为期一年的项目。

Deep Dive

Chapters
Meta's Llama models surpass 1 billion downloads, sparking debate and anticipation for the upcoming LlamaCon and Llama 4. The sheer number of downloads raises questions about the methodology, but it highlights significant interest in Llama models.
  • Meta's Llama models reach 1 billion downloads.
  • Debate about download count methodology.
  • Anticipation for LlamaCon and Llama 4 release.

Shownotes Transcript

欢迎回到 AI 每日简报头条新闻版,所有您需要的每日 AI 新闻,大约五分钟即可看完。

马克·扎克伯格表示,Meta 的 Llama 模型下载量已突破 10 亿次。这比去年 12 月公司声称的 6.5 亿次下载量有了大幅增长。现在,为了进行比较,TikTok 的下载量已超过 50 亿次,Roblox 的移动用户下载量也超过 10 亿次。但同样,这两款都是流行的消费者应用程序,而不是开源 AI 模型。尽管如此,对一些人来说,有些事情不太对劲。Ethan Malek 教授写道,

有点困惑 Llama 如何被下载了 10 亿次。你知道,如果你想使用该模型,你可以一直使用它,而无需每次都下载它。Cocktail Peanut 转发了这条消息并说,我认为我贡献了大约 100 万次下载。与此同时,Accelerate Harder 写道,这肯定是因为计算了 Hugging Face 的下载次数,而这些数字是出了名的疯狂,对吧?还有什么其他的解释可以解释 Llama 的 10 亿次下载量?

每八个人就有一份副本?地球上到底有多少 GPU?我认为,从我的角度来看,我们可以在这里给扎克伯格一个胜利,然后继续前进。Llama 系列模型显然引起了很多兴趣,而且是应得的兴趣。如果我们展望未来,似乎有一些令人兴奋的事情即将到来。Meta 目前正在为 4 月底举行的首届 LlamaCon 做准备。有广泛的传闻称,此次活动将发布 Llama 4 模型系列,该系列将是原生多模态的,并针对驱动智能体进行了优化。

谷歌正在升级 Gemini,使其功能更完善,并配备了 Canvas 界面和 Notebook LM 音频概述版本。新的界面选项类似于同名的 ChatGPT Canvas 工具和 Anthropic Artifacts。顺便说一句,我们开始看到一些功能命名的一致性。谷歌、OpenAI 和 Perplexity 都有一个深度研究功能,Grok 称之为深度搜索。我认为这对用户来说比每个人都试图假装他们从根本上有所不同要好得多。

所以也许这些都应该被称为 Canvas。我的意思是,多人称其为 Canvas 可能不是缺乏创造力,而实际上是一个用户友好的举动。无论如何,这提供了一个新的交互式空间,用于与 Gemini 协作,允许用户在写作和编码项目的修订中来回与 AI 交互。事实上,无论他们称之为什幺,这种界面风格正成为 AI 聊天机器人的默认功能。

如果您之前使用过前后对比功能,它会极大地减少复制粘贴、切换窗口和手动更新的工作量。该界面还允许原生执行代码以进行快速测试。现在,移植 Notebook LM 的音频概述功能是一个有趣的谷歌选择,而且意义重大。去年,随着用户尝试使用该工具生成任何主题的播客,该工具迅速走红。

它在 Notebook LM 的研究重点中感觉很自然,但它也有更广泛的可能性,而且现在它嵌入到 Gemini 中,这些其他类型的用例可能会更多地出现。这也意味着您现在可以使用 Gemini 生成深度研究报告,并立即启动播客来消化它。谷歌无疑正在大力努力将所有这些体验原生地整合到 Gemini 中。

最后,来自炙手可热的编码辅助领域的最新消息。AI 初创公司 Graphite 宣布获得 5200 万美元的 B 轮融资,并加倍押注其编码工具。Graphite 成立于 2020 年,也就是很久以前,最初是一家移动开发工具公司。此后不久,他们转向代码审查,并在此基础上构建了 AI 工具,主要基于他们对内部痛点的解决方案。

联合创始人 Meryl Lutzky 说,

那这与 Cursor 等更通用的助手有何不同呢?Graphite 基本上更专注一些。它可以根据开发人员的评论提出代码建议,编译代码摘要,并生成代码故障修复。他们的新工具 Diamond 将专注于自动化错误查找,并将作为独立产品提供。Graphite 的平台还允许客户定义他们自己的基于代码的特定模式并过滤敏感信息。无论他们在做什么,似乎都很有效。正如 Lutzky 所说,2024 年收入增长了 20 倍。

因此,在这个特定领域没有放缓的迹象。我们甚至还没有谈到即将到来的大型 100 万美元无代码黑客马拉松。但是,这将不得不等到下一集。现在,这就是今天的头条新闻。让我们转向关于智能体改进速度的一些令人难以置信的有趣研究,进入主要内容。

今天的节目由 Super Intelligent 提供赞助,更具体地说,是 Super 的智能体准备情况审核。如果您已经收听了一段时间,您可能已经听我说过这个了。但基本上,智能体准备情况审核的想法是,这是一个我们创建的系统,可以帮助您对组织中智能体可以发挥作用的机会进行基准测试和规划,

特别是帮助您解决问题,以一种完全定制的方式创造新的机会。当您进行此类审核时,您将进行基于语音的智能体访谈,我们将与您的一些领导和员工合作,以规划组织内部的情况,并确定您在智能体旅程中的位置。

这将产生一个智能体准备情况评分,其中包含一组深入的解释、优势、劣势、主要发现,当然还有一组非常具体的建议,然后我们可以帮助您找到合适的合作伙伴来实际完成这些建议。因此,如果您正在寻找一种启动您的智能体战略的方法,请发送电子邮件至 [email protected],让我们让您融入智能时代。

今天的节目由 Vanta 提供赞助。信任不仅仅是赢得的,更是被要求的。

无论您是正在应对第一次审核的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的 GRC 计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是 Vanta 的用武之地。企业使用 Vanta 通过自动化超过 35 个框架(如 SOC 2 和 ISO 27001)的合规需求来建立信任。集中的安全工作流程可以将问卷调查完成速度提高 5 倍,并主动管理供应商风险。

Vanta 可以帮助您启动或扩展您的安全计划,通过将您与审计员和专家联系起来,快速进行审计并建立您的安全计划。此外,由于平台中使用了自动化和 AI,Vanta 可以为您节省时间,让您可以专注于公司建设。加入 Atlassian、Quora 和 Factory 等 9000 多家全球公司,使用 Vanta 实时管理风险并证明安全性。

在有限的时间内,本观众可以获得 Vanta 的 1000 美元折扣,网址为 vanta.com/NLW。即 V-A-N-T-A dot com/NLW,可享受 1000 美元的折扣。今天我们进行了一次非常有趣的对话。

我们正在讨论这项刚刚发布的研究,这项研究引起了很多讨论,基本上是在为 AI 智能体争论摩尔定律,这基本上是一种思考智能体能力改进速度的方式。这项研究的幕后人员不仅有一些有趣的结果,而且他们还

而且对整个问题也有一个非常有趣的框架。当然,这之所以重要,是因为现在我们正处于这种智能转型之中,我相信这最终将导致今天很大一部分知识工作任务由智能体完成。每个人都在努力弄清楚的是,特别是那些试图购买和试用他们的第一个智能体的公司,

它们到底有多强大?它们能做哪些具体的事情?在此基础上,如何将它们集成到当今现有的工作流程中。但隐藏在所有这些背后的是这样一种认识,即它们正在以如此快的速度改进,以至于我们今天所做的一切围绕它们设计新系统的工作,可能在几个月后它们变得更强大时就会失效。

因此,企业和公司不仅试图适应当前的智能体能力,而且还在试图规划一个一方面不可知,另一方面又完全不可避免的未来。这就是这个设置和背景。但在我们讨论 AI 智能体的摩尔定律之前,让我们先谈谈摩尔定律。我请 Rock 以一种有趣、易于理解的方式来解释它,它的回应令人难以置信地、无法理解地令人尴尬。

他们试图将其与电子游戏进行比较,在游戏中,你的角色的力量会不断提升,而你无需“努力获得额外的硬币”。他们将其比作一家神奇的糖果店,每 18 个月,店主就会将你用相同价格可以获得的糖果数量翻倍。但实际上,这指的是英特尔联合创始人戈登·摩尔在 60 年代就注意到,计算机芯片上的晶体管数量以相当一致的速度大致翻倍。基本上,每隔几年,能力就会翻倍,而价格却保持不变。

因此,现在每当技术发生持续或看似持续的变化时,我们当然必须将其与摩尔定律进行比较。

无论如何,让我们谈谈这篇具体的论文。它来自位于伯克利的非营利组织 Meter,该组织发表了一篇名为《衡量 AI 完成长期任务的能力》的论文。他们创建了一套 170 个现实世界任务,包括编码、网络安全、一般推理和机器学习,并通过确定专家程序员完成每个任务需要多长时间来建立人类基线。

他们称之为“任务完成时间范围”,其逻辑实质上是,人类专家完成任务所需的时间是衡量任务难度的一个很好的指标。一些模型被赋予了编码智能体的控制权,并在任务列表中进行了测试。其目的是测试每个模型在成功率低于 50% 时会处于什么位置。

研究人员测试了从 OpenAI 的 GPT-2 到 Anthropic 的 Claude 3.7 sonnet 的模型,非常现代。他们的结果显示出非常一致的进步速度。这就是比较的来源。他们写道,我们发现了一种 AI 智能体的摩尔定律。AI 可以完成的任务长度大约每七个月翻一番。

为了说明这一点,2019 年发布的 GPT-2 可以完成一项需要专家程序员大约两秒钟才能完成的任务,但对于任何更复杂的任务都会失败。到 2023 年发布的 GPT-4 时,AI 可以完成人类程序员需要花费四分钟才能完成的任务。展望未来,研究人员发现,Claude 3.7 Sonnet 可以以 50% 的准确率完成大约需要一小时的任务。

现在,如果您正在观看此视频,您会注意到这条指数曲线是用对数刻度绘制的直线:1 秒、4 秒、15 秒、1 分钟。但是,如果您查看线性刻度,您可以看到增长曲线是多么的戏剧性和指数性。研究人员实际上还测试了 OpenAI 的 O3 Mini 和 DeepSeq R1,但发现它们的表现不如 Sonnet 3.7,因此决定将其从数据中删除。

为了验证这一趋势,研究人员使用来自标准编码基准 SWEBench 的问题进行了类似的测试。他们发现,从 GPT-4 发布之日起,能力每 70 天翻一番,结果一致。

与这些任务相关的确定性水平相当大,但研究人员评论道,即使绝对测量值相差 10 倍,该趋势也预测,在不到 10 年的时间里,我们将看到能够独立完成目前需要人类花费数天或数周才能完成的大部分软件任务的 AI 智能体。仅将最近的模型分开,研究人员还发现改进的速度有所提高。对于去年以来创建的模型,能力翻倍的频率为每三个月一次。

在总结其结论的一篇文章中,研究人员写道:“我们对每年一到四倍的视野长度粗略趋势相当有信心。这很快。诸如此类的措施有助于使自主性程度的概念更加具体,并让我们量化 AI 能力何时可能超过特定有用或危险的阈值。”正如我所说,这引发了大量的讨论。它已被观看 400 万次,大约有 1000 人转发或评论了它。对许多人来说,这是他们开始感受到 AGI 的具体数据。

研究员 Amy Deng 写道:“在参与这项论文的研究之前,我不相信 AI 的指数级进步,但我相信统计数据、我们的方法论以及对数刻度图上的直线。现在,我生活在并呼吸着这样一个事实:到 2027 年底,一天的工作将实现自动化,AGI 即将到来。”

Ethan Malek 教授对方法论提出了异议,但他承认结果非常重要,他写道:“一篇新论文表明,AI 智能体在处理长期任务方面正在迅速改进,但它们还不够可靠。话虽如此,这感觉很重要。超过 80% 的成功运行成本不到人类 4 级软件工程师执行相同任务成本的 10%。Ethan 的具体抱怨是,成功的阈值只有 50% 的完成率,这对于企业用例来说是行不通的。

研究人员实际上在论文中解决了这个问题,选择 50% 的成功率是因为它对于过滤数据中的微小变化最有用。

共同作者 Lawrence Chan 评论道:“如果您选择非常低或非常高的阈值,则分别删除或添加单个成功或单个失败的任务会极大地改变您的估计。”在进一步的测试中,研究人员发现,将可靠性阈值从 50% 提高到 80% 会使平均时间范围减少 5 倍,但趋势中翻倍的速度仍然非常相似。关键是,这篇论文最终并不是真的试图精确指出智能体目前有多好,

而是试图衡量改进的趋势。这正是立即引起我注意的地方。我认为智能体可以工作的时间的具体发现并没有那么有用。我认为这里有用的东西,特别是对于试图弄清楚他们的智能体战略将是什么样的公司的实用角度来说,是我们在看到这种能力的翻倍,最长每七个月一次。现在看来更像是每三个月一次。

这意味着,当您下次报告季度业绩时,您尚未使用的智能体的能力将翻一番。两个季度后,您尚未雇用的智能体将强大四倍,依此类推,当然,如果这能持续下去的话。

现在,关于传统编码基准基本上充斥着无用信息,并且正在衡量当前最先进技术的进一步改进的问题如何呢?研究人员实际上评论说,他们“认为这些结果有助于解决许多基准测试中超人性能与模型似乎并不能可靠地帮助自动化人们日常工作部分的常见经验观察之间的明显矛盾”。

目前最好的模型,如 Claude 3.7 Sonnet,能够完成一些即使是专家人类也可能需要数小时才能完成的任务,但只能可靠地完成最多几分钟的任务。多伦多大学管理学教授 Joshua Ganz 曾撰写过关于 AI 经济学的文章,他质疑假设这种趋势会持续下去是否正确。他评论道:“'进行推断很诱人,但我们仍然对 AI 将如何实际使用这些技术以使其具有意义知之甚少。'”研究人员本身也质疑这种趋势可能持续多久。

摩尔定律在 20 世纪 70 年代后的 40 多年里,一直保持着领先计算机芯片上晶体管数量翻倍的趋势。然而,随着芯片设计师面临与原子结构有关的物理限制,这一趋势在 2010 年代初放缓。这与芯片制造业将重点放在功率效率而不是原始功率上相结合。

研究人员将 AI 的限制,即计算的限制,进行了比较,写道:“基本上,关键是这里的研究人员只是费尽心思地展示他们发现的数据,而不是过度推断它可能意味着什么或它可能持续多久。他们和我们一样,不确定这将如何发展。再说一次,他们还指出,多智能体系统的进步……

智能体训练的改进以及更高效的训练算法都可以帮助增强这一趋势。

当我们获得像这样的新研究时,正常的诱惑,正如您在《自然》杂志要求评论这篇文章的所有人中看到的那样,是试图找出其中的漏洞并警告为什么它可能过于乐观,但此时也值得放大并从另一方面进行思考。如果趋势持续下去会怎样?科学家 Robin Hansen 写道:“大约八年后,他们就能完成为期一年的项目了吗?”当然,隐含的意思是,即使我们只得到其中的一小部分,这也是一个改变文明的趋势。

接下来,研究人员将探索 AI 智能体与人类工作者配对与单独的人类工作者相比的情况,这应该也很有趣。但是,就目前而言,如果您没有从中学到任何东西,如果您不相信长期趋势,如果您质疑智能体的有效性,那么目前看来,您所怀疑的能力正在以惊人的速度提高,这一点还是很清楚的。

从历史上看,人类在指数思维方面非常糟糕。我们很难真正让自己处于一个可以放大并理解这种变化速度的位置。我们生活、成长和学习都在线性时间线上。我们不是为指数设计的。然而,看来我们这里有指数。并非没有道理,如果您还没有开始制定您的 AI 智能体战略,那么朋友们,最好的时间是昨天,但第二好的时间是今天。

现在,这就是今天的 AI 每日简报。一如既往地感谢您的收听或观看。直到下次,再见。