在今天的AI每日简报中,我们将探讨AI发展的速度有多快?AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。大家好,朋友们。欢迎回到AI每日简报的另一期深度阅读节目。今天,我们再次关注Ethan Malek教授的“一个有用的小东西”博客,阅读几周前发表的一篇文章,名为《洪水的预言:如何看待AI实验室的声明》。
这篇文章的背景和内容是我们在这个节目中过去一个月左右一直在讨论的内容,那就是感觉大势所趋(继续用水作比喻),AGI越来越近,能力越来越强,一些重大的事情即将到来。像往常一样,我们今天要做的是用Eleven Labs版本的我的声音来朗读这篇文章,然后我会回来分享我的一些想法来结束它。
洪水的预言 最近,AI行业发生了一些变化。研究人员开始紧急讨论超级智能AI系统的到来,一场智能的洪流,并非在遥远的未来,而是迫在眉睫。他们经常提到AGI,即人工通用智能,虽然定义不精确,但指的是能够在大多数智力任务上超越人类专家的机器。他们认为,这种按需获取智能的能力将深刻地改变社会,而且很快就会改变。
有很多理由不相信内部人士,因为他们有明显的动机做出大胆的预测。他们正在筹集资金,提高股票估值,也许还在说服自己具有历史意义。他们是技术人员,而不是预言家,而技术预测的记录充满了后来被证明提前了几十年的自信宣言。即使撇开这些人为偏见不谈,这项技术本身也让我们有理由怀疑。
如今的大型语言模型,尽管功能强大,但仍然是根本上不一致的工具,在某些任务上表现出色,而在看似更简单的任务上却步履蹒跚。这种参差不齐的边界是当前AI系统的核心特征,并非易于消除。此外,即使假设研究人员关于一两年内就能达到AGI的预测是正确的,他们也可能高估了人类适应和调整这项技术的速度。
组织的变革需要很长时间。工作、生活和教育体系的变革则更慢。技术需要找到对世界有意义的特定用途,而这本身就是一个缓慢的过程。
我们现在可能已经拥有了AGI,但大多数人不会注意到。事实上,一些观察家认为这已经发生了,他们认为最新的AI模型,如CLAW 3.5,实际上就是AGI-1。然而,仅仅将这些预测斥为炒作可能并没有帮助。无论他们的动机是什么,AI实验室内的研究人员和工程师似乎真的相信他们正在见证前所未有之事的出现。
他们自身的确定性并不重要,除非越来越公开的基准测试和演示开始暗示他们为什么相信我们正在接近AI能力的根本性转变。水位,就像它那样,似乎比预期的上升得更快。引发最多猜测的事件是OpenAI在12月底发布的一个新模型O3。OpenAI之外没有人真正使用过这个系统,但它是O1的继任者,O1也已经非常令人印象深刻了。
O3模型是新一代推理器之一,这是一种在回答问题之前会额外思考的AI模型,这大大提高了它们解决难题的能力。
OpenAI为O3提供了一些惊人的基准测试结果,表明它比O1有了很大的进步,也比我们之前认为的AI技术水平有了很大的进步。三个基准测试尤其值得关注。第一个被称为研究生水平的防谷歌问答测试(GPQA),它旨在通过一系列即使谷歌也无法帮助你解答的多项选择题来测试高级知识。
拥有互联网访问权限的博士在这个测试中,在他们专业领域之外的答题正确率为34%,在他们专业领域内的答题正确率为81%。在测试中,O3达到了87%,首次超越了人类专家。第二个是前沿数学,这是一组由数学家创建的、极其难以解决的私人数学问题。事实上,在O3之前,没有任何AI的得分高于2%,而O3的得分达到了25%。
最后的基准测试是Arc-AGI,这是一个相当著名的流体智力测试,它被设计成对人类来说相对容易,但对AI来说很难。同样,O3也超过了所有之前的AI以及测试中的基准人类水平,得分达到87.5%。所有这些测试都有一些重要的注意事项,但它们表明,我们之前认为AI性能无法逾越的障碍实际上可能会很快被打破。
随着AI变得越来越聪明,它们也成为了更有效的智能体,这是一个定义模糊的术语,指的是通常赋予AI自主行动以实现一组目标的能力。我已经在我的之前的文章中展示了一些早期的智能体系统,但我认为过去几周也向我们展示了,至少对于狭窄但经济上重要的领域来说,实用的智能体现在是可行的了。
一个很好的例子是谷歌的Gemini与深度研究,所有订阅Gemini的用户都可以访问它,它实际上是一个专门的研究智能体。我给它一个主题,例如从高增长风险投资创始人的角度研究比较创业公司融资的方式。而这个智能体系统制定了一个计划,阅读了173个网站,并在几分钟后为我编制了一份包含答案的报告。
结果是一篇包含118个参考文献的17页论文。但它好吗?我已经在沃顿商学院教授创业入门课程十多年了,在这个领域发表过论文,自己也创办过公司,甚至还写过一本关于创业的书,我认为这篇论文相当不错。我没有发现任何明显的错误,但如果你愿意,你可以自己阅读。最大的问题不是准确性,而是智能体仅限于公共的非付费墙网站,而不是学术或高级出版物。
它也比较肤浅,在面对相互矛盾的证据时并没有提出强有力的论点。所以不如最好的人类好,但比我看到的很多报告要好。
尽管如此,这是一个真正具有颠覆性的、具有实际价值的智能体示例。研究和报告撰写是许多工作的重大任务。深度研究在三分钟内完成的工作,一个人类需要花费数小时才能完成,尽管他们可能会添加更细致的分析。任何撰写研究报告的人都应该尝试深度研究,看看它如何作为起点发挥作用,即使一份好的最终报告仍然需要人工润色。
我有机会与深度研究项目的负责人进行了交谈,我了解到它只是一个小型团队的试点项目。因此,我怀疑其他有很强动机创建狭窄但有效的智能体的团队和公司也能做到这一点。狭窄的智能体现在是一种真正的产品,而不是未来的可能性。
已经有许多编码智能体,你可以使用实验性的开源智能体进行科学和金融研究。狭窄的智能体专门用于特定任务,这意味着它们有一些局限性。这就引出了一个问题:我们是否很快就会看到通用智能体,你可以向AI询问任何事情,它都会使用计算机和互联网来完成它。
Simon-Willison认为不会,尽管Sam Altman提出了相反的观点。随着时间的推移,我们将了解更多信息,但如果通用智能体系统能够可靠且安全地工作,那确实会改变很多事情,因为它允许智能AI在世界上采取行动。智能体和非常聪明的模型是变革性AI所需的核心要素,但还有许多其他部分似乎也在迅速取得进展。这包括在AI可以记住的内容、上下文窗口以及允许它们看到和说话的多模态能力方面的进步。
回顾一下过去,可以帮助我们了解进步。例如,自从ChatGPT出现之前,我就一直在测试“使用Wi-Fi的飞机上的水獭”这个提示来生成图像和视频模型。在2023年10月,这个提示会给你带来这个可怕的怪物。不到18个月后,多个图像创建工具都能够准确地生成这个提示。结果是我不得不找出更具挑战性的东西。这是一个基准饱和的例子,旧的基准被AI超越了。
我决定花几分钟时间看看我可以用谷歌的VO2视频模型在制作水獭旅程的电影方面取得多大的进展。你下面看到的视频花费不到15分钟的有效工作时间,尽管我不得不等待一段时间才能创建视频。看看阴影和光线的质量。我特别欣赏水獭最后打开电脑的样子。为了进一步提高难度,我决定将水獭的传奇故事改编成一部80年代风格的科幻动画,以太空中的水獭和一个符合时代主题的主题曲为特色,
再次感谢Suno,几乎没有人工参与。
鉴于所有这些,我们应该对AI实验室关于即将出现智能洪流的说法有多认真?即使我们只考虑我们已经看到的东西,O3基准测试打破了之前的障碍,狭窄的智能体进行复杂的研究,以及多模态系统创建越来越复杂的内容。我们正在关注可能改变许多基于知识的任务的能力。然而,实验室坚持认为这仅仅是一个开始,更强大的系统和通用智能体即将出现。
我最担心的事情不是实验室关于时间线的预测是否正确。而是我们没有充分准备应对即使是当前水平的AI也能做到的事情,更不用说他们可能是正确的可能性了。虽然AI研究人员专注于对齐,确保AI系统以道德和负责任的方式行事,但很少有人试图设想和阐明一个充斥着人工智能的世界可能是什么样子。这不仅仅关乎技术本身。它关乎我们如何选择塑造和部署它。
这些不是AI开发者单独能够或应该回答的问题。这些问题需要组织领导者的关注,他们需要驾驭这一转变,需要那些工作生活可能发生转变的员工的关注,以及那些未来可能取决于这些决定的利益相关者的关注。即将到来的智能洪流本身并非好坏,但我们如何为此做好准备,如何适应它,最重要的是,我们如何选择使用它,将决定它是否成为进步或破坏的力量。
开始进行这些对话的时间不是在水位开始上升之后。现在就是时候了。今天的节目由Vanta赞助播出。信任不仅仅是赢得的,更是被要求的。无论您是正在进行首次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。
企业使用Vanta通过自动化合规需求来建立信任,涵盖35多个框架,如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以帮助您启动或扩展您的安全计划,通过将您与审计员和专家联系起来,快速进行审计并建立您的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。
加入超过9000家全球公司,例如Atlassian、Quora和Factory,他们使用Vantage实时管理风险和改进安全。
如果2025年关于AI有一件事是明确的,那就是智能体即将到来。垂直智能体购买行业水平智能体平台,ADC。
每个功能的智能体。如果您正在运营一家大型企业,那么明年您将尝试使用智能体。鉴于这是多么新颖的事情,我们所有人都会回到试点模式。
这就是为什么Superintelligent在今年年初提供了一项新产品。这是一个智能体准备和机会审计。在短短几周内,我们将与您的团队一起深入了解哪些类型的智能体适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好弄清楚智能体如何改变您的业务。
如果您对智能体准备和机会审计感兴趣,请直接联系我,[email protected]。请在主题行中加上“智能体”一词,以便我知道您在谈论什么。让我们成为AI市场最具活力部分的领导者。大家好,AI每日简报的听众们。快速休息一下,分享一些来自KPMG最新AI季度脉搏调查的非常有趣的发现。
您是否知道,67%的商业领袖预计AI将在未来两年内从根本上改变他们的业务?然而,并非一帆风顺。他们面临的最大挑战包括数据质量、风险管理和员工采用等问题。KPMG处于帮助组织克服这些障碍的最前沿。他们不仅仅是在谈论AI,他们正在通过切实可行的解决方案和实际应用来引领潮流。
例如,超过一半的受访组织正在探索使用AI智能体来处理行政事务和呼叫中心运营等任务。因此,如果您希望在AI领域保持领先地位,请关注KPMG。他们不仅仅是对话的一部分,他们正在帮助塑造它。了解更多关于KPMG如何推动AI创新,请访问kpmg.com/US。好了,让我们回到真正的非AI NLW。
像往常一样,我认为Ethan很好地总结了很多正在发生的事情以及很多外界的观点。
实验室似乎越来越舒适,甚至渴望谈论AGI到来的速度。推理模型是当前的关键词。也有一些进步让我们感觉这些事情不仅即将到来,而且很可能被广泛使用。中国模型DeepSeq让每个人都如此紧张,因为它以极低的成本实现了与OpenAI模型相近的性能,
让每个人都更多地思考极其廉价和丰富的智能的含义是什么。
此外,自从这篇文章发布以来,我们得到了OpenAI的Operator的发布,虽然它仍然功能有限,但它正是Ethan所说的那种通用智能体。本周早些时候,风险投资家Chris Saka接受了Tim Ferriss的采访,Saka成为最新一位阐述这波新的智能以及廉价和丰富的智能在人们的工作和生计方面可能造成的巨大破坏性的人。
正如我之前所说,我认为这种转变,虽然充满了巨大的潜力,但需要我们对社会契约进行彻底的重新评估,需要一种新的工作思维方式,一种新的期望思维方式,一种新的判断自身价值的方式,以及更多。
我不知道事情是否发展得更快,或者只是感觉更快。我认为一些多年来一直停留在理论阶段的事情现在正在投入生产。我认为今年我们将看到越来越多的人实际部署智能体,这将使AI的助手时代显得古色古香。我完全同意Ethan的观点,现在是时候讨论我们想要一个嵌入AI的社会是什么样子了。我认为我们不会扭转潮流,但这并不意味着我们在正在创造的世界中没有自主权。
周末给你带来一些沉重而深思熟虑的想法。就这样,我们将结束AI每日简报。一如既往地感谢您的收听。直到下次,再见。