Google's new team within DeepMind, led by Tim Brooks, is focused on building massive generative models that simulate the physical world. These models aim to understand the physics and appearance of the real world, similar to how large language models (LLMs) understand language structure.
NVIDIA's Cosmos models are a family of world foundation models designed to advance robotics and autonomous vehicle development. Trained on 20 million hours of video, these models focus on human movements and can be fine-tuned for specific tasks. They range from 4 billion to 14 billion parameters and are available as open source for commercial use.
OpenAI is losing money on ChatGPT Pro subscriptions because users are utilizing the service much more than expected. Despite charging $200 per month, the costs of delivering the service exceed the revenue generated. OpenAI reported expected losses of $5 billion on revenues of $3.7 billion in 2023.
Johnson & Johnson is using AI agents to optimize key points in the drug synthesis process. These agents analyze data from a smaller number of experiments and extrapolate it to determine optimal methods. While employees still review the output, the company is working on systematizing this oversight.
Moody's employs a multi-agent system with 35 different agent designs, each trained for specific subtasks. These agents analyze public company filings and perform industry comparisons, with some agents acting as supervisors to check for hallucinations. The system synthesizes conclusions from agents focused on different aspects, such as industry competition or geopolitical risk.
Deutsche Telekom uses AI agents to answer employee questions about internal policies, benefits, and product services. These agents, used by about 10,000 employees weekly, streamline HR processes and reduce the need for manual searches. The company plans to expand their capabilities to execute requests, such as processing leave applications.
According to Google's white paper, the core difference between LLMs and AI agents is the ability to access and interact with other systems. Agents can integrate with real-time data feeds, process multiple data sources, and perform multi-step tasks, making them capable of managing uncertainty and complexity in ways traditional models cannot.
The potential ROI of deploying AI agents lies in their ability to reduce human labor costs and increase productivity. By automating tasks, agents can lower operational expenses and free up employees for higher-value work. However, the actual impact depends on whether companies reinvest savings into growth or use them solely for cost-cutting.
Businesses are turning to AI agents in innovative ways this year. From refining drug discovery at Johnson & Johnson to advancing financial analysis at Moody's and streamlining customer service at Deutsche Telekom, these tools are redefining workflows and driving measurable outcomes. Discover how companies are deploying AI agents for growth and efficiency in 2025. Brought to you by: Vanta - Simplify compliance - https://vanta.com/nlw The Agent Readiness Audit from Superintelligent - Go to https://besuper.ai/ to request your company's agent readiness score. The AI Daily Brief helps you understand the most important news and discussions in AI. Subscribe to the podcast version of The AI Daily Brief wherever you listen: https://pod.link/1680633614 Subscribe to the newsletter: https://aidailybrief.beehiiv.com/ Join our Discord: https://bit.ly/aibreakdown
</context> <raw_text>0 今日AI每日简报的内容是,公司目前使用AI智能体的五种方式。在此之前,新闻头条是,谷歌组建了一个新的团队来构建世界模型。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。欢迎回到AI每日简报新闻版块,所有您需要的每日AI新闻,大约五分钟即可看完。
也许去年第四季度最大的主题是关于用于扩展AI的预训练模型是否已经开始遇到严重限制的问题。我们显然看到了像01和03这样的推理模型的兴起。微软的CEO萨蒂亚·纳德拉谈到了需要新的架构。但我们也得到了一些有趣的替代方案。一些人感兴趣的方法之一是可以模拟物理世界的模型。谷歌正在DeepMind内部组建一个新的团队来开发这些类型的模型。
该团队将由蒂姆·布鲁克斯领导,他是OpenAI的Sora视频模型的联合负责人之一,他于去年10月离开了该公司。昨天,布鲁克斯发帖称,DeepMind雄心勃勃地计划创建模拟世界的巨大生成模型。“我正在为一个拥有这项使命的新团队招聘。来和我们一起建设吧。”
到目前为止,我们从实验室看到的都是功能性但有限的演示。基本上,这些是AI模型,它们对现实世界的物理特性和外观有更好的理解,理解方式类似于LLM理解语言结构的方式。到目前为止,我们从世界模型实验室看到的大部分内容都是基于来自电子游戏或电影的训练数据,因此实际上只是一个概念验证。
少数几个超越这一阶段的项目之一是Genesis,该项目于上个月首次亮相。该项目能够使用4D世界模拟生成突破性的视频和极其精确的机器人训练模块。Genesis声称他们能够比之前的领先物理模拟器快430倍地训练机器人,将时间缩短到一分钟以内。
现在,DeepMind是去年发布了一个理解电子游戏物理模型的简短演示的实验室之一。该模型被称为Genie 2,我认为该公告有点被忽视了。组建这个新团队表明他们希望进一步推动这项技术。该新团队的招聘信息邀请申请者“加入一个雄心勃勃的项目,以构建模拟物理世界的生成模型”。
我们相信,对视频和多模态数据的预训练进行扩展对于实现人工通用智能至关重要。世界模型将为许多领域提供动力,例如视觉推理和模拟、实体智能体的规划以及实时互动娱乐。该团队将与Gemini、VO和Genie团队合作,并在其工作的基础上,解决关键的新问题,以将世界模型扩展到最高的计算水平。
谈到这类模型对实现AGI的重要性的人之一是Meta首席AI科学家Yann LeCun。事实上,他在Twitter上公开假设,标准的GPT架构无法实现AGI。这个项目听起来像是第一个尝试使用大型科技公司所能动用的全部规模的训练数据和计算能力来构建世界模型的项目之一。
与此同时,英伟达也在推动世界模型的前沿,发布了一个名为Cosmos的模型系列。在其我们在本周晚些时候将更深入地报道的CES主题演讲中,英伟达首席执行官黄仁勋宣布:“机器人的ChatGPT时刻即将到来。”与大型语言模型一样,世界基础模型对于推进机器人和自动驾驶汽车的发展至关重要。然而,并非所有开发人员都拥有训练自己模型的专业知识和资源。
他演示了用于模拟仓库和道路的模型,并评论道:“这并不是为了生成创意内容,而是为了教AI理解物理世界。”这些模型接受了2000万小时视频的训练,特别关注人类的动作,例如行走、手部动作和操纵物体。它们可以针对特定任务进行微调,并针对外部数据进行定制。
该系列包括三个模型,参数范围从40亿到140亿不等。最小的模型针对低延迟和实时应用进行了优化,而最大的模型旨在提供高保真输出。更重要的是,这些模型作为开源软件提供商业用途,允许机器人和自动驾驶汽车开发人员在生产中使用它们。
Diego Odd发帖:
在我们结束新闻头条之前,还有一个快速的故事。围绕AI行业的一个大问题是它是否真的能赚钱。您会记得,这是去年夏天人们热议的一个话题。我们看到了红杉资本的那篇博客文章《AI的6000亿美元难题》。现在我们了解到,ChatGPT Pro(每月200美元的付费版本)不仅不是为了赚钱,实际上甚至连成本都收不回来。
几天前,Sam Altman发推文说:“令人难以置信的事情。我们目前在OpenAI Pro订阅上亏损。人们的使用频率远超我们的预期。”在回复中,他补充道:“我个人选择了价格,并认为我们会赚钱。”现在,当然,OpenAI赚了很多钱,但亏损更多。据报道,该公司去年的亏损约为50亿美元,收入为37亿美元。
所有这些东西在任何时候的价格都相当随意。在最近的一次采访中,Sam Altman表示,对于主要的ChatGPT订阅,该公司在20美元和42美元之间犹豫不决。他们最终选择了20美元,因为“人们认为42美元有点贵”。他们很乐意支付20美元。Altman继续说道:“这不是一个严格的聘请某人并进行价格研究的事情。”现在,这之所以有趣,并不是关于OpenAI本身的任何事情。它更多的是关于AI长期盈利能力的问题。
Mojo Flynn写道:“OpenAI亏损并不令人意外,但当他们在每月200美元的订阅上亏损时,应该告诉您没有可行的规模化消费者商业模式。即使是每月30美元的Copilot订阅的微软也被迫提供折扣价。”
我认为这不是一个不合理的担忧。但是,我的看法大相径庭。我认为我们正处于AI生命周期的早期阶段。简单的现实是,提供服务的成本下降的速度不如使用服务的需求增长速度快。这是一个不可持续的状态。但不可持续并不意味着必然失败。这意味着需要重新校准。
至少就您可以用相同数量的资源做的事情而言,AI的成本已经从几年前的水平惊人地下降了。我希望这种情况会持续下去,我认为我们将根据用例逐一弄清楚不同性能水平的AI可以支持什么样的商业模式。坦率地说,我认为这正是风险投资和风险资本的用途所在。
它的目的是让极具前景的创新能够在这些市场变得理性化之前进行建设并度过这些复杂的早期阶段。我认为这些工具的采用速度让几乎每个人都感到意外,并且即使与其他行业相比,也给这带来了额外的压力。
无论如何,这仍然是一个值得关注的有趣故事,我们将在这里跟踪它。不过,现在,这就是今天的AI每日简报新闻版的全部内容。接下来是主要节目。今天的节目由Vanta赞助。无论您是启动还是扩展公司安全计划,展示一流的安全实践和建立信任比以往任何时候都更加重要。
Vanta 自动执行 ISO 27001、SOC 2、GDPR 和领先的 AI 框架(如 ISO 42001 和 NIST AI 风险管理框架)的合规性,从而节省您的时间和金钱,同时帮助您建立客户信任。此外,您可以通过自动化问卷调查并使用客户面对的信任中心展示您的安全态势来简化安全审查,所有这些都由 Vanta AI 提供支持。
包括 Langchain、Leela AI 和 Factory AI 在内的 8000 多家全球公司使用 Vanta 来展示 AI 信任并实时证明安全性。了解更多信息,请访问 vanta.com/nlw。网址是 vanta.com/nlw。
如果2025年关于AI有一点是明确的,那就是智能体即将到来。按行业划分的垂直智能体、水平智能体平台、按功能划分的智能体。如果您经营的是大型企业,那么明年您将尝试使用智能体。鉴于这是多么新颖的事情,我们所有人都会回到试点模式。
这就是为什么Superintelligent在今年年初提供了一项新产品。这是一项智能体准备情况和机会审核。在短短几周内,我们将与您的团队深入探讨哪些类型的智能体适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好弄清楚智能体如何改变您的业务。
如果您对智能体准备情况和机会审核感兴趣,请直接与我联系,[email protected]。请在主题行中加上“智能体”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。欢迎回到AI每日简报。目前在拉斯维加斯,一年一度的CES消费电子展正在举行,我预计届时将会有来自该活动的有趣的AI公告,我们将在本周晚些时候报道。帮助我们充分利用AI市场。
然而,对于今天的节目,在我们让这些公告更多地出现时,我在《华尔街日报》上注意到了一些有趣的事情。昨天,该出版物在其CIO期刊上发表了一篇文章,名为《公司如何使用AI智能体?》以下是五个早期用户的介绍。您可以看出语言有点过时了。但对我来说有趣的是,在2025年被认为是公司开始尝试使用智能体的一年里,主流媒体已经开始关注这是一个主要主题。
这之所以重要,部分原因在于,令我懊恼的是,大多数大公司的人员并没有及时了解到他们正在收听像AI每日简报这样的内容。他们从《华尔街日报》等来源获取新闻。因此,当这种类型的出版物开始认真对待这些事情时,它可能会产生相当大的影响。因此,我们今天将简要回顾一下《华尔街日报》报道的这五个用例,我将把它与谷歌最近发表的一篇我认为可能非常有用的论文概述结合起来。
《华尔街日报》的文章基本上指出这是一个大趋势。他们描述了许多不同的公司如何正式宣布他们自己的智能体,并且他们指出了企业如此关注智能体的最大原因之一。引述:“如果这些智能体的工作得到保证,它们还可以为企业提供他们一直在寻找的生成式AI投资回报。”根据一些企业技术领导者的说法,这意味着能够将技术与减少员工工作时间甚至需要雇用多少新员工联系起来。
基本上,如果智能体真的有效,那么就会内置先验投资回报。智能体必然会取代一定数量的人工,并且据推测,其成本低于等效的人工时间。
现在,重要的是要注意,公司如何利用这些成本节约和提高的生产力将决定这将是多么具有颠覆性。如果公司将这些人工时间再投资到其他领域的业务增长中,我倾向于认为这对每个人来说都是一个了不起的发展。另一方面,如果他们只是将其视为一项成本削减措施,那么情况就完全不同了。但《华尔街日报》这篇文章的真正重点是试图弄清楚智能体目前在现实中是如何被使用的。
他们给出的第一个例子来自制药巨头强生公司,该公司一直在部署药物发现智能体。在关注智能体能够做什么和不能做什么时,文章指出,这些智能体还无法独自研制新药。相反,它们被用来优化药物合成过程中的关键点。传统上,药物制造是通过运行大量的实验来改进的,这些实验通常有多个变量需要调整。
智能体能够利用少量实验的数据进行推断,从而得出最佳方法。在这个阶段,员工仍在审查智能体的输出,但他们写道,该公司仍在研究如何更系统地进行这种监督。
接下来,我们转向金融领域,金融分析公司穆迪公司已经开发了一个智能体团队来研究上市公司文件并进行行业比较。该公司总共有35种不同的智能体设计,所有这些智能体都针对不同的子任务进行了训练,并连接在一个多智能体系统中。该系统甚至还有作为主管的智能体来检查幻觉。这里的新颖之处在于,每个智能体都有自己的一套指令、个性和数据访问权限。这意味着系统中的智能体可以在分析中得出不同的结论,然后将这些结论综合在一起。
例如,一个智能体可能会根据行业竞争数据构建其分析,而另一个智能体可能会关注地缘政治风险。该公司的首席产品官尼克·里德说:“这几乎有点像你作为个人的能力。我们发现,智能体更擅长不进行多任务处理。”
这显然是一个非常相关的结论,即使这仅仅代表了企业如何考虑部署智能体的现状。与其尝试让一个智能体做多件事,不如让多个智能体承担狭窄的子任务,并找到协调它们的方法,再次,可能使用智能体。这种想法与您组建一个由人类组成的团队来执行多学科任务的方式并没有最终的不同。eBay正在从事最流行的智能体用例之一,即编写代码。
有趣的是,eBay实际上构建了自己的智能体框架,可以利用几种不同的LLM。除了编写代码外,eBay的智能体还在创建营销活动,并且他们计划推出另一组智能体,可以帮助买家找到商品,以及帮助卖家列出商品。《华尔街日报》写道:“eBay的智能体框架充当协调者,决定将哪些AI模型用于某些任务,例如翻译代码和建议代码片段。”
接下来是德国电信。他们的智能体不是面向外部,而是面向内部。该公司在德国拥有大约8万名员工。他们现在已经训练了智能体来回答员工关于内部政策和福利的问题。他们还训练了一个智能体来帮助服务人员解答有关公司产品和服务的问题。在这种情况下,我们可能会突破智能体语言的界限。这最终听起来像是一个可以访问内部数据库的聊天机器人。
尽管如此,无论您称其为什么,它似乎都获得了很大的吸引力。该公司的首席产品和数字官乔纳森·亚伯拉罕森表示,每周约有1万名员工在使用它。这比让人力资源专家或让员工在内部网站上搜索政策要高效得多。
尽管如此,德国电信仍在研究如何走得更远。该公司的下一步是允许智能体代表员工执行请求,进一步自动化基本人力资源工作。给出的例子是允许智能体完成休假请求并将其输入人力资源系统,所有这些都完全通过自然语言文本提示自动化。
最后一个例子是,我相信在这个阶段,这是最常见的智能体示例。在这种情况下,它来自西班牙公司Constantino,该公司为建筑物生产台面和其他石材材料。该公司已经引入了一个智能体团队来填补其客户服务人员的空白。他们将这些智能体称为“数字员工”,并且以与人类员工非常相似的方式考虑它们。预计这些智能体将具备基本技能,但在开始工作时会接受培训。智能体将获得指令,以遵循严格的流程,并且
并且有主管在场以确保它们不会偏离轨道。所谓的“数字员工”已经取代了之前参与处理客户订单的三到四名团队成员的工作。这些人现在已被重新分配到客户服务的更多高接触领域,从他们的数据录入任务中解放出来。现在,就像我说的那样,所有这些都是相当基本的用例,但我认为这代表了我们的现状。我相信2025年将是智能体试点项目的一年,其中许多项目将落入本文中描述和阐述的某些领域。
现在,一个关于如何在您的员工队伍中实施智能体的有用资源是谷歌去年9月发表的一篇白皮书,标题简单地为《智能体》。这篇论文解释了智能体是什么以及它们需要什么才能发挥作用,但更重要的是,它建议公司不应将智能体视为现有技术的升级。相反,他们应该将智能体视为组织运营方式的根本转变,以便在效率和生产力方面获得最大收益。基本上,这篇论文中的第一个重要思想是,智能体不仅仅是更智能的LLM。
核心智能体功能是能够访问其他系统。这可能仅仅意味着访问数据库以告知输出,但可能性要深得多。例如,可以将智能体集成到实时数据馈送中,以告知自主决策。智能体处理数据的能力远超人类。我们可能会发现智能体能够监控并根据多个数据源采取行动,而这需要一个完整的团队才能完成。
谷歌的论文讨论了LLM和智能体之间的另一个主要区别,即能够通过多步骤任务进行推理。可以使用许多不同的架构来实现这一点。智能体可以使用思维链,这是一个根据每个步骤中揭示的新信息不断重新评估任务的迭代过程。它可以使用思想树,其中同时探索多个可能的解决方案。最终,根据这篇论文,这使得智能体能够以传统模型无法实现的方式管理不确定性和复杂性。
这里有很多非常有趣的信息。我将在节目说明中提供链接。当然,这里还有一个快速的推销,如果您已经坚持到这里,您可能一直在听这个广告,但我们在Super今年正在做的一件事是智能体准备情况审核,我们正在与您深入探讨,以帮助您了解您的公司或员工队伍的哪些活动最适合探索智能体。我们还在帮助确定范围,甚至支持该领域的试点项目。