We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025 AI Battlelines: Agents, Reasoning, and World Models

2024/12/21

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Insights AI Chapters Transcript

People

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

谷

谷歌发言人

Topics

主持人：本文探讨了2025年AI领域的竞争格局，主要集中在推理模型、智能体和世界模型三个方面。首先，搜索引擎领域出现了新的竞争，Perplexity、ChatGPT和谷歌都在积极发展AI搜索功能。谷歌计划在其搜索中添加AI模式选项，允许用户通过语音和图片等方式进行搜索。未来搜索体验将多样化，针对不同类型的查询提供不同的搜索方式。然而，谷歌搜索引擎的垄断地位及其与AI聊天机器人的竞争可能面临法律障碍。其次，前Twitch CEO Emmett Shear创立了一家名为STEM AI的AI初创公司，致力于开发与人类行为和伦理道德对齐的AI。该公司获得了Andreessen Horowitz的投资，Emmett Shear本人也越来越关注AI安全和监管，他担心能够超越人类控制的自我改进模型，并建议采取国际合作和条约等措施进行监管。英特尔正在寻求收购其Altera可编程芯片部门的报价，Altera专注于为AI设备设计低功耗可编程芯片。再次，在推理模型方面，谷歌在其Gemini 2.0 Flash系列中添加了一个推理模型，该模型能够进行多模态理解、推理和编码，并展示其逻辑链。OpenAI即将发布第二代O1模型，命名为O3。网络社区对O3模型的发布表示期待。此外，AI领域另一个重要的竞争方向是智能体的部署。OpenAI宣布了ChatGPT的许多新集成，使其能够访问大量编码平台和笔记应用的数据。Salesforce发布了AgentForce 2.0，该平台能够处理复杂的多步骤任务，并正在面临来自其他公司（如Sierra）的竞争。最后，世界模型是一种不同于LLM的AI模型，它通过观察真实或模拟世界进行训练。Descartes公司开发的世界模型能够生成可玩的游戏，并获得了3200万美元的A轮融资。一个名为Genesis的物理模拟平台能够模拟各种材料和物理现象，并能生成各种模态的合成数据，显著提高机器人训练的速度和精度，并可能生成训练世界模型所需的大规模数据集。人们对Genesis平台的发布表示惊叹。总而言之，2025年AI领域的发展速度将不会慢于2024年和2023年。谷歌发言人：谷歌将先进的模型应用于搜索，以帮助用户更好地发现网络信息。 Andrej Karpathy：对谷歌推理模型能够展示其推理过程表示赞赏。 Kevin Wheel：ChatGPT将随着模型的强大而变得更加智能，能够主动完成任务。 Ethan Malek：OpenAI拥有许多AI领域的组件，未来将整合为一个单一产品。 Emmett Shear：对AGI缺乏恐惧要么是对未来发展速度的悲观，要么是对智能力量的严重缺乏想象力。最担心的是能够超越人类控制的自我改进模型，并建议采取国际合作和条约等措施进行监管。 Adam Goldstein：在塔夫茨大学莱文实验室从事生物系统建模研究。 Zhao Jian：Genesis平台能够模拟各种材料和物理现象，并能生成各种模态的合成数据。 Ben Duffy：Genesis平台能够在不到26秒的时间内训练出可在现实世界中部署的运动策略。 Linus：对Genesis平台的发布表示惊叹。 Bilawal Seedhoo：对Genesis平台的发布表示惊叹。 Mila：对Genesis平台的发布表示惊叹。

Deep Dive

Key Insights

Why is there competition around the definition of search in 2025?

Competition is emerging because AI-driven search experiences like Perplexity and ChatGPT are redefining how users interact with search, offering more conversational and answer-focused interfaces. Google is also planning to introduce an AI mode, potentially allowing voice and image inputs, which could shift the paradigm of traditional search.

What is Google's plan for integrating AI into its search engine?

Google is planning to introduce an AI mode option that mimics its Gemini AI chatbot, allowing users to toggle between traditional search and AI-driven conversational search. This mode may also support voice and photo inputs for mobile users.

What is the legal challenge facing Google's AI search mode?

A federal judge has ruled that Google's search engine is an illegal monopoly. The Department of Justice wants to prevent Google from leveraging its dominance to outcompete AI chatbot rivals, which could create legal barriers to the introduction of AI mode.

What is Emmett Shear's new AI startup, STEM AI, focused on?

STEM AI aims to develop AI software that aligns with human behavior, preferences, biology, morality, and ethics. The company is still in stealth mode, but its goals suggest a focus on AI safety and human-aligned AI development.

What is the significance of Intel courting bids for its Altera programmable chip arm?

Intel is seeking to sell Altera, a company specializing in low-power programmable chips for AI-enabled devices, as part of its restructuring efforts. Altera is being valued at $9 to $12 billion, a significant discount from the $17 billion Intel paid in 2015.

What are reasoning models in AI, and why are they important?

Reasoning models are AI systems designed to scale using strategies beyond just increasing compute and data. They emphasize logical thinking and problem-solving, with companies like OpenAI, Google, and Meta investing heavily in this approach to improve AI capabilities.

What is Google's Gemini 2.0 Flash Thinking Experimental model?

Gemini 2.0 Flash Thinking Experimental is a reasoning model from Google that excels in multimodal understanding, reasoning, and coding. It displays its chain of logic, making its thought process transparent, and is available for free on Google AI Studio.

What is OpenAI's O3 model, and how does it differ from O1?

O3 is OpenAI's second-generation reasoning model, designed to improve upon O1 by potentially scaling reasoning abilities without relying solely on longer inference times. It aims to show whether reasoning models can achieve significant improvements at the model layer.

What is the significance of OpenAI's new ChatGPT integrations?

OpenAI is expanding ChatGPT's capabilities by integrating it with various platforms like Apple Notes, Notion, and coding tools. This move positions ChatGPT to become more agentic, enabling it to perform actions beyond just answering questions.

What is Salesforce's AgentForce 2.0, and why is it important?

AgentForce 2.0 is Salesforce's updated agent platform, offering pre-built skills, workflow integrations, and improved reasoning capabilities. It allows companies to deploy customized agents for complex tasks, addressing competition from other AI-driven agent platforms.

What are world models in AI, and why are they gaining attention?

World models are AI systems trained by observing real or simulated environments, rather than large text corpora. They aim to understand physics and simulate real-world interactions, potentially leading to breakthroughs in robotics and AI applications.

What is Descartes' Minecraft-like game model, and why is it significant?

Descartes developed a model capable of generating a playable Minecraft-like game, showcasing the potential of world models. The company raised $32 million at a $500 million valuation, signaling investor interest in this emerging AI approach.

What is the Genesis physics simulation platform, and what are its applications?

Genesis is a comprehensive physics simulation platform capable of generating 4D dynamic worlds for robotics and physical AI applications. It can produce synthetic datasets for training AI, significantly speeding up robotics training and potentially scaling world models.

Chapters

The AI Daily Brief discusses the emerging competition in the search engine market, with players like Perplexity, OpenAI, and Google introducing AI-powered search options. This development is happening despite a federal judge ruling Google's search engine an illegal monopoly, raising questions about the future of search and the implications of antitrust laws in the age of AI.

Perplexity and OpenAI are adding features to their AI search offerings.
Google plans to add an AI mode to its search engine, potentially including voice and photo search.
A federal judge ruled Google's search engine an illegal monopoly, creating potential legal barriers to Google's AI search initiatives.

Shownotes Transcript

Brought to you by: Vanta - Simplify compliance - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw The AI Daily Brief helps you understand the most important news and discussions in AI. Subscribe to the podcast version of The AI Daily Brief wherever you listen: https://pod.link/1680633614 Subscribe to the newsletter: https://aidailybrief.beehiiv.com/ Join our Discord: https://bit.ly/aibreakdown

</context> <raw_text>0 欢迎回到AI每日简报头条版，您需要的所有每日AI新闻大约在五分钟内。

在AI领域，有一个非常迷人的现象，尽管相对其他一切事物来说有些处于次要地位，但这是20年来第一次围绕搜索的意义展开竞争。Perplexity显然是目前最受欢迎的AI产品之一，并继续增加其资金和功能。

OpenAI在其12天的发货计划中，向更广泛的世界扩展了ChatGPT搜索的访问权限。现在，信息报道谷歌也计划在其搜索中添加AI模式选项。

信息来源于一位正在开发该产品的人，他表示谷歌计划“给其数十亿搜索用户提供切换到与其Gemini AI聊天机器人几乎相同的AI模式的选项”。其他人发现，这一转变不仅仅是关于您在计算机上输入的内容，还将有一种与搜索对话的方式。9to5Google在代码中发现了一些迹象，表明您将能够使用移动输入，包括语音和照片，作为搜索的方式。

谷歌发言人对此持谨慎态度，表示：“随着我们最先进的模型不断进步，将这些新能力引入搜索的机会巨大，帮助人们发现更多网络内容。”

在某种程度上，这显然是显而易见的。未来，似乎会有多种类型的搜索体验来应对不同类型的查询。那种试图获取问题答案的Perplexity或ChatGPT搜索将成为许多类型查询的默认选择。我并不认为这意味着谷歌的传统搜索没有帮助，但能够在两者之间切换可能会非常有价值。

当然，挑战在于，联邦法官已经裁定谷歌的搜索引擎是非法垄断。正如信息所写，司法部已表示希望使谷歌更难利用其搜索引擎来击败AI聊天机器人竞争对手，这可能会为AI模式创造法律障碍。这很棘手。一方面，我绝对希望有竞争，但另一方面，这显然是谷歌进行搜索的合理方向，人工阻止他们这样做基本上就是迫使他们失败。

接下来，前Twitch首席执行官、短暂担任OpenAI首席执行官的Emmett Shear据报道正在开发一家新的AI初创公司，目标颇具吸引力。您可能还记得，Shear在2023年11月的领导权争议中被短暂提名为Sam Altman的接替者。值得注意的是，华尔街日报称他通过有效威胁辞职，清除了Sam Altman回归的道路，前提是董事会未能提供支持Altman被罢免的证据。

TechCrunch现在报道，Scheer成立了一家名为STEM AI的公司，注册文件于去年6月提交。该公司仍处于隐秘阶段，因此细节非常有限，但TechCrunch发现的内容确实听起来很有趣。

根据去年提交的商标，STEM AI正在开发软件，以创建“理解、合作并与人类行为、人类偏好、人类生物学、人类道德和人类伦理相一致”的AI。更多线索来自于Adam Goldstein作为联合创始人的存在。在2016年出售名为Hitmonk的旅游网站后，Goldstein成为Y Combinator的访问合伙人。他还创立了一个名为Astonishing Labs的孵化器，以支持生物研究初创公司。

根据他的LinkedIn页面，Goldstein在塔夫茨大学的Levin实验室担任访问科学家一年，他“……开发了针对生物系统的新模型，重点是癌症。”

根据PitchBook，STEM在8月份获得了Andreessen Horowitz的支持。虽然目前我们对这家公司的实际情况了解不多，但Scheer在过去一个月中对AI安全和监管的声音越来越大。例如，在12月，他发布了几乎所有当前提议的监管都是个坏主意。他补充说，围绕监管公司而非AI模型的想法以及增加透明度是目前提出的少数合理想法之一。

在11月，他写道，不害怕AGI表明对未来合成数字智能进展速度的悲观，或者对智能力量的想象力严重缺乏。

在6月，加州SB 1047立法正在辩论时，他在一次播客中表示，他最大的担忧是自我改进的模型可能超出人类控制。他当时说：“我支持创建某种火警系统，比如没有AI比X大。我认为国际合作和条约在某种AI测试禁令条约方面有很好的选择。”简而言之，Scheer是一位优秀的操作者，这很可能是一个值得关注的项目。

最后，强者的陨落。英特尔正在寻求收购其Altera可编程芯片部门的出价。Altera专注于为AI设备设计低功耗可编程芯片。该公司于2月份作为独立实体分拆，英特尔试图在经历了几年的失望后扭转局面。彭博社报道，多个私募股权公司，包括Francisco Partners、Silver Lake Management、Apollo Global Management和Bain Capital，对此表示了兴趣。英特尔给潜在的收购合作伙伴的时间截止到1月，以正式提交他们的报价。

11月提出的交易条款范围从获得公司20%到30%的股份，到完全控制。彭博社报道，Altera的估值在90亿到120亿美元之间，远低于英特尔在2015年支付的170亿美元。此举当然是在首席执行官Pat Gelsinger离职的阴影下进行的。在三年前被引入以使英特尔重回正轨后，Gelsinger本月早些时候应董事会要求辞去了职务。

不过，这将是今天AI每日简报头条版的全部内容。接下来是主要节目。今天的节目由Vanta赞助。无论您是刚开始还是正在扩展公司的安全计划，展示一流的安全实践和建立信任比以往任何时候都重要。

Vanta自动化ISO 27001、SOC 2、GDPR以及领先的AI框架（如ISO 42001和NIST AI风险管理框架）的合规性，为您节省时间和金钱，同时帮助您建立客户信任。此外，您可以通过自动化问卷和展示您的安全态势，利用Vanta AI提供的客户信任中心来简化安全审查。全球超过8000家公司，如Langchain、Leela AI和Factory AI，使用Vanta来展示AI信任并实时证明安全性。

了解更多信息，请访问vanta.com/nlw。如果2025年关于AI有一个明确的事情，那就是代理即将到来。按行业划分的垂直代理、按功能划分的横向代理平台。如果您经营一家大型企业，明年您将会尝试代理。考虑到这一点是多么新颖，我们所有人都将回到试点模式。

这就是为什么Superintelligent在今年初推出了一款新产品。这是一项代理准备和机会审计。在短短几周内，我们将与您的团队深入探讨，了解哪些类型的代理适合您进行测试，您需要什么类型的基础设施支持以做好准备，并最终得出一套可行的建议，帮助您准备好如何让代理改变您的业务。

如果您对代理准备和机会审计感兴趣，请直接联系我，[email protected]。请在主题行中写上“代理”，以便我知道您在谈论什么。让我们让您成为AI市场中最具活力部分的领导者。欢迎回到AI每日简报。我喜欢当一组故事以某种方式汇聚在一起，真正讲述一个比单个新闻更大的故事。今天正是如此。

我们正在关注2025年AI的战线，推理模型、代理和世界模型，所有这些在昨天都有一些有趣的新闻。

当然，此时您可能不需要关于推理模型的背景知识。但实际上，这是一种新的扩展方法，使用不同的策略，而不仅仅是增加计算和数据进行预训练。这显然是OpenAI所强调的。它在9月份发布了O1预览。随后，亚马逊宣布了Nova，并谈论了其产品线中的推理模型。Meta发布了Lama 3.3，也强调了其推理能力。几家中国实验室也发布了非常有能力的推理模型。

现在谷歌也加入了这个行列。

在他们首次发布几天后，谷歌在Gemini 2.0 Flash产品线中添加了一个推理模型。该模型被称为Gemini 2.0 Flash Thinking Experimental。希望这只是一个工作标题。它自我描述为在“多模态理解、推理和编码”方面是产品线中最好的。在演示中，它似乎在涉及视觉和文本线索的难题上表现良好。至于使其在众多模型中脱颖而出的新特性，该模型展示了其逻辑链，因此您可以看到其内部运作。

OpenAI联合创始人Andrej Karpathy写道：“这里的突出和令人愉快的惊喜是，与O1不同，该模型的推理痕迹是可见的。作为用户，我个人非常喜欢这一点，因为推理本身是有趣的，可以看到和阅读。模型积极思考不同的可能性、想法，自我辩论等。反对展示这些的理由是，通常担心有人会收集推理痕迹，并在不同的基础模型上进行训练，以获得推理能力，可能在某种程度上。

与竞争对手相比，该模型的速度也极快，并且在Google AI Studio上免费提供。这本身就相当令人惊讶，因为到目前为止，推理模型的操作成本与非推理模型相比极为昂贵。这里有一个有趣的地方是，谷歌的命名惯例暗示这只是2.0 Flash的微调版本，或者只是基础模型加上一些系统提示，以要求模型思考更长时间并在回答之前检查其工作。

与01相比，OpenAI特意将其呈现为全新的模型。Sam Altman甚至将发布框架为公司LLM的不同分支的开始。我认为，进入明年一个大问题是，这些推理模型与其非推理模型有多大不同，更特别的是，它们是否真的会在未来以不同的方式发展。

现在，谈到OpenAI，推理模型的另一个重大新闻是OpenAI准备发布其O1模型的第二代。有趣的是，谈到奇怪的命名惯例，根据信息，该模型将被称为O3，以避免与英国电信O2的知识产权争议。Sam Altman几乎告诉我们该模型将在今天发布，因此在您收听此内容时，它可能已经发布。该发布可能会回答围绕推理模型的另一个大问题，即它们是否能在模型层面上显示出重大改进。

在O1发布时，人们怀疑OpenAI正在转向推理，因为向训练运行中添加训练数据和计算的回报正在减少。在接下来的几个月中，确认通过让推理模型思考更长时间，可以对其进行显著改进。假设O3是一个全新的模型，而不是O1的调整，它应该揭示推理模型本身是否能够扩展能力，或者所有改进是否仅通过扩展推理时间才能实现。

社区对查看它感到非常兴奋。Chubby在X上写道：“O3等于Orion。可能没有更多的GPT 4.5或5。一切都总结在Orion，即O3。毫无疑问，Orion是用大量来自O1的合成数据喂养的，现在已经演变为O3。”Chubby还提到了该领域的竞争动态，写道：“是时候从谷歌那里夺回王冠了。”我们还有一集正常的节目将在周一播出，然后进入年末特别节目，所以我将有机会跟进周五究竟发布了什么。

现在，转向竞争的下一个维度，在某种程度上，这比推理模型更明显的是部署代理的竞赛。

昨天，OpenAI宣布了一长串ChatGPT的新集成。桌面应用程序现在可以访问来自庞大编码平台列表的数据，以及Apple Notes、Notion和Quip。目前，ChatGPT只能在上下文中读取这些应用程序。它无法在这些程序中采取行动。但首席产品官Kevin Wheel明确表示，这就是一切的发展方向。他说：“我们一直在为我们的桌面应用程序付出很多努力。随着我们的模型变得越来越强大，ChatGPT将变得越来越具代理性。”

这意味着我们将超越简单的问题和答案。ChatGPT将开始为您做事情。几周前，沃顿商学院教授Ethan Malek发布了，OpenAI目前在棋盘上有很多棋子。多模态视觉和语音、小型、大型和推理模型、图像和视频创作、代码执行、移动和桌面应用程序、网络搜索、半代理性内容。非常好奇何时会将其粘合成一个整体。

有趣的是，回到Kevin Wheel的这句话，我觉得他所说的ChatGPT将开始为您做事情非常显著。这清楚地表明我们有一个单一的事物，它就是并且一直是ChatGPT。只不过随着时间的推移，ChatGPT将变得更加丰富，坦率地说，与最初的ChatGPT大相径庭。

几天前，我们还收到了Salesforce关于其代理平台AgentForce的更新。在9月份宣布AgentForce仅三个月后，该公司宣布了AgentForce 2.0。他们写道，此次发布引入了一种新的预构建技能和工作流集成库，以便快速定制，能够在Slack中部署AgentForce，以及在代理推理和RAG方面的进展。

这些进展将使公司能够通过定制代理扩展其劳动力，能够以更高的精度和准确性处理复杂的多步骤任务。如果您需要了解这对Salesforce有多重要，请查看信息中的一篇文章，标题为“AI是Mark Benioff的朋友和敌人”。它谈到Salesforce正面临来自Sierra等公司的竞争，这些公司正在将代理推向市场，实际上在某些情况下赢得了Salesforce的业务。

我今天想讨论的最后一个竞争维度是这种新的世界模型方法。这些模型的训练方式与LLM根本不同。LLM是在大量文本、图像和语音数据上训练的，而世界模型则通过观察真实或模拟的世界进行训练。我们已经看到了几种这种风格的AI的工作原型，其中两个大例子来自Fei-Fei Li的World Labs，另一个来自谷歌DeepMind。第三个大玩家是Descartes，他们在10月发布了一种能够生成完全可玩的Minecraft类游戏的模型。

尽管演示存在bug和初步，但显然让投资者坐不住了。TechCrunch报道，该公司现在已完成其A轮融资。该初创公司以5亿美元的估值筹集了3200万美元。首席执行官兼联合创始人Dean Liedersdorf表示，该公司希望在最高水平上竞争，建立一个“完全垂直整合的AI研究实验室”，同时开发企业和消费产品。他表示，目标是创建他所称的“千亿公司”。你得喜欢这种雄心壮志，伙计。

人们最近对世界模型如此感兴趣的部分原因是，他们的物理理解可能使他们能够取得更根本的突破。然而，在许多方面，这类模型感觉更接近几年前基于GPT的LLM，展示了一些迷人的涌现特性，但仍远未达到它们将要达到的完整规模。

沿着这些思路，来自19所不同大学的一组研究人员刚刚揭示了他们所称的综合物理模拟平台。名为Genesis，研究人员声称该平台“能够模拟广泛的材料和物理现象”。研究员赵健写道：“……经过24个月的大规模研究合作，涉及20多个研究实验室，生成的物理引擎能够生成由物理模拟平台驱动的4D动态世界，旨在用于通用机器人和物理AI应用。”

我们的目标是构建一个通用数据引擎，利用上层生成框架自主创建物理世界，以及各种数据模式，包括环境、相机运动、机器人任务提案、奖励函数、机器人策略、角色运动、完全交互的3D场景、开放世界关节资产等，旨在实现机器人、物理AI和其他应用的完全自动化数据生成。

所以基本上，Genesis在我看来可以用作机器人模拟平台和照片真实渲染平台。该平台接受自然语言提示，并可以用作数据引擎，生成一系列不同模态的合成或模拟数据。在短期内，这对机器人训练在速度和准确性方面是一个巨大的提升。它可能会在该领域带来即时改进，甚至可能解锁更复杂的用例。

机器人专家Ben Duffy评论道：“通过Genesis，您将能够在不到26秒的时间内训练出可在现实世界中部署的运动政策。”这句话告诉我们一个我们尚未准备好的未来。作为参考，这比之前领先的物理模拟器快430,000倍，以说明这一变化可能是多么戏剧性。

另一个潜在的可能性是，像这样的平台可以生成大规模数据集，以扩展世界模型。目前，它们是使用来自自动驾驶汽车的数据集或通过观察视频游戏进行训练的。有一些项目将相机设备绑在徒步旅行者身上，以收集真实世界数据，但如果这个平台的性能如研究人员所声称的那样，我们可能很快就会看到近乎无限的合成数据集可用于训练下一代世界模型。

实际上，所有对此的反应都是某种版本的哇。观看他们的公告视频，AI布道者Linus写道：“这一切都是在4D中生成和模拟的。”震惊的表情符号，震惊的表情符号，震惊的表情符号。Bilawal Seedhoo写道：“想象一下即时物理准确的环境、相机路径和角色动画，全部来自自然语言。”

2025 AI Battlelines: Agents, Reasoning, and World Models 17:28 Share