We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

OpenAI Agent "Operator" Coming In January?

2024/11/15

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

Narrator

一位专注于电动车和能源领域的播客主持人和内容创作者。

Topics

OpenAI 计划在明年一月发布名为 Operator 的自主 AI Agent，它能够在网络浏览器中执行各种任务，例如编码、购物和预订航班。这标志着 AI 技术发展迈向新的阶段，Agent 将能够更独立地完成复杂任务，并可能对商业和社会结构产生深远影响。尽管目前的技术仍处于早期阶段，但 OpenAI 的举动表明，大型科技公司正在积极推动 Agent 技术的发展，并将其视为 AI 领域的下一个重要突破。

Deep Dive

Chapters

Discussions around whether there is an AI model slowdown, with reports indicating that OpenAI's latest model is not showing the same performance jump as previous versions. Google is also experiencing similar issues, leading both companies to explore new methods for improving performance.

OpenAI's latest model shows diminished performance improvements.
Google's models are also demonstrating a lack of improvement.
Both companies are exploring new avenues, including reasoning and fine-tuning, to boost performance.

Shownotes Transcript

0 今天，我们似乎很快就能获得OpenAI的代理，这在某种程度上是件好事，因为在新闻标题中，我们谈到了谷歌也在应对我们谈及的OpenAI的AI速度减慢问题。AI每日简报是一个关于AI领域最重要新闻和讨论的每日播客和视频节目。要加入讨论，请查看节目说明。

欢迎回到AI每日简报的新闻版块，这里提供您需要的所有每日AI新闻，大约五分钟即可完成。本周我们一直在讨论的一个重要话题是，据报道，OpenAI或Ryan模型的表现没有像GPT-3和GPT-4之间那样显著提升。这似乎导致OpenAI加倍关注推理和微调，作为获得下一代前沿模型预期性能提升的潜在途径，现在谷歌也加入了进来，并探索新的途径来应对这些挑战。

根据谷歌的消息来源，他们的模型也表现出同样的改进不足。过去版本的谷歌旗舰大型语言模型Gemini在研究人员使用更多数据和计算能力进行训练时，改进速度更快。谷歌的经历是另一个迹象，表明关于如何改进模型的假设，即缩放定律，正在受到检验。

许多研究人员认为，只要模型处理更多数据，同时使用更专业的AI芯片，模型就会以相同的速度改进。但这两个因素似乎还不够。这对谷歌来说尤其令人担忧，因为他们的模型未能获得与OpenAI相同的采用率。

也许人们曾认为，谷歌完全凭借其计算资源优势就能在这一代超越OpenAI，但事实似乎并非如此。因此，谷歌也像OpenAI一样，正在寻求改进性能的新方法。最近几周，谷歌DeepMind组建了一个团队来研究推理模型的开发。

该团队由首席研究科学家杰克·雷和前员工（我在这里找不到她的名字）领导。为了体现他们对这项工作的重视程度，DeepMind的其他研究人员正在努力对模型进行手动改进，包括更改所谓的超参数，这些参数决定了模型如何处理输入，以及不同概念之间连接的速度。谷歌遇到的另一个问题是训练数据中存在重复信息，这可能会损害性能。

谷歌还在尝试使用合成训练数据，基本上将由大型语言模型生成的训练数据反馈到核心模型中。除了训练数据，他们还添加了音频和视频。尽管人们认为这些步骤将带来显著改进，但谷歌的消息来源称，它们并没有产生重大差异。

Meta的AI科学家兼首席科学家杨（杨）多年来一直在预测模型缩放带来的收益递减。昨天他在Threads上发帖，不想说“我早就告诉过你们了”，但我确实告诉过你们。他引用了前OpenAI首席科学家本周早些时候发表的一份声明，称“缩放的时代已经过去，现在我们又回到了发现的时代”。

每个人都在寻找下一件大事。现在，缩放正确的事情比以往任何时候都更加重要。现在，这使得杨的评论更加重要，因为他基本上是倡导只需添加更多计算数据来不断提升缩放的倡导者。

他正在远离这一观点，表明人们对这里的技术能力有了不同的理解。他本人评论说，我们一直在研究下一件大事。他指的是Meta的AI基础研究团队，正在探索新的架构作为实现AGI的途径。

他们目前专注于世界模型，旨在训练AI如何理解物体和环境之间的交互，而不是仅仅关注词语之间的联系。不过，并非所有人都相信这是真的。然后有人写道，AI速度减慢根本不是什么新闻。

AI速度减慢的最大原因是，现在已经没有其他地方可以去了。如果你开始在基准测试中饱和，那么就没有什么可做的了。100分就是你能获得的最高分数。

现在，转向商业模式，Complexity表示他们将于本周开始在其平台上进行广告实验，美国用户将看到以赞助后续问题的形式出现的广告。

这些广告将放置在生成答案的旁边，并标注为“赞助”。此次发布的初始品牌和代理合作伙伴包括Indeed、Whole Foods、Universal、Acan和PMG。例如，Project It显示了关于寻找赞助商的信息搜索。后续问题是：“如何在博客文章中使用Indeed来增强我的求职搜索？”

Perplexity解释说，此类计划有助于我们产生收入，与我们的发布商合作伙伴分享。仅靠订阅无法产生足够的收入来建立可持续的收入共享计划。Complexity表示，广告是确保稳定且可扩展收入的最佳方式。广告本身将由AI生成，而不是由赞助商预先设定。

广告商也无法访问用户的个人信息。关于Complexity选择的格式，我们有意选择这些格式，因为它们以一种保护答案的实用性、准确性和客观性的方式整合了广告。这些广告不会改变我们致力于维护值得信赖的服务的承诺，该服务会为您提供直接且公正的答案。

显然，目前，Perplexity风格的AI摘要如何影响网络的核心商业模式（即谷歌上的搜索广告）是一个尚未解决的大问题。因此，观察这些实验将非常有趣。基本上，我认为这比仅仅对Perplexity公司本身来说意义更大。

最后，谈到商业模式，Salesforce CEO贝尼·弗雷德曼表示，AI可能会损害他的公司，这纯属胡说八道。贝尼公开表示，他几个月来一直支持AI代理，我们即将发现它是否能拯救Salesforce免受颠覆。在最近一次对科技播客Equity的采访中，他说：“如果你的员工没有受到任何限制，那会怎样？”贝尼认为，他的公司拥有访问大量数据的优势。

他说，我们为客户管理了230个数据点。你可以说，这可能是我们为他们做的事情之一。而且我们以安全和共享模式来完成这些工作。

对我来说，有趣的是，贝尼似乎不得不为AI代理对Salesforce商业模式的潜在颠覆进行辩护。他可以称之为胡说八道，但根据我的经验和与企业的对话，虽然贝尼可能说得对，但我们的销售团队的未来以及公司能否达到新的高度，这绝对值得关注。

传统SaaS公司的商业模式正在承受巨大的压力，这不会轻易或迅速得到解决。当然，在我们进行评估时，这是一个我们非常感兴趣并认真思考的问题。

但这是另一个时间和地点的讨论。现在，今天的简报新闻版块就到此为止。接下来是主节目，今天的节目由Plum赞助。

想利用AI来自动化你的工作，但不知道从哪里开始？Plum允许你通过简单描述你想要实现的目标来创建AI工作负载。无需编码或API密钥。

想象一下，输入“AI分析我的Zoom会议并以Notion格式发送见解”，然后看着它在你眼前活灵活现。无论你是运营主管、市场营销人员，还是非技术创始人，Plum都能让你体验AI的强大功能，而无需技术上的麻烦。通过访问顶级模型（如GPT-4和AssemblyAI）的AI技术，Plum为早期用户提供未来自动化工作流程的体验。

今天的节目由Vanta赞助。无论你是初创公司还是正在扩展公司的安全计划，展示一流的安全实践并建立信任比以往任何时候都更加重要。Vanta自动化了ISO 27001、SOC 2、GDPR以及领先的AI框架（如ISO 42001和NIST AI风险管理框架）的合规性，节省你的时间和金钱，同时帮助你建立客户信任。

此外，你可以通过自动化问卷调查来简化安全审查，并通过面向客户的信任中心来展示你的安全态势。Vanta为全球超过8000家公司提供AI支持，例如LangChain和Factory AI。使用Vanta，展示AI信任，实时改进安全性，了解更多信息，请访问vanta.com/nlw。今天的节目，一如既往地由Super Intelligence赞助。

你是否曾经想要一个完全专注于AI如何与你的公司相关的AI每日简报？你的公司是否正在努力采用AI，要么是因为你正在努力弄清楚哪些用例将带来价值，要么是因为AI转型正在孤立各个团队、部门和员工，而无法改变整个公司？Super Intelligence开发了一个新的内部客户播客产品，通过分享公司内外最佳的AI用例来激励你的团队。

想象一下，它就像一个每日简报，但只是针对你公司的AI用例。如果你想了解更多信息，请访问superintelligence.com/partner并填写信息请求表。我对这个产品非常兴奋，我会尽快回复你。

这是superintelligence.com/partner。欢迎回到AI每日简报。今天OpenAI发布了一些有趣的新闻，首先是关于代理的新闻。据报道，OpenAI计划明年发布一个自主代理。如果你在AI领域待过一段时间，你就会知道，基本上自从ChatGPT发布以来，我们一直处于代理时代的边缘。

从强大的辅助工具过渡到代理实际执行人类替代性工作，对商业和社会结构以及我们所能实现的目标具有如此重大的影响，以至于它吸引了大量的关注，事实上，相对于这项技术实际发展到的程度来说，它吸引的关注可能是不成比例的。然而，很明显，主要的AI实验室一直在朝着这个方向努力。那么，我们从OpenAI的理论代理中了解到什么？据Bloomberg消息来源称，他们将其代号为“Operator”的代理可以独立控制计算机，执行包括编码、购物和预订航班等任务。

周三的一次会议上，员工获悉，该工具将于明年1月作为研究预览版发布。这意味着到明年年初，我们可能会从Anthropic、谷歌和OpenAI获得竞争性的计算机使用案例。一些公司，如微软和Salesforce，以及一些初创公司，已经推出了更有限的代理。

到目前为止，我们已经看到了两种不同的全功能计算机使用方法。谷歌的代理在浏览器窗口中运行，使其功能更有限，但潜在性能更高。而Anthropic的代理（目前唯一普遍可用的代理）试图控制鼠标和完整的计算机界面，因此可以更直接地执行各种任务。

实际上，体验仍然相当有限，公司承认该代理速度慢、笨拙且容易出错。Bloomberg的消息来源称，OpenAI正在开发几个与代理相关的产品，而最接近完成的是一个在网络浏览器中执行任务的通用工具。Sam Altman在过去几个月里一直宣传代理是下一件大事。

10月份，在一次Reddit AMA中，他说：“我们将拥有越来越好的模型。但我认为，感觉像下一个重大突破的东西将是代理，OpenAI的首席产品官Kevin Scott表示。”

我认为2025年将是代理系统最终进入主流的一年。The Verge指出，AI实验室面临着日益增长的压力，需要将他们的昂贵模型商业化，尤其是在增量改进可能不足以证明用户更高的价格时。希望自主代理是下一个突破性产品，是ChatGPT规模的创新，能够证明对AI开发的巨额投资。

那么人们对此有何看法？一位X用户表示，计算机使用案例是OpenAI应该首先推出的能力。这次看起来他们将效仿Anthropic。

我仍然希望看到一个独特的转折和巨大的改进。我认为我们可以从定制的GPS和搜索中吸取很多经验。有一点是肯定的，2025年将是AI代理的一年。

我从未在这些事情上押注OpenAI，尤其是在数据生成方面，就像在ChatGPT中使用的那样，搜索将发挥关键作用。他们在这方面拥有巨大的优势。我的建议是，让代理更容易启动、使用和提供反馈，减少延迟并降低成本。

其他人也表达了类似的观点。一位X用户表示，我讨厌公司总是炫耀他们的AI代理，可以为你预订人生，这简直是AI自动化的最糟糕用例。

顺便说一句，这对我来说也是一个个人观点。我不需要代理帮我预订航班或订餐。我知道这只是能力的展示，但我认为这表明我们仍然处于早期阶段，人们总是会提到这些事情。

其他人则在思考对世界不同领域的含义。一位Calamo用户表示，对于学习领域来说，点击完成意味着我们必须从点击完成课程转变为收集学习矩阵，这应该很久以前就应该发生了。但现在，希望这些代理将成为压垮糟糕的在线课程的最后一根稻草。

还有关于代理商业模式的问题，这正在考验人们的耐心。我们如何正确定价代理，尤其是在它们变得越来越强大时？它们可以在一小时内完成一天的工作，而且它们是24/7工作的。

我们没有市场参考，计算每小时每项任务的费用。AgentOps的Adam Silverman表示，我认为未来五年代理的规模将是计算成本加上10%的特定用例利润率。当OpenAI和其他公司发布代理时，他们只会收取计算费用

我认为，我们会看到很多好处。现在还很早期。我们目前可用且已准备好投入生产的产品仍然非常小众。

如果我是床垫商，我会把赌注押在这一点上。影响将体现在企业内的特定垂直领域。其次，这是一个开眼界的故事。

该公司已提出了一项宏大的政策建议，以促进美国的人工智能发展。为了保持领先地位，该公司昨天在华盛顿举行了智库活动。

全球事务负责人克里斯·拉·欣介绍了他们所谓的美国基础设施蓝图。该公司表示，该计划与1956年国家间高速公路和国防公路法案一样雄心勃勃。

他们概述了州和联邦政府之间的人工智能经济合作，这将激励各州加快人工智能基础设施的审批和许可。他们设想建设太阳能和风能发电，以及获得重启核电站的许可。OpenAI建议，为公司提供补贴或支持的州将是其他支持来源。为了推进基础设施项目，可能需要与公共大学共享新计算机，以建立人工智能研究实验室和开发中心，并使其与主要商业部门保持一致。

OpenAI还撰写了一项名为《国家传输高速公路立法》的法案，旨在扩大全国范围内的电力、光纤和天然气管道连接。该公司认为，我们需要新的权力和资金来启动传输的规划、许可和支付。他们指出，现行程序无法跟上日益增长的需求。

该文件指出，政府可以通过承诺购买能源以及其他减少信贷风险的方式，鼓励私人投资者为高成本能源基础设施项目提供资金。OpenAI特别指出，西部和西南地区是基础设施扩张的关键区域，因为这些地区有更多的建设用地。专注于这些地区，还可以确保这项新技术的就业和繁荣不局限于少数地区。现在，所有这一切的前提是，如果没有对基础设施投资和消除官僚障碍，美国将失去其在人工智能领域的领先地位，OpenAI的提案指出。鉴于此，我们需要有远见、果断地行动并大规模建设。这些决定将决定一个国家是引领还是落后于技术创新，这通常会对经济竞争力和国家安全产生深远的影响。

美国的历史，他们写道，充满了标志性的基础设施项目，推动了国家的进步，例如汽车工业、田纳西河谷管理局、曼哈顿计划和州际公路系统。

我们最近一直在密切关注的其中一件事是人工智能行业日益增长的对核能的需求。

在这方面值得注意的是，OpenAI指出，中国在过去十年中建造的核电能力超过了美国在过去四十年中建造的核电能力。

谈到这种快速部署，OpenAI全球政策负责人克里斯·拉·欣表示，我们别无选择。我们必须与之竞争。现在，最大的问题是这些政策是否会得到特朗普政府的采纳。OpenAI表示，他们计划与特朗普政府合作推进议程。

然而，目前我们所知的一切关于特朗普政府的人工智能政策都只是总统竞选人承诺废除人工智能行政命令，并表示将以支持言论自由和人类繁荣为基础的人工智能发展来取代它。目前，我们掌握的细节仅限于此。不过，削减官僚障碍和扩大能源生产规模似乎与竞选承诺相符。

在7月份的一次露面中，特朗普表示，我们将创造如此多的电力，以至于你会说：“请，请总统，我们不需要更多的电力了。我们已经足够了。”

所以我们有足够的了。所以我们有足够的了。所以谁知道呢？我认为很明显，这正填补了废除行政命令可能带来的空白。

正如安德鲁·凯恩所指出的，这份蓝图旨在影响新规定的最终形式。然而，该报告的总结可能最好地概括为：这是新的曼哈顿计划。未来将充满趣味。但在此，我们将结束今天的简报。感谢您的收听，如往常一样，直到下次再见，祝您一切安好。

OpenAI Agent "Operator" Coming In January? 17:04 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

OpenAI Agent "Operator" Coming In January?