We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

8 Ways Agents Will Improve This Year

2025/1/17

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

Ahsan Khaliq

Jared Kaplan

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

Ahsan Khaliq：我发现了 Google Gemini 的一个新功能，它能够同时处理两种视觉输入，例如图片和视频，这在以前的多模态大型语言模型中是做不到的。这为医疗、工程和质量控制等领域带来了许多新的应用可能性。 Jared Kaplan：我认为 AI 智能体将在今年在四个方面得到显著改进：首先，它们将更擅长使用工具，能够处理更复杂的任务，并在出错时寻求用户反馈；其次，它们将更好地理解上下文，能够根据业务逻辑、行业背景和法规环境等进行调整；第三，它们将改进代码辅助功能，能够理解代码错误、进行调试和运行代码；最后，它们需要提高安全性，以应对提示注入等安全挑战。主持人：除了 Jared Kaplan 提到的四个方面，我还认为 AI 智能体将在以下四个方面得到改进：首先，企业将努力改进数据质量，使其更易于 AI 智能体使用；其次，多智能体系统和编排技术将得到发展，从而实现更复杂的任务处理；第三，围绕 AI 智能体的可观察性、评估和基础设施的工具将得到改进；最后，企业将更加关注 AI 智能体的投资回报率 (ROI) 的追踪和衡量。Google 将 Gmail 和 Google Docs 中的 AI 功能免费提供，这可能是 AI 竞争的一部分，旨在吸引更多付费用户。Meta 公司高管非常关注打败 OpenAI，并将 GPT-4 视为主要竞争对手。AI 头像技术虽然不可避免，但其普及还需要时间。

Deep Dive

Chapters

Google's Gemini AI shows unexpected ability to process two visual inputs simultaneously, unlike other LLMs. This opens possibilities for various applications, from student learning to medical diagnosis, but raises questions about Google's awareness of this feature.

Gemini can process visual and video inputs concurrently.
This was discovered by researchers using AnyChat.
Potential applications span various fields, including medicine and engineering.
Questions remain on whether Google was aware of this capability.

Shownotes Transcript

AI 代理将在今年取得重大进展。它们将改进工具使用、上下文理解、编码辅助和安全性。企业还可以期待在数据集成、多代理编排、可观察性和投资回报率跟踪方面取得进展。这些发展将扩大人工智能在各行各业的影响力。由以下机构提供： Vanta - 简化合规性 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw Superintelligent 的代理准备情况审核 - 前往 https://besuper.ai/ 申请贵公司的代理准备情况评分。 AI每日简报帮助您了解人工智能领域最重要的新闻和讨论。在您收听的任何地方订阅 AI 每日简报的播客版本：https://pod.link/1680633614 订阅时事通讯：https://aidailybrief.beehiiv.com/ 加入我们的 Discord：https://bit.ly/aibreakdown

</context> <raw_text>0 今天在 AI 每日简报中，我们将讨论四种，不，实际上是八种代理将在今年变得更好的方法。在此之前，在新闻头条中，Gemini AI 的一项令人惊讶的新功能，甚至不清楚他们是否知道。AI 每日简报是一个关于人工智能领域最重要的新闻和讨论的每日播客和视频。要加入讨论，请关注我们节目说明中的 Discord 链接。♪

欢迎回到 AI 每日简报头条新闻版，所有您需要的每日 AI 新闻，大约五分钟即可看完。有时，生成式 AI 的进步会让你措手不及。然而，更常见的是，每周都会有一些细微但重要的变化，如果你不真正关注的话，很容易错过。本周来自 Google 的一个例子就说明了这一点。人工智能研究人员发现 Google Gemini 的一项新功能，那就是能够同时看到两件事。

到目前为止，多模态大型语言模型只能一次接受一个视觉输入。例如，要么看图片，要么看视频。开发名为 AnyChat 的实验应用程序的研究人员发现，Gemini 可以同时做到这两点。Gradio 的机器学习负责人、AnyChat 的创建者 Ahsan Khaliq 表示，即使是 Gemini 的付费服务也无法做到这一点。

您现在可以与 AI 进行真实的对话，同时它处理您的实时视频馈送和您想要共享的任何图像。以前无法使用的功能可能是 Gemini 独特架构的结果。与 OpenAI 的 GPT-4.0 不同，Gemini 接受训练是为了成为原生多模态的，而不是后来添加额外的输入模式。就这所打开的新改进用例而言，VentureBeat 指出，低风险方面，学生可以分享问题的视频以及教科书的图片，或者艺术家可以分享正在进行的作品的直播以及参考图片。

对于更高风险的用途，他们写道，想象一下，一位医疗专业人员同时向 AI 展示患者的实时症状和历史诊断扫描结果。工程师可以将实时设备性能与技术示意图进行比较，并获得即时反馈。质量控制团队可以以前所未有的准确性和效率将生产线产量与参考标准进行匹配。

现在，通过第三方工具发布此功能引出了一个问题，即 Google 是否知道 Gemini 具有这种性能能力。他们完全有可能决定将此功能隐藏起来，因为这种类型的处理与高资源使用相关。再说一次，这也可能表明，好奇的开发人员的小团队继续发现大型研究实验室忽略的事情，即使是关于他们自己模型的新兴功能也是如此。

Google 直接发布的一件事是，该公司宣布他们正在使 Gmail 和 Google Docs 中的人工智能免费使用。这绝对是人工智能竞赛和争夺高级用户战争的一部分。过去，如果您想在 Gmail、Docs、Sheets、Meet（基本上是 Workspace 套件）中使用 Google AI 功能，则每月需要支付 20 美元。基本上，如果您已经为 Workspace 付费，所有这些都将免费捆绑在一起。

然而，与此同时，所有 Workspace 计划的基本价格都在上涨。基本上，公司现在将不得不每月为每个 Workspace 用户多支付约 2 美元，但所有 AI 功能都将原生提供。

我认为这是一个非常有趣的策略。我经常从 Super 的企业合作伙伴那里听到的一个抱怨是，在现有的 Microsoft 服务之上购买副驾驶和 AI 订阅的成本要高得多。当然，价格是一个快速变化的目标，人工智能确实有成本，但这绝对是一个重大举动，可能会迫使其他公司采取行动。留在大型科技公司，但暂时转向 Meta，内部消息显示，Meta 高管非常专注于击败 OpenAI。

这些内部讨论作为 Sarah Silverman 领导的对 Meta 提起的诉讼的一部分被公开。他们表明，毫不奇怪，该公司将 GPT-4 视为其主要竞争对手。在 2023 年 10 月的一条消息中，Meta 的生成式 AI 副总裁 Ahmad Al-Dhali 说：“老实说，我们的目标应该是 GPT-4。我们有 64,000 个 GPU 即将到来。我们需要学习如何构建 Frontier 并赢得这场比赛。”有趣的是，尽管 Meta 在开源领域展开竞争，但他们似乎并不太担心竞争对手的开源实验室。

例如，在一则消息中，Aldale 说：“Mistral 对我们来说是小菜一碟。我们应该做得更好。”很明显，即使在我们观察 Llama 2 和 Llama 3 之间的过程中，扎克伯格和 Meta 也将注意力从成为最好的开源模型转移到了成为世界一流的、最先进的模型。

现在，这篇文章的很多框架都是关于他们有多么痴迷，并使用了许多带有贬义色彩的词语。但这种积极进取的重点是公司，特别是大型公司能够在与 OpenAI 这样的初创公司竞争中生存下来的唯一途径。一个人的痴迷是另一个公司的重点。

现在，围绕使用外部 LibGin 数据集的这场战斗还有另一个维度，该数据集包含盗版版权作品，并被誉为历史上最大的免费图书馆。LibGin 多次遭到起诉，并被勒令关闭。Aldali 讨论了通过联系出版商来清除使用该数据集的途径，但尚不清楚他是否获得了所有相关的许可。在一则消息中，他问道：“我们是否有正确的数据集？是否有任何原因你想使用但由于某些愚蠢的原因而无法使用？”当然，随着诉讼的进行，我相信我们会听到更多关于这方面的信息。

最后，今天我们转向创业公司方面，AI 头像初创公司 Synthesia 获得了新一轮融资，融资额为 1.8 亿美元，估值为 21 亿美元。在我看来，AI 头像是最有趣的技术之一，我认为它们既完全不可避免，但在商业领域中，至少在一段时间内，它们仍然需要很长时间才能被规范化。许多优秀的公司都在这个领域竞争，但 Synthesia 现在拥有非常庞大的资金储备来竞争。

尽管如此，我们将结束头条新闻。接下来是主要内容。今天的节目由 Vanta 提供。信任不仅仅是赢得的，更是被要求的。无论您是正在进行首次审计的初创公司创始人，还是经验丰富的安全专业人员正在扩展您的 GRC 计划，证明您对安全的承诺从未像现在这样重要或复杂。这就是 Vanta 的用武之地。

企业使用 Vanta 通过自动化合规需求来建立信任，这些需求涵盖 35 多个框架，例如 SOC 2 和 ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高 5 倍，并主动管理供应商风险。Vanta 可以帮助您启动或扩展您的安全计划，方法是将您与审计员和专家联系起来，以便快速进行审计并建立您的安全计划。此外，由于平台中使用了自动化和人工智能，Vanta 可以为您节省时间，让您可以专注于发展您的公司。

加入超过 9,000 家全球公司，例如 Atlassian、Quora 和 Factory，他们使用 Vantage 实时管理风险和改进安全性。

在有限的时间内，本观众可以获得 Vanta 的 1,000 美元折扣，网址为 vanta.com/nlw。即 v-a-n-t-a.com/nlw，可享受 1,000 美元的折扣。如果 2025 年人工智能有一点是明确的，那就是代理即将到来。按行业划分的垂直代理、水平代理平台。

每个功能的代理。如果您正在运营一家大型企业，那么明年您将尝试使用代理。鉴于这是多么新颖的事情，我们所有人都会回到试点模式。

这就是为什么 Superintelligent 在今年年初提供一项新产品的原因。这是一项代理准备情况和机会审核。在短短几周内，我们将与您的团队一起深入了解哪些类型的代理适合您进行测试，您需要哪些类型的基础设施支持才能做好准备，并最终获得一套可操作的建议，让您准备好弄清楚代理如何改变您的业务。

如果您对代理准备情况和机会审核感兴趣，请直接与我联系，[email protected]。在主题行中输入“代理”一词，以便我知道您在谈论什么。让我们让您成为人工智能市场最具活力部分的领导者。大家好，朋友们。在我们从头条新闻过渡到主要内容时，这里有一个简短的说明。今天我有一个有趣的公告，与 AI 每日简报的新赞助商和合作伙伴有关。

您可能最近经常听到 KPMG 这个名字。我上周做了一部分关于他们 AIQ4 Pulse 调查的节目，这是一项对来自收入超过 10 亿美元的公司中的 100 位业务领导者的调查。然后，当然，我本周早些时候邀请了高级 AI 领导者 Steve Chase。

我去年开始了解 KPMG。他们的许多高级领导都是节目的听众。现在，我们不仅有机会互相了解，而且还在其他情况下进行合作，例如与 Superintelligent 进行学习课程。很明显，他们在生成式人工智能方面非常勤奋、认真和具有前瞻性。

我与他们进行的所有对话都非常丰富、发人深省，而且就我们正在进入的这个疯狂的新未来而言，通常也很有趣。因此，我很高兴他们将在未来一年更直接地支持 AI 每日简报。所以，热烈欢迎 KPMG。我非常感谢他们对本节目的支持，并且很高兴继续与他们一起工作。

有了这些，让我们回到主要内容。欢迎回到 AI 每日简报。今天，我们将做一些与众不同的事情，我对此感到非常兴奋。目前，2025 年是代理之年，这已经不是什么秘密了。

或者至少是代理试点之年。基本上，自从 ChatGPT 发布以来，或者很快之后，人们就已经开始展望能够代表人们使用人工智能工具执行任务的自主代理的可能性，这样一来，您就可以拥有员工、团队，事实上，一支军队为您工作，让您能够做更多的事情，而不仅仅是拥有一个智能助手。

尽管对人们来说非常炒作且令人兴奋，但对此的首次尝试，例如早在 2023 年 4 月的 AutoGPT 和 BabyAGI，在它们能够做的事情方面非常非常有限。事实上，代理一直到目前为止在它们能够做的事情方面都非常有限。

尽管如此，在去年的下半年，我们看到许多非常具体的代理开始进入市场。Salesforce 宣布了他们的 Agent Force，这基本上是 CEO Marc Benioff 在去年最后一个季度谈论的所有内容。Google 在 12 月宣布了 Agent Space，它不仅仅是一个构建代理的框架，而且还开始提供开箱即用的代理体验。

我们有来自 OpenAI 等公司的关于代理的暗示，他们显然将他们的 O1 和 O3 推理模型视为朝着这个方向迈出的一步。我们有 Anthropic 展示了计算机使用，这是一种代理能够像人类一样开始操作和与网站交互的方式。所有这些都创造了一种情景，对于许多大型公司来说，2025 年将是他们首次在代理领域进行实验和概念验证的一年。

我们预计最常见的发生这种情况的领域将是客户服务和编码，但也还有许多其他例子。然而，我们也预计这将断断续续地发生。许多大型公司希望通过代理能够做到的事情，现在还不太可能实现。事实上，我们现在正在部署我们所谓的代理准备情况审核。我们去年年底开始为此做广告，并且一直被想要弄清楚其代理策略的公司淹没，

绝对被想要弄清楚其代理策略的公司淹没。最清楚的一点是，那些拥有明确定义的期望的公司更有可能在这些试点项目中做得更好，并且比那些认为代理可以做他们想象中的所有事情的公司拥有更好的体验，

现在。但话虽如此，重要的是要记住，这是代理有史以来最糟糕的时期。最近在《麻省理工学院技术评论》上，Anthropic 的首席科学家 Jared Kaplan 提出了他认为代理在今年剩余时间里将变得更好的四种方式。我们今天将要做的就是回顾他提出的代理将变得更好的四种方式，然后我们将添加我自己的四种方式。

首先，Kaplan 认为代理将更好地使用工具。他说：“我认为有两种方法可以思考人工智能能够做什么。一种是关于系统能够完成的任务有多复杂的问题。随着人工智能系统变得越来越智能，它们在这方面也越来越好。但另一个非常相关的方向是它们可以使用哪些类型的环境或工具。我们之所以对计算机使用感到兴奋，正是因为这个原因。直到最近使用大型语言模型之前，有必要给他们一个非常具体的提示，给他们非常具体的工具，然后他们就被限制在一个特定类型的环境中。”

我认为计算机使用可能会在模型能够完成不同任务和更复杂任务方面迅速改进，并且还能意识到它们何时犯了错误，或者意识到何时出现高风险问题，需要向用户寻求反馈。简而言之，工具将成为代理真正变得更加自主和普遍化的关键方式。接下来，Kaplan 建议代理将更好地理解上下文。

Anthropic 最近引入了新的功能来训练 Claude 使用特定的语气或写作指南，使其在商业环境中更加有用。对代理执行类似的操作可能意味着能够将一组业务逻辑、行业背景、监管环境等应用于代理。Kaplan 说：“我认为我们将在那里看到改进，Claude 将能够搜索您的文档、Slack 等内容，并真正了解对您有用的内容。这在代理中有点被低估了。系统不仅需要有用，而且在做您预期的事情时也需要安全。”

这绝对是大型公司承诺的事情。Google Agent Space 的价值主张很大一部分在于，这些代理比他们之前的框架更开箱即用，可以访问让您的公司运转的所有信息。

他们写道，Kaplan 还指出，识别上下文意味着减少资源使用。他指出，推理模型不需要费很大的劲就能打开 Word 文档，并评论道：

Kaplan 的第三个预测是一个非常具体的用例。他说，代理将使编码辅助变得更好。开发人员辅助绝对是一个突破性的用例，不仅是生成式 AI，现在也是代理。Kaplan 说：“我的预期是，我们将看到编码辅助的进一步改进。这对开发人员来说一直是一件非常令人兴奋的事情。人们对使用 Cloud 3.5 进行编码非常感兴趣，它不仅仅像几年前那样是自动完成。它真正理解代码中的错误，调试它，运行代码，查看发生了什么并修复它。”

最后，Kaplan 指出了一些他认为是必要的事情，那就是代理需要变得安全。他说：“我们在 Anthropic 发现这一点，因为我们预计人工智能会非常迅速地发展，并认为安全问题最终会变得很重要。我认为这在今年将变得越来越明显，因为我认为这些代理将越来越多地融入我们的工作中。”

我们需要为提示注入等挑战做好准备。提示注入是指能够绕过防护措施偷偷摸摸地传递提示的能力。他继续说道：“提示注入可能是我们在考虑代理的更广泛用途时考虑的首要问题之一。我认为这对计算机使用尤其重要，这也是我们正在积极努力解决的问题。因为如果大规模部署计算机使用，可能会出现有害的网站或其他试图说服 Claude 做它不应该做的事情的东西。”

现在，Anthropic 宣布计算机使用时，真正有趣的一点是，这是人们一直以来都担心的问题。因此，Anthropic 似乎至少与 OpenAI 在同一个页面上，即弄清楚这一切将如何发挥作用的最佳方法是逐步发布，并尝试让人们适应并观察人工智能如何在现实世界中交互。

这些是 Kaplan 关于代理今年将如何变得更好的建议。但正如我所说，我想补充一些我自己的建议。再次强调，这些都来自我们目前正在进行的数十次代理准备情况审核。

因此，代理将变得更好的一个方法，这可能是对理解上下文的扩展，那就是更好的数据。组织现在非常清楚，并且坚信，人工智能对他们工作效果的一个重要决定因素将是他们的数据质量以及这些数据是否准备好被人工智能使用。

在 KPMG 关于人工智能的 Q4 Pulse 调查中，该调查对来自收入超过 10 亿美元的公司的大约 100 位高管进行了调查，这些人实际上将组织数据的质量确定为他们在 2025 年生成式 AI 战略中面临的最大挑战。85% 的人表示他们预计这将是一个巨大的挑战，例如，71% 的人指出数据隐私和网络安全。

这也是我们正在看到的情况。组织非常认真地意识到他们需要如何改进数据，使其更容易被生成式 AI 和特别是代理访问。鉴于这是多么重要的关注点，我认为 Jared 谈到的上下文不仅仅来自对现有数据源的这些随意插件，还将与使数据准备好用于代理的真正重要的企业努力进行交互。

接下来是编排和多代理系统。目前，人们可以合理地为代理进行概念验证的许多用例都非常非常具体，是单代理工作流程。

事实上，大多数人至少在今年上半年，可能在全年的大部分时间里，将要测试的代理都非常接近以前可能被称为自动化的东西。尽管如此，每个人都知道这只是朝着他们真正想要达到的目标迈出的一步，那就是能够端到端地承担复杂任务的代理，而无需人类将它们从一个步骤移动到下一个步骤。这种多代理系统需要编排，而这正是目前代理基础设施发展最肥沃的领域之一。

像 Emergence 这样的公司正在努力开发允许代理协同完成比过去更复杂的任务的平台。我认为，除了看到这些非常具体和单一的代理概念验证之外，我们还将看到企业领导者开始变得更加老练，并实际尝试这些多代理系统。我预计在 2025 年，只有先锋企业，特别是那些在内部拥有更多技术资源的企业，才会这样做，但这不会永远如此。

接下来是一种概括性的说法，可观察性评估和基础设施。基本上，围绕代理的工具在今年也将变得好得多。您开始看到为可观察性等事物构建的专用平台开始出现。在这种情况下，可观察性是指能够完全了解代理实际正在做什么，以便您可以看到它的工作方式，更具体地说，是它在哪里不起作用以及是什么让它卡住了。

如果您在代理 Twitter 上闲逛，您会听到很多代理公司抱怨企业客户尝试使用代理时不想考虑评估。但是，我再次预计第三方平台将开始规范并使其对他们更容易。

总的来说，目前，围绕代理的大量开发工作和创业工作，坦率地说，都投入到了开发人员工具中。更简单地说，只是试图让代理真正像所有业务人员认为的那样工作。然而，我预计在 2025 年，专门针对代理的业务使用而进行的基础设施和部署支持将大幅增加。

这显然是 Superintelligent 作为人工智能转型和劳动力管理平台发挥作用的地方。我认为我们不会独自进行这些努力。最后，让我们谈谈投资回报率。在过去几年中，投资回报率在人工智能方面占据了非常有趣的地位。当您与负责人工智能转型的人交谈时，投资回报率总是离不开谈话。然而，目前它并没有成为采用的障碍。

我的意思是，公司非常强烈地认为这些人工智能工具如此强大，它们最终将使他们的员工工作效率更高，以至于生成式 AI 工具可能在准确解释其自身的投资回报率方面遇到一些麻烦，这并没有减缓采用速度。事实上，人们对采用的推动如此之大，以至于投资回报率已被推迟到以后再解决。

这样想吧。在过去两年中，如果您是一位首席执行官，哪种情况更有可能让您被解雇？说我们不确定生成式 AI 的投资回报率是多少，所以我们将按兵不动，让其他人先弄清楚，然后再加入游戏，还是一头扎进去，说我们还不知道如何衡量它，但我们相当确信那里有投资回报率，我们想走在前面，现在就弄清楚用例以及它实际上如何使我们的业务受益？

这根本不是问题。由于投资回报率衡量标准不明确而放慢速度的想法甚至都没有出现在议程上。与此同时，它潜伏在拐角处。我相信，代理现在在市场上如此爆炸的原因之一是，它们具有内在的投资回报率。如果代理有效，它会以比同等人力成本低得多的价格完成某些任务或一系列任务。句号。

现在，组织选择如何使用这些节省下来的资金是一个完全不同的问题。这回到了我们关于人工智能效率时代或用更少的资源做同样的事情与人工智能机会时代（它不是关于成本节约，而是关于将这些节约再投资于构建根本不同、更具创新性和更好的服务和产品）的频繁对话。但重点仍然是，代理将比他们的人类同等物更快、更便宜，最终也更好地区完成某些任务和任务类别。如果您的机器人完成任务 X，

成本只是同等人工成本的十分之一，那么这里就有投资回报率。我认为，这在很大程度上解释了为什么代理如此有吸引力，以及为什么它们在 2025 年的议程上。然而，在隐含的知识（如果这些事情有效，就会有投资回报率）与实际跟踪和衡量它之间存在很大的差距。我预计这将成为该领域公司和初创公司的一个巨大机会，他们实际上可以帮助企业，而且我预计许多公司都会加入。

在我们帮助公司进行代理准备情况审核以及试点支持（不仅包括范围界定和合作伙伴选择，还包括监控和评估）时，我们当然也在考虑如何实时衡量或至少估计投资回报率。我再次强调，我认为我们不会独自进行这些努力。

这就是我和 Anthropic 首席科学家共同完成的完整列表，在该领域的专业知识方面，这显然是两种非常等效的观点。对于那些不清楚的人来说，这是开玩笑的。再次强调，代理将更好地使用工具。代理将理解上下文。代理将使编码辅助变得更好。代理需要变得更安全。然后是我的补充，企业为获得更好的数据而付出的努力、编排和多代理系统、可观察性、评估和基础设施以及投资回报率跟踪。

8 Ways Agents Will Improve This Year 21:52 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

8 Ways Agents Will Improve This Year