We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Next Step in Our Journey to AI Agents: Anthropic's Computer Use

The Next Step in Our Journey to AI Agents: Anthropic's Computer Use

2024/10/24
logo of podcast The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript
People
A
Alex Albert
A
Alex Falcon
A
An AI entrepreneur
B
Blake
L
Liam Alfaro
M
Michelle Zhou
T
Tony Gey
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
多位评论者
Topics
主持人:Anthropic 的 Claude 模型采用了一种与 GPT-4 不同的方法,更擅长处理需要推理和循序渐进步骤的任务,例如编码和数学问题。人工智能发展阶段:第一阶段是对话式AI;第二阶段是具有推理能力的AI;第三阶段是能够采取行动的AI智能体;第四阶段和第五阶段是AI智能体的更高级能力。Anthropic 的“计算机使用”功能使 AI 能够像人类一样使用计算机,这标志着 AI 自主性方面的一大进步,它将解锁许多以前无法实现的应用。Claude 通过计算像素来控制鼠标指针,并能够在遇到障碍时自我纠正和重试,这表明计算机使用能力改变了 AI 的思考方式。Anthropic 的计算机使用功能目前仍处于实验阶段,容易出错,并且一些对人类来说简单的操作对 AI 来说仍然很困难,目前仅通过 API 提供。目前没有在互联网上训练计算机使用功能,并认为在模型风险较低时引入这项功能更安全。 Alex Albert:计算机使用是人机交互方式的重大转变,未来几年,人机交互方式将发生根本性改变,AI 将能够像人类一样熟练地操作计算机,并完成更复杂的任务。计算机使用 API 的一个应用案例是工程师使用 Claude 来点外卖。 An AI entrepreneur:Anthropic 的计算机使用 API 提供了一种让 AI 像人类一样操作计算机的解决方案,但安全问题是一个挑战。 Alex Falcon:Anthropic 的计算机使用 API 可以用于收集信息和填写工作申请。 Michelle Zhou:计算机使用功能可以作为人类反馈的替代品,并加速 AI 智能体的自主化进程。 Tony Gey:Anthropic 的计算机使用模型成本高昂,需要更低的成本或更有价值的用例才能有效。 Liam Alfaro:Anthropic 的新计算机模型可能导致人类不再理解软件界面。 Blake:如果目前的自动化技术是成本最低、速度最慢的,那么未来将会非常激动人心。 多位评论者:Anthropic 的计算机使用功能标志着 AI 智能体时代的到来,并预示着人机交互方式的根本性转变。

Deep Dive

Chapters
Anthropic's new Computer Use feature allows AI to interact with computers like humans, marking a significant advancement. This capability enables AI to perform tasks such as navigating software and inputting information, opening doors to new applications across various fields. This innovation signifies a shift from model-centric to capability-centric AI development.
  • Anthropic's Computer Use allows AI to interact with computers like humans, using a mouse, keyboard, and screen.
  • This is a shift from model innovation to capability innovation.
  • This technology unlocks new applications by enabling AI to use any software.

Shownotes Transcript

今天,在《AI每日简报》中,我们将探讨迈向代理人未来的下一步。《AI每日简报》是一份每日播客和视频,涵盖AI领域最重要的新闻和讨论。加入我们的讨论,让我们一起深入了解。

大家好,在深入今天的主题之前,先快速了解一下。今天我们将跳过通常的新闻头条和主要内容的安排,直接进入关于Anthropic重大突破的详细内容。我相信,深入了解后,你们会明白为什么没有新闻头条。请尽情享受。

本周晚些时候,我们将恢复更常规的格式。过去几周,我们有两次机会停下来,审视AI进化树上一个新分支的萌芽。第一次当然就是OpenAI的出现。

这是他们的推理模型。它不仅仅是GPT-4模型的放大版。它采用了根本不同的工作方式。OpenAI的模型基本上内置了一种“链式思考”方法,它将复杂任务分解成更简单的步骤,并按顺序进行推理,然后再生成响应。

顺便说一下,在提示OpenAI模型与GPT-4模型相比时,我们学到的一件事是,你不需要像以前那样逐个添加步骤。现在,OpenAI模型推理方法带来的净影响是,它能够更好地处理编码和数学问题。在商业应用中,它在基于输入生成明确答案的任务方面表现更好。例如,它可能不像GPT-4那样擅长进行民意调查。

但是,如果你想为大型会议设计一个理想的宴会厅布局,并提供所有相关输入,它在解决这个问题方面将比GPT-4表现更好。虽然差异很微妙,但重要的是,它代表了LLM树上一个新的分支,我们正在迅速而稳步地进入一个新的推理时代,这当然本身就是开启一个新的代理时代。我最近也分享了他们对人工智能的阶段划分。第一阶段是聊天机器人和具有对话语言功能的AI。

第二阶段,OpenAI的模型代表了这一阶段,即具有人类水平问题解决能力的推理者。第三阶段,我们还没有达到,我们的代理系统可以执行行动。第四和第五阶段基本上描述了代理集合可以执行的任务以及更高级的能力。

因此,第四阶段是创新者,即能够进行发明的AI。第五阶段是组织AI,能够完成整个组织的工作。这与Anthropic最近宣布的功能——“计算机使用”——相关。

现在,这只是更大公告的一部分,还包括模型更新,包括升级的Claude 3.5以及一个名为Claude 3.5 High的新模型。但毫无疑问,围绕这次公告的主要讨论和兴奋点是“计算机使用”功能。Anthropic的Claude现在可以像人类一样操作电脑,通过查看屏幕、移动光标、点击和输入文本来控制云端电脑。

Claude 3.5现在可以遵循用户的指令,在电脑屏幕上移动光标、点击相关位置以及通过虚拟键盘输入信息,基本上模拟了人类与电脑的交互方式。他们开始探索的版本有意非常通用。它不是针对特定用例的,这似乎是故意的。

他们写道,大量现代工作都是通过电脑完成的。让AI能够像人类一样直接与电脑软件交互,将解锁大量当前AI助手无法实现的应用。就像OpenAI的模型不仅仅是一个更大或更好的模型,而是一种不同的方法一样。

Anthropic的“计算机使用”功能也是一种能力上的创新,而不是模型上的创新。在过去的几年里,在强大AI的开发中取得了许多重要的里程碑,例如,能够执行复杂的逻辑推理,能够识别和理解图像。他们认为,下一个前沿是计算机使用AI模型,它们不必通过专用工具进行交互,而是能够被授权使用任何软件。

公告中还简要介绍了这项功能的幕后工作原理。他们写道,在开发任务时,Claude会使用电脑软件,并获得必要的云端访问权限,查看用户可见的屏幕截图,然后计算垂直或水平移动光标以点击正确位置所需的像素数。他们继续训练Claude,准确计算像素至关重要,如果没有这项技能,模型很难发出鼠标指令。

因此,这项能力的秘密部分就在于它实际上计算像素。然而,他们还发现这些新能力解锁了许多他们没有专门训练过的能力。他们说,我们对Claude从计算机使用训练中快速泛化感到惊讶。

我们只使用了一些简单的软件,例如计算器和文本编辑器,结合云端其他技能。这项训练赋予了Claude非凡的能力,能够将用户的文字提示转换为逻辑步骤序列,然后在电脑上执行操作。我们观察到,当遇到障碍时,模型会自我纠正并重试,这与使用电脑改变我们思考方式的能力类似,使用电脑似乎也改变了LLM的思考方式。

Anthropic总结了这种转变,称“计算机使用”代表了一种完全不同的AI开发方法。到目前为止,许多开发者已经为模型创建了客户环境,其中AI专门用于设计工具来完成各种任务。

现在,我们可以让模型与我们日常使用的电脑环境中的工具配合使用。我们的目标是让Claude能够像人一样使用现有的电脑软件。现在,让我们谈谈一些需要注意的细节。

首先,Anthropic明确表示,目前这项功能还处于实验阶段,并且容易出错。他们还指出,一些对人类来说非常简单的操作,例如滚动、拖动和缩放,对于Claude的“计算机使用”功能来说是困难甚至不可能的。这是他们发布框架的方式。

这只是一个实验,目前仅通过API提供。普通Claude用户无法直接使用。这需要开发者专门为其创建应用程序。总的来说,Anthropic的语气是,这只是未来的一瞥,而不是一个可以立即投入使用的产品。

他们甚至在录制演示时开玩笑说,我们遇到了一些有趣的时刻。在一次演示中,Claude意外停止了长时间的屏幕录制,导致所有视频素材丢失。后来,在一次编码演示中,Claude暂停了演示,开始生成黄石国家公园的照片。

所以我们可以说,至少机器人的品味不错。现在,我应该指出,Anthropic也讨论了一些安全问题。例如,他们尚未训练“计算机使用”功能来浏览互联网。

他们指出,即使有了“计算机使用”功能,Claude 3.5仍然保持着AI安全级别2,这意味着它不需要比我们目前已有的安全措施更高的安全和安全标准。他们继续说道,如果未来的模型需要AI安全级别3或4的保护措施,因为它们会带来灾难性的风险。

“计算机使用”功能可能会加剧这些风险。我们认为,现在引入“计算机使用”功能,而模型仍然只需要AI安全级别2的保护措施,这可能更好,这样我们可以在风险过高之前开始解决任何安全问题,而不是在模型中首次添加“计算机使用”功能,而这些模型可能存在更严重的风险。从某种意义上说,这与OpenAI一直谈论的安全方法非常相似。

换句话说,逐步部署,让我们能够以更渐进的方式适应新功能。今天的节目由Venus赞助。Venus是一个私密的、未经审查的AI应用程序,它允许访问开源模型,以进行文本、图像和协同生成,而无需担心被监视或您的数据被出售或提供给广告商或政府。Venus与其他AI应用程序不同,因为您的对话和创作将安全地保存在浏览器中,永远不会被Venus存储或访问,也不会被出售。

当有人试图告诉你哪些话可以或不可以说时,那就不再是真正的AI了。Venus只是直接提供机器智能。

没有禁忌话题,没有被禁止的想法,您控制着AI,正如您应该的那样。Venus Pro的订阅价格为每年49美元或每月8美元。AI每日简报的听众可以享受Venus Pro的20%折扣。访问venus.ai/nlw并输入折扣代码NLWDAILYBRIEF。

这是NLW每日简报。一个词,两件事。我感觉有资格谈论组织和生产力应用以及AI工具,这正是我今天很高兴看到《AI每日简报》由Notion赞助的原因。Notion将您的笔记、清单和项目整合到一个简单而美观的设计空间中。新的Notion AI集成了多种AI工具,这意味着您可以在其中搜索、生成、分析和聊天。

Notion的新AI是一个单一的AI工具,可以完成所有这些任务:在Notion和其他应用程序中搜索,以您的风格生成图像,分析PDF和图像,并与您就任何主题进行聊天。Notion是组织任务、跟踪习惯、创建漂亮的图表以及与团队协作的理想场所。您在Notion中投入的内容越多,Notion AI就会为您提供更个性化的响应。基本上,与通用的聊天机器人不同,Notion AI已经了解您的工作流程。

还有很多很棒的集成。Notion利用GPT-4、Claude和AI连接器中的AI知识,目前处于测试阶段。Notion AI还可以搜索讨论、Google文档、表格和幻灯片,以及GitHub和Jira等更多工具即将推出。

Notion被超过500家财富500强公司使用,但更重要的是,我每天都在使用它。免费试用Notion AI,访问notion.com/aidailybrief(所有小写字母)。这是尝试强大且易于使用的Notion AI的链接。使用此链接,您将再次支持本节目。

今天的节目由Super.Intelligence赞助。每个业务流程和功能都在用人工智能进行改造和重新想象。然而,从AI的潜力到实际捕捉价值之间存在巨大的挑战。Super.Intelligence致力于弥合这一差距。Super.Intelligence加速AI采用和参与,帮助团队利用AI提高生产力并创造商业价值。交互式AI用例注册表让您的公司全面了解人们目前如何使用人工智能。

结合这些能力,构建教程、学习路径、案例研究和用例库,Super.Intelligence帮助您公司的员工了解如何从AI中获得价值,同时提供资源,帮助他们将这些见解付诸实践。前三个拥有100个或更多席位的团队将获得免费服务。嵌入式咨询是Super.Intelligence团队与您的组织合作,确定对您最重要的特定用例,并帮助确保这些用例的采用,从而创造实际价值的过程。

访问super.intelligence.com了解更多信息。AI赋能网络。现在回到节目,Alex Albert,我认为他名义上是开发者关系负责人,但在Twitter上自称是Claude关系负责人。他写了一篇关于这次转变代表着多大的转变的好文章。

他写道,“计算机使用”是人机交互完全新形式的第一步。几年之内,我们与电脑的交互方式将与今天大相径庭。“计算机使用”功能允许AI像您一样使用电脑,处理复杂的抽象或特定问题,仅凭视觉理解和交互,就像您使用电脑一样。

他举了一个例子,在视频中,他说道,Claude打开Claude桌面和浏览器,提示打开输出和网站代码,在VS代码中创建一个新代码文件,然后继续修复网站或计算机中的错误。Alex继续说道。这与大多数当前的代理框架大相径庭。

大多数代理都是由多个独立组件拼凑而成的。Alex说,这些组件在某种复杂的架构下结合在一起。我相信,在未来几年内,我们将能够达到接近人类的性能水平,甚至可能更快。

当达到这一水平时,AI可以像普通人一样操作电脑的基本功能。届时,我们可以开始将AI执行的任务串联起来。AI现在正在执行一些电脑任务,而这些任务只需要人类几分钟就能完成。

我们将完成这项任务,然后继续执行两项任务。突然之间,AI将能够完成需要人类数小时或数天才能完成的任务,例如阅读50页的研究报告,创建完整的执行摘要和幻灯片演示文稿。扫描财务文件以构建财务报表。

为网站创建线框图以将其投入生产。Alex继续说道。结合更长的上下文窗口和增强的链式思考,您将拥有AI产品开始形成的雏形,真正的代理难题的各个部分开始融合。

如果您今天正在开发AI,您需要考虑构建补充这项现实的组件,因为它的出现可能比大多数人预期的还要快。Anthropic的计算机使用API是一个有趣的视角。

代理具有挑战性,因为它们必须与其他系统进行交互,而大多数系统都没有良好的接口。一个潜在的解决方案是使用计算机使用API,这允许AI模拟人类操作电脑。这种方法最大的问题是安全性,但它并非没有保障。

现在,让我们谈谈目前可用的用例。当然,有很多关于未来发展的内容,但“计算机使用”功能目前能做什么?再一次,Alex Albert写道,这是一个有趣的故事。

在开发“计算机使用”功能的过程中,我们组织了一场工程故障排除会议,以确保我们发现了API的所有潜在问题。

这不仅仅是让一群工程师聚集在一个房间里。几个小时后,我们都饿了。因此,我们的其中一位工程师第一个“计算机使用”请求是要求Claude导航到DoorDash,以便为我们的一群人点餐。

大约一分钟后,我们看到Claude决定帮我们订披萨。Alex Falcon和AI of Angeles的重量和偏差,以及周四AI播客的主持人,再次感到震惊,Anthropic的Claude演示了计算机使用功能,并为我工作,所以我只是要求它自己修复。所以它完成了。

Anthropic最近发布了计算机使用API,开发人员可以使用它来指导Claude像人类一样使用电脑。然后,他分享了一个视频,展示了如何使用该API收集信息并填写求职申请。

我无法形容我上次看到新AI功能如此兴奋。我们插入电脑,使用“计算机使用”代理作为人类反馈的替代品,它就能工作。

我觉得我们的代理很快就会完全自主。现在,那些已经接触到这项功能并有机会进行实验的人,除了任何怀疑之外,已经有了些许进展。这不仅仅是长期问题,而是非常短期的。例如,一些对公告的回应是,这仅仅是更快的马吗?

开发人员Tony Geys写道,首先,看着Anthropic的Claude计算机使用演示,感觉很酷,但令人失望,而且肯定不划算。仅仅为了访问和浏览几个网站,就需要花费15万个令牌,要么模型必须变得更便宜,要么您的用例必须非常有价值?还是我漏掉了什么?其他人则担心AI将如何改变我们的生活。

Anthropic的新计算机模型标志着一个新时代的开始,在这个时代,人类将不再需要理解软件。我们今天使用的界面将变得毫无用处。我认为这是一个合理的担忧,但也是一个悬而未决的问题。

在哪些具体方面,以及如何理解界面对我们来说很重要。正如我所说,已经有很多实验正在进行,如果这是自动化最慢、最便宜的方式,那么我们将会迎来一个疯狂的未来。我尝试了一些不同的任务,其中一项涉及管理我的Facebook群组,发布和拒绝成员请求,效果很好。

我尝试预约理发。似乎有效,但遇到了API速率限制。我尝试了演示中创建网站的任务,最终Claude总结了大部分情绪,写道,今天我们进入了一个代理时代。

微软现在,更确切地说,是Anthropic今天迈出了AGI方向的新一步。你的行动,OpenAI。Anthropic领先。现在,真正代理化AI的曙光来临。

虽然今天我们看到的是API使模型能够与系统交互的早期阶段,但我们正在迅速接近一个错误,即智能和自主系统将深度集成到我们的操作系统中,充当智能系统,理解并执行我们的意图。我一直认为,计算的未来不仅仅是更聪明的算法。更多参数、改进的调整,而是关于能够主动参与我们数字环境的智能自动化系统。

在多模态模型的计算机交互能力方面的进步,仅仅是一个新趋势的开始。随着这些模型更多地集成到我们的操作系统中,我们将看到我们与技术互动方式的根本转变。这是关于社会变革和不可避免的。

这就是Anthropic的计算机使用。Nathan,是吗?是的,我仍然在能力上受到限制。

但是,就像其他一次又一次的突破一样,这是人工智能进化树上一个新的分支,朝着一个非常不同的代理未来迈进了一步,这将是理想的简短。一如既往地感谢您的收听。下一次再见,和平。