OpenAI的新型Operator代理正在引起轰动。在本集中,我们将探讨用户测试其功能的七种现实世界的方法。从处理杂货购物和账单支付等日常任务到销售拓展和应用程序开发等更宏伟的应用,Operator正在为自动化设定新的标准。了解其潜力、局限性以及塑造其使用的创新理念。 由以下机构为您带来: 毕马威——访问 www.kpmg.us/ai 了解更多关于毕马威如何帮助您利用我们的AI解决方案创造价值的信息。 Vanta - 简化合规性 - https://vanta.com/nlw Superintelligent提供的代理准备情况审核——访问https://besuper.ai/ 以请求您公司的代理准备情况评分。 AI每日简报帮助您了解AI领域最重要的新闻和讨论。 订阅AI每日简报的播客版本,无论您在哪里收听:https://pod.link/1680633614 订阅时事通讯:https://aidailybrief.beehiiv.com/ 加入我们的Discord:https://bit.ly/aibreakdown
</context> <raw_text>0 今天在AI每日简报中,OpenAI发布了其代理Operator,在此之前,头条新闻报道了特朗普总统关于AI的行政命令的最新情况。AI每日简报是一个关于AI领域最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。♪
欢迎回到AI每日简报头条新闻版,所有您需要的每日AI新闻,大约五分钟即可看完。今天是我们将两个主要剧集压缩成一个剧集的日子之一。稍后在主要剧集中,我将讨论OpenAI的Operator。但对于头条新闻,我们将讨论一系列特朗普的政策,首先是关于人工智能的新行政命令。
几天前,星期一,拜登的AI行政命令是被新政府撤销的众多命令之一。公平地说,2023年该命令的实质性部分已基本执行完毕,主要涉及政府部门提交报告。主要的持续政策是通过AI安全研究所进行的强制性测试和披露制度,主要实验室可能会自愿继续这项工作。
Anthropic首席执行官Dario Amadei本周早些时候甚至评论说,撤销“没什么大不了的”。那么,最大的问题是将由什么来取代它。我们不必等很久就能找到答案,特朗普在周四概述了他的AI议程。AI主管David Sachs在椭圆形办公室向总统解释了这项命令,他说:“......我们宣布政府的政策,将使美国成为人工智能的世界之都,主导并引领世界的人工智能发展。”
总的来说,新的行政命令主要是将氛围转向AI加速,并略带一点文化战争的意味。它说,
当然,这是文化战争的一部分,正如从报道了“不受意识形态偏见影响”部分的媒体可以看出的一样。尽管如此,总的来说,这项命令为美国设定了新的总体政策方向,即“维持和增强美国在全球AI领域的优势,以促进人类繁荣、经济竞争力和国家安全”。
从实质上讲,这项命令指示白宫的几位顾问负责人提交一项行动计划,在180天内实现这一政策。因此,虽然其内容可能有所不同,他们寻求的行动计划也可能有所不同,但该行政命令的功能与拜登发布的命令并没有太大区别,因为它实际上更像是让白宫各机构围绕一套新政策达成一致的第一步。
Sachs当然在这个过程中发挥着主导作用,与科技顾问和国家安全顾问一起。国内政策顾问和管理与预算办公室也需要提供意见。该命令还指示Sachs调查所有机构根据拜登行政命令采取的任何行动。他必须确定它们是否“与新的政策指令不一致或对新的政策指令构成障碍”。在60天内,各机构必须停止任何被认为是问题的举措。
就是这样。一份简短的一页文件,与拜登冗长的111页行政命令相比。
我认为大多数人的感觉是,特朗普政府知道它想要加速AI发展,但还不确定需要采取哪些步骤来做到这一点。这项行政命令基本上是在插旗,表明重要的一步是取消拜登的限制,即使这些限制微乎其微。正如配套情况说明书所称,拜登的AI行政命令为开发和部署AI的公司设定了不必要的繁重要求,这将扼杀私营部门的创新,并威胁到美国的科技领导地位。
同样,Sachs在福克斯新闻上表示,核心点是让美国成为AI领域的全球领导者。
不出所料,很多人担心接下来会发生什么。拜登政府时期白宫科技政策办公室代理主任Alondra Nelson指出,各机构将负责审查“已经在帮助人们的举措”,其隐含意图是取消这些举措。她继续说道,在60天内,我们将知道特朗普政府认为在人工智能时代哪些美国人的权利和安全值得保护,以及是否将为每一位技术专家、开发人员和创新者提供公平的竞争环境,还是仅仅为科技亿万富翁提供公平的竞争环境。
另一方面,对于行业和加速主义者来说,态度可以用基于Beth Jezos的观点来概括,她写道难以想象的EACC胜利水平。
现在,也许一个更有实质性的政策,通过在达沃斯的一次虚拟露面传达出来,是特朗普总统宣布计划加快AI数据中心的能源政策。他说,我正在剪辑、编辑和释义,因为我们谈论的是特朗普总统,“......我们将迅速批准在美国建造发电厂。我们需要美国目前的两倍能源,才能使AI真正达到我们想要的大小。我将发布紧急声明,以便他们几乎可以立即开始建造。”
国家能源紧急状态是在总统就职第一天宣布的,并指示政府部门利用他们掌握的任何工具来加快建设速度。这项政策的新内容是,政府取消了约束AI行业的任何气候目标。对特朗普来说,这似乎意味着回归煤炭能源。他说,美国有一些公司在工厂旁边堆放着煤炭,因此如果发生紧急情况,他们可以回到使用煤炭。当然,这并不一定意味着大型科技公司会突然开始建造大量的煤电厂。
他们的气候目标与员工和领导层的内部压力以及公众认知一样重要,也与政府政策一样重要。相反,许多人预计的是建造燃气涡轮机,燃气涡轮机可以快速且相对廉价地建造,以及削减核设施周围的繁文缛节,以确保新项目不会陷入我们过去几年看到的监管泥潭。
这项政策的另一个支柱是确保新的数据中心能够建造专属的内部发电站。电力公司过去曾反对联合选址,警告称这可能导致供应短缺。然而,更现实的是,联合选址往往只是淘汰了这些中间商,并减少了等待建设新基础设施的需要。乐观的说法是,随着连接电网的平均等待时间膨胀到数年,这一政策变化可能会显著加快新数据中心的部署速度。
最后,关于星门计划的更新。参与者声称他们有资金,尽管埃隆·马斯克这么说。周二宣布的5000亿美元的星门计划震惊了AI行业,这意味着基础设施建设规模甚至超过曼哈顿计划。
并非所有人都相信这一点,埃隆·马斯克说他们实际上并没有钱。然而,根据信息,他们确实有钱,或者至少有足够的钱开始。他们的报告称,软银和OpenAI分别向这家合资企业投资了190亿美元,尽管OpenAI究竟从哪里获得190亿美元还不完全清楚,而甲骨文和阿布扎比支持的基金MGX分别再投资70亿美元。距离该项目第一年的1000亿美元价格标签还差几便士,但他们可能足够支付。至少特朗普总统是这么认为的。
当被问及埃隆的说法时,特朗普说:“我不知道。他们正在投入政府没有投入的资金。他们非常富有。我希望他们能做到。”然后他指出,埃隆只是讨厌其中一个人。他理解,因为他自己也讨厌人。
就是这样。与此同时,关于该项目范围的更多细节正在浮出水面。一位与《金融时报》对话的消息人士表示,星门计划不会出租其计算能力,并评论道:“其目的不是成为世界的数据中心提供商。它是为开放式AI服务的。”另一位消息人士表示,细节仍在制定中,并表示他们还没有确定结构,还没有确定融资,也没有承诺资金。然而,第一个数据中心正在德克萨斯州阿比林建设中。Sam Altman发布了该广阔场地的视频,并评论道:“大型、美丽的建筑。”
就这样,我们将结束头条新闻。接下来是主要剧集。今天的剧集由Vanta为您带来。信任不仅仅是赢得的,更是被要求的。无论您是正在应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。
企业使用Vanta通过自动化合规需求来建立信任,涵盖35多个框架,如SOC 2和ISO 27001。集中的安全工作流程使问卷调查速度提高了5倍,并主动管理供应商风险。Vanta可以通过将您与审计师和专家联系起来,帮助您启动或扩展您的安全计划,以便快速进行审计并建立您的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。
加入Atlassian、Quora和Factory等9000多家全球公司,使用Vantage实时管理风险和改进安全。
在有限的时间内,本观众可以获得Vanta的1000美元折扣,网址为vanta.com/nlw。即v-a-n-t-a.com/nlw,可享受1000美元的折扣。如果2025年AI有一点是明确的,那就是代理即将到来。按行业划分的垂直代理,水平代理平台。
每个功能的代理。如果您正在运营一家大型企业,那么明年您将尝试使用代理。鉴于这有多么新颖,我们所有人都会回到试点模式。
这就是为什么Superintelligent在今年年初提供了一项新产品。这是一项代理准备情况和机会审核。在短短几周内,我们将与您的团队深入探讨哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好了解代理如何改变您的业务。
如果您对代理准备情况和机会审核感兴趣,请直接与我联系,[email protected]。请在主题行中注明“代理”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。您好,AI每日简报听众。快速休息一下,分享一些来自毕马威最新AI季度脉搏调查的非常有趣的发现。
您是否知道,67%的商业领袖预计AI将在未来两年内从根本上改变他们的业务?然而,并非一切顺利。他们面临的最大挑战包括数据质量、风险管理和员工采用等问题。毕马威正走在帮助组织克服这些障碍的前沿。他们不仅仅是在谈论AI,他们正在领导这项工作,提供切实可行的解决方案和现实世界的应用。
例如,超过一半的受访组织正在探索使用AI代理来处理行政事务和呼叫中心运营等任务。因此,如果您希望在AI领域保持领先地位,请关注毕马威。他们不仅仅是谈话的一部分,他们正在帮助塑造它。访问kpmg.com/US了解更多关于毕马威如何推动AI创新的信息。
欢迎回到AI每日简报。昨天,我发生了一件经典的事情。这个节目是每日节目,对吧?一周中的七天中有六天,AI每日简报都会与您讨论最新的AI新闻和讨论。您可能会认为,每日的频率足以捕捉并及时了解所有新闻。
唉,有时即使这样也不够。昨天,我们遇到了这种情况,剧集的头条新闻部分谈到了Operator似乎本周即将推出。在我完成录音和实际发布之间,Operator已经发布了。在我录音时,我感觉会发生这种情况。但无论如何,这意味着我们今天可以实际查看Operator,它当然是OpenAI的第一个真正的(或至少被宣传为真正的)代理项目。
他们称它为一个可以使用自己的浏览器为您执行任务的代理。所以让我们找出它是什么,然后我们将讨论人们已经使用它的七种方法。Operator的开发时间很长。事实上,就在几周前,还有新闻报道称,我们正在探索诸如为什么OpenAI尚未发布代理之类的问题。他们的公告文章将Operator描述为一个可以访问网络为您执行任务的代理。有趣的是,它使用的是自己的浏览器。
借助该浏览器,它可以查看网页,并通过键入、单击或滚动与网页进行交互。OpenAI在某种程度上在这里树立了一个关于代理是什么的旗帜,将它们称为能够独立为您完成工作的AI。您给它一个任务,它就会执行。他们建议这个Operator的研究预览版本擅长重复性的浏览器任务,例如填写表格、订购杂货和创建模因。
现在,就其实际工作方式而言,它与Anthropic的计算机使用模式的设计有一些相似之处。该代理会不断截取屏幕截图以查看它在网络浏览器中的操作,并可以使用鼠标和键盘进行控制。但与Anthropic不同的是,OpenAI将其实现为完全远程设置。收到指令后,Operator会在云实例中打开自己的虚拟浏览器窗口。您可以观看它执行任务,也可以单击离开并继续执行其他工作,而Operator则在后台工作。
用户可以完全控制他们的计算机,Operator在其自身完全封闭的浏览器中运行。这当然限制了它可以执行的特定操作,但同时也使其更易于使用。OpenAI已与StubHub、DoorDash和OpenTable等特定主要网站合作,试图改进和简化集成,但理论上,Operator可以访问它执行任务所需的任何网站。
这里也有很多人工参与。OpenAI写道:“如果Operator遇到挑战或犯错,它可以利用其推理能力进行自我纠正。如果它卡住并需要帮助,它只需将控制权交还给用户,确保流畅且协作的体验。”
事实上,除了帮助Operator处理某些类型的問題外,接管还需要完成某些任务。例如,此版本的Operator无法访问信用卡详细信息,因此如果这是完成任务的一部分,它会将系统交还给用户以完成该特定步骤。Operator还会在其任务的关键时刻请求反馈。在幕后,OpenAI已经微调了GPT-4.0的版本来驱动Operator,他们称之为计算机使用代理,或CUA。
就基准测试而言,Kua在WebVoyager(一项实时网站导航测试)中实现了87%的成功率,在WebArena(模拟电子商务和内容管理情况)中实现了58.1%的成功率。比VanillaGBT4O好得多,但肯定不是在这些类型的体验变得普遍之前我们想要的可靠性水平。
说到这里,正如VentureBeat指出的那样,TikTok母公司字节跳动昨天也推出了自己的用于控制网络浏览器的AI代理,名为UITARS。他们写道,它是完全开源的,并拥有同样令人印象深刻的基准性能,这让他们想知道人们是否愿意每月支付Chatshippity Pro的200美元,这是目前获得Operator访问权限的唯一方式。正如OpenAI最近发布的惯例一样,该功能仅适用于美国的专业用户,Sam Altman表示,欧洲将需要一段时间。
所以现在让我们谈谈人们实际使用Operator的一些方法。请记住,这些都是非常新兴的、第一次测试的用例,并且总是不可避免地需要一些时间才能真正找出使用Operator提供的任何新功能的最佳方法。当然,就OpenAI如何定位这一点而言,这与我经常在节目中所说的我认为在消费者方面不会成为代理行为真正驱动力的一些非常基本的助手任务有很多相似之处。
最终,无论我是对的,这些都不是代理行为的长期驱动力,还是我错了,这正是人们最终想要使用代理的原因,很明显,它们作为测试案例以及训练和赋予代理能力的方式是有价值的。许多人分享的第一个用例是某种形式的杂货购物。事实上,OpenAI团队使用这个例子来演示Operator的功能。他们给它一张纸上写下的购物清单,说:“你能帮我买这些吗?”Operator会将清单带到Instacart,
找到商品并将其添加到购物车后,询问是否应完成订单。
在一个加密货币蓬勃发展的周,另一个实验性用例(来自Rowan Chung,他当然负责运行rundown)是基于实际上值得关注的代币的加密货币投资研究,这很贴切。显然,您可以将此用例概括为研究。我认为这个例子有趣的原因是它展示了人机界面的一个部分。在某个时刻,Operator遇到了RU人工验证码,并向Rowan发出信号,让他再次接管以确认并继续前进。
第三个非常常见的演示用例(再次是我之前抨击过的用例)是旅行规划。Y Combinator总裁Gary Tan写道:“OpenAI Operator非常令人印象深刻。计划一次即兴前往拉斯维加斯的旅行,它能够浏览JSX的网站并处理异常情况,基本上能够找出售罄的情况,更改日期和时间,现在它正在找出周五晚上两人在哪里吃饭。”
我会说,对于这种类型的助手用例,旅行越复杂,换句话说,需要解决的细节越多,我就越能看到这种类型的界面(只是与您聊天以获取它需要执行的信息)成为一个真正有用的更新。第四个用例,这个用例再次来自Rowan,是根据我妈妈的喜好为她寻找一份合适的生日礼物。关于这个实验,有两点很有趣。首先,它无法访问某些时间和网站,并且能够转换思路并找到另一个可以执行类似操作的网站。
此外,除了寻找特定商品外,它还更进一步,实际上帮助比较并找到了网络上的最佳价格。第五个用例,继续围绕例行常规任务的主题,A16Z合伙人Olivia Moore说:“我刚刚给Operator一张我收到的纸质账单的图片。仅从账单图片中,它就导航到网站,调出我的帐户,输入我的信息,并要求提供我的信用卡号码以完成付款。”
再次,您在这里看到的是,它不会在没有人工批准的情况下采取实际输入信用卡号码的最后一步。尽管可以推测,从长远来看,这可能是人们越来越习惯于实际允许的事情,并且各种代理助手也能够实现。第六个用例,我认为从商业角度来看,这变得更有趣一些,实际上是将该工具用于销售。这来自Pocketflow AI的Helena Zhang,让我们听听她做的30秒钟的事情。
嗨,这是一份我们希望与之合作的公司中杰出女性的名单。我想联系他们的AI主管,并发送这样的消息。所以我提示了Operator并与Operator交谈。这太酷了。所以基本上,Operator在这里所做的是获取一个姓名列表,找到他们的LinkedIn个人资料,并在联系请求中添加一条消息,有效地进行潜在客户开发。
最后,我们的第七个用例,我再次看到了许多不同的例子,是使用代理来构建应用程序。Baby AGI创建者和风险投资家Yohei写道:“我使用OpenAI Operator在GitHub上使用ReplitAgent构建、部署和开源了一个工具。大约花了30分钟。”他还提供了一些反馈,写道:“在使用ReplitAgent时,它实际上部署了应用程序,对其进行了测试,并将错误描述回ReplitAgent。Operator向我提出的问题比我想要的要多,但这主要出于安全考虑,例如填写表格,所以我对此还可以接受。”
它在一些UI方面遇到了麻烦,例如知道它需要滚动页面才能看到其余部分,并且它需要指针才能在Replit中找到git功能。一旦找到git功能,它就不需要我的帮助来创建存储库并在创建自述文件后开源。虽然速度有点慢,但这比Replit Agent更自动化,尤其是在测试功能和处理错误方面,这令人印象深刻。
顺便说一句,Yohei构建的应用程序是“带有改进的经典待办事项应用程序”。它是为代理准备的。代理创建、读取、更新、删除任务的API。用于手动管理任务的用户Web UI。用于测试端点和API性能指标的测试UI。Kishan还制作了一个应用程序,分享了一个视频并发推文:“使用ChatGPT Operator使用Bolt创建一个项目管理应用程序。一个使用编码代理的通用代理,它运行得非常好。我甚至部署了该应用程序。这太疯狂了。”
所以基本上,正如他所描述的那样,我们在这里拥有这个通用代理(即Operator),它使用特定的Bolt代理(一个Web编码代理)来创建某些东西,并且它运行良好。当您看到像这样的事情时,它开启了根本上新的可能性和以前从未可能实现的事情,这就是为什么我对非常基本的、肤浅的“帮我买杂货”类型的任务更持怀疑态度的原因。
当然,助手可能会在这些事情上变得如此出色,以至于它甚至不值得花费几分钟来做这些事情。但肯定的是,让我兴奋并我认为将推动更多采用的是这些以前从未可能实现的事情,例如以这种方式构建完整的应用程序。
最终,我将人们对这方面的总体态度描述为,虽然它不是闪电般的ChatGPT风格的时刻,但Operator还不错。它在所有方面还不够出色。它有一些挑战,但这绝对是未来的预览,以及我们前进的方向。我预计在接下来的几周内,我们将看到大量不同的用例被抛给它,并且可能有一些用例开始成为真正有价值且经常有价值的用例。