We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 459: OpenAI’s Best AI Agent? The correct way to use ChatGPT’s operator agent

2025/2/11

Everyday AI Podcast – An AI and ChatGPT Podcast

Jordan Wilson: 我认为OpenAI的Operator代理是目前最好的AI代理。许多人错误地使用它,将其用于研究,但实际上它更适合跨多个网站和软件服务执行任务。Operator代理可以访问多个网站,复制和粘贴信息,并登录到不同的产品。它能够处理知识工作任务,连接多个服务,并执行耗时的重复性任务。我建议不要使用OpenAI在其演示中展示的预设提示,例如预订餐厅或购买电影票,因为这些任务人类可以更快地完成。相反,应该利用Operator代理进行基本研究、阅读、写作、总结和数据分析,这些任务无法在ChatGPT或Deep Research中完成。我亲身示范了如何使用Operator代理进行研究,从Google Gemini获取信息,创建幻灯片,并发送电子邮件,展示了其在实际工作中的应用。

Deep Dive

Chapters

This chapter introduces OpenAI's Operator, a computer-using agent built on GPT-4.0. It explains its functionality, access and availability, and limitations, including the need for an active browser tab and the challenges of handling multiple tasks simultaneously.

Operator is a research preview of an agent that uses its own browser to perform tasks.
It uses GPT-4.0 to interpret screenshots and interact with websites.
Currently available to users with the $200/month pro plan, with rollout to $20/month users planned.
Limitations include slow performance with multiple tasks and the need for an active browser tab.

Shownotes Transcript

这是 Everyday AI 节目,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。

生成式 AI 和大型语言模型总是有着巨大的优势,对吧?从 ChatGPT 生成式 AI 的早期时刻到所有这些新更新之间。但是

我认为我们许多人都意识到了这种潜力,特别是如果您是节目的日常听众,但我认为很多其他商业人士还没有。总有一些怀疑者说,好吧,这个 AI 可以做到这一点,但它什么时候才能帮我完成工作呢?好吧,有了 OpenAI 的 Operator,这正是可以发生的事情,这正是我们今天要向您展示的。

大家好!我的名字是 Jordan Wilson,欢迎来到 Everyday AI。这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人不仅跟上 AI 的步伐,而且了解如何利用它来取得进步,发展我们的公司和职业。

因为,你知道,效率和优化是一回事,但当我们实际上可以使用它们来发展时,这就是我们都需要迈出的下一步。如果您还没有在我们的网站上采取这一步,那么您可以采取这一步。因此,如果您是新手,请访问 youreverydayai.com,注册免费的每日新闻通讯。因此,我们将回顾,我们将回顾这个节目,呃,

有一个很好的文章,附带一些额外的资源,但我们还将让您了解 AI 世界中发生的一切,以便您成为公司中最了解生成式 AI 和大型语言模型的人。还在我们的网站上。

您必须查看 2025 年 AI 预测和路线图系列。即使是几周前的内容,它对很多人也很有帮助。我认为我们将进行一些小的更新并再次运行它,因为我认为这很重要,你们都应该听一听。因此,在我们的网站 youreverydayai.com 上,共有五集非常短的剧集。查找 2025 年 AI 预测和路线图系列。

好的。通常情况下,我们每天都会从回顾 AI 新闻中的最新和值得关注的内容开始。今天的节目将非常详细,有很多屏幕共享。我们正在进行现场演示。我将在今天的节目中向您展示 Operator 如何完成我的工作。好的。因此,如果您想要 AI 新闻,请务必在新闻通讯中查看。另外,

如果这个节目对您有所帮助,我会在最后再次提醒您。请务必在 LinkedIn 或 Twitter 上转发此内容。对于转发此内容的每一个人,我都会提供我在 Operator 中使用的完整指令集,这需要很长时间才能配置和正确设置,以及对于在网上转发此内容的任何人。

在 LinkedIn 上。我将把你们所有人纳入抽奖活动,以获得免费的 90 分钟咨询,以便我可以帮助您为您的团队设置 Operator,回答您的生成式 AI 问题,教您使用 ChatGPT,无论是什么。我们将在我们的新闻通讯中赠送这个奖品。

好的,闲话少说。让我们直接进入正题。这是 OpenAI 最好的 AI 代理吗?许多人正在将 Operator 用于完全错误的用例。好的,让我来回答这个问题。是的,我认为这是 OpenAI 最好的 AI 代理。人们正在出于完全错误的原因使用它,对吧?所以,

所以 Operator 实际上是在 Deep Research 之前推出的。所以,你知道,很多人只是涌向,你知道,所有这些,所有这些线程男孩,我认为他们在 Twitter 和 LinkedIn 上是这样称呼的。对。他们,他们收集所有这些用例,并且他们说,哦,你知道,Operator 太棒了。它将,你知道,改变游戏规则等等。对。但是因为,

因为这是在 OpenAI 的 Deep Research 之前,很多这些用例有两件事。首先,它非常类似于 OpenAI 演示的内容,我认为这是错误的。我过几分钟会讲到这一点。然后它只是做了很多研究。但 OpenAI 的 Deep Research 随后不久就推出了。我相信 Deep Research 于 1 月 31 日推出。因此,您不应该使用 Operator 来进行研究。这是一个

代理,一个非常智能的代理,可以在多个网站上工作,复制和粘贴内容,呃,你知道,在不同的产品之间。您可以向它提供登录凭据,呃,到您正在使用的任何内容。所以我认为人们可能以

最糟糕的方式使用它,对吧?所以你必须记住 OpenAI 的其他工具。但我确实认为,你知道,OpenAI 已经正式表示他们已经发布了两个代理。一个在 Operator 中,一个在 Deep Research 中。但我几乎要称之为 2.5 个,因为我认为任务

ChatGPT 任务,您可以在 ChatGPT 中安排任何事情,我认为它实际上具有一些代理能力,因为当您以正确的方式使用它时,对吧?当您动用您的大脑时,我们教过你们如何做到这一点。我们做了一个很棒的节目。我认为这是一个关于 ChatGPT 任务的精彩节目。因此,当您执行所谓的任务堆叠并使用聊天的上下文时,它是一个

它确实具有代理能力。它可以采取行动。它可以为您自主创建新事物。所以,你知道,OpenAI 会说他们已经发布了两个代理,一个在 Operator 中,一个在 Deep Research 中。我会说它是 2.5 个,因为就像我说的那样,我认为 ChatGPT 任务也差不多。好的。让我们深入了解细节。

首先是定义,然后我们将进行现场演示,嘿,早上好,呃,早上好,各位加入我们的人,呃,佩德罗,来自马德里的佩德罗,来自佛罗里达州的杰森,道格拉斯·罗兰多,阿查姆,哈维·卡斯特罗,克里斯托弗,其他所有人,迈克尔·比格·博吉脸,感谢收看,如果您对 Operator 有任何问题,请现在提出,呃,

你知道吗?如果我们有时间,我可能会运行一两个 Operator 问题。好的。我们拭目以待。那么 Operator 到底是什么呢?好的。这是来自 OpenAI 的说法。所以他们说,这是一个研究预览。记住这一点。这是它有史以来最糟糕的状态。这是一个可以利用其自身的浏览器为您执行任务的代理的研究预览。好的。所以它是第一个。这是他们第一次正式发布代理。如果您一直听到“KUA”这个词,所有

好的。这就是它。这是一个计算机使用代理或 KUA。好的。所以它使用 GPT-4.0 来引用“查看屏幕截图”,然后它操作虚拟计算机。所以它的界面与普通的 ChatGPT 略有不同,尽管它本质上是相同的。所以它有自己专用的界面。

您与 Operator 的对话方式与 ChatGPT 一样。它基本上会截取很多屏幕截图。它使用计算机视觉,然后它基本上控制虚拟机上的鼠标和键盘。您可以随时接管控制权。

请记住,显然有一些限制,对吧?我将带您了解其中的一些内容。虚拟机功能并不强大,对吧?所以如果你想,你知道,渲染,你知道,视频编辑程序或虚拟机上的某些东西,这通常需要本地计算机的电力,它将无法很好地工作,对吧?同样,如果您的计算机打开了 30 个标签页,我的计算机也会变慢,那么 OpenAI 的 Operator 也会......

这样。所以记住这一点。有一些限制。您正在使用虚拟机。但是,如果您尝试同时执行太多操作,它可能会变慢。

好的。让我们谈谈访问和可用性。好吧,现在任何拥有每月 200 美元专业计划的人都可以使用它。这就是我正在使用的。OpenAI 首席执行官 Sam Altman 确实表示,这将在未来几个月内推广到 Plus 用户。这就是每月 20 美元的计划。所以有

不,你知道,如果这意味着一个月、两个月、三个月、四个月、八个月,我们不知道,对吧?我们可能会看到一个非常漫长的,就像 Sora 问世那样的推广,持续了八个月,或者我们可能会在几周内看到它推出。所以现在它只对那些使用每月 200 美元专业计划的人可用,这就是我正在使用的。嗯,

但就像我说的那样,它将在不久的将来推出。那么这玩意儿到底是怎么工作的呢?好吧,根据 OpenAI 的说法,它是这样工作的。所以它说 Operator 使用一个名为计算机使用代理或 CUA 的模型,该模型基于 GPT-4.0 来解释屏幕截图并使用典型的浏览器控件(如光标和鼠标)与站点进行交互。

您描述任务示例,例如预订航班、订购杂货,然后 Operator 执行必要的步骤。如果遇到验证码或密码字段等挑战,它将暂停并提示您接管,确保您保持控制。

我的意思是,现在就指出这一点。这些是使用 Operator 的绝对最糟糕的事情,对吧?我过一会儿会告诉你原因,但我们不会做 OpenAI 建议的任何事情,因为这是一种浪费时间的做法。我认为这是一种浪费他们的技术,以他们建议的方式(在他们的网站上和他们演示时)使用它。

好的。让我们谈谈限制,因为每个人都想知道。好的。好吧,如果我要每月支付 200 美元,我可以同时运行 80 个这样的实例吗?好吧,就像我说的那样,它会变慢,对吧?就像普通的计算机一样。每次启动新的 Operator 聊天时,想想看。

想象一下您正在运行 10 年前的旧电脑,对吧?您可能应该一次只做几件事。您可能应该一次打开几个标签页,但是您启动的每个新的 Operator 聊天,它实际上是在启动一个新的虚拟机。但是,现在请记住这一点,您必须使标签页或窗口处于活动状态才能继续运行。所以我一直在尝试一些解决方法,对吧?例如,如果我使用 Chrome 或 Edge,

你知道,启动一个新的配置文件并继续工作。所以希望它实际上在这里能工作,你知道,因为我在同一个实例中。我现在正在使用 Chrome。所以我们可能只能一次做一件事,原因就在于此。但是,你知道,有一些不错的解决方法,但是你必须让它

处于活动状态并打开,对吧?如果您收听了,各位,我的 2025 年 AI 路线图系列,我说虚拟机和第二台计算机将在 2025 年变得非常重要。现在,在这个节目首播几周后,我们就在这里了。是的,现在你知道为什么了,对吧?现在我很高兴我有一堆备用电脑,因为我可以启动两台 Operator,给他们极其详细的多步骤任务,让他们从字面上为我完成工作。对。但我必须等待。因此,据推测,我们将在 Google 的 Mariner 中看到同样的情况,呃,

这实际上是他们的计算机使用代理,有望在未来几周和几个月内推出。如果您想回顾一下这段对话,我确实在周五与 Google 的 Logan Kilpatrick 谈到了这一点。但是

现在是您拥有额外机器的好时机,可以继续这样做,因为就像 Operator 和 Google 的 Mariner 一样,它将作为 Chrome 扩展程序工作,它需要一个活动窗口或活动标签页,因为它实际上是使用您的浏览器实例来使用虚拟机。这就是 Operator 的工作方式。Mariner 的工作方式也是如此。它实际上是使用您的浏览器,因此您无法执行其他任何操作。好的。所以

现在,如果您像我一样,是一个轻微的电脑囤积者,这就是回报的时候了,对吧?因为您可以设置它,并且基本上让一台电脑始终在角落里为您工作。但是您必须投入工作,并且您必须了解它的工作方式以及它的不工作方式。好的。

那么 Operator 能否同时处理多个任务呢?是的,Operator 允许您并行运行多个任务。但是,出于安全原因,Operator 会对您可以同时执行的任务数量和可以进行的开放对话数量设置动态限制。这些限制可能会发生变化。是的。所以没有像硬性限制一样。不像,哦,你可以同时运行两件事或三件事。它是动态的。

这将使现场演示变得有点棘手,因为我们可能会遇到限制。你知道,我昨晚测试了所有东西。一切进展顺利。但是,我的意思是,我们将看看它实际上是如何工作的。对。好的。所以。

让我们谈谈如何实际使用它。所以您不会,它不在同一个 ChatGPT 界面中。您可以访问 operator.chatgpt.com。再次提醒您,您必须使用 200 美元的专业计划。否则,这将无法工作,或者您可以登录到您的普通 ChatGPT 帐户,在您通常会看到 GPT 的左上角将有一个 Operator 图标。然后,就像我说的那样,它必须是一个活动窗口或标签页。那么你应该用它来做什么呢?

对。在这里,我将享受。我将享受这个稍微有点火热的周二。对。如果你们想要的话,我明天可能会为你们准备一个火热的周三。所以,关于应该将哪些类型的任务交给 Operator,排名第一的可能并非您所想。

好的。因为首先您必须了解和理解 OpenAI 的完整工具集。这就是我的意思。您必须了解 ChatGPT 任务。好的。请,请,

请,各位,去听听我的 ChatGPT 任务节目。好的。很有趣。我实际上在节目之后收到了一位来自 OpenAI 的人联系,他们说,你知道,这很棒。就像我从听这个节目中学到了很多东西一样,我当时很震惊。对。所以你需要去听那个任务节目,因为我认为人们不明白。

不明白 ChatGPT 任务有多强大。所以这是第 440 集。去听一听。所以再次提醒,在使用 Operator 之前,您必须了解任务,并且您必须了解任务堆叠。好的。您可以从字面上返回并重新分享该节目,整理一份关于任务堆叠的巨型指南。好的。然后你必须了解任务。

ChatGPT,他们的新模式,O3 mini 加 ChatGPT 搜索。好的。一个可以访问互联网的推理模型,因为它也可以改变您认为可能想要使用 Operator 的目的。对。所以很多事情,你认为,哦,我会用 Operator 来做 A、B 和 C,它可能已经可用,你只是不知道如何使用它。

所以也去听听我们的 O3 mini 节目。对。我不是在这么说,你知道,每次你去听播客我不会得到 20 美元的报酬,我一分钱都得不到。好的。我这样做是为了节省您的时间。好的。并帮助您和您的公司充分利用生成式 AI。所以去听第 456 集关于 O3 mini 的节目。然后

您必须了解 Deep Research。好的,我们在第 454 集中介绍了它。好的,所以 OpenAI 的 Deep Research 非常出色。那是他们的另一个代理。我相信他们在 1 月的最后一天发布了它,所以大约不到两周前。

所以您必须了解 ChatGPT 中这三种或四种工具或模式,因为很多事情,我看到人们,对吧?我出去阅读人们的评论或观看人们的视频,我想,你们用错了。这就像做这件事的绝对最糟糕的事情,因为 Operator 很慢。

它很慢。在许多情况下,它比人类慢。所以你必须记住你交给代理的代理类型。不要把它交给实际上会让代理花费更长时间的事情。那么你应该给他们什么样的任务呢?就像我说的那样,不要给他们 OpenAI 在他们的演示中使用的任何东西。在他们的演示中,OpenAI 和他们的博客文章中,他们非常依赖,我不知道为什么。也许是因为他们

谈论这些事情,我不知道,这有助于您想象一个每个人都有 Jarvis 的未来,对吧?所以他们喜欢订购,你知道,像 NBA 比赛的门票和订购杂货,对吧?不要那样做。不要那样做。仅仅因为你可以,对吧?我认为他们试图进行交易,他们试图向每个人展示,哦,你可以在互联网上购买东西,对吧?然后让 Operator 来做。首先,

这太费时了。你不会通过这样做来赢回你的时间,因为不幸的是,即使你试图过度提示它,Operator 仍然会问你很多问题。好的。一个代理不是一个代理。

如果它必须问你的问题比你自己做需要更多的时间,那么。所以是的,在 OpenAI 演示预订餐厅餐桌、订购门票、订购杂货的演示中,在我看来,这些都是糟糕的用例。

因为这些事情人类可能可以快两到三倍地完成。这实际上是一次相当令人沮丧的体验。我认为其中一个原因,对吧,说实话,他们可能进行演示的原因之一是 OpenAI 将其用作训练数据,对吧?我明白了。

我们需要所有这些训练数据才能构建下一版本的 Operator 和下一个代理系统。我明白了。我明白他们为什么可能会推动这些事情。当然,也许有人可能会发现,你知道,这是一个不错的派对把戏,但我不知道。我不想坐在那里回答,你知道,四到九个问题只是为了预订餐厅的餐桌,对吧?

对我来说没有意义。我想尽可能多地将我的日常工作交给 Operator。坐下来,热一下我的咖啡,然后去做其他事情,对吧?这就是拥有代理的目的。所以你应该使用。你不应该使用预先打包的提示想法。不要使用它们。好的。你应该做的是任何基本的阅读、写作、总结、呃,数据分析任务,嗯,

这不能在 ChatGPT、Deep 或 ChatGPT 或 Deep Research 中完成,对吧?所以你应该做这些涉及你进入多个网站、多个软件服务的知识工作任务。这就是你应该关注的。

好的。就像我说的那样,跨不同领域和服务进行阅读和写作,这是第一位的,这是大型语言模型更擅长的事情。它更快,对吧?它可以,呃,你知道,总结和综合得比任何人都好得多,快得多。好的。所以任何知识工作任务,呃,连接多个服务或任何耗时且发生在多个领域的手动重复性任务。

让我们现场看看。你们准备好了吗?如果说实话,这可能会非常糟糕。让我们看看这是如何工作的。主要原因之一是我必须始终使此标签页处于活动状态。所以即使我试图复制和粘贴一些东西......

它可能无法很好地工作。好的。所以直播观众,如果可以的话,请告诉我您何时可以看到我的屏幕。好的。所以现在我打开了 Operator。我将立即开始处理这个。好的。然后我将向您介绍正在发生的事情。播客观众。我总是提供链接。

到这个节目。这将是一个非常直观的流程。我将尽力向您描述正在发生的事情,但如果您想亲眼看到它,好的,我们总是将链接放在我们的网站上。在网站上,我们放置了 YouTube 视频,或者您可以在 LinkedIn 上观看。好的。所以我刚刚粘贴了一个提示,好的,我将,好的,让我,感谢,感谢直播观众,你们可以看到。好的。那么发生了什么

我将点击这里说“展开”的按钮。好吧,实际上我没有。所以首先,我要写下你知道我在这里有多个屏幕。让我们这样做。让我们这样做。好的。希望,希望。当然,它做了这个。我刚刚登录。我登录到这个。

在我的 Gmail 帐户中,在此之前。测试了一下,它工作正常。所以有时您必须多次输入您的凭据。所以我希望我不必这样做,我希望我们可以自主完成整个过程。好的,请稍等。我正在登录我的,这是我的个人 Gmail。所以请不要给我发垃圾邮件。我想如果你想的话,你可以。好的,好的。所以......

现在我超级超级放大在这里,我无法缩小。请稍等。好的,就是这样。现在屏幕共享应该恢复了。你还在为了弄清楚如何利用 AI 发展你的业务而苦苦挣扎吗?也许你的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力来找到生成式 AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。

像 Adobe、Microsoft 和 NVIDIA 这样的公司已经与我们合作,因为他们信任我们在教育大众如何利用生成式 AI 取得领先方面的专业知识。并且该国一些最具创新性的公司聘请我们来帮助他们制定 AI 战略,并培训他们数百名员工如何使用生成式 AI。因此,无论您是为数千人寻找 ChatGPT 培训,

还是只需要帮助构建您的前端 AI 战略,您也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站上的合作伙伴部分。我们将帮助您停止在这些 AI 圈子里打转,并帮助您的团队取得领先地位,并为生成式 AI 建立一条通往投资回报率的直线路径。我告诉你们,我不总是喜欢这样做。

直播,即使我知道你们喜欢现场直播这些东西。所以让我们看看我能否让它工作,因为当然它在我昨晚演示时一次就成功了。

好的,就是这样。所以我告诉 Operator 要做的事情。所以我复制粘贴了这个。好的。到目前为止,我所做的只是登录到我的 Gmail。我会告诉你为什么。所以我说道,第一步,访问 gemini.google.com 并要求它为 Jordan Wilson 的 Everyday AI 播客完成一份非常基本的 SWOT 报告。然后按 Enter 键,进入我们的直播观众。您会看到它现在正在自行运行。我的手就在这里。我没有输入这个。

好的。我说,第二步,然后转到 Google Slides 并复制粘贴来自该 Google Gemini 提示的输入和输出。然后我解释说,这是在使用它一段时间后。我说有时它可能会要求您安装一个用于复制和粘贴的扩展程序。如果是这样,请允许它。如果不是,请继续进行复制和粘贴,请根据格式自行判断。Google Slides 文档长度应仅为五页。第一页,标题页,

第二页,优势。所以这是 SWOT,对吧?所以基本上是一个标题页,然后是 SWOT 的一页,优势、劣势、机会、威胁。第三步,将 Google Slides 导出为 PDF 文档。

第四步,登录我的 Gmail,然后将该 PDF 报告发送到 [email protected]。写一个简短的主题行和一句电子邮件摘要。然后我说,不要,这部分很重要,各位。在过去的两个星期里,我一直在玩 Operator。所以我说道,不要征求我的许可。

请自行判断。请自主完成此任务。如果您遇到任何问题,请尝试第二次。如果您的第二次尝试失败,请尝试其他方法或在完成目标时发挥创意。您唯一需要做的事情就是完成所有四个步骤而无需人工输入。请自主完成此任务。所以你会注意到我做了

多次提醒 Operator,伙计,别跟我说话,对吧?我不是来做你朋友的,对吧?你有一份工作要做。自主完成这项工作。我给了你详细的指示。慢慢来。确保你正确地完成了这项工作,好吗?

所以你会看到,对于我的直播观众来说,我正在点击这个,并且需要注意一些事情。所以请记住,这是基于 GPT-4 的,但我们几乎得到了 O 级,对吧,O 系列,推理模型。我们几乎得到了这种幕后视角。

它正在做什么。另外,请注意,您可以随时返回

如果你想的话,可以重播这段,对吧?我强烈建议你这样做,对吧?所以,即使你现在没有每月200美元的专业计划,你也需要访问这个。当这个功能发布到Plus计划时,我鼓励你,你必须始终查看这种总结性的思维链。你必须看到并理解它在做什么。你可以通过点击这个展开按钮来做到这一点。

好的,否则你无法真正跟上。所以我点击这个展开浏览器窗口按钮。再说一次,我在操作员界面,你会在这里看到它显示“一个任务正在进行中”。我不想同时执行两个任务。好的。所以我们希望能真正地边走边谈。所以。

你还会看到,当我将鼠标悬停在我的虚拟屏幕上时,它显示“获取控制权”。所以,如果任何事情出错,我都可以点击“获取控制权”。现在,

我不需要。我不得不登录,即使在我点击录制之前,这个功能运行良好。但总有人参与其中,对吧?但在我的提示中,我确实推动并请求操作员独自完成所有这些工作,对吧?使用代理来完成一项需要你五分钟就能完成的任务是没有意义的,哦,使用......

呃,操作员需要我八分钟,这没有意义,对吧?所以你必须投入一些工作,你知道,提示工程101,好吧,你必须投入一些工作来学习,好吧,所以现在

举个例子,我向下看,我看到这里发生了什么,对吧?我可以看到这个逐步思考的过程。所以现在我可以看到它在页面上向下滚动时遇到了困难。所以它完成了这项任务的大约一半。所以它很难找到我要求它生成的SWOT报告的机会部分。所以,再说一次,让我们甚至后退一步。所以我们从操作员开始。

然后我让操作员登录到Google Gemini,对吧?不幸的是,操作员现在无法使用操作员,对吧?但它可以使用许多其他你将登录的工具,这很棒。现在有些网站,我认为随着计算机使用代理越来越普遍,

他们将弄清楚如何阻止这些虚拟机,如何阻止这种虚拟流量,对吧?至少对我来说,它显示为爱荷华州的一个设备。我知道我几个月前读到过,OpenAI、微软和其他公司正在关注爱荷华州的数据中心。所以我不确定是不是这样,或者它是否总是会动态地显示在一个新的地方。所以,如果你要登录需要你凭据的网站,你可能必须进行很多双因素身份验证,对吧?

但在我看来,你应该这样做。所以我不应该,再说一次,我不应该上传敏感的专有文档,诸如此类的东西。你知道,现在,这只是我的个人Gmail帐户,但我让它进入,打开Google Gemini,好吧,运行一个研究任务,对吧?这是我通常会做的事情。

你会看到它已经完成了。所以现在它完成了演示文稿。看起来它现在正在下载。再说一次,我会带大家一起完成这个过程。我想开始第二个提示。

但它已经下载了文件,对吧?我问它。我说,嘿,操作员,出去,使用Google Gemini,然后创建。所以它在Google Gemini和Google Slides之间工作。它正在复制和粘贴所有这些信息。它甚至还在调整文本大小,对吧?因为它会进入一个文本框,而它不适合。所以它正在调整所有文本的大小。这非常令人印象深刻,因为它使用屏幕截图完成了所有这些工作,对吧?

呃,让我们看看,看起来它好像在那里停了,是的,不幸的是,它没有完成整个任务,因为任务的其余部分,让我们看看......让我们看看我是否可以重新输入这个并让它继续进行,你们可能......也许我会分享视频......但是

它昨晚确实完成了整个事情。但是,你知道,生成式AI是生成式的。这是一个掷骰子的过程。它会有点不同。所以看起来它没有做第三步和第四步,那就是通过电子邮件将它发送给我自己。所以我现在只是把它重新粘贴进去。所以它正在进入我的Gmail帐户。它正在点击“撰写”。

好的。所以现在让我们看看。看起来它很快就在那里找到了。它输入了我的电子邮件,呃,[email protected]。它通常难以处理的是附加文件。所以它基本上在这里有这个......一个文件系统......随着时间的推移,我发现操作员在哪里......

共享或保存它下载的文件,因为它位于虚拟机上。我可能必须稍微调整一下这些说明,因为我知道它在那个OAI,那个OpenAI文件夹和共享文件夹中。所以无论出于什么原因,我需要添加更详细的说明来查找它,因为现在操作员很难记住。所以它在那个共享文件夹中。所以我们会看到它在那里双击。

所以是的,无论出于什么原因,它现在都在努力查找文件,但这没关系。好的。所以我要继续。我要停止这项任务。所以我们会给它......我们会给它一个......也许是一个B,一个B或一个C,但让我们做一些更困难的事情,对吧?这是有道理的。你知道,如果它在一项任务中失败了,那就是一个......

十分之三,让我们给它一些极其困难的事情,对吧?这是有道理的。好的,所以现在,直播观众,你们看到了这个。我......这是很长的。这是很长的,对吧?我给它一个非常非常困难的任务。所以这是我一直做的事情,对吧?我没有要求它去订我的披萨或去餐馆

你知道,帮我找到勇士队的门票,等等。好的。所以我在告诉它。这就是我正在做的事情。而且我故意含糊其辞了一点。好的。所以我说对于这项任务,你将在生成式AI中找到一个热门话题,并为Everyday AI播客研究潜在的“热门话题周二”主题。

所以我说,呃,在我给出步骤之前,我正在引导它了解直播观众中正在发生的事情。你们已经可以看到它在我的网站上了。它正在搜索,但我将引导我们的播客观众了解我们是如何到达那里的。所以我说你将研究一个Google URL,确定一个有趣的趋势或故事,这将是一个很好的播客剧集。然后你将使用Google的Google Gemini的深度研究工具对该主题进行更深入的研究。另外,你一定要看看这次聊天的上下文。这很重要,伙计们。

对。灯,灯,灯,宝石,宝石,宝石。对。因为我要做的是我可能每周运行这项任务几次,我不希望它不断地建议相同的事情。所以我在告诉它,伙计,回顾一下这次聊天的上下文。所以不要向我建议你已经做过的事情。

好的。然后我说第一步,首先,你将访问Everyday AI播客剧集页面。所以我没有给它我想要的URL。所以它所做的是它去了必应。它输入了Everyday AI播客。它去了主页。然后它去了剧集页面。它自己完成了这个操作,并且点击了。它点击了搜索按钮。我没有仔细观察它,因为我正在看我的提示,在另一个屏幕上。让我浏览一下,稍微检查一下我的思维链。让我们看看它做了什么。是的。好的。然后它点击了搜索按钮,并搜索了“热门话题周二”,对吧?所以这些是我的周二剧集,有时我会带来一些热门话题。

好的。所以现在,好的,它这次工作了,伙计们,不用动手。这很好。然后我说你需要查看我所有的“热门话题周二”剧集,以便了解主题类型。然后我基本上在Google上给它一个布尔搜索,对吧?这个布尔搜索,它基本上......

但它基本上会显示来自许多大公司过去24小时的AI新闻。所以它......它是一个非常高级的Google搜索。所以我把那个很长的URL字符串复制粘贴到那里。好的。

然后我说,当你将这个粘贴到Google中时,这会向你展示本周一些最重要的AI新闻故事。第三步,你将确定一个可能成为Everyday AI良好剧集创意的热门话题。再次,请密切关注我们已经涵盖的“热门话题周二”剧集类型。第四步,你将研究该主题。

这就是现在屏幕上发生的事情,这需要几分钟。你将使用Google Gemini的深度研究功能来研究该主题。好的。你将访问gemini.google.com,使用屏幕上的帐户登录。它做到了。我说,不要跳过这一部分。所以这次在我没有输入的情况下,它正确地登录了我的Google Gemini帐户。

我有一个付费帐户。然后我说,Google Gemini的深度研究是一个执行研究的AI工具。你需要点击左上角的模型选择器下拉菜单,并选择1.5专业版(带深度研究)。你

你将编写一个提示,指示该模式研究你选择的“热门话题周二”主题,并包含正确研究“热门话题周二”节目所需的相关信息。然后我给它举了一个例子。你应该始终逐步引导它完成这个过程,因为,再次,这是一个人工过程,如果没有分心,我可能需要大约——

20或30分钟。好的。你可能会说,好的,Jordan,看起来它已经花了5到10分钟了。是的。对。但我可以让它自主运行。我相信在不久的将来,也将会有一种安排这些任务的方法。

好的。所以现在在那之后,我给出了它应该输入的提示类型的一个例子。我不会读出来,因为它有点长,但基本上我说的是当你使用Google深度研究时,你需要输入这种类型的提示。所以就像你一样,呃,你知道,给大型语言模型一些例子,对吧?五次示例比零次示例更好。我给它提供了一些关于使用深度研究时哪些好哪些不好的例子。

好的。然后我说,请彻底进行搜索,确保从各个角度解决这个问题。然后我说第五步,Google深度研究将为你提供一个内容计划,你将点击显示“开始研究”的蓝色按钮。对。实际上,Google深度研究内部有多个步骤。所以它首先需要查看我的提示示例。

将其应用于它自己进行的布尔搜索,对吧?所以你们在看这里的步骤数量吗?以及我给这个代理的本质,对吧?我说,伙计,去看看我的“热门话题周二”。基本上像我一样思考,看看我涵盖的内容。然后去完成我的所有研究。我相信它使用了大约40到50个搜索结果,使用了那个布尔策略。

基本上是我与它共享的搜索URL。所以它正在查看所有这些不同的新闻故事,试图根据我已经涵盖的内容来识别趋势。好的,这很棒。最重要的是,不用......你知道,我的手或多或少一直举着,对吧?

呃,然后没有任何其他说明,它直接进入Google Gemini的深度研究。我给它举了一个如何使用它的例子。否则它会很糟糕。它必须验证,对吧?这是另一件事。呃,Google深度研究基本上会启动并为你制定这个计划。呃,然后它必须点击以验证它。然后我告诉它,我认为我告诉它了,或者也许我在另一个地方告诉它了。

好的。所以我......我没有......好的。我做了。好的。所以我确实说了,呃,第七步,你将不得不等待2到10分钟才能完成。对。你会看到在我的屏幕上,现在,它不断......操作员基本上不断地截取屏幕截图。

它不断地说“等待研究分析完成”,对吧?等待研究分析完成。但我告诉它,我说,你将不得不等待2到10分钟才能完成。有一个看起来像两个窗口和一个紫红色状态指示器的小图标。

好的。你需要耐心等待它完成。然后我说,最终在左侧,它会显示类似“我已经完成了你的研究”的内容。然后在屏幕的右上角,将有一个浅蓝色的按钮,上面写着“在文档中打开”。请点击该按钮。所以你们现在可以看到,在Google深度研究中,它已经研究了76个网站,对吧?

我希望将来,对吧,你将能够使用......我相信你将能够使用......你将能够使用OpenAI的操作员进行任务,使用OpenAI深度研究。但现在你不能,对吧?但这就是我总是执行的实际过程。所以你们现在可以看到,直播观众,它现场完成了。

它完成了文档的完成。所以看起来它试图打开文档,无论出于什么原因,好的,就是这样。它不得不尝试几次,但它整理了一个......

它整理了这份文档。所以它是什么,它决定“热门话题周二”是什么,是关于AI对定价的影响及其伦理含义的,这实际上非常......非常引人入胜,对吧?因为当智能变得越来越便宜时,人类会发生什么以及背后的伦理问题,对吧?所以它决定整理的主题非常......非常酷。

好的。所以现在我告诉它,呃,我说,请将此文档保存为PDF。所以看起来它将其保存为PDF。所以很好。然后我还说,在退出此Google文档之前,我们要复制所有文本。你可以通过点击和拖动来完成此操作,或者只需按command a或control a,然后command a或control c。

然后我告诉它,请访问notebook LM,对吧?如果它没有让你登录,请点击“试用notebook,LL”按钮。如果它让你登录,请点击屏幕左上角的蓝色“新建”按钮,这就是它现在正在做的。然后我说,点击“添加来源”。它实际上正在实时执行此操作。然后我说,粘贴所有这些信息。砰。它刚刚做到了。呃......

呃,让我们看看它是否会执行......呃......下一步。这非常......非常令人印象深刻。好。它刚刚点击了“生成”。所以它同时也在为我生成音频概述。对。你们看到这里发生了什么吗?这就是我所做的。这就是我一直做的事情。对。我查看我的网站。我想,好吧,我必须为本周计划一个节目。让我看看我最近涵盖的内容。对。我可能会查看我们播客的统计数据,我也可以这样做。呃......对。我可以这样做。呃......

好的。让我们看看。看起来我希望它会......它会完成所有这些。让我们看看它是否......是否会。但这就是我会做的事情。我会查看我的网站。我会在Google上进行大量研究,你知道,深度......深度研究,老实说,来自OpenAI,但我现在不能这样做。然后我会进入......我会进入深度研究。

我会采用该主题,让它进行大量研究。我会复制粘贴它,将其放入notebook LM,生成音频概述。这就是我实际会做的事情。好的。现在希望它......这会不会很奇怪?呃,让我们看看它。哦,它说在我离开时它暂停了......

因为我没有点击那里。所以我不会把它算作任何东西,因为我只是点击了我的另一个窗口。好的。所以这不是......这不是很疯狂吗?所以现在它将......让我们看看它是否真的可以完成这项任务,因为第一次它失败了一点。好的。我任务的最后部分是访问我的Gmail,将其发送到[email protected]。添加主题行和简短说明。喜欢这个。

哦,看看那个。它实际上做到了。它第二次正确地完成了。它立即找到了附件。砰。看看那个。它完成了整个事情,对吧?它完成了整个事情。好的。所以现在为了希望向大家证明,我将继续打开我的电子邮件帐户。好的。有一个原因。有一个原因我在我的旧......

摄像头这里做了这个。我相信没有人真正注意到,但我必须在我的手机上......我的手机在这里可用,用于所有双因素身份验证,因为现在我的电脑......因为我基本上是从......可能在美国的另一个州使用浏览器,它有点困惑,我不得不重新登录到所有内容,这有点烦人,但这没关系。所以,好的,让我们看看。让我们继续在这里分享我的屏幕,伙计们。

看看这封电子邮件,来自我自己的电子邮件。看看这个。这是电子邮件,伙计们。你好。请找到附加的PDF文档,详细说明了......

我喜欢我刚刚在这里在Everyday AI节目中最好地评价了我自己。然后我可以点击。这是深度研究部分。

所以看看这个。就是这样。然后我可能会更进一步,让它也从notebook LM下载MP3并将其附加。对。但我想要向你们展示一个例子,这就是我实际所做的。对。这项任务可能需要我,就像我说的那样,大约20分钟。我应该计时。我可以回去,我可以回去看看。

你知道吗?我们将分享。我们将分享那个屏幕。所以我们可以回去看看,确切地看看......确切地看看发生了什么。好的。所以如果我到这里,好的。所以它说工作了11分钟。好的,就是这样。工作了11分钟。所以我自己完成这个过程可能,就像我说的那样,可能需要我大约20分钟。所以你可能会想,好的,Jordan,好吧,一个二比一的交易。有什么大不了的,对吧?首先,

我可以去做其他事情,对吧?我昨晚确实让它工作了,那时我没有进行直播,我正在另一个Chrome或Edge配置文件中做我的工作,而且它运行得完美,对吧?所以它只是以非常高的水平完成了我的工作,对吧?而这基本上是我第一次这样做,并且

正如我一直告诉你们的,任何参加过我们......你知道......免费的提示提示抛光课程的人。我知道自从我们这样做已经两个月了。对不起。我们将有新的日期即将到来。我收到了很多关于这方面的电子邮件。基本上我们的......呃......托管提供商更改了他们的计划。所以我们......我们正在移动它。我们正在从头开始重建它,它......

我认为它将成为互联网上最好的基础ChatGPT课程。我认为它将比那些花费......你知道......一千美元的课程更好。所有这些都将是免费的。呃,所以即使你已经参加过我们的PPP课程......比如五次,你也会想参加这个新的更新版本。仅供参考。呃......

所以无论如何,这是一项我会做的任务,获得二比一的回报。无论如何,我回到刚才要说的话,我将回去,我将查看......我将查看这种思维链。我将看看哪些有效,哪些无效。对。好的。只做一次并没有......并没有什么意义。对。这只是为了掌握这个过程。所以我想让你思考,

你跨不同的领域、跨不同的网站(你可能需要登录到这些网站)所做的那些耗时的体力劳动是什么?我刚刚给你们举了一个我经常做的任务的例子。

对。我回去了。我正在查看我的旧剧集。我在Google上进行了一些研究。我在动脑筋。我在思考,对。但我现在可以回顾操作员的思维链。看看......看看我喜欢它做了什么,因为我可以逐字逐句地回顾录音,这很棒。我可以一步一步地看到。然后我可以保存我的指令集,

更改它们,改进它们,对吧?所以也许那11分钟会减少到8分钟,但不仅如此,然后我可以考虑提高输出质量。所以现在我不仅可以节省一半的时间,而且我可以做得更好,对吧?我可以让这项任务......哦,这将是一项现在需要我30或40分钟才能完成的任务。也许我仍然可以在10分钟内完成它,同时做其他事情。

然后想想这三、五、十个你一直做的持续进行的小项目或任务。也许现在没有其他方法可以自动化它们,对吧?也许现在你只是在自动化部分,但你无法自动化整体。

这就是操作员改变这一点的地方,对吧?所以是的,其中一些事情已经......你知道......你可能已经可以通过使用像Zapier这样的东西来完成,通过使用一些API或make.com或类似的东西来完成,对吧?说到这里,

我们必须谈谈API,对吧?这就是互联网上大约1%的人相互交流的方式,对吧?但对于另外99%的人呢?这就是CUA或计算机使用代理发挥作用的地方。你还必须......你知道......向Anthropic团队致敬,他们在10月份推出了他们的计算机使用代理。它只是不可用。

你必须下载Docker,这是一个在你的桌面上极其占用计算资源的程序。你必须进入一个GitHub存储库,并且每五秒钟就会超时。你刚刚看到它独自完成了一个11分钟的任务。我没有限制或任何类似的事情。当然,我使用了每月200美元的专业计划。

好的。我想向你们展示操作员界面上的其他一些内容。好的。就像我说的那样,这确实看起来有点像ChatGPT。好的。一些事情。我希望你可以重命名......重命名这些操作员任务。所以你现在还不能。你只能删除它们。这是需要注意的一点。好的。另一件事。

是你总是会有你的活动任务。所以我同时运行了三个任务。我不知道这是否真的减慢了速度,但请记住,限制是动态的,所以你不知道这实际上意味着什么。让我们进入设置,因为这很重要。所以你可以在这里保存任务。所以我要进入我们刚刚完成的那个,然后我要点击“保存任务”。

好的。它将自动生成标题,详细说明。所以在这种情况下,我不会使用这些详细说明。这是相同的......相同的......呃......我给你们关于ChatGPT任务的建议。永远不要让ChatGPT......

自行保存说明。它不会起作用。所以它实际上只是缩写了这些说明。所以我要手动粘贴所有这些。所以它有它。然后,所以它说标题研究,热门AI主题,详细说明。我手动复制粘贴了这些。然后它说网站,

所以它将使用gmail.com。它将使用youreverydayai.com。所以如果它开始朝错误的方向发展,你可以把它放在那里,gemini.google.com。然后我们有notebook LM。所以现在如果我遇到问题,我可以基本上保存这个。

首先将此保存为任务。让我们看看,它看起来没有保存它。让我再检查一下。我在这里的界面上放大了很多。

我认为我只需要缩小就可以了。就是这样。好的。然后,是的,我可以在这里输入URL,等等。我只是向你们展示一个例子。哦,这是缺点。所以看起来这就是我没有保存的原因。说明不能超过一千个字符,这很糟糕。所以让我们看看它是什么样的。所以这现在不起作用了。好的。好吧,让我们去......让我们点击“保存任务”。对不起,伙计们。好的。我要保存那个。

所以现在它会出现在我的已保存任务中了。所以任何时候我都可以进去修改它。好的。还有其他一些事情。老实说,我认为你甚至不应该太关注这些事情,对吧?所以当你来到这里的主页时,我现在有了我的已保存任务,我可以点击它。我可以编辑它,也可以点击它,它会立即启动。

但是不要注意这些。这些是OpenAI演示的东西。不要注意这些。这些餐饮和活动。这些基本上是预先打包好的提示。看起来OpenAI确实与其中一些网站和公司合作,以提供更无缝的体验。就像我说的,我永远不会将Operator用于任何这些任务,因为它需要太多的人工干预。

我喜欢在使用代理时,我希望节省时间。我不希望坐在那里,然后说,哦,酷。然后每隔45秒回答一个问题。这是浪费时间。对。所以你可以在这里浏览,你知道,使用OpenTable预订桌子或使用StubHub购买门票。你知道,Uber Eats、Instacart。对。所有这些东西。Thumbtack、Uber。我不知道。

我不会用Operator来叫Uber。我会用我的Uber应用程序,对吧?但是需要注意的其他一些事情是,你可以进入你的网站。对于所有这些,你可以给他们自定义指令。对于Booking.com,我可以进去设置指令。我可以说,你知道,我喜欢,你知道,现代化的室内设计,

和户外空间,对吧?所以如果我使用Booking.com或其他任何网站,它都会考虑到这些偏好。所以我希望,所以你可以对他们合作的所有网站以及新闻都这样做。这些都是OpenAI与之合作的所有新闻机构。所以我可以去,你知道,美联社,我可以点击编辑,然后,你知道,为美联社输入自定义指令,作为一个例子。

所以我希望将来能够添加你自己的网站,呃,能够存储所有这些网站的凭据,呃,对。这将非常有帮助。好了,各位。

内容很多。所以我想有一些问题。我知道这已经是一集非常长的节目了。Angie刚刚说,天哪。好的。Sandra说她被震撼了。好的。很好。所以这很有帮助。好的。很好。所以是的,即使这是一集有点长的节目,

一个更长的过程在这里,各位。谢谢。所以,好的,我看到一些问题。我将尝试尽快回答其中一些问题。好的,只是滚动浏览。让我们看看一些问题。

Douglas,你检查过任何开源的Operator解决方案吗?是的。所以有浏览器使用。还有其他一些非常流行的。我已经做了一些测试,但我更多地使用Operator。对。原因是,是的,还有其他一些很棒的开源项目可以做到这一点。我不用它们的原因是因为你必须考虑未来。对。

对吧?未来Operator可能在希望是几周或几个月内能够与ChatGPT任务一起工作。它将能够与开放式研究一起工作。所以在我的想法中,它不值得,嗯,

就像,我认为你必须选择你的生态系统,对吧?而我正在选择,对吧,至少当我使用我的Mac时,对吧,我有我的Windows电脑,我的Windows Copilot加PC,我仍然需要设置和使用。但大多数情况下,我在日常生活中使用的是ChatGPT,对吧?

我有免费计划、付费计划、团队计划、专业计划和企业计划,因为我们为公司提供培训,显然,对吧?这是我的业务操作系统。所以我不,即使有一些,你知道,一些更好的,或者我不会说更好,有一些替代方案可能更便宜,但我没有,

我是在为未来工作,Douglas。我并不是为今天工作,对吧?因为在即将到来的,呃,可能几周、几个月内,Operator可能会开始与OpenAI生态系统中的所有其他产品和工具一起工作。所以,呃,我目前正在构建技能并使用Operator,这些技能将带来回报,因为第一,Operator会变得更好。第二,它开始与OpenAI生态系统中的所有其他产品和工具一起工作。呃,

呃,Woozy。你见过有人用它做过什么最酷的用例吗?Jordan。呃,Woozy怎么了?嘿,对不起你的酋长们,伙计。对不起。呃,遭受了一顿痛打。嗯,好的。那么你见过什么最酷的用例呢?我的意思是,它有限制。

对吧?它有限制,因为现在这个使用的虚拟机没有太多的计算能力。所以如果我诚实地说,一些最酷的东西是我向你们展示的,对吧?使用深度研究,呃,使用其他大型语言模型,我认为很棒。我认为这会很酷,呃,

当它能够持续地处理使用某些东西时,呃,比如光标或类似GitHub Copilot的东西,呃,对。但现在还没有,因为你仍然必须拥有这种所谓的虚拟机计算能力,而它没有。所以任何时候你试图做一些,呃,有点太,嗯,你知道,计算密集型的事情,你都会收到警告。

Sandra,你的提示课程希望在三月份恢复。Pedro,你如何提示模型与其他AI模型进行迭代?所以是的,我刚刚向你展示了一个例子,对吧?它使用了Gemini。所以,我确实给它提供了一个进行深度研究的提示示例。所以你必须在你的指令中给出例子,你知道。

另一个问题,Pedro,你会用它来深入研究X,使用Grok搜索新闻和热门话题,并像你那样处理数据吗?也许吧。我个人认为Grok很糟糕。我认为Grok唯一擅长的是

是在X或Twitter上搜索。在许多情况下,对于我想用它来做的事情,它做得不好。所以很多时候我会说,好吧,今天是,你知道,二月,假设今天是二月十一号,对吧?我会说,嘿,给我二月十一号的顶级AI新闻。它会带来两周前的东西。对吧?所以我认为crock不是一个好的模型。我不建议企业使用它。所以我没有使用Operator来,呃,你知道,做任何事情。Big Bogey说,看起来它需要一些证明它的热门观点。你如何评价它?嗯,

它是A,对吧?尤其是在使用了一些这些开源工具和Claude的计算机使用之后,它是A,对吧?很多时候我发现,一旦你完成并改进,你运行一次东西,一步一步地查看它做了什么,然后改进你的指令。在大多数情况下,它会做得非常好。我的意思是,在我的用例中,我让它

查询某些东西,点击我的网站,点击搜索栏,搜索某些东西,返回,使用分页或分页,对吧?查看我的网站的多个页面,了解趋势,然后使用布尔搜索,研究某些东西,找到它认为有用的东西,进入,然后进行深度研究,这需要多个步骤,对吧?就像你看到的它所做的那样。这太神奇了。也许我只是被震撼了,因为这些都是

我认为是那些我一遍又一遍重复做的平凡、重复性的任务。现在我可以说,哟,Operator,你去做这个。然后它会比我做得更好。因为猜猜怎么了?

它正在使用GBT4模型。所以它能够比我更好地总结、综合和理解信息,句号。对吧?所以我如何评价它?A,对吧?如果我在六个月后查看它,因为它可能会改进,我可能会回顾它并说,哟,那是D。但现在,它非常令人兴奋。

Cecilia,当你的代理登录你的帐户时,你的密码是如何受到保护的?这是一个好问题,Cecilia。我昨晚读到了。我以为我截了个图并把它放在我的演示文稿里。我没有。所以我会确保把它放在新闻通讯里。Pedro,公司应该设置代理帐户吗?是的。我的意思是,公司需要使用代理,句号。是的。

Marie说,我看到它可以保存任务。它是否也保存侧边栏评论?默认情况下会保存。所以你不必点击保存任务来保存侧边栏评论。所以我可以随时查看我在Operator中运行的任何内容,我可以逐字逐句地重新观看整个过程以及评论。所以你只需要点击展开窗口,我就可以像你看到的那样看到思维链。

我可以在那里看到整个循序渐进的过程。好的。Sandra说,它可以使用Canva吗?我不知道。我们应该在这里找出答案吗?好吧,实际上,不,这需要太长时间了。我必须进行二次身份验证。但我相信,是的,根据我的研究,Sandra。但它不会运行得很好。

对于任何你想让它做的非常直观的事情,它都不会运行得很好,因为本质上它所做的,即使是点击并输入内容,它也会截取屏幕截图。所以如果你说,哦,去更新这个模板或创建一个设计,那不是它的用途。对吧?

至少现在是这样,也许将来它会在这方面做得很好。但你看到它为我制作了一个非常,我的意思是,虽然很普通,但它为我制作了一个PDF演示文稿。它调整了字体大小。你知道,它不会赢得任何设计奖项,但它至少进入了Google幻灯片并将所有信息复制粘贴到它为SWOT分析所做的地方。

好的。Doug问,精炼Q原则在这里有效吗?是的,有效。你的基本提示工程基础知识总是有效的。它总是会改进它。你总是需要迭代结果。不要运行一次就说,哦,这是它能达到的最佳状态。不,运行一次,观察它,对吧?仅仅让它运行然后去做其他事情是很诱人的。但同样,想想你每天都要做的那个需要30分钟、需要两小时的任务。

你可能需要比这更多的时间来,你知道,自动化它,并使它成为,你知道,一个可靠的Operator工作流程。但是想想,如果你能做到那个两小时的任务你不需要做,

这太神奇了,但你必须反复迭代。所以是的,我们在我们的免费提示抛光PVP课程中教授的精炼Q方法确实运行得相当好。是的,基本的提示工程,呃,你知道,运行良好。给出例子,告诉它什么好什么坏,对吧?提供反馈。

呃,你知道,每次重新运行它时都要改进你的指令集,呃,调整它,对吧,你需要做这些事情,它不是,你知道,呃,代理系统不是一次性的,它们需要人工干预,它们需要持续改进,持续改进,因为随着我们的发展,它们会越来越好,好的,看起来我已经解决了所有问题,所以

我希望这有帮助,但让我总结一下。OpenAI最好的AI代理是Operator吗?是的,它是。它是我最常用的一个吗?可能不是,对吧?如果我诚实地说,我大量使用深度研究。我大量使用任务,因为它们正在运行,它们被安排好了,它们正在自主运行。但我确实认为Operator是最好的,就像我节目开始时说的那样,

对。我认为很多人正在看到这些单独的,这些碎片化的AI用例。对。但他们说,我仍然必须把这20块拼凑起来。对。所以很多人说,好吧,它还没有完成我的工作。我认为这就是,你知道,AI和大型语言模型的未来。它只是会完成我们的工作。好吧,我们在这里,你知道。

从推理者的步骤到代理。我们到了,对吧?我刚刚向你展示了那是我一遍又一遍重复做的任务。我刚刚在节目中现场训练了Operator来为我做这件事。我会进去改进它,对吧?我会让他们把那个,你知道,笔记本LM深度潜水发给我,或者也许给我发送一个链接,对吧?但现在我可以做得更好。

对。我可以做得更好,而不是可能查看其中一份报告,我可以让它做三份,然后我可以坐下来,我可以阅读报告。我可以收听深度潜水,我可以使用更多的大脑,更多我的创造力,更多我的战略决策能力。对。我可以把一些那些平凡的、重复的手动任务留下来,直到Operator出现之前,我无法完全自动化,但现在我可以了。这就是为什么我认为我没有轻易地说这些话,但是

这是一个革命性的步骤。这是AI未来的巨大飞跃,因为AI的未来,就像我们长期以来一直在说的那样,它是代理的,对吧?它在一个多代理环境中工作,赋予代理决策权、密码,对吧?将一切交给AI系统,让人工干预,然后改变我们人类的工作内容。

好的。我希望这有帮助。各位。如果这样,如果你们想付诸实践,我会给你们发送一个我做了什么的例子。我会把我的指令发给你们。所以只需点击转发即可。如果这有帮助,如果你在LinkedIn或Twitter上收听,只需点击转发按钮即可。你可以在帖子中标记我,你知道,以确保我会把它发送给你们。呃,对于任何转发此内容的人,我把它放在这里。

我不知道我们现在收取多少咨询费,大约90分钟。我认为是,我不知道,大约350美元或400美元,类似这样的价格,对吧?任何在LinkedIn上分享此内容的人,我都会让你们参加一个小型的赠品活动。我可能会在下周的新闻通讯中宣布它。这样一来,我们的播客观众,你们都有时间去点击这个节目的LinkedIn页面。点击转发,对吧?所以-

我不知道是否有两个人或50个人转发了这个。我会把你们所有人的名字都放在一个数字帽子里。我会抽取一个,然后把你们所有人,无论谁赢得这个,都送一份90分钟的咨询。好的。无论你想让我帮助你的团队使用Operator,还是你对ChatGPT有疑问,无论是什么,你都可以获得90分钟。好的。我不会为你们准备任何东西。你基本上只是得到我的时间。

对吧?和我谈谈。我会回答问题,无论你需要什么。我会这么做的。所以如果这有帮助,请务必分享和转发此内容。还要确保查看AI预测和路线图系列。感谢收听。我知道这很长。我希望它有帮助。我希望明天和每天都能看到你们回来收听更多关于Everyday AI的内容。谢谢各位。

今天的Everyday AI节目到此结束。感谢收听。如果你喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多AI魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。

EP 459: OpenAI’s Best AI Agent? The correct way to use ChatGPT’s operator agent 01:08:38 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 459: OpenAI’s Best AI Agent? The correct way to use ChatGPT’s operator agent