We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP 441: OpenAI’s o1 Pro: What is it and is it worth $200 a month?

EP 441: OpenAI’s o1 Pro: What is it and is it worth $200 a month?

2025/1/16
logo of podcast Everyday AI Podcast – An AI and ChatGPT Podcast

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript
People
J
Jordan Wilson
一位经验丰富的数字策略专家和《Everyday AI》播客的主持人,专注于帮助普通人通过 AI 提升职业生涯。
Topics
我深入探讨了 OpenAI 的 O1 Pro 模型,这是一个与传统 Transformer 模型不同的推理模型。它更擅长处理复杂推理问题,但每月 200 美元的订阅费用相对较高。O1 Pro 使用链式思维,需要较长的思考时间,但能提供更可靠的答案。它在数据科学、编程、法律和 STEM 领域表现出色,但缺乏网络访问和一些工具支持。与 GPT-4.0 等模型相比,O1 Pro 更擅长复杂推理,而 GPT-4.0 更擅长快速处理常规任务。O1 Pro 的价值取决于用户的具体需求和预算,需要权衡其高精度、高可靠性与高昂费用的关系。对于拥有大量数据并需要进行复杂决策分析的用户,O1 Pro 的价值可能很高,因为它能节省大量时间并提高效率。但对于只需要处理常规任务的用户,GPT-4.0 可能更合适。

Deep Dive

Chapters

Shownotes Transcript

这是 Everyday AI 节目,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。有一种新型的大型语言模型,您可能还没有使用过。

即使是我们这些每天关注生成式 AI 的“书呆子”,也有很多人没有真正使用过、弄清楚过或找到这些新型推理模型的用例,例如 OpenAI 的 O1 和 O1 Pro。所以今天我将专门介绍 O1 Pro,告诉您它到底是什么,它适合谁,

它是如何工作的,以及最终它是否物有所值。是的,您看到这个新的 O1 Pro 的价格了吗?每月 200 美元。

其中还包含其他内容,但我认为我们已经被大型语言模型的廉价和可用性所宠坏了,尤其是在价格持续暴跌的情况下。然后你看到像 O1 Pro 这样的模型每月 200 美元的订阅费用,你会想,这是什么,值不值得?

好了,我们将在今天的 Everyday AI 节目中解决这个问题,以及更多内容。大家好!我是 Jordan Wilson,Everyday AI 的主持人。这是您的节目。这是您的秘诀。这是一个每日直播播客和免费每日通讯,帮助我们所有人不仅跟上 AI 的步伐,而且了解我们如何实际利用它来发展我们的公司和职业。这就是您如何成为公司中最聪明的人,成为您部门的 AI 专家。

好了。无论您是否知道,我们都需要它。对。我已经说了很多年了。即使您不认为自己是书呆子或古板的人,我们都必须学习如何充分利用 AI。好的。您开始学习的地方是,好吧,您正在收听,也在 youreverydayai.com。这是我们的网站。在那里,您需要注册免费的每日通讯。每天,我们都会回顾

当天的节目,以及每日通讯中的许多其他信息。你知道,最新的新闻、趋势、来自互联网的最新发现、教程,你需要知道的一切。

它是您每天的指南。去读它。它不需要很长时间。此外,在我们的网站上,您可以收听来自世界领先专家的 430 多集节目,所有这些都是免费的,并按您的类别排序。因此,请点击我们的网站上的 AI 学习轨道或这些剧集。找到您关心的任何内容。它可以是营销、法律、技术、治理。我不在乎。所有这些都是免费提供给您的。所以请务必查看一下。

说到查看内容,1 月 20 日星期一,请标记您的日历。下周我们将进行五集节目。这些不仅仅是我们对 2025 年 AI 的预测,更像是应对即将发生的一切的路线图。是的,我在 2024 年真的花了

数千个小时与聪明人交谈,思考 AI,阅读有关 AI 的信息,撰写有关 AI 的文章。这是所有这些的总结。您不会想错过它。召集您的董事会。召集您的团队。您需要收听。好的。在我们进入今天的节目之前,我很兴奋。让我们首先回顾一下今天的 AI 新闻。直播观众,感谢您的加入。我有一些问题要问你们。请告诉我。

好的。首先,谷歌正在与美联社合作,利用实时新闻更新来增强 Gemini。因此,谷歌的 AI 聊天机器人 Gemini 将整合来自美联社的实时新闻,这标志着科技巨头与主要新闻出版商之间的一次相当重要的合作。因此,这项协议允许美联社向 Gemini 应用程序提供持续的实时信息流。

美联社的首席营收官强调了此次合作的重要性,强调了对无党派报道和准确新闻的承诺。协议的财务条款尚未披露,这引发了有关补偿以及美联社的内容如何在 Gemini 应用程序中获得认可的问题。

这是与之相关的另一条新闻。谷歌和美联社的这笔交易恰逢 OpenAI 宣布与 Axios 建立新的合作伙伴关系以扩大地方新闻编辑室。因此,OpenAI 将资助 Axios 的地方新闻编辑室扩展到几个城市,包括匹兹堡、堪萨斯城、博尔德和亨茨维尔,这标志着它首次直接资助出版商协议中的新闻编辑室。

因此,这为期三年的合作伙伴关系允许 OpenAI 使用 Axios 的新闻报道来回复 ChatGPT,同时为 Axios 提供 AI 工具来创建内容和分发系统。是的,我真的很兴奋。我们很快就会有一集专门介绍 AI 对新闻业的影响的节目。我以前是记者。所以,你知道,这将是一场与我息息相关的谈话。最后一条 AI 新闻,微软推出了一种新的基于用量的软件

面向企业用户的 AI 驱动的 Copilot 聊天。因此,微软的董事长兼首席执行官萨蒂亚·纳德拉在最近的一次活动中介绍了一类新的 PC 和内置生成式 AI 工具的 Copilot。因此,新推出的 Microsoft 365 Copilot 聊天提供了一种替代现有的 Copilot 服务的方案,该服务每月每位员工的费用为 30 美元。

每月的费用。所以现在这是基于用量的。是的,Microsoft 365 Copilot 聊天基于用量。因此,新模型允许组织根据实际使用情况付费,对吧?如果您公司有数千名员工,也许并非每个人都准备好投入数百万美元。因此,正如我所说,新模型允许组织按实际使用情况收费,费用按发送的消息计算,每条消息起价仅为 1 美分。

这可能会鼓励公司更广泛地采用。与普通的 Copilot 一样,Copilot 聊天可以总结文档、获取网络信息和创建执行任务的代理。与也集成到 Word 和 Excel 等应用程序中的传统 Microsoft 365 Copilot 不同,Copilot 聊天可以通过各种平台上的 Microsoft 365 Copilot 应用程序访问。好的。请告诉我。你们想了解更多关于 Copilot 聊天的信息吗?请告诉我。

你知道,好的。我很高兴开始。所以让我们谈谈它。Open AI 的 O1 Pro。直播观众,感谢您的加入。你们都用过这个吗?播客朋友们也是一样。我总是说,查看节目说明。您可以在 LinkedIn 上联系我,发送电子邮件到节目。我想听听你们所有人的意见,对吧?我告诉你的信息越多,我就能做得越好,但我很好奇我们的直播观众。你们都在使用 Open AI 的 O1 Pro 吗?

O1 Pro,请告诉我,但让我们直接进入正题。闲聊够了。所以这是 O1 Pro 的要点。好的,它是一个推理模型。

好的。它分为两类。因此,GPT 系列模型是 Transformer 模型,对吧?这是区分两者最简单的方法。许多其他公司,例如谷歌推出了他们的闪念思考,这是一种推理模型。亚马逊 Nova 有一个推理版本 DeepSeek,中国 AI 公司也是如此。就在过去的四周左右,

几乎所有大型科技公司都表示,我们需要一个推理模型,因为我们看到了它的强大之处。因此,O1 是一种推理模型,不同于 GPT 模型,对吧?GPT 4.0,我们已经使用了两年多的所有其他模型,它们都是这种 Transformer 模型,它们完全不同。我们将讨论两者之间的区别,但这才是最重要的事情。它在幕后使用链式思维,并且,

我喜欢说,当您使用 ChatGPT 时,你们有没有不同类型的同事,对吧?对于我们这些可能仍在办公室工作或混合办公的人来说,你们有那些同事,你们正在完成工作,但你们有那些通过交谈工作的同事。

对吧。你们只是来回沟通,来回沟通。然后你们有那些戴上耳机工作的员工或同事。你们只和他们谈一次,然后在一天结束时与他们核实。对吧。那些是戴上耳机进行深度工作的员工。他们只是全力以赴。把它想象成这两种不同类型的大型语言模型。对吧。有些人。

你与之共事的人,对吧?需要大量的谈话,对吧?需要大量的对话,需要大量的协作,你知道,这就是他们工作最好的方式。然后还有一些人,他们不想说话,把所有信息都给他们,给他们指示,如果他们有任何问题,让他们提前提出问题,然后他们开始工作,你们稍后再见到他们。因此,后者,这就是这些新的 O1 模型。好的。例如,对于我们的直播观众,您可能在屏幕上看到它,呃,

我截取了这个屏幕截图,但是是的,通常当我向这些模型提问时,需要 4 到 15 分钟才能得到回复。至少在我使用 O1 或至少 O1 Pro 的时候是这样。所以我确实使用了,你知道,ChatGPT Pro 帐户,对吧?所以每月 200 美元。我会,我会,我会分享其中包含的内容,但总的来说,当我使用 O1 Pro 时,我知道这是我的深度工作同事。我仍然每天都在使用 GPT 4.0,

整天,每天。我喜欢在画布模式下使用它。我刚开始真正使用新的任务模式,如果您昨天收听了我们的节目,我们已经介绍了该新模式。顺便说一句,对于那些昨天分享了该剧集的人,我可能花了……

大约三个小时在一个文档上,向您展示如何使用任务以及如何介绍任务概念、任务堆叠的概念。老实说,这是我一生中创作的最好的文档之一。因此,如果您还没有分享昨天的任务剧集,请这样做,我会与您分享该文档。

你。好的。这就是要点。这是一个推理模型。这不是 GPT 模型。思考需要很长时间,它在幕后使用这种链式思维过程,对吧?因此,您真的必须在正确的时间、出于正确的目的、出于正确的理由使用它。

嗨,我是 Jordan,Everyday AI 的主持人。我已经在 ChatGPT 中花费了超过一千个小时,并且在我的免费 Prime Prompt Polish ChatGPT 课程中分享了我所有的秘密,该课程仅提供给像您这样的忠实听众。查看自由职业营销人员 Mike 对 PPP 课程的评价。我刚参加了 Jordan 的网络研讨会。

太棒了,价值巨大。它是现场直播的,所以您可以得到问题的解答。我对此非常兴奋。这是一个令人难以置信的资源。几乎所有东西都是免费的。我很乐意为 Jordan 提供的许多内容付费。因此,如果您想知道是否应该参加网络研讨会,只需抽出时间参加即可。这绝对值得。每个人的提示都是错误的,而 PPP 课程可以解决这个问题。

如果您想要访问,请访问 podpp.com。再次强调,是 podpp.com。注册免费课程,并开始让 ChatGPT 为您工作。让我们快速浏览一下。

等级或订阅。有一个免费版本的 ChatGPT。本周我有很多关于 ChatGPT 的节目,因为这是年初。很多人都在问,我们一年前也有一些很受欢迎的剧集,我想,伙计,这些都过时了。所以本周,我们做了一集关于 ChatGPT 免费版与付费版的节目。好的。您有免费的 ChatGPT,它实际上……

现在已经相当不错了,对吧?我过去常告诉人们,不要碰它,离它十英尺远。它很危险。现在不再是这样了。免费版已经相当不错了。您有 20 美元的付费计划,我认为很多人都在使用,呃,它基本上提供了几乎所有功能,除了 O1 Pro 模型。因此,即使在 ChatGPT Plus 上,您也有 O,

O1,在消息传递方面受到更多限制,并且您有一个 O1 mini。但是对于专业版计划,如果您想使用 O1 Pro,它在技术上是 OpenAI 最强大的大型语言模型,

您确实必须每月支付 200 美元才能使用该专业版计划,O1 Pro,但还有许多其他,我想,功能和好处。当我们谈论 Sora 时,您在 Sora 中的使用次数要多得多。您可以无限次使用 GPT-4.0,而通常情况下,即使在 ChatGPT Plus 计划中,您也会,

您会遇到限制。因此,您基本上在专业版计划中获得了更多限制。它是无限的,嗯,GPT 4.0,它是无限的高级语音模式,而 Plus 计划则略有局限。然后您可以访问所有 O1 Pro,您只能通过呃,每月 200 美元的订阅来访问。是的,这很令人困惑。是的,Allison 正在谈论这里的命名。嗯,这很奇怪,因为 Plus,呃,

每月 20 美元,而许多公司,如微软,他们的呃,20 美元的月费被称为专业版。即使是我,也经常感到困惑,但是是的,所以 ChatGPT Plus 20 美元,专业版 200 美元,不要与所有其他那些为 20 美元等级的专业版混淆。是的。呃,好的。

所以让我们谈谈 OpenAI 如何描述他们的模型。他们说,对于更困难的问题,需要更多的思考能力。他们说 ChatGPT Pro,在这种情况下,他们指的是 O1 Pro,实际上提供了访问我们最智能模型的版本,该模型会更长时间地思考以获得最可靠的响应。在外部专家测试人员的评估中,O1 Pro 模式产生的响应更可靠、更准确、更全面,

尤其是在数据科学、编程和案例法分析等领域。与 O1 和 O1 预览相比,O1 Pro 模式在数学、科学和编码方面的具有挑战性的机器学习基准测试中表现更好。好的。是的,说到基准测试,本质上 O1 Pro 是博士水平的,对吧?你不再……

真的需要努力了。这就是另一件事。我认为对于像 GPT-4.0 这样的模型,您可以获得这些所谓的博士水平的回复。您只需要拥有硕士学位水平才能达到那里,对吧?O1 则有所不同,尤其是 O1 Pro。

您不需要拥有丰富的经验就能使其达到这种,我们不妨称之为所谓的博士水平。它可以自己做到这一点,因为它在幕后使用了这种逐步的链式思维推理。对吧。这很奇怪。我一直都在谈论这个。如果您参加了我们的免费 Prime Prompt Polish 课程,您就会明白这一点。

GPT-4.0 系列模型具有极强的能力,但要充分利用它,您必须了解提示工程的基础知识,对吧?不用说得太技术化,有一些叫做“示例”的东西,对吧?当使用 Transformer 模型或 Transformer 系列模型时,无论您是在谈论 ChatGPT、Gemini、Claude 等,对吧?如果您掌握一些提示工程的基础知识,它会更好。例如,五次示例提示总是比零次示例提示更好。这意味着,

我将在这里进行简化。对不起,机器学习博士们。示例是指您向模型提供输入和输出的示例。告诉它好坏,为什么。这就是我喜欢说的。输入、输出配对,好坏,为什么。因此,您实际上是在向这个模型提供示例。这就是……

O1 和技术上 O3,对吧?就像 OpenAI 预告了 O3 模型一样。它还没有发布。我认为它不会很快发布,但是这个 O 系列模型会自己经历这个过程,对吧?它不会自己举例说明,但它会经历这种链式思维。我将在屏幕上向您展示一些示例。但从基准测试的角度来看,收益是巨大的,对吧?因此,一些最大的收益是

在 O1 系列和 GPT 4 系列之间,在数学方面。我的意思是,你自动就获得了奥林匹克数学竞赛的金牌、银牌和铜牌,对吧?所以它比 99.9999995% 的人都聪明。

呃,在物理学方面,也是如此,从呃,O4 到,对不起,呃,到 GPT 4.0,我有点超前了,跳过了 O3,你知道,4.0、O3、O1,呃,字母汤已经出来了,呃,其他类别。是的,数学、物理学、呃,

LSAT,对吧?所以,你知道,他们让实际模型参加考试。所以非常大。因此,显然,如果您从事软件开发、研究,或者从事任何与复杂数学、复杂方程、商业智能相关的工作,对吧?

呃,如果您基本上是在处理数字,处理研究,我认为 O1 可以证明其自身价值,但我将继续进行。呃,我们将讨论一些日常用例。所以首先你可能,你可能已经感到困惑了,对吧?因为我正在把所有这些不同的呃,

词语扔到你的头上。O1,这个,O1,那个,O1,对吧?因为技术上 O1 已经存在一段时间了。所以我们在 9 月份看到了 O1 预览版和 O1 mini。是的,所有其他发布了这些所谓的推理模型的大公司。呃,这只是最近几周的事情。OpenAI 已经存在几个月了,从 9 月份开始。他们发布了 O1 预览版和 O1 mini。

然后在 12 月份,他们基本上取消了预览版,并表示,好的,现在这是 O1。因此,从技术上讲,如果您考虑的是能力,并非所有这些模型都在这里,但您有 O1 mini、O1 预览版(现在已不存在)、O1 和 O1 Pro。因此,O1 Pro 和 O1 的完整版本都是比较新的。它们只发布了几周。我一直在使用它。我

我没有立即得到它,可能是在它发布后大约一周左右。所以我已经使用了大约三个星期了,而且使用得很频繁。好的。让我们快速浏览一下。直播观众,是的。继续提出您的问题。我将尝试在最后解决其中一些问题。Mark 说,Jordan,看起来有很多工作要做。感谢您的发送。哦,是的,那是昨天的任务。任务堆叠。昨天每个人都忽略了 ChatGPT 任务。

我认为 OpenAI 也错过了重点。好的。让我们快速浏览一下要点细节。我将快速浏览这些内容,因为我将在节目的最后向您展示。对于播客观众,我将尝试引导您完成此过程。即使是非技术原因,O1 也会发挥作用。那么什么是 O1 Pro 呢?好的。让我们在这里浏览所有要点。我想确保我向你们提供所有细节。所以……

O1 Pro 是 OpenAI 的高级模型,ChatGPT 用户每月可支付 200 美元使用。此外,还有其他第三方平台,您只需按使用情况付费即可,对吧?您无法访问所有其他工具和所有这些。但这里有一点,至少现在,O1 模型,它本身并没有所有其他工具,对吧?它没有互联网访问权限,对吧?O1 Pro 模型,对吧?

O1 Pro,您实际上可以上传文件,这很好。您也可以在 O1 上使用它。而以前,O1 系列模型无法上传文件。而且在 O1 Mini 上,您仍然无法上传文件。但它被描述为,O1 Pro 被描述为用于复杂任务的 AI 同事。它更侧重于推理而不是协作。

它是如何工作的呢?好吧,正如我们所讨论的,增强推理。它具有这种链式思维处理能力,可以实现更好的逻辑分解。准确性和可靠性。我们之前在节目中分享过这个内容。OpenAI 大约四年前介绍了这种 4/4 可靠性概念,对吧?其中 GPT 系列模型的变异性较小。对于 O 系列模型,可靠性要高得多。

此外,这是专门为专业人士设计的。如果您是专业人士,O1 适合您。因此,它在 STEM、编码、法律和数据科学方面都很强大。优势。

这个优势到底是什么?好吧,正如我们所说,增强推理。因此,幕后的链式思维处理可以实现更好的逻辑分解。我们谈到了 4/4 的可靠性。因此,这基本上是,你知道,当 OpenAI 进行内部基准测试时,他们不会只做一次,然后说,哦,好的,是的,这通过了。他们实际上会做四次,以获得更一致的结果。好的。

那么它在哪些方面表现出色呢?所以我说,嘿,这就是你可以使用它的地方。这里有一些强大的用例。它在科学研究方面表现出色。因此,分析数据集、发展假设、设计实验、财务建模、预测、复杂计算、法律工作流程,对吧?分析案例法、总结文档,对吧?

它擅长任何与 STEM 相关的事情,对吧?任何事情。因此,它专门用于综合和分析密集型数据源。这里有一点,我将在最后向您展示一些非技术用例以及我如何使用它。我们都可以访问数据。

在过去的 5 到 10 年里,数据曾经是极客的东西。现在我们都可以访问数据。收集的数据越来越多,这就是为什么我认为人们实际上可以使用 O1 Pro 模型的用例很广泛的原因。

那么它擅长什么呢?我已经谈到过这个了,但这就是人们一直在问的问题。就像,对吧。它在哪里表现出色,它是什么样的,它擅长什么?谁应该使用它?所以我,我想从各个方面来解决这个问题。所以,呃,它适合谁?因此,STEM、金融、法律和医疗保健领域的专业人士,优秀的医疗保健,呃,

用例也是如此。因此,任何需要准确性和高级推理来完成高风险任务的用户。开发人员也同样适合任何从事软件开发和编码的人员。因此,处理复杂的编码和调试要求,以及需要精确度的医学等领域的专业人士。好的,现在让我们进行分解。人们总是问,有什么区别?

我应该只使用 4.0 吗?我应该使用 O1 Pro 吗?我喜欢这样说,把这两个健谈的同事想象一下,对吧?在大多数情况下,我们已经被这些功能强大的 Transformer 模型宠坏了。如果您知道如何使用它们,我仍然会说 80%。

商界人士不知道如何使用 ChatGPT 之类的东西,而 ChatGPT 现在已经成为 AI 的代名词,并且像谷歌一样具有知名度,人们仍然不知道如何使用它,对吧?而且处于领导地位的人,有点可怕。但是 O1 Pro 擅长复杂推理。GPT-4.0 擅长,好吧,速度快,一般任务,对吧?此外,GPT-4.0 可以访问更多工具,对吧?

这很重要。因此,您可以在 O1 Pro 中上传文件,但您无法使用画布等功能。您无法使用任务等功能。您无法使用

ChatGPT 搜索,将其连接到互联网。这是一件重要的事情,因为当您使用非连接模型时,您必须记住,您最好向它提供大量最新数据,或者您所询问的内容最好不需要大量最新的现实世界信息,因为该模型没有这些信息。那么您应该如何提示 O1 Pro 呢?这就是它完全不同的地方。再次强调,想想我的比较。

还有其他人有那种健谈的同事吗?然后是那个戴着耳机工作的同事,对吧?我就是后者。你永远不会猜到,对吧?一个不停地谈论 AI,有时说得太久的人。但是,你知道,即使是我的记者生涯,对吧?我过去是那种人。我会在完成任务后去那里。我会去和我的编辑谈谈,获得我需要的所有信息,对吧?然后我会坐在后面,戴上我的耳机。那甚至不是耳机。

我不知道这是否让我很奇怪。我会戴上那种,你知道,降噪的。没有音乐。我会戴上那些东西。我会开始工作,完成所有事情。对吧。但是还有一些人,你知道,嘿,他们想在每一个点上进行检查。对吧。但这就是区别。所以对于 O1,

首先,你需要大量数据和上下文。你需要清晰且结构化的提示来有效地定义任务参数。你需要提供示例或模板来指导模型的输出格式。你需要使用简洁而信息丰富的措辞来最大化响应的相关性。如果你参加过我们的免费Prime Prompt Polish课程,是的,我们将在2025年推出新的课程。

请稍等一分钟,我稍后会解释原因。但是,你知道,我们会讲解一个叫做“优化队列”的东西。所以,如果你参加过我们的免费课程,大约有8000人使用这种优化队列方法来设置你的第一个提示给o1。你仍然需要回答一两个问题,因为这是我们设置优化队列的方式。但是试试看,它会运行得相当好。那么让我们进入重点问题。

它值每月200美元吗?让我们来谈谈利弊。优点是精度高

在复杂的领域中具有很高的准确性和可靠性。独特的推理能力,特别是如果你从事一些更专业的技术工作,例如软件开发、工程、任何涉及数学、研究、数据、科学、STEM 的工作,对吧?如果你从事这些工作,是的,它可能很值得。可能是不费吹灰之力的事。对于其他人呢?因为也有缺点。200美元并不便宜。虽然说实话,

我认为我们已经被这些免费和每月20美元的世界级最先进模型宠坏了,这些模型现在基本上都有小型RAG,对吧?我们被宠坏了,对吧?因为大型公司,他们知道很多公司都在亏钱,对吧?比如OpenAI据报道在2024年亏损了40亿或50亿美元,因为他们不担心赚钱。如果你是一个高级用户,你会得到

远远超过每月20美元的东西,对吧?OpenAI首席执行官山姆·阿尔特曼说,即使是在这个200美元的专业计划中,他们也在亏损很多钱,这就是他所说的。这仍然相对便宜,无论我们说的是每月20美元,还是如果你有它的用例,我认为即使是每月200美元,也很实惠,对吧?考虑到所有因素。我们将看到一个例子。因此,最终有优点和缺点。它就像拥有一个博士级别的程序

伙伴,它会思考问题,给你更好的结果,更高的准确性,如果你知道如何指导它的话,但它速度要慢得多,对吧?所以,如果你习惯于来回快速地交流,这就是你使用大型语言模型的方式,而且你现在没有发现输出有任何问题,那么它不适合你。

但我认为它实际上比你想象的更适合更多的人。我认为人们只是在想,哦,o1,那是给工程师、数据科学家、研究人员等等用的。我不这么认为。所以你还需要问问自己,是的,你需要高级推理和专业工具吗?你的领域中是否有值得这个溢价的用例?

所以你真的需要问这些问题。没有一个通用的答案。我认为如果有人问我,免费的ChatGPT还是ChatGPT Plus,很容易选择。我不在乎你在做什么。ChatGPT Plus 20美元,太划算了,对吧?我一直都说,如果ChatGPT Plus是200美元,我仍然会付费。对吧?显然我有一个ChatGPT专业计划。

好的。让我们现场看看。好的。请继续提出你的问题。我只是在浏览评论。所以,呃,感谢大家,呃,提出你们的,提出你们的疑问。我将尝试在最后解决它们,呃。我只是在浏览所有评论,寻找问号。所以是的,如果你确实有疑问,呃,

那么,你知道,提出来。道格拉斯谈到了我们昨天的节目。很棒的任务总结。我认为昨天是第一天。我在你的网站上看到了你帖子的链接。是的。好的。让我们开始吧。让我们现场做一些事情。所以请耐心等待,各位。好的。我们将要做的是

直播观众,一如既往,我永远不知道这是否有效,或者我的音频是否仍在传输。你能告诉我吗?你们都能看到我的屏幕吗?你们能看到这里发生的事情吗?所以我会在开始之后向你们解释我在做什么。好的。所以我将在这里复制粘贴大量信息。好的。请稍等。好了。

这些是我从我的播客统计数据中导出的信息,对吧?我真的很想确保我有。好的,很好。好的,谢谢大家。好的,每个人都说他们能看到。谢谢大家。谢谢大家。好的,所以

我处于o1专业模式。好的。我会告诉你们这些,呃,我会读给你们听,但我,我会先开始,因为就像我说的,这可能需要几分钟。好的。所以这是我的第一个技巧,对吧?呃,提供大量上下文。我会带你了解我提供的上下文,但也有一些最近发生变化的事情。呃,呃,我不知道是什么时候,可能是大约一年前。你现在可以运行并发聊天了。

生成式AI,甚至是o1 Pro,都是生成式的。即使你给它大量信息,你也可以运行相同的提示。你可能会得到非常不同的东西。你可能会得到类似的东西。所以我会继续,即使它可能会减慢速度,我也会遵循我的最佳实践,对吧?如果我在等待,我会继续等待。所以我实际上是在另一个标签页中运行完全相同的提示。好的。让我们继续。让我们在这里检查一下。好的。我们将逐步讲解。所以有时……

它会给你细节。有时它会告诉你它在幕后做了什么,对吧?我知道我在这里有我的令牌计数器,但是上下文窗口大不相同。我可能应该提到上下文窗口的差异,因为这也很重要,对吧?所以基本上,O1 Pro 有一个大得多的上下文窗口。所以

呃,让我们,让我们继续,我现在要读了。我现在要读我实际输入的内容。好的。我会尽量快速一些,但就像我说的,我导出了,呃,一些最近的播客剧集。有很多统计数据。这是一个例子。我希望你想想你有什么数据或大量的上下文?因为这是,我发现自己当o1发布时。

我想,好吧,我可能不在STEM领域。我可能不在数据分析领域,但我可以访问大量数据,而且我没有时间,或者当我分析它时,我只是在寻找容易获得的成果。如果我有时间,可能会有更深入和更多不同的渠道可以探索。好的。我会快速一些。

所以我说这些是我的播客统计数据。记住我说过,当你提示o1时,把它想象成那个想要所有信息的同事。然后他们会走到角落里。

所以我说这些是我的播客统计数据。请记住,今天的日期是2025年1月16日。对于所有问题,始终排除排名前2%和后2%的剧集,除非另有说明,对吧?我有很多剧集,它们的下载量,一些其他统计数据,有时也会出现异常情况,对吧?有时只是出现问题,我不希望这些问题被包含在内。

好的。所以你已经看到这可能是很多手工工作。即使你擅长商业智能,擅长电子表格,对吧?我也说总是给出剧集编号和名称。永远记住这一点,请仔细回答并告诉我问题一,告诉我每集的平均下载量。问题二,给我一个完整的剧集列表,以及相对于调整后平均值的新的性能百分比(高于或低于)。所以我在问它。

找到调整后的平均下载量。去掉前2%。去掉后2%。然后去给我每个。我想看看它与平均值的比较情况。所以假设平均下载量是,我不知道,4000次,对吧?我想看看。

百分比,一旦你剔除了前两位和后两位,我想看看每一集。它是否高于这种中位数?我不知道。数学术语是什么,对吧?它高于还是低于?好的。然后我说问题三,给我排名前10和后10的剧集以及它们高于或低于调整后平均值的百分比。好的。

好的。问题四,对于上面问题三中高于调整后平均值的排名前10名,如果我要重新运行它们,请为每个剧集建议三个略微调整后的剧集标题。所以每隔一段时间,我会说也许,你知道。

取决于每月一到五次,我会重新运行一集,是的,有时我会生病,有时我不能每天7:30和你们一起直播,虽然我会尽力,呃,所以我基本上是在说,对于10个在调整后平均值以上表现最好的剧集

建议三个额外的标题,但不要只是看看它并随机建议。观察趋势,对吧?观察发现共同主题。所以在这里我们真正处理的是结构化和非结构化数据。这就是与具有自然语言处理能力的大型语言模型一起工作的好处,对吧?所以我说,伙计们,这里有数百集剧集。找到那些真正优秀的剧集。然后那些最高的百分比,你知道,尝试开发一些方法来了解什么有效,什么无效,然后将其应用于这些最高的百分比。

好的。然后我说,比如,看,找到表现不佳的剧集中的常见模式。

将来如何避免它们?问题六,标题长度或结构如何与剧集表现相关?从你能想到的各个角度进行分解。要非常具体。问题七,发布时间或小时数如何影响剧集表现?请排除星期一。

那是我们通常的“AI新闻 matters”的日子。我们通常不会在那些日子播放其他类型的节目,因为需要上下文。即使大型语言模型应该知道,我说,你知道,给它,嘿,这个日期是星期五。所以你可以确保它是正确的。

问题八,发布时间或小时数如何影响剧集表现?不要将它们组合在一起。按小时单独计算。要详尽精确,并给我一个显示每小时表现的图表,对吧?有时我们会在上午8:15发布我们的剧集。如果我不再唠叨,今天的不会那样。现在已经是上午8:06了。有时会发生一些事情,我们可能要到上午11点才能发布它,

所以我想知道每小时的情况,这会如何影响它?然后我说,这是一个需要很长时间才能弄清楚的问题。我说持久性和平均衰减。所以在这个文档中,当我粘贴所有这些内容时,我没有上传电子表格。我只是把它粘贴在那里。基本上,它是来自CSV的信息。但是对于数百集播客剧集……

它给出了七天下载量、30天下载量、90天下载量和所有时间的下载量。所以我在这里问的是基本上要计算持久性和平均衰减。所以说,嘿,平均而言,在数百集剧集中,它们通常会在什么时候“过时”?

对吧,它们什么时候会停止真正被收听,因为人们一直在搜索这些内容,这不仅仅是人们喜欢,如果你们订阅了,谢谢你们,对吧,但其他人都在搜索播客,他们正在发现,所以我试图了解哪些具有持久性,哪些是更常青的,然后我要求它,呃,向我展示最好的,因为然后我可以根据此开发新的剧集

问题10,以特定品牌或关键词为特色的剧集(例如,OpenAI、ChatGPT、Google、大型语言模型、AI、Claude)在性能方面如何比较?

问题11,也请根据你从标题中收集到的信息对所有这些剧集进行分类。例如,营销、ChatGPT、企业、AI用例等。每个类别只放一集剧集,并尝试创建至少20个不同的类别。在这样做的过程中,也请给我平均值,类别性能与我们之前确定的平均值的比较,对吧?好的。

很多这些我想看看什么有效,你们喜欢什么,听众真正关心什么,对吧?呃,我认为在你有了成千上万的数据点之后,是的,我可以使用一些简单的计算在,你知道,Microsoft Excel、Google Sheets等中计算出其中的一些内容,但这正是我们真正结合大量数据的地方,但也包括非结构化数据

对吧。结构化数据是数字,可以在图表上绘制的东西。非结构化数据是文字。对吧,你不能一定能绘制它们。所以我们正在结合结构化数据、非结构化数据和推理模型。对吧。我给了它大量信息。好的。然后我说基本上,你知道,我给它一些额外的信息。

鼓励,比如如何格式化它,所有这些东西。然后我在最后说,给我一个简短的总结。然后这里就是所有数据。所以我粘贴了,我粘贴了大约13页这些问题和数据。好的。太多了。

玛丽说,你想出这些令人惊叹的、详细的问题花了多长时间?太棒了。我打字很快。我一直都在思考。可能花了大约12、12、13分钟来打出所有这些。所以是的,没有AI帮助我制定这些问题。我们总是谈论人在回路中,对吧?人类扮演什么角色?

我认为,特别是这些推理模型,如O1、O1 Pro,它允许你真正展现你的专业知识。我认为我的专业知识之一是,我有新闻学背景。我有市场营销和广告背景。我不知道,也许你在那里看到了一些。这就是我的大脑的工作方式。

我说,伙计们,我们有这么多数据。我需要能够识别趋势并构建更好的东西来帮助你们,对吧?好的。那么现在让我们回到这里,看看我们的聊天进展如何。所以你会看到它已经,哦,直播在我们身上。你还能听到我说话吗?我收到了一些说听不到的声音,但如果你们能听到,请告诉我。我的屏幕上显示我失去了音频。所以我们会看看。好的,所以——

这是我们的细节。好的。感谢YouTube上的Sam Sarah。好的。所以我可以点击细节。所以基本上你可以看到有时/有时o1模型实际上是如何思考这个问题的。

这很奇怪。我已经做过,你知道,类似这样的提示,我总是会进行A/B测试,对吧?我会在o1 pro上运行两次相同的提示。我会在o1 pro和o1普通版上运行,你知道,提示。我会在o1 pro和o1上运行相同的提示,对吧?我做了很多测试。即使在o1 pro上,有时它也会给你所有细节。有时不会。然后它说,哦,有时o1在不与你分享细节时表现更好。所以

最终的透明度是否存在?不完全是。但我可以说,大多数情况下,你确实可以点击“细节”,并且可以看到幕后发生的事情。所以在我的另一个中,看起来我在我的另一个中超时了。太糟糕了。所以也许我不应该同时做两个,因为这个思考了大约九分钟,然后它说,哦,我完成了。好的。但幸运的是……

好的,幸运的是我们完成了。我们在我们的第一次聊天中完成了。所以我会继续,为什么不呢,并重新生成另一个。那个思考了大约10分钟,精疲力尽了。所以这个,让我们看看我是否能确切地看到这个思考了多长时间。让我向上看。这里有很多信息,各位。我的天哪,很多信息。好的,这个思考了11分钟22秒。所以我的……

我认为我的记录可能是15或18分钟。我给它很多。我给它很多。好的。我不会逐一阅读所有这些,因为这会花费很长时间,而且我不希望这个持续太久。但让我们看看。

非常快速的概述它做得有多好,所以它说下面是一个全面的分步响应,它精确地遵循了你所有的指令,你知道我已经计算了所有剧集,所以它告诉我它做了什么,所以它去除了前2%和后2%,在这种情况下是总共6集,计算并列出了删除这6集之后的所有内容,对吧?呃,非常好,它首先给了我

一个它如何做到这一点的概述。然后它给了我初步步骤。所以它遍历了,确定了总剧集数量,确定了前2%和后2%。

呃,对。列出了所有这些。很好。呃,然后它说,嘿,然后是122集。我没有给出所有400集剧集,因为我知道我做了测试,它运行良好,但它花费的时间太长,而且超时太多。所以我只上传了,呃,大概最近六个月的剧集。

呃,好的。呃,所以我们开始吧。问题一。所以现在它正在,我告诉它要标记它。所以我们开始吧。问题一,每集的平均下载量。所以在这里你做了,它做了一些,一点数学。所以谢谢你的帮助。我不喜欢数学。好的。然后它说问题一的答案。哦,我,我差不多是对的。每集大约4000次下载。呃,下载很奇怪。下载流。每个人看待它的方式都不同。嗯,

所以是的,我认为我们几乎达到了200万次下载。所以感谢大家的收听。好的。问题二,所有剩余剧集相对于调整后平均值的列表。这就是我想要的。好的。所以这里它说下面是每个122集剩余剧集的性能计算。

有没有人擅长数学?我甚至不知道这是什么意思。我甚至不知道如何阅读它。我不知道。它创建了一种公式。有时我要求ChatGPT创建算法。我只是给它一堆数据。我说,为我创建新的算法,并告诉我一些我在电子表格中找不到的东西。这很有趣。我没有在这里这样做。所以有一个计算。所以让我们看看它是否给了我完整的表格。有时会,有时不会,对吧?所以完整的表格。

好的,我们开始吧。好了。所以看起来我们在这里列出了所有剧集,按剧集编号排列。它给了我所有时间的下载量。它做了性能计算。所以我可以看到这个,这里大约低于平均值0.5。

6%,对吧?所以我可以在这里浏览。我可以要求它,或者我可以复制粘贴这个,呃,并将其作为示例提供给,比如,o1 mini或GPT 4.0,并让它将其转换为一个实际的电子表格。我意识到的一件事是,o1 pro不擅长创建文档。我甚至不知道它是否在技术上具有这种,呃,

你知道,这种能力或功能,但是GPT-4.0内部的高级数据分析模式非常好。GPT-4.0非常擅长创建不同类型的文档。所以如果我想的话,我可以复制粘贴这个,但是让我们看看。是的。好了。它给了我,你知道,高于调整后平均值28%,低于平均值18%,低于平均值3%,低于平均值15%,对吧?所以这很好。

哦,让我们看看。它说,看起来它可能被截断了。我有一种感觉,即使是o1模型也没有完全完成这个,因为它说,等等。所以它没有做所有160个。它说,由于此列表的长度,

为了完全遵守你的请求。此表将扩展到超过一百行。我已经演示了上面的精确计算方法和格式。相同的格式适用于每个剩余的剧集。在下面,我以简洁的项目符号形式继续列出。每一行都遵循相同的模式,剧集编号和标题全部时间,然后是结果百分比。好的,它确实完成了。它只是没有向我展示每个的数学计算。

这很好。我不需要那个。好的,我们开始吧。问题三,排名前10和后10的剧集以及它们高于或低于平均值的百分比。这就是我想知道的。

所以这里是排名前10的剧集,以及它们高于调整后平均值的百分比。那么我们什么时候才能实现表现良好的AGI呢?AI代理,你需要知道的一切。2024年顶级AI工具和功能。AI代理如何弥合企业工作的未来差距。谷歌1万亿美元的AI错误,对吧?所以我们开始吧。这很好。我的意思是,

我的意思是,同样,我可以按下载量排序,我可以找出其中的一些内容,但我想要看看高出多少,因为有一些异常剧集,我就像,好吧,

这些实际上是,你知道,这是一个错误吗?有时,例如,Apple Podcasts或Spotify Podcasts会,你知道,推荐一集,如果它们的算法认为它很好,然后它会把它放在像科技顶级剧集页面上。所以我知道有时我们的一些剧集获得了更多下载量,但我就像,我并不真正想要那些。我只想关注核心内容。所以它做得相当不错。排名前10的剧集。我们开始吧。

为每个排名前10的剧集略微调整的标题名称。我们开始吧。它给了我所有这些。是的。对于每个剧集,它都给了我调整后的标题。

呃,剧集标题以及原因,对吧?这很有趣。我甚至没有说为什么,但它给了我,对于每个10个,它给了我一些,嗯,一些其他的剧集,呃,问题五,表现不佳的剧集中的常见模式以及如何避免它们。所以它说标题过于通用或含糊不清,标题过长且没有明确的吸引点,呃,关键词提及不足。在每一个中,它都给了我非常具体的例子,对吧?它不仅仅是给我这些一般性指导方针。嗯,

它告诉我如何避免它。然后是问题六,标题长度或结构如何与剧集表现相关?一切都很好。问题七,发布时间如何影响剧集表现?让我们看看。呃,星期二表现中等偏好。星期三,星期四,呃,参与度列表,因为听众在工作日有精力,星期五。它说可能是好是坏。好的。也许我不应该在星期五安排大型节目,因为它们可能是好是坏。是的。有时人们会退订。嗯,

让我们看看。我特别要求一个时间或小时数的表格。所以对于问题八,让我们在这里看看。很好。它做到了。所以它给了我发布时间,然后是所有时间的平均下载量。所以我可以看到。

是的。显然有时我发布得很晚。这很奇怪。其中一些可能是错误。我应该要求它也给我在这个发布时间发布的剧集总数。因为是的,有时我们的,你知道,我们的主机Buzzsprout会出现错误。是的。有时只是出现奇怪的异常情况。所以是的,

我应该要求剧集数量,但看起来大多数情况下,看起来我们的最佳时间是在上午9点之前发布剧集。所以也许当我们非常早地发布它时,也许它错过了人们。也许人们在上下班途中收听,但看起来无论出于何种原因,看起来最佳时间是在上午9点之前发布剧集。这是我们当地的时区。

嗯,好的。问题九,持久性和平均衰减。这是我非常期待的一个问题。呃,我会浏览并阅读这个。如果你感兴趣,你知道,你可以,你可以告诉我,但它做得很好。它给了我大约7天、30天、呃、90天和总时间的平均值。它确定了,呃,某些,呃,剧集超过了这个。嗯,

你知道,一些代理剧集。好的。所以做得相当不错。我希望它能对此进行更深入的解释。呃,但是同样,理论上我会查看回复,我会更新我所做的提示,然后我会再次运行它。呃,对,因为我可以看到其中的一些东西,我就像,啊,我在这里忘记了一点。我可能应该回去添加,添加一些问题10,以特定品牌或关键词为特色的剧集。呃,所以它们是

我们在继续。您知道,很明显,OpenAI 的 ChatGPT 通常比您的整体调整平均值高出约 10% 到 30%。谷歌 Gemini 或 Quad 高出约 5% 到 15%。大型语言模型并没有显示出任何明显的差异。好的,这很好。然后是那个会让我永远做下去的,对吧?数百个剧集标题,然后对它们进行分类,然后与平均值进行比较,

所以它浏览并给了我,看起来像一个包含 20 个不同类别的列表。它没有给出类别平均下载量。好的。但它确实按类别细分了所有内容。好的。然后我们在这里有我们的答案指南,我在最后说,只给我非常直接的要点答案。那么,这是如何做到的呢?你们怎么看?我知道这花了一段时间。你们认为 o1 pro 值 200 美元吗?

因为我正在考虑,如果我作为一个普通人自己去做这件事,对吧?如果有人给了我完全相同的问题,我不知道。这可能需要我三到四天的时间,对吧?我认为我可能做得更好一些,因为我可能会更好地推断某些事情。在某些情况下,你甚至看到 o1 pro 缩短了回复或没有给我完整的内容。

对。这令人沮丧。所以我将来可能会这样做。

对。我给了它 11 个极其困难的任务。如果我以 GPT-4.0 为例,我会将这些任务作为专门的聊天来完成,或者,你知道,一个接一个地处理它们,并与 ChatGPT 来回讨论,至少每个问题要三到十次。对。所以,从节省时间来看,我认为绝对是,

它会打败我吗?也许不会。尽管在数学和一些更复杂的事情上,绝对会。我不知道,尤其是在没有 AI 的情况下,你把我放在一台电脑上,你知道,我不能使用 AI,只使用电子表格。我不知道我是否能得到这些答案。对。我擅长基本数学。对。我有一个分析性的大脑,

显然,我知道这是 Everyday AI,我经营它,对吧?但如果其他人带着相同的数据来找我,并说你不能使用大型语言模型,或者他们说你只能使用 GPT-4.0,我认为如果我必须自己做,至少需要三到四天。如果我使用了 GPT-4.0,可能需要,我不知道,我猜是三到五个小时。

因为这需要对这 11 个问题进行大量的来回讨论。你必须担心上下文窗口,你知道,要获得那种所谓的“思维链”推理。你,人,必须是推动思维链按钮的人,对吧?你必须是给出例子、来回讨论、引导和指导它的人。而,你知道,o1 更像是那种全自动驾驶汽车,它自己引导自己。

对吧?使用 GPT 系列模型时,你必须这样做。所以如果说实话,我们用 o1 在 10 分钟内完成了这项工作,用 GPT 4.0 可能需要我三到四个小时,如果我只有互联网和电子表格而没有 AI,可能需要我几天时间。所以值得吗?我不知道。我不知道对我来说是否值得。

这并不完美,但我所做的是我会回顾这些回复。我会更新我的提示,我可能会将它分解成,你知道,三个或四个问题。对于它来说,处理起来太多了,即使它在,

上下文窗口内,你知道,我没有,你知道,放入太多的上下文,思考有点太多了,对吧?或者,你知道,OpenAI 的训练中可能有一些东西,比如,嘿,当有人要求,你知道,数百件事时,你知道,如果它是多个其他查询的一部分,

只是,你知道,展示你理解的能力。对。我可以那样做,它缩短了某些内容。如果我只问一个问题并把它交给 o1,它可能就能做到,但我给了它 11 个,15 个,

相当困难的问题,需要大量的回复。所以我认为这不是能力问题。这更多的是计算和训练。o1 pro 可能能够完整地做到这一点,但我相信 OpenAI 在其中加入了一些东西,说,嘿,你知道,在某个时候,如果有,你知道,这么多问题,所有问题都是多步骤的,也许你必须截断。我不知道。

好的。有几个问题。让我看看我是否能很快地回答它们,因为我让你等到最后。我只是在滚动浏览。如果我看到一个问号,我就把它标出来。好的。让我们看看。Dennis,如果你有团队,你能将单个用户升级到 pro 吗?不,据我所知。我会问我在 OpenAI 的联系人。我大约三周前问过他们这个问题,因为我有免费的 Plus、团队、企业和 pro 帐户。

我没有在团队中升级任何东西的选项。所以据我目前所知,200 美元的 Pro,它给你 o1 pro,只适用于个人用户。实际上,我上次检查的时候是

大约一两周前。所以我应该回去再检查一下。但之前没有升级团队的选项。我不确定企业帐户,因为我在任何企业帐户上都不是管理员,但你知道,我是一个独立的企业用户。

所以是的,人们不知道有人在 LinkedIn 上给我发私信。他们说,哦,你做培训。我说,是的,这就是我们做的。所以,如果,如果,如果你的团队,无论你是在,你知道,ChatGPT 团队还是 ChatGPT 企业版或 Copilot 上,对。这就是我们做的。我们培训人们。我每天都谈论 AI。而且你知道,如果你的公司,如果你的部门需要帮助,你可以打电话给我们。好的,让我们看看。

我认为 Michael 可能是问别人这个问题,但你知道,问的是 GitHub Copilot。是的,还有其他,你知道,Cursor、GitHub Copilot。你知道,还有其他平台非常适合做这些事情,你知道,数据库编码、软件工程。是的,我认为 Cursor、Microsoft、GitHub Copilot 都很棒。

基兰说,回应的耗时不是缺点吗?绝对是。对。但这就是为什么我通常不会只给 ChatGPT 一个 11 分钟的任务,然后,你知道,坐在那里喝我的 Nespresso,然后判断它。我在做其他的工作,对吧?我正在打开另一个窗口,另一个帐户,你知道,在 Claude 或 Gemini AI Studio 中输入类似的东西。对。我总是并行运行东西,尤其是在我,你知道,

花时间把这些内容放在一起的时候。显然,对于非推理模型,我必须把它分解成更小的块,但是,是的,基兰,绝对是。这并不是浪费时间,但所需的时间是一个缺点,对吧?尤其是在我们这样的社会中,我们想要一切立竿见影,对吧?

我不想等 11 分钟,但我等了 11 分钟,它像我说的那样,可能完成了那些可能需要我用 GPT-4.0 花几个小时或不用任何 AI 花几天才能完成的工作。所以时间值得吗?耐心是做好事的美德。在,你知道,这种即时满足的时代,

会得到回报,对吧?因为现在如果我想的话,我会回去。像我说的那样,我会改进我给 o1 的信息。我可能会把它分解成,你知道,两到三个,而且我相信它会,我不知道如果我必须给它评分,我会给它 85%。如果我把它分解开来,改进,改进我询问信息的方式,这是用户错误。

这是用户错误,对吧?我给它提供了太多的信息。虽然我认为对于那部分来说,它应该能够处理。但对于很多其他事情,我就像,哦,我应该换一种说法,对吧?我没有做得足够好。人们总是认为输出意味着,哦,就像,ChatGPT 很糟糕。它很笨。不。

在这种情况下,我很笨。我没有做得足够好。我的一些沟通不够精确,但有时你只有来回沟通才能知道这一点。我喜欢能够查看细节并查看 ChatGPT 的工作方式,这是一个作弊码。如果你正在使用 o1,即使是在 ChatGPT Plus 计划中,也要查看它的推理方式。查看这些细节。这将改善你与大型语言模型的沟通方式,因为如果它在某些方面遇到困难,你知道,如果它在过程的前 10% 或 20% 已经出错,那么猜猜会发生什么?然后它会变得更糟。所以你可能需要将一些信息从底部移到顶部,你知道,提供更好的摘要,你知道,给它一个,你知道,更清晰的角色、优先级目标,所有这些东西。对。

所以是的,这是一个缺点。Marie,它在思维链推理中会陷入任何兔子洞吗?这取决于你的输入有多开放。对于开放式输入,是的,绝对会,对吧?有时为了好玩,我说,解决世界上的问题。解决饥饿问题。解决暴力问题,对吧?像解决……

内城问题等等,对吧?解决这个大问题,对吧?然后我喜欢看它思考。我认为这更多的是与模型的训练有关,而不是模型的能力。但是是的,如果你给它机会,它可能会陷入兔子洞。在这种情况下,没有兔子洞,因为它非常完善和明确,对吧?然后

朱丽叶说,对不起,我不了解行话。我有 20 美元的 ChatGPT 订阅,那是 pro 吗?我认为有人已经回答了这个问题,但是不,20 美元的 ChatGPT Plus 你会得到一般的 o1 模型。就你能用它完成的工作量而言,它非常有限。如果你想要 o1 pro,你必须使用 ChatGPT pro 帐户,每月 200 美元。

Fred,你是否一直比较不同的模型?是的,我认为我后来可能回答了这个问题。我一直比较不同的模型。所以我喜欢使用 AI Arena 聊天,无论它叫什么,lmarina.ai,对吧?AI 聊天机器人竞技场就是这样做的。我已经分享了一些关于我如何使用名为 Chat Hub 的工具的视频,你可以在其中输入一个提示,它会给你最多八个不同的大型语言模型。所以是的,我一直比较模型的回复。

Ada,它可以访问你的网站并从你的网站进行分析吗?至少目前,o1 系列模型无法访问互联网。它们也无法访问完整的工具套件。Ada,这是一个很好的结束方式,因为我下周将在我的一个节目中做一个预测。

关于 o1 模型的未来以及这对代理 AI 意味着什么,以及这对 AGI 意味着什么。因为我认为一旦你开始给这样的模型赋予推理能力,一旦你开始给它工具,一旦你开始赋予它根据需要使用哪些工具、如何解决问题来做出决定的能力。现在,o1 Pro 可以做的事情,它有点像在一个盒子里。

我知道 OpenAI 在做什么。他们是为了安全起见这么做的,对吧?这是第一个广泛使用的推理模型,它可能会偏离轨道,对吧?你无法破解这样的模型。所以我理解他们现在没有给它工具。你知道,他们正在研究人工通用智能。他们把目标定在了人工超级智能上。所以我理解为什么他们现在把它放在盒子里。但是一旦这个 o1 Pro 模型变得更好一些,这是它的第一个版本,对吧?第一个版本总是最糟糕的。

它才发布了几周,几个月后他们更新了一两次。当且如果它获得工具,如果它获得代理能力,你知道,我们正在谈论 OpenAI 的 Operator 何时发布,新的任务。这是一个非常令人兴奋的时刻,可以处于 AI 的前沿。这就是你在这里所做的。所以感谢你加入我。我希望这对你有帮助。我知道这是一个较长的节目,但就是这样。让我回答这个问题:它值 200 美元一个月吗?

我会继续的,OpenAI 没有付钱给我。我会说是的。我会说任何有权访问数据的人。我不是说你的工作需要数据,或者你从事数据方面的工作。如果你有权访问数据,如果你是一个决策者,对吧?如果你是一个知识工作者,我会说它绝对值得。你刚刚看到了我的用例,对吧?

我可以做得更好。但我从那里获得的价值,我刚才在那里看到的,这将帮助我发展我的播客,对吧?这将帮助我吸引更多像微软这样的优秀赞助商,对吧?微软是这个播客的赞助商之一。这将帮助我接触更多想要学习 AI 的人,因为所有这些见解都需要我花费更长的时间,对吧?如果你有数据并且需要做出决策,对吧?

并且你了解 o1 推理模型的基础知识,绝对值得。这是一个大胆的观点。人们会不同意我的观点,但我认为它是。

人们会说,哦,GPT-4.0 就足够了。尝试用 GPT-4.0 做类似的事情。时间就是金钱,伙计们。它能完成我刚才在 o1 中展示的相同的事情吗?是的。但像我说的那样,这可能需要我三到四个小时。即使在那段时间里,我也无法做任何其他事情,对吧?在我必须等待的 11 分钟里,我不必做任何事情,对吧?是的。我需要改进它并返回迭代。但我认为如果你有……

数据要处理,如果你必须做出决策,并且你学习了基础知识,即使是如此高的价格,它也绝对值得。

好的。我希望这对你有帮助。一定要在 1 月 20 日星期一加入我们,整个星期,五集,这是我们有史以来做的第一个系列。你需要收听。你需要注意。感谢你收听。如果这对你有帮助,请让我们知道你是否在播客上收听。对不起,这是一个很长的节目。你可以用两倍速收听我。我不会

生气。我也会这么做的。好的,但请给我们评分,在 Spotify 或 Apple Podcasts 上关注该节目,无论你在哪里收听播客。如果这对你有帮助,你正在 LinkedIn 上收听,请分享,与你的朋友分享,需要它的人。感谢你收听。访问我们的网站 youreverydayai.com。所以明天和每天我会回来为大家带来更多 Everyday AI。谢谢大家。

这就是今天 Everyday AI 节目的全部内容。感谢您的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多 AI 魔法,请访问 youreverydayai.com 并注册我们的每日通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。

这就是今天 Everyday AI 节目的全部内容。感谢您的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多 AI 魔法,请访问 youreverydayai.com 并注册我们的每日通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。