We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 456: OpenAI’s o3-Mini - The world’s best free chatbot model?

2025/2/6

Everyday AI Podcast – An AI and ChatGPT Podcast

Jordan Wilson: 我过去总是建议不要使用免费的AI模型,因为付费版本性价比更高。但是,现在我可能要改变这个看法,因为OpenAI已经免费提供了O3 mini模型。我认为它可能是世界上最好的免费聊天机器人模型。O3 Mini是OpenAI首个免费的推理模型,它与GPT模型不同,能够进行更长时间的思考和推理。虽然免费版本的使用次数有限制,但它仍然非常令人兴奋,特别是对于那些不愿意付费的用户。O3 Mini模型在STEM和编码方面表现出色,并且比之前的O1 mini模型更便宜、更快。对于API用户,O3 Mini有三种变体,可以根据速度、成本和性能进行选择。ChatGPT Plus用户可以访问O3 Mini的中等和高等版本。O3 Mini High在许多基准测试中甚至优于完整的O1模型。总的来说,我认为O3 Mini是目前最好的免费聊天机器人模型,因为它不仅模型本身出色,还具备其他模型所没有的功能,比如联网搜索。

Deep Dive

Shownotes Transcript

这是Everyday AI Show,一个每天播出的播客,我们简化AI,并将它的力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。

我知道我可能说过几十次了,不要使用免费的AI模型,对吧?因为付费版本非常便宜,每月20美元,每月30美元。无论您是个人还是为拥有数千名员工的公司购买,这都是非常实惠的。所以我一直说,不要碰免费模型,但是

我可能不得不改变这个说法,因为OpenAI已经将其O3 mini模型免费了,嗯,在消息数量方面能力非常有限。

我认为它可能是世界上最好的免费聊天机器人模型。所以我们今天将讨论OpenAI的新O3 mini模型,讨论它是什么,它是如何工作的,它的含义,它是否真的是世界上最好的免费AI聊天机器人模型,也许还会进行一些现场测试。

好的。我对这个很兴奋。我希望你们也是。如果您是新手,欢迎。这是Everyday AI。我的名字是Jordan Wilson,我们每天都做这件事。这是为了你。这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人不仅跟上AI的步伐,而且了解我们如何利用它来取得进步,发展我们的公司和职业。

如果您不是每天收听,那将是一份全职工作。所以我们为您做了所有这些艰苦的工作。这样您就可以成为公司里最了解AI的人。好的。如果您是新手,也许是第一次在直播或播客中收听,感谢您的收听。请务必查看您的节目说明。非常重要的内容是

主要是我们的网站,youreverydayai.com。您需要去那里注册我们的免费每日新闻通讯,因为我们每天都会做几件事。我们为您带来所有最新的AI新闻,并告诉您这意味着什么,但我们还会分解当天的播客剧集,提供更多信息。所以请务必这样做,以及......

当您在那里的时候,我会继续推广这个,各位。您需要去收听我们的2025年AI预测和路线图系列。它都在我们的网站上。它是免费的。我收到了很多消息。我实际上今天或昨晚收到了一条消息,因为我认为这个人来自欧洲,来自世界上最大的咨询公司之一。他们说他们的团队很棒。

分解这五个剧集,他们将继续跟踪它们全年。我可不是开玩笑的。您需要去收听它们,并告诉我您的想法。好的,闲聊够了。让我们进入AI新闻。直播观众。

这取决于你。我在屏幕上有一个问题。请告诉我。我们将进行03 mini现场测试。你想看A,你想看它通过推理标准,还是你想看B通过一些现实世界的数据分析?所以在屏幕上告诉我A或B。现在告诉我。

好的,所以AI新闻,有很多事情发生。Gemini,谷歌宣布其Gemini 2.0 Flash模型的普遍可用性,这是一个为开发人员设计的高性能AI,具有增强的速度和复杂的问题解决能力。因此,Gemini 2.0 Flash模型首次在IO 2024(其开发者大会)上推出,因其在处理大批量任务和多模式推理方面的效率而受到好评,预算为100万美元。

标记上下文窗口。此外,面向付费用户的增强型大模型Gemini 2.0 Pro的实验版本也已推出,该版本拥有卓越的编码性能和200万个标记上下文窗口。我的意思是,谷歌正在主导上下文窗口游戏。他们还推出了Gemini 2.0 Flash Lite。

迄今为止最具成本效益的模型,并且处于公开预览阶段,并且比其前身1.5 Flash提供了更高的质量。因此,谷歌强调了Gemini 2.0系列的安全性和责任性,采用了新的强化学习技术和自动化红队对抗技术来降低风险并确保安全使用。是的,巨大的,巨大的新闻来自谷歌。我很高兴能更深入地研究它。我们的下一条AI新闻。

美国立法者提议禁止DeepSeek。太意外了。一点也不。好的。所以美国的立法者计划提出一个法案,从现在起禁止在政府拥有的设备上使用DeepSeek聊天机器人应用程序,原因是担心用户数据可能被中国政府访问。

剧透警告,它可以。这项两党立法呼应了此前禁止政府设备使用TikTok的努力,这是TikTok在美国被禁的前兆,该禁令很快就被推翻了,但它仍然可能发生。

好的,所以DeepSeek是一家中国AI公司,它在美国迅速普及,成为上个月下载量最高的iOS应用程序。然而,在分析显示该应用程序中隐藏的代码可以将信息(用户信息)发送到中国移动(一家国有公司)后,人们的担忧就出现了。

在美国被禁止,一家中国国有公司。所以是的,拟议中的立法旨在禁止中国共产党访问敏感的政府和个人数据。包括澳大利亚、韩国和意大利在内的其他国家已经出于类似的数据安全考虑,禁止在其政府系统中使用DeepSeek。此外,美国海军和NASA等一些联邦机构也已出于安全原因主动屏蔽了该应用程序。我,我

我很想为此在LinkedIn上发帖。我可能会在某个时候做一个专门的节目。这个故事变化如此之快。这就是为什么我对此有所保留的原因,因为我有很多激烈的观点。所以我可能需要保存一两周。好的。最后但并非最不重要的一点是,新的AI新闻。ChatGPT已经......

说到免费的东西,他们的新ChatGPT搜索现在可以免费使用了,即使对于未登录的免费用户也是如此。因此,此新功能(至少对于免费和未登录用户而言是新的功能)允许每个人直接通过ChatGPT访问最新的信息,例如体育比分、新闻和股票价格。

据报道,搜索功能使用经过微调的GPT-4.0版本,该版本使用合成数据和OpenAI的新推理模型的输出进行了优化。因此,OpenAI已与美联社和路透社等主要新闻机构建立了许可协议,从而影响了搜索结果中某些出版商的可见性。所以这是巨大的。有点

奇怪吧?它看起来几乎像是谷歌试图与两年前的ChatGPT竞争。现在ChatGPT试图与谷歌过去20年所做的事情竞争,对吧?真的想下赌注,试图抹去谷歌,对吧?OpenAI只想让你完全跳过谷歌,去使用它的ChatGPT搜索。你甚至不需要登录,也不需要帐户。所以非常疯狂。

好的,闲聊够了。今天的新闻通讯中还有更多内容。所以让我们谈谈OpenAI的O3 mini模型。它非常令人印象深刻。

它非常令人印象深刻。我只想说。嘿,直播观众,感谢您的收听。我看到了一些投票,一些A,一些B。所以是的,如果您想现场回顾推理标准,或者想回顾数据分析,请告诉我。A或B。好的。另外——

你会想转发这个的。我只想说,我一直把这些指南放在一起。在我使用ChatGPT或其他大型语言模型做了一些事情之后,我想,等等,如果他们这样做,我刚刚为人们节省了每周几十个小时。我意识到,你知道,有时播客或将其放入新闻通讯是不够的。所以我确实专门为使用O3 mini模型编写了另一份指南。

太棒了。我今天早上刚完成。所以如果你转发节目,我会发给你。好的。让我们进入O3 mini模型。这是要点。好的。它是OpenAI的第一个免费推理模型,对吧?所以我们有O系列模型。它不同。

于GPT,对吧?所以GPT是你的所谓的旧式transformer模型。然后是O系列,这是OpenAI的推理模型,对吧?在过去的四五个月里,推理模型变得非常流行。但这本质上是一个思考更长时间的模型,进行更多推理或使用这种链式思维,它不会

快速回应某些事情。它需要一段时间,并且真正进行内部思考。所以你通常会在transformer模型、GPT-4-0中进行的工作,对吧?作为人类,你会想反复与它进行很多交流。这种推理模型就是这样,这就是为什么它们如此出色。但是

一些事情。它使用更多的计算资源。所以通常它们成本更高。例如,如果您想无限使用它,您需要200美元的专业版计划,但至少对于,我相信是10条消息,直到您达到消息上限。它现在可供免费用户使用。

但这并不是让我对这个感到兴奋的原因。所以如果您已登录,这与ChatGPT搜索是不同的新闻,即使您未登录也可以使用,对吧?所以如果您确实拥有一个免费的ChatGPT帐户,即使是免费的,那么您不仅可以使用OpenAI刚刚发布的新O3 mini模型进行一些查询,而且它还

连接到互联网。这是巨大的。我认为这是大多数人在谈到OpenAI的这个新模型时忽略或忽略的部分。

顺便说一下,该指南特别利用了20个不同的用例,这些用例结合了推理和互联网,对吧?这就是知识工作者所做的。这就是为什么我认为这如此令人兴奋,即使对于非付费订阅者也是如此。再说一次,无论您最喜欢的聊天机器人是Gemini、Claude、ChatGPT,还是其他什么,只需支付

基于每月20美元的计划。如果您知道自己在做什么,那么第一次按回车键时,它就能收回成本。但即使对于那些吝啬鬼来说,对吧?是的。我知道你们中的一些人仍然在省吃俭用。即使你每天都在买8美元的咖啡,你也会说,哦,我不打算买20美元的。不,买吧。但即便如此,这是OpenAI提供的第一个免费模型,它是其推理模型。它连接到互联网。据报道,

我个人不相信这一点,但很多人说,哦,OpenAI这样做是因为DeepSeek R1的发布,这在互联网上引起了很多

我会说是不正确的原因。我们就这样说吧。我个人认为这不是对DeepSeek的回应。我认为这实际上是对谷歌的回应。自12月以来,谷歌一直在疯狂地发布。如果我是OpenAI,我不在乎DeepSeek,对吧?它,

我相信大部分会被禁止。我担心谷歌。所以我认为这实际上是对谷歌所做的所有伟大工作的打击,尤其是在谷歌AI Studio中。所以让我们现在就回答这个问题。我不会让你再等20分钟,然后进行测试。O3 Mini是最好的免费聊天机器人模型吗?让我分解一下。免费聊天机器人模型。好的。那是当您登录聊天机器人的前端时。

好的。我的意思是?好吧,现在,如果您拥有免费帐户并登录Gemini,您知道,Gemini.Google.com,即使他们发布了所有这些新版本,您也无法使用它们。您只能使用1.5 Flash,但他们在AI Studio中拥有出色的模型,但这有点不同。对于初学者来说,这更适合开发人员。所以它击败了谷歌。

毋庸置疑。Copilot由GPT-4.0技术提供支持。如果您上周阅读了我们的新闻通讯,您很聪明。您已经知道了这一点。Copilot内部对OpenAI的O1模型有一些有限的免费访问权限,具有更深入的思考能力。

但我仍然认为O3 mini更好,因为我们正在谈论。O1。呃,我相信那是O1预览版,呃,微软。我喜欢,我知道你们很多人都在听这个,我一直告诉你们,我遇到了大约一百位你们,呃,在芝加哥的Build或Ignite大会上。我说,嘿,如果我错了,请告诉我,但我敢肯定,更深入的思考使用的是O1,呃,预览版,而不是O1专业版。嗯,

所以我仍然认为它比那更好。我仍然认为免费的O3 Mini比免费使用Copilot更好。Claude,哈哈。我的意思是,即使在付费帐户上,

像Claude,你不能用它。你只能写几个提示,然后你就会在免费帐户上达到你的速率限制。即使Claude 3.5桑拿是一个不错的模型。它现在已经大约八个月大了。所以据推测,我们很快就会看到Claude的新更新。我的意思是,在免费计划中,如果你以错误的方式看待Claude,你已经达到了你的消息限制。好的。所以你不能经常使用它。

好的。然后是DeepSeek。祝你好运。高风险。很多问题。很棒的模型。很棒的基准。对。祝你好运。这就是我要说的全部。好的。那么O3 mini是最好的免费聊天机器人模型吗?是的。它甚至不接近。

这个模型太棒了。事情是这样的。它是有限制的。如果您使用的是免费计划,我认为每天只有10个。要么是每天10个,要么是每周10个。OpenAI在我的所有帐户都是付费帐户的情况下没有说明。所以我试图快速找到答案。我会确保将其放入新闻通讯中。但是,是的,它是。它是。而且我实际上认为它甚至不接近。好的。

嘿,这里有人说我们的音频有点断断续续。请告诉我它是否真的如此,或者也许那个人今天有一些电脑问题。所以它是。OpenAI的新O3 Mini是世界上最好的免费聊天机器人模型,我认为它并不一定接近,因为它不仅仅是模型。它是模型能够执行的所有其他功能,就像我们所说的那样。

搜索就在那里。ChatGPT搜索很棒。好的。让我们回顾一下该模型的一些亮点。所以它擅长STEM编码这个新的O3 mini。好的。它比O1 mini便宜63%。

这是它取代的模型。所以是的,如果您是,仅供参考,如果您使用的是付费计划,并且您正在查看,并且您想,等等,O1 mini在哪里?O1 mini消失了。现在您有了O3 mini。实际上有O3 mini的多个变体。我稍后会讲到。O3 mini比O1 mini快24%。对于API用户,实际上有三个变体。

有一个低、中和高类型的变体或风格。这实际上......

您正在选择速度和成本与性能之间的关系。所以,对于O3 mini低,这将是最便宜、最快的,性能最低。O3 mini高将是最昂贵和耗时最长的,但它显然将具有最佳性能。然后是,呃,O3,O3 mini,呃,普通将是那个,那个,呃,中间,对吧?它就像,

这是什么?三张床,一张太软,一张太硬,一张刚刚好......

好的。对于API来说是这样。所以如果您使用的是聊天机器人版本,对吧,我们很多人都是这样,对吧?所以chatgpt.com,您不是,您知道,作为开发人员使用后端API,但是对于ChatGPT用户来说,如果您是ChatGPT Plus,即每月20美元,呃,您可以访问O3 mini的中间版本和O3 mini高。

而那个会思考得更努力,或多或少。它使用更多的计算资源。我相信您每天有50个,哦不,我相信现在是150个。所以有很多用途。他们在过去几天里将其增加了两倍。所以如果您有每月20美元的计划,我认为您可能不会达到O3 Mini高的限制。让我告诉你,现在,O3 Mini高?

可能是我最常用的模型之一。好的。另外,

O3 Mini高在许多基准测试中都优于完整的O1模型。因为现在我们只有微型版本,对吧?我们没有完整的O3版本。我甚至不知道完整的O3版本是否会在2025年发布。我会假设会的,但我不知道。因为完整的O3模型尚未发布。我们看到的唯一一瞥是OpenAI确实表示其新的深度研究模型

令人难以置信的好。它将让许多中小型和管理咨询公司倒闭。我不是在开玩笑。它太棒了。无论如何,它使用的是完整O3模型的微调版本,但这只是,我们只是得到了迷你版,我们只是在这里得到了迷你版,各位。好的,让我们继续。基准测试,我知道。我不会在这里变得太书呆子气,但让我们看看竞争数学。

O3 Mini高。

在AIME(我认为是AIME)2024年竞赛数学基准测试中,其性能甚至超过了完整的O1模型,对吧?所以大型语言模型,它们会进行所有这些测试,所有这些标准化测试,基本上。想想像人类一样,你知道,你参加的所有这些不同的测试,模型也是一样的,然后你得到基准,你得到分数,对吧?所以你可以看到模型的能力有多强。所以虽然O3 Mini高甚至比O1模型更强大,但这是世界上最高的得分之一。

然后你会有博士级别的科学问题,对吧?因为O3,O3 mini高擅长任何STEM编码研究。这是一个厨师之吻。好。好的。在博士级别的科学方面,即GP,GPQ,对于在家记分的你们来说是钻石,O3 mini高也超过了完整的O1专业版,对吧?

呃,这还不是。哦,三迷你。所以某种程度上,呃,我在这档节目中经常谈论的基准,呃,除了,你知道,MMLU和我刚才提到的那些,呃,是,呃,聊天机器人竞技场分数。呃,那些还没有出来,因为这个模型才刚出来一周左右。呃,但是我们确实从artificial analysis获得了,这是一个很好的资源,呃,

一个公正的第三方模型基准测试服务。就质量而言,O3 Mini非常棒。

世界第二,仅次于完整的O1模型。所以O3 Mini和DeepSeek R1实际上是并列的,得分都是89分,而O1是90分。为了比较,对吧?例如,如果您喜欢Cloud 3.5,Cloud 3.5的得分为68分,如果这能说明问题的话。好的。Gemini 2.0,不是他们最新的版本,而是之前的版本,得分为82分。

这意味着什么?它无疑是世界上质量最高的模型之一。而OpenAI将其免费用于有限的用例,对吧?但令人难以置信的是,我们拥有这种级别的推理模型,它是世界上最强大的模型之一。它还可以访问互联网,这也是我告诉人们至少现在不要使用Claude的原因之一,对吧?因为有一个......

如果你正在使用大型语言模型的结果,而这些结果的数据非常旧,那么你就不应该这样做,这在某种程度上存在业务风险,好的,所以另一个呃,来自artificial analysis的图表,这只是显示了你的质量与价格的关系,这就是你看到哦,好的,当谈到质量与价格时,o3 mini实际上是世界上最好的

它并不一定接近。唯一一个有点接近的是DeepSeek R1。再说一次,如果你想用它,祝你好运。我不会每天都使用它。但是从质量和价格的角度来看,O3 Mini。

现在,它无可匹敌。我的意思是,我们会看到的。我认为谷歌昨天的公告将稍微改变一下这个图表,我很高兴能深入研究所有新的Gemini 2.0。但现在,O3 Mini从技术上讲是一个精英模型。不要让Mini迷惑你。

好的。所以作为一个推理模型,这些是API定价,对吧?所以再次,呃,你可以免费使用它。您可以使用ChatGPT Plus,每月20美元。如果您有专业版,像我一样,每月200美元,它是无限的。但是,呃,对于API定价,呃,对于推理模型,一百万个输入标记为1.10美元,呃,一百万个输出标记为4.40美元。实惠。它太实惠了。嗯,

你还在为了弄清楚如何利用AI发展你的业务而四处奔波吗?也许你的公司已经使用大型语言模型一年或更长时间了,但仍然无法获得牵引力,也无法找到生成式AI的投资回报率。嘿,我是Jordan Wilson,这个播客的主持人。

像Adobe、微软和英伟达这样的公司已经与我们合作,因为他们信任我们在教育大众如何利用生成式AI取得领先方面的专业知识。一些美国最具创新性的公司聘请我们帮助他们制定AI战略,并培训他们数百名员工如何使用生成式AI。因此,无论您是为数千人寻找ChatGPT培训,

或者只需要帮助构建您的前端AI战略,您也可以与我们合作,就像世界上一些最大的公司一样。访问youreverydayai.com/partner与我们的团队联系,或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在AI领域四处奔波,并帮助您的团队取得领先地位,并为生成式AI建立一条通往投资回报率的直线路径。你可能会感到困惑。我明白。

所有这些O字母汤,对吧?OpenAI首席执行官Sam Altman确实承认,他们在模型命名方面存在问题。很难,对吧?尤其是当他们推出这些新的O推理模型时,一些旧的模型会被替换,或者不再可用。所以让我快速回顾一下O系列。所以9月份,我们得到了O1预览版和O1 Mini。

好的。然后在12月,他们取消了O1预览版。然后我们只有O1,他们添加了O1和O1专业版。所以如果您有专业帐户,这是您获得专业版访问权限的唯一方法。在12月,您有三个版本。您有O1 Mini、O1和O1专业版。足够容易理解。

但是然后1月31日来了,上周,对吧?这给它带来了麻烦。所以现在我们转向O3。没有O2,因为这是英国电信公司的商标名称。所以如果你想知道这里发生了什么,我是否错过了整个系列的AI开发?不,你没有,对吧?但是现在在1月份,我们得到了这个O3 mini,它有O3 mini高,然后O1 mini消失了。

我知道,令人困惑。根据您拥有的付费计划,您的帐户中可能仍然有O1、O1专业版,

O3 mini和O3 mini高。我知道这很令人困惑。我这里有一个幻灯片,希望能帮助您理解它。好的。因为您应该使用哪个模型?对吧?就像,哦,我有一个付费的ChatGPT帐户,我应该使用哪个?好吧,实际上每个模型都有一些独特的特性。所以请听我说。我为我们的直播观众在屏幕上放了一个有用的图表。所以

O1,不是专业版。好的。O1实际上有一个很大的优势。好的。现在,O1和O1专业版是唯一可以上传文件的O模型。并非所有上传的文件类型都受支持。好的。但它确实有四个视觉效果,我相信是PNG和JPEG。好的。所以这是O1系列。所以普通的O1可以访问画布模式。

好的。O1专业版还不能。O1专业版比普通的O1强大得多。好的。所以如果你需要上传文件,

对吧?至少是视觉效果,因为你现在还无法将 PDF 或电子表格上传到 O1 模型中。但假设你正在进行大量的视觉工作,你知道,计算机视觉类型的工作。你可能仍然想要选择 O1 模型之一。好的。如果你像我一样喜欢 Canvas,你可能会使用 O1,因为这是唯一一个拥有 Canvas 的模型。如果你只需要直接的原始能力,你将想要使用 O1 Pro。好的。但是

01s 无法访问互联网。因此,03 mini,目前 ChatGPT 中的功能或其他工具之间没有区别。但 03 mini 是唯一一个具有网络搜索功能的模型,对吧?现在这是唯一的小型模型。我知道,有点难。但本质上,如果你需要网络,我强烈建议你使用 03 mini。这就是我大量使用 03 mini 的原因,对吧?如果你需要 Canvas,请使用普通的 01。

如果你使用的是大型计划,那么你可以使用 O1 Pro 来完成一些非常艰巨的任务。这样,你们都明白了吗?嘿,如果你有问题,现在就提出来。播客听众,我喜欢听到你们的声音。这就是为什么我总是把我们的电子邮件放在那里。我放上了我的领英,联系我,让我知道,比如,这是否有帮助。如果你有问题,我有时回复消息会慢一点,但我最终会回复。

好的。让我们现场看看今天早上我们的投票结果。让我数一下。我们的 A,让我们看看,我们有 1、2、3、4、5、6、7、8、9、10 个。好的,10 个。然后是我们的 B。让我们看看。我们有 1、2、3 个。好的。看起来你们想要推理投票。

这里的推理版本。好的。让我们开始吧。直播观众,像往常一样,请告诉我您是否可以看到我的屏幕。好的。所以我们正在进入 chat GBT。我将现场进行操作。

好的。所以,嗯,这些,嗯,让我确保我进入 Oh three mini high。所以我将使用 Oh three mini high 来进行这些操作。好的。这个小小的推理标准,我已经使用了这些问题大约两年了,对吧?在有推理模型之前,我有大约 12 个这样的常见问题,我会给任何模型。

一些早期的模型,你知道,Claude 3.5 Sonnet、GPT-4、GPT-4.0、Gemini 2,在这方面做得并不好,因为它们有点像难题。但我实际上认为这非常重要,对吧?因为有时在使用 ChatGPT、Claude 或 Gemini 时犯一个简单的错误会搞砸你的整个输出,对吧?因为大型语言模型,无论你是否知道这一点,它们都不理解单词。

你给它一堆单词,它不理解。当它反向输出时,它不知道那些单词是什么。它将所有内容转换为标记。所以有时大型语言模型会感到困惑。

就像人类一样,对吧?但记住这一点很重要。但这就是为什么我认为这种所谓的推理标准很重要。这些不是你通常会在日常生活中用来发展你的公司和职业的问题。但这只是向你展示,这些模型是否聪明,对吧?好的。让我们继续尝试我们的第一个问题。所以,再说一次,我正在使用 O3 Mini HOT。

好的。你会现场看到这些。希望进入那里不会花费太长时间。所以我说的第一个问题是,我今天醒来时有六个苹果和三个香蕉。如果你是长期听众,你以前听过这个。我今天醒来时有六个苹果和三个香蕉。昨天,我吃了一个香蕉和两个苹果。今天早上,你知道吗?我将在这里向上滚动。我将在这里向上滚动。嘿,直播观众。让我们看看你是否能准备好。我会放慢速度。

我今天醒来时有六个苹果和三个香蕉。昨天,我吃了一个香蕉和两个苹果。今天早上,我会吃一个苹果,不吃香蕉。但是,我不太喜欢苹果,而且明天可能会有一个香蕉变坏。假设没有其他变化,今晚我会有多少苹果和香蕉?

直播观众,你们猜是多少?播客听众,你们在家写下这些吗?这是一个有趣的问题。我实际上是编造的这个问题。其中一些是非常广泛使用的难题或这些问题的变体。我编造了一些,对吧?所以我很好奇我们的直播观众是否能答对这个问题。但我不会对每一个问题都这样做。

但我只想快速地为我们的播客听众描述这里实际发生的事情。所以它说对水果消耗量进行了 29 秒的推理。所以你不会得到完整的思维链,对吧?你无法看到 O3 mini high 思考的原始未经过滤的方式,但你会得到思维链的总结,对吧?所以我可以看到它在想什么。所以它说评估水果摄入量,对吧?我醒来时有六个苹果和三个香蕉。所以你可以看到

模型是如何思考和消化你的问题的。然后它说评估明天的场景,得出估计结果,调整我的重点。它说,我最初考虑了昨天的水果消耗量,但今天早上六个苹果和三个香蕉似乎更重要。是的。

你知道,这里面的很多东西只是为了迷惑模型。所以模型开始走错了路,对吧?所有非推理模型都答错了这个问题,因为这就是它们所做的。它们会采取,它们得到了这个,你知道,不相关的信息,并且

它搞砸了它应该做的事情。然后它说评估水果的稳定性,避免库存过剩,重新评估喜好。这些只是思维链思考中的标题。评估水果的新鲜度,评估水果库存,对吧?继续。我的意思是,这太多了。然后在最后,它说仔细看看。好的,我今晚列出了五个苹果和三个香蕉,假设没有变化。今天早上只吃了一个苹果,其余的水果都原封不动。所以,

最终数量,它说五个苹果和三个香蕉。你知道吗?嘿,向文森特致敬。文森特答对了。干得好,文森特。玛丽也是。干得好,伙计们。我会对我们其余的推理标准加快速度。但我确实希望你们在直播和播客中都能看到和理解。它实际上......

在相当不错的水平上思考了这个问题,对吧?再次阅读其中的一些内容,这只是思维链的总结。但同样的事情。我尝试了谷歌的新 Gemini,它答错了一些问题。我也用 Gemini 做过。但思维链实际上非常令人印象深刻,几乎令人恐惧地令人印象深刻,对吧?但是嘿,答对才是最重要的事情。

好的。下一个,很多模型都难以解决这个问题。好的。这个问题是,让我在这里获得合适的缩放级别。一个男人和他的狗。好的。嘿,直播观众。让我们看看你们是否能击败。哦,三个迷你高。其中一些非常容易。好的。嗯,这个,你应该能够立即得到一个男人和他的狗站在河的一边。有一艘船,足够容纳一个人和一个动物。一个人如何用最少的次数带着他的狗过河?

像推理或抱歉,转换器模型无法做到这一点。它们做不到。对。克劳德看到了。双子座,GPT-4。哦,没有一个能做到这一点,即使这对任何有大脑的人来说都非常简单。对。所以让我们向下滚动。

向下滚动。对于简单的事情来说,这里有很多思考,对吧?但最终,最终,最终,最终,只有一次旅行,对吧?通常你会得到三到五次,即使是从这些非常强大的模型中,对吧?这就是为什么很多公司在推理器出现之前都像,我不知道,这些模型很笨。好吧,是的,它们可能有点笨,对吧?通常,这些都是难题,但现在你看到它处理得相当好,对吧?

下一个问题。我们开始吧,伙计们。所以下一个是,嗯,让我复制粘贴另一个,伙计们。好的。下一个。

嗯,如果在阳光下晒干 10 件 T 恤需要 3 个小时,那么在阳光下晒干 30 件 T 恤需要多长时间?嘿,直播中的数学家们,你们能成为 Oh three,嗯,Oh three mini high 吗?如果在阳光下晒干 10 件 T 恤需要 3 个小时,那么在阳光下晒干 30 件 T 恤需要多长时间?好的。嗯,让我们继续。我们开始吧。

得到了。正确。三个小时不变。对。它说,假设你有空间,它不会改变。好的。我们的下一个问题。同样,很多模型以前在推理模型出现之前都答错了这个问题。好的。如果你有一根火柴,走进一个房间,里面有一盏油灯、一支蜡烛和一个壁炉,你首先点燃哪个?好的。直播观众们。你们认为呢?你们先点燃哪个?

我讨厌这些问题,对吧?比如,当这些问题出现在标准化考试中时,你知道,一列火车在某个时间离开车站,一架飞机飞到这里,一个人骑着独轮车,但独轮车正在上坡。我想,这太蠢了。我不想回答这个问题,对吧?但你们认为呢?好的。泰德,泰德,泰德,泰德,泰德答对了。干得好,泰德。是的,但答案是火柴。是的,不是蜡烛或其他任何东西。你必须先点燃火柴。

好的,再举几个非常简单的例子,伙计们。好的,这是我们的下一个问题。飞机的黑匣子是什么颜色?这只是一个难题。好的,但它会答对,因为即使是 Transformer 模型,亮橙色也是正确的答案。我们开始吧。

好的。我们对 03 mini high 的推理标准的下一个问题。好的,同样,对于所有这些,你们就像,好的。所以对于那个问题,下面没有很多思维链,对吧?它说理解情况,仅此而已。它不必来回反复猜测自己,你知道,规划所有这些替代路径。这很简单。

这个有点棘手,转换器模型永远无法答对这个问题。所以我说了,请给我七个以“蓝色”结尾的笑话。两个应该关于动物。三个应该关于聊天中的其他主题。好的。你可以编造另外两个。我会告诉你这一点。

大型语言模型不好笑。好的。所以我只会读几个笑话。我主要想确保它们是否都以“蓝色”结尾?是否有两个关于动物的,三个关于聊天的内容,以及两个它编造的?它们不会好笑。对。嗯,

它总是做同样的事情。它总是像,哦,他们感到悲伤。好的。这个花费的时间有点长,对吧?所以它正在列出选项,规划连接,生成多样化的列表,制作幽默的动物双关语,集思广益,对吧?所以很多事情实际上对 O3 Mini 来说都比较困难,对吧?它需要更多时间来思考这个问题。让我们看看它是否完成了。它思考了 1 分 10 秒,对吧?相当长的时间。好的。

它说改进幽默,我还没有读过笑话。它们不会好笑,因为以“蓝色”结尾,真的没有什么。我什么也没见过,对吧?人类,人类,如果有人能给我一个真正好的笑话,符合这些标准,

我不知道。我会支付一个月的 chat GPT 费用。但我认为没有你实际上可以做的有趣的事情,因为人们总是说,哦,它失败了。那不是笑话。我想,好吧,人类,你们继续做同样的事情。看看你们能否让我以“蓝色”结尾的笑话发笑。可能不会。好的。让我们看看它是否真的做到了。看看所有这些思维链,伙计们。哎呀。好的。所以它得到了两个动物。完美。以“蓝色”结尾。完美。完美。

好的。所以我们,我们将阅读其中的一些内容,在当地的爵士乐之夜。我的狗试图和乐队一起唱歌。当我问他为什么总是唱错音时,他只是汪汪叫着蓝色,不好笑,但达到了目的,达到了目的。对。所以,

现在它有三个笑话使用了这次聊天的上下文,所有笑话都以“蓝色”结尾。让我们只读其中一个。我今天早上开始吃六个苹果和三个香蕉。但在早餐结束后,甚至水果沙拉也承认了蓝色。

好笑吗?不。好的。然后是它自己编造的两个。让我们读这两个,因为这些是任何时候有点幽默的东西,它总是说它自己编造的。好的。所以我参观了一家油漆店,寻找一种能让我心情变好的色调。售货员举起一个罐子说蓝色。不好笑。好的。最后一个。当生活给了我柠檬时,我试图制作柠檬水,但无论我多么努力地挤压,我的心情最终还是变成了蓝色。真可笑。

这些笑话有点,它们好笑吗?绝对不好笑。它们是否达到了我们提出的标准?是的。是的。你知道,我不知道。也许那里只有一个会笑的人。好的,这里。

是最后一个我们可以明确地说“是”或“否”的问题。这是一个非常好的问题。好的。直播观众,准备好。好的。因为我敢肯定,这至少需要思考一两分钟。我想看看,直播中的任何人能否在这个问题上击败 Oh three mini high 吗?好的。你们,你们已经看到那里的提示了。所以人类,你们先开始。好的。所以

我们开始吧。一个盒子用一个三位数的数字代码锁住。我们只知道所有数字都不相同。如果所有数字的总和是 9,中间的数字是最大的,那么代码是什么?

好的,开始吧,人类。你们能击败吗?对。每个人都像,每个人都总是说,哦,人工智能不如我聪明。好的,人类。让我们看看。好的。所以一个盒子用一个三位数的数字代码锁住。你们能成为三个迷你高吗?我们只知道所有数字都不相同。所有数字的总和是 9,中间的数字是最大的。好的。让我们看看。

谁能击败?好的。我没有,我没有为此展示思维链,为了让我们的直播观众能够有趣地看看你们是否能击败。哦,三个迷你高。我还没有看到任何回复。伙计们。好的。玛丽得到一个。玛丽说,哦,81。玛丽击败了。哦,三个迷你高。

好的,好。一件事是我没有具体说明。所以我们将看看 O3 Mini High 是否会说出来。实际上有很多答案。好的,因为我没有具体说明是否可以使用零。我应该更新那个标准,对吧?但让我们看看它做得如何。这里有一些令人印象深刻的思维链,对吧?所以它分解了规则。它正在添加,你知道,A + B + C = 9。B 大于 A,B 大于 C,对吧?所有这些东西。

步骤一,所以同样,它在这里做了一些基本的代数运算。好的,让我们滚动到底部。好的,所以我没有指定零。我不知道为什么。所有模型都不认为或不知道你可以用零开头。他们认为这就像,

第一位数字必须是 1 到 10,他们只在第二位和第三位使用零。所以我应该更新这个,说明你可以在三个数字中的任何一个中使用零,但它确实答对了,因为不包括以零开头,有 10 个不同的代码。我相信有 10 个不同的代码,对吧?所以 180 270 162 261 360 153 351 450 243 342。

所以,是的。嘿,干得好,人类朋友们。你们得到了很多解决方案,对吧?好的。让我们再尝试一两个。这些不是对或错的问题,对吧?这更像是一个武断的答案。所以在这里,我将点击搜索网络。

好的,让我们开始吧。我认为这是事情可以变得强大的一个例子。但这个提示,同样,这没有什么特别的。我只是说生成独特而有创意的营销广告策略来发展 Everyday AI 播客。不要建议一般性或老套的想法。

只为专门发展 Jordan Wilson 的 Everyday AI 播客提出巧妙的广告和营销策略。嘿,同样的事情,人类。嘿,直播观众中的各位,你们认为我们应该如何发展这个播客?告诉我。好的。所以现在。

它正在集思广益营销策略,制定创新策略,确定独特的角度,对吧?制作人工智能驱动的活动,所有这些东西,吸引社区,对吧?我认为我在这方面做得还不错。希望如此。好的。继续。继续向下。继续向下。好的。让我们看看我们是否得到了一些答案。所以下面,我是否要求了某个数字?不,我没有。所以它说下面是七个,嗯,

独创的、量身定制的策略,专门用于发展 Jordan Wilson 的 Everyday AI 播客。好的,让我们看看这些策略中是否有任何是真正好的,因为我已经用所有不同的模型做过这个,通常非推理模型会给我一些无聊的东西,对吧?它就像,哦,你知道,

投放广告或在领英上发布一些内容。我想,好吧,这很无聊。好的,让我们看看。第一种是 AI Creator 加速挑战。发起一场品牌竞赛,邀请听众提交关于他们如何使用特色 AI 工具的简短案例研究。非常奇怪......

我骗你了吗?我上周末在淋浴时才想到这个。我想,哦,是的,我将开始为用例做这个。所以,好的,干得好,O3 Mini。我以前从未从任何其他非推理模型中听到过这个。好的。交互式 AI 聊天机器人大使。好的。开发一个以 Everyday AI 的视觉风格和基调为品牌的自定义 AI 聊天机器人。好的。

没什么。这很标准。Everyday AI 增强现实滤镜活动。好的。Chat GPT。我不知道你认为我有多少时间来做这个,但它很独特。好的。第四,与工具制造商联合举办 AI 展示。确定并与新兴或已建立的 AI 工具公司合作,举办独家联合品牌迷你网络研讨会或演示日。

是的,我对此已经够多了。人们总是想推销他们的垃圾来参加节目并向你们推销。我说,不,对吧?我想我昨天收到了大约 15 个推销。好的。每个人都想把他们的垃圾产品塞进你们的喉咙。所以我将对此说不。好的。五、个性化播客旅程生成器构建了一个交互式动态网站功能,该功能会询问访问者一些关于他们的行业职业目标和当前使用情况的简短问题。好的。这很好。六。是的。是的。

我有过这个想法,所以我喜欢这个。嵌入微妙的彩蛋音频剪辑。哦,我的天哪,我喜欢这个。我喜欢这个。这实际上是我在 2022 年推出这个之前就有的第一个想法之一。我想,哦,我喜欢这个彩蛋的东西。我们实际上会在某个时候这样做。所以是的,播客彩蛋寻宝游戏。所以隐藏微妙的提示,

在某些播客中,你必须找到它们。那个很有趣。喜欢那个主意。最后但并非最不重要的是由 AI 洞察力驱动的超个性化社交广告。好的,非常好。嗯,没什么,嗯,这里没什么疯狂的。所以我运行过这个,嗯,

我昨晚确实做了一些这些测试。昨晚当我打开搜索模式时,它做得更好一些。所以事情是这样的。生成式 AI,大型语言模型,除非我在提示中告诉它明确地去网上搜索,即使我点击了那个搜索按钮,有时它会,有时它不会,对吧?所以,你知道,我只是很好奇。我可能会再次运行一次,因为我实际上只是很好奇。我会说使用 chat GPT 搜索。

在你开始更好地了解 Wilson 的 Everyday AI 之前。是的,因为我昨晚运行了完全相同的提示。在这个我刚刚为你们现场演示的版本中,

就像重点是,哦,看看当我点击搜索时会发生什么,对吧?它没有搜索。有时它会。有时它不会。这就是大型语言模型的工作方式,对吧?除非你明确地告诉它。当你明确地告诉它去搜索并且你拥有那个搜索图标时,95% 的情况下它实际上会这样做。但我实际上有点惊讶。好的。我会让它运行。然后我们将在这里做最后一个。好的。

然后我会读这个,然后我们将检查第二次尝试。所以最后一个是为未来的智能家居设备创建一个新的公司和品牌。这将解决一个目前不存在的问题。我喜欢这个开始,想出公司的名称及其第一个旗舰产品,为产品命名、品牌和活动,制定上市策略、标语和有效性的理由。

然后我说,以简洁的方式回应,将回复保持为简短的要点,但要包含非常具体的细节。好的。所以现在我将点击倒带并查看那个想出,你知道,发明创造性的方法来发展 Everyday AI 播客。但这一次,即使我点击了搜索按钮,我也必须明确地告诉它,伙计,去网上搜索,去网上搜索,伙计。现在我在这里的回复中看到它实际上做到了,因为现在它正在引用内容。

所以是的,昨晚当我运行这个时,它实际上在我的实际答案中提供了一些引用。所以在这个中,它只是在最后做了。所以同样,生成式 AI 是生成式的,对吧?特别是如果你只是在做这些复制粘贴提示,我从不推荐这样做,但对于现场演示来说,这是最好的方法。好的。

因为我不能坐在那里,然后进行整个主要提示润色以充分利用这个。嗯,对。但你会看到,即使只是更明确地告诉它,伙计,去搜索网络。即使我点击了那个搜索按钮,嗯,它第一次没有这样做。好的,让我们看看我们对这个解决不存在问题的创新智能设备的回复。所以公司名称是 Zenovate Smart Living,其使命宣言是打造智能的、适应性强的居住空间,在高度互联的未来优化心理健康和生产力。

所以它就是这样做的。它是一个智能家居中心,通过集成传感器和可穿戴设备收集生物识别数据,例如脑电图、HRV(我认为是心率值),以持续评估用户的压力、专注度和疲劳程度。它会动态调整环境照明、温度、声学甚至香味扩散,以创造个性化的认知庇护所。好的。

我的意思是,如果我像托尼·斯塔克那样富有,我会花钱开发这个。这听起来很酷。好的。哦,三迷你高。嗯,做得相当不错。这是开放式的,没有正确或错误的答案。我已经在所有不同的模型上运行过这个了,这可能是我的更好的回应之一。通常它只是有点无聊的东西。呃,你会在这个里看到,对吧?呃,它也,哦,这里有点混乱。让我看看。

好的,很有趣,因为它实际上现在有点融合了。等等,是这样吗?等等。是的,所以它正在将一些日常AI方面融入到这个Nero haven中,它不应该这样做,对吧?但这就是为什么你必须始终正确使用它们的原因,对吧?通常,我会开始一个新的聊天。我会进行,引用“训练”它,通过我们的主要提示润色,进行细化队列,这样它就不会从其余的聊天中提取信息。但是......

你们怎么想?你们对O3 Mini印象深刻吗?让我这样说吧。基准测试,出色。即使是免费模型。所以我现在会说是的,但这可能会在下周改变。现在,它是世界上最好的免费聊天机器人模型。虽然,就像我说的,我认为那里每个人,每个企业人士,

每个企业都应该为他们想要使用的任何大型语言模型环境支付团队帐户或企业帐户的费用,无论是Microsoft 365 Copilot(我强烈推荐),ChatGPT Enterprise,Google Gemini for Workspace。

Claude企业版。当然。是的,是的。如果,如果,如果你不介意无法访问当天的信息,当然。呃,对。但是你应该始终始终始终为团队企业订阅付费,就像你的员工需要一样,比如,你知道,Microsoft Word,或者他们需要,你知道,Word文档,他们需要某些软件,对吧?那是要花钱的。你的团队需要付费帐户。让我先把这个说清楚。我不是告诉你不要为此付费。

但即使是免费计划,我也很兴奋,因为这意味着什么。一年前,我说,不要碰Chat GPT的免费计划。它绝对糟糕透顶。它充满了幻觉,因为你使用了3.5版本,这是不好的,对吧?它没有连接到互联网。所以很多最终在线分享的内容,呃,

都是不好的东西,对吧?因为那些不了解AI的人,他们只会进去,创建一个免费帐户,做一两个提示,不知道大型语言模型是如何工作的,不理解生成式AI。他们会得到一个绝对糟糕的回应。他们会把它发布到网上,或者把它带回他们的主管或董事会。他们会说,看,AI不适合我们。好吧,对不起,如果你那样做了,那就太蠢了。我不知道,你们。

2025年,我有点辛辣。我有点累了。我有点老了。我不会再友好了,对吧?我厌倦了人们不知道如何使用AI。然后你继续进行,得到一个糟糕的输出,然后你把它分享到社交媒体上,然后你说,哦,是的,我永远不会失去我的工作。我说,是的,会的。它百分之百会。因为你所做的只是走出去说,嘿,我不知道如何使用AI。我对此做了一个有趣的比较。这就像我,对吧?

我将在这里现场做一些事情。如果你在跑步机上并且想结束这个,对不起,对吧?但这与免费Chat GPT有关,我发誓,对吧?所以这实际上是,你因为绿屏的原因看不到这个,显然。让我看看。你能看到这个吗?就是这样。所以这就像我如果画画一样,对吧?你们能看到我在这里画了什么吗?直播观众,你们能看到这个吗?我在说明一个观点,我发誓,好吧?

所以如果我把这个发布到网上并说艺术很糟糕。看看这个。艺术很糟糕。在商业世界中没有艺术的容身之处,因为看看这个,对吧?我画了一张简笔人物画。艺术很糟糕,对吧?不,艺术并不糟糕。我的艺术很糟糕。

艺术肯定在世界上有一席之地。所以这就是我认为旧版Chat GPT对商业世界所做的。是一群完全不知道自己在做什么的人。他们会继续使用一个糟糕的版本。

GPT,GPT 3.5没有连接到互联网。因为当每个人都在试图弄清楚AI时,他们并不总是为最好的模型付费,对吧?他们会说,看,这很糟糕。它很普通。它充满了幻觉。AI很糟糕。不,你很糟糕。你很糟糕。但是现在,希望在2025年及以后,我们将避免这种情况。因为现在,我认为OpenAI的O3 Mini是

是世界上最好的免费AI模型。它现在已经缩小了差距。是的,尽管是在非常有限的基础上,因为你不能使用大量的消息,对吧?但它至少缩小了世界其他地区可以访问和体验的内容与那些为最佳模型付费的人所拥有的内容之间的差距。好吧。我希望这有帮助,你们。如果是这样,请记住,去查看

我们的AI预测系列。它全部在线。我强烈推荐这个。我会继续要求你去听这个,因为即使是我两周前谈论的事情也已经开始实现了,显然。如果这有帮助,对吧?拥有一个可以在你提示它时搜索互联网的推理模型的组合,这是令人难以置信的,令人难以置信的好。

我认为,如果你没有分享深度研究剧集,你就错过了,因为那个指南太棒了。但我确实有20个现成的商业用例。你必须阅读它。你必须更新一些占位符。你必须思考,对吧?但是当你将O3 mini推理模型与搜索方法结合起来时,

这改变了可能性。好吧。所以请转发这个节目。如果你在播客上收听,我总是留下转发这个节目的链接。如果你愿意,我很感激。我也很感激你去youreverydayai.com注册免费每日新闻通讯。感谢收听。希望明天和每天都能看到你们回来收听更多日常AI。谢谢你们。

今天的Everyday AI节目到此结束。感谢您的收听。如果您喜欢本集,请订阅并给我们评分。这有助于我们继续前进。更多AI魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样您就不会被落下。去打破一些障碍,我们下次再见。

EP 456: OpenAI’s o3-Mini - The world’s best free chatbot model? 58:08 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 456: OpenAI’s o3-Mini - The world’s best free chatbot model?