We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP 508: OpenAI’s impressive new thinking models, Google gives free AI to millions and more AI News That Matters

EP 508: OpenAI’s impressive new thinking models, Google gives free AI to millions and more AI News That Matters

2025/4/21
logo of podcast Everyday AI Podcast – An AI and ChatGPT Podcast

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript
People
J
Jordan Wilson
一位经验丰富的数字策略专家和《Everyday AI》播客的主持人,专注于帮助普通人通过 AI 提升职业生涯。
Topics
我观察到AI领域发展迅速,竞争激烈。微软发布的AI代理能够像人类一样使用电脑,但这并不是本周最重要的新闻。OpenAI发布了五个大型语言模型,谷歌免费向数千万用户提供Gemini AI,Anthropic也更新了Claude。OpenAI收购Windsurf的举动显示了代码生成市场的竞争激烈。谷歌的Gemini 2.5 Flash模型允许开发者设置计算推理预算,其性能优于竞争对手。谷歌的VO2 AI视频生成器也十分强大。美国政府可能禁止DeepSeek,这反映了地缘政治因素对AI发展的影响。微软的Copilot Studio中的AI代理可以自动化网站和应用程序上的操作。谷歌向美国大学生免费提供Gemini Advanced,这体现了公司争夺用户的策略。Anthropic为Claude增加了Google Workspace集成和新的研究工具。OpenAI正在测试一个新的社交媒体平台。GPT 4.1模型具有100万个token的上下文窗口和更低的价格。OpenAI发布了O3和O4 Mini模型,这些模型能够进行推理并使用多种工具。

Deep Dive

Chapters
OpenAI is in talks to acquire Windsurf, an AI coding company, for $3 billion. This follows failed acquisition talks with AnySphere, the parent company of Cursor. The move highlights the intense competition in the AI-powered coding assistant market.
  • OpenAI in advanced talks to acquire Windsurf for $3 billion
  • Acquisition driven by securing a major stake in the code generation market
  • Prior investment and failed acquisition attempts with AnySphere (Cursor's parent company)
  • Intense competition among AI coding startups like Codium
  • Windsurf's annual recurring revenue (ARR) of $40 million compared to Cursor's $200 million

Shownotes Transcript

这是 Everyday AI Show,一个每天播出的播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。全球最大的公司之一微软刚刚发布了一个自主式 AI 代理,它可以像人类一样使用计算机、应用程序和浏览网站。

然而,这可能甚至不是本周排名前五的 AI 新闻。这是因为我们从 OpenAI 获得了五个新的大型语言模型模式。谷歌发布了一大堆,他们免费向数千万人提供他们的 Gemini AI 产品。甚至 Claude,或者说 Anthropic 的 Claude 也发布了一些重大更新,现在您必须考虑 Claude 了。是的,AI 新闻世界中任何一周都有很多事情发生。我们今天将在 Everyday AI 上通过我们每周的“重要的 AI 新闻”栏目来报道所有这些内容。

大家好!我是 Jordan Wilson,我是 Everyday AI 的主持人,这个节目是为你们准备的。这是我们的每日直播播客和免费每日新闻通讯,帮助我们不仅跟上 AI 世界正在发生的事情,而且了解如何利用所有这些信息来取得进步,发展我们的公司和职业。因此,如果您试图成为公司或部门中最了解生成式 AI 的人,那么

这就是您的新家。您的第二个家是我们的网站 youreverydayai.com。因此,您可以在我们的网站上注册我们的免费每日新闻通讯。是的,我们每天都有直播和播客,时间是美国中部标准时间上午 7:30。但随后,我们会在我们的免费每日新闻通讯中回顾所有最重要的见解,并让您了解 AI 世界中发生的其他一切事情。

说到 AI 世界中发生的其他一切事情,实际上太多了,无法跟上。我明白,对吧?这就是为什么几乎每个星期一,我们都会做我们的小型特别节目“重要的 AI 新闻”。因此,我们剔除本周所有最重要的更新、所有无关紧要的内容、所有好的内容,然后直接提供给您。

没有偏见。只提供要点和我们的看法。这就是我们现在要做的,我们将回顾 4 月 21 日当周重要的 AI 新闻。

好了,我很兴奋,各位。直播观众们,你们好吗?很好。很高兴见到你们一些人。Aiden 在场为 Hoosiers 欢呼。很高兴见到你,Aiden。Gene 和 Douglas,以及其他人。Christopher、Fred,守护着我在芝加哥的人们。Rolando、Rolando、Kyle、Sandra,以及其他人。感谢您的加入。

喜欢现场直播,对吧?人们总是说,“Jordan,你应该,你知道,也许应该预先录制这个东西并进行编辑,这样你就不会说那么多‘嗯’了。”我喜欢现场直播,因为这样我就可以和你们一起玩耍和学习。所以让我们直接进入本周第一个重要的 AI 新闻故事。

OpenAI 的一项收购,一项数十亿美元的收购?好吧,也许吧。据报道,OpenAI 正在进行高级谈判,以 30 亿美元收购 AI 编码公司 Windsurf,因为该公司寻求在快速增长的代码生成市场中获得主要份额。

因此,尽管 OpenAI 此前投资了 AnySphere(流行的编码助手 Cursor 的创建者),但据 CNBC 证实,该公司与 AnySphere 的收购讨论失败了两次。所以,呃,

Cursor 目前每年创造约 2 亿美元的经常性收入,而 Windsurf 的 ARR 约为 4000 万美元,这突显了 AI 编码初创公司之间激烈的竞争。因此,在 OpenAI 与 Cursor 母公司的收购谈判破裂后,谈判

收购 Windsurf 的谈判就开始了。因此,尽管 OpenAI 最近推出了 Codex CLI 编码工具,但 OpenAI 对 Windsurf 的追求表明了一种获取市场份额的紧迫感,而不是等待内部产品获得采用。

此举强调了 AI 驱动的编码助手领域竞争的激烈程度,包括 Codium 在内的几家初创公司都在争夺领导地位,因为开发人员越来越依赖生成式 AI 来加快软件创建速度。

是的,这个很有趣。看到它时我并不感到震惊,但我心想,嗯,对吧?因为正如我们刚才所说,OpenAI 已经投资了 AnySphere(Cursor 的母公司),显然在这些谈判破裂之前试图收购 Cursor。是的,显然 Cursor,你知道,变得太快太流行了,已经带来了 2 亿美元

的经常性收入。所以现在看来 OpenAI 的目标或重点已经转向了 Windsurf。是的,我会说这是

AI IDE 或编码 AI 领域中的 1A 和 1B,Cursor 领先,Windsurf 紧随其后。然后你还有像 Lobe 和 Bolt 这样的更专业的工具。而且,你知道,我显然不知道为什么更多的人不使用微软的 GitHub Copilot。这是一个很棒的工具,与其中一些非常相似。但看起来,你知道,无论出于何种原因,你知道,Cursor 和 Windsurf 真的起飞了,你知道,

在网上很快。我认为很多这种在线热议导致数十万用户涌向这些新的 IDE 工具。这也相当有趣。我必须在 Google Next 大会上与 Windsurf 的领导团队交谈。是的,我知道。太疯狂了,对吧?就像我和一些最终不会出现在这个节目中的人交谈一样,但你知道,我与他们讨论了一些非常酷的事情。

好了,我们接下来的 AI 新闻。谷歌推出了 Gemini 2.5 Flash,这是一个新的 AI 模型,允许开发人员设置一个思考预算,控制模型使用多少计算推理。定价也反映了这种灵活性,输出成本从推理关闭时的每百万输出标记 60 美分

到推理开启时的 3.50 美元不等。是的,如果您将这种思考模式保持在新的 Gemini 2.5 Flash 上启用,那么您将看到价格上涨超过 5 倍,几乎是 6 倍。

因此,谷歌的新模型 Gemini 2.5 Flash 会根据任务的复杂性自动调整其推理预算,旨在帮助企业节省简单查询的成本,并为复杂的解决问题投入更多资金。因此,早期基准测试表明,Gemini 2.5 Flash 虽然是世界领先的 Gemini 2.5 的较小版本,

但基准测试表明,Gemini 2.5 Flash 已经超越了 Anthropic Claude 3.7 Sonnet 和 DeepSeek R1 等主要竞争对手,甚至在推理任务中也接近 OpenAI 的新 O4 Mini。

所以现在它可以在谷歌的 AI Studio 中免费试用,对吧?但显然,谷歌免费 AI Studio 中的训练数据会提供给谷歌,但您也可以付费并在后端产品 Vertex AI 中使用它。您也可以在 Gemini 应用程序中使用它。

此次发布是谷歌更广泛的 AI 战略的一部分,其中包括我们稍后将要讨论的一些内容。

对于 Gemini 2.5 Flash 来说,相当令人印象深刻的基准测试结果,显然如此。我的意思是,你刚才看到了这个。这是他们的小型模型,对吧?不是小型语言模型,而是他们大型语言模型 Gemini 2.5 Pro 的小型版本。而且它已经,小型版本,在基准测试中获得了比 Anthropic Claude 3.7 更好的分数,后者也是一个思考模型。所以

显然谷歌在这里取得了令人印象深刻的成果。我不希望在这种情况下成为 Anthropic,对吧?当您的两个最大竞争对手 OpenAI 和谷歌都在同一周推出了其模型的较小版本,这些模型的成本只是使用 Anthropic Claude 的后端成本的一小部分,并且它正在击败他们的大型模型。好了。

那么,你们怎么看?你知道的,在我喝我的浓咖啡时,我会从我们的直播观众那里得到一些评论和想法。是的,Trevor,你好,Trevor?

Trevor 在 LinkedIn 上的直播内容很棒。Trevor 说,很难记住所有这些版本。是的,绝对是,对吧?我认为有些人已经要求这样做。我认为我将创建一个图表,基本上包含最新的模型以及它们的用途,因为即使是 OpenAI,我也说过,他们刚刚发布了五个新模型,对吧?所以就像,好吧,你可能上周还在使用的模型,比如 O3 Mini High,

已经消失了,对吧?gpt 4.5 至少在 api 中即将消失,现在你有了所有这些其他新模型的字母汤,包括 Gemini 2.5 Flash,但这非常令人印象深刻,所以是的,你可能不想在前端使用 Gemini 2.5 Flash,对吧?所以如果你在使用它,你知道,付费的,你知道,如果你在每月 20 美元的谷歌 AI 计划中

实际上没有必要使用该模型,对吧?因为您可以完全访问 Gemini 2.5 Pro,这实际上是为在后端构建此模型的开发人员准备的,对吧?因此,如果您使用谷歌的 api 来构建您自己的产品或创建谷歌 Gemini 2.5 Pro 的较小版本,使用他们的 Flash 模型,到目前为止结果令人印象深刻,好了,说到令人印象深刻的

它甚至不接近。谷歌 VO 的 AI 视频生成器 VO2 是迄今为止最好、功能最强大的 AI 视频模型。现在它正在向 Gemini 高级订阅者推出。

是的,谷歌终于为 Gemini 高级订阅者推出了 VO2,这是他们业界领先的文本转视频 AI 模型,允许用户仅从提示生成 8 秒 720p 视频。

因此,用户现在可以创建可以直接分享到社交媒体的视频,尽管每月创建的视频数量有限。现在,您也可以在谷歌 Gemini 的前端聊天机器人中使用 VO2。这是一个缓慢的推出过程。我现在在我的任何 Gemini 高级帐户中都没有它,但您只需要回去查看一下。但现在它只是文本提示。所以如果你想要

VO2 的全部功能,你可能仍然必须使用他们自己的 Vertex AI 平台,或者它也可以在谷歌的 AI Studio 中使用。

但现在,谷歌 2,或者说 VO2,以其改进的真实感和对物理和人体运动的理解而闻名,可以生成更逼真的内容。但是,所有视频都具有 SynthID 数字水印,以确保其 AI 来源的透明度。谷歌还推出了 WiskAnimate,这是一个可以将图像转换为短视频的工具,可在网上使用。

今天早上口齿不清,在全球范围内可用。我试图将可用和全球结合起来,但这没有意义。在全球范围内向 Google One AI 高级订阅者提供。是的,更多关于 Google One AI 高级版的信息,但这意味着您每月支付 20 美元即可获得所有内容。您还可以获得谷歌的一些普通非 AI 工具和功能以及所有 AI 产品。

所以,我不知道。直播观众,有人在他们的 Gemini 高级计划中看到这个弹出窗口了吗?我认为我有三个或四个不同的帐户,每月 20 美元的 Gemini 高级计划。我周末还没有看到它弹出。

但我认为可能在一周左右的时间内。但现在我一直在后端和谷歌 AI Studio 中使用谷歌 VO2。它更灵活一些,并且您会获得一些在使用 Gemini 聊天机器人时还无法获得的新功能。

所以,所以 Kimberly 说尝试了 VO2。它很好。是的,它非常好。我仍然认为我可能会在某些情况下使用 OpenAI Sora。我认为 Sora 内部有一些,你知道,一些,一些 UI UX 功能,我真的很喜欢一次将多个剪辑串联起来并创建更多短片的能力,其中包含多个这些 AI 生成的剪辑。但如果您只是在寻找一个剪辑,或者如果您只是在寻找整体质量,我认为 VO2 仍然是无与伦比的,至少现在是这样。显然,这些 AI 视频工具的更新频率与大型语言模型几乎一样,每天都在更新,但是您必须,我的意思是,如果您还没有,您必须去查看 VO2。它很好。它真的,真的很好。

是的,Kyle 说它也没有出现在他的帐户中,但他喜欢 Wisk。是的,Wisk 是一款非常有趣的工具。

好了,我们接下来的 AI 新闻。美国特朗普政府正在考虑对中国 AI 实验室 DeepSeek 实施新的限制,可能限制其访问 NVIDIA 的 AI 芯片,并禁止美国人使用它。此举是在白宫最近发布的时间表之后进行的。

收紧了限制 NVIDIA 对华 AI 芯片销售的规定,扩大了拜登政府首次实施的措施。由于 DeepSeek 的价格具有竞争力,因此它在美国开发人员中迅速普及,促使硅谷降低其自身高级 AI 模型的成本。

特朗普政府的行动是美国更广泛努力的一部分,旨在减缓中国在人工智能方面的进步,并保护美国的技术和消费者市场。人们一直担心 DeepSeek 的商业行为,因为 OpenAI 指责这家中国实验室以可能违反知识产权和 OpenAI 使用条款的方式提取其模型。

对于个人和公司来说,这些限制可能意味着低成本 AI 选项减少,以及美国公司在创新和保护自身知识产权方面面临的压力加大。据《纽约时报》报道,做出的决定可能会重塑 AI 开发和访问的竞争格局,特别是对于依赖经济实惠的尖端 AI 工具的初创公司和小企业而言。好了,我已经介绍过这个了。

我将尽量避免在这个新闻片段中意外地进入“周二热议”。我会这样说。几个月前我报道过 DeepSeek 的故事。所以如果你想要……

真相和收据。去读读吧。但是美国政府可能寻求禁止 DeepSeek 是有原因的。因为无论你是否知道,如果你直接使用 DeepSeek 的 API,如果你直接使用 DeepSeek 的前端聊天,你的所有数据都会直接发送给中国政府。

我知道人们不喜欢谈论地缘政治,我也不会深入探讨。对。但现实就是这样。我来自美国。对。所以这就像人工智能,无论你是否承认。它不仅仅关乎技术。它关乎全球权力。对。

让我们直说吧,对吧?对吧?现在,计算 AI 芯片和大型语言模型是新的石油。它们是新的黄金。它们是新的货币,对吧?

对。本质上是这样。因此,在谈到地缘政治紧张局势时,我认为重要的是要指出这一点。这不仅仅关乎大型语言模型或芯片出口。不。对。我认为我们过去一年半已经看到了这一点。我认为我们将继续看到更多。只是对最强大的技术的更严格限制。但是各位,你们必须聪明。

这就是为什么我告诉你们所有这些。对。我没有像,你知道,这很有趣。这些,你所谓的,社交媒体上的 AI 影响者。当 DeepSeek 推出时,几乎每一个都像,去使用 DeepSeek。它非常便宜。好吧,那是因为你正在将你的数据发送到中国。对。

无论你是否愿意将你公司的专有保密数据发送到中国,最终取决于你,对吧?但是 DeepSeek 的工作方式与登录 ChatGPT、谷歌 Gemini 或 Anthropic Cloud 的方式不同,对吧?这些公司位于美国,因此内置了数据保护措施。所以是的,如果你直接使用 DeepSeek 的 API,而不是通过第三方服务提供商,

他们基本上会进行处理,使其更安全,并消除一些内置的偏差。但是,如果你直接使用 DeepSeek 的 API,如果你直接在网上使用 DeepSeek,你上传的任何内容都已被发送并被中国政府使用。所以也许你对此没问题。没关系。但重要的是要指出这一点。这就是为什么我们可能会看到关于 DeepSeek 禁令的讨论继续进行的原因。好了。

我们接下来的 AI 新闻,是的,我一开始就讲了这个,这甚至不是本周排名前五的 AI 新闻,这很愚蠢,对吧?因为这很重要,所以微软在 Copilot Studio 中推出了一种新的计算机使用代理,使 AI 代理能够像实际人类用户一样在网站和应用程序上自动化操作,对吧?您可以基本上无需代码

低代码地设置它。因此,如果您所在的组织已为您提供了对 Microsoft 365 Copilot 的完全访问权限,则可以进入 Microsoft 的 Copilot Studio。您现在可以在 Copilot Studio 中获得一个可以使用计算机的代理,它只是

这很重要,因为它允许 AI 代理处理任务,即使没有 API 或内置集成,这可能会极大地扩展企业的自动化可能性。

此功能允许代理点击、键入和导航,基本上执行任何人在网上可以执行的活动,例如填写报告、登录安全站点,甚至管理客户服务请求。

因此,微软高管强调,如果一个人可以使用应用程序,那么 AI 代理也可以使用,这使得更广泛的业务流程的自动化成为可能。因此,此更新基于微软之前的

操作功能,但它旨在用于更高级的业务规模自动化,而不仅仅是个人使用。因此,该技术还能够适应不断变化的网站和应用程序布局,使其更可靠地满足持续的现实世界自动化需求,呃,

自动化需求,例如发票处理、数据输入,甚至是一些研究工具无法完成的更复杂的研究。此项开发紧随 OpenAI 的 Operator 的类似努力之后,并反映了整个行业推动简化重复性任务并为更有价值的工作腾出时间的更广泛趋势。

是的,它可以全天候运行您的 LinkedIn 活动。当然。你知道,这实际上是我试图让 OpenAI 的 Operator 做的事情之一,它并没有很好地工作。它实际上不是 Operator 的主要原因之一,所以是的,如果你想要,你知道,其中一个 AI 代理去使用 LinkedIn。它实际上不能很好地工作的原因之一是因为 LinkedIn 界面

很糟糕,对吧?所以我试图让 Operator 做的是浏览我的私信,而不是回复它们,对吧?只是标记任何重要的事情,因为我不知道,我在 LinkedIn 上收到的东西有 50% 是垃圾邮件。

这对我来说很难,因为我显然会收到像你们这样的人发来的合法信息,对吧?例如,如果你们看到一个故事被报道,当人们正在构建新产品时,你知道,他们,你知道,想要 OpenAI,对不起,他们想要 Everyday AI 来报道他们,对吧?我收到了很多重要的私信,但我很难全部浏览它们,因为我不知道。我可能有,我不知道。

多年来有几千条未读信息,对吧?所以我试图训练 Operator 去浏览并阅读它们,它做得还可以,但这更多的是界面错误,因为当你在 LinkedIn 收件箱中进行无限滚动时,一个像素的细微差别就足够了,对吧?所以是的,也许我必须尝试 Copilot Studio 中新的计算机使用代理,看看它是否做得更好。好了,让我们继续。谷歌刚刚赠送了

它最强大的 AI,免费。

给大约 2000 万人。谷歌宣布,所有拥有有效 .edu 电子邮件地址的美国大学生现在都可以获得一整年的 Gemini Advance 免费访问权限。此举是首席执行官 Sundar Pichai 战略的一部分,该战略旨在到 2025 年底达到 5 亿 Gemini 用户。

现在,符合条件的学生可以注册 Google One AI 高级计划,该计划通常每月 20 美元。其中包括高级 Gemini Pro 模型、无限深度研究工具使用、VO2 视频生成器、Notebook LMR、

以及 Gemini Live,以及 2 TB 的 Google Drive 存储空间。是的,如果您是大学生,并且您在美国拥有大学的有效 .edu 电子邮件地址,那么是的,您将获得谷歌

最佳 AI 产品的一年免费使用权。该优惠立即生效,有效期至 6 月 30 日。是的,您必须在 6 月 30 日之前注册,但免费访问权限实际上持续到 2026 年春季学期。因此,例如,如果您今天注册,您可以获得大约多少?比如

大约 13 个或 14 个月的谷歌 Gemini 免费使用权。所以,你知道,这几乎是 400 美元的免费价值。

但是,谷歌对学生的定义很宽泛。因此,它表示,即使目前未注册课程,任何拥有 .edu 电子邮件地址的人都有资格。因此,这种策略显然可以帮助学生和应届毕业生。你知道,学生们现在正在准备期末考试。给你。您可以使用 Notebook LM+ 进行准备,我强烈建议您这样做。我的天哪。

以及应届毕业生,对吧?如果您正在寻找工作,那么谷歌 Gemini 内部有一些很棒的工具可以帮助您做到这一点。但是对于谷歌来说,这项促销活动代表着一种经过深思熟虑的努力,旨在培养年轻成年人和未来专业人士的用户忠诚度,即使是以牺牲短期收入为代价。你知道吗?这就是问题所在,再次,其中一件事情,我不希望成为 Anthropic,对吧?

因为 OpenAI 已经表示,他们在更高级别的套餐上亏损,例如每月 200 美元的付费

专业版套餐,对吧?据广泛报道,OpenAI 每年亏损数十亿美元。好了。现在谷歌也效仿,只是说,“唉,我们并不真正关心短期收入。我们关心用户”,对吧?我认为这是谷歌的一个非常聪明的举动。这紧随 OpenAI 在两个月前宣布之后

向学生提供其 ChatGPT Plus(每月 20 美元)计划的免费访问权限。因此,谷歌基本上表示,是的,OpenAI,我们会看到那两个月,我们会给你一整年。所以是的,这是一场争夺用户的比赛。这是一场争夺眼球的比赛。再次,我不希望在这种情况下成为 Anthropic。说到 Anthropic,他们终于提高了相关性。

一点点。好了。因此,Anthropic 已为其 Cloud AI 聊天机器人推出了 Google Workspace 集成,允许用户直接从 Gmail、Docs 和日历中提取信息,据该公司称。

因此,该集成可供所有付费 Anthropic Cloud 用户使用。但是,如果您使用的是团队或企业计划,则管理员必须首先启用访问权限,然后个人用户才能连接其 Google、Gmail、Docs 或日历帐户。

是的,我很想知道。有人尝试过这个吗?我有。我对它有一些不同的看法。但是,Claude 的另一个新更新是,他们确实开始推出他们的新研究工具,该工具会自动搜索网络和工作区文档以回答问题。

但是,目前这仅适用于价格非常昂贵的最大计划(每月 100 美元或 200 美元)或某些国家的团队或企业计划。因此,对于新的研究工具,呃,它与我们拥有的所有其他深度研究工具非常相似,呃,来自 OpenAI,我们有来自谷歌、Perplexity、Grok 和其他人的工具。呃,所以再次,呃,

你知道,Claude 来晚了,但不同之处在于,它在整合这些深度研究报告时也可以查看您的工作区信息,或者他们称之为新的研究工具,所以我确实测试了这个,我测试了 Gmail 集成,因为

我认为这是独特的一点。所以 OpenAI 几个星期前已经将其推出了他们的团队用户,我认为这工作得很好。但他们没有的功能是浏览 Gmail。所以我周末试用了一下。

呃,我实际上排队等了什么东西大约一个小时,呃,所以我只是在我的手机上,呃,测试这个,它还可以,对吧?我的用例,说到,呃,我的,我的,我的 LinkedIn 私信充满了垃圾邮件,呃,我的电子邮件可能更糟,对吧?所以我经常收到

公司联系我,他们想在 Everyday AI 上做广告,或者他们想雇我为他们的会议演讲、培训他们的员工等等。但是我的电子邮件收件箱很糟糕,因为我每周也会收到几十次推销,这些人会出现在节目中,以及一堆垃圾邮件。所以我试图使用 Claude 的这个新功能,我用它进行了测试

思考。使用 3.7 Sonnet,启用思考,禁用思考,它还可以。它不是很好。它做得还可以。但我认为这并不是我会说,“好吧,这是一个改变游戏规则的功能,甚至是继续使用 Anthropic 付费计划的理由”,对吧?有趣的是,我上周做了一个节目。我相信是在周二,我说,“各位,除非 Anthropic 推出一些有意义的更新,否则他们有麻烦了。”

巧合的是,这些更新在直播结束后几个小时就发布了,对吧?很有趣。我不知道这够不够,对吧?我现在要再仔细看看Anthropic的更新,但我不知道。第一印象是,它在处理我的邮件方面做得不好,对吧?

至少从我问的问题来看是这样的,对吧?我就像,“嘿,去看看,呃,找到那些联系我寻求赞助或聘请我,你知道的,呃,培训他们的团队或在他们的活动上发言的人。”它看起来真的只浏览了前几页,即使我鼓励它深入挖掘,或者我说,“好吧,你知道的,从你停下的地方继续。”所以我做了很多,很多尝试,它仍然只

看起来这个初始功能,对不起,这个功能最初只能浏览我的邮件的前几页,对吧?就像,我有,我不知道,我不删除邮件。我觉得人们要么是收件箱为零,要么是收件箱有数万亿封邮件。我就是这样。我属于后者。我只是让邮件留在收件箱里。所以我收到了数万封邮件

实际上,我认为那个邮箱里可能有,我不知道,5万封邮件。对。所以它在浏览邮件时做得并不好,可能只浏览了五六页,因为我知道,对,我正在做这些大海捞针的测试。就像,“哦,我知道这家公司两个月前联系过我。我忘了回复他们。对不起。”

看看Claude能否发现它,但它做得并不好。所以,你知道,你可能会想,“好吧,难道你不能搜索,呃,你知道的,你的邮件,然后输入‘合作’、‘赞助’或‘广告’这些词吗?”是的。对。但大型语言模型的重点就在于,呃,这种自然语言处理,对吧?呃,因为人们可能并不总是使用相同的关键词,对吧?他们可能会,呃,使用不同的词语。所以这就是拥有大型语言模型的意义所在,它可以连接

到你的实时数据。但至少根据我对它的早期测试,我并不太满意。直播观众,如果其他人也这么做了,请告诉我你是否得到了比我更好的结果。

你还在为了弄清楚如何利用人工智能来发展你的业务而苦苦挣扎吗?也许你的公司已经使用大型语言模型一年或更长时间了,但仍然无法获得牵引力,也无法找到生成式人工智能的投资回报率。大家好,我是Jordan Wilson,本播客的主持人。

像Adobe、微软和英伟达这样的公司已经与我们合作,因为他们相信我们在教育大众了解生成式人工智能以取得领先地位方面的专业知识。一些国内最具创新性的公司聘请我们帮助他们制定人工智能战略,并培训他们数百名员工如何使用生成式人工智能。因此,无论你是在寻找针对数千人的ChatGPT培训,

还是只需要帮助构建你的前端人工智能战略,你也可以与我们合作,就像世界上一些最大的公司一样。访问youreverydayai.com/partner与我们的团队联系,或者你也可以点击我们网站上的合作伙伴部分。我们将帮助你停止在人工智能领域兜圈子,帮助你的团队取得领先地位,并建立一条通往生成式人工智能投资回报率的直线路径。说到大型人工智能公司试图在一个新的领域竞争,

据报道,OpenAI正在悄悄测试一个社交媒体平台,该平台可能会重塑人工智能与在线社区互动的方式。因此,OpenAI据报道的新社交媒体网络模仿X,或以前的Twitter,

并以ChatGPT新的且极其流行的图像生成功能为中心。据报道,首席执行官Sam Altman一直在收集关于这个社交媒体项目的私人反馈,暗示他对实际启动该项目非常感兴趣。

此举是在Twitter或X成功集成Grok AI之后进行的,据报道,竞争对手羡慕Grok AI能够推动病毒式传播。

Meta也试图向Facebook和Instagram添加人工智能功能,但面临审查并取得了喜忧参半的结果。所以是的,大型社交媒体公司已经在琢磨如何更好地将人工智能集成到他们的产品中。所以这里我们看到了相反的做法。

在用户数量和月活跃用户数量方面,世界上最受欢迎的人工智能公司正在考虑采取相反的做法,说,“啊,我们拥有所有的人工智能用户。也许我们应该开始推出一个社交媒体网络。”

呃,去年,我的观众,你们对此怎么看?我有我的想法,但目前还不清楚这个新平台到底是ChatGPT的一部分,还是一个独立的应用程序。而且显然,官方还没有说明这是否会成为一个实际的产品,甚至是否会推出,但对于企业和创作者来说,这可能意味着新的用户参与工具,但也意味着围绕数据使用和内容真实性的挑战。

关键在于数据,对吧?数据。所以这是最大的一个,我想我不会称之为功能。公司最大的优势之一,比如XAI及其在X/Twitter社交媒体网络上的Grok,以及Meta Llama及其与Facebook、Instagram、WhatsApp等的集成,

是他们可以在所有这些数据上训练他们的模型,对吧?这可能是好事,也可能是坏事,对吧?就我个人而言,如果我是企业,对吧,我不会碰XAI和Grok,因为,你知道的,根据报道,我们听到的内容,它的大部分训练数据只是X的帖子。所以我认为有很好的证据

支持这一点,以及潜在的坏处。但OpenAI想要的是,他们想要更多训练数据,对吧?他们显然希望用户更积极参与,对吧?因为他们参与得越多,显然他们从长远来看就能有更多的方法来获利,而不仅仅是,你知道的,每月20美元或200美元的更高级服务的订阅费。

所以Joe说人工智能加社交媒体不是一个好主意。好吧,所以是的,有些人不是粉丝。Sandra说,你怎么控制错误信息?

这是一个很大的问题,对吧?是的,就像我说的,对于X、AI和Grok,我可以这么说。研究表明,X,X平台是美国迄今为止错误信息和虚假信息最多的社交媒体平台。所以是的,你希望这些公司,你知道的,正在使用这些实时数据来训练他们的人工智能模型,对吧?

呃,能够区分真实信息和错误信息、虚假信息,但现实是,这可能很难跟上,也很难做到,所以我不知道,所以呃

我不知道。我自己不是一个社交媒体迷。显然,这个直播发布在LinkedIn上。我会查看Twitter上的AI新闻,但其他一切,我都没有关注社交媒体上的任何人。我没有发布任何东西,对吧?至少不是关于我的个人生活。所以我猜我专业上会稍微使用一下社交媒体来宣传Everyday AI,但仅此而已。但我认为,

如果OpenAI确实发布了一个社交媒体网络,那么他们会有更大的计划,它将不仅仅是分享你的呃,你知道的,最新的呃,人工智能图像生成,以及他们令人印象深刻的新的呃,4.0图像生成工具,好吧,我们下一条AI新闻是4.1,是的,我们有一个新模型,但它并非对所有人开放

OpenAI推出了GPT 4.1,它拥有100万个token的上下文窗口和大幅降低的API价格。所以这个新的小型token

从技术上讲,它是一个更小的版本的新模型,目前还不能在前端使用,而且可能也不会。所以,如果你要访问chatgpt.com并想使用这个新的升级版GPT 4.1,你将找不到它,因为现在它只是一个开发者模型。GPT 4.1的API定价现在比竞争对手低得多,输入价格为

每百万个token 2美元,输出价格为每百万个token 8美元,外加75%的缓存折扣,奖励提示重用。

非常令人印象深刻,特别是考虑到这个新的GPT 4.1模型在编码基准测试和真实的GitHub代码审查中都击败了Anthropic Cloud的3.7 Sonnet,使其成为编码应用程序的有力竞争者。所以是的,实际上4.1迷你模型是

实际上已经获得了关于性能基准和价格的极高评价

因此,像Anthropic和谷歌这样的竞争对手现在面临着越来越大的压力,因为他们的价格更高。Gemini复杂的层级和缺乏计费保障措施也受到了批评。但显然,Gemini做出了回应,谷歌和Gemini几天后用他们的Gemini 2.5 Flash应用程序做出了回应。

再说一次,我们外部的人是可怜的,而且速度很快,对吧?呃,它一直是,呃,多年来的编码,呃,宠儿,但是,呃,天哪,我现在不想成为Anthropic的粉丝,因为GPT 4.1的这些新更新,开发者专用模型,呃,在软件开发方面非常适应,呃,在编码方面,呃,以及

非常实惠。然后就像我们说的,Gemini 2.5 Flash,一个混合模型。所以非常有趣。但是是的,至少目前,GPT 4.1将无法在ChatGPT中使用。所以至少现在,它不是一个前端模型。此外,OpenAI确实宣布他们将取消GPT 4.5模型

在后端。他们没有提到,对吧?所以他们不会在API方面支持它超过夏天,我相信。他们没有宣布它是否会从chatgpt.com消失。我假设它可能还在,正在等待OpenAI对此进行一些澄清。

好了。我们最后一条AI新闻,这可能是最大的新闻。OpenAI发布了新模型,完整版的O3。这是一个非常令人印象深刻的思维模型,以及O4 Mini。好的。

OpenAI发布了迄今为止最先进的人工智能模型O3完整版和O4 Mini,为用户提供了更快、更智能、更灵活的工具来解决复杂问题。

这些新模型可以在一次对话中搜索网络、分析图像和文件、编写代码和生成图表。是的,这是最大的新功能。所以以前,如果你使用的是像OpenAI的O3 Mini High这样的模型,它实际上是我的主力模型,现在它

现在它消失了。但不同之处在于现在的O3和O4 mini。是的,它们是推理模型。但是,现在它们仍然可以在后台使用所有这些其他工具,对吧?这令人印象深刻,因为以前它们不能都这样做。所以

例如,O3完整版可能是功能最强大的模型,我知道这非常令人困惑,因为如果你像我一样使用专业版计划,现在你拥有这三个不同版本的O模型,对吧?这些模型使用这种思维链

或后台推理,对吧?它们可以思考和提前计划并适应。而且,你知道的,有时它们会在提供回复之前思考三、五、十、十五分钟。但现在,对吧,如果你使用专业版计划,你有一个Pro 1,我仍然将它用于很多事情。但现在你也有这个新的O3,呃,

完整版,对吧?这与以前不同,因为以前我们有O3 mini和O3 mini high。所以现在我们有O3完整版,然后我们有O4 mini和O4 mini high。我们没有O4的完整版。我们有O3的完整版,你们使用O3的完整版,感觉像是犯罪。

它太,太棒了。所以有一些例子,对吧?我自己还在探索这个。它几天前才发布。所以,你知道的,我还在,你知道的,试图抽出时间来充分调查这件事。我可能只花了大约三个小时来使用这些新的O3和O4 MIDI,这对我来说并不多。通常情况下,我就像,你知道的,一发布我就用八个小时。我还没有很多时间,但是O3,

太棒了,用它感觉像是犯罪。我认为原因之一是你可以访问所有工具。所以,你不仅可以拥有这个逐步思考的模型,它可以推理,可以提前计划,而且在这样做的过程中,它还可以使用多种工具,并且可以来回切换,对吧?

例如,它可以使用Canvas。它可以使用ChatGPT搜索。它可以使用Python,对吧?仅此而已,使用所有这些不同工具的组合,非常惊人,对吧?我测试它的方法之一是,我有一个屏幕截图。我完全是在我的手机上做的。我有一些顶级AI工具的屏幕截图。可能大约有30或40个。

它们。所以,你知道的,在我的手机上,你知道的,因为我又在排队,我在周末排了一个小时的队,呃,所以我只是将那个屏幕截图上传到O3。我说,“嘿,给我所有这些工具的价格。”因为我全都知道。呃,对。但我不知道所有工具的价格,因为大约有30或40个。我订阅了大部分,但并非全部。

O3模型不仅可以,或者说,对不起,这个O3模型可以使用计算机视觉,看到它们。它去使用了网络,但我可以看到它是怎么做的。它正在使用网络和Python,对吧?因为它最终要做的是,它正在为我制作一个图形模型

一个图形和一个表格,关于所有这些不同的AI工具。它正在对它们进行排序和分类,并且它正在进行研究,并多次来回切换。所以我只是惊叹地看着它,我想,“这完全改变了局面”,因为本质上你可以将使用这些工具的多个命令链接在一起,对吧?其中一件最重要的事情是

将一般的大的语言模型与人工智能工作流程与自主人工智能区分开来的是自主工具使用能力,对吧?这意味着大型语言模型或人工智能工作流程可以自行决定,“嘿,

我需要为此查询网络。嘿,我需要为此使用计算机视觉。嘿,我需要把它放在表格里。嘿,我需要为此运行一些Python代码”,对吧?它可以自己做出这个选择,对吧?用户不必告诉它。所以能够拥有一个像O3一样强大的模型,能够将这些东西串联起来,你们,

我的下巴都惊掉了。呃,我第一次使用它的时候。所以关于这个OpenAI的更多统计数据说,O3现在是其在推理、编码、数学、科学和理解视觉方面表现最佳的模型。呃,

比之前的版本减少了20%的主要错误。是的,这个模型的幻觉率仍然相当高。所以你总是必须用更多的数据开始任何聊天,并让你的专业知识参与其中。但是,它确实建立在这些思维模型的先前几代的基础之上。

关于O4 Mini模型的一些信息。它旨在提高速度和成本效益,在给予代码访问权限的情况下,在主要的数学竞赛中达到了99.5%的及格率。因此,O3和O4 Mini都可以弄清楚何时以及如何使用不同的工具来回答难题。

多步骤问题,并在过程中进行调整。并且用户第一次可以上传图像,例如白板或图表的照片,并且模型可以使用这些视觉效果来帮助解决问题。所以是的,这就是,你知道的,我的例子。我有一个屏幕截图,呃,对。我可以以此来启动整个流程,呃,

如果说实话,这有点令人难以置信。所以OpenAI据报道已经为这些模型重建了其安全功能,以更好地处理敏感话题并降低风险。这些新模型现在可供ChatGPT Plus和商业用户使用,O4 mini也可供免费用户使用。如果你点击“思考”图标,

选项。所以,如果你使用的是每月20美元的Plus账户,那么这些新模型的使用是有限制的。如果你使用的是专业版计划,我相信它基本上是无限的,这是我读到的。所以请记住这一点。但即使你使用的是ChatGPT的免费计划,你也可以点击“思考”选项,并可以使用O4 mini,尽管它非常有限。

因此,开发人员和公司将受益于更智能、更快的响应,这可以帮助他们节省日常任务的时间和金钱。直播观众,你们有没有人使用过这个,新的O3或O4?我个人感到惊讶。

有点目瞪口呆,对吧?我使用AI的频率比普通人高得多,甚至比普通的高级用户高得多。我想,“哇,这真的可以改变工作流程,对吧?”而且,你知道的,开始弥合传统大型语言模型的使用和AI工作流程之间的差距,对吧?这也很重要。

是的。YouTube上的Michael说,“难以置信的是每周都在发生多少事情。尽管如此,我认为它永远不会停止。”

是的。Sandra问道,“它最好的应用是什么?”Sandra问得好。如果你们愿意,我可能会专门做一个关于这个新的O3模型的节目。我认为它最好的应用是我所做的一个例子,对吧?当你需要在多种模式之间工作时,你需要研究,你也可能需要一个不仅仅是文本的输出,对吧?

对。所以也许是开始。是的。举个简单的例子,从白板开始。对。也许你的团队只是在为即将到来的产品发布进行构思或头脑风暴。你知道的,拍下那个屏幕截图。对。把它与你的一些数据结合起来。然后新的O3模型可以自主地,基本上搜索网络。它可以使用。

呃,Python和其他内置工具,当你完成它时,对吧,你可以使用画布模式,呃,与O3迭代地工作,所以是的,我认为它最好的应用是当你需要进行研究时,呃,也许当你从图像开始时

作为输入,以及如果你需要一些代码,如果你需要,你知道的,ChatGPT来,你知道的,基本上浏览并对某些东西进行分类、组织或进行大量研究,然后对该研究进行分类。

所以这个新模型有很多潜在的用例。好了,结束了,各位。直播观众,请在评论中告诉我。我知道星期一的节目总是很长,但请告诉我你们想听更多什么内容。这将是人工智能领域非常有趣的一周,但让我们快速回顾一下。以下是4月21日那一周人工智能领域的重要新闻。

首先,我们从OpenAI寻求以30亿美元收购Windsurf开始,嘿,我甚至没有提到这一点,但这可能是或者可能是原因,当我们看到GPT 4.1的公告时,

Windsurf用户可以免费使用。这是一个小细节。好了。我们下一条AI新闻是,谷歌发布了Gemini 2.5 Flash,这是一个极其强大且令人印象深刻的模型。他们还推出了VO2,这是他们为Gemini高级订阅者提供的人工智能视频工具。特朗普政府据报道正在考虑禁止DeepSeek,我个人认为这是一个好主意。微软已经推出了,呃,

Copilot Studio中可以使用计算机的代理。谷歌正在向所有拥有有效.edu邮箱地址的美国大学生赠送一年多的Gemini高级版,呃,Anthropic,呃,发布了,呃,Google Workspace集成,呃,以及一个新的研究工具,其他人都已经有了,但是

它只在其更高价格的计划中可用。OpenAI据报道正在关注一个社交媒体平台,可能会以不同的方式与Axe/Twitter和Meta竞争。OpenAI发布了一个

仅限API的模型GPT 4.1,它拥有100万个token的上下文窗口和更低的价格。最后但并非最不重要的是,OpenAI还发布了O3、O4 mini、O4 mini high,一些极其强大的具有自主工具使用功能的推理模型。天哪,太多了。你们这周想听更多什么内容?

我本周可能会有一个或两个空位。所以,如果你想专门做一个关于这些内容的节目,请告诉我。我可能也会在新闻通讯中进行投票。所以,如果你还没有,请务必访问youreverydayai.com,注册

免费的每日新闻通讯。此外,如果这对你有所帮助,各位,请,我非常感谢。首先,如果你在收听播客,请订阅,关注播客,如果可以的话,请给我们评分。我真的很感激。以及如果你在社交媒体上收听,

不要把Everyday AI当成你的小秘密。这很粗鲁。把它分享给全世界。把它分享给你的同事。把它分享给你的邻居、最好的朋友、母亲、保姆、遛狗的人,对吧?每个人都需要学习AI,而且很难跟上。这就是为什么我们几乎每周一都会发布这个“人工智能重要新闻”,以消除营销炒作、消除废话、消除噪音,并告诉你什么

真正重要的事情。我希望这对你有所帮助。感谢收听。希望明天在Everyday AI中再次见到你们。谢谢各位。今天的Everyday AI就到这里了。感谢您的收听。如果您喜欢本期节目,请订阅并给我们评分。这有助于我们继续前进。更多人工智能魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。