We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 498: Meta drops Llama 4, Microsoft Copilot levels up its AI game, GPT-5 roadmap hits snag and more AI News That Matters

2025/4/7

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

本周AI领域发展迅速，多家大型科技公司发布并更新了其最佳AI模型和功能，包括微软的Copilot更新、Midjourney V7图像生成器的发布、OpenAI的GPT-5延迟以及新的O系列模型、ChatGPT Teams的Google Drive集成，以及Meta发布的Llama 4。这些进展涵盖了AI模型的多个方面，例如图像生成、大型语言模型的改进、多模态AI的应用以及AI代理的开发。这些更新和发布对AI行业以及相关领域都将产生深远的影响，并推动AI技术不断发展。

Deep Dive

Shownotes Transcript

这是 Everyday AI 节目，一个每天播出的播客，我们简化 AI 并将其力量带到您的指尖。每天收听，获取提升您的职业、业务和日常生活的实用建议。

我讨厌每周一这么说，但是我的天哪，本周 AI 发展又是一个疯狂的星期。想想看，多个万亿美元的公司发布并更新了他们最好的 AI 模型和功能。

我们终于有了我们期待了一年多的 AI 图片生成器发布。这仍然是领先者。我们获得了一堆 Chad GPT 更新以及关于 GPT-5 和我们没想到的 OpenAI 的另一个模型的消息。而且显然一个 AI 模型通过了图灵测试。是的，没话说。AI 发展又是疯狂的一周，是的，

如果你跟不上，我不会责怪你。我每天都做这件事，对我来说也很难跟上，但这就是为什么大多数星期一我们都会为您带来重要的 AI 新闻。那么大家都在做什么呢？我的名字是 Jordan Wilson，我是 Everyday AI 的主持人。这是您的每日直播播客和免费每日新闻通讯，帮助像您和我这样的普通人，不仅了解 AI 世界中正在发生的事情，而且了解我们如何都能利用它来发展我们的公司和职业。这就是您想做的吗？

试图理解所有这些 AI 吗？您是否试图学习它，然后在您的日常生活中利用它？好吧，它从这里开始。在这里您可以了解正在发生的事情，但是您如何利用它，这发生在我们的网站上。因此，请访问 youreverydayai.com 在那里注册我们的免费每日新闻通讯。

每天，我们都会回顾每天的播客直播，并让您随时了解您不仅需要跟上，还需要在 AI 领域领先所需的一切。如果您还没有这样做，请务必这样做。您现在可以收听大约。

500 集。是的，我认为我们正在播放第 498 集或类似的集数。所以我必须为第 500 集想出一些特别的东西，时间不多了。所以希望大家都能参加。我相信这是在星期三。

所以在我们进入 AI 新闻之前，是的，因为有很多。就像我说的，我们几乎每周一都会进行“重要的 AI 新闻”环节。几件事。我们延长了 Inception Games 的投票时间。这是我们与 NVIDIA 及其 Inception 计划的合作，重点介绍 NVIDIA Inception 计划中一些最好的 AI 初创公司。因此，请务必在节目说明和我们的网站上进行投票。

有两种不同的投票方式。因此，我们分享了投票将于 4 月 8 日星期二晚上 11:59（中部标准时间）结束。如果您还没有投票，请务必这样做。另一件关于我们的家务事。

我们将前往拉斯维加斯参加 2025 年 Google Cloud Next 大会。与 Google 合作，期待这次会议。应该会有很多更新从这次展会中发布。所以，嘿，如果您要参加 Google Cloud Next 大会，请务必向我打招呼，无论是在 LinkedIn 上还是通过电子邮件。我也总是将这些信息放入节目说明中。好的。

闲聊够了。就像我说的，本周有很多 AI 新闻。Meta 发布 Llama 4 的重大发布。微软基本上表示，将所有其他很酷的 AI 功能复制粘贴到他们还没有的功能中。我们有 GPT-5 新闻。我们有 chat GPT 更新。Mid-Journey 7 终于来了。有很多事情要做。让我们开始吧。但是，嘿，直播观众们，你们好吗？

嘿，来自爱尔兰的 Graham。你好吗？Big bogey 加入我们在 YouTube 上。谢谢。LinkedIn 上的 Scott 博士说，恭喜第 500 集。Harvey Castro 博士，很高兴见到你。来自 YouTube 的 Sandra 和 Kyle。感谢你们所有人的收听。好的，让我们开始吧。

让我们来看看重要的 AI 新闻。有很多，伙计们。首先，微软基本上说，哦，那里有很多很酷的新功能。让我们全部开发并全部发布。好的。因此，微软庆祝了他们的 50 周年纪念日，他们发布了很多东西。

好的。因此，微软对其 AI 助手 Copilot 进行了大规模更新，引入了内存、个性化、基于 Web 的操作等等功能。好的。以下只是一些新的更新。我甚至无法全部包含它们，因为这需要一个完整的节目。但是，我认为，这些是最有可能影响日常用户的更新。

因此，Copilot 现在可以记住用户的偏好、兴趣和细节，以便在其新的内存功能中定制建议和建议。因此，用户可以保留对 Copilot 记住的内容的控制权，也可以完全选择退出。此外，还有一些新的个性化选项。所以麦克风，

微软计划为 Copilot 提供个性化的外观，包括选择带回 Clippy 的选项。如果您在过去的，我不知道，25 年里错过了 Clippy，也就是早期 Windows 版本中标志性的助手，它将回归 AI。此外，还有操作。这一个非常重要。因此，Copilot 现在可以通过其 Web 浏览器直接执行任务。

是的，微软刚刚在浏览器中悄无声息地推出了代理 AI。是的，您无需下载程序。它只是使用他们的新操作功能在浏览器中工作。因此，您可以执行诸如预订之类的操作

机票、预订餐厅，甚至购物。因此，结合新的购物工具，Copilot 可以研究产品、查找折扣并简化在线交易。所以是的，微软在那里也进行了大型代理游戏，以及对其 Microsoft Copilot Vision 功能的大规模扩展，该功能以前可在 Web 工具中使用，现在正在推广到 Windows 和移动应用程序，这是一个

非常有用的功能。所以我一直都在 Edge 浏览器上使用它。这有点像 Google 在 AI Studio 中有类似的东西，当它工作时它很棒。Google AI Studio，他们周末的实时流有点不稳定。所以我可能会更多地使用 Copilot Vision，您只需点击一个按钮，Copilot 就能看到屏幕上的所有内容。

您可以实时与它交谈。所以那里非常令人兴奋。此外，深度研究。是的，就像我说的，就像微软实际上刚刚推出了他们之前没有的所有功能一样。因此，Copilot 现在可以分析在线资源中的大量文档以用于复杂的项目，并与 Bing 集成以获得 AI 驱动的搜索响应。所以它也可以生成

你知道那个，哦，我的天哪，Copilot 这里有很多东西。我应该在一开始就用这个来取笑你们。你知道那个像笔记本 LM 的东西绝对令人惊叹，以及你如何根据你的任何信息生成播客？好吧，现在你也可以在 Copilot 中使用音频摘要来做到这一点。

来解释详细的主题。此外，还有对其页面的新更新。页面中的新功能使 Copilot 能够将多个文档中的笔记和研究整理到一个工作区中，从而简化项目管理和协作。

这甚至还不是全部，伙计们。我不能做像，你知道的，30 分钟的微软新闻，但是所有这些都在不同的时间推出。许多这些功能已经在初始版本中推出，预计未来几周将会有改进。因此，可用性因市场和平台而异。因此，我们将继续在我们的新闻通讯中让您了解这些内容何时发布。

太多了。是的。Yashel 说，太棒了。Kimberly 说，必须试试。您是否仍在四处奔波，试图弄清楚如何利用 AI 发展您的业务？也许您的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力以找到 Gen AI 的投资回报率。嘿，我是 Jordan Wilson，这个播客的主持人。

像 Adobe、微软和 NVIDIA 这样的公司与我们合作，因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。一些美国最具创新性的公司聘请我们帮助他们制定 AI 战略，并培训他们数百名员工如何使用 Gen AI。因此，无论您是为数千人寻找 chat GPT 培训，

或者只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在 AI 领域四处奔波，并帮助您的团队领先，并构建一条通往 Gen AI 投资回报率的直线路径。Big Bogey 喜欢 Copilot。

Joe 说，也许会有一个 Copilot 更新演练剧集。Joe，你知道吗？也许吧。好的，你知道吗，对于我们的直播观众，我将问你们我们明天或本周晚些时候应该涵盖什么内容，因为有很多内容。而且我确实想做一个关于这些新更新之一的专用节目。所以我将让你们选择哪一个。好的。下一条 AI 新闻。

国王回来了。国王回来了，引用一部有史以来最好的 90 年代电影。因此，在等待一年多之后，Midjourney 发布了其图像生成器的 V7 版本，带来了语音输入和更快的草稿模式等新功能，允许您使用更自然的语言而不是更多，我将说 Midjourney 提示。

因此，现在使用 Midjourney V7，语音输入现已可用，允许用户直接向模型说出提示，然后将音频描述转换为文本，然后生成图像。

此外，草稿模式我认为会很受欢迎，因为它提供了快速的图像创建，只需几秒钟即可生成较低质量的图像，而有时 mid-journey 可能需要更长的时间。因此，用户还可以通过增强或改变草稿来将其细化为高质量的输出。所以我认为这就是草稿模式最常用的原因。是的，它比 mid-journey B7 中的普通完整模式快得多。但我认为它更多的是用于迭代图像并在草稿模式中使用更自然的语言，而完整模式我认为是，嗯，

如果你很擅长提示 mid-journey，对吧？我是一个 mid-journey 粉丝。我一直都是，但是，我不知道。我认为在过去的一年左右的时间里，对 AI 图像生成器的兴趣，至少对于我们的观众来说，已经下降了一点。所以我不知道，也许我现在应该重新启动它，尤其是，嗯，有了新的 GPT 四。哦，嗯，

在过去几周中，图像生成已经变得非常流行。嗯，还有 Google Gemini 的新 Gemini 2.0 flash，它在多模式 AI 中非常出色地进行图像生成。嗯，是的，也许，我不知道你们。你们播客观众关心吗？也请告诉我。我们应该做更多 AI 图像生成吗？嗯，我认为现在显然质量非常好。质量非常好。嗯，是的，

而且它真的很好。所以，嗯，让我们稍微谈谈。所以现在有一个个性化功能，实际上是 V7 用户必须使用的。因此，在使用模型之前，用户必须对 200 对图像进行评分，以创建定制的生成样式。仍然可以使用旧的 V6 个性化样式，但目前尚无法使用情绪板。

V7 中有两种模式可用。有涡轮模式，它会使高性能的生成成本加倍，而草稿模式的成本减半，速度也快得多。因此，某些功能仍然使用 V6 技术，包括上采样、内绘和重新纹理，尽管这些功能将在即将发布的更新中过渡到 V7。到目前为止，用户反馈好坏参半，实际上，一些玩家

赞扬改进的真实感和艺术质量，而另一些人则批评持续存在的问题，例如人体解剖错误和文本渲染精度。但许多人认为更新是渐进式的，而不是突破性的。所以我也这么说。我认为 Midjourney

在视觉和美学方面一直是第一名，对吧？即使我们获得了来自 chat GBT 四的新的更新，哦，图像生成，即使我们从 Google 获得了想象的三个模型，嗯，你可以在 Google Gemini 2.0 flash 中使用，嗯，显然还有数十个其他 AI 图像生成器，嗯，

在风格和美学方面，Midjourney 一直是王者，对吧？它是最美观的东西。但是它在其他领域却很挣扎。它仍然无法使用文本，对吧？因此，如果您想完全包含文本，mid-journey 就不是您的选择。此外，我认为在我进行的少量测试中，提示遵守度实际上变得更差了。所以，你知道，如果你有更复杂的提示，

我认为即使是像 GPT-4.0 图像生成器这样的东西也更好一点。所以最终取决于你想要什么。但是，你知道，例如，如果你正在创建或者你的公司正在，你知道，试图用视频等东西创建更好的多媒体，

Midjourney 可能是最好的选择，对吧？因为我认为如果你试图创建 AI 视频并且你正在进行文本到视频或抱歉，图像到视频，它仍然可能是最好的起点。我仍然认为 mid-journey v7 可能是大多数用例的最佳选择，但对于其他所有内容，尤其是在提示遵守度、迭代原始图像和文本方面，mid-journey 仍然不是它，伙计们。

Kimberly 说感觉很失望。好的。下一个。我不知道为什么没有人谈论这个。我们在新闻通讯中报道了它，我把它发布在 Twitter 机器上。这实际上非常重要。

我们在 chat gpt 中有了迷你 RAG，我会在告诉你有什么新内容之后解释这是什么，所以 OpenAI 正在开始为 chat gpt 团队用户推出其内部知识访问功能，嗯，

目前，它仅适用于团队用户。目前，唯一可用的功能是 Google Drive。这个新功能，这在您的连接器设置中，如果您使用的是团队计划，它在本周刚刚开始推出，它允许 ChatGPT 从 Google Drive 中任何位置的内部文件中检索实时

时间信息，它可以总结内容并创建定制的输出，例如演示脚本或摘要。Google Drive 是第一个受支持的平台，访问权限将在未来几周内逐步推出。让我这么说吧，太棒了，太棒了。你可能想知道，哦，Jordan，你不会只使用 Google Gemini 吗？它也连接到 Google Drive。

它可以。所以说实话，这是 Google Gemini 仍然难以应对的一个领域。我认为，即使 Gemini 2.5 Pro 可能会很快成为我比 GPT-4.0 更常用的模型，因为你们在里面，让我这么说吧，在 Google AI studio 中。

2.5 专业版百万令牌上下文窗口，世界上最强大的模型。它可以在 Google Gemini 聊天前端免费使用百万令牌上下文窗口。它没有百万令牌上下文窗口。因此，在 Google AI studio 中，您无法关闭数据共享。所以，你知道，绝对不要将任何敏感或专有的东西用于它。所以

但它很挣扎。它真的很难。由于某种原因，Google 很难准确地从 Google 自己的 Google Drive 中提取信息。ChatGPT Teams 做得更好，而且非常令人印象深刻。因此，如果您确实拥有团队帐户，则需要以团队管理员身份登录，进入您的工作区设置并查找连接器。所以它需要一个

我实际上不知道需要多长时间。我只是让它在后台运行。因此，它可能需要任何时间，我不知道，5、10、几个小时才能完全同步所有内容。但是，从本质上讲，您可以点击一个名为“内部知识”的新按钮，在 Google Drive 中的任何内容中，即时访问，非常令人印象深刻。原因是它都是动态的，对吧？所以是的，在 Claude 中，甚至在 Gemini 中，当您可以单独上传文件时，某些实例效果很好。

但它不是动态的，对吧？这就是为什么我认为这可能是第一个消费者，你知道，真正的迷你 RAG 系统。这意味着每当您使用大型语言模型时，您始终需要注意的是，嗯，您的数据近期性和基本的提示工程 101。因此，在 ChatGPT Teams 中拥有此功能非常重要。因此，OpenAI 计划很快将支持扩展到其他工具，例如 CRM、项目管理系统和数据分析平台。但目前只有 Google Drive。因此，您必须使用团队计划，每月每人 25 美元。

我仍然认为您必须至少有两个用户才能拥有团队计划。但说实话，即使您是个人经营者，或者即使您是唯一一个使用它的人，仅仅为了使用此功能而支付额外的许可费可能也值得，尤其是在您是 ChatGPT 的高级用户的情况下。

是的。Big bogey face 说你必须担心安全问题。嗯，是的，绝对不要随意地将文档放在那里。还有一个很好的观点。如果您已连接它并正在使用它，那么您确实必须提高您作为循环中专家的个人责任，对吧？我认为我会停止说循环中的人。嗯，

仅供参考，因为我真的认为这是关于循环中的专业知识，但是您必须更加警惕地查看 ChatGPT 正在使用什么以及它没有使用什么。好的。

更多 chat gpt 新闻，一些可能被忽视的重要新闻，所以 OpenAI 宣布他们正在推迟对备受期待的 gpt 5 的计划，但也暗示了好吧，我们实际上将发布两个新的 O 系列模型

与此同时，OpenAI 公布了其 AI 路线图的更新，包括一个新的 04 迷你模型，以及关于现在推迟发布的 GPT-5 的详细信息。

根据首席执行官 Sam Altman 的 Twitter 帖子，OpenAI 计划在“几周内”发布新的 O4 迷你模型以及之前宣布的 O3 推理模型的完整版本。因此，预计 O4 迷你模型将作为下一代推理模型的继任者。

我们现在拥有 01 和 03 的模型。是的，我真的很想看看他们会做什么。他们是否会提供三个版本的 O 思维模型？因为对于某些情况，我喜欢 03 迷你高。这实际上是我最近使用的主力模型之一。嗯，但我们是否仍然可以使用 01、03

和 04，因为我仍然使用并更喜欢 01 Pro 用于某些实例，您必须使用每月 200 美元的 ChatGPT Pro 计划。但 01 Pro 是我用过的最强大的模型。我认为即使对于某些任务，它也比 Google Gemini 2.5 Pro 更好。但我的意思是，我们将看看我们实际上能保留多少。

那么 GPT-5 推迟的原因是什么呢？好吧，GPT-5 被描述为一个更统一的模型，它包含所有其他模型，你知道，例如高级推理、语音功能、画布、搜索、深度研究工具等等。所以至少我们被告知的是 GPT-5 本身不会是一个新模型，对吧？像 GPT-4、GPT-4i。

5 GPT-4.0，它更像是一个系统。OpenAI 表示，他们将提供分层访问的 GPT-5，标准智能设置可无限使用，ChatGPT Plus 订阅者可使用更高智能级别，ChatGPT Pro 用户可使用更高设置。所以 OpenAI 也

是的，除此之外。但是，让我提一下为什么它被推迟了。好吧，至少根据 Sam Altman 的说法，他指出，该公司发现比预期更难顺利集成所有功能，同时保持性能。但 GPT-5 设计的改进超出了最初的预期。所以有点像在讲述故事的两面，哦，它实际上比我们最初想象的要好得多，但与此同时，我们也发现它

比我们想象的更难完全整合所有内容。因此，之前，嗯，从本质上讲，OpenAI 表示，是的，在我们发布 GPT 五之前，我们将不会发布任何新模型，但是，计划有变。所以我们将获得完整的 03，我们将获得迷你 04。

就我个人而言，我不期待这个新的 GPT-5 系统，而且我认为高级用户也不应该期待它。那只是我。我不知道。它还没有发布。说实话，我更愿意不希望系统决定使用哪个模型。

我知道更好，对吧？如果您是高级用户，并且使用过每个模型、数千个提示，那么您就知道在什么情况下使用哪个模型，对吧？我像知道我的手背一样了解它。我不希望系统决定将它发送到哪个模型。我经常在一个项目中使用三个或四个模型，但来回切换模型。所以，我的意思是，希望 GBD-5 足够聪明地完成一个

足够好的工作。说实话，我没有抱太大希望。好的，更多 OpenAI 新闻，这里只是一些要点。因此，Sam Altman 还发推文说，OpenAI 正在正式开发一个开放权重模型。他们实际上可能会回到 OpenAI 的开放状态，允许企业在无需重新训练的情况下定制 AI，但不会完全开源，类似于 Lama 或 DeepSeek。

然后是其他 chat GPT 更新。因此，非常流行且非常令人印象深刻的 GPT-4.0 图像已更新。有一个新版本发布了。它没有说太多关于它的信息，只是说它在给你图像之前需要更多时间来思考创建图像。此外，他们还将图像生成推广给了免费用户，这之前曾被推迟。最后但并非最不重要的是，他们更新了

正在向大学生免费赠送 chat GPT plus。好的。到五月。所以，嗯，基本上，如果您是大学生，您可以免费获得 chat GPT plus，通常每月 20 美元，直到五月，你知道，所以我们可以一起深入研究，嗯，写我们的最终论文，表情符号太多了。我们通过图灵测试了吗？

显然，一项新的研究来自加州大学圣地亚哥分校的语言与认知实验室表示，OpenAI 的 GPT 4.5 模型令人信服地通过了图灵测试，引发了关于人工智能模拟人类智能的能力及其潜在社会影响的争论。所以，嗯，

在这项研究中，在三方图灵测试中，GPT-4.5 在 73% 的情况下被误认为是人类，大大超过了 50% 的随机几率。所以这标志着一个重大变化。

从字面上看，这是 AI 模拟人类行为能力的一个重要里程碑。在这项研究中，参与者参与了基于文本的对话。好的，所以这不是实时的。它是基于文本的，与人和 AI 交谈。然后参与者必须试图识别哪个是人，哪个是 AI。因此，GPT 4.5 在采用特定个性时，

角色扮演的表现优于实际人类，被评判为人类。太疯狂了，伙计们。如果您关注 AI，图灵测试一直是 AI 发展的非官方黄金标准。

现在我们可能有了它。但是，角色扮演提示是 GPT 4.5 成功的重要因素，其中包含扮演了解互联网文化的年轻人的指示，将其胜率提高到 73%。如果没有这些角色扮演提示，其成功率将下降到只有 36%。因此，具有角色扮演的 GPT 4.5

至少根据这项研究，通过了图灵测试，这是一件大事。

OpenAI 的 GPT-4.0 模型（为 ChatGPT 的默认版本提供支持）的胜率要低得多，只有 21%。但也许最令人震惊的是，几十年前的原始 Eliza 聊天机器人已经有 50 年的历史了，对吧？我认为它是第一个聊天机器人。我相信它来自，是什么，60 年代，对吧？

它的成功率为 23%。所以实际上，嗯，Eliza 的表现优于 GPT 四，嗯，几个百分点，但毫无疑问，GPT 4.5 粉碎了图灵测试，对吧？

73% 的胜率。这非常令人印象深刻。我们一直都在这么说。因此，当 GPT 4.5 发布时，许多人都感到困惑，他们说，好吧，这个东西并没有粉碎有史以来每一个基准测试。那么为什么它很重要呢？同理心。

EQ 超高。我还认为这表明一些最佳实践提示工程的作用很大，对吧？让 ChatGPT 使用如此简单的，抱歉，GPT 4.5，扮演一个了解互联网文化的年轻人，让它在该角色下行动，成倍地提高其胜率。所以

这项研究的意义重大，主要作者指出，人工智能能够令人信服地模仿人类，这可能导致工作自动化、社会工程攻击增强以及更广泛的社会混乱。是的，我认为这并非对人工智能有利，实际上有点令人担忧，对吧？因为所有那些骗局都将随着 GPT 4.5 变得更好。我想，幸运的是，在这方面，GPT 4.5 通过 API 使用，对吧？因此，如果要以不良方式使用它，通常会通过 API 使用它，因为你想批量进行。它仍然非常昂贵。但是

但我确实认为，我们将在 2025 年和 2026 年看到一波像 GPT 4.5 这样的新模型，这些模型更侧重于情商而不是标准智商。这才是真正能欺骗人类的地方。这在许多方面都非常有用，对吧？因为突然之间，你的 AI 驱动的客户支持可以变得有点富有同理心和情商，对吧？

但与此同时，事情的另一面也可能极其糟糕。好吧，亚马逊，别忘了他们。

他们推出了 Nova Act，这是一种用于自主网络代理的新 AI 工具包。因此，Nova Act 旨在创建能够在 Web 浏览器中执行任务的自主代理。此举表明亚马逊在将 AI 代理商业化以及增强其功能（超越简单的聊天机器人）的竞争中加剧了竞争。是的，我认为人们有点忘记了

亚马逊，即使以与 OpenAI 和微软之间的那种关系相同的方式，对吧？最初微软是 OpenAI 最大的投资者，嘿，亚马逊是 Anthropic 最大的投资者。

所以你不能忽视亚马逊，但他们的新型代理 AI Nova Act 是 Nova AI 计划的一部分，该计划专注于为各种媒体和输入类型开发基础模型，包括文本图像和视频。因此，新的工具包允许开发人员构建能够在 Web 浏览器中完成分步任务的 AI 代理，例如提交休假请求或下达定期在线订单，而无需依赖 API。

因此，亚马逊声称 Nova Act 擅长处理复杂的界面元素，例如下拉菜单、日期选择器和弹出对话框，而这些对于其他系统来说是具有挑战性的。

因此，Python 中提供的软件包使代理能够遵循自然语言指令并在后台模式下运行，以用于高级业务用途。开发人员可以同时运行多个代理来处理更大的工作流程，从而提高企业工作的效率。

因此，亚马逊的内部测试（尚未通过第三方验证）表明，与现有系统相比，其可靠性有所提高，但该公司将密切监控实际性能。因此，Nova Act 将亚马逊置于 OpenAI、微软、谷歌和 Anthropic 等竞争对手之列，这些公司都在争相开发能够完成现实世界任务的自主 AI 系统。所以是的，如果你不密切关注

代理领域，我可能会在接下来的几周内再做一两个专门介绍代理的节目，因为本周代理领域显然非常火热，但我认为很多人也感到困惑，例如什么是 AI 代理，AI 代理与使用具有工具和互联网访问权限的大型语言模型有什么不同，本质上，代理通常由某种大型语言模型提供支持，并且代理可以在没有您批准的情况下自主地代表您做出决定，对吧？从本质上讲，你正在赋予代理权限

代理权，对吧？这就是为什么他们称之为代理的原因，对吧？你赋予它决策权，它可以无需人工干预地完成单个序列中的多个任务，连接到互联网，连接到工具，对吧？这是对代理的非常简化的版本，但我们可能会很快做一个专门介绍代理的节目，因为该领域有很多新内容。我不知道你们是否想要。

我还应该做那个节目吗？请告诉我。但同样，亚马逊正在启动一个网站，让开发人员和普通用户可以体验在 12 月发布的 Nova 基础模型。我们上周六的最后一条重大 AI 新闻是 Meta 推出了 Llama 4。

在其开放权重、开源大型语言模型阵容中备受期待的继任者。因此，Llama 4 的发布具有旨在突破多模态 AI 功能界限的新开放权重模型。是的，现在 Llama 4 默认情况下是多模态的，这是一个开源的多模态大型语言模型，其基准测试结果非常好。

因此，有四个新模型。其中两个现在可用。那就是 Llama Scout，这是最小的模型，还有 Llama Maverick。是的，显然我们去了壮志凌云。它们现在可用，而另外两个仍在训练中。那就是 Llama 4 推理模型，然后是 Llama Behemoth。它们计划很快发布。

是的，Llama 坚持使用他们之前的 Llama 3.2、3.3 版本，现在有 Scout、Maverick 和 Behemoth 的小型、中型和大型变体，但也添加了推理模型。

因此，Llama 的发布，令人惊讶的发布，因为我们有报道称 Llama 在内部面临一些问题，在基准测试方面赶不上其他开源模型，

但我不知道，对我来说看起来还不错，但是这次发布引发了广泛的兴奋，特别是由于小型 Scout 模型中的 1000 万个令牌上下文窗口设定了新的行业标准，所以

是的，1000 万个令牌。因此，我们还不确定它的性能如何，对吧？同样，对不起，谷歌 Gemini 2.5 Pro 具有 100 万个上下文窗口。它非常非常

有用，但这些更大的上下文窗口总是会有下降，因为它需要更长的时间。如果您通过 API 使用它，它会消耗更多计算资源，对吧？因此，1000 万个令牌上下文窗口，

我认为可能是宣布内容中最受欢迎的部分。但我们必须实际看看结果如何，因为很多人没有谈论的是它是在 256K 上下文窗口上训练的。所以，你知道，我会说我们真的必须等到基准测试显示这个小型模型如何利用 1000 万个令牌上下文窗口。

因此，很多人立即大声疾呼，哦，RAG 死了，检索增强生成死了。我认为它没有死，但我已经说几个月了，我认为将来，我们今天所知的检索增强生成将比 2023 年、2024 年和 2025 年迄今为止所扮演的角色不那么重要，因为这些更长的上下文窗口。我还相信大多数人

大多数 AI 使用将变得具有代理性，以及推理。推理模型，它们消耗更多令牌，混合模型也是如此，因为它们在幕后进行推理。然后，当您谈论多代理设置时，我认为

RAG 的重要性降低了一点，但我确实认为我们将看到一个改进的 RAG 版本，该版本更适用于混合推理和多代理模型。但我认为显然更大的上下文窗口与此有关，但存在抵消

这一点，对吧？所以你不能仅仅认为，我的天哪，1000 万，你知道，1000 万个令牌上下文窗口，对吧？这是什么？大约超过 700 万个单词，大约 750 万个单词，对吧？所以你就像，好吧，我可以只输入几十本书，以及无数小时的转录视频，它每次都会百分之百地记住它，不，记住专家在循环中仍然很重要

因此，Meta 首席执行官马克·扎克伯格在其发布视频中强调了该公司对开源 AI 的关注，并表示其目标是构建世界领先的 AI 并使其普遍可用。他表达了信心。

相信开源 AI 将主导该领域，Llama 4 标志着朝着这个方向迈出的重要一步。因此，预计 Llama 4 模型将为能够进行高级推理和行动的 AI 代理提供动力。因此，这些代理将能够服务于网络并执行对消费者和企业都有用的任务，这可能会彻底改变生产力工具。

因此，Meta 计划在本月晚些时候（4 月 29 日）举办其首届 LlamaCon AI 大会，展示 Llama 4 的 AI 进展。

好吧。所以我们需要谈谈基准测试。有很多谣言在流传。人们怀疑 Llama 自己内部的基准测试。我不会那样说，因为原因如下：人类已经证实了这一点。第三方基准测试服务也证实了这一点。例如，

第三方基准测试服务（这是一个很好的资源）Artificial Analysis 查看了非推理模型。好的，非推理。所以，你知道，没有 OpenAI 03、01 Pro、谷歌 Gemini 2.5 Pro 等。因此，在非推理模型中，Llama 4 Maverick 排名第三，并且紧随 GPT-4.0 之后。

和 DeepSeek v3，它们都在几周前刚刚更新。所以实际上，如果不是因为 GPT-4.0 和 DeepSeek v3 的那些更新刚刚发生，

Llama 4 Maverick 可能将成为第三方基准测试中排名第一的非推理模型，对吧？所以是的，很多人，如果你阅读了网上的喧嚣，对吧？因为最初有报道称 Meta 正在面临延迟。他们无法获得他们想要的基准。但我的意思是，这是一个安全的开源模型。这是另一件事。你知道，如果你想通过 API 或网络使用来自中国的模型，

我强烈建议不要这样做。如果你下载它、自己微调它以确保安全或使用 DeepSeek 或其他已经由 Perplexity 或微软 Azure 等公司清理过的中国模型的版本，那当然没问题。但是，你知道，Llama 4 Maverick

在第三方基准测试中非常令人印象深刻。此外，如果我们查看来自 LM Arena 的 ELO 分数。这是人类的偏好。

因此，立即，Llama 4 Maverick（这再次是在测试中的中等模型）现在成为世界上第二受欢迎的模型。我认为很多时候，基准测试很重要，对吧？但我认为同样重要的是人类的偏好，对吧？因为模型本质上可能会过度拟合。

为了在某些基准测试中表现良好，但人类可能不会发现基于基准测试本身所期望的相同效用，因为存在过度拟合问题，对吧？所以我认为像 LM Arena 这样的 ELO 分数，你输入提示，

你会得到两个回复。你不知道哪个是哪个，你投票选择它，对吧？经过数百万次投票后，你开始得到一些明确的获胜者，说明哪些模型最适合人类。这就是重要的。Llama 4 Maverick 非常令人印象深刻地超越了

许多非常强大的专有模型，对吧？这是另一件事。是的，Llama 不是真正的开源。它不像 DeepSeek 通过 MIT 许可证那样。它有点不同。Llama 有一些限制。因此，它更像是一个开放权重、开源的 Llama 许可证，但仍然，

一个开源模型立即成为世界上第二好的模型，对吧？在 ELO、LM Arena 上获得 1417 分。Gemini 2.5 Pro，顺便说一句，1439 分。Llama 4 Maverick，1417 分。然后是更新后的 GPT-40，1410 分。好吧，所以。

非常令人印象深刻。你知道，对 Llama 新模型的即时反应。好吧，太多了。你们想要什么？你们想要什么？好吧，我不知道我明天能不能做到。也许我可以，但请告诉我你们想听更多什么内容。有很多内容。有很多内容。所以直播观众，请告诉我你们最关心什么，我们接下来应该涵盖什么内容。

以下是 4 月 7 日当周所有重要的 AI 新闻的快速回顾。就像我们所说的那样，微软公布了 Copilot 中几乎所有新内容，推出了大量强大的新 AI 功能。

Midjourney 最终在其 AI 图像生成模型等待一年多后发布了 V7。OpenAI 偷偷地推出了我认为是迷你 RAG 的东西，它具有用于 ChatGPT Plus 用户的内部知识访问权限，可以连接到 V7 中的动态数据。

谷歌云端硬盘，OpenAI 还宣布其对 GPT-5 的计划有所延迟。令人沮丧，但好的一面是，他们确实表示将在未来几周内推出完整版本的 O3 和新的 O4 迷你思维模型。

接下来，在一项研究中，OpenAI 的 GPT 4.5 相当令人信服地通过了图灵测试。亚马逊推出了 Nova Act，这是其新的自主网络代理。最后但并非最不重要的是，Meta 推出了多个 Llama 4 模型。两个已经发布。两个很快就会发布。所以

本周有很多内容需要涵盖。请告诉我你们想了解更多什么内容。另外，如果您将参加 2025 年在拉斯维加斯举行的 Google Next 大会，请告诉我。我认为我实际上应该有时间去与许多不同的供应商交谈。

在这个与 Google 合作举办的 Google Next 大会上，也许可以参加一两个会议，对吧？我对这次会议感到兴奋。然后别忘了 Inception Games。我们将有，是的，“三月疯狂”可能即将结束。我相信冠军赛今晚举行。

我们的 AI 初创公司疯狂仍在继续。我们需要你们的投票。实际上非常接近。我们将让我们的最后两位选手回到节目中，并且，你知道，我们将在该冠军赛节目中现场宣布奖品和其他一些事情。所以，如果你还没有投票，请务必回顾并收听第 497 集，在那里我们有八个很棒的 AI 初创公司在 Inception Games 中向你们所有人推销他们的服务。所以，如果你还没有投票，请务必去投票。好吧，太多了。感谢你们所有人。我也感谢你们访问 youreverydayai.com 并注册我们的免费每日通讯。感谢收听。希望明天和每天都能看到你们，了解更多日常 AI 内容。感谢你们所有人。

这就是今天的 Everyday AI 节目的全部内容。感谢您的收听。如果您喜欢本集，请订阅并给我们评分。这有助于我们继续前进。要获得更多 AI 魔法，请访问 youreverydayai.com 并注册我们的每日通讯，这样您就不会落后。打破一些障碍，我们下次再见。

EP 498: Meta drops Llama 4, Microsoft Copilot levels up its AI game, GPT-5 roadmap hits snag and more AI News That Matters 47:11 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 498: Meta drops Llama 4, Microsoft Copilot levels up its AI game, GPT-5 roadmap hits snag and more AI News That Matters