We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 495: Gemini 2.5 Pro Unlocked: Exploring everyday use cases

2025/4/2

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

我，Jordan Wilson，在今天的播客中探索了Google Gemini 2.5 Pro在各种日常业务和创意应用中的实际使用案例。我进行了现场演示，展示了Gemini 2.5 Pro的强大功能，包括其内置的思考能力、高级编码能力、对PDF和图像的分析能力以及与Canvas的集成。我演示了Gemini 2.5 Pro如何转录PDF文档，即使文档包含图像和图表；如何总结播客剧集并识别趋势；如何使用布尔搜索URL来总结网页内容；如何使用Canvas创建交互式HTML页面和商业仪表板；如何创建交互式测验来帮助学习和记忆内容；以及如何创建IBM新员工的标准操作流程手册。在演示过程中，我遇到了Gemini 2.5 Pro的一些局限性，例如偶尔出现幻觉，以及在前端聊天机器人和AI Studio之间功能上的差异。然而，总的来说，我对Gemini 2.5 Pro的潜力印象深刻，我认为它具有改变企业和个人工作方式的巨大潜力。我强调了人类在使用大型语言模型时的重要作用，即需要运用专业知识来监督模型的输出，并根据需要进行调整和改进。我还建议企业应该采用多模态的方法来处理内部文档，以创建更具互动性和趣味性的内容，例如交互式测验和游戏，以提高员工的学习和记忆效率。

Deep Dive

Shownotes Transcript

这是 Everyday AI Show，一个日常播客，我们简化 AI 并将其力量带到您的指尖。每天收听，获取提升您的职业、业务和日常生活的实用建议。好了。如果您还没有听说 Google 的 Gemini 2.5 Pro 大型语言模型更新，那就太好了。

它真的很好，就像基准测试一样，最佳人类偏好，最佳。但它实际上能为您的业务做什么？我认为这是我们一直在思考的事情。我认为在 ChatGPT 早期，我们陷入了这种困境，对吧？当大型语言模型首次出现时，我们认为，好吧，它们只是用于创建内容，对吧？

这是为了帮助我撰写博客文章，或者大型语言模型是为了帮助我为 LinkedIn 撰写内容或改进发给同事的电子邮件。是的，大型语言模型擅长这些事情。但是，当我们谈论最先进的多模态大型语言模型（如 Google 的新 Gemini 2.5 Pro）时呢？

因此，今天我想让我们玩得开心一点，也许还会有点混乱，因为我们在第二部分中回顾了 Gemini 2.5 Pro 解锁，探索日常用例。好吧。我对这个很兴奋。我希望你们也是。大家好！我的名字是 Jordan Wilson。如果您是新手，感谢您加入我们。这是 Everyday AI。这是您的每日直播播客和免费每日新闻通讯，帮助我们所有人不仅跟上

AI 的步伐，而且我们如何实际利用它来取得进步，发展我们的公司和职业。这是私人的吗？

这是你吗？这就是你想要做的吗？如果是这样，第一步就是收听这个播客或直播。第二步是访问我们的网站 youreverydayai.com。这就是我们所做的。我们的免费每日新闻通讯有两大要点。一是我们回顾并有时总结今天的剧集。有时我今天会有嘉宾。今天只有我谈论 Gemini 2.5。因此，我们为您提供真正需要了解的内容并提取有价值的见解

来自每天的剧集，以及让您了解 AI 世界中发生的其他一切。因此，请务必访问我们的网站 youreverydayai.com，在那里注册免费的每日新闻通讯。

好了。所以通常我们在直播开始时会回顾 AI 新闻等等。这个可能会比较长，我尽量避免。因此，如果您想要 AI 新闻，我们将在新闻通讯中提供。好了。我很兴奋，我希望今天能得到我们直播观众的一些帮助。感谢您的收听。Dennis 来自纽约市。是的。你们来自哪里？

我应该多问这个问题，对吧？我喜欢知道我们的直播观众来自哪里。Brian 来自明尼苏达州。Kyle，感谢您的收听。Michelle、Big Bogey、Sandra、Jay，以及其他所有人，谢谢你们。

我今天可能会向你们所有人寻求一些帮助。好了，但让我们赶上进度，对吧？我在昨天做了一整集关于 Google Gemini 2.5 的新内容。因此，如果您想知道，只需向后滚动一集即可。也许您正在播客上收听。这是第 494 集，我们刚刚回顾了 Google Gemini 2.5 的基础知识。

但是，作为世界上最快的回顾，这是新内容的超级简化版本，好的，在 Gemini 2.5 中。因此，它具有内置思维。这是最重要的一点。它在技术上是一个混合模型。它将所谓的旧式转换器模型与推理或思维链模型相结合。因此，当我们在这里进行一些现场演示时，您将看到这一点。而且它已经……

获得了令人印象深刻的分数，不仅在传统基准测试中，而且在一些较新的基准测试中，例如人类的最后一次考试，它的得分比任何其他大型语言模型都要高得多。它确实有一个

巨大的 100 万个令牌上下文窗口。例如，在 Google Gemini 2.5 Pro 开始遗忘事物之前，这意味着超过 1500 页，30000 行代码。我会让您知道，我们可能会在这里现场看到。这是您在 AI Studio 中使用它与 Google Gemini 的前端相比的情况。稍后详细介绍。

在功能方面，可能是最大的飞跃之一，也许这适用于您的业务，也许不适用，那就是高级编码。所以 Gemini 2.5 是

非常擅长编码。好吧。您可能会想，好吧，Jordan，那不是我。我不是软件工程师，对吧？好的。如果您收听我们的 2025 年 AI 路线图和预测系列，我说过在 2025 年，日常非技术人员将使用大型语言模型来启动他们自己的应用程序，启动，呃，他们自己的，呃，我不知道，Chrome 扩展程序，他们自己的，呃，帮助他们更好地完成工作的桌面应用程序。呃，

我们还没有达到那个水平，但我认为我们很快就会达到。因此，请记住这一点。仅仅因为您不是当前的编码员、开发人员或软件工程师，您仍然应该，我认为，真正关注这个 Google Gemini 2.5，编码的巨大飞跃。也许我们的一些用例示例会说明这一点。排名第一的基准排名。这很重要。因此，我们谈论的最大问题是，所有这些基准测试我认为有时 AI 实验室会过度拟合。

但是，当谈到聊天中的 ELO 分数时，LM 聊天机器人领域，那是人类的偏好，对吧？因此，人们提出了各种提示，例如撰写博客文章、创建，你知道，为……编写代码，你知道，为 X 生成创意大纲或策略。

您会收到两个回复，您不知道它们是谁，您选择哪个是获胜者。Gemini 2.5 Pro 实际上打破了跃升至第一名的记录。通常，当 OpenAI、Claude 等推出新模型时，它通常会获得第一名，因为通常大型模型之间需要两到六个月

尤其是在 2024 年初。因此，您知道，通常顶级模型会高出几分，高出几项偏好分数。Gemini 的得分比第二名高出 39 分。现在排名第二的是 GPT-4。另一个重要的回顾是，它是免费的。

没想到。因此，Google 甚至在其最初的 Gemini 2.5 公告中都没有宣布这一点。他们在周末通过推文悄悄地发布了它，对吧？但是，即使您没有 Google Gemini 的付费帐户，您也可以免费访问 Gemini 2.5 Pro。限制更严格一些。好吧。还有一件事，还有一两件事，然后我们开始。

因此，在直播观众中，如果您有任何想现场尝试的事情，请告诉我。也许，我不知道，在您的评论中，我应该事先考虑过这一点，但例如，放两个星号。好吧。然后我会看看我是否可以复制粘贴它。我不知道我是否能够做到，但我可以尝试，或者至少我可以尝试，你知道，了解你想要看到的内容。但在我们开始之前，需要注意几件事。

我们的播客观众。感谢您的收听。你们太棒了。当我开始这件事时，我从未想过这会成为十大科技播客之一，但这确实是一个。您可能想查看新闻通讯，以便您可以观看视频。您始终可以在我们的网站、YouTube 和 LinkedIn 上重新观看它。我将尽最大努力口头描述正在发生的事情，不幸的是，这将是一集非常口语化或抱歉，非常直观的剧集。

而这正是我们收到的第一大请求，对吧？进行更多现场演示，进行更多现场演示。因此，您知道，播客观众，我会尽力而为，但这可能是您想观看视频的一集。另一件需要注意的事情是 AI Studio 与 Gemini，好吗？Gemini 是 Google 的前端聊天机器人。AI Studio 是一种面向开发人员的沙箱，尽管它并不像您想象的那么难，对吧？

有一些初始设置，但之后就很容易了。如果您使用的是前端 Gemini 聊天机器人的付费计划，您可以关闭模型训练，这很重要，因为您永远不应该将专有敏感 PHI（如私人健康信息）共享到聊天机器人中。

如果您使用的是 AI Studio，则无法关闭数据训练。AI Studio 是免费的。实际上，您可以在那里获得更强大的 Gemini 2.5 版本，因为您可以获得整个上下文窗口以及您在 Gemini 聊天机器人前端无法获得的其他控件。我希望我能够在一分钟内在这里演示它。但请记住，Google 的 AI Studio 是免费的，但您无法关闭数据训练。如果您使用的是 Google Gemini 的付费计划，则可以在聊天机器人的前端关闭数据。

好了。我正在现场做这件事，你们。好吧。所以请耐心等待。但我认为这实际上很重要，对吧？因为如果您在线观看任何内容，您知道，那里有一些很棒的创作者，他们制作了，你知道，演示视频等等。

我认识很多这些人。我和他们谈过，我知道这些视频需要多长时间，对吧？因此，有时要制作一些像 Gemini 2.5 这样的演示用例，他们可能需要花费 5 个小时的录制时间才能制作 20 分钟的视频，好吗？以及大量的编辑以确保它看起来正确。我不喜欢那样。

你们总是在我们的 YouTube 频道上嘲笑我，因为就像，哦，你的制作质量很差，而且你犯了很多错误。有时你会结巴或说错话。

我是一个人，对吧？这是现场直播。这是即兴创作的。这是未经编辑的。这只是，你知道，但我认为这很重要，因为我认为您看到的这些大型语言模型的所有演示，所有 AI 工具都经过过度润色。它们是人为制造的。您知道，在某些情况下，它们在后端被人工夸大和推广，以让您认为它们并非如此。这是真实的。这是现场直播。这是未经编辑的。好吧。请记住这一点。现场演示，

使用生成的 AI 是一个糟糕的主意，对吧？但你们喜欢它们，你们都想看到它们，所以我们将要进行演示。到目前为止，我现在对 Google Gemini 的看法是，它的上限非常高，但下限很挑剔。好吧，让我描述一下我的意思。这是一个例子。我把它发布在 Twitter 上，我将向 Google 团队询问此事。

请记住，Gemini 2.5 Pro 处于实验阶段。好吧，非常实验性，因为有时您会得到像这样的奇怪结果，对吧？我总是有一个我使用的提示系列，特别是对于互联网连接模型，这样我可以确保它们正确地提取信息，对吧？当我们谈论人在回路中的作用时，这非常重要。随着大型语言模型变得更强大、更健壮、更具功能，例如 Gemini 2.5，我认为理解

我们人类认为，哦，我们可以坐下来放松一下，实际上我们必须更加警惕，我们交给大型语言模型的东西越多，我们就越必须……我喜欢把它想象成专家在回路中，而不是人在回路中，人在回路中只是认为，好吧，你知道，我将在这里盲目地……你知道，做我的工作，这看起来不错，点击……不，你必须运用你的专业知识，这不是一个简单的例子，对吧？我说 Jordan Wilson 的 Everyday AI Show 的最新一集是什么，对吧？我想看看 Google Gemini 2.5 是否能得到我的剧集

从昨天开始，对吧？在这个例子中，您知道，因为它是一个混合模型，我甚至可以看到它的想法，它说用户正在询问 2025 年 4 月 1 日芝加哥伊利诺伊州的天气预报。我应该使用天气工具来获取芝加哥的当前天气和预报。第一，不正确，对吧？它没有。第二，不出所料，对吧？它在我没有告诉它的情况下获取了我的位置。

好吧，请记住这一点。它很挑剔，它处于实验阶段，但当它起作用时，我印象非常深刻。我印象非常深刻。好吧，让我们疯狂起来。让我们疯狂起来，你们。请，直播观众，有人能告诉我你是否能看到屏幕吗？我将在这几个选项卡之间跳转，但如果您能告诉我，因为我不希望在节目的另外 25 分钟内向你们展示这些现场演示，而你们却说，哦，Jordan，你根本没有共享你的屏幕。

Kimberly 说我们也需要看到更多失误。这是生活的一部分。是的。我认为这就是你学习生成式 AI 的方式。这就是你更好地使用大型语言模型的方式。你尝试一下，对吧？没有人是专家，对吧？或者我不会说没有人。从……开始，在大型语言模型领域工作了 10 年的人很少。有几个人，对吧？但我们大多数人，你知道，你必须边走边学，你通过失败来学习，你通过改进它来学习。好吧。

Dennis，谢谢，Dennis。Dennis 说，AI 很酷，但我们更爱人类，Jordan。好的，酷。好吧。感谢 Nicole 和 Kimberly 让我知道，以及 Charles 让你知道你可以看到屏幕。酷。让我们开始吧。好了。

我将在这里四处跳跃一点，你们，而且如果您听到很多点击声，我深感抱歉，好吧，那是我的鼠标，我可能应该弄清楚如何在播客中不拾取它，好吧，所以我将进入并上传一个文件，所以首先

我现在在 Google Gemini 的前端。在您的下拉菜单中，您有 2.5。需要注意的一件事，也许这是 ChatGPT 的一个技巧，没有模型切换，我希望 Google Gemini 的前端有这个功能。例如，如果我从 2.0 Flash 开始，你知道，我只是要说 sup。

好了。现在，如果我想切换模型或开始使用 2.5，我做不到。它会刷新该聊天。那么为什么这很重要呢？为什么它很重要？例如，我喜欢使用深度研究。

呃，因此 Google Gemini 中的深度研究已升级到呃，Gemini 2.0。它实际上非常好。呃，所以如果我想，你知道，在深度研究中做一些事情，然后转到 2.5 pro，你做不到。而使用 chat GPT，你可以，我认为这是一个被低估的技巧，就是在 chat GPT 中切换模型。但是，你知道，在我们开始之前，呃，值得指出。好了。所以。

我在 gemini.google.com 上。我有付费帐户，仅供参考，但即使您有免费帐户，您也应该能够做到这一点。直播观众，如果您想跟随他们一起做，您知道，您也可以这样做。好了。所以我从下拉菜单中选择 2.5 pro 实验版，我将在这里添加一个文件。好了。我将在这里添加一个 PDF。

你还在兜圈子，试图弄清楚如何利用 AI 发展你的业务吗？也许你的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力来找到 Gen AI 的投资回报率。嘿，我是 Jordan Wilson，这个播客的主持人。

Adobe、Microsoft 和 NVIDIA 等公司已与我们合作，因为他们信任我们在教育大众如何利用生成式 AI 取得领先方面的专业知识。并且该国一些最具创新性的公司聘请我们来帮助他们制定 AI 战略，并培训他们数百名员工如何使用 Gen AI。因此，无论您是在寻找数千人的 chat GPT 培训，

还是只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子中兜圈子，并帮助您的团队取得领先地位，并构建一条通往 Gen AI 投资回报率的直线路径。好了。

所以我将描述在发生这种情况时正在发生的事情。我会说，请。所以我只是说我正在上传一个 PDF，我说，请转录其中的每一个字。这大约是，让我看看有多少页。这大概是一个 15 页的 PDF。所以这些是，你知道，人们会联系我，说，嘿，我想，你知道，在 Everyday AI 播客上做广告。所以我有一个小资料，有时我会发送给潜在的广告客户。所以嘿，如果

如果您确实想在我们的播客上接触到人工智能领域最大的受众之一，请务必与我联系。但问题是，大多数大型语言模型无法读取它，因为，我的意思是，首先，我在 Canva 中制作了它。因此，大多数大型语言模型在使用计算机视觉时，在使用有时是 OCR 技术时，它们的工作方式都略有不同。他们真的难以处理这个问题，因为这一切本质上都是……

图像，对吧？这不像我用 Word 制作的，它是一堆文本。这是非常直观的，对吧？有背景，每页都有大量的图像。呃，对。有很多事情要做。因此，您知道，即使要提取所有这些文字，我的意思是，我们会看到，我已经做了一些这样的事情，有些我没有。所以，呃，让我们看看，呃，Gemini 2.5 如何做。所以我点击显示想法

对。我将无法对每一个都这样做。但它说我需要获取相关内容来回答每个用户的提问。用户想要整个 PDF 文档的转录。我有内容获取工具提供的文档中提取的文本。所以这就是

为什么我要花更多时间来查看思维链，你们，这太棒了，对吧？我喜欢 Google Gemini 思维链的一点是，您可以看到它们的工具使用情况。好吧，这将帮助您更好地利用该工具，如果您知道，因为您可以开始说 Google 的语言，并且希望在我尝试另一个提示时，这会变得更清晰一些。

无论如何，让我继续向下滚动，您会立即看到。它正在将其分解。第一页。我们开始吧。Everyday AI 赞助机会，每日播客，直播新闻通讯。完美。它有网站。太好了。第二页。

它全部都有。好的。这真的，真的很好。我还没有在大型语言模型中看到过这个。而且它是格式化的。它修复了，你知道，有时字体看起来有点奇怪，你知道，但它粉碎了它。好吧。

这令人印象深刻，你们。好吧。所以我回去了。所以在底部，我有受……领导者的信任，对吧？因为我们有很多来自大公司的人，他们阅读我们的电子邮件新闻通讯，联系我，给了我们推荐信，你知道，来自 Google、Amazon、Nvidia、Microsoft 等等。对。呃，我们有很多听众。是的。如果您想联系他们。呃，它不仅获得了文本，而且 Google Gemini 在这里非常令人印象深刻，呃，

使用计算机视觉并只给了我名字，对吧？我没有写 Google 的名字，Nvidia 的名字，IBM 的名字。这些都是多张图片。令人难以置信地令人印象深刻。好吧，第三页，你知道，合作机会。这么好，这么好。所以我很好奇。再说一次，我正在现场做很多事情。你们知道吗，嘿，直播观众，你们知道吗？

我甚至不知道它会查看这个资料中的图像。你知道，我已经用 ChadGBT 尝试了很多次了。我已经用 Claude 尝试了很多次了。我没有用几天前刚刚推出的 4.0 更新版本尝试过。所以也许它会做得更好。这非常令人印象深刻，对吧？

所以我很好奇它是否甚至会提取其中的一些统计数据。所以我对我们所有的广告渠道概述都有类似的统计数据，并且在该图像的屏幕截图中有一些文本。所以，你知道，我，我很好奇，我只是要向下滚动到那一页。让我们看看。添加渠道概述。好的。它没有提取它，但这没关系。文本可能太小了，但它确实。

粉碎了它。我的天哪，它甚至创建了，我有一个图表。这太好了。我有一个图表，它转换了我制作的小图表，这只是，我在 Canva 中制作的，对吧？所以它不仅能够提取所有这些内容，因为其中很多都是图像，它还为我创建了一个图表，我可以将其导出到 Sheets。所以我点击将其导出到 Sheets，然后在 Sheets 中打开，砰，它都在那里，我们的一个小小的细分。

仅此而已就太疯狂了，你们。当我们谈论业务用例时，有多少次，对吧？

我不知道，但是你们，我阅读了很多 PDF，对吧，或者很多文档，有时你可能没有你需要的版本，就像，哦，我的天哪，这是比尔两年前留下的，我必须重做整个事情，好吧，你可以把它上传到呃，Google Gemini 2.5 pro，它将转录整个内容，如果里面有图表，它将重新创建它们，你可以用 Google Sheets 打开它们，仅此一个用例

哇。哇。非常好，非常好。好了。嘿，酷。Sandra 说她正在她的电脑上做这件事。好了，让我们再做一次。我认为我们在这里会遇到一些问题。但无论如何，让我们尝试一下。好吧。因为就像我说的，我确实尝试过其中的一些。有些我没有。

所以我正在说查找 Everyday AI 播客的 20 个最新剧集，并简要总结每个剧集。然后在剧集之间找到五个趋势。好吧。所以想想你的业务用例是什么？你在关注什么？并且想想，显然 Google Gemini 2.5 连接到 Google。所以我这样做其中一个原因是我认为它会失败。

好了，我们开始吧。嘿，我们有一个，我们有一个现场幻觉，你们。好吧。所以它说用户正在询问 2025 年复活节的日期。奇怪的是，这是我第一次尝试时得到的完全相同的幻觉。所以我只需要再添加一个，再添加一个东西。我将在 Jordan Wilson 旁边加上我的名字。我不这么认为。昨晚我确实让它正常工作了。

但我确实通过查看思维链，通过查看 Google 在幕后用来提取此信息的各种工具，获得了一些有趣的见解。好了。所以现在第二次它做对了。它没有告诉我复活节的日期，我不知道我为什么要这样做。好了。所以它正在分解这个。所以它说这需要多个步骤。一个。哦，它刚刚缩小了那个。好的。你们现场看到那个了吗？它工作正常。

一切都很顺利。然后它说用户正在询问 1977 年发布的五大摇滚歌曲。你们，这就是我之前所说的原因。上限如此之高，下限如此挑剔，至少现在在 Gemini 2.5 Pro 的前端是这样。所以我们可以做的是，我没有计划这样做，但无论如何让我们这样做吧，你们。让我们进入 AI Studio。

好了，AI Studio 更像是一个开发人员工具或沙箱，但一旦你设置好它就非常容易了。好了，你可以点击这里创建提示按钮。你可以在右侧选择不同的模型。所以有点不同。我将尝试同样的事情。让我们转到 Gemini 2.5。

pro 实验版。我将降低此温度。好的。默认值为 1，用于创造力。我想要事实。好了。然后我将打开。所以你可以打开和关闭不同的功能。这不是一个完整的 AI studio 教程。我只是想看看这是否有效。好了。但我正在使用 Google 搜索打开接地。我发现当我遇到一些奇怪的小幻觉时，就像你刚刚在 Google Gemini 的前端看到的那样，

通常，当我尝试在 AI Studio 中使用它时，效果会好一些。好的，现在我可以展开查看思维链了。它说用户想要一份 Everyday AI 播客最近 20 集的列表。找出五个趋势。所以它正在查找搜索查询。这些是搜索查询。Everyday AI 播客的最新剧集是什么？Everyday AI 播客最新剧集列表，对吧？它制定了一个计划。然后它说，这是 Everyday AI 播客的最近 20 集。好的。

我说得太早了。我没有想到 Google Gemini 会把这个答对。我们看到当我们使用前端 Google Gemini 聊天机器人时，它偏离了轨道。它还在实验阶段，各位。它会这样做的，对吧？但在 Google AI Studio 内部，做得很好。所以有趣的是，它 100% 正确地回答了这个问题。所以我们得到了我们最新的剧集，那是不到 24 小时前的第 494 集。所以它做得很好。

然后它得到了最近的 20 集。太棒了。现在它说五个剧集之间的趋势。所以它说，一直关注主要的 AI 参与者和模型。正确。AI 代理和自动化的兴起。是的。行业特定的 AI 应用，对工作和生产力的影响，硬件和基础设施的重要性。很好。

所以它在过去 20 集中很好地捕捉到了一些共同的趋势。所以即使 Google Gemini 聊天机器人彻底失败了，Google AI Studio 也做得非常出色。大约六个月前，我在所有连接互联网的大型语言模型之间做过类似的提示，但没有一个像 Google 的 AI Studio 那样处理它们。好的，让我们尝试另一个提示。这就是我们正在做的。

这个有点棘手。好的。我说总结一下这个页面，我给它一个布尔搜索 URL。好的。我会解释这是什么。但我想要这样做是为了查看工具的使用情况，对吧？所以看看思维链。因此，当您使用 Google Gemini 2.5 时，您可以点击“显示思维”。它说用户希望我总结 Google 搜索结果页面的内容。然后它说浏览工具。

可用于从特定网页 URL 中提取信息。但是，提供的 URL 是 Google 搜索结果页面。浏览工具说明明确指出不要将其用于 Google 搜索结果 URL。所以它说我可以使用 Google 搜索工具。这是一个巨大的……

我不会说作弊代码，但这将节省您大量时间，一旦前端的 Gemini 2.5 Pro 变得稳定一些，因为现在通过查看思维链，您将知道需要调用的确切工具，因为 Google 并不一定会告诉您。所以，如果您好奇的话，

这个布尔 URL，它本质上就像我使用的布尔搜索运算符。我每天都会这样做，当我查看最重要的 AI 新闻时，对吧？但这只是针对某些公司（OpenAI、Apple、Nvidia、Microsoft、Amazon、Anthropic 等）的最新新闻的搜索结果。所以这是过去 24 小时内，仅来自这些公司的 AI 新闻。让我们看看 Google Gemini 最终做了什么。

所以我只是说，基本上总结一下。做得很好。做得很好。所以它说关键趋势。主要参与者正在快速发布增强的 AI 模型，例如 Google Gemini 2.5、OpenAI 的 GPT-45、Anthropic Clawed 3.7、IBM 的 Granite 3.2。它做得非常好，对吧？即使我无法确切地看到，哦，它是否访问了所有这些页面？它是否只查看了标题和元描述？它做得非常好。所以想想商业用例。

我喜欢布尔搜索词或布尔运算符，对吧？对您关心的内容进行 Google 搜索，对吧？也许是市场研究。也许是物流，对吧？输入您的竞争对手名称，等等。我认为使用布尔搜索和 AI 工具来快速了解通常需要很长时间才能了解的事情，具有很大的实用性。

好的，让我们继续前进。 chugga chugga。好的，这是我真的很想做的事情，但我们没有时间。好的，所以我将继续下一个。好的，让我们做这个。

我说……所以对于这个，我将使用画布。这是对更新的另一种更新。Google Gemini 2.5 pro 是不到一周前发布的。然后在周末，Google 对 Gemini 2.5 pro 做了很多其他更新，首先，他们说，它对每个人都是免费的。其次，他们大约一天前推出了画布。所以画布……它有点类似……

我实际上认为它融合了 open ai 的画布（更像是一个交互式文档编辑器，可以渲染一些代码）和 claude 的工件功能（可以渲染任何编程语言）的最佳之处。所以在这个例子中，我说我正在启用画布，我说创建一个维基百科的 HTML 克隆

但要赋予它浓厚的芝加哥氛围。使其功能齐全，包括可点击的链接和多个有效的页面。确保包含最重要的芝加哥元素，对吧？我在这里想玩得开心一点，各位。让我们看看这个是否有效。所以首先，它正在编写代码。就像我说的那样，

它擅长编码。好的。太棒了。好的。所以一旦完成，我认为它不应该花费很长时间，还有一个预览选项卡。所以当我启动这个画布模式时，它会占据整个屏幕，但如果我想，我可以最小化它。我将稍微拉一下它，以便可以看到。好的。它应该很快就会完成。

当我喝咖啡并在滚动浏览直播评论时，各位。我将看看是否有任何问题。好的，Josh 说，看看我今天早上创建了什么。去看看 Josh 创建了什么。Charles 说，你为什么不使用 ChatGPT 获取新闻？我也会用，我也会用。对于同一个 URL，我做了一个完整的节目来讲解我如何使用 ChatGPT 任务来做到这一点，Charles。Monica 说，你认为这个模型的一些最佳商业用例是什么？

Monica，我还有一些，但我认为最好的一个是用 PDF 工作，对吧？这已经能够从 PDF 中提取准确的信息，然后能够将其用作基线，对吧？因为现在我有了所有这些文本，也许我会用从 PDF 中提取的内容做一些事情。

这是一个简单的显而易见的事情。每个人都在使用 PDF，并且……你知道……从 PDF 中提取任何信息。如果您需要重新创建它，如果您需要从那里获取一些信息并将其用作创建内容的起点。对。所以在我的例子中，我有……我们 Everyday AI 的赞助商工具包。然后我可以使用它复制粘贴一些信息，进行深入研究，然后说，嘿，

根据 2025 年流行播客，这些费率是否准确？诸如此类。这是一件小事。我可以做的一件小事。好的。让我们看看这个。我将缩小。好的。我们开始吧。所以我们有我们的……让我看看。我该如何全屏显示？

我昨晚有这个。我以为我可以。无论如何，我们有我们的芝加哥维基百科。一次搞定。好的。它说，欢迎来到 Shikopedia，这是您了解所有芝加哥事物的一站式资源，来自芝加哥人的视角。忘记百科全书吧。这里才是真正信息所在的地方。这是一个功能齐全的维基百科类。

克隆，对吧？我可以点击……我的天哪，它有效。这里有多个页面。它是相互链接的。所以我可以点击深盘披萨，对吧？然后我可以……你知道……在底部，它说，另请参见芝加哥热狗。我可以点击芝加哥热狗。芝加哥热狗，也称为芝加哥红热狗，是一种美味佳肴，放在面包里，对吧？不加番茄酱。

全牛肉，对吧？这太好了。这太好了。它实际上创建了一个非常小的维基百科版本，但却是芝加哥风格的。然后好的一点是，我可以进去，我可以进去更改任何自然语言，对吧？我可以说，你知道，让它，

让它更具芝加哥特色，并加入更多 90 年代公牛队的参考，对吧？随便什么。好的。我们稍后再回到这个，然后继续我们的下一个用例。那个很有趣。你们觉得怎么样？我认为非常令人印象深刻。好的，让我们做下一个。好的，我们开始吧。好的。我可能甚至没有时间阅读这个，因为它有点长，但我基本上是在说

你知道，你是一位使用 Gemini 2.5 的分析和研究专家。分析过去 30 天中关于 Apple 的在线提及的情绪。我正在逐步提供说明。你知道，我基本上是在说查看人们在开放网络上谈论 Apple 的所有信息。

Apple，对吧？然后根据情绪分析确定五个反复出现的主题或问题，对吧？为 Apple 的公关团队提供可行的建议，以解决任何负面情绪。然后最终我将为此使用画布。然后我说，创建一个交互式仪表板来显示您的发现。确保非常详细，确保准确性和深度。

好的，我之前在我的第一个版本中实际上做过这个。好的，让我们看看它是否能做到。好的，看看这个。Gemini 比我领先一步，各位。它实际上在同一个响应中创建了两个不同的画布文件。所以，好的，它正在构建我们的情绪仪表板。酷。好的，首先……

这是过去 30 天的情绪分析。所以我想，再次，人工参与，寻找准确性。这是正确的，对吧？它说 AI 战略执行问题。好的。这很好。它给了我们一份很好的基于文本的报告。它根据实时最新信息为 Apple 公关提供了可行的建议。它给了我们五个反复出现的主题，对吧？愿景优势，反响平平。哦，奇怪。如果有人在它发布前六个月就告诉你该多好。

哦，等等，我做到了。好的。所以它给了我们一个很棒的基于文本的画布文档。所以你会注意到画布的一件事，如果你没有使用过它，它确实有一些很棒的 chat GPT UI UX 功能，你可以更改长度。您可以更改语气。您可以建议编辑，所以我可以在线键入。对吧？它就像一个 Google 文档。

这非常令人印象深刻，对吧？即使只是从基于文本的角度来看画布集成对于任何商业用例都非常有用，因为我可以立即将其导出到文档，或者我可以继续在此键入和使用它。但它为我创建了两个不同的画布。让我们看看另一个结果如何。砰，喜欢它。它实际上，

它实际上不如我的第一个好。我先演示了这个，但它给了我一个非常好看的交互式仪表板。你知道，漂亮的颜色。它说整体情绪是混合的/谨慎的。它说，好吧，投资者指标。

呃，你知道，例如，100 分中的 64 分的 alt 指数得分显示潜在的积极性。最近的公开讨论表明，主要由于 AI 战略问题和竞争压力，人们非常谨慎。所以很好地理解了上个月人们谈论 Apple 的整体情绪，是好是坏？呃，对。它给了我们一个绿色列和一个红色列，关键积极情绪，关键消极情绪。

五大反复出现的主题。这很好。我将在这里再尝试一件事。我将缩小，然后我说，我说，让我复制这个。然后我说，让它更具交互性和视觉效果。好的。我们稍后再回到这个。让我们回去看看我们的

芝加哥维基百科是否变得更具芝加哥特色。让我们看看。它做到了。太棒了。现在我们有一个专门的侧边栏专栏用于芝加哥。

球队，公牛队和熊队，双打。是的，我来自芝加哥。我喜欢这个。这让人感觉像是……你知道……90 年代的芝加哥。我喜欢它。它说高楼大厦等等。湖泊，占位，占位，你知道规则。是的。把你的椅子扔出去。预留你街上的停车位。这个芝加哥维基百科。

我喜欢它，对吧？而且好的一点是，如果你不知道，代码都在这里，对吧？所以是的，你可以在 Google Gemini 2.5 Pro 的画布功能中实时渲染所有内容。但如果你想离线使用它，你可以复制粘贴它。有时它不起作用，只需复制粘贴，因为你可能需要安装某些库。有时会，

这取决于使用的语言类型。这严格来说是 HTML。所以我认为理论上，我可以复制粘贴它，把它放在网站上，它就可以使用了。你们应该……我应该发布这个芝加哥维基百科吗？我不知道。这个……这个很有趣。我喜欢这个。好的。Sandra 已经说她会重看这一集。让我们看看。

呃，Jackie 正在问一个好问题。Jackie，它能绕过社交平台的登录吗？不能。呃，所以我们能做的……呃……你知道……Google 用于查看网络的不同工具……那是开放网络，对吧？所以大多数社交媒体上的内容……都是

封闭网络。所以即使在 Twitter 上，对吧，你就像，哦，所有内容都是公开的。好吧，你必须登录，因为……你知道……社交媒体上有一些限制，许多抓取网站或……你知道……AI 大型语言模型的工具使用或互联网使用工具无法获取这些信息。不过，这是一个好问题。

喜欢芝加哥维基百科。是的，我也喜欢。好的。我有这么多例子，各位。我很惊讶其中很多都奏效了。所以让我在这里滚动浏览，我将尝试找到一些更令人印象深刻的内容。好的，这里。这里有一个。我认为这个可能不错。好的。我说……

让我们在 Gemini 2.5 Pro 中打开一个新窗口。好的，我缩小了很多。所以我说创建一个视觉记忆游戏或交互式测验，帮助我学习和记忆此内容。好的，然后我要做的事情

是去 Your Everyday AI 页面。我将点击剧集。我提到了这一点，但你可以在我们的网站上阅读、观看和收听任何内容。所以，你知道，我将访问我们星期一的剧集，我们做了 AI 新闻要点，对吧？如果你不知道，你可以在网站上免费收听播客。你可以免费观看视频。我们有一些关键要点的小文章，你知道，然后我们还有一个完整的文字记录。好的，我要做的就是复制粘贴所有这些信息

好的，我回到 Google Gemini。我只是粘贴这个，我说创建一个视觉记忆游戏或交互式测验，帮助我学习和记忆此内容。好的，我将点击回车，让我们看看会发生什么。好的，谈谈商业用例，对吧？如何让入职培训变得有趣？

你知道，你有很多冗长乏味的入职培训文档，对吧？让它成为一个有趣的游戏，对吧？这就是我正在做的。我喜欢寻找新的学习方法。我喜欢使用 Notebook LM 学习，音频概述。我喜欢 Notebook LM 的新思维导图功能，但我总是在寻找新的学习方法。AI 的一个问题是，它让我更难记住信息。我每天学习的内容比使用大型语言模型之前多得多。

但我也……这意味着我忘记得更多。所以我一直在寻找新的更好的学习和记住重要信息的方法。所以再次想想，你可以使用 Gemini 2.4……2.5 pro 自动整理……你知道……你可能想要……你可能想要学习的某些信息。在这种情况下，我只是使用播客的文字记录。好的。让我们看看它做了什么。完成了。

哦，天哪，这会很尴尬。好的，所以它创建了一个测验，有 15 个……15 个。嘿

你们想一起做前几个问题吗，直播观众？好的，让我们一起做几个问题。看看你是否收看了。看看你是否在星期一收看了。所以它说 AI 新闻测验。只是为了你们，这个看起来不错。它有这种紫色的背景，非常像 Web 2.0。有悬停动画。非常流畅。看起来不错。它不是一些难看的笨拙的……你知道……90 年代风格的测验。看起来真的很好。好的。所以

呃，直播观众。让我们一起玩。我们只做几个问题。所以它说，在 Microsoft 的代理流程中提到的确定性方面旨在减少问题。例如，是高成本幻觉、语言翻译错误还是处理速度慢？你们觉得怎么样？我要喝一口。好的。我猜是 AI 幻觉。

耶，它说正确。酷。好的。所以它有效。关键是，我只是根据……我不知道……几千个单词，一次性创建了一个交互式测验，大约花费了一分钟。如果这不会改变你和你团队与你自己的内部文档互动的方式，我不知道还能说什么。

下一个问题。直播观众。谁会……谁会先得到它？好的。这是元，但不是像 Facebook 元那样，而是指我们正在使用 Gemini 2.5 pro 来询问 Gemini 2.5 pro。什么关键功能允许 Gemini 2.5 pro 处理海量的文本、音频、图像和代码？哦，

哦，这个……这个有点棘手，所以跨层转码器、深度推理代理、确定性逻辑或一百万个令牌上下文窗口，这个实际上很有趣，因为它没有编造错误答案，希望我能答对，直播观众，请投票……错误答案实际上是来自 Claude 和 Microsoft 其他公告的关键词，但我们询问的是 Gemini 2.5 Pro。我相信是一百万个令牌上下文窗口。哦，很好。我答对了。好的，让我们再做最后一个。好的。它说，OpenAI 据报道即将完成一轮价值多少的巨额融资，可能由软银牵头？好的。

好的，这个实际上有点棘手，因为有一个总金额。所以是 400 亿、100 亿、200 亿还是 330 亿？实际上有一笔总融资。然后还有一定数量的融资，据报道软银正在进行。但这实际上是两个不同的金额。一个金额是如果 OpenAI 成功地从非营利组织转变为营利组织。另一个金额是如果他们没有。所以技术上来说有三个术语，一个总筹资术语，软银，A，如果他们确实

转换为营利组织，B，如果他们没有。所以问题是 OpenAI 据报道即将完成一轮价值多少的巨额融资，融资金额为 400 亿美元。好的，我们答对了。呃，好的一点是我可以说一些像让它更……你知道……让它更具交互性和……

详细，也许有一些轻微的动画，让它看起来和功能更好，对吧？这是最酷的事情。我没有编写一行代码。我不需要。我可以只用自然语言来控制它，比如，哟，

大型语言模型，让它更好。让它更闪亮。让它变成蓝色。让它更难。让它更容易。让它适合专业人士。让它适合业余爱好者，对吧？创建一个分级模型，对吧？首先，你知道，给我 10 个更容易的问题。然后，你知道，帮助我升级或……你知道……把它变成更多的一个视频游戏，对吧？你可以做很多事情。好的，我将给它几秒钟来完成。让我们检查一下。哦，我的天哪，看看这个，各位。

所以我们的 Apple 情绪分析，记住，我只是用自然语言，我说过什么？我只是说，让它更具交互性和视觉效果。它大大改进了它。

所以有些东西没有完全渲染，对吧？所以有一些代码说像更多的舍入。但总的来说，它让这个看起来好多了。它给了它某种带有某些填充的仪表和压力表。它只是让它看起来好多了。所以这些是开关，小开关，即使其中没有很多信息。所以是的。

非常好。非常好。好的。让我们看看。好的。它已经完成了。我们的新闻测验完成了。它添加了一个状态指示器。好的。现在它实际上很难。我不知道。AI 新闻摘要中介绍了哪一集的编号和日期？哦，天哪。不查找这个，是什么？我认为是 493。哦，很好。我答对了。好的。

所以，好的。不幸的是，这个……这个……状态指示器没有亮起，但我可以更改它。好的。所以……呃……非常令人印象深刻。我们应该再做一次吗，各位？我们应该结束了吗？嗯，让我知道你们……你们都做到了，对吧？我正在查看我们的……我们的直播……我们的直播评论。你们都做对了。你们一定都看过这一集。好的。呃，好的。你们说再做一次。让我继续。

让我看看我是否可以找到一些我认为可能令人印象深刻的东西。好的，酷。让我们做这个。我们将在这里快速再做一次。所以这个……你知道……我们谈论用例。我只是随机抛出一个。我想，你如何让你的内部文档更好一点，更有趣一点，对吧？所以在这里我说，基本上，你是一位使用 Gemini 2.5 Pro 的人力资源专家。嘿，Gemini，

你在 IBM 工作，为新员工创建一份包含标准操作程序的手册。所以基本上我说的是为 IBM 的新员工创建一个入职表格，并且

并且，你知道，一个包含关键 SOP 元素的八个问题的测验。确保所有建议都基于真实 IBM 培训方法。所以我想知道它是否真的会去提取并从网络上找到这些信息。我想我以后必须验证这一点，对吧？仅仅因为人工参与专家并不意味着我需要这样做。

在线，我不会……发布这个并说它是……完美的并且有效的，但你会看到我已经喜欢的一件事与 Google Gemini 中的画布与……open ai 或……anthropic 的工件中的一些画布……功能或功能略有不同，它可以创建多个……画布是画布还是画布？我认为是画布，一次创建多个画布，所以

第一个只是一个入职材料。好的。它正在创建一份 SOP，其中包含入职前、第一天、第一周、角色清晰度、合规性和道德规范。对。所以它正在做那种……无聊的，对吧？好的。这是你的基于文本的内容。然后这个可能还没有完成。

但是，让我们看看。我们开始吧。它已经完成了。好的。它创建了这个简单的……你知道……IBM 新员工入职的 10 步 SOP 的交互式版本，对吧？所以它有我们的入职 SOP。它是交互式的。它有这些选项卡。我可以点击每周任务、每周计划和任务。并且有带有下拉菜单的开关。这是第一周的基础和设置。

呃，第二周……角色清晰度和工具，这真的很好……它是交互式的，它有效，这里有一个测验，这个测验……我认为这个测验不会有效，让我们看看，在 IBM 入职培训的第一周，主要关注的是什么？领导一个主要产品？完成必要的合规性培训和初始设置？向高级领导层展示战略报告？我猜是中间那个……

好的。所以它没有说……除非我必须……点击。好的。有一个提交测验的东西。所以我要点击一个。我想知道它是否会告诉我哪些是对的哪些是错的，或者给我一个分数。这将非常令人印象深刻。一个嵌入在手风琴中的多步骤测验。

好的，所以它没有……告诉我哪些是对的哪些是错的，可能是因为没有数据库，然后它还有一个清单，这很酷，所以这是我的入职里程碑清单，对吧？当我选中它时，它说 10 个中的 2 个，我再选中一个，10 个中的 3 个……让我们看看当我完成它时会发生什么，砰，说 10 个中的 10 个。非常令人印象深刻，各位，好的

我们涵盖了很多内容。我知道这一集到处都是，当我们谈论 Gemini 2.5 Pro 的不同用例时。所以我会这样说，它并不完美。

好的。它并不完美。上限很高。下限很挑剔。好的。但是只要你，作为人类，你，作为那里的商业领袖，保持关注，保持耐心，正确地提示 Gemini 2.5。而且，你知道，你可能需要稍微深入一下 Google 的 AI studio。极其强大。

Gemini 2.5 Pro 中极其强大、最先进、多模式、多方面的、大型语言模型。

用例非常多，对吧？呃，这，这，嗯，实际上令人难以置信的是有多少，呃，即使是我们在这里现场演示的，对吧？我并没有真正计划这些。我没有完善它们。我想给你们一些实际的东西，对吧？让我们看看一些错误。让我们尝试改进它一点。但是，嗯，如果你的大脑没有运转，如果这些都没有触动你，呃，

呃，你必须检查一下，你们必须检查一下脉搏。呃，因为我们在这个简短的播客剧集中向大家展示的内容，对不起。我知道这个有点更视觉化。我知道我没有很好地，呃，你知道，描述一切，但是你知道，确保你看这个。但是如果你没有得到至少一个关于你的业务、你的角色、你的部门如何通过使用 Google Gemini 2.5 从根本上改变的想法，你必须重看这个，因为它就在里面，对吧？所以思考。

你有什么公共数据？你如何才能使旧文档焕发生机？对吧。就像我们谈论大型语言模型变得多模式一样。对吧。我认为企业也需要开始采取同样的方法，即使是针对他们自己的内部文档。我们不是生活在，我们不是生活在一个基于文本的世界里。对吧。我们可以创建游戏。我们可以创建互动测验。我们可以创建

呃，你知道，可视化和业务仪表板，现在无需任何编码知识，对吧，以前你可能需要一个开发团队和 BI 人员，现在你可以复制粘贴。呃，这是我想做的事情之一，但我们时间不够了，复制粘贴一堆数据，创建一个，一个，一个业务仪表板，呃，呃，对吧。你就可以开始了，对吧？你已经有方法可以立即使用生成式 AI 来发展你的公司和你的职业生涯。

这就是重点。好的。我希望这个有帮助。你们第二部分，呃，再次，也许你只是第一次听这个。确保回到上一集，收听第一部分，我们将更详细地介绍要点，所有幕后内容，模型的工作原理等等。但是

希望在这个现场演示示例中，有时有效，有时无效。我希望这个有帮助，我希望这个能激发你大脑中的一些想法，关于你如何使用，不仅仅是 Gemini 2.5 Pro，而是大型语言模型，对吧？如果你还没有……

每天在你的业务的各个方面使用生成式 AI 和大型语言模型。你必须重新思考你的工作方式。你需要重新思考你的角色，重新思考你的部门，重新思考你的公司，重新思考知识工作者的意义。我们都是知识工作者。好的。所以从这里开始。

但是你需要访问 youreverydayai.com，注册免费的每日新闻通讯。我们将回顾今天的帖子。你知道，如果你们中的一些人分享了一些例子，我也许会把其中一个添加到新闻通讯中。所以感谢收听。希望明天和每天都能看到你们回来收听更多 Everyday AI 的内容。谢谢大家。

这就是今天 Everyday AI 节目的全部内容。感谢您的收听。如果您喜欢这一集，请订阅并给我们评分。这有助于我们继续前进。更多 AI 魔法，请访问 youreverydayai.com 并注册我们的每日新闻通讯，这样你就不会被落下。去打破一些障碍，我们下次再见。

EP 495: Gemini 2.5 Pro Unlocked: Exploring everyday use cases 54:53 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 495: Gemini 2.5 Pro Unlocked: Exploring everyday use cases