We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 514: Google’s AI Studio - 5 time-consuming tasks you didn’t know you can automate

2025/4/29

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

我作为Everyday AI节目的主持人Jordan Wilson，在今天的节目中深入探讨了Google AI Studio这个强大的AI工具。它最初是为开发者设计的，但现在对非技术人员也十分友好易用。我重点介绍了五个耗时的任务，它们可以通过Google AI Studio实现自动化： 1. **长上下文窗口:** Google AI Studio能够处理大量的文本信息，例如我提供的近400页的AI新闻记录，并从中提取关键趋势。这在其他AI工具中是难以实现的。 2. **视频创建:** 利用Google AI Studio的VideoGen功能和VO2模型，可以根据图像和文本提示生成高质量的视频。我现场演示了如何生成一个以芝加哥天际线为背景的飞机飞行视频，展示了其强大的多模态能力和逼真的效果。 3. **PDF解析:** Google AI Studio能够高效地解析PDF文件中的信息，即使PDF包含图像和非结构化文本。它可以准确地提取文本，识别图像中的logo等信息，这在处理复杂PDF时具有显著优势。 4. **多媒体内容创作:** Google AI Studio可以根据文本提示生成博客文章和图片，这对于需要快速创建多媒体内容的人来说非常方便。我现场演示了如何生成一篇关于芝加哥旅游景点的博客文章及其配图。 5. **学习新技能:** Google AI Studio可以通过屏幕共享功能，实时地帮助用户学习新技能。我现场演示了如何使用Google AI Studio来编写Google Sheets公式，并获得关于SEO策略的建议。此外，我还额外介绍了Google AI Studio的另一个强大功能： 6. **YouTube学习增强:** Google AI Studio可以分析YouTube视频内容，提取要点，描述视频中的人物和事件，甚至可以根据视频内容生成结构化的报告。这对于需要分析大量视频信息的人来说非常有用。总而言之，Google AI Studio是一个功能强大、用途广泛的AI工具，它可以帮助用户节省大量时间，提高工作效率，并拓展学习和创作的可能性。

Deep Dive

Shownotes Transcript

这是 Everyday AI Show，一个日常播客，我们简化 AI 并将其力量带到您的指尖。每天收听实用建议，以提升您的职业、业务和日常生活。您可能了解很多 Google 的 AI 产品和服务，对吧？也许您使用的是 Google Gemini。

作为一个聊天机器人，就像您使用 ChatGPT 一样。也许您在 Google Docs 和 Google Sheets 等工作区应用程序中使用 Google Gemini，或者您可能使用了我最喜欢的 Google 工具之一，它由 Google Gemini 提供支持，即 NOPA Galem。但我认为大多数人不知道的是一个隐藏的宝石。

那就是 Google 的 AI Studio。我认为对于许多用例来说，它实际上可能是 Google 最好的 AI。我认为很多人不知道，而且大多数人没有使用它。在过去几周中，有很多最新的更新，我认为这使得 Google AI Studio 变得更好。

好的。所以我们今天将讨论这个问题，并讨论在 Google AI Studio 中，您可能不知道可以自动执行的五个耗时任务。

好的。我对这个很兴奋。我希望您也是。如果您是新手，那么大家好！我的名字是 Jordan Wilson，我是 Everyday AI 的主持人。我们是一个每日直播播客和免费每日新闻通讯，帮助我们所有人不仅学习 AI，而且学习如何利用它来发展我们的公司和职业。这就是您想做的吗？如果是这样，

那就从这里开始。您可以在直播和播客中学习，但您可以在我们的网站上利用它并实际应用它。首先，在我们每天发布的免费电子邮件新闻通讯中，我们将回顾一下

今天的节目重点。也许您正在开车或遛狗，您想，“哦，那是什么？”它将在新闻通讯中。但同时，我们还有 500 多集。我们采访了数百位世界领先的 AI 专家，涵盖各种主题。因此，无论您想学习什么，我们的网站都是您实现目标的地方。这是一个免费的生成式 AI 大学。

好的。通常，大多数日子我们都会回顾 AI 新闻。实际上有很多事情正在发生，但我不想让这个节目变得太长。想让它非常真实，你知道的，直击要害。所以如果您想要 AI 新闻，那将在我们的新闻通讯中。好的。我们开始吧。好吧，我必须在这里向所有我的朋友们致敬。来自芝加哥的 McDonald 加入。是的，我们正在直播，伙计们。我喜欢说。

你知道，在 Everyday AI，我们是人工智能中最真实的东西，对吧？您在线上看到、听到或观看的大部分内容，对吧？它是，它是非常虚构的。它是非常有剧本的。我们不会在这里这样做。我们将尝试现场进行很多这样的事情。我确定会有一些错误。呃，感谢您的加入。呃，McDonald，呃，来自锡拉丘兹的 Kelly，呃，来自纽约市的 Dennis 通过 LinkedIn 加入。很高兴看到它。呃，来自英格兰切斯特的 Noel。呃，呃，

来自印第安纳州附近的爱登。杰基，星期二快乐。我明天将在 DePaul 见到杰基。那将很有趣。很多人。必须向来自德国柏林的 Harvey Castro 博士致敬。好的。让我们进入用例吧，伙计们。今天是星期二。所以这是我星期二的热门话题。

Google AI Studio 是您可能从未听说过的最好的 AI 工具，对吧？如果您是一位狂热的 AI 用户，对吧？您每天都在使用大型语言模型数小时。您可能听说过 AI Studio，但如果您更随意，您可能没有听说过，或者您至少不知道它的功能。我很想知道，直播观众。我们今天有很多人在场。您多久使用一次 AI Studio？

或者您从未使用过它？我想知道。我也很好奇，因为我认为大多数人要么没有听说过它，要么不知道它的功能。我们将讨论可以自动执行的五个耗时任务。所以让我们从顶部开始。Google AI Studio 到底是什么？好吧，首先，

它看起来比一个月前干净多了，对吧？所以要感谢 Google 团队。他们真的清理了，呃，清理了用户界面和用户体验。好吧，为什么我要提到 AI 工具的用户界面和用户体验呢？好吧，它更多的是为开发人员准备的，对吧？所以，呃，

至少最初，Google AI Studio 确实是为开发人员设计的。这是一个更技术娴熟的人可以进入的地方，他们可以在那里处理一些代码，处理结构化提示，处理如何在后端使用 Google 的 API。所以假设您的公司可能正在微调 Google 的模型之一，或者

您正在使用他们的新模型，您知道，Gemma 3，我认为这是一个很棒的小型模型，对吧？所以也许您正在使用它，您知道，在设备上，在本地，您正在微调它，无论它是什么。但是，您知道，我认为 Google AI Studio 最初只是为了让开发人员的生活更轻松，对吧？就像 OpenAI 有他们的游乐场一样。但不同之处在于 AI Studio 就像一个合法的完整平台。

成熟的工作产品。它不仅仅是为了开发人员。我实际上认为，像我这样的日常非技术人员，我不是超级技术人员，对吧？嗯，我没有微调模型，除了在 AI studio 内部进行测试之外。但我认为对于非技术日常人员来说，有很多东西可以探索，有很多东西。您可能不知道，呃，

在 Google AI Studio 中。所以是的，最初是为 AI 开发人员设置的，在过去，我会说六个月内，它已经发展成为更多的东西。我认为有很多工具和功能，很多其他公司都承诺过，但可能还没有完全实现。而 Google AI Studio 已经实现了。有人正在使用这个吗？好的，Allison 说几次。

Heather 说，听说过，但没用过。Angie 说，几乎没有。好的。Kelly 没有使用它。Jay 没有使用它。好的。很多人没有使用它。Noel 说，刚听说过。Dennis 每周都在使用它。好的。你们中的一些人正在使用它。你们中的一些人从未听说过它。所以系好安全带。我们将深入研究它。但从根本上说，最初是为了帮助开发人员，您

使用 Google 的 API 制作更好的应用程序，对吧？因为有很多工具和服务，数万个您使用的工具和服务，它们在后端由 Google Gemini、OpenAI、Claude 等提供支持，对吧？因此，开发人员通常会有一个沙箱或游乐场，他们可以在发布给我们在世界各地之前去实验并改进他们的产品，对吧？所以想想那些

您知道，所有这些 AI 工具，您会想，哇，它们是如何工作的？好吧，通常它们运行在，您知道，Google OpenAI 或 Claude 上，嗯，开发人员需要一个地方去玩弄它并使其更好。这就是为什么，您知道，谈论 UI UX，有很多东西，对吧？如果您只是登录 Gemini.google.com，它是一个 AI 聊天机器人，对吧？您只是在与 Google Gemini 聊天。您仍然可以选择您的模型，但在大多数情况下，您没有很多控件。

在 Google 的 AI Studio 内部，有很多控件。因此，您可以控制温度、更改模型、打开或关闭某些工具以进行结构化输出、代码执行、函数调用以引入第三方 API、与 Google 搜索接地，这很新颖且令人惊叹。

太棒了，我的天哪，它实际上在 lm 竞技场排行榜上获得了互联网连接搜索的榜首位置，在 Google AI studio 内部，它太棒了，好的，所以这是一种概述，还有另一件事，它是免费的，是的，它是免费的，呃，这里有一些更多更新，但我让我先说一下，呃，

让我先读一下 Google 关于这种无偿服务与付费服务的内容，因为这里有一个更新，我认为人们会喜欢，因为以前，您知道，Google AI Studio，您放入其中的任何内容，它都使用这些信息来训练其模型。

对吧？所以，对于免费用户来说仍然如此。如果您使用的是免费 Gemini 帐户，这就是 Google 的说法以及他们如何使用您的数据。因此，它说，当您使用无偿服务时，例如 Google AI Studio 和 Gemini API 上的无偿配额，Google 会使用您提交给服务的任何内容以及生成的回复来提供、改进和开发 Google 产品和服务以及机器学习技术。好的。所以

如果您使用的是免费 Google 计划，您可能不应该上传来自您公司的机密专有数据，因为如果您使用的是免费计划，Google 会使用它来训练 AI Studio 内部的模型。但是，并且这刚刚在四月更新。所以就像

这个月，呃，这已经更新了。所以现在，如果您正在为 Google Gemini 付费并且已经设置了云计费帐户，技术上来说，您知道，这并不难。当我最初设置时，大约花了 30 秒，呃，您知道，这个，呃，大约一年前，但以下是它现在所说的内容。所以它现在说，当您使用付费服务时，呃，

例如 Gemini API 的付费配额。Google 不会使用您的提示或回复来改进我们的产品。所以。

这是一个更新。我甚至不知道 Google 是否真的宣布了这一点，而且我没有看到任何人谈论这一点，但是伙计们，在我做这些节目之前，我总是会做我的功课。我不会随意跳入某件事。我关心数据隐私、安全、幻觉、真实性、模型的工作原理，对吧？所以 Google 更新了这一点，这是一件好事。因此，如果您使用的是付费计划并设置了该云计费，Google 的 AI Studio 不会使用您输入的任何内容来训练其模型。如果您使用的是免费计划，它会使用。但是伙计们，让我说实话。

您可能要放入任何聊天机器人的很多信息，它已经存在于互联网上了。它已经是公开信息了，对吧？让我们把这一点说出来。好的。很多人不明白有多少，您知道，您公司的资料已经存在于大型语言模型中了。如果它以前曾经在互联网上发布过，那么它就在模型中了。好的。因此，如果您是新手，并且随时欢迎直播观众在我们前进的过程中一起学习，那么您第一次进入 Google 的 AI Studio 时，您将获得一个选项。

好的。只是，只是让您知道，它是 AI studio.google.com。好的。所以它会说现在是构建的时候了，您可以使用 Google AI Studio 并点击尝试 Gemini。所以是的，它是在 AI Studio 内部的 Gemini，或者您可以使用 Gemini API 进行构建。因此，如果您确实想要，您知道，您可以实际使用 Google 的 API 密钥，许多人不知道您可以这样做。因此，您可以，您知道，以这种方式尝试一下。

好的。一些需要注意的注意事项。首先，如果您转到设置，您知道，您可以使用浅色模式、深色模式。但是是的，就像我说的那样，用户界面过去更面向高度技术人员。现在它很容易理解。现在干净多了。但是您需要打开自动保存选项。因此，转到您的设置，切换自动保存。否则，默认情况下，Google 的 AI Studio 不会保存您的聊天记录。好的。

现在让我们进入一个用例。首先，长上下文窗口。好的。在这里我们将变得有点棘手，并且对于可能四处跳跃很多标签而向大家道歉。所以，我做了什么，我经历了

我将与我们的直播观众和播客观众分享这一点。这是您可能想要观看此视频的视频之一。因此，如果您正在收听播客，我们总是会留下链接。您可以观看此视频，无论是在 YouTube、LinkedIn 上还是其他地方。好的，我提取了大约 50 集。

好的。来自我们的 AI 新闻。好的。它几乎是 400 页的文档。好的。我将在这里复制它。好的。它可能会因为复制了太多信息而导致我的电脑崩溃。那么为什么长复制呢？

上下文窗口很重要，为什么它是 Google AI Studio 的首要用例？好吧，您将在这里看到，即使使用 OpenAI 的新 O3 模型，它也无法处理这么多的上下文，对吧？所以我在此提示的顶部告诉它，

我说，请仔细分析此内容，并找出 10 个潜在趋势，这些趋势表明来自 AI 公司、大型语言模型、生成式 AI 等的趋势。所以再次，我有我们 AI 新闻节目的成绩单。我认为可能有大约 50 集的成绩单。所以大约有 40 小时的成绩单内容。所以如果我进入，呃，

OpenAI 的新模型，他们的 O3 模型。我喜欢它。我认为它是世界上最强大的模型之一。我认为 Gemini 2.5 Pro 目前可能更有用，但我认为 O3 可能更强大。在过去的两周里，我对每个模型都做了完整的节目，但我甚至无法将此完整上下文放入这里，即使是 ChatGPT 的 O3 模型的扩展上下文窗口也是如此。

对吧？您可能会说，哦，好的，Jordan，那 Claude 呢？Claude 有一个长上下文模型。无法处理这个。无法处理这个。所以您将从上下文中看到，这是 250,000 个标记。好的。超过 25 万个标记。这是很多信息，对吧？在近 400 页的成绩单上。所以 Claude，

无法处理它，它说它超过了长度限制，所以我无法做任何事情，呃，甚至 Google Gemini，对吧，在其前端，因为这是您可能在想的原因之一，好吧，为什么我曾经使用 AI Studio，我不能只使用 Google 前端聊天机器人 gemini.google.com 中的所有功能和功能吗？好吧，不，这里已经有一个用例了，我无法将所有这些信息粘贴到，呃，到 Google Gemini 中，它只是将其剪掉，但是

但是我显然可以在 Google 的 AI Studio 中。好的，让我们看看我是否可以现场进行此操作。如果没有，我有截图，但让我们看看。好的，我将复制粘贴文字上 400 张

400 页的内容。好的，我将滚动到顶部。所以再次，我在顶部说的只是请仔细分析此内容，并找出 10 个潜在趋势，这些趋势表明来自 AI 公司、大型语言模型、生成式 AI 等的趋势。所以我想知道本质上在过去的八个月里，

人工智能领域发生的一切。趋势是什么？我可能知道其中一些事情。我可能不知道。我正在使用 Gemini 2.5 Flash 预览版，这是一个思维模型。但我确实使用了 flash 版本，它是较小的版本，而不是专业版，因为我猜专业版需要更长的时间，我的天哪，这完成了。那就像一点时间都没有。26 秒。它浏览并使用了推理。我的天哪。

如果您正在收听播客，这是我微笑并说，我无法相信这项技术存在的情况之一。首先，我无法相信这项技术是免费的。太疯狂了。我的天哪。好的。所以，它确实找到了 10,000 个，

不同的趋势。我只是要阅读标题，但它给了我细节，对吧？疯狂的是，人们总是说，哦，Jordan，你如何记住这么多关于 AI 的知识？好吧，首先，我忘记了很多东西，对吧？我忘记了大部分这些东西，即使它们来自我的嘴。

对吧？但是很多这些事情都发生在八个月前。所以我忘记了事情。我每天都使用 Google AI Studio 来记住和回忆信息。所以让我们为了好玩，回顾一下这 10 个趋势。首先，快速模型响应中的竞争加剧。它有一些非常好的细节。其次，代理 AI 和任务自动化的兴起。再次，我们正在关注 2024 年 10 月至 2025 年 4 月。所以

是的，在 10 月份，关于代理 AI 甚至大型语言模型中的任务自动化的讨论并不多。现在有了。第三，多模态 AI 专业化的进步。第四，对 AI 硬件和基础设施创新的巨额投资。

第五，定价和商业模式的多样化和实验。这是一个很好的例子。例如，OpenAI 的专业层。Anthropic 刚刚推出了一些新的层级。所以是的，也有支持所有这些的细节。第六，战略伙伴关系、投资和收购的增加。第七，越来越关注 AI 安全、伦理和治理。第八，

监管审查和地缘政治紧张局势的加剧。这是一个巨大的问题，对吧？并且能够知道在五到六个月的时间里，这里发生了什么。这太棒了。第九，用户体验和可访问性的转变。然后是第十，对劳动力和产业结构的重大影响。这太好了。因为我使用了思维模型，我可以进入 Google AI Studio 并查看

它如何处理所有这些信息。所以非常令人印象深刻。我可以查看模型如何思考，查看它如何计划以及如何识别这 10 个不同的趋势。是的，如果我使用 Gemini 2.5 Pro 会更好，但它可能需要多花一两分钟。我试图更快地完成这些不同的用例。好的。

您是否仍在四处奔波，试图弄清楚如何利用 AI 实际发展您的业务？也许您的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力以找到 Gen AI 的投资回报率。嘿，我是 Jordan Wilson，这个播客的主持人。

像 Adobe、Microsoft 和 NVIDIA 这样的公司与我们合作，因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。并且该国一些最具创新性的公司聘请我们来帮助他们制定 AI 战略，并培训他们数百名员工如何使用 Gen AI。因此，无论您是在寻找数千人的 ChatGPT 培训，

还是只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子中奔波，并帮助您的团队领先，并为 Gen AI 建立一条通往投资回报率的直线路径。是的，Angie 只是说，哇。是的，我同意。

Curtis 来自 YouTube 说这些小模型卡非常有用。是的，我同意。我希望首先，我希望这也在 Google Gemini 的前端，但我希望每个人都这样做，对吧？这些模型卡非常非常有用，对吧？特别是如果您是初学者，对吧？如果您转到 Gemini 2.0，对吧？因为实际上有一些功能仅在 Google AI Studio 中的 Gemini 2.0 中可用，而不是在较新的 Gemini 2.0 中。

您有您的 Gemma 模型。所以非常，我认为这可能是世界上最好的小型语言模型 Gemma 3。但是您也可以使用这些预览模型，即 LearnLM 模型。

好的。这就是第一个。您将已经看到。这是其他平台无法做到的。一百万个标记，对吧？在前端。它只是……太疯狂了。所以想想所有用例。我会告诉你我一直在为此做什么。所以是的，那是……

您可以在 notebook lm 中做类似的事情，对吧，您知道，放入一堆上下文，这可以放入 notebook lm 中，但原因之一是我有时仍然喜欢在您的基础信息之外拥有灵活性，例如，让我快速完成一下，好的，所以，呃，

好的，我们仍在使用案例一，但有一件新事物是与 AI 搜索接地。所以现在我可以使用不在那 400 页中的信息，对吧？而在 Google 的 notebook LM 中，它功能强大，它实际上赢得了我们 2024 年的年度 AI 工具奖。但是现在我可以点击这个新的选项，与 Google 搜索接地，对吧？我可以说类似的话，例如，根据 2025 年 4 月，

在 AI 领域的变化，请用要点列出上述 10 个趋势的新内容。例如，如果我只想看看这个月这 10 个趋势发生了什么，以及它们在今天所处的位置，因为其中一些趋势反映了六个月或更长时间，我可以将它与 Google 搜索接地，然后我可以准确地查看它正在做什么。所以现在它只会获取信息

仅限 2025 年 4 月。它可以出去搜索并使用网络。所以很酷。好的。用例二，视频创作。好的。我将尝试这样做，尝试现场进行。让我们看看会发生什么。好的。所以

人们不知道您可以在 Google AI Studio 中创建视频。所以我现在在 Gemini Advance 中开始的一件事，因为我想先获得一张照片。所以我要，不幸的是，我认为现在在 AI Studio 中，您无法创建图像，但您可以使用他们的新 VO2 模型创建视频。所以我现在在 Gemini 中，我说创建一个高空

高空航拍照片，使用全画幅 DSLR 从商业飞机上方拍摄芝加哥天际线的逼真镜头。好的。所以现在我，再次，我在 Gemini 的前端。我不一定喜欢这个。这不是我想要的。它只，它只得到了机翼。我想能够看到整个，

整架飞机。所以我只是点击了重做。我已经做过一次了。如果说实话，那实际上是一张非常好的照片。但我希望能够看到整个飞机的顶部。如果我无法获得我想要的东西，我今天早上确实运行过一次，我将使用该图像，但我试图看看我是否可以获得一张不错的图像。好的。它做了同样的事情，但这没关系。所以无论如何，您知道，您可以将其拉入 Google AI Studio。所有

好的，我现在跳回到 Google AI Studio，我将转到左侧。您有这个新的 VideoGen。好的，所以……

vo2 非常好，对吧，呃，即使我们有一些新的更新，例如 runway gen 4，我们也从一些中国公司那里获得了一些非常令人印象深刻的产品，呃，例如 cling，所有不同的 AI 视频公司，但我仍然认为 vo2 领先，它领先于 sora，它领先于其他所有人，好的，所以，呃，Google

仅供参考，如果您有 Google Gemini 的付费版本，Google 正在推出 VO2。这是一个缓慢的推出过程，因为您现在将看到，在我的不同帐户中，我有四个不同的付费 Google 帐户。我现在在 Google Gemini 中没有 VO2 访问权限。所以 Google Gemini 聊天机器人，gemini.google.com。但是如果我进入 Google AI Studio，我确实有它。所以在左侧，您会看到我有 VideoGen。

好的。好消息是，在 Google 的 AI Studio 内部，有很多更多选项。所以在右侧，您有所有这些不同的设置。所以我可以创建一个 16 比 9 的视频。我可以创建一个垂直视频，9 比 16，您知道，从 5 秒到 8 秒不等。我可以更改帧速率。我可以设置分辨率或运行负面提示，如果某些内容不断出现在我的 AI 视频生成中，而我不希望它出现，我可以将其写在负面提示框中。

但是 Google AI Studio 和在那里使用 VO2 的好处在于，是的，您可以在更高级的 Vertex 中使用它并获得更多选项。但我喜欢 Google AI Studio 的一点是您可以从图像开始，因为不幸的是，

如果您在 Google Gemini 内部使用它，据我上次检查，您无法从图像开始。所以这很棒。所以我上传了我之前的那张图片，这里有一个小提示。所以我会念出来。

我只是说一个电影般的平移镜头，显示飞机从右到左缓慢地穿过芝加哥的天际线。好了。这是我最终使用的图像。所以我不确定。直播观众。这看起来像真实的图像吗？对。谷歌想象一下。

谷歌的 Imagine3 AI 照片生成器真的非常好，对吧？如果您查看 LM Arena，您知道，我们不妨现在就这样做，因为这需要一秒钟才能生成。但是如果您查看 LM Arena 并转到排行榜，然后转到，让我们看看，文本转图像。所以这是不同的……

文本转图像。像谷歌的 Imagine 3 这样的顶级 AI 图像生成器，至少他们在该程序中可以访问它。好了。让我们看看。嘿，这还不错。迈克尔说在现场演示中生成视频。乔丹很勇敢。是的，我知道。对。好吧。但看起来它已经完成了。所有

好了。所以我将继续，全屏显示。我们这里有一个 8 秒的视频，直播观众。让我知道这看起来怎么样？所以我们从 Google Gemini 中的图像开始，使用 Google、Google AI Studio 左侧的视频生成器将其转移到 Google AI Studio。这一切都是免费的。哦，这太疯狂了。这太疯狂了。好了，开始了。这是照片或视频。

还不错。还不错。相当不错。这里有一些伪影。这里有一些模糊。但同样，您可以重新生成。好消息是，它只是使用自然语言。我只是说一个电影般的平移镜头，显示飞机从右到左缓慢地穿过芝加哥的天际线。那么您可以将它用于什么？我的天哪，你

公司的营销可能仍然停留在 20 世纪 90 年代。它很旧，很枯燥，很乏味。例如，假设您今年的年度大型会议在芝加哥举行，对吧？顺便说一句，如果它在芝加哥，请联系我。我会来做您会议的主旨演讲并举办研讨会。但也许您正在尝试为

为您的年度会议，为贵公司在芝加哥举行的年度大型会议制作一个漂亮美观的登录页面，我认为这是一个很好的方法，您知道，获取这个 3 秒钟的视频并将其作为网站背景，对吧？很棒。如果您来自芝加哥，您可以看出这是芝加哥，对吧？对于我们的播客观众来说，它看起来真的很酷。我的意思是，要获得这样的镜头，对吧？你必须在另一个区域

飞机，因为您可以看到整架飞机飞越芝加哥的天际线。非常酷，对吧？这会出现在下一部 Netflix 纪录片中吗？不。但同样，我基本上只是拍摄了两次，对吧？我尝试了两次。它真的很好。它真的很好。是的，直播观众，

您对这个视频怎么看？我认为就将其作为网站背景视频、将其发布到社交媒体而言，您知道，您可以将其放入 Canva 等软件中。添加一些效果，添加一些文字，就您而言，现在这需要花费大量时间，对吧？要获得这样的视频。

五年前几乎是不可能的，而且非常昂贵。现在，就您的营销、沟通、广告而言，使用 Google 的 VO2，特别是如果它最终只是作为您网站、社交媒体等上的较小内容，那么再次，我认为您至少现在不想使用它，对吧？在故事片或类似的东西中。但是

它看起来非常逼真，尤其是在较小的屏幕上。如果您只做几秒钟，那就非常好。而这将把您的创造力提升到一个新的水平，一个新的水平。是的。安吉只是说，我不敢相信它是免费的。杰伊说，实际上在年度会议上，哦，杰伊，我真糟糕。我知道你给我发了短信。我的意思是，我必须回复你。好了。所以

桑德拉说，在我说话的时候，我实际上正在我的电脑上做这件事。这太神奇了。是的，它，它非常好。我认为物理和现实感，特别是物理是将谷歌的 VO2 与 Sora 区分开来的因素。Sora 很好，但它在物理方面很挣扎。我认为 Sora 中有一些来自 OpenAI 的创意工具我真的很喜欢，但它在物理方面很挣扎。它在现实感方面很挣扎。谷歌 VO2 碾压它。它绝对

绝对非常好。是的。丹尼说，适合可能带有叠加层的背景图像。是的，如果我在芝加哥举行大型会议，我会这样做，对吧？您正在销售门票或其他什么东西，您知道，您试图将数千名员工聚集在一起，无论是什么，对吧？或者只是，您知道，也许您的网站需要更新。像这样去做，对吧？它真的很好。

好了。这就是用例二。让我们转到用例三。我以前做过这个，但是解析 PDF。好的。我知道这听起来可能有点无聊，而且不太令人印象深刻。好的。但是

但是它确实如此，因为同样，直到 Google 和 OpenAI 最近的模型系列出现之前，大型语言模型都难以做到这一点。对。你知道，使用 OCR 的组合。好的。是的。

所以这就是 OCR，即光学字符识别。所以，你知道，这些模型会结合使用 OCR 和计算机视觉，而且并不总是有效。好的。所以让我们再来一次。我们正在现场直播。我确实做过一次，但我希望将其包含在今天的节目中，因为我认为它非常令人印象深刻。好的。所以让我们跳过去。我们正在现场直播。我们在 Google 的 AI Studio 中。好的。

好了。我要说的只是逐字转录这个 PDF。好的。对于这个，我将使用 Gemini 2.5 pro，这是最强大的模型。好的。我将点击运行，我们将看看这需要多长时间。首先，您可能在想，好吧，为什么，为什么我可能想要使用它？好的。您收到过超长的 PDF 文件多少次？嗯，

也许您必须进行更新，或者您就像我的天哪，我必须通读整个内容，这将花费很长时间，也许我只需要从中获取少量信息，在这种情况下，许多工具难以读取 PDF 文件，对吧，特别是，嗯，我会向大家展示这个 PDF 文件正在经历的内容，您将看到为什么这可能非常有用，对吧，所以这正在经历

这有点像我们的赞助机会演示文稿。所以如果您仔细查看，它有图像，对吧？任何工具都难以读取它。我在 Canva 中创建了它。有很多图像。很多看起来像文本的东西实际上是

根本不是文本，对吧？它实际上是一堆图像。任何程序都会难以处理。因此，当公司联系我们并希望在我们这里做广告时，我会将这个小演示文稿发送给他们。所以我想调出这一页。所以在底部，它写着“受来自……”的领导者信赖，对吧？我们有数百个

来自 Google、亚马逊、英伟达、微软、IBM、英特尔等大型公司的订阅者。所以我们在演示文稿的底部放上了他们的徽标，告诉人们，是的，如果您想接触我们的受众，我们有很多非常有声望的人正在阅读我们的平台，他们正在构建 AI 的未来。好的，这是一个徽标，好的？所以现在完成了，好的？所以让我们看看这花了多长时间。

没花多长时间。所以同样，如果您使用这些思维模型、这些推理模型，您可以浏览。它花了 53 秒。好的。事情是这样的。它完成了。

完美地，完美地。它获得了所有这些统计数据。它提取了所有这些信息。它从……中提取了所有这些信息，您知道，对于任何 OCR 或计算机视觉来说，这将非常难以做到，对吧？所以在很多这些页面中，它就像 10 张图像和少量文本。所以就在这里，它甚至提取了徽标。这些徽标并不完美。

标记。让我重复一遍。这些徽标没有标记。例如，亚马逊徽标只是一个 A。它只是一个带有笑脸的 A，对吧？如果您知道亚马逊的徽标，您可能知道。它实际上知道那是亚马逊的徽标，即使上面没有亚马逊这个词。所以您看到了实用性以及这如何节省大量时间吗？所以也许您必须

更新 PDF 文件，您就像，哦，我的天哪，谁有原始文件？我将不得不重新执行所有这些操作。也许您需要从 PDF 文件中读取信息，它是一个很长的，您知道，100 页的行业白皮书，但您只关心其中的 10%。那么，Google AI Studio 是一个很好的地方，因为当您将这个非常大的上下文窗口与它是世界上最聪明、最强大的模型之一的事实结合起来时，我的意思是，您这里有一个几乎无与伦比的工具。

不公平。嗯，对。我甚至不会深入探讨您可以执行的操作的更多技术方面。但是，即使您想这样做，您也可以创建 Google gems 的版本，对吧。或者，如果您在 ChatGPT 中使用过自定义 GPT，那么我可以保存

让我们以行业白皮书为例。假设每周都会发布一份大型行业 PDF 文件。阅读它、提取一些关键见解，然后向您的团队汇报，这可能是您工作的重要组成部分。也许只有 10% 与您相关，对吧？这可能是你们很多人都在做的事情，但您可以在这里进行操作。您可以在这里创建 Google gem 的版本。它不会被称为那样，但您可以输入自定义说明。

如果您想了解更多技术信息，您也可以在这里打开结构化输出。所以也许，嘿，每周都会有一张表或图表

也许有 8 列，但您只需要 3 列，因为这才是最重要的。您可以进入。这很容易，对吧？您可以向 Google AI Studio 提供示例，然后创建它。然后，您知道，它会保存，因为您可以使用系统提示保存它，然后您可以为 Google 切换选项。

结构化输出，对吧，我可以进入这里，我可以进入这个可视化编辑器，我可以添加一个属性，所以你知道，然后你可以将其导出为所谓的 json，好的，我知道这听起来有点技术性，但本质上你可以，你知道，有点，保存不同类型的提示并根据输入输出进行训练，但你只需使用自然语言即可，好的

你们对用例二怎么看？理查德说，如果那是 PDF 中的书面文本呢？它会快得多。快得多。是的。

柯蒂斯说，它甚至可以准确地从包含古怪 OCR 文本的 PDF 中提取文本。是的，它非常好。艾莉森说，我为 Acrobat Pro 付费，但每次使用 OCR 时，如果有一个栅格化图像，我仍然会收到此错误。是的，完全正确。它说，哦，是的，Acrobat 无法运行 OCR，因为页面包含可呈现的文本。

然后她说 AI 的视频在 5 秒钟内成功完成了这项工作，是的，它，它，它太疯狂了，你们，这太好了，你们再次，这是免费的，事实上这是免费的，我们只完成了用例的一半，那是第三个，好的，第四个多媒体内容创作，好的，这是其中之一

我将继续跳到我的屏幕上。再次，播客观众，我们正在现场直播，如果您想看。好的，对于这个示例，我实际上将使用旧模型，好的？我认为并希望他们会更新哪些模型具有此功能。所以现在，我将转到我的模型选择器。我将转到 Gemini 2.0。

然后我将转到这个闪存图像生成，好的，实际上有很多东西，我不会这样做，但我看到评论中有人要求这样做，所以我会做一个例子，这甚至不是我的用例之一，但是让我看看，我将尝试一下，给我一秒钟，好的，我将尝试上传，让我们看看，给我一秒钟，你们，我知道这是……

现场直播这些事情，从不好玩，从不好玩。好的。让我，好的。所以我将调出

这张我们用过的相同照片。好的。所以这个新的，嗯，你知道，而且上面写着“热”字，对吧？如果您悬停，嗯，这基本上是，嗯，我们一直在听到很多关于 GPT 四点零图像生成器很棒的消息，对吧？所以，嗯，Gemini 2.0 闪存，实验版本，它具有图像生成功能。这不是我的用例，但有人要求这样做。所以我将看看我是否可以在此处现场快速完成。嗯，我，我，

上传了同一张 Google Gemini 图像，上面显示飞机飞越芝加哥的天际线。所以假设，我将尝试这个。我将说，保持其他所有内容不变，然后我将说，但是让飞机变成亮黄色，并在侧面写上“Jordan air”。好的。我不知道这是否会起作用，希望它能起作用，但是，你知道，我已经在这个节目中提到过它已经完成的事情了。好的。它做得不是很好。它实际上添加了另一架飞机。嗯，我，我可能应该做得更好一点。我会说，嗯，应该只有一架飞机。好的。我们将看看是否，是否有效。嗯，

所以我在节目中一直在谈论 GPT-4.0 图像生成器，Gemini 2.0 Flash 的这个新东西，Canva 发布的所有内容。我认为 Adobe 将面临很大的压力，因为如果做得对，这就像 Photoshop。这节省了大量时间。好的。所以就是这样。它做对了。它稍微改变了视角。

它使飞机略微变大。所以甚至可以说这花了 5 秒钟。我会说，嗯，飞机太大了，让它更像原始图像。保持一架黄色的飞机，并在侧面写上“Jordan air”。好的。如果我花更多时间，我认为我可以做得很好，但是你们，我无法告诉你们，对吧。我一直在使用 Photoshop，嗯，我几岁了？我有点老了。嗯，

我使用 Photoshop 已经有 20 年、23 年了，将近四分之一世纪了。我实际上浪费了数千个小时，现在您可以在 Google 的 AI Studio 中完成相当不错的任务。好的。所以那个没有完美地工作。它添加了另一个图像的一些碎片。那个有点复杂，但是进去玩玩。但这甚至不是用例。好的。我分心了。所以让我们回到用例，在这种情况下，它是。

进行多媒体内容创作。同样，我在 Google 的 AI Studio 中。在右侧，我选择了 Gemini 2.0 Flash。您将看到这里的重要一点是它具有此图像和文本输出。好的。所以我要说的只是，你知道，写一篇关于芝加哥五大旅游景点的博客文章，并为每个景点创建照片。好的。可能只是为了打字

仅供参考，可能花了 12 秒。让我们看看 Google Gemini 能多快创建它。所以，好的。它在，它，让我们看看，它完成了没有？还没有。好的。您将看到，它实际上正在为我写一篇博客文章，但它给了我芝加哥五大必看景点。但对于所有这五个景点，它给了我

它正在使用 Imagine，我实际上很好奇这是否正在使用 Imagine 2 或 Imagine 3。我的直觉是它正在使用 Imagine 2，因为我已经在 Google Gemini 中使用 Imagine 3 和 Imagine 3 界面运行了这些完全相同的提示。并且质量更好一点。所以我不确定。我会尝试验证一下。但我相信如果您使用它，我认为它正在使用 Imagine 2。但无论如何，

我的意思是，你们看看这些照片，对吧？事实上，我只是在 23 秒内，对吧？我有一篇博客文章。假设您是一家旅游公司，您在芝加哥有一个新的旅游项目，其中有五个，您知道，五个，嗯，芝加哥最热门的旅游景点。博客文章已写好。图片就在那里，对吧？这些是最高质量的图片吗？绝对不是。

绝对不是。但它们真的很好。对吧？嘿，这里还有一个秘密。您怎么看？你们对这个怎么看？这个？我认为没有其他大型语言模型，任何流行的模型默认情况下都可以做到这一点，对吧？从理论上讲，我只是引用，写道，我想进行人工循环，在前端花费更多时间，在后端花费更多时间。但我这里有一篇博客文章，其中有五张照片。

由 Google Gemini 生成的。我过去经常做 SEO 内容创作，我可能从……开始就在网上做这件事。我的意思是，我在 90 年代创建了我的第一个网站。我在什么时候被付费来创建一些我做的第一个网站？大约 2010 年？所以我花了 3、4、5 年时间主要做这个，为很多客户撰写带有图片的博客文章。它在 20 多秒内就完成了。

而且它真的非常好。好的，这里有一个小技巧，对吧？假设您不小心进入错误的模式。假设您进入 Gemini 2.5 Pro 并运行完全相同的聊天，好的？它显然不会输出图像，对吧？

但真正酷的是，因为它是一个思维模型，它就像，哟，我无法创建图像。您会看到这一点，因为我一直喜欢测试这一点。我想，好吧，如果您要求 Google AI Studio 中的模型执行它无法执行的操作会发生什么？我显然可以阅读它的思维链，看看它如何处理这个问题。让我们看看它是否做到了。开始了。

所以它所做的是，它就像，我无法生成图像，但它会给您一个非常详细的提示。然后我可以进入……

然后我可以进入 Google Gemini 并运行该提示，对吧？我只是说，为……创建图像，然后我复制粘贴了它给我的图像描述。所以 Google Gemini 2.5 Pro 意识到，嘿，我无法创建图像，即使您要求我这样做。所以，这里有一个图像描述，您可以将其放入……中。是的，这个，同样，这张照片要好得多

比在 Gemini 2 Flash 中的多模式版本中生成的图像要好得多。所以我认为或假设它是一个更好的图像生成模型。好的。我们还有更多，你们。但我犯了一个错误。所以我犯了一个错误。

实际上还有一个额外的我想做的，我认为它比其他所有这些都好。我知道在我们所有不同的平台之间，仍然有超过 100 人仍然在周围。所以如果您想让我进入第六个，只需说“奖励”这个词即可。好的。

有时我喜欢玩得开心，看看谁还在关注。所以如果您想让我做第六个，因为实际上第六个，我最初说，这是五个耗时的任务。然后今天早上当我回顾我的节目时，我想，等等，

我没有将最新和最强大的一个添加到此列表中。所以如果您想让我做第六个，只需输入“奖励”这个词。如果我们有 10 个人，我会做的。如果没有，也许我会在新闻稿中分享。好的。所以只需输入“奖励”这个词。如果我有 10 个人。好的。所以开始了，第五个，这个可能会有点棘手。所以对不起。除了输入“奖励”这个词之外，直播观众，如果您想看到这个，嗯，我需要一些帮助。

因为我希望你们都能听到这个，因为第五个是通过共享屏幕流学习任何新技能，好的？这是其中之一。这是其中之一，你知道，OpenAI 几乎一年前预览了这个，我们仍然没有在桌面上使用它。但是现在，Google Gemini，再次免费地可以查看您的屏幕

您可以与之交互。让我重复一遍，免费的。Google Gemini 的 AI Studio 可以查看您的屏幕，您可以与之交互。好的。

是或否。说实话，你们。有多少人知道？你们有多少人知道？好的。所以我将在这里开始一些事情。我希望您能听到它。我必须移动我的麦克风。我已经对此进行了一些测试。即使我共享，即使我共享音频，您也无法总是听到它。所以首先，直播观众，您还能听到我吗？好的。因为我移开了麦克风。

好的。然后我将继续停止共享此内容。我将继续，我将继续讨论这个用例，我认为它很棒。好的。所以给我一秒钟，你们。现场直播这个，很危险。这里很危险。好的。所以让我首先描述我拥有的内容。好的。我有一个简单的电子表格。

来自我的 Google 搜索委员会数据。在点击次数最多的 10 个页面中，我将其导出并放入 Google 表格中。好的。我想知道的是，

我想知道过去七天印象的差异。好的。印象增加了 10% 吗？它下降了 30% 吗？就印象而言？所以这些是我正在提取的一些统计数据。所以本质上我想做的是，我需要编写一个公式。好的。尽管我非常喜欢 Google 表格、Excel 和其他所有内容，但有人在公式方面遇到困难吗？

只有我吗？还有其他人吗？好的。所以现在我将进入 Google AI Studio。好的。所以这就是我要共享的表格。好的。

希望您能听到这个。所以您可能听不到。我很抱歉。我正在将音量调到最大。所以开始了。所以在屏幕左侧，我点击流图标。所以这个，我可以直接与 Gemini 进行实时对话。我可以向它展示我的网络摄像头，以便它可以看到我，或者如果我试图解释一些事情，因为这也可以在移动设备上使用，这真的很酷。或者我可以点击共享。

共享屏幕，所以这就是我要尝试做的，再次，这是 OpenAI 演示的东西，他们我认为是 2024 年，我们仍然没有在桌面上使用它，好的，所以我将点击共享屏幕，希望您能听到，所以我点击共享屏幕，然后我必须选择，我必须选择我们要做什么，嘿，Gemini，你能听到我吗？

是的，我能听到你。今天我该如何帮助你？酷。你能告诉我我的屏幕上有什么吗？在您的屏幕上，我看到一个名为……的 Google 表格电子表格

EDAI 最近七天。电子表格包含按列组织的数据，例如前几页、最近七天的点击次数、最近七天的印象和差异。您想让我更详细地描述任何数据吗？不。所以我理解数据。所以在这里的 H2 列中，我想编写一个公式，显示此印象差异列中的百分比变化。

E2 和 F2 列之间。G2 给我的数字，但我希望将其转换为百分比。我不确定我需要在 H2 中编写的公式。你能告诉我公式吗？要计算单元格 H2 中的百分比变化，您可以使用公式 =G2/E2。

输入公式后，将单元格格式设置为百分比，以将结果显示为百分比值。这对您有用吗？好的。是的，酷。给我一秒钟。所以我要突出显示。所以你刚才在 Google AI Studio 聊天中给了我这个公式。所以我要复制它。给我一秒钟。我要继续。我将将其插入公式栏中。点击它。

点击回车，就是这样。好的，很酷。所以现在它给了我一个分数。这很好，但我希望它显示为百分比。如何将这个新的H列更改为百分比？

我知道你想把H列的值转换成百分比。为此，点击列标题选择整列。然后，在工具栏中找到“格式”菜单。在该菜单中，应该有一个“数字”或“格式为”选项。从下拉菜单中选择“百分比”选项。这应该将H列中的所有数字格式化为百分比。这样理解对吗？酷。好了。我做对了吗？你能看看吗？我做对了吗？

是的，H列现在显示的值为百分比。你做对了。还有什么我可以帮你的吗？

是的，也许只是出于好奇，如果你能非常直接和直率地扮演SEO策略师的角色。所以，你知道，这些都是我网站上的网页和一些谷歌搜索控制台数据。如果我想通过查看这个屏幕来增加网站流量，首先应该做些什么？你认为我最好的机会在哪里，或者我现在应该做什么？

从数据来看，网页“免费Chat GPT vs. Chat GPT Plus有什么区别”的展现次数和点击次数大幅下降。为了增加流量，你应该调查一下为什么这个页面会经历这么大的下降。你能告诉我你最近对这个页面做了哪些改动吗？好的。现在我正在停止它。你们怎么看？这很令人印象深刻吗？

好的。Angie刚刚说我的克隆。嗯，好消息是，我没有启用这个功能。我可以使用谷歌搜索进行基础定位。对。呃，然后它可以为我规划那一集，呃。对。这真的很酷。所以你们明白吗？

它的重要性。我只是举了一个简单的例子，对吧？好的。呃，我可能会，你知道，那个，那个，那个公式很容易写。说实话，这不会花我太长时间。嗯，但如果我尝试做更多的事情，更高级的事情，可能需要我，我不知道，

5、10、15、20分钟才能找到一些东西，对吧？当我可以让谷歌AI Studio和谷歌Gemini访问我的屏幕时，我可以成为任何领域的专家，尤其是这个没人谈论的新选项，你可以用谷歌搜索进行基础定位。因为最终，它正确地识别了我网站上的一篇文章，

这带来了大部分流量，它正在失去优势。原因是，嗯，那篇文章有点旧了。所以大概有六个月了。新的免费与付费Chat GPT有很多变化。所以它正在失去优势。所以如果我启用了基础定位，我可以与Gemini交谈以帮助我规划更新，它可以查看该网页，说，好的，这里有一些ChatGPT的新更新，你的文章中还没有。所以突然之间，如果你正确地使用它，想想看。想想你肩膀上现在站着世界上最聪明的人。你可以问他们任何问题。

他们会得到答案。所以，你知道，你可能正在尝试学习一个新的软件，呃，对。也许就像我给你看过的Excel表格一样。也许你正在编写一些代码。也许你只是想要设计方面的反馈。呃，对。而且它真的很好。所以你需要做一些提示工作。呃，有时，呃，实时对话模型有点冗长。所以我总是喜欢告诉它要直接，嗯，不要含糊其辞或政治正确。总是，你知道，给我一些强有力的，呃，

切实可行的建议，因为有时，所有大型语言模型都会给你一堆废话。所以你仍然可以做一些最佳实践提示工程，真正地，你知道，给它一个角色，给它一个任务，与它进行对话，迭代，评估等等，你将获得很好的结果。但你可以学习任何东西，任何你正在尝试学习的新东西

你可以做到。我不知道为什么更多的人没有谈论和使用它，尤其是你现在可以将它与谷歌搜索的基础定位结合起来的事实。你们，你们。Angie说，我将整天都在做这件事。麦当劳说，我不知道。

Fred，好问题。Fred说，它是否可以在不需要你操作的情况下对电子表格进行你请求的更改？我不这么认为。尽管Fred，奇怪的是，我运行了这个模拟几次。有一次，谷歌Gemini确实说，嘿，你想让我把那个公式放进去吗？我说，是的，当然。它没有这样做。但是，你知道，也许吧。Monica说，我上周和电子表格搏斗了好几个小时。所以是的，也许现在你可以少搏斗一些了。

Big Bogey说，这是免费的吗？是的，好东西。是的。好吧。让我们看看。足够多的人想要奖励环节还是我应该结束这个？让我看看。有多少人说奖励？一、二、三、四、五。我不知道。也许吧。让我们看看。好吧。至少让我停止共享这个屏幕。喝口水。我们要走了。Angie。Angie说下一个黄金时段，用Gemini进行黄金抛光。也许吧。

好吧。我认为我认为我们有10个。我试图数数。我不会太严格，但是好的，是的，我们有好的。现在我向上滚动，看起来“奖励”这个词出现的次数远超过10次。好吧。我知道已经一个小时了，但是让我们让我们来做吧。这是第六个，这个更糟糕。

更疯狂。好吧。我没有开玩笑。好吧。让我看看我的，呃，天哪，我的，呃，链接在哪里。在那里。好的。好吧。所以给我一秒钟。第六个是更好的YouTube学习。坚持住，这比你想象的要多。好吧。呃，我要做的是。好吧。所以我有了这个视频。呃，这个视频是什么时候的？给我一秒钟。

好的。这个视频是七个月前的。所以它有点旧了。这是一个九分钟的视频，它回顾了。天哪。看着我在这个视频里的头发，我现在需要理发了。看起来我刚理发。所以，

这是一个九分钟的视频，视频内容是谷歌的Notebook LM，你不能忽视的AI工具。我认为这是我做的第二个关于Notebook LM的视频。好的。所以我现在正在复制URL。这是一个九分钟的视频。好的。所以现在。

我的屏幕共享正在进行。好的，这是新的。这是新的。所以至少在Gemini 2.5 Pro中使用它。我没有谈到的一件事是这个小加号按钮。如果你在运行按钮旁边的中间，

好的。如果我点击谷歌AI Studio中的加号按钮，我可以从不同的媒体开始，有不同的选项。关于谷歌AI Studio的另一个令人惊奇的事情是，它默认是多模态的，但它可以摄取视频。

但不是你想的那样。让我向你展示，让我证明这一点。所以，再次，当你想到这个大型上下文窗口以及谷歌AI Studio在技术上可以看到这一点时，让我不要夸大其词。

事实上，我什么也不说了。我想让你们先亲眼看到。所以我可以点击，当我点击那个加号按钮时，我可以点击我的驱动器，上传文件，录制音频，相机，YouTube视频，示例媒体。好的。所以我要做的就是点击YouTube。我希望这能奏效。然后弹出一个框。它说YouTube视频URL。我将把它粘贴进去。它加载了缩略图，这些缩略图很傻，但英伟达的某个人告诉我我的视频

我的YouTube很糟糕，我必须改进它。所以我想有一个缩略图。所以我要说的是，我们想在这里说什么？给我一秒钟。所以我要输入。这是一个关于Notebook LM的视频。所以我要说的是，列出使用Notebook LM的步骤。

好的。然后我将点击运行，你将在这里看到。它给了我一个令牌计数。所以这个九分钟的视频是157,000个令牌。所以我要点击运行提示。好的。再次，我使用的是Gemini 2.5 pro。所以大概这会花一点时间。呃，好吧。所以，呃，

Jackie说谷歌拥有YouTube。所以这是有道理的。它能与其他视频频道一起工作吗？杰基，我们等待的时候，这是一个好问题。所以是的，如果你有视频文件，你也可以上传文件。现在，在我们等待的时候，我将点击这个，你可以在思维链中看到，Gemini 2.5 Pro正在思考，它正在处理，它正在处理这个视频，而且几乎已经完成了。好的。

这很好。好的。所以是的，它已经完成了。所以它花了42秒，它给了我关于我在这个视频中谈论的内容的要点。所以第一，访问Notebook LM，呃，转到Notebook LM界面，创建一个新的笔记本，添加你的来源，处理来源，找到音频概述，呃，生成对话。好的。很酷。所以它只是将一个九分钟的视频分解成要点。好的。

我可能明白你的意思。就像，好吧，Jordan，有什么大不了的？为什么这会改变我们的工作方式？好的，让我，让我做些其他的事情。所以我在打字，描述视频中的人。嗯。因为有很多AI工具可以放入YouTube链接。你知道，它基本上做的就是浏览文字记录。好的。然后它就像，嘿，根据文字记录，呃，这里，这里就是，嗯，

这里，哦，天哪，至少这个。好的，哇，好吧，这很好。所以你们看看这个。根据视频，这里是对该人的描述。外观，他是一个成年男性，看起来是高加索人，可能是30多岁或40岁出头。哎哟，谷歌，哎哟。头发，让我们看看。

好的。头发。他有一头深棕色或黑色头发。我妻子会喜欢这个的。我们总是为我的头发颜色争论。我喜欢假装我的头发是棕色的，但它可能是黑色的。嘿，至少谷歌在这里好一点。它没有提到我所有的白发。但是面部特征，干净的胡须，穿着。看看这个。

他穿着深色，可能是黑色或深蓝色短袖polo衫。衬衫衣领边缘有细细的白条纹。他胸部左侧似乎有一个浅色的小标志CK。你们看看这个。

你几乎都看不到，对吧？所以显然我有一个，看起来像一件Calvin Klein的polo衫。那个CK很小，但是你明白并且意识到这里发生了什么吗？好的。想想这将如何改变你的工作。

比如说，我不知道，举个简单的例子。假设你在一家工厂工作，好的？无论你处理什么，假设你制作这些马克杯，好的？我这里有一个来自Nespresso的玻璃马克杯。就像Nespresso，我已经提到了你50次了。为什么我还没有获得Nespresso的终身订阅，对吧？无论如何。

假设你的公司生产这些Nespresso马克杯，对吧？并且你有一个监控视频。让我们假设这是一个30分钟的视频，好吧？在这30分钟内，很多事情都出错了，对吧？你正在进行巡视，有些东西掉下来了。机器的一个部件发生故障，对吧？一些杯子出来的时候是错的，无论如何。我试图给你一个我看到的简单例子。谷歌Gemini可以浏览并完成所有这些，

并说，嘿，有多少杯子从传送带上掉下来了？告诉我时间，然后根据导致它失败的原因进行分类，对吧？然后记住，你可以使用结构化输出和系统提示。所以假设在这30分钟内，有100个杯子掉下来了，而1000个杯子成功通过了。所以失败率是10%。所以你可以进去

使用结构化输出创建一个系统提示，它基本上会输出

你知道，一个看起来像电子表格的输出，它会给你时间戳，会发生什么，它也可以进行分类。是人为错误吗？是机器错误吗？是，你知道，有缺陷的玻璃，无论如何。你可以创建这些分类。谷歌AI Studio可以进入并基本上观看30分钟的，你知道，比如说安全视频。你把它上传到那里。我的天哪，

直播观众没有人，呃，没有人的想法被震撼了吗？其他人呢？你知道，我们只是有一些人说这太疯狂了。嗯，想想新的可能性，以及这将如何改变未来的工作。对。嗯，

很多人，如果你在一个整天都在观察某事并且必须汇报，必须对这些信息进行分类的角色中，你们谷歌AI Studio可以做到这一点，对吧？你现在可以上传一个8小时的文件吗？可能不行，但它正在，它正在接近，对吧？所以它甚至在描述我在这个视频中的举止。

它说他看起来很投入，表达能力很强，因为他直接看着镜头/观众说话。他在讨论这个话题时面带微笑，并表现出热情。我的天哪。像这样的技术今天就可以使用，它是免费的，它可以彻底改变你的业务方式。就是这样。

结束了，各位。好吧。让我快速回顾一下你不知道可以在谷歌AI Studio中自动化或运行的六个耗时的任务。第一，大型上下文窗口。第二，视频创作。第三，从PDF中解析信息。第四，多媒体内容创作。第五，通过屏幕阅读学习任何新技能。

共享屏幕流，以及我们最后一个奖励环节，更好的YouTube学习，并且能够让大型语言模型成为任何视频的眼睛，并且能够对信息进行分类，这远不止是文字记录，它可以看到并使用大脑，这太疯狂了，结束了，各位，我希望这对你们有所帮助，好吧，呃，但是就是这样，如果这对你们有所帮助

请分享这个。如果你分享这个，我会很感激的。如果你标记需要知道这一点的人，我认为谷歌AI Studio正在被完全忽视。就像我说的，我的一些更新。我认为我刚才展示的，在Gemini 2.5 Pro中上传YouTube视频的能力。在此之前我使用的是之前的模型。我认为这是全新的。

再次强调，它不像其他数千个执行此操作的AI工具那样，只查看文本，查看文字记录，查看所说内容，查看单词。不，这个可以看到，它可以使用它的大脑，它可以使用Gemini 2.5 Pro模型。所以如果这对你们有所帮助，请告诉我，转发这个，分享给某人，在评论中标记需要知道这一点的人，各位。我想让Everyday AI成为一个我们可以一起学习、一起分享的地方，但你也必须尽你的一份力量。你必须分享，你必须给我反馈。

关于什么有效，什么无效。所以感谢你们的收听。我知道这个时间有点长。如果你在听播客，感谢你坚持收听。就像我说的，这可能是你需要点击节目说明，观看这个视频的那些视频之一。它希望能更好地解释一些事情。所以感谢你们的收听。

访问youreverydayai.com。如果你还没有，请注册免费的每日新闻通讯。我们将回顾一下这个。它不会花你一个多小时来阅读新闻通讯。它只需要大约七分钟的时间，你就可以成为公司里最了解AI的人。感谢你们的收听。希望明天在Everyday AI中见到你们。谢谢，各位。

今天的Everyday AI就到这里了。感谢你们的收听。如果你喜欢这一集，请订阅并给我们评分。这有助于我们继续前进。更多AI魔法，请访问youreverydayai.com并注册我们的每日新闻通讯，这样你就不会被落下。去打破一些障碍，我们下次再见。

EP 514: Google’s AI Studio - 5 time-consuming tasks you didn’t know you can automate 01:12:48 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 514: Google’s AI Studio - 5 time-consuming tasks you didn’t know you can automate