We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

OpenAI's 12 Days of AI Surpirse, Breakthrough AI World Models & More AI News

2024/12/5

AI For Humans: Making Artificial Intelligence Fun & Practical

AI Deep Dive AI Chapters Transcript

People

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

OpenAI 将在接下来的十二天内发布一系列 AI 产品更新，包括视频生成、新的推理模型等。Google 推出了 Genie 2 和 World Labs 推出了新的 AI 世界模型，这些模型为提示到世界模拟提供了新的方法。ElevenLabs 发布了新的 Conversational AI 工具和 NotebookLM 的竞争产品。Amazon 发布了新的 Nova AI 模型系列。Elon Musk 正在起诉 OpenAI，并与 Nvidia 达成了一项芯片供应协议。Nous Research 训练了一个新的 150 亿参数的模型。一个团队使用 AI 工具制作了一部 10 分钟的蝙蝠侠电影。Vodafone 发布了一则由 AI 生成的广告。Retro Diffusion 是一款新的 AI 像素艺术工具。Adobe 推出了 MultiFoley，一款能够根据视频自动生成音效的 AI 工具。Google 推出了 Gen Chess，一款可以创建自定义棋盘的工具。Clean 的 Motion Brush 工具可以对视频中的多个对象进行动画处理。Sora 的发布及其潜在影响。

Deep Dive

Chapters

OpenAI's 12 Days of AI Shipmas promises 12 live streams with product releases and updates, including Sora, O1, and possibly GPT-5. Expectations include price cuts, less guard railing for voices, and more expressiveness.

OpenAI to release 12 live streams with new products and updates.
Expectations include Sora, O1, and possibly GPT-5.
Potential for price cuts and more expressive voice capabilities.

Shownotes Transcript

嘿，各位节日快乐！OpenAI 正在给我们送上为期十二天的产品发布和更新大礼包。

没错，OpenAI 承诺，十二场直播。我们还会制作某种视频生成、新的推理模型等等。

还有更多东西。我的小圣诞袜塞满了，因为我表现特别好。

我们不是在做这个，凯文。我们不是在这里做这个。

你说得对。我的意思是，全息甲板来了。

是的，谷歌发布了 Genie 2，World Labs 也发布了其作品，两者都非常有趣，是构想提示到世界模拟的新方法。

我们拥有所有这些，以及你现在就可以使用的新的视频、音频和图像生成工具。

这是一个忙碌的一周，而且这里只会越来越疯狂，像我的小圣诞袜一样塞得满满当当。不，不是那样。这是 AI For Humans，大家好。是的，大家好，这是为期十二天的“Shipmas”，OpenAI 已经宣布，从今天开始，接下来的十二天，每天都会有一场直播，他们承诺每天都会有全新的东西。Sam Altman 本人发推文说，从明天开始，我们将进行为期十二天的 OpenAI 活动，每个工作日都会有一场直播，其中会有发布会。

我们的演示和大型更新。Gavin，根据一些 ChatGPT 用户的说法，他们看到了用雪花图标替换语音模式按钮的代码。

我们有

最不可思议的

新东西。这是一个提示雪花按钮，你会爱上它，而且不知道 Eleven 会

对 Sam Altman 和雪花有什么看法。

但是，好吧，我必须这么认为。让我们深入探讨一些我们期望看到的方面。首先，Sora。

Sora 已经多次出现在新闻中。我们上周没有报道它，但围绕它发生了一场大风波。一群艺术家第一次通过他们的账户获得了对 Sora 的访问权限，但这并没有得到批准。

但是，凯文，另一个重要的事情是 O1 的完整版，这是一个推理模型。到目前为止，我们只使用过 O1 的预览版，它已经非常出色了。但是 O1，让我们称之为“四骑士”，实际上更加强大。你认为我们还会看到什么？

除了 Sora 和完整的 O1 模型之外，我不知道还会有什么被揭晓。我们知道 OpenAI 正在开发他们自己的浏览器，这可能还很遥远，但如果他们看到他们一直在测试一个广告支持的模型，让完整的 OpenAI 免费提供给所有人，那将会很有趣。现在 Sam Altman 说他讨厌广告，不想要广告。但话说回来，训练这些模型需要数万亿美元。让我们得到一些

资金。也许需要资金。

这可能不是最令人兴奋的更新，并非为了贬低为期十二天的“Shipmas”，但我想要降价。我希望实时语音代理的成本下降，因为正如我们稍后将在节目中讨论的那样，很明显，语音和代理行为是我们将在 2025 年看到的两个下一个前沿领域。

构建实时语音非常昂贵，这是我一直试图做的事情。我希望看到这些语音的限制更少，我希望获得更多表现力。不，我想要。

我们不说祝你好运。我不知道，想要允许语音更开放，看看那是

那是一个很好的观点。虽然对我来说，那是一件小事。它不需要大规模的超级公告，只是稍微调整一下，让语音更俏皮、更具表现力。我认为这将开启更多令人兴奋的用例。我不知道你是否已经可以使用了，Gavin，在 Mac 应用程序、ChatGPT 应用程序中，你可以让它控制你的设备上的其他应用程序。

我认为我可以，但我实际上还没有玩过，我确实。

他们赋予它权力，然后又收回。奇怪的是，有时我可以访问它，而有时它又消失了。它不存在了。我完全预期我们会看到它向所有用户推出，而且我希望看到它进一步发展。

现在在 Sora 中，我有一个小图标，我可以点击我的 ChatGPT 应用程序，我可以告诉它，Gavin，去运行光标，去控制这个终端窗口，查看这个文本文件并读取它，就像你可以让它访问某些应用程序一样，但你不能让它控制网络浏览器。它拒绝识别 Zan 应用程序，即使如此，它仍然读取你赋予它访问权限的应用程序，但不会与它们交互或与它们交互。我希望看到朝着这个方向迈出一步。

所以我在这里有两个重要的预测。我认为我们将看到的一件事是正式的 AI。来自 OpenAI 的公告，围绕这一点有一些传闻，就像你的观点一样，比如真正控制计算机，他们知道 Anthropic 推出了计算机模式，就像我认为他们将看到更强大的东西。

我还认为这是一个更像炒作的公告，但我敢打赌，他们将展示某种下一代前沿模型，而且它不会可用。但我认为这将在接下来的十二天内发生。如果他们没有利用十二场直播，其中一场展示下一件大事，我会感到震惊。

我的意思是，这里有一个重要的新闻，ChatGPT 刚刚达到三亿周活跃用户，这比几个月前增加了 1 亿。所以 ChatGPT 正在大获成功。我认为 OpenAI 正在说，我们准备统治这个世界。

我们准备前进，他们很快就要拿出成果了，对吧？因为很多人说 GPT-4 很好，但我们没有看到很多更新。自今年 3 月、4 月以来。

事实上，一件仍然缺失的事情，我们可能很快就会得到，那就是 GPT-4 的图像功能。我们没有想到，比如，一个新的每日更新，但也会有一些新的图像功能。所以我怀疑会有一个新的图像模型，不仅仅是 Sora，也许 Sora 附带了一个图像模型，我们已经为它腾出了空间。

所以也许它会到来。而且你知道，一切都会过渡到我们的下一个主题。我敢打赌他们会

展示更多 Sora 作为世界模拟器的东西。你可以看到手臂、手和腿在与所有 DeepMind 员工对抗，是的，他们被困在一个 Chi-MNH 中。

没错。我们还必须记住 Sam 和 OpenAI 刚刚招募了 DeepMind 的三名新成员。所以谷歌继续失去其 AI 组织中的优秀人才。

事实上，他们招募了负责 DeepMind 多模态训练的人员，这是一件大事，因为多模态训练是关于我们如何看待世界，或者 AI 如何看待世界。所以说到这一点，我认为当他们谈论 Sora 时，其中一件事情将与世界模拟有关。因此，在这种情况下，我们本周还有另外两个非常重要的故事，关于 AI 作为世界，但也许我们应该为我们的听众和观众考虑一下。也许我们想谈谈 AI 作为世界到底意味着什么，比如你想给出一个简短的定义。

以及这个想法，是的，现在，如果你想象一下使命召唤、堡垒之夜、Roblox 或任何这些大型游戏，它们都由传统的引擎驱动。这些是软件，它们采用 3D 对象。它们在上面贴上纹理，所以，一个立方体可以看起来像一个创造物，如果你愿意的话。

它们提供声音。它们允许你使用你的控制器或任何输入方法与之交互。因此，这些是复杂的软件，它们渲染你可以穿越的交互式世界，粗略的提炼。但我们在这里。

好吧，与其使用传统的引擎来放置所有几何图形并处理灯光和用户输入控件，不如使用 AI 来做到这一点呢？那会是什么样子？那会是什么感觉？那会解锁哪些新功能？虽然我们正处于这项技术发展的早期阶段，但这些 AI 驱动的世界引擎已经产生了一些非常令人难以置信的图像，以及看起来基于用户输入的实际交互行为。现在，Gavin，你让我在说早期阶段时停顿了一下，为什么人们在模拟质量效应世界、光环和这些巨大的沙漠？我们只是

模拟早期阶段？好吧，这是一个好问题。如果我们制作巨大的热狗回到三维空间，我们就可以拥有它们，这看起来像是广告，你可以制作它。

有人可以制作它吗？所以我认为你是对的。我微笑的原因是，我认为我们可能已经超越了早期阶段，而这刚刚出现。所以有一些重要的更新刚刚发布。Genie 2 是 Genie 1 的更新。

如果你是一位长期听众，你会记得我们以前谈论过 Genie 1，谷歌 DeepMind 的一个视频游戏模拟器或创建工具，在他们宣布 Genie 1 的那天，它没有发布，而是一个侧向滚动的 2D 视频游戏生成。你可以输入一个提示，比如，“水管工穿过超级马里奥”，它会想出一个水管工穿过超级马里奥的版本。Genie 2 将这个 2D 环境变成了 3D 提示到视频游戏。

再说一次，这还没有发布。这是一篇博客文章。谷歌 DeepMind 非常擅长发布博客文章。

所以我们知道它们存在，就像许多 AI 公司一样。但是，凯文，你看看这篇文章，这太疯狂了。就像你立刻就能看到，基本上有一个 UI。他们想出了，你知道，你可以作为一个机器人穿过 3D 环境，或者你可以穿过很多东西。让我真正震惊的一件事是，它就像一艘动力艇，就像水面上有一艘动力艇，它正在获得水的物理特性。

这很

疯狂。

到目前为止，许多这些演示都更像是一幅地图绘画，你可以四处移动，然后他们说，哇，看看这个。我们在这里看到的是连贯性，因为摄像机在移动。所以它正在渲染世界，但并没有忘记它应该在的世界。

以及与该世界中对象的交互性。所以相信这不是一个角色走到看起来像门的东西面前，在任何其他引擎中可能只是他们走到一幅门的画面前。就像老太婆的调子画在峡谷上一样，对吧？

这不是真实的东西。好吧，在这里，跑跑者可以穿过隧道。角色与之互动。

它们以动画循环移动。它似乎有物理特性。它们投射阴影。它们走到门前。门开了，角色进去了。我仍然认为是早期阶段，因为我们不知道它之后是否会完全崩溃，但我们正迅速从概念验证过渡到现在我们看到交互性、物理特性、整个世界都从单个静态图像中创建出来？

没错。最重要的是，还有一个重要的公告。一家名为 World Labs 的公司本周从隐身状态中出现，而 Fa 博士领导了这家公司，你可能听说过她。

我听说她是一位 AI 先驱。她参与了一些早期的 ImageNet 生成之类的东西。她的公司基本上正在做同样的事情。

但在他们的想法中，他们正在做的是，你可以拍摄一张单一的图像，然后在该图像中四处走动。更重要的是，你可以为该图像添加物理特性。你可以改变该图像或该世界中的光线。

现在，你可以稍微演示一下。如果你访问他们的网站（我们将在节目说明中链接），你实际上可以漫步于这些世界。他们可能会让你走一小段路。你不能完全走完，因为渲染这个东西非常昂贵。所以如果你要不断地渲染它，那就很难做到。

但他们有很多视频展示人们这样做，而让我震惊的一件事是，当你观看它时，你可以在演示中做到这一点，你可以改变场景的光线，光线实际上会随着聚光灯一起移动。在一个视频中，他们投掷了一堆篮球，你可以看到篮球的物理运动。这就像处于非常早期的阶段，这个整体的想法，对吧？就像你可以进入一个环境，它不是被编程来做这个。

但它理解，因为它知道世界应该如何表现，随着你的前进，这个会改变，那个会改变，另一个会改变。而这在考虑生成视频或生成大型世界时，感觉非常重要。

而不仅仅是视频游戏，我认为这是一件重要的事情。是的，这是一件大事，不仅仅是视频游戏。这就像 AI 未来发展的方向，这就是所有这些公司都在寻找更多训练数据的原因。

有趣的是，这正是 Gene 2 论文以及他们关于它的推文所检查的内容，就像我们最终解锁了这些新模型的训练数据一样，所以是的，这显然会奏效。我喜欢你提到这并非专门针对电子游戏，因为我看到的一些我最喜欢的 World Labs 示例是人类行走的全动态视频，然后他们替换了他们身后的世界。

这就像一个冲击 VFX 交换。如果您正在收听本播客的音频版本，请帮个忙，查看笔记或在 YouTube 上查看它，因为您应该观看这些视频。它们真的非常令人印象深刻。所以这是一种实时世界模拟器。我知道我们现在正处于发货期，也许 Sora 今早从我们下面出来了，但腾讯一直在发货，现在有一个开源视频模型，我认为一些精心挑选的示例与 OpenAI 展示的任何内容一样令人印象深刻。

你们的 TikTok 做得很好，大家。你们的 TikTok 使用率很高，这家拥有 TikTok 和许多其他初创公司的公司发布了一个全新的开源版本。这是最重要的事情。他们开源了。这个视频模型相当不错。

我觉得它可能有点落后，但它是开源的，这令人难以置信，你现在就可以去尝试。有一家名为 File（此处不添加）的公司，但我能够自己做到这一点。我进行了生成，我实际上彼此。凯文，你可以看到，结果绝对不是协调的或通过渡轮。

但这看起来就像两个随机的家伙。击掌然后拥抱对方。这一个生成花费了我 50 美分，并且花了 20 分钟才得到它。

所以，如果按顺序排列，你可以在本地运行它，但你真的必须按照 ABC 步骤进行。没有人会在 4090 上运行它。但它是开源的，并且被发布到世界各地，这对于视频生成的未来来说是一个非常有趣的迹象。

再说一次，这是一家中国公司，我们在节目中讨论过很多次。我稍后会谈到 Clean，我加入了它，并开始使用 Motion Brush。中国视频公司可能会更先进，直到我们美国人说，好吧，在所有内容上进行训练，或者也许在几代人之后，因为这些中国公司毫不犹豫地在他们拥有的任何数据上进行训练。事实上，我开玩笑提到了 TikTok，但很可能许多，如果不是所有 TikTok，都是我设想中的训练数据的一部分。

哦，是的，我认为唯一的解决方案是再次对视频生成施加恐怖主义。想象一下，如果那 50 美分的生成实际上要花费……

你 50 美元。是的，那将是一件大事，可能会让美国赚很多钱。

我离题了。只是一个玩笑，不是政治。我发誓，很多人都在说，随着这些工具的快速发展，好莱坞将彻底倒闭，并且会有无数不同的创作者出现。会有如此多的噪音，这将是如此具有破坏性。这将会有太多的内容，但我们亲爱的朋友、播客的忠实听众扎克·施奈德出来说，他表示……他知道他是一个超级粉丝，超级粉丝。

哇，太棒了。我很高兴也许你将来能从他那里得到一件外套，你觉得你能上……

志愿者可以得到一个引言放在我们的普雷斯利上，现在通过……就像我们都知道的那样，每个人手机上都有一个相当不错的摄像头，手机上都有一个相当不错的摄像头。每个人都有一个相当不错的电影摄像机，是的，就像一个合法的电影摄像机，然而，我们并没有看到数百万部很棒的电影从人们的口袋里上传出来。

我觉得 AI 代表了另一种工具，它将帮助我们制作电影酱，我的希望。我的意思是，我认为我们以及许多其他人都有过这样的想法。但很高兴看到专业导演、资深艺术家得出同样的结论，那就是拥有专业级的……

卡梅隆，你的口袋肯定导致每个人都在社交媒体上分享他们的故事，无论好坏。但这并没有从根本上改变 3A 大片电影。它让一些人更容易做到这一点。你仍然必须非常有动力，并将其视为一种工具来创作艺术品，来创作作品。

是的，你准备好反击了吗？凯文，我们已经被天网联系上了，准备好反击了。这是我脑海中的反击，不是攻击。

但我认为你是绝对正确的。扎克也是绝对正确的。他们警告说，不会有一百万部，你知道，用手机摄像头拍摄的新 3A 大片电影问世。

但猜猜看，什么出现了？TikTok？猜猜看，什么出现了？真实的人们创作的内容，特别是与相机相关的，因为对于普通人来说，用相机拍摄两小时的电影没有多大意义。

我认为这些 AI 工具将创造新一代创作内容的人。现在，人们认为它是一种 AI 浪潮，而且这种情况正在大规模发生。当我提到 AI 浪潮时，我的意思是，我们被 AI 内容淹没了，无论是 TikTok 上的 AI 网红，还是我们在各处看到的非常有趣、奇怪的 AI 生成内容，是的，我认为……

这几乎是两件不同的事情，我们知道门槛将会提高，经验很少的个人创作者将能够创造一定质量的东西。所以它使创作民主化，这是你我多次讨论过的事情。但这是否会让所有开始创作内容的人都成为真正的电影创作者？我认为人们担心的是，好吧，我现在是专业人士了。

有人可以做我做的事情，就像……我不知道我是否也相信这一点。我认为这与性论证有点类似。仅仅因为你有……是的。

凯文，反驳点二将在节目的后面出现，凯文，因为在……你刚才提到的……我们有一部 10 分钟的蝙蝠侠电影，显然是……我不得不说，这非常有趣。为了反驳这一点。

我会说，我们暂缓讨论，这完全没问题。我只想说，一支有能力的创意团队今天往往比一个正在尝试使用工具的个人做得更好。我认为这不会改变。

随着工具的改进，一个人创造出惊人作品的能力确实会提高。但一群人或一群专业人士创造出更好作品的能力，门槛只会随着底线的提高而不断提高。我想，我想说的是，这有意义。

猜猜看，还有另一个门槛正在提高，凯文，那就是亚马逊已经加入了最先进的 AI 模型发布竞赛。这就像亚马逊推出了一系列新的 Nova 模型。所以是 Nova AI，这是我们新的……我们有游戏，我们有聊天……

BT。我们有 Anthropic Claude，现在我们有 Nova 和 Llama。所有这些不同的系列都在不断壮大。凯文，这就像亚马逊在某种程度上大举进入世界，试图创造他们自己的东西。

我要说的是，有一个很棒的视频问世，其中介绍了新的 AI 芯片，称为 Train……Train……芯片。顺便说一句，苹果刚刚表示他们将使用亚马逊的芯片来处理他们的一些东西。所以这是一件大事。但我希望你播放这段发布的视频，并听听其中的一些夸夸其谈……

高带宽和高内存与具有高级虚拟化、增强安全性和高性能存储和网络的服务器相结合。现在想象一下，使用超高速专用芯片互连连接这些服务器，然后在具有 PB 级网络结构的超大规模集群中部署它们。

你得到的是一种硅服务器和数据中心架构，它为前端模型提供最先进的性能。你想象过吗，加文？你想象过超大规模有一个巨大的结构……

我把自己裹在里面，就像圣诞节早晨一样？是的。所以，再说一次，这些视频不是为普通人准备的。它们不是为我们这样的人准备的。

但有一件事，如果你发布一些东西，比如让世界了解大型事物。亚马逊加入其中，这只是向你展示了这场竞赛的实际规模。这些大型公司中的每一个都需要一些东西……亚马逊在 Anthropic 上投入了大量资金。但他们也发布自己的模型，就像微软发布自己的模型一样，这可能意味着他们想要摆脱对初创公司的依赖，他们想自己做……

内部也是，是的，他们已经采用了 micro-o-b-u-i-p-a 的命名约定，因为当你提到亚马逊 Nova 时，你的意思是 Nova Micro、Nova Light……

Nova Pro，Nova 是 Nova Light 吗？

是的，没有那么多 Nova Zero。你会……我只是……

等待其中三个。这是我的问题。

所以技术上来说，这个东西推出了四个模型。显然，从微型、超轻、超便宜、超快到旗舰版，它说即将推出。但它是功能最强大的多模态模型。它具有复杂的推理能力，他们还宣传它是蒸馏模型的最佳选择，加文，你可以在其中获取更强大、更强大的模型，并对其进行微调以训练和提炼你想要在模型中获得的特定类型的知识。

你学习。在视频中观看。你看到了，凯文。凯文刚刚做了一个手势，你可能把它用在了别的地方。你在那里看视频。

非常好。

你知道吗，凯文，这可能只是邀请大家加入我们的节目并订阅我们的播客的手势，因为这是我们必须说的话的重要时刻，你在 YouTube 上观看。请订阅。如果你订阅了，这是我们成长的唯一途径。如果你正在收听这个播客，请与其他人分享，或者给我们一个五星评价，无论是在哪个播客平台上，我们都会因为你们收听并与其他人分享而成长。

我想提一下，我们每周确实会收到更多播客下载，这让我难以置信。所以谢谢你们。如果你听到这个并且还没有分享，要知道其他听众正在分享，你也需要尽你的一份力量。

你需要了解那里真的……这真的对我们意义重大，它真的帮助我们……成长。如果你能花两秒钟的时间分享它，把它发布到你最喜欢的……阅读它，发送给朋友。这就是我们让这列火车继续前进的方式。

让我们让这列火车继续前进。我们将介绍来自 ElevenLabs 的日本公告，这是我们最喜欢的语音 AI 公司之一。他们最近在交付方面做得非常好。

几天前出现的最重要的事情是对话代理。我们在节目中讨论了很多关于 AI 代理的事情，并且对它们有很多不同的定义。但在这种情况下，它基本上允许你创建一个特定的声音来以特定的方式与特定的人互动。

你好，你今天想谈些什么？

隆重推出 ElevenLabs 的对话式 AI，在一个平台上构建、测试和部署，这是与技术沟通的一种方式。

嘿，我可以查看我的订单状态吗？是的，当然，我现在就帮你查一下。你的订单预计在下午 2 点左右送达。

M。显然，它的商业应用非常广泛，因为你可以创建一个代理来接听电话，或者一个代理来……

让你进行销售电话。最重要的是，即使你不知道如何创建任何东西，你也可以注册 ElevenLabs（不是广告）。你可以启动一个对话代理，并使用基本的英语，使用基本的语言，你可以赋予它一个声音和个性。

你可以给我一个规则集。加文，真正令人着迷的是，它将 ElevenLabs 的表演能力、语音能力附加到你想要使用的任何模型上。因此，当你创建代理并说，这是系统提示，这是它如何问候用户的方式，这是它应该使用的语音时，实际上有一个下拉菜单可以让你选择要使用的哪种大型语言模型。你可以插入 Claude、Gemini、GPT 或自定义大型语言模型。也许你想使用 Nova Draft、Nova Dark，也许……

Nova……

IPA Nova Table。是的。同样，这是一个新的亚马逊模型。你可以做到这一点。知识库非常重要。因此，无论你是为电子游戏构建角色，还是像你说的那样，构建客户支持代理，该代理都需要了解你的业务以及你的产品如何工作，或者你的公司标准是什么，你的使命宣言，你可以将所有这些都插入其中。

当我提到插入时，我的意思不是让工程师戴上眼镜并编写代码，你可以点击并拖动 PDF。现在这个代理将知道它。这太强大了，如果你想激活它，它可以在电话上工作。因此，人们实际上可以使用这些代理接听和拨打电话，然后你还可以获得所有内容的完整分析。

所以它会自动分析你的电话，你可以插入啊，我本来想说KPI，你可以插入你想要它用什么指标来分析电话，然后让你知道，比如这个客户开心吗？我们是否进行了转化？任务发布者是否提供了密钥？

无论你正在构建什么东西，你都可以用它们非常轻松地构建AI代理。我多么希望这是一个广告。加文。

在这个时候，我给我们一些钱。

我想要积分。请把你的奖励积分放到我的圣诞袜里，拜托萨马要留出空间。加文，我完全被你的兴奋冲昏头脑了，你那边到底发生了什么？

ElevenLabs做的另一件事是，他们发布了一个NotebookLM的竞争对手。所以，你知道，我们考虑过NotebookLM，它是谷歌在AI领域最好的产品之一。你可以上传PDF、文档之类的。

它有两个AI化身在讨论你的东西。所以ElevenLabs也做了类似的事情。我上传了我们节目上周的YouTube片段，它正在挑选声音，并且像是在后台渲染。所以现在我在等待它。它可能要过一会儿才能出来，但其理念是，显然，这种AI解释你可以上传的内容的想法是有用武之地的，或者至少是再次窃取内容和声音，这使得它对人们来说更容易上手。

事实上，NotebookLM本身已经被集成到Spotify Wrapped中，我可以播放一点，因为所有其他的都在渲染，因为对我来说有趣的是，如果你看看迷你版，它会显示为你在Spotify上的Wrapped播客。所以这是Spotify Wrapped，本周刚发布。我进入这个，它所做的是创建了一个为期五分钟的播客我的歌单。所以我会播放这个，这是直接通过Spotify应用程序播放的。好的，音乐爱好者们准备好。

欢迎来到你个人的2024年Spotify Wrapped深度体验。

来自谷歌的NotebookLM在这里，嗯，来回顾一下……

你度过的非凡音乐年，有1800分钟……

全球排名前7%的听众，太厉害了……

敬业精神。它还在继续。

如果你自己做的话，你会感觉它是一个还不错的谷歌版本。它感觉不那么特别。它与仅仅从你的Wrapped中获取基本输入并没有太大区别，它并没有……

让我感觉像是圣诞老人未来的化身刚刚通过你手中的魔法矩形门户拜访了你，而你已经开始使用它了。你只是得到了两个模拟人类的声音，它们正在就你的特定收听习惯进行对话，关于你消费了多少分钟你最喜欢的……你收到了来自声学唱片时钟的礼物，你就像……

好吧，还不错。

所以我打算为Apple Music设置一下。

你知道他们听什么。我很感激的是，首先，谷歌能够允许Spotify用户，他们能够做到这一点。所以，这可能是通过很多人向Spotify介绍这款产品的第一次大型尝试，Spotify AI DJ。

我们之前也在节目中讨论过这个问题，这很有趣，对吧？就像我引导你了解任何音乐。我认为这是一件非常酷的事情，好的。

现在让我们回到Jn FM与Hope和Chris。所以它用Hope生成了一些东西。Chris，这是一个……

我们上周播客的版本。你知道吗？我知道Hope。我知道Not Kid。

就像我，你为ElevenLabs做了很多工作。是的，你把Hope用于很多项目。我已经知道Hope的声音是什么样的了。

所以我们开始吧。好的，我将播放给你听。这是实时生成的，大约五分钟……

或数字时代。好吧，不完全是。今天，我们正在讨论AI代理实际上可能是我们的合作伙伴，而不是我们的替代品。这是一个有趣的观点。你能详细说明……

AI代理究竟是什么，以及为什么它们会引起如此多的关注？当然可以。AI代理本质上是……我将跳过一点，但你可以滑动，我会跳过并跳到文本到图像生成器的不同部分，这些生成器一直在掀起波澜。这是其中一部分。但它更进一步。

像Runway和Stability AI这样的公司正在突破可能的界限。所以Books，你把什么放进魔法机器里才能得到这个播客？所以我实际上……

放入了上周AI for Humans在YouTube上的剧集链接。所以，很明显，它所做的是获取我们的对话，基本上谈论我们是谁，我们是什么样的。关于NotebookLM的事情是，如果你把NotebookLM放在一个笔记中，它通常会说，好吧，我们正在谈论AI for Humans上周的剧集，或者我们正在谈论……

这个播客说，AI for Humans，他们谈论了这个，在这个例子中，它只是直接进入我们正在讨论的内容。我也要说，第一次听到这个，我第一次看到其他人这样做，有些人说，这就像声音不那么有表现力，这感觉可能更像即插即用，而NotebookLM可能在其中加入了更多调味料。好的，现在我们正在转向节目中通常不会做的事情，但现在有很多这样的事情正在发生。Elon在做什么，Kevin？

那是这个环节的名字吗？

很久很久以后的Elon Musk。你有什么想法？

这个周末你打算做什么？

就像我看到你就像……你喜欢的邻居。你喜欢什么？我去那边。我们不经常这样做，因为我们不喜欢，我们会很快结束。但Elon现在已经第四次起诉OpenAI了，我相信是因为再次追求盈利。

但故事的另一方面是，他声称OpenAI和微软以及其他竞争对手和投资者之间存在一些反竞争行为，违反了联邦法律的胡说八道，他声称之前投资XAI的人没有进一步投资XAI，因为他们被明确告知不要与……微软在房间里说，嘿，不要与我们的竞争对手来往。我们将看看这个结果如何，但与此同时，当他试图在法庭上攻击OpenAI时，他却在那边与Nvidia达成协议。这是另一方面，如果你只是收听音频版本。

所以他还与Nvidia达成了协议，这家公司继续在AI数字淘金热中获得丰厚的薪酬，他将获得价值10亿美元的芯片，将于1月份交付。所以Elon真的在全力以赴，我认为这里关于Elon观察的一件重要的事情，即使我们不喜欢关注这些事情，那就是Elon现在坐在佛罗里达州他度假村的美国新总统旁边。我认为这将比我们预期的更成为AI领域的一个更大的故事。

而且Elon起诉OpenAI的事实对OpenAI来说不是一件好事，因为你知道，领导这个国家，美国的人有偏爱某些人的习惯。他非常乐意倾听周围的人，尤其是那些他认为值得帮助的人。所以这是一个需要关注的故事，比如，在未来，AI领域的平衡点在哪里，以及它在哪里没有被推动？

一点？听着，如果你听到这个感到恐慌、害怕和恐惧，因为你意识到少数亿万富翁将控制我们AI的智慧命运。别担心，加文，因为一个令人兴奋的新型150亿参数研究模型是由一群分散的爱好者训练的。这是一家非常有趣的公司。

对于那些更倾向于入门级，而不是深入AI领域的人来说，这有点模糊。但这家名为Nous Research的公司，我认为是Nous Research，它一直在进行许多非常有趣的研究工作，并宣布他们能够以去中心化的方式训练一个模型，这意味着世界各地的许多不同的机器被用来共同训练这个模型。它的参数为150亿，这并不是最先进的巨型模型，但这仍然是朝着看到一个开放源码模型可以在个体之外进行训练的世界迈出的一步，一些AI安全人员可能会说，这非常可怕，因为你可以在不受控制的空间之外训练AI模型的想法真的让他们感到害怕。但与此同时，正如你所说，如果政府真的开始控制和打击这些事情，这确实为让它以不同的方式更加自由打开了大门。

我很高兴你想谈论这个，因为这让我很兴奋，即使它可能会让更广泛的人群感到厌烦。它被称为Demo或DemoD。耦合动量优化允许异构硬件混合。

意思是所有机器都在社交网络上。这听起来很像……

周围的鹅卵石织物。这意味着硬件环境是混合的，这很重要。所以你没有在不同房间和不同位置的标准化机器。

我的意思是，他们在官方训练中使用了类似的GPU来保持一致性。但这是终结者5的剧情。我知道他们有3部。那里不是有一个？

他们从数字开始。所以我们可能在……

在这个时候，这是全球性的。每个人，因为天空会被核武器摧毁。每个人都会陷入困境。

将是Elon，你，也许还有赛博格普京。只有大约三个人拥有他们的AI机器。而那些人，我们，加文，所有收听和观看的人，我们必须团结起来。但我们没有超级计算机集群。

所以我们去我们的商店和棚屋，我们去我们的直接CT购物中心，我们把PS工具和Dreamcast的灰尘擦掉，它们还有足够的电量可以一起使用。我们把它们插上。我们……我们得到了所有这些机器的网络。

奇怪的机器也插上了。它正在与黑色科技搅拌机对话。所有这些力量的结合将训练一个更聪明、更有能力的模型。这就是我们打败机器的方式。

聚集。哇。我不知道我的黑色科技搅拌机，它在我的壁橱里放了大约……

四年，Ninja Air Fryer，那东西将在不久的将来发挥作用。事实上，我认为像这样进行去中心化训练真的很酷。我认为这非常重要。我认为这对开放源码闪存研究社区来说是一件大事。所以我很高兴我们讨论了它。

好了，各位，现在是时候讨论一下我们本周看到你和其他人用AI做的一些事情了。是时候……

我对这个非常兴奋。这是我迄今为止见过的最酷的AI应用之一。它是由三个人在几周内用200美元和一些CleanEye积分完成的。

这是一个十分钟的蝙蝠侠电影。它本质上是一个同人作品，对吧？但它有十分钟长。

它引人入胜，非常值得一看。我鼓励大家去看看。这是由一个名叫Kevin的家伙上传的，这个孩子……

K-A-V-A-N，破折号孩子，他是一个在AI视频reddit上上传了很多东西的人。但他说这是……他做得非常努力。

他说这是用1600个CleanEye积分完成的，工作流程几乎使用了所有可用的AI工具，从图像开始，然后是动画视频克隆、呼吸等等，大约用了三个星期，三个人一起创作。这是一个例子，说明现在在AI视频领域中有什么可能。我们在这个节目中永远都在谈论提示到好莱坞，即在某个时刻构建提示某些东西并制作电影的想法。现在，这也是提示到好莱坞是一种神话的一个很好的例子，因为这些人做的不仅仅是提示。

他们提示，然后他们编辑，然后他们添加了声音。他们提示了声音。他们做了各种事情。

但我确实鼓励大家去看一看。它，再说一次，只有十分钟长。它不像……是你见过的世界上最好的东西。但它非常引人入胜，你会了解它是什么。

我不同意你刚才说的任何话，但即使是我们处于这个位置，一年以前对这个领域非常了解，哦，我的天哪，如果你回顾两年前，这是不可能的。让我们都意识到，目标点在我们关注不同方向时不断缓慢地移动。

五年前，有人上传到YouTube，这将是有史以来最好的蝙蝠侠同人作品之一。

在一分钟内分配它们。这将是一件大事。各大机构将就这个制作了疯狂同人作品的临时团队展开竞标。

然而，我们现在正处于那些林德斯，加文，我们谈论了可可，一个开始在互联网上引起轰动的商业广告，无论好坏，很多人都在谈论它。好吧，就在今天，我们在星期三，12月4日录制这个节目时，一个VotePhone的商业广告。他们是客户。

代理公司是New Commercial Arts。他们发布了一个看起来有一分钟长的商业广告，乍一看，我认为如果这个广告在我的电视上播放，我会说，“哦，这是VotePhone的广告。”这是一个关于跟随我们生活节奏的广告。它主要...

是一个AI生成的我的生活，凯文，你应该知道这一点，我的生活节奏有那么糟糕吗？

我想象一下，就像，呃，就像一个吐司机，上面坐着热狗，像圆形的...

热狗和面包。

但是不，听着，如果你看这个广告，这些迷你视频，我们知道AI做得很好，一个婴儿漂浮在太空中，然后在水中出生，然后人们拍照，它基本上讲述了成长的旅程，然后它转向周围人的视角。但这些相当美丽的片段，是的，看起来像是用专业摄像机拍摄的。

剪辑得非常好。关于你刚才说的，它不是即兴创作的广告，对吧？如果你看这个广告的制作人员名单，有一个EP，一个制作人，一个创意总监，多个AI艺术家，FX制作人，VFX主管。名单还在继续。但如果这是三年前，加文，制作人员名单会...

很容易是现在的五十倍。

很容易。所以这是有趣的地方。我认为这只是为了早点说明，比如，“门槛会提高。标准也会提高。”所以是的，我们每周都会这么说，但我并不介意成为一张破唱片。现在就开始尝试使用这些工具吧，因为如果你看看这个广告的制作人员名单，它很漂亮，名单上名字最多的是三年前还不存在的AI艺术家。我们现在就在这里...

向Uncanny Harry在X上的致敬，我们已经关注他很久了。说到新的AI工具和个人，凯文，有一个非常酷的工具叫做Retro Diffusion，现在可以使用了。它已经可以使用一段时间了，但这是一个新版本。

这是什么呢？这是一个插件，基本上允许你用AI制作像素艺术，这对于AI来说一直是一件棘手的事情。这很酷。像素艺术总是有一些奇怪的东西。

Real Astro Pulse的这位家伙，我通过Discord认识了他一点，一直在开发这个产品。这是一个付费产品。如果你想制作任何AI像素艺术，我鼓励你去尝试一下，玩玩看。看看它能够实现的效果非常惊人。

我有一个小游戏要给你玩，你准备好了吗？

我准备好了。是什么小游戏？

仔细听。因为我不知道这是否能通过我们的声音效果奏效，但看看你能不能识别出来。我相信。

听起来像一个人拿着链子追赶，所以是一个拿着链子的人追赶一只跑得很快的小兔子。

宠物，答案是。我们看看评委，他们得到了“拿着链子的人”。实际上，加文，我们只需要这个，这个游戏怎么样？

听起来像一辆汽车飞快地开走了。

哦，是的。你不需要任何兔子或其他任何东西，听起来确实像这样。你答对了两个。加文，这是什么？

那是我。宿醉后为四年级的课堂玩这个手机。好吧。

三比二。而且它非常接近。那么所有这些声音有什么共同点呢？加文，嗯，它们不是真实的。

这是视频到音频生成的未来。我相信腾讯也用他们的新视频模型做到了这一点。但这是一个Adobe新的多模态AI工具。基本上，你输入一个视频，它就会为你生成音效。现在我看到...

最后播放的那个声音是一个女人在演奏竖琴，它实际上是在捕捉她演奏的音符，这将是...

一个疯狂的，它相对来说，想想手指的加减法，对吧？所以它让视频的动作驱动它发出的声音。我认为它并没有演奏琴弦上的实际音符，但如果...正如我所说的，我会非常失望。好吧，我们不知道源视频，如果她甚至能够，如果她使用了所有七个AI手指...

来演奏，拜托，你在她演奏的时候甚至都没有...

是的，我甚至不知道她是不是真的。我不知道那是AI还是真实的视频。但如果你看看其他给出的例子，很明显他们用GoPro或人体视角拍摄了很多东西。

但他们让人们做一些事情，比如洗东西和在厨房准备食物。他们有后院动物。他们有所有这些奇怪的东西，但它相当准确地再现了视频中的声音。这只是下一个锁，当我们谈论这个即兴创作的好莱坞时，它将使用所有这些视频生成器，给它一个东西，并让它自动生成与你的视频相匹配的音景，这将...

成为世界上最刺激的事情，对吧？因为这是另一件非常吸引人的事情，当你漫步在电子游戏中时，我们谈论的是节目的开头。声音为环境的可能性增加了许多东西，对吧？如果你能够实时地开始真正地体验广阔的世界，就像我们越来越接近永远困在我们的眼镜里一样。凯文，我们该如何阻止这种情况？

我们该如何阻止被困住？我不想阻止它，凯文。我曾经在外面。

它被高估了。我不在乎。没有理由去那里。

你知道，它不在那里，加文。AI For Humans通讯是什么？不，你只能...

几乎今天才能得到。

它不是。我们晚了一天。

我们晚了一天，我们...

因为我们不得不推迟它，以便把它塞满美味佳肴。所以，如果你还没有订阅AI For Humans通讯，你错过了。这条线也在朝着正确的方向发展。

我们真诚地感谢大家与他们的朋友和家人分享。访问AIForHumans.show，你可以订阅我们的通讯。那就是AIForHumans.show。

获取通讯。它是免费的。它是每周的。我喜欢的是它是一篇轻松的小读物。你可以...

一扫而过。此外，你还可以报名参加演讲。

在我们的网站上，如果你不想和我们说话。

让我们想想我们如何处理眼睛。本周，我有一些非常有趣的事情。首先，我想快速地放下一些每个人都可以去做的事情。

如果你想做一些事情，在圣诞节给人们留下深刻印象，这可能是一件有趣的事情。谷歌发布了一个叫做Gen-Chess的东西，它实际上是一个非常酷、很傻的东西，你可以用它来创建棋盘并用特定的图像玩游戏。你可以基本上提示一个棋盘。

我认为很酷的一点是，我做了一个棋盘，热狗是兵，车都是小热狗，皇后戴着一顶热狗帽。所有这些东西，这是一种非常简单、有趣的使用AI的方式，可以制作一些东西，然后你可以真正地玩国际象棋或与其他人分享。所以如果你尝试一下，这很有趣。

我现在正在尝试它，因为当你访问实验室网站时，你可以选择制作一个经典的或创意的棋盘，然后你可以给它任何灵感。我说，给我一个受任天堂游戏启发的创意棋盘。它给了我一个很棒的版本，马里奥，一个完整的马里奥，帽子上有M，戴着王冠是国王。碧奇公主是皇后。

哇。真的，真的太神奇了，他们是AI...

我对此感到震惊。我已经从互联网上被封杀了。

真快。

是的。看看这个。然后我点击生成对手，这将根据你的第一个建议自动建议。它说，“任天堂对战游戏”，分享就足够了。我有索尼克，机器人尼克，我认为这是来自《Nights into Dreams》的角色...

我的谷歌部分，也许没有得到宣传，所以...

他们还没有关闭IP。

是的，我可以看到游戏，他看起来很棒。是的。所以这是一个非常酷的工具。所以本周我做的事情，我看到了一些关于Clean Motion Brush的非常酷的视频。所以Clean，如果你不知道的话。

这是中国AI视频模型之一，Motion Brush受到了很多关注，因为你可以真正地最多选择五个主题，让他们做不同的事情。它确实给了你很多不同的东西，让你在制作视频时能够做到，能够采取的行动。关于Clean的一些事情。我得到了黑色星期五特价，所以我自己花了60美元买了全年的会员。

你可以得到大约，这并没有很多生成，但你可以得到大约15到20个，然后你每天可以得到几个免费的，这需要很长时间来渲染，我不确定是不是只有Motion Brush，但每一个都需要8到10分钟才能返回，这使得它很难使用。所以我有一张我做的照片，呃，Shakira拿着一个小圣诞老人，我想看看我能不能让圣诞老人...我想让它把圣诞老人扔到空中。

所以我拿了Shakira的胳膊，让它们举起来。在圣诞老人身上，我也让它举起来。你可以对每个部分进行遮罩，并决定你想做什么。然后你可以让...

背景保持相似。

所以你可以看看第一个，他们让圣诞老人像爆炸一样向上飞，给...

一个《全面回忆》中夸托的症状衬衫，衬衫向上飞，圣诞老人有一个完整的凶恶的脸，上面有牙齿。

对吧？我甚至都没看到这个。所以下面还有一个脸。

然后我尝试再次这样做，但我并没有完全做到。我让圣诞老人飞起来了，但没有尝试把它扔起来。我试了几次。

然后我尝试的另一件事是，当然，你看到了这些视频吗？兄弟们，我试图有一张马克龙（法国总统）和特朗普的照片，他们有点像，在充电。我试图让他们拥抱然后接吻。

有趣的一点是，关于这一点的报道是，在这个提示中，我写了“两个男人拥抱然后接吻”，它不允许我这样做，但是当我写“两个人拥抱”时，它允许我这样做，你不能，对吧？这是AI模型的优点之一，比如做这样的事情。同样，像杜斯兄弟这样的AI艺术家使用这个来制作他们的视频，他们让名人做一些事情。

同样，这只是我让Motion Brush互相靠近。所以你可以看到，这是一种相当好的控制运动的方式。最后，我拿了我们上周的Dominy Home，然后我疯狂地使用了它。

所以我们的钉子像一个机器人，一个终结者机器人，拿着一个火鸡，你可以用你的寺庙手做。而我只是在背景中。当你看到这一切都转起来的时候，你可以看到它以自己的方式计算出三维空间。

它在一些事情上挣扎吗？是的，我的脸在整个过程中肯定发生了变化，比如，图形有点偏离了。但总的来说，这是一种非常有趣的使用AI视频的方式。我希望它更快，我认为它非常强大。我认为它比Runway的同类工具更强大，我很兴奋...

花更多时间使用它。好吧，现在我已经花时间使用了这个，即使是有限的时间，加上使用Runway和Luma，所有这些东西，Sora确实在Shipmas期间发布了。我知道这一点，因为我知道当我发布这个讨论时，我可能已经过时了，因为时间的运作方式。但是如果Sora只是一个文本到视频模型，加文，这会足够令人兴奋吗？

我不知道。我的另一个问题是，他们会给你多少生成？这需要多长时间？在那个艺术家事件发生时，围绕AI Turbo模型有很多讨论。

如果它真的很好而且很快，那可能会很有趣。我不知道。我的意思是，至少这是一个可以玩的工具。

这实际上也取决于他们作为付费ChatGPT用户会给我们多少生成。我们会限制在两个吗？如果是这样的话，尝试...会变得非常烦人。

那些东西，或者他们会宣布一个新的付费等级吗？顺便说一句，26美元可以让你获得基本的语音聊天和文字聊天。但如果你想要高级的图像生成和Sora，好吧，那就是GPT Plus高级版，价格是……

50美元一个月，或者其他什么价格，顺便说一句，我认为如果他们推出这样的东西，可能会吸引很多人注册。这对一家公司来说可不是小数目。

同意。我仍然在使用12种不同的服务。和平马利，如果他们能给我一个足够好的多模态服务，是的，你赢了。你仍然可以拿到我的钱。

非常感谢您的收听，祝大家航海季快乐。快乐航海季。快乐航海季，各位。

OpenAI's 12 Days of AI Surpirse, Breakthrough AI World Models & More AI News 52:16 Share

AI For Humans: Making Artificial Intelligence Fun & Practical

Deep Dive

Shownotes Transcript

OpenAI's 12 Days of AI Surpirse, Breakthrough AI World Models & More AI News