We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Researcher to Founder Journey, and the Power of Open Models

The Researcher to Founder Journey, and the Power of Open Models

2024/8/16
logo of podcast AI + a16z

AI + a16z

AI Deep Dive AI Insights AI Chapters Transcript
Topics
Robin Rombach, Andreas Blattmann, Patrick Esser: 我们在海德堡大学相识,共同进行了许多有影响力的研究工作,包括潜在生成模型在图像和视频生成上的应用。早期,扩散模型的优越性并不明显,我们的研究也曾受到质疑。然而,通过开源模型,我们获得了社区的广泛反馈,并不断改进模型。Stable Diffusion 的成功证明了开放模型的价值,它带来了大量的下载量和社区探索。我们新公司 Black Forest Labs 致力于开发最佳模型,并持续公开分享研究成果和模型,以确保模型的持续发展和商业可行性。Flux 模型是我们的首个图像模型,它在速度和效率方面进行了优化,并提供不同许可证的版本以满足不同用户的需求。我们相信开放模型能够促进研究成果的共享和实验,并最终提升模型的安全性。我们正在研究水印技术,以帮助识别由我们的神经网络生成的虚假信息。我们也正在开发一个新的视频模型,该模型在可控性和效率方面都有显著提升,并能够解决之前视频模型生成静态场景的问题。 Anjney Midha: Stable Diffusion 的成功表明,开放模型能够对学术界以外的社区产生巨大影响。与语言模型领域相比,生成图像和视频模型社区更倾向于开源研究成果。开放模型能够从社区获得反馈,并将其整合到模型迭代中。开放模型的迭代过程,包括整合社区反馈,改进模型质量,并扩展训练基础设施。

Deep Dive

Key Insights

Why did the founders of Black Forest Labs choose to release their models as open-weight licenses?

They believe in the value of sharing research findings openly to benefit the wider community, enabling experimentation and innovation. They also see it as a way to improve safety and transparency in AI models by allowing more people to analyze and contribute to their development.

What is the mission of Black Forest Labs?

To make the best image and video generation models widely available, enabling a new way of content creation for everyone while ensuring the sustainability of sharing research findings openly.

What are the key improvements in Black Forest Labs' Flux model compared to previous models?

Flux introduces better positional embeddings, more hardware-efficient implementations, optimized noise schedules, and improved scaling techniques. It also offers different variants with varying licenses to cater to specific needs.

How does Black Forest Labs approach the challenge of video generation controllability?

They focus on improving prompt adherence, temporal consistency, and object consistency across video cuts. Their model allows for better control over characters, objects, and settings within a single generation.

What was the biggest change in the data preparation and pre-training stages for Black Forest Labs' latest video model?

They made significant improvements in data pre-processing and pre-training, including better temporal compression and data filtering techniques. They also treated time as a first-class citizen in the model architecture.

Why is it important for Black Forest Labs to release open-weight models despite potential risks?

Open-weight models allow the community to identify and address biases, improve transparency, and contribute to the overall advancement of AI. This collaborative approach helps mitigate risks and enhances the safety of the models.

What are the main challenges in watermarking generated content to prevent misinformation?

Watermarking is challenging due to the ability to apply distortions to images and videos, which can break the watermarking process. However, open models allow for continuous improvements in watermarking techniques as new jailbreak methods are discovered.

How does Black Forest Labs' approach to model training differ from traditional methods?

They emphasize intuition, experience, and continuous feedback during training runs. Their team relies on the expertise of individuals who can quickly assess whether a training run is progressing in the right direction, which speeds up the development process.

What role does the image model play in the development of Black Forest Labs' video model?

The image model serves as a foundational base for the video model, providing diversity in styles and artistic elements that might not be captured in video data alone. It also allows for parallel development and faster progress in the video model's training.

What is the potential impact of AI models like Flux on creative workflows?

AI models like Flux can dramatically speed up creative workflows by providing a fast feedback loop for generating visuals from ideas. However, human input is still essential for decision-making, curation, and refining the final output.

Shownotes Transcript

如果我们有一个开放模型,就会有越狱,但也会有办法来减轻这些越狱。这是我们在许多其他研究领域看到的现象。如果你想想,我不知道,密码学之类的东西,它基本上是类似的。你只需要改进你的算法,然后就会有一些人越狱,然后你进一步改进。没有人会怀疑密码学对我们网络上以及任何时候交换信息的一切都非常重要。没有人会争论是否

开放式研究是否好。欢迎收听 A16Z AI 播客。我是德里克·哈里斯。本周,我们对 A16Z 普通合伙人安杰尼·米达和一家名为黑森林实验室的新型生成式 AI 模型初创公司的联合创始人进行了非常有趣的讨论,他们在该公司名称可能暗示的那样,在德国现场录制了这段访谈。

创始团队罗宾·伦巴赫、帕特里克·埃塞尔和安德烈亚斯·布洛特曼推动了稳定扩散模型背后的研究,最近成立了黑森林实验室,以推动图像和视频模型的发展,并帮助保持开放研究的火炬。除了讨论他们名为 Flux 的新模型系列外,罗宾、安德烈亚斯、帕特里克和安杰内特

还讨论了从研究到产品,再到从构建产品到创业的转变。此外,他们还讨论了 AI 中开放研究的好处,以及为什么从更大的社区学习而不是闭门造车很重要。但在我们开始之前,以下是他们每个人的简短介绍,以帮助您将他们的声音与他们的名字联系起来。首先是罗宾。

我是罗宾,黑森林实验室的联合创始人。我们专注于使图像和视频模型尽可能广泛地可用。然后是帕特里克。帕特里克·埃塞尔。

我是黑森林实验室的联合创始人之一。我在这方面工作了一段时间,从大学开始。当我看到我们实际上可以教电脑创建图像的可能性时,我感到很兴奋。最后是安德烈亚斯。嗨,我的名字是安德烈亚斯。我是黑森林实验室的联合创始人之一。是的,几年前,我和那两个家伙一起开始研究图像,后来又研究了视频生成。

提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且不针对 A16Z 基金的任何投资者或潜在投资者。更多详情,请访问 a16z.com/disclosures。

所以你们,和多米尼克一起,是稳定扩散的四位共同作者之一。我们为什么不回到最初的故事?你们在哪里相遇的?是的,我们在海德堡大学相遇,我们都在那里攻读博士学位,或者试图攻读博士学位。实际上在那里遇到了安德烈亚斯,他来自黑森林。这是我,隔壁的村庄,基本上。我们以前不认识,但后来我们在海德堡读博士期间相遇了。

那是一段非常美好的时光。我认为我们一起做了一堆非常有影响力的工作。我们实际上是从规范化流开始的。试图使它们尽可能好,这很难,可能现在仍然很难。然后转向自回归模型。

做了这项名为 VQGAN 的工作。后来,在 DDPM 论文之后,该论文真正表明扩散模型可以生成漂亮的图像,我们也研究了这一点,并应用了我们之前一直在使用的相同机制、相同形式化方法,以及这种潜在生成建模技术,其基本假设是,当您想要生成诸如图像或视频之类的媒体时,数据中存在大量冗余。这是您可以基本压缩掉的东西,将数据映射到低维潜在空间,

然后实际训练生成模型,该模型可以是规范化流非回归模型或扩散模型,该模型在计算上效率更高,是的,我们就是这样做的,然后基本上使用潜在扩散,我们对架构进行了一些调整,引入了这个文本条件单元,并且是最早使用扩散模型进行文本到图像生成的团队之一,如果你们回想一下当时的情况,那时可能并不明显

扩散模型在各种模态(图像生成、视频生成、音频生成)上会如此出色。今天更清楚了,但当时是否如此清楚?你们当时作为团队之间最大的争论是什么?

我不知道,拒绝我们当时的 PI 的评论。哦,有趣。因此,当时更资深的学者并不清楚这是一条好的研究方向。我不这么认为。但这可能是我个人的看法。你认为这是为什么?更成熟的研究人员、学者的普遍反应是什么,为什么如此不接受?我认为这与帕特里克之前提到的内容有关,那就是你们

就像如果你从很远的地方看,你只是在训练一个自动编码器,然后在那个潜在空间中训练你的生成模型,这就像一个非常简化的视图,因为它不是整个故事,比如为什么这些东西真正有效并产生清晰图像的原因是,当您训练自动编码器时,我们必须引入这种对抗性组件,这使其看起来像非常清晰的自然图像,而不是像以前那样模糊

这与 CDPM 论文中扩散模型最初有效的原因有着非常相似的动机。当您想要生成时,您会关注感知相关的部分,但会丢弃某些感知无关的特征。我认为我们也必须在我们实际工作时围绕我们的直觉发展这种思维方式或理论。所以这不像从一开始的动机,但现在回想起来,我认为这很有道理。

我认为这可能是它不断受到质疑的原因之一。你为什么要研究这个?比如,你为什么要再次使用潜在方法?现在有了扩散模型,我认为我们不得不自己辩论。是的,我担心我们是否可以再做一次这样的事情。但这总是这样的,这就是你看到研究的局限性所在。你必须提出一些新颖的东西。如果它只是工作得更好,而且并非对每个人来说都清楚它很新颖,那么它将以某种形式受到质疑。

但与之相反,如果你正在创办一家企业,你只需要专注于有效的东西,对吧?新颖性不再那么重要了。就像你使用有效的东西一样。这就是为什么创业实际上也是一次非常好的体验。甚至在你们开始创业之前,如果你只是考虑研究和产品之间的区别,以及仅仅构建人们可以在论文之外使用工具的区别,

在研究界看来可能并不新颖的东西,实际上对世界各地的创作者和开发人员来说是极其新颖的。直到你们几年后发布了

几年后,稳定扩散,这可能才对研究界变得清晰。这是对的吗,还是错误的框架?我认为这完全正确。我认为在进行研究和开展业务之间有一个很好的中间步骤,那就是使用开源环境中使用的模型,因为然后每个人都会使用你们的模型。对。

我们很早就获得了这种经验,因为我们一直习惯于使我们的模型始终可用。然后,第一个变得非常流行的模型之一是这个 VQGAN 解码器,因为它实际上实现了非常逼真的图像纹理,它与这种文本到图像优化程序结合使用,人们使用它和剪辑并优化图像以匹配文本提示。

因为我们发布了该模型,并且许多人在这种情况下使用了它,所以这是您意识到,好的,您实际上必须制作一些通常有效的东西的时刻之一。我认为这是一个很好的中间步骤,因为如果您希望您的模型在这种广泛的上下文中使用,那么您只需要确保它们在许多边缘情况下都能工作。让我们花一点时间来讨论这段历史,因为它确实对学术界和研究界以外的许多社区产生了不可思议的影响。

所以我们将玩一个快速猜谜游戏。2022 年 8 月,你们发布了稳定扩散 V1.4。为了让大家了解稳定扩散的规模及其产生的影响,你们能否猜测一下该模型在发布一个月后的下载量是多少?我之前说过,我讨厌猜测。是的,你先来吧?12 万?120,000。帕特里克?一百万,但我们不知道如何下载。

下载量已计算。哦,足够公平。这些是 Hugging Face 仓库的估计。所以是 12 万,一百万。两百万。两百万,好的。在第一个月,稳定扩散 v1.4 被下载了 1000 万次。天哪。今天,自你们在 2022 年夏季发布以来,稳定扩散的下载量已超过 3.3 亿次。稳定扩散基本上改变了世界。它现在是国际上使用最多的三个 AI 系统之一。

历史上,这令人难以置信。同样令人难以置信的是,你们才刚刚开始。所以我们为什么不谈谈,那是过去,现在让我们谈谈现在。所以你们发布了稳定扩散,你们看到了社区的热烈反响,

使用规模之大,使用方式之多,人们正在用它做的事情。你会说让你们每个人都感到惊讶的三件最重要的事情是什么?我想到的一件事是,总的来说,通过让这么多人使用它,你会得到大量的探索。我认为让我感到惊讶的第一件事之一是负面提示的使用。同样,它也适用于 CFG,但这就像它的一个轻微变化。我认为我们也从未真正探索过。然后你看到人们实际上得到了更好的结果。

就像,哦,太好了,我们可能永远无法独自发现的如此快速的发现。对。是的,我记得发布后我在瑞典度假了两周,我对此有一些论文,我非常好奇地想尝试一下。然后在我回来之后,一切都已经被实现了。

你认为这主要是因为你们选择将其作为开源发布吗?没错,是的。因为它可用,因为基础质量足够好,可以探索所有这些下游应用程序。是的,所以让我们花一分钟时间讨论一下,因为在语言世界中,可以说,随着语言模型的影响越来越明显,研究人员在语言方面谈论其研究突破的可见性和透明度有所下降。

今天,绝大多数领先的实验室直到很久以后才发表他们的见解。他们并没有真正发表他们的发现。相反,在生成式图像和视频模型社区中,你们选择继续开源或至少发表你们的研讨会并透明地讨论它。你认为这是你们故意做出的决定,还是其他因素的结果?

所以,我认为看到你从社区获得的想法,当然你可以将其融入到你的下一个迭代中,这太好太有帮助了。所以我认为这绝对是我们个人非常重要的事情

继续这样做,继续为社区提供他们可以构建的基础。当然,正如我们之前所说,看到他们想出的东西也极其有见地且有趣。另一方面,特别是对于人工智能领域,我们当然也看到

遵循这种方法的公司,难以从中获得实际收入,并且在许多方面都遇到了麻烦。所以是的,我认为每个人都应该记住,那些对公开提供的模型感兴趣的人,需要在使用模型的人之间取得一种平衡

开放模型和发布它们的人,也就是我们。所以我们必须确保我们也能作为一个企业维持下去。所以现在距离你们第一次发布稳定扩散已经过去几年了,你们发布了 v1.4。你们看到社区进行了一系列探索。然后这使你们能够决定你们想要关注社区工作的哪些部分。

加倍努力,提高质量等等,然后发布下一个版本。你们已经通过几次发布开放权重并查看社区对其做了什么来做到这一点。现在你们已经有了几个模型系列。有 SDV 1.4,然后是 SDXL、SD3。你会说,经历了几次发布开放权重并查看社区对其做了什么的旅程后,你最大的收获是什么?我认为总是有可能整合研究结果,至少是纯粹的研究结果,

回到你的模型中。但另一方面,我们也必须学习的一件事就是扩展我们训练所需的架构。这通常是人们谈论得不太多的事情。我认为这正是您可以区分自己的地方。训练更好的基础模型需要大量的投入,您如何设计训练管道,对吧?有各种形式的数据预处理,当然还有数据过滤,然后

训练算法本身必须支持大型集群以及所有这些不同的东西,这些东西不是直接在社区中完成的,但如果您想制作一个好的基础模型,这非常重要,而现在我们正处于这个阶段,我们也在大规模扩展我们的模型,好的,这让我们

来到今天,你们是黑森林实验室的联合创始人,什么是黑森林实验室?我们是一家专注于使用潜在生成模型进行图像和视频生成的初创公司,我们是一个已经合作一年多的研究团队,我认为正如罗宾之前所说,我们非常擅长构建这些潜在生成基础模型的非常具体的训练管道,我认为这就是我们的团队真正独特的地方

在能力方面,因为我们设法将我们管道的各个部分都优化到了我认为非常出色的程度。

目前。黑森林的使命或北极星是什么?我认为是使最好的模型尽可能广泛地可用,这确实成为了一种生成内容的新方法,这对于每个人来说都是广泛可用的,并且我们也弄清楚如何继续公开分享研究成果以及模型的使命。但是是的,我认为我们的目标的一部分是使这成为一件可以持续下去的事情。你们有

作为你们的第一个版本,你们发布了 Flux,这是黑森林的第一个图像模型。Flux 是什么,它能做什么?Flux 是一个扩散转换器。它是一个潜在扩散模型。实际上,它是一个潜在流模型,因为我们最近转向了这种更通用的形式化方法,称为流匹配。我们认为,该模型在许多方面都优于以前的模型。

因此,它使用了一种更好的位置嵌入形式,这确实有助于我们生成的结构,它被称为绳索,在语言模型中非常流行,但是是的,我们将它整合到了图像生成中,它使用了一种更高效的硬件实现,我们

引入了这些,我们称之为 FUSE DIT 块,这也受到转换器缩放结果的启发。我认为它实际上来自视觉社区。我认为 VIT,有一篇关于将 VIT 扩展到 220 亿个参数或其他什么的论文是由谷歌发表的。他们有这个。所以我们做了这个。围绕缩放有很多事情,我们实际上也在 ST3 论文中探讨过,它被称为 QK 规范,对于训练更大的模型也很重要。

我忘记了关于架构的内容吗?我认为我们还改进了训练期间的噪声调度或噪声采样,与 SD3 相比,我们对其进行了进一步改进。我认为那……

那是重点,对吧?是的,我认为重要的是要注意,我们确实是这样,我认为这是我们第一次尝试发布不同版本的模型,这些模型带有不同的许可证。我们提供的版本从非常宽松的许可证到将来也为有更具体需求的客户提供的并非完全免费的模型,这些模型也针对更专业的应用程序进行了定制。

你们希望谁使用这些不同的版本?

这三者之间最大的区别是什么?它们在推理效率方面有所不同。因此,我们认为最开放、最快的变体模型非常适合开发人员,仅仅是因为您可以在一到四个步骤中生成样本,而通常使用的东西大约是,我不知道,30 到 100。鉴于该模型与之前的模型相比也相当大,我们认为这是一个重要的功能。所以总结一下,你们最开放的模型 Flux,Schnell,

它描述了它在开放权重模型中的速度。

它以一种非常宽松的许可证提供给整个社区。你们希望开发人员使用最快的模型来做什么?将其包含在包含图像生成的流程中,包含各种合成,对吧?我们过去在现有模型中看到过这种情况,例如 SDXL,它被包含在内。真的,你可以,我不知道,查找疯狂、舒适的工作流程,这些工作流程包含此模型。当然,我们认为,因为模型本身比 SDXL 更好。

之前的模型,你不需要大多数这些有点复杂的工作流程,但我可以很好地想象,因为模型足够好,你可以将其插入并围绕它开发漂亮的工作流程,希望我们也能看到很多围绕流行应用程序的探索,基于此,我想我们可以真正收集关于什么实际上阻碍了这些应用程序的进一步发展,然后我们可以专门研究并加倍努力

如果我是一个基于黑森林模型构建的应用程序开发人员,如果我选择最快的模型,我会牺牲什么?你并不一定只在权衡利弊。它也有速度的优势。我想最大的问题之一是,所有托管都在你身上。你需要有硬件来运行它,对吧?特别是如果你想扩展它的话。

这也是我们提供解决方案的地方,这实际上并没有成为探索应用程序的瓶颈。另一个是在灵活性方面,因为为了使它非常快,它是一个在几个步骤中进行采样的蒸馏版本。但是,由于扩散模型的性质,有一些技术实际上是可能的,因为它在多个步骤中进行采样,因为您可以调整

在此过程中,采样过程。然后这些不一定可以直接使用 Schnelle 模型,使用 Schnelle 模型。

所以也许可以这样说。如果你想快速测试一些东西,快速尝试一些东西,如果事情对你来说总体上是有意义的,请使用 Schnell 模型。如果您有一个针对特定目标的更专业的应用程序,您可以使用速度较慢但更灵活的模型之一。我认为您可以将其描述为应用于这些模型的不同级别的蒸馏。最大的模型是一个纯粹的空气动力学

未蒸馏的基础模型,它提供了流匹配训练程序带来的所有灵活性,我们正在应用。但当然,你会权衡生成速度。与你们将如何与该领域许多其他实验室发布最先进的图像模型进行比较相比,你们做出的一个相当有争议的决定是,你们选择使这些模型之一

极其宽松和开放权重。这是为什么?继续发布完全开放权重许可证的模型对你们来说为什么很重要?我们也从所有已发表的研究结果以及其他工具中受益匪浅,例如,我们也依赖于 PyTorch,这只是一个例子。如果我们都完全隔离我们的发现,那么很多事情都是不可能的。

所以我认为总的来说,这确实很重要,我们仍然分享研究成果,并使人们能够尝试新技术。我认为对于开放权重主题来说,这确实很重要,你实际上不仅要将研究结果写下来,以发表的形式,这也是非常有帮助的,但我认为

真正让更广泛的受众能够实际尝试这项技术。为此,它实际上必须可用。是的。正如帕特里克之前所说,我们在开源方面根基深厚,我们希望继续

这样做。而且我认为在深度学习模型的背景下,围绕安全性的争论非常激烈。我确实认为,使权重可用最终会使它在未来变得更安全。所以我认为这就像开源的另一个方面,拥有这种社区努力,专注于模型的缺点,以及你需要改进的东西,而不是你只是开发它

独自一人。- 是的,稳定扩散真正为许多用户做的一件事是,你们发布的基础模型非常灵活。这是一个相当诚实的模型。在将其提供给社区之前,你们并没有在上面添加太多你们自己的后期训练偏差或审查决定。你们在这个版本中也延续了这一点。在你看来,这为什么很重要?

因为我认为从长远来看,它会改进每个人都在制作的模型。进行基于你们使用这些特定模型权重所做的研究的公平论证交换,就像稳定扩散的早期版本中由训练数据本身引入的偏差,而且我真的很不喜欢它们。所以很高兴有关于此的研究,这可以

指出它们。顺便说一句,如果没有发布该模型,这是不可能的。啊,有趣。因为如果没有稳定扩散,也许社区今天不会知道数据集中存在这些偏差。对。现在我们知道如何删除它了。实际上,我们从中吸取了巨大的教训。这是一个完美的例子,说明开放模型通常如何非常有用,可以改进一般

空间或这种一般最先进的技术。你是在说,当你发布开放权重模型时,这允许其他研究人员实际为这些模型的透明度做出贡献,并更深入地理解这些系统,然后最终通过让更多人能够分析模型能够做什么和不能做什么来帮助改进它们,固有的偏差可能不会那么容易

如果它是一个闭源模型,则会被发现。没错。所以关于开源或开放权重模型的一个普遍看法是,开源这些模型的研究人员和开发人员并不太关心安全或减轻其中一些风险。这是真的吗?在你们将 Flux 作为开源模型发布之前,你们做了什么来解决这些错误信息风险?

是的,我们正在研究对生成的内容进行水印的方法,但你看不到输出。但是另一个算法可以检测该图像或视频是否是由我们的神经网络生成的。

是的,我认为这是一个很好的观点。我认为这也朝着一种可能更健康的方法发展。例如,跟踪和识别此信息,可以在不限制该技术用于其他可能真正有益的用途的情况下实现。另一个观点,说到水印,这显然是一项非常具有挑战性的任务。

因为您可以对生成的图像和带水印的图像应用如此多的失真,以至于可以破解这些水印程序。但是同样,如果我们有一个开放模型,就会有越狱。

但会有办法来减轻这些越狱。这是我们在许多其他研究领域看到的现象。如果你想想,我不知道,密码学之类的东西,它基本上是类似的。你只需要改进你的算法,然后就会有一些人越狱,然后你进一步改进。

这,没有人会怀疑密码学对我们网络上以及任何时候交换信息的一切都非常重要。而且它也类似,没有人会争论开放式研究是否好。我想知道为什么对于这些 AI 基础设施模型来说是这样,因为它们是

就像实际上是一样的,我会说。你们还在发布博客文章中分享了你们正在开发视频模型。当你们开始开发这个视频模型时,你们最想解决的一些最重要的功能是什么?我认为我们从目前强大的视频模型中看到的一个教训是,尽管它们非常好,可以生成非常漂亮和详细的视频,但它们在许多方面仍然不够可控

对专业人士来说真正有用,对那些想要将其真正纳入其专业流程中的人来说真正有用。当你提到可控性时,你的意思是?有各种各样的挑战,首先是普遍的

提示遵循,所以你们现在看到的这些模型大多数都是基于文本输入的,但除了图像之外,我们已经找到了很好的方法或提示遵守目前对视频来说要好得多,目前尚不清楚如何暂时提示模型以使其准确遵循您的时间指令。所以这是主要挑战之一

另一个是不同剪辑之间某些对象或角色的一致性。电影制作人可能想要剪辑,并且仍然能够生成同一个人,带来相同的光泽感或具有相同的背景等等,对吧?也许是从另一个视角,但仍然……

相同的设置。然后我们认为这是这个新模型的一个不错的功能,我们实际上不仅可以通过文本进行控制,我们还可以说,好的,让我们在这里进行剪辑,得到一个角色或任何你在提示中拥有的东西。它在生成的这些不同剪辑中保持一致,就像在单个生成中一样。所以与你们之前使用的最后一个视频模型相比,我相信那是去年秋天的稳定视频扩散,

您认为黑森林首个视频模型最大的改进之处在于它更易于控制吗?不仅如此,它也更高效。潜在空间的效率提高了大约 16 倍,我认为这非常好,同时保持了整体视频质量和视觉质量。此外,我们还可以生成更长的视频,我认为 Stable Video Diffusion 的一个主要问题是它主要生成静态场景。我们目前的模型有很多运动,非常有趣的运动,从慢动作到快速镜头和抖动镜头,运动范围非常广。是的,我认为该模型能够生成的运动分布与 SVD 相比有了很大的改进。- 这是这类模型的常见问题,这类模型表面上是视频模型,但当你实际尝试对其进行任何有趣的推理时,它们通常会产生静态摄像机平移或只是缩放。它们实际上并没有模拟图像或视频所代表的世界。你们做了什么来解决这个问题?我认为其中一个主要改进是安迪提到的时间压缩,其他新模型也使用了这种方法。我们认为这是我们现在看到的视频模型比九个月前好得多的根本改进之一。

- 知道了。- 这也归结于大量的数据过滤和准备改进。我认为这总体上很好,因为例如,我们实际上只使用了非常经典的计算机视觉技术来过滤掉那些导致这种不良行为的最糟糕的部分。是的,我认为看到现有技术即使有时只是为了获得也能真正有所帮助也很不错

我们应用的这种技术可能具有很高的错误率。但是,如果您在预训练阶段这样做,

仅仅获得粗略的 ID 就经常会比人们从数字中预期的要多得多地改善基础模型。这似乎也很有效。因此,我们必须对比数据准备、预计算、预训练、后训练、微调以及最终推理优化的整个过程,这些都是实际构建和发布模型的各个部分。与一年前相比,你们这次的方法发生了哪些最大的变化?我认为数据预处理和预训练阶段已经发生了巨大的变化,这导致了我们现在看到的视频模型与之前的视频模型相比在行为上存在一些根本性的差异。另一件事是,我们真的改变了,嗯,

使时间成为一等公民,在此之前,我认为很多人总是使用分解机制建模方法,其中空间和时间被不同地对待,而现在在即将推出的新模型中,它也只将所有这些都视为相同,并让模型(Transformer)实际弄清楚如何处理差异,顺便说一句,是的

顺便说一句,Transformer 作为一种架构的通用性在这里非常有用,因为我们从图像模型(正如我前面提到的,它是视频模型的基础)过渡而来。进行这种转换时,我们根本不需要更改架构。

这要归功于 Transformer 架构非常有用的通用性。有趣的是,我们实际上在图像模型中添加了一个占位符,例如在我们甚至开始图像模型训练之前添加的位置嵌入,稍后我们将合并时间位置嵌入。是什么让你们有信心这么做?因为我们已经计划好视频模型了,但我们知道从训练图像模型开始总是一个好的开始。

但是,在该图像模型中,我们已经合并了由开发视频模型的目标所告知的设计决策。所以听起来你们做出的一个基本假设是一个非常好的图像模型将严格地有助于一个伟大的视频模型。这是真的吗?

我不确定是否会这样表达,但图像数据为您提供了不同类型的多样性和样式,您可能无法通过视频数据捕捉到这些多样性和样式。例如,艺术性的东西,只有在图像数据中才能创建。如果我们考虑艺术品之类的东西,对吧?当然,您可以制作艺术品的视频,但这可能不是……

非常有趣的运动。至少艺术品可能不会动。我认为也不应该低估思考发展计划本身的必要性,因为首先,训练图像或视频模型需要不同的计算量。图像模型的经验也更多,这使得入门更安全、更快。因此,我认为这实际上也是做出该决定的部分原因,即您不希望目标是说这只有 12 个月才能准备好之类的事情。我认为拥有持续的进展非常重要,在中间步骤中,您也会获得一些真正有用的东西,例如图像模型。我认为从这一点出发,

走这条路非常有意义。您不会损失太多。您可以通过相对快速地开始图像训练来更好地重叠不同的开发。然后我们可以并行处理所有视频数据工作。是的,这再次归结于我们团队的整体效率和我们的模型开发策略。此外,顺便说一句,

事实上,我们在四个月前成立了公司,我们已经推出了我们的第一个模型。我们不得不重建一切,但正如罗宾多次提到的那样,我们拥有这个真正专业的团队

它只是优化了管道的各个部分,并将其与功能的持续开发相结合,例如图像功能,然后可以重复用于视频。这些组合我认为导致了非常好的进展,您现在正在看到这一点,因为我们在四个月后推出了一款真正强大且大型的模型,我个人对此感到非常自豪。

我认为研究领域中不太了解的是,直觉仍然有多重要,品味仍然有多重要,以及作为团队所做的个人决策如何对您生产模型的速度、产生的质量产生巨大影响。例如,我记得几个月前与你们讨论过如何解决延迟问题,即生成速度慢的问题。

视频生成仍然非常慢。提示某些内容然后看到生成返回需要一段时间。我记得问你们,我们该如何解决这个问题?你们三个人都立即说,是的,我们应该问问 Axel,对吧?

你能多说一点吗?为什么你们如此清楚地知道团队中有一位专门的人员,你们的直觉会首先求助于他,而不是说,哦,让我们查一下。这应该是常识,或者让我们看看最新的会议论文说了什么等等。不,我认为这才是真正起作用的地方。你需要有一个运作良好的团队。你需要了解彼此。你需要知道你可以信任彼此。Axel 告诉我,嘿,我们一周后就会准备好这个模型。然后我就相信他。

所以我相信 Axel。但是,训练这些模型有什么困难,以至于知识仍然锁定在一个或两个人身上,而不会普遍分布呢?特别是如果像你们这样的人没有对你们的研究所如此透明的话。这需要大量的直觉和经验。当你看训练的早期样本时,判断训练运行走向的能力,我认为这非常重要。我认为这会……

我们团队的许多成员实际上都拥有。根据这种直觉,当我们开始运行我们刚刚发布的 Flux 模型时,我们将其内部名称称为 YOLO 12B。我认为有一些决定要工作。让我们看看会发生什么。但总的来说,我们对整个事情感觉还不错。我认为这是一种很好的运作方式。

是的,但我认为关于经验有多少,存在某种稀缺性,对吧?总是有这种,训练模型的整个过程都很慢。我认为几乎没有办法避免这种情况。然后,当然,你会尝试一些方法,在较小的规模上进行,但有时你会看到这也不会真正转化为放大的版本。我认为回到为什么它仍然被锁定或如此重要的原因,所以……

拥有少数经验丰富的人非常重要。我仍然认为,人们的经验实际上是有限的,是的,真正拥有这种实践经验,并且能够像罗宾所说的那样,在训练过程中不断判断这是朝着正确的方向发展还是没有盲目地信任损失曲线。假设你必须预测未来两三年,对人类来说更有价值的是什么,而不是模型做什么

模型要做的事情。我确定会有很多不同的意见,但我认为,就像我们某种程度上受限于训练模型的速度以及实际获得我们放入模型中的想法的反馈一样,

获得反馈,这实际上是否有所改进。这就像有一个缓慢的反馈循环。我认为这总是阻碍人们前进的东西。我认为这对于视觉媒体来说非常相似。据我所知,该行业的人们,如果你只想实现某些东西,或者如果你有一个想法并且想付诸行动,你……

今天,我不知道你是否必须在摄像机上拍摄这个。你必须获得道具。你必须准备好一切,才能获得它的想法。当然,你可能会在之前做一些故事板之类的事情。但我认为这是已经非常有帮助的事情,你可以

获得更快地反馈循环,也许可以为脑海中的想法提供一些视觉效果。它不必是最终产品,对吧?尤其是在我们现在看到的质量差距的情况下,对完美的需求很大,这仍然需要

现在的人工技艺。也许它会变得越来越少,但最终我认为它是为了将人们脑海中的想法转化为某种可视化的现实。我同意。这是一个快速迭代想法的工具。但最终,作为用户,作为人类,你必须决定使用什么和不使用什么。我认为还有一个关于样本线程品味策划的问题。您可以轻松地立即生成 100 个样本,但是您将为您的特定项目使用什么?

这取决于你,然后还有这种在空中领域出现的特定风格的问题,这是我们想要保留的东西,我不知道,我不确定,所以我认为它主要是一种工具

可以极大地加快某些工作流程,但它并非旨在完全取代这些工作流程。它也会改变工作流程。那么人们可以在哪里找到这些模型呢?您可以访问 GitHub,使用我们的推理代码,从 Hiring Phase 下载权重,当然也可以使用我们的 API。我希望他们生成一堆非常奇怪的东西。不,当然,探索模型,看看它在现有工作流程中的表现,并将其集成到这些工作流程中。

是的,我们认为这是对最新迭代可用权重的重大升级,并且是的,我们都期待看到社区正在探索什么,当然也希望看到更多围绕这些模型的研究。特别是,我们之前已经讨论过,该模型是一个免费模型,它不是

位于 API 后面。这些 API 通常带有本机提示上采样或其他内容。当然,您也可以对我们的模型执行此操作,但我们注意训练模型,使其也能很好地响应各种提示技术,例如单个单词或简短提示、较长提示、非常详细的提示。所以我想

对于开放模型来说,最酷的功能之一是人们可以根据自己的意愿提示它们,并探索最适合它们的方法。本周就到这里。如果您想知道从 AI 研究人员到创始人的流程可能是什么样的,这当然是一个引人注目的版本。要了解更多关于 AI 前沿的讨论,请继续收听本播客。还要记住对播客进行评分、评论和分享。