cover of episode 作者拆书 | 解密妙鸭相机背后的扩散模型

作者拆书 | 解密妙鸭相机背后的扩散模型

2023/8/25
logo of podcast 先见未明

先见未明

AI Deep Dive AI Chapters Transcript
People
杨玲
老王
Topics
老王:目前AIGC领域存在两大生成式模型,分别是ChatGPT背后的的大语言模型和妙鸭相机背后的扩散模型。理解二者的概念区分至关重要。 杨玲:扩散模型与大语言模型源于人工智能领域不同的分支。扩散模型通过对真实数据加噪再进行去噪生成,学习数据本质的关联,擅长处理各种模态的数据,尤其在图像、视频等复杂数据的生成上表现出色。而大语言模型基于mask prediction机制,在自然语言处理方面具有优势,但扩展到3D、视频等领域仍面临挑战。扩散模型学习的任务更难,但学好后的效果也会更好。 老王:扩散模型和大语言模型来自人工智能领域不同的分支,生成机制不同,应用方向和实现方式也不同。

Deep Dive

Chapters
本部分介绍了扩散模型的概念,并将其与之前的生成模型(如VAE和GAN)以及大语言模型进行了比较。扩散模型是一种多步的编码自编码器,其生成效果比VAE更逼真,理论性也比GAN更强。它与大语言模型的区别在于,扩散模型可以处理各种模态,而大语言模型目前主要应用于自然语言处理领域。
  • 扩散模型是一种多步的VAE,生成效果比VAE更逼真,理论性也比GAN更强
  • 扩散模型可以处理各种模态,而大语言模型目前主要应用于自然语言处理领域
  • 扩散模型的生成机制与大语言模型不同,它通过对真实数据加噪再降噪来学习数据本质,而大语言模型基于mask prediction

Shownotes Transcript

散装智能,关注创新背后的真价值大家好,我是老王今天我们请到了新书《扩散模型》生成式 AI 模型的理论、应用与代码实践的第一作者杨玲来跟我们聊聊妙牙相机 Meet Journey 这类图片生成应用背后的技术工程也就是扩散模型

杨玲来自北京大学网络与信息系统研究所所长崔斌教授的团队团队长期跟 OpenAI 泰晨博大学这样的科研机构有合作所以她本人对生成式 AI 有着可以说是既深入又前沿的认识

那我们现在就来欢迎杨玲谢谢主持人我是来自于北京大学在德国的博士生然后目前的一个研究的方向是扩散模型以及这个扩散模型在各个领域的一些应用非常欢迎大家来跟我一起交流讨论进行科研合作在这里我先为杨玲的新书广告知一下虽然咱没有恰饭但是有幸提前收到了书我觉得确实是非常不仅仅是一个

不仅实用而且出的非常及时因为它真的是上到理论下到代码一站式的教学所以无论大家本身是从事 AI 相关的这个开发工作或者是说你有一定的计算机科学的基础想了解自己未来的这个工作有没有可能跟 AI 结合再或者你就是某个 AI 交叉学科的这种学生我相信都是非常合适的

然后另外也是要特别感谢一下电子工业出版社的编辑老师给咱们散装智能的听友提供了五本赠书所以大家可以在播客平台的评论区或者我们散装智能公众号的后台给我们留言先到先得

另外也是同步一个编辑老师刚刚告诉我的好消息就是这本书已经确定了明年会在韩国出版所以顺便恭喜杨玲谢谢关于书这块的话我也想说一下就是当时考虑到这个不同阶段的人需求不一样所以这本书还是适合各个阶段的人去阅读

不管是有一定基础的还是没有基础的都能在这本书里面应该能找到自己需要的一些内容对没错因为像我的话虽然我是一个算是 AI 行业里面工作的人但是我本身是一个非常纯正的文科生我必须说我看了之后我也觉得这个里面有对我非常有价值的一些信息那我们下面就来请杨玲来给我们说出一些干货好吧

首先我觉得我们可以给入门级的听众先做一下基础的概念区分其实今天大家对 AIGC 都不陌生然后我们也知道说这个 AI 之所以能够生成文图视频那背后是离不开这个生成式模型的但是当下应该说有两类非常重要的生成式的模型一类是像 ChatGPT 背后的这种大语言模型

另一类是像我们妙鸦背后的扩散模型所以我觉得可能可以请杨玲先讲讲就是具体什么是扩散模型

然后它和大语言模型又有什么样的不同介绍扩散模型之前我想先说一下就是在扩散模型之前的一些生成式的模型比如说 VAE 还有 GAN 这种 VAE 和 GAN 的话它其实是一个之前生成式模型的两大流派一个是这种基于变分子编码器的另外一个是基于这种对抗式训练的生成模型然后它们两个模型的一个真的就是一个理论性更强一点另外一个是它的生成效果会更好一点所以基本上每年都会有

这两种模型的一些研究然后直到这两年来扩散模型出来的话像 VAE 这种开始慢慢退去了因为 VAE 的话它有一个缺陷它本身的生成效果它没有干那么逼真所以扩散模型它可以看成是一种多步的 VAE 它是一种多步的编码自编码这种串接的方式其实它这种是相当于多层的 VAE 所以它的效果本身比 VAE 要好然后它的理论性也很强所以也比干这块的理论性要更强一点所以目前的话扩散模型在这个

图像生成视频生成这块的效果是非常的惊艳的那说到扩散模型本身的话它其实本身的一个理论是从 5 年甚至 10 年前就已经被提出来了其实从前

从前两年破产模型已经有一些苗头了直到去年前年这时候在图像上面的一个生成效果才真正的被挖掘出来也就是当时一些 Cyborg Diffusion 这种现象级的应用再到如今的这个 Mirror 相机然后破产模型可以说从前年刚出现然后到现在已经取得了一个非常大的一个进步破产模型开始是在图像这块兴起的它可以生成非常逼真的图像到后面它其实已经很有很多应用了比如说 Mirror 相机这种它其实是基于现有图像的一些编辑比如说我们上传一张人脸

然后它会根据你想要的这种风格进行一些定制化的一些生成它其实这种是属于图像编辑的范畴从学界上面来看的话特殊模型其实是可以做更多的事情其实比如说像这个视频生成还有这个分子生成就是要我这块的一些分子要这个方面的对

对对对其实它的应用是远不止于图像这块的只是说图像目前这个应用范围内是比较常出现的所以大家可能了解这方面的多一点但其实在生物医药还有一些像时间序列就是比如说心跳或者脉搏这些数据上面其实都是有广泛的这种应用然后再说一下它和大模型的区别

大模型的话它一开始是从 NLP 也就是自然语言处理那块出来的就比如说它原始的可能就是像 BERT 这种比较稍微小型一点的这种 language model 然后把它参数量增大然后一步一步演变成现在这个大语言模型也就是说它出现了所谓的涌现现象之后大模型才真正的开始进行一种广泛的应用它能够去完成各种各样的任务但是目前从自然语言的大模型的这个发展来看的话还是会向这个多模态这块来进行扩展好

也就是说它现在开始渐渐补足它这个在多模态处理之后的补足然后扩散模型它其实和大模型的一个在应用上的一个区别是非常明显的就是扩散模型它其实可以处理各种模态但是目前大模型的这种范式也就是基于 Transformer 的这种 Mask Prediction 的这种范式的话它其实很难扩展到比如说像这个 3D 或者是 Video 或者是像这个甚至是分子如果想要去做做到像扩散模型那样的效果的话

还是有比较长的路要走的我总结一下杨林刚才几个关键的要点第一个是说首先扩散模型和我们说的这个大圆模型它其实是来自人工智能领域里面两个不同的分支对吧一个可能是更偏计算机视觉的这个分支出来的另外一个是 NLP 也就是自然语言研究的这个分支出来的所以他们

它们本身虽然都是生成式的模型但是它们在生成的这个机制上是有着不同的那由于它的这个机制不同也导致了它的可能应用的方向或者将来的这个应用的广度或者实现的方式

它都是不太一样的是不是可以这么理解对关于你刚刚说到这种机制的这块我想再尽量浅显的说一下就是扩散模型和大陆原模型它们这个模型后面本质上的区别在于扩散模型它是其实对这个真实数据先进行一种加造然后再进行去造生成这个叫做有点类似于说我如果想要模拟真实世界的数据的话我需要先一步一步了解它这个本质的一些比如说图片来说的话就是一些 pixel 之间的关联

像图点对不对我们怎么样去学习这种关联呢就是波彩模型它使用的思想就是我们把这个生成过程看成是一个从噪音当中恢复出一个图像的过程那我们要学习的就是说我们怎么样一步一步的把这个噪音给它去噪就把这个噪音的点给它去掉之后然后恢复成真实的图像那这样的话模型训练其实就是一个

在训练过程当中它会先有个加造然后再会有一个去造模型去学习如何去造然后这样一步一步的去把这个模型给它学出来这样的话 Posite 模型就能通过每一步的去造来恢复不同领域数据的一个本质上面的一些关联以及高阶信息所以它在一些复杂的生成任务上是非常有效的再回到大语言模型其实大语言模型它是基于这种 mask prediction 它会有一个天然的优势在于说语言模型之后它会有一个非常明确的一种单元

也就是比如说它的词或者是它的某一个短语它是一个明确的这种词也就是 token 那我们只需要做的是说我们把这个词或者 token 然后关联性的去对对对它是有个很明显的这种 mask 加 prediction 的这种机制的它和扩散模型不一样扩散模型它是其实是随机加造然后去造的也就是说它其实要学的任务是更难一些的但它学好了之后它效果也会更好

能力会更强对那个比喻其实很形象就是如果我去想象一个图片的话我其实确实是很难预测它不像我说一句话我说一句话我大概率你遮掉其中一个词你给我其他的词我大概率是能够猜出来或者给你几个选择是吧但是图像的这个像素点它确实是不太好预测的这个东西

对对对也就是说其实图像啊像这些复杂数据啊它是没有一个明确的这种语义单元的也就是说我们不能单纯的通过 mask prediction 来去生成数据的那我其实有一点好奇啊如果说它很难做 prediction 的话这个模型它学习的时候它怎么找到一定的规律呢

它这个规律就是从大量的这种数据当中去学习它比如说可能会有图片数据可能有几千几万张然后你慢慢去学习这样的一个扩散模型然后比如说是无条件生成的话也就是说我只是想学习这个数据集本身就是我希望我

目标的这个生成的数据和这个给定的这个数据的 domain 也就是说他们这个风格啊什么的一样的话那其实就是说我只要学习怎么样去从一堆噪音中恢复出这个领域的这个数据就可以了那其实刚才就通过刚刚那个流程就可以然后如果我想再对它进行一些定制化的操作比如说我想生成某一类或者是生成某个风格或者是

比如说或者是对一个图片进行编辑那这个时候的话我们就需要去加入一些 control 也就是一些 guidance 这个 guidance 的话它其实就是我在模型训练的时候它就会显示的加入这种 guidance 就是说让这个去造的过程怎么样沿着我这个 guidance 进行一个生成这块的话就属于这种 conditional 这种 deficit model 也就是条件式的扩散模型你刚才有举到像美图秀秀批图的这个例子啊

我记得咱们俩第一次聊天的时候我也问过你其实美图秀秀的这个一键批图的功能它是在好几年前大家我们都已经用上并且体验过的可是呢我们会发现说不管是 Midger 你还是妙鸦这种 JP 产品啊

它生成出来的这个图片质量它真的是相较于之前显著的提高所以我其实是想了解一下比如我们刚接触这种美图修就一键批图的时候那个时候这些产品背后的算法它是一个什么模型是你刚才说的这个对抗式生成网络这个 GAN 还是 VAE 然后为什么从那个流派到了现在 Diffusion

model 的这个技术流派之后它可以有这么大的一个提升如果单从美图社说这个人脸的这个批图上来看的话四五年前当时做的时候其实不是用这个生成模型来做的它很多时候比如说我先对一个人脸把这个五官皮肤区域啥的给它检测分割出来

分割出来之后然后对于单个区域会有一些传统的图像算法比如说把轮廓给它缩小或者是给它拉伸一下或者是给它美白一下它其实就是用传统的这种 CV 技术对它的像素块或者是一些局部区域对它进行操作最后再合起来

输出这个人脸所以当时会有个现象就是说它其实 P 图的效果它不会特别自然你就会发现它这个有的时候会比较僵硬或者是它不像自己对然后后面因为 Gan 和 VAE 的兴起中间有一部分人可能是会拿这两种模型再去做这种编辑比如说常见的其实就是拿一种属性就

让他变老啊或者戴个眼镜啊或者是属性的 control 对这种的话就是属于传统的算法是做不了的那必须得用深度模型来去做但是他们会一直有一个问题他们在编辑过程当中可能会丧失这个人的这个 identity 信息也就是他的这个身份信息对因为你可能有时候批的太那什么了就是就会让别人觉得都不像自己了对其实这个是因为一些传统算法他们那个在

在控制人脸 ID 的部分它没有很好的能够保持住也就是一些传统模型的这种缺陷到扩散模型这块的话它其实有个长足的进步也就是它可以在控制 ID 的情况下然后尽可能的满足你的输入的要求也就是扩散模型的一个优势就是它的可控性非常强

但同时也会能保留它这个人量的 ID 那我们如果从通过 engineering 把这个东西做到产品化落地的这个方面来说的话目前这个扩散模型它的成熟度怎么样我们先用一个比较简单的产品比如就像妙鸦相机这样来举例像这样一款产品它背后的开发团队需要基于这个模型做哪一些工作然后它主要的过程中的难点可能在哪里

从我的角度来看的话如果他们是其实他们把事情已经做成了其实他们要面对的事情还是挺多的首先就是一些产品上的要求就是我这个东西究竟最后想做成什么样其实他们是比较 focus 在某些领域的其实就是针对说有些人他不想去拍这件照然后或者

是不想去拍一些景色他就是想只是想发朋友圈或者是拿来当真相照什么的这些需求其实是比较集中的也就是说我们需要去对一个现有的人脸进行一个编辑这个总体目标定下来之后的话那剩下就是我们需要用哪些组件来去完成这个用户的各种需求其实它当中最主要的一些需求就是这个风格

也就是背景这块的一些切换从数据收集上来看的话也是比较容易去收集的可能就是比如说你拿个原始的图片然后再拿一些不同背景的这些图片然后尽可能的去夺成它得有个基础的这种波弹模型然后保证它生成能力比如说它可能会用已经放出来的这种 Diffusion 的这个

预设的模型然后拿这些预设的模型在他们自己的数据上然后进行一些翻听然后翻听完成之后然后就会有个问题就是当你上线的时候你会有面对网络上很多个用户然后同时这个请求的这种问题然后那这样的话就是服务器就会有

延迟什么的所以它需要保持那个模型足够小我猜测他们可能会对这个模型进行一些压缩什么的比如说针流啊或者是量化啊那样的一些技术给它进行小型化然后同时它的时间可能会比较长对对对我身边有朋友等将近 24 小时的这种应该就是排队吧

他们自己应该有个上限比如说同一时间然后我大概能同时处理多少个请求对本身的话其实就是因为 Diffusion Model 比如 B 端就是因为它是多步去造生成的过程所以它这个对机械要求非常高然后它自己本身也是非常耗时的

但是我相信他们肯定已经做了一些相关的优化了但是还是没有办法就是说做到特别极致明白对我包括我听说那个 meet journey 他们其实一开始对于自己的这个社群里面的人数的控制啊什么的都是有非常多的考量的其实也就是考虑到生成的速度可能对体验的一个影响

那你刚才讲到生成速度慢然后在可能某一些追求比较高时效的场景底下它比较难满足这个问题我也想继续再问一问就是说那在这一块的研究目前在学术界大家有没有提出一些什么可能的解法有人提出模仿了大模型那种比如说像 Lora 也就是那种低质针流

低质的这种翻听对然后它其实就是说在现有的大的那个 diffusion model 上然后加个小的分支在训练的时候它会翻听它那个训练只是那个小分支的那一部分训练时间更短让它快速的分离和目标的数据那其实这种的话是在训练阶段那其实在 inference 阶段的话也就是它的测试阶段其实它

不能减少测试阶段的一个合适的有些人会去做蒸馏比如说蒸馏的话在扩散模型之外他可能考虑两部分第一部分也就是他的这个 sample 的这个步数也就是刚刚我说的那个区造的步数有些人就是他使用模型蒸馏的方法

把它这个步数给它缩短然后但是让它缩短同时能够保证它这个尽可能能和之前大模型的那个效果一样其实这个蒸馏的本质上就是说我怎么样用个小模型去拟合大模型的一个输出我记得你上回给我用过一个比喻是非常形象的就是老师和学生的关系对对对蒸馏其实是一个老师教学的过程

对对对是这样我们正常的训练的话正常拿个小模型去拟合数据比如说我 A 加 B 等于 C 正常数据它只是告诉你有个 C 但是它不会告诉你 A 加 B 为什么等于 C 所以这时候需要一个大模型来去教它去怎么去学习这部分数据那大模型就会告诉你 A 加 B 为什么等于 C 这个

这个过程其实就是大模型在生成过程当中它的一些特征它能代表它这种 knowledge 通过这种方式然后把 knowledge 从大模型挣到小模型然后这样小模型的话也会有这部分 knowledge 就它会比同样 scale 的情况下的这个模型会效果更好

这是蒸馏的一个本质那除了这个生成慢的这个问题之外扩散模型你觉得它目前来说还有哪一些瓶颈呢而且这个也对应到我觉得是说如果有瓶颈的话肯定就有很多人在往这个方向去

做研究嘛所以其实这个可能是个一体两面的问题啊就是一个是瓶颈一个是说比较大家关注的这个研究方向就是针对这个瓶颈的解法这个瓶颈的话从应用角度来说就是更多的应用场景就刚刚说的那个分子生成它其实和生物医药领域的还是可以应用然后比如说它这个现在蛋白质的一个结构的一个生成啊或者是甚至到一些材料还有医学图像这些都会有一些这个

新的探索再到这个 CV 本身的话 CV 这块它其实目前的话就是图像这块已经做的还挺不错的了大家目前可以看到就是会想往这个 3D 以及这个 V6 这块去做生成从目前的一些现有的一些工作来看的话其实这两块做的并不够因为可以看到它比如说它生成视频它那个视频不一定特别流畅有的是比如说它这个质量也不好或者是它这个不连贯啊或者是它的语义不对应啊对

然后再到边际的话那就更能什么了就是它比如说它可能帧与帧之间它会发生一个羽翼的跳变比如它这个连续性不强其实这些目前都是扩散模型在 V6 上面的一些这个没有做好的地方到 3D 这块的话就是可以看到就是它比如说它需要去生成一些非常逼真的 3D 图像

因为 3D 这块它这个对每个点之间的这个位置关系它其实是非常高的你很容易就会出现这种不自然的这种现象那这种的话就是我们需要对这个 3D 的这个空间进行一个很好的把握这块其实对这个扩散模型提出了更高的要求所以目前这两块的话是 CV 这块一个研究的一个热点其他领域的话它目前还只是处于一个说我能用理论阶段是吧对就是说怎么样把它场景跟这个扩散模型的这个特性结合的更好然后能有一个非常好的一个维斯兰

对就目前很多领域是处于这样一个状态 CV 这块的话还是处于就其实是领先一步就是说怎么样去在各个领域做得更好那在 CV 这块是不是其实你刚才说的那个痛点我是不是可以简单理解为这个模型本身它学习的东西还不够就它本身具备的能力还不够就是在视频和 3D 这块的

这块可以说不光是模型能力的问题它还不是说涌线还没到也不只是这个问题对就是说首先数据是一方面因为你 3D 和 V6 的话对训练时候的显存内存什么要求会更高因为你图像数据就已经很多了

然后你再到 V6 的话 3D 的话它其实对数据量要求会更多因为你需要去拟合更复杂的场景所以本身数据是一个很关键的因素至于为什么刚刚说那个涌线提到涌线这个为什么没有像大模型一样有人做涌线因为大部分人的这个算力现在我觉得还没有到达说能去探探究 3D 和 V6 这个涌线的包括图像上其实都不敢说去做这样一个事情就

究其本质其实是因为就是本身数据形式是不一样的 CV 之外它是没有一个明确的这种语义的所以之外很难去探索但是我相信后面肯定会有一些相关工作去做这个事情这是从数据方面另外一方面从模型方面的话因为它扩散模型本身我在训练过程当中我需要去定义一些目标去进行加造去造也就是说我需要去对什么对象进行加造然后来去恢复这样才能就学到最本质的信息

那这样的话目前只是从一个简单的图像这块牵过来比如说不同的数据比如说 3D 或者 video 他们这个到底对什么对象进行加造怎么样加造更好以及在加造续造的过程中怎么去控制他们之间这个不同 step 之间的这种连续性以及可控性这样其实都是需要去探索的事情但是我觉得还挺值得研究的因为周凯尔如果有突破的话那可能对扩散模型本身也是有新的一个进展

你觉得有没有可能对扩散模型这种结构来说它并不是说学习的数据越多越好或者这么说就是在这个代言模型里面大家可能都会觉得说首先我学习了多少数据量我多少参数量这个可能是我一个

有没有能力或者能力有没有到涌现的地步的一个参照值之类的但是在扩大模型这种架构里面你觉得这个东西重要吗因为刚刚听你讲起来我觉得好像有一些它其实是在算法或者其他层面的一些东西是吗对因为 CV 这块它的一个数据其实是比较复杂的就是我们不可能光考虑这个参数的问题

比如说 NLP 你看到它其实很多 task 都可以归类为成一种 generation 就是比如说是 sequence to sequence 的比如说可以归类成这种形式然后 CV 这块很难把各种任务都归成一种形式

所以我们很多时候需要 task by task 的去解决那你这样的话就是我们很难去说就收集大批量的数据然后在这个数据的情况下来去探究所有任务的这个 scale 的这个效应什么的其实当然是很难的但是也有工作其实不同的任务已经把它就是尽可能的比如说皈依化形式就是变成一种补全的或者是一种生成的

我觉得这个还是值得肯定的你说要像大模型那样做到涌现的话我觉得还是有很多不一样的地方就是不管从数据形式还是从模型形式上都是需要去进一步探索比如说它其实大模型之前的话它是有很多流派比如说这个 Encode Decode 或者是 Decode Only 对像这种它其实有很多范式最后探索出来之后发现这个 Decode Only 这种形式会更好一点

那其实到 CV 这块也是就它现在其实不同范式就比如说扩大模型这块的这个不同范式它可能也会有变化但最后怎么把它统一起来哪个方式更好还是目前没有人探索在 CV 这块做大模型呢很多时候它不是做 diffusion model 的对然后做 diffusion model 它其实它可能不做不关心这个大模型的这个事情它可能更关注双款这个事情所以 CV 这块它其实就做着想把这个事情给它做好的话它可能也需要这两拨人来去做一下交叉融合这样对

因为 CV 的话人物太多了明白明白接下来我想聊另外一个概念就是在 GP4 推出了之后给大家又普及了一个东西叫做多模态大模型那多模态其实它也可以分为是这个两个环节一个是多模态的认知和多模态生成的环节

所以 GPD-4 我们可以理解它是一个有多么它认知能力但是它生成出来的东西是单模态的也就是说它可以理解你输入的图片视频和文字

但是它只能输出文字那我想了解的就是说在这个多模态的大模型的这个研究里面其实像扩散模型和代言模型它们是怎么一个协作的机制然后它们是怎么被串联起来的是这样的就是你刚刚说那个多模态认知多模态认知的话它其实这块本质上还是说我在大模型的这个

比如说现在大模型很可能就是作为一种任务规划器这样比如说我需要什么模型然后我就直接把它拿过来用对然后它会规划这样怎样的一个一步一步去解题的这个过程然后动模态认知也就是说我们在这个解题的这个过程当中我们接收不同模态的输入然后调用相应模态的这个领域的模型然后来去 handle 相应的问题最后给它

给它整合起来然后最后输出我们需要的答案那其实这个输出的话其实没有涉及到多么太但比如说要到一些复杂的任务比如我给你一张图片然后我再给一段文字然后我说这个图片上描述的是什么然后你能不能把这个图片或者视频当中一些东西给它改了

生成新的东西再给我一壶对对对这种其实是非常符合我们日常的一些需求的面对这种多模态这个生成的这种任务的时候这时候我觉得可能就需要像扩散模型或者是其他生成模型然后来去做介入其实目前因为现在 CVD 化效果最好的这种其实是扩散模型嘛

所以我们大模型其实需要扩散模型来去做多模态的生成的有一些工作已经探索了这块它会把扩散模型作为一个重要的插件然后来去调用对图片对多模态输入的内容进行一些编辑或者是一些生成这些效果还是比较乐观的再往后的话其实我觉得大模型怎么样更好的与扩散模型进行结合的话我觉得比较本质的是说它两者能够结合的更加紧密

以至于说两者是否能够完全融为一体对其实扩散模型这块它目前已经有有一项工作已经探索这个事情也就是说它能够同时接收动模态输入然后并做动模态生成就已经开始有人做这块任务了就但是他们目前这个任务他做的还是比较比较浅其实他就涉及到一个 image caption 或者是这个 test image 就是把一些比较极客简单的任务来去做着做了一个整合然后发发现扩散模型是能做这个事情的对

但是比方再往后我们要去做更多的这种更复杂的任务的话那这时候就是参数量是一定要变大了那这时候是否会产生像这个这种 NLP 当中大模型的这种影片现象我觉得还是值得关注的所以像多模态的话你觉得它是到了一个理论上被验证可行只不过现在要去做一些工程化的工作再去

再去把它 scale up 还是说理论验证也还没有完成我觉得我们目前做的话还处于一个就是早中期吧我觉得就是已经有一些成果了对但是还不够因为其实涉及到多模态的话其实是多于一之间的一个

比如说目前他们处于一个早中期的原因是因为他们发现这种范式是可以用的能在一些 Task 上做的还比较不错但是比如说如果涉及到非常复杂的场景就是你输入的文本或者它的要求非常复杂的时候然后你输入的图片或者是 Video 的信息也很复杂的时候那我怎么样去能够完美地把这个任务给它做好

那其实这个时候就涉及到这个文本和生成的这个图片或者是 video 的一个之间的一个语义之间能否很完美的对应上那

那这时候的话我需要对语意信心进行一个很好的对齐其实目前要求还是比较高的因为从原来的那种东摩泰之间的一个识别的话他们也没有达到百分之百就是说我就给你一个文本再给你一个图片或者是 video 你去把我这两个就能否找到相对应的这种摩泰之间的这个关联其实这种的话他们也没有办法做到百分之百所以说你再到这个东摩泰深层这块的话

肯定是有非常大的这种差距的所以他们目前做的话也就是一些比较简单一点的任务所以说处于一个早中期可行但是还没有完全做好你刚才说的这个比如说不同信息之间的关联是不是就类似于 OpenAI 推出的那个叫 Clip 的那个模型就是它把文字和

图像做关联你刚刚说其实这种它的我的理解是说咱们今天之所以能有什么文生图这种产品上的应用就是因为这个里边也欠了 clip 但是你刚才讲的是说是不是这类模型它本身它的能力也还有待提高

我认为纠正一点就是其实 Clip 的话它本身对于扩散模型的话它只是一个帮助对就是说纹身图的话它只是说能够帮助它更好的去深深比较 match 的但是如果没有它的话也是可行的对本身扩散模型的做 conditional generation 的时候它其实能够自然的对于进行一个对齐 Clip 只是说帮它缩短了这个过程

再说我刚刚说那个事情的话其实跟你说的意思是一样就是说如果我们想做好的话那肯定是预先先把这个鱼堆起但是目前的结果是说遇堆起的话就没有办法把它做到 100%那我们在生成过程中再做 100%是不现实的因为它有个无差累积的过程你刚刚还提到一点我非常好奇的就是

扩散模型它自己本身在其他的一些新的场景的应用其实你书里面是有讲到数据建模然后包括我们前面讲的多模态但是医药研发这个是让我觉得最有趣的你可不可以展开给我们讲讲比如它具体是应用在哪个环节然后是怎么个应用方法先说医药研发医药研发这块的话它

比如说我们正常的一个研发流程是呃前期的一个结构探索也就是说可能大家在这个实验室里面探索个两年三年这样然后先把一个初步的一个药物分子的一个结构探索出来之后然后交给一些人去合成嗯合成结构之后然后我们来再到下游去做一些呃

生物实验对可能需要个一两年这样再到临床实验再到最后出样可能整个流程下来这个短则五六年然后长则八年十年这样都有可能对所以说这个医药研发的这个成本这个时间成本是非常高的那扩散模型在目前在这个医药研发这块为什么这么火呢就是因为

你可以看到国内外很多大的一些研究公司其实都现在在做这个事情因为前期的分子结构的探索就是说最初的分子结构探索的过程我们是可以通过这种自动化的流程也就是说

扩散模型这种或者是这种其他生成类模型这种深度学习方式然后把它大导缩短比如说我们可能原来两三年都流程我们现在只需要一个两个月或者是半年对大导缩短了它这个研发时间的成本所以目前大家是非常看好这个方向的像扩散模型这块它可以进行这种创新性的这种提升比如说它可能生成一些我们这个之前这些人都不知道的这种分子结构

所以目前扩散模型在 110 的话是在前期的

分子发现阶段对然后再到一些其他领域的话比如说像生物也就其实也是属于这方面的生物中还是比如说蛋白质结构的一些探索对比如说它之前我们看到 alpha fold 它其实是基于这种 transformer 然后来自于这种蛋白质对三维结构这种预测其实这个 diffusion model 的话也是可以去做这个任务就算模型本身的话我觉得它的使用性实际非常强的就怎么样把它能够和

各种产业进行结合然后形成这种大规模的应用我觉得还是挺有意思的比如说我觉得个人觉得比较有意思的一方面就是比如说像那些游戏人物的一些生成或者是像这种游戏当中一些背景或者是一些或者电影当中一些场景的一些生成其实都是非常吸引人的对我知道现在很多游戏公司都开始招做扩散模型研究或者工程的这样的人员而且是高级在聘所以这个一定是个趋势

最后再小八卦一下因为我知道你的团队就是跟 OpenAI 还有 Meta 包括刚刚说的 Sanford 他们其实都有非常长期的这个科研的合作国外的那些其实他们都比较喜欢这种前沿的方向像这些我刚刚说的生物医药或者是这种包括生成是模型中本身的探索以及新型的这种应用其实这个他们都是非常关注的那在扩散模型这块你觉得

比如咱们就如果具象一点来说就中美之间的这种研究的差距大吗从扩散模型来看的话

感觉其实差距没有特别大因为扩散模型本身是有一个很强的理论基础的然后我们国家的话其实在数学这块还是有很深的积累大家普遍对这个了解的话还没有那么难其实大家上手还都比较快所以基本上从研究这块来看的话其实基本上处于一个差不多平行的状态但是从应用来看的话其实还差别不小因为比如说很多一些实际应用的公司像刚刚说的 Midgenic 是一种玩意

还有像一些有些人已经把它做成像电影片段的生成或者是像一些有新型的这种应用它其实很多都是从国外的面前出来的因为他们在这个和应用结合上会更为紧密的我们这边发的文化的还挺厉害明白没关系希望你的这本书有多一些的受众的话其实也是

希望我们的整一个的产品化的落地还有应用也可以更快因为大家其实就不用觉得说这个东西是非常特别前沿的东西虽然它有前沿的部分可是它也有马上能够发挥你的想象力

让你的产品有更多可能的这样的一个可落地性它确实是有的当时在写论书的时候就考虑到这个问题就是觉得我们这块在应用这块的一个结合观众还是不够多所以就是在应用呢就尽可能把所有知道的应用和扩散模型的相关的一些应用都写上去了大家可以去看一看基本上包含了现有的这些

所有的这些应用都在里面好的好的非常感谢杨玲今天的时间然后最后也是对再帮她广告一下这本新书叫做扩散模型生成式 AI 模型的理论应用与代码实践大家可以去线上线下的平台都可以关注一下那我们今天就先到这里谢谢杨玲好谢谢谢谢主持人拜拜