cover of episode 作者拆书 | 解密妙鸭相机背后的扩散模型

作者拆书 | 解密妙鸭相机背后的扩散模型

2023/8/25
logo of podcast 先见未明

先见未明

AI Deep Dive AI Chapters Transcript
People
杨玲
老王
Topics
老王:目前AIGC领域存在两大生成式模型,分别是ChatGPT背后的的大语言模型和妙鸭相机背后的扩散模型。理解二者的概念区分至关重要。 杨玲:扩散模型与大语言模型源于人工智能领域不同的分支。扩散模型通过对真实数据加噪再进行去噪生成,学习数据本质的关联,擅长处理各种模态的数据,尤其在图像、视频等复杂数据的生成上表现出色。而大语言模型基于mask prediction机制,在自然语言处理方面具有优势,但扩展到3D、视频等领域仍面临挑战。扩散模型学习的任务更难,但学好后的效果也会更好。 老王:扩散模型和大语言模型来自人工智能领域不同的分支,生成机制不同,应用方向和实现方式也不同。

Deep Dive

Chapters
本部分介绍了扩散模型的概念,并将其与之前的生成模型(如VAE和GAN)以及大语言模型进行了比较。扩散模型是一种多步的编码自编码器,其生成效果比VAE更逼真,理论性也比GAN更强。它与大语言模型的区别在于,扩散模型可以处理各种模态,而大语言模型目前主要应用于自然语言处理领域。
  • 扩散模型是一种多步的VAE,生成效果比VAE更逼真,理论性也比GAN更强
  • 扩散模型可以处理各种模态,而大语言模型目前主要应用于自然语言处理领域
  • 扩散模型的生成机制与大语言模型不同,它通过对真实数据加噪再降噪来学习数据本质,而大语言模型基于mask prediction

Shownotes Transcript

AI在人类世界的应用,从理解、识别拓展到生成,离不开模型的进步。当下热门AIGC产品背后,主要有两类生成式模型:大语言模型,源自AI的自然语言处理分支,代表产品ChatGPT;扩散模型,源自计算机视觉分支,代表产品妙鸭相机。

本期请到新书**《扩散模型:生成式AI模型的理论、应用与代码实践》的作者杨灵**,带我们入门这个适配场景极丰富(远不止于图像)的模型。

*感谢出版社友情赠书!评论区留言,先到先得。

【本期嘉宾】

杨灵 | 《扩散模型:生成式AI模型的理论、应用与代码实践》)作者

【时间轴】

02:22 什么是扩散模型?与早期生成式模型、大语言模型的区别

09:58 都是AI,过去的美图秀秀P图和今天的妙鸭,技术有何差别?

12:20 如何基于扩散模型开发你自己的“妙鸭相机”

14:18 扩散模型生成速度慢,有什么解法?

18:40 视觉生成模型很难效仿语言模型的大力出奇迹

22:34 多模态还处于早中期,要解决数据间的语义对齐

28:08 扩散模型在生物医药领域是新宠

30:52 中、美在研究上基本平齐,落地应用上有些差距

【很高兴认识你】

散装智能,一档有人情味的科技播客。我们寻找科创和商业的交叉点,挖掘真价值,讲好真故事。

想交流?想表达?微信添加ziyuanao,或关注公号:散装智能