We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:离散扩散模型大提速,语言模型做加法的秘密

AI前沿:离散扩散模型大提速,语言模型做加法的秘密

2025/2/10
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小 T
小爱
Topics
小T: 扩散模型就像逆向橡皮擦,通过先将图像转化为噪点,再逐步擦除噪点来还原图像。离散扩散模型则专注于处理如文字等离散数据,而当前研究的核心在于如何提升这类模型的运行速度。我发现,在追求模型速度时,不能仅依赖于增加计算资源,更应注重方法。一些看似精确的方法,在高维模型中可能效率不高,反而是近似方法更为实用。 小爱: 离散扩散模型专门用于处理诸如文字之类的离散数据。研究表明,新的求解器在相同的计算量下,能够生成质量更高的样本。高阶方法就像是升级版的交通工具,能够一步到位,从而提高速度。

Deep Dive

Chapters
本期节目首先介绍了利用高阶数值求解器提升离散扩散模型采样速度和样本质量的研究。该研究提出两种高阶算法,显著提升了模型效率,在保证精度的前提下减少计算步骤。
  • 提出θ-RK-2和θ-梯形法两种高阶数值求解器
  • 高阶算法在文本生成和图像生成任务上表现亮眼,生成质量更高
  • 在高维模型中,近似方法比精确方法更实用

Shownotes Transcript

听众朋友们大家好欢迎收听最新一期的太快报我是小爱大家好我是小 T 又和大家在空中相会了小 T 感觉最近 AI 领域的新东西是层出不穷每次看论文都感觉像在做火箭信息量爆炸

是这波我们今天又为大家精心挑选了五篇最新出炉的 AI 论文各个方向都有保证让大家耳目一新从让 AI 模型跑得更快到让 AI 学会更巧妙的算术再到用化学方法构建 AI 内容绝对硬核又有趣听起来就非常令人期待那我们赶紧开始今天的快报吧第一篇研究是关于什么呢我们先来看第一篇论文题目是离散扩散模型的快速求解器

高阶算法的理论与应用扩散模型听起来有点耳熟是最近很火的图像生成技术吗没错像最近大家看到的各种 AI 绘画很多就是用扩散模型实现的简单来说扩散模型就像一个逆向相皮擦它先把图像变成一堆噪点然后再慢慢擦除噪点恢复成清晰的图像这个比喻好形象

不过离散扩散模型又是什么意思呢?扩散模型处理的数据可以是连续的,比如图像也可以是离散的比如文本离散,扩散模型就是处理像文字这样离散数据的模型这篇文章关注的是如何让离散扩散模型跑得更快怎么提速呢?关键在于球解气你可以把球解气想象成模型推理过程中的计算方法

之前的模型常用的是欧拉方法这种一接方法就像走路一样一步一步慢慢挪而这篇文章提出了两种新的高接求解器叫做 Sita Launch, Kuta 二方法和 Sita 梯形法听名字就感觉很厉害高接听起来是能一步迈更远吗可以这么理解高接方法就像是升级版的交通工具比如从自行车换成了汽车一步顶好几步速度自然就上去了

文文證明他們提出的西塔 T 型法在理論上是二階收斂的西塔 RK 二方法也有條件的達到二階收斂這意味著在保證精度的前提下可以大幅減少計算步驟從而加速採樣過程聽起來就像既要馬跑得快又要馬不吃草效果怎麼樣呢?實驗結果非常亮眼在文本生成和圖像生成任務上與現有方法相比

新的球解析在相同的计算量下能生成质量更高的样本比如文本生成困惑度更低图像生成 5D 值更优太棒了那这项研究有什么启发呢这项研究告诉我们在追求 AI 模型速度的时候不能只想着大力出奇迹也要讲究方法就像解数学题一样用对方法事半功倍而且他们还发现一些看似精确的方法在高维模型中反而效率不高

反而是近似方法更实用这其实有点反直觉但很有道理确实很有意思感觉 AI 研究真是充满了各种精巧的思路那我们来看第二篇论文吧第二篇论文题目是 F 反度生成的损失函数与算子

这篇论文是关于改进机器学习中的损失函数的损失函数这个概念我好像听过但不太明白是做什么的你可以把损失函数想象成 AI 模型的导航仪模型在学习过程中需要知道自己做的好不好错在哪里然后才能不断改进损失函数就是用来衡量模型预测结果和真实结果之间差距的标尺

差距越大,损失越大,模型就需要调整参数来减小损失那常的损失函数是什么呢?最常用的就是 logistic,logistic 也叫交叉商损失这篇文章就是以它为基础进行了推广和扩展他们用更广泛的 F-散度来代替 KL,散度构建了一类新的损失函数框架散度,听起来好抽象

你可以简单理解为 F 散度是衡量两个概率分布差异程度的一种更通用的方法 KL 散度只是其中的一种特例

通过使用不同的 F 散度,我们可以设计出各种各样新的损失函数,就像工具箱里有了更多种类的工具。工具多了有什么好处呢?好处就是更灵活,能更好地适应不同的任务和数据。《问问》中作者还为每种 F 散度推导出了一个对应的 F,Safetagrexans。

这个算子可以把模型的输出转换成概率他们还设计了一种高效的算法来计算这个算子听起来好复杂那实验效果怎么样呢实验结果表明由α散度α等于 1.5 生成的损失函数在图像分类语言模型预训练等多个任务中表现都很好甚至超过了标准的交叉伤损失哇那这不就意味着我们有了一种新的更强大的损失函数可以选择了吗是的

这项研究为我们打开了损失函数设计的新思路也为提升模型性能提供了新的工具感觉 AI 研究真是不断在突破边界接下来我们看第三篇论文题目是语言模型用三角函数做加法这题目也太有趣了吧是不是很反直觉研究人员发现大型语言模型竟然是用三角函数来做加法三角函数 SingCos 那些吗加法不是小学生都会的算数吗这怎么联系起来了

这就是这篇论文最有趣的地方研究人员发现语言模型在内部表示数字的时候用的是一种叫做广义螺旋的形式

你可以想象一个弹簧或者 DNA 的双螺旋结构数字就被编码在这个螺旋的形状里螺旋 这怎么理解呢你可以想象每个数字都对应螺旋上的一个特定位置然后当语言模型做加法的时候它就像是在操作这些螺旋把两个螺旋叠加起来得到一个新的螺旋这个新的螺旋就代表了加法的结果这个太神奇了吧那时钟算法又是什么

時鐘算法就是他們提出的語言模型執行加法的具體步驟你可以想像一個時鐘加法就像是時針在錶盤上轉動模型通過操縱數字的螺旋表示就像波動時針一樣最終得到答案感覺像是給語言模型的大腦做了一次 CT 掃描看到了它內部的運作方式

没错,这项研究的厉害之处在于,它不仅仅是停留在模型能做什么的层面,而是深入到模型是怎么做的,这个层面它揭示了语言模型在处理数学问题时,可能使用了我们意想不到的连续和几何的原理。

真是太颠覆认知了感觉对语言模型的理解又加深了一步接下来我们看看第四篇题目是通过图灵完备 Computer 实现操作通用性 Computer 什么听起来像是化学领域的计算机你的直觉很敏锐 Computer

顾名思义就是《化学计算机》这篇论文探讨的是如何用化学方法构建一个图灵完备的计算机图灵完备这个概念我好像在科幻电影里听过是指图灵完备性是计算机科学中的一个重要概念简单来说如果一个系统是图灵完备的就意味着它理论上可以执行任何计算机可以执行的计算任务比如我们现在用的电脑手机都是图灵完备的

用化学方法实现图灵完备这怎么可能呢化学反应也能像计算机一样进行计算吗这就是这篇论文的创新之处他们提出通过一个叫做 Campotter 的自动化学合成平台结合一种扩展的化学描述语言 Playo 就可以实现化学系统的图灵完备性 Campotter 语言是做什么的

Timelow 是一种用来描述化学合成步骤的语言为了实现图灵完备性研究人员扩展了 LCL 让它支持条件执行功能就像编程语言里的 If-It-Self 语句一样 Compatible 可以根据实时的化学反应结果比如溶液的颜色变化来决定下一步的合成步骤溶液颜色变化也能作为信息输入

是的,它们用小屏中溶液的色域来表示数据不同的颜色组合代表不同的数据状态 Computer 通过检测颜色变化来读取信息并根据预设的程序进行化学反应听起来像是一个化学版的自动驾驶系统非常形象它们还在 Computer 上成功模拟了图灵机的运行解决了忙碌的海力问题和二进制加法这两个经典的图灵机问题

太酷了那这项研究有什么意义呢这项研究最大的意义在于它为化学合成的自动化和智能化开辟了新的道路如果 computer 真的能实现图灵完备性那就意味着我们可以用程序来控制化学反应设计出更复杂更精密的化学合成过程

这对药物研发材料科学等领域都将产生深远的影响感觉未来化学家也要变成程序员了最后我们来看今天的第五篇论文 Token 混合混合潜在 Token 和文本 Token 改进语言模型推理这个潜在 Token 又是什么新概念

这篇论文关注的是如何提升语言模型的推理能力我们知道现在流行的思维链 Culti 方法能有效提升语言模型的推理效果思维链我知道就是让模型一步一步地写出思考过程就像解数学题一样是的

但思维链也有缺点就是推理过程太长计算量大这篇论文就提出了一种新的方法叫做 Token 混合简单来说就是把推理过程中的一部分思考步骤用潜在 Token 来代替潜在 Token 是压缩版的 Token 吗

可以这么理解他们用一种叫做 VQVEV 的技术把推理过程的初始步骤压缩成离散的潜在 Token 这些潜在 Token 就像是速记符号用更少的 Token 就能表达更多的信息

那混合 token 是怎么个混合法呢?在训练模型的时候,他们会随机的把文本 token 和潜在 token 混合在一起这样模型就能学会同时处理这两种 token 并利用潜在 token 来提高推理效率效果怎么样呢?实验结果显示,token 混合方法在多个推理基准测试中都超过了之前的基线方法

而且在提升性能的同时还减少了推理轨迹的长度,提高了 token 效率听起来像是在保证推理质量的前提下给推理过程做了个瘦身是的,这项研究的亮点在于它提出了一种简单而有效的方法来提升语言模型的推理效率而且它也告诉我们在处理复杂任务时可以尝试用混合表示的方式结合不同类型的 token 的优势来达到更好的效果

今天这五篇论文真是干货满满,信息量巨大,感觉 AI 研究的各个方向都在快速发展,不断给我们带来惊喜。是 AI 的未来充满了无限可能。今天的太快报就到这里了,感谢大家的收听,我们下期再见。下期见,拜拜。感觉今天的太快报信息量满满,收获很大,感谢各位听众的收听,我们下期再见。下期见,拜拜。