欢迎大家收听本期的太快报我是小爱大家好我是小 T 今天我们会聊五篇新鲜出炉的论文准备好了吗咱们马上开聊先从图像生成说起吧我听说现在 AI 画图已经快到飞起到底是怎么做到的
对,这就说到第一篇论文《Inductive Moment Matching》,也就是归纳具匹配传统的 AI 生成图像比如用扩散模型的一步步磨出细节,几十百步才能出一张图,慢得像乌龟爬但这篇论文提出了一种新方法,叫做 IMP Bound,它们让 AI 在几步之内,甚至一步就生成高质量的图像
一步生成这听起来有点像魔法原理是什么?其实没那么玄乎,想象一下你在做蛋糕,传统方法是把面粉鸡蛋糖一点点揉在一起慢慢烤出来,但 Ethian 就像有个超级智能厨师,他能直接看懂蛋糕的样子,然后用一个大模具一次性压出来,这个模具是怎么来的呢?
它通过一种叫做聚匹配的数学方法分析数据的分布特性再用随机差值器把时间跳跃的过程简化结果呢在 ImageDiag 数据集上它只用 8 步就达到了 3.5 的 5D 分数
这个分数越低说明图像越逼真那跟以前的方法比有什么特别的地方最大的亮点是它不需要预热以前的少部生成模型比如一致性模型的先训练一个大模型再费劲的蒸馏成小模型过程复杂还容易翻车
而 IMM 直接从零开始训练又快又稳论文还证明了一致性模型其实是 IMM 的一个特例但 IMM 更聪明能保证分布收敛不容易出错听起来很实用那以后我们用 AI 画图是不是就能秒出了
差不多是这样比如你在手机上点一下几秒钟就能生成一张艺术画效率高到可以直接用在实时应用里比如游戏设计或者视频特效不过它现在主要在图像领域发力未来能不能用到音频视频生成怕的再看看真期待看到这些技术落地那接下来呢
第二篇论文 Ideas in InferenceTime Scaling Can Benefit Generative Pre-Training Algorithms 也很带劲他提出一个新思路与其只盯着训练怎么优化不如先想想推理阶段怎么更高效推理阶段是指 AI 生成东西的那一刻吗没错
传统生成模型分两大派自回归模型像写文章一样一个字一个字蹦出来还有扩散模型像刚才说的慢慢磨细节这篇论文说这两派都卡住了创新停滞于是他们建议从推理优先的角度设计算法重点解决两个问题一是序列长度比如生成长文章要快二是细化步骤比如图像生成少走几步有点像倒推法先定好目标再找路子
对极了他们拿扩散模型的一个采样器 DXM 举例说它效率不高因为没考虑目标时间簿他们建议把这个时间簿加进去让模型更聪明还提到多 token 预测模型也有问题假设太简单没能抓住复杂的联合分布
而 IM 就是刚才那篇的主角就被他们当成了推理优先的成功案例所以这是在给未来的 AI 研究指路是的作者呼吁别老盯着训练数据堆多大而是想想怎么让推理更快更强他们相信这样能解锁多模态数据的潜力比如让 AI 同时生成文字图像
声音打造真正的全能选手这样我想到未来的 AI 会不会像个超级导演一秒拍出一部电影有可能不过现在还得一步步来先把基础打好接下来聊语言模型吧我听说 AI 现在能自己上网找答案了
对第三篇论文 Search R1 TrainingLMS to Reason and Level a Search Engine with Reinforcement Learning 就盖了这件事他们用强化学习训练语言模型让他学会一边推理一边用搜索引擎找资料这不是像我们查百度一样吗 AI 怎么学的
那效果怎么样?
很惊艳在问答任务上小模型千万 2.53b 提升了 21%大模型千万 2.57b 提升了 26%他还能多轮搜索比如发现答案不够完整就再查一次自己验证这种交织推理和检索的能力让 AI
回答复杂问题时更靠谱那以后我们问 AI 问题是不是就不用担心他胡说八道了至少能少胡说一点不过强化学习也有成本训练费持费力而且奖励设计还比较简单未来可以更精细化再聊个接地气的听说 AI 也能减肥了
对第四篇 Iterative Recovery Edible Reduction 就研究怎么把大圆模型瘦身他们提出一个新方法能剪掉模型里不重要的部分还几乎不影响性能剪掉还能用这怎么做到的就像给房子做精装修把不必要的隔墙拆了但保留承重墙他们用迭代剪织先找哪些层不重要剪掉后再用一点数据恢复模型神奇的是只用了
250 万 token 的数据相当于几本小说的量真的让模型恢复甚至更好效果如何在来码 3.18 币和千万 2.57 币上比其他方法强 3%尤其在语言理解任务上提升了 5%更厉害的是用英文数据恢复后多语言能力也没丢甚至还有提升那是不是以后手机上也能跑大模型了很有可能这种方法让模型更轻便适合放进手机车载设备里
不过他对知识密集任务的保留还有点弱比如问专业问题时可能会掉链子最后说点刺激的听说 AI 团队里可能会出叛徒对最后一篇 This is your dodge if it please you 研究的是多模型协作系统里的安全问题他们发现把几个语言模型组合起来虽然性能强但只要混进一个捣乱者整个系统就可能崩捣乱者怎么捣乱的
比如故意给错答案他们测试了一个叫 MORR 的架构正常情况下性能很好但加一个欺骗性 agent 后准确率暴跌比如在问答任务上从 49.2%掉到 37.9%选择题里更是跌了 48.5%这就像团队里有个内鬼专门拖后腿
那怎么防他们从威尼斯选举制度里找灵感设计了几种防御方法比如 Dropout and Cluster 随机丢掉可以答案在剧内筛选效果不错能恢复大部分性能这样我想到 AI 安全真是大事尤其在医疗法律这些地方
完全同意论文也提醒我们 AI 越强大安全越不能忽视未来的多花心思防内鬼今天的 AI 之旅真是脑洞大开从图像生成到语言推理再到安全问题每一项都让人觉得未来可期好了本期太快报到此结束咱们下期再见下期见拜拜