听众朋友们欢迎收听最新一期的太快报我是主持人小爱大家好我是小屁很高兴又和大家在空中相会聊聊最近 AI 领域的新鲜事我最近发现咱们的人工智能真是越来越厉害了
各种模型层出不穷能力也是突飞猛进但是感觉这些模型也越来越胖了动不动就几十亿几百亿的参数这对算力要求也太高了吧普通人想用上这些先进的 AI 技术感觉还是有点遥远这问题问得非常好确实现在的大模型就像是 AI 界的巨无霸效果惊人但贩量也大部署和使用成本都很高
所以最近的研究热点之一就是如何给这些胖模型瘦身让他们更高效更轻便更好的服务于大众 AI 瘦身这个说法真形象那最近 AI 界有什么新的瘦身大法吗当然有而且还不少呢今天我就给大家带来几项最新的研究都是关于如何提升 AI 模型效率的可以算是 AI 界的瘦身秘籍了
听起来就很有意思快给我们讲讲吧好的我们先来看第一项研究题目是通过吸收字编码器进行多样性驱动的语言模型微调数据选择这个题目听起来有点专业能用大白话解释一下吗没问题咱们都知道训练大型语言模型需要海量的数据但是数据并非越多越好质量也很重要这篇文章就提出在微调语言模型的时候数据的多样性和质量复杂度一样重要
发现现在很多方法都忽略了数据的多样性数据多样性这个怎么理解呢你可以想象一下我们学习知识不能只看一种类型的书要看不同类型的书才能学得更全面更深入数据多样性也是这个道理
训练数据如果太单一模型的泛化能力就会受限这篇文章的创新之处在于他们用了一种叫做稀疏自编码器的技术来衡量数据的多样性稀疏自编码器听起来好高级它是怎么衡量多样性的呢
西数字编码器简单来说就是一种能够提取数据关键特征的工具研究人员用它来分析指令微调数据集看看哪些数据更具有代表性和多样性他们发现用西数字编码器提取的特征来选择数据能够更好的提升模型的性能
听起来好像很有道理,他们还提出了具体的方法吗?是的,他们基于西数字编码其提出了两种数据,选择算法分别叫做 SAE Droid Select 和 SAE Sim Scale。这两种算法就像是寻宝密集,能够从海量数据中挑选出最具多样性的宝藏数据,用于微调模型。实验证明,用这些方法选择的数据训练出来的模型效果比其他方法更多。
自编码
这个概念好像也挺长长的是的自编码器就像是一个压缩器和解压器可以将高维数据压缩成低维的潜在空间表示然后再从潜在空间中重建出原始数据潜在扩散模型像 Stable Diffusion 这些流行的图像生成模型就严重依赖自编码器来压缩图像降低计算量这篇文章就发现自编码器的扩散性非常重要但之前被大家忽略了扩散性这个又是什么意思
你可以理解为自编码器压缩出来的潜在空间要能够更好地配合扩散模型的工作如果扩散性不好就需要更复杂的扩散模型才能生成高质量的图像研究人员通过频谱分析发现现在的自编码器潜在空间中存在很多高频成分就像是噪音一样会干扰扩散模型的生成过程
那他们是怎么解决这个问题的呢他们提出了一种叫做尺度等电正则化的方法听起来很复杂但其实很简单就是让自编码器在不同尺度下保持重建结果的一致性从而抑制潜在空间中的高频成分提高扩散性实验证明用了这种方法微调的自编码器能够显著提升图像和视频的生存质量
听起来就像是给自编码器做了个降噪处理让它更好地配合扩散模型工作没错,可以这么理解接下来我们看第三篇论文题目是利用帧流技术设计参数高效和计算高效的扩散 TransformerTransformer
擴散模型,中流感覺關鍵詞好多這篇文章是關於如何設計更高效的擴散 Transformer 模型 Transformer 模型像 Dolly Sora 這些效果很強大但參數量也很大難以在手機、智能眼鏡這些邊緣設備上部署
这篇文章就探索了知识蒸馏技术来压缩扩散 Transformer 模型知识蒸馏这个技术好像听说过是让小模型向大模型学习吗是的 知识蒸馏就像是老时代学生让小模型学习大模型的知识从而在保持性能的同时大幅减少参数量和计算量
这篇文章系统的研究了模型深度宽度注意力投数等设计参数以及蒸馏设置对模型性能的影响先要能找到设计高效扩散 Transformer 模型的最佳方案他们有什么重要的发现吗他们发现模型深度和宽度
不能无限增加会存在边际效益递减现象最优的设计需要平衡深度和宽度他们还发现注意力投数也不是越多越好存在一个最佳平衡点更重要的是他们提出了一个设计高效扩散 Transformer 模型的经验公式可以指导我们如何在参数量受限的情况下设计出性能最佳的模型感觉像是找到了 AI 模型设计的黄金笔
那这项研究对我们有什么实际意义呢?意义非常重大,这意味着我们可以设计出更轻量级、更高效的扩散模型,让它们能够在边缘设备上流畅运行,比如在手机上用 Stable Diffusion 生成高质量的图像,或者在 AR 眼镜上实现实时的 AI 特效,这些都将成为可能。太让人期待了,那除了模型设计和压缩,还有没有其他提升效率的方法呢?当然,
当然我们再来看两篇关于大型语言模型推理加速的论文一篇是 L-SERV 另一篇是 ROCKET TV 这两篇文章都是聚焦于如何提升长序列大型语言模型的推理效率长序列是指处理很长的文本吗是的 像处理长篇文章 长对话就需要模型具备长序列处理能力但是长序列会带来计算量和内存的急剧增加成为推理效率的瓶颈
L-SERV 和 RockyKV 这两项研究就是针对这个问题提出的解决方案那他们分别是怎么做的呢 L-SERV 的核心思想是吸收注意力我们知道 Transformer 模型的注意力机制计算量很大特别是对于长序列 L-SERV 提出了一种混合吸收注意力方法就像是给注意力机制减肥只关注重要的部分忽略不重要的部分从而减少计算量
吸收注意力听起来有点像抓重点的意思是的
可以这么理解 Elsev 将注意力分为静态吸收和动态吸收两部分静态吸收就像是提前设定好的重点关注区域动态吸收则是根据输入内容实时调整关注的重点通过这种混合吸收注意力 Elsev 在长序列推理时能够显著提升效率同时保持模型精度那 Rocket KV 呢 Rocket KV 关注的是 KV 缓存的压缩
KV 缓存是大型语言模型在解码过程中用来存储历史信息的序列越长 KV 缓存越大内存开销也越大 Rocket KV 提出了两阶段 KV 缓存压缩方法第一阶段是永久性淘汰淘汰掉一部分不重要的历史信息第二阶段是动态选择在剩余的历史信息中在动态选择更重要的部分
通过这两阶段压缩 Rocket KV 能够在显著降低内存占用的同时感觉这两项研究都是在想方设法给大型语言模型减负让它们跑得更快更省资源没错 L-SERV 和 Rocket KV 就像是给长序列大型语言模型装上了涡轮增压和轻量化底盘
让他们在处理常文本时也能又快又稳实验证明这两种方法都能在保持模型性能的同时显著提升推理效率听起来这些瘦身大法都非常给力感觉 AI 的未来会更加高效更加普及是的这些研究都表明 AI 效率提升是未来发展的重要方向
通过数据选择模型优化推理加速等多种手段我们可以让 AI 模型变得更轻便更高效更好的服务于各行各业甚至走进千家万户非常感谢小 T 今天的精彩分享感觉又学到了很多 AI 前沿知识听众朋友们如果想了解更多关于这些研究的细节可以关注我们节目文稿中的论文链接也欢迎大家在评论区留言分享你对 AI 效率提升的看法和期待
好的感谢大家的收听我们下期节目再见下期见拜拜