听众朋友们大家好 欢迎收听最新一期的太快报 我是主持人小爱大家好 我是小 T 很高兴又和大家在太快报见面了小 T 今天我们要聊点什么新鲜的 AI 研究进展呢我看了一下今天的材料 信息量好大 又是效率提升 又是精度突破还有什么深度诅咒和人机对齐 感觉每个话题都很有意思 但又有点烧脑
没错 今天的几篇论文确实都挺太前沿的而且涵盖了 AI 研究的几个重要方向我们今天就来一起抽丝剥茧用大白话聊聊这些看似高深的研究看看 AI 领域最近又有什么新进展又遇到了什么新挑战好嘞 那我们就先从哪个开始呢我看第一个标题挺有意思自回归模型也能填空题这说的是什么
自回歸模型不是一直挺厲害的嗎
像我们平时用 AI 写作不都是用这种模型吗为什么它做不了填空题呢这就是个很有意思的点自回归模型它就像一个顺风耳只能根据前面的内容预测后面的一步一步往下走你让它填空它就有点懵因为它看不到空后面的内容没法双向理解上下文
就像考试的时候我只能看到题目已经写出来的部分看不到后面的提示那确实有点难对 但是填空题其实在很多场景下都很有用比如你想编辑一段文字中间想改几个词或者你想让 AI 帮你补全一段对话
填空能力就很重要了之前能做填空题的主要是像 Bert 这样的研磨语言模型但这类模型在生成效率上又不如自回归模型那这篇论文是怎么解决这个问题的呢他们有什么高招他们提出的方法叫做 Maria
听起来像个人名其实是研码语字回归填充架构的缩写他的思路非常巧妙也很简洁他们没有重新设计复杂的模型结构而是把预训练好的字回归模型和研码语言模型嫁接到一起嫁接吗
哇 听起来有点像左右脑协同工作的意思
那效果怎么样呢真的能让自回归模型做填空体了吗效果相当惊艳实验表明 Maria 在填空任务上不仅超过了之前最先进的扩散模型而且还保留了自回归模型高效推理的优点这就厉害了效率和性能都提升了扩散模型又是什么
听起来好复杂扩散模型是另一种生成模型最近也很火像 AI 绘画很多就是用扩散模型做的但扩散模型虽然生成质量高效率就比较低速度比较慢而 Maria 的厉害之处就在于它既能像扩散模型一样做好填空又像自回归模型一样跑得飞快那这个 Maria 听起来还真是个宝藏架构以后我们用 AI 做文本编辑或者对话补全的时候
是不是就能更快更好了很有可能而且这篇论文还提出了一些很有意思的训练和推理技巧比如产品初始化和模拟退火推理进一步提升了模型的性能和效率这项研究真的很有启发性他告诉我们有时候巧妙的结合现有模型的优点就能产生意想不到的效果嗯
感觉 AR 研究也像搭积木一样不断的组合创新那我们接下来聊聊一个论文吧用正则化提高扩散模型性能这个正则化又是什么黑科技正则化其实不是什么黑科技而是一种很常用的模型减肥技巧就像我们人减肥一样模型有时候也会过拟合变得臃肿参数太多计算量太大效率就下降了正则化就像给模型结实让模型变得更精简
更高效模型也会过拟和听起来好拟人化你可以这么理解过拟和就是模型学的太死板了只记住了训练数据的特点泛化能力就差了正则化就是为了避免过拟和让模型学的更灵活一点那这篇论文是怎么用正则化来提高扩散模型性能的呢
他们主要是用了一种叫做 LE 正则化的方法你可以简单理解为这种正则化方法会鼓励模型学习吸收的特征吸收特征听起来有点抽象你可以想象一下我们描述一个图像比如一张猫的照片其实只需要关注猫的轮廓眼睛鼻子这些关键特征其他背景信息就可以忽略吸收特征就是指这种关键的有代表性的特征 LE 正则化就能让模型更多的
关注这些关键特征减少对冗余信息的依赖从而降低计算复杂度提高效率原来如此那效果怎么样呢用了正则化扩散模型真的变快了吗是的实验证明通过正则化扩散模型可以在保证甚至提升生成质量的同时显著降低计算成本尤其是在采样阶段也就是生成图像的时候速度可以快很多
而且正则化后的模型生成的样本也更均衡更自然不会过度平滑听起来真不错那这个正则化方法以后会不会成为扩散模型的标配呢很有可能毕竟效率和质量都是非常重要的而且这篇论文还从理论上证明了正则化可以降低扩散模型对输入维度的依赖让模型的计算复杂度更多的取决于数据的内在维度这在理论上也是一个很大的突破这项研究也启发我们
正则化不仅可以提高模型的泛化能力还可以作为一种提升生成模型效率的有效工具感觉 AI 研究真的是在不断追求效率和性能的平衡接下来这个俄罗斯套娃量化又是什么新奇的概念听名字就感觉很有意思俄罗斯套娃量化确实很有画面感
量化你可以理解为模型压缩的一种技术目的是减少模型的大小和计算量方便部署在手机或者其他资源受限的设备上模型压缩我知道就像把一个大文件压缩成小文件一样那俄罗斯套娃又是什么意思呢俄罗斯套娃的妙处在于它的嵌套结构传统的模型量化方法
如果要得到不同精度的模型比如 int8 精度 int4 精度 int2 精度就需要分别训练不同的模型这样就很麻烦要训练和维护很多个模型确实很麻烦那俄罗斯套瓦量化是怎么做的呢
俄罗斯套娃量化的核心思想是利用整数数据类型固有的嵌套结构训练一个万能模型你可以想象成一个大的俄罗斯套娃里面套着小的俄罗斯套娃小的里面又套着更小的一个模型就能同时支持多种精度级别比如 int8 int4 int2 甚至可以差值出 int6 int3 这种中间精度
一个模型顶好几个因为听起来好厉害那精度会不会下降很多呢这就是俄罗斯套娃量化最厉害的地方实验表明它在极低精度量化比如 MTR 精度上取得了显著的精度提升比传统的量化方法高出 10%
而在 int8 和 int4 精度上性能也和单独训练的模型相当 int2 精度都能提升这么多那以后我们用手机跑 AI 模型是不是就能更快更省电了很有可能而且俄罗斯套娃量化还提供了非常灵活的精度
成本 成恒方案你可以根据不同的硬件和资源约束选择最合适的精度级别而不需要重新训练模型这项研究真的为低比特量化打开了新的大门感觉 AI 模型越来越经济适用了那我们再来看看第四个
大型语言模型的深度诅咒这个诅咒听起来有点吓人深度诅咒其实没有那么可怕它只是一个形象的比喻这篇论文指出在大型语言模型中模型越深深层的效果反而不如浅层而且深层对模型的贡献很小甚至可以减掉或者扰动模型性能也不会受到太大影响
i 深度不是深度学习的优势吗模型不是越深越强大吗怎么会深层反而没用了呢这就是深度诅咒的反直觉之处论文的研究表明前层皈依化 pre-layered normalization 是导致深度诅咒的罪魁祸首前层皈依化又是什么感觉今天好多新名词皈依化你可以简单理解为一种稳定模型训练的技术
前层皈依化就是在 Transformer 模型的每一层前面都加一个皈依化操作虽然前层皈依化确实能让模型训练更稳定但它也会导致一个问题就是随着模型深度的增加模型的输出方差会指数级增长输出方差指数级增长听不懂太专业了你可以简单理解为模型深层的信号变得越来越模糊越来越趋同失去了区分性
这样深层就学不到什么有用的东西了对模型的贡献就越来越小甚至变得无效原来是这样那他们是怎么解决这个深度诅咒的呢他们提出了一个非常简单但非常有效的解决方案叫做 layer known scaling 也就是层规一化缩放他们只是在层规一化的输出后面加了一个小的缩放操作把输出按深度的平方根倒数进行缩放就这么简单加个缩放操作就行了
是的,就是这么简单,但效果却非常显著。实验表明,layer-needle scaling 能够有效地控制输出方差的爆炸式增长,让深层重新变得有效。使用 layer-needle scaling 的模型在预训练和微调阶段都取得了明显的性能提升。哇,听起来有点像四两波清津的感觉,这么小的改动就能解决这么大的问题。
没错,这项研究也再次强调了规划技术在深度模型中的重要性以及简单而有效的创新往往比复杂的技术堆砌更有价值以后我们在训练大型元模型的时候可以试试这个 Larignum Scaling 说不定能有意想不到的惊喜
感觉 AI 研究真的是充满了各种奇思妙想最后我们来聊聊人与 AI 对齐这个话题吧这个听起来就感觉很高大上也很有挑战性是的人与 AI 对齐是当前 AI 领域最受关注也最具挑战性的问题之一简单来说就是如何确保 AI 的目标和价值观与人类一致让 AI
真正为人类服务而不是对人类造成威胁感觉这个问题好复杂涉及伦理哲学技术等等方面这篇论文是用什么方法来研究这个问题的呢博弈论方法又是什么这篇论文很有意思它用博弈论的视角来分析人与 AI 对齐的计算复杂性
博弈论你可以简单理解为研究策略互动的理论比如下棋谈判战争等等都可以用博弈论来分析这篇论文把人与 AI 的对齐问题看作是一个多智能体博弈问题多智能体博弈感觉够复杂了
其实也不难理解,你可以想象成人是智能体,AI 也是智能体,他们要在一个共同的环境中互动,完成一些任务,对齐的目标就是让 AI 的行为能够符合人类的偏好达成共识。那博弈论能分析出什么呢?能告诉我们怎么才能实现人机对齐吗?
这篇论文并没有直接给出实现对齐的具体方法,而是从理论上分析了对齐的难度和挑战。他们构建了一个新的博弈论框架,用来研究在不同假设下多个智能体,在多项任务上达成一致所需的计算资源和时间。听起来好学术,那结论是什么呢?对齐容易实现吗?
結論可能有點悲觀,論文的研究表明,即使在最理想的情況下比如假設 AI 是完全理性的計算能力無限地實現對其所需的時間也可能與任務空間的大小呈現性關係而在現實世界中,任務空間往往是指數級的
这意味着即使理论上良好的情况下实际操作也可能非常困难指数级那岂不是难如登天是的论文还证明了一个更令人沮丧的结论就是当任务或智能体的数量扩展到指数级时对其速度无法加快这意味着可扩展的对其可能存在内在的局限性听起来感觉 AI 对其真的是一个巨大的挑战那论文有没有提出一些比较乐观的方面或者一些可能的出路呢当然
有论文也分析了在哪些特定条件下对其在计算上可能更可行比如缩小任务空间大小和数量提高后验分布的可抽样性假设共同先验等等
这些条件虽然看起来比较理想化但也为我们指明了努力的方向感觉 AI 对齐真的是一个需要长期探索的难题不过了解这些挑战才能更好的应对挑战是的这篇论文从计算复杂性的角度为我们理解 AI 对齐问题的本质困难以及探索可行的对齐路径提供了重要的理论启示
下期见拜拜