大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,很高兴我们又见面了。第一篇论文听起来就很有意思,叫 On the Generalization of Language Models from In-Context Learning and Fitting a Controlled Study。
这个反转诅咒是什么,听起来有点像魔法。这个反转诅咒其实是语言模型的一个弱点,简单来说语言模型在学习某些知识后可能会死记硬背,没法灵活运用。比如,模型学会了 A 是 B,但你问它 B 是 A 是,它竟然答不上来。这篇论文发现这种问题在微调也就是针对特定任务额外训练模型时尤其严重,等等。
模型不是应该很聪明吗怎么连这种简单的反转都不会对这就是研究的重点论文用了一个很聪明的实验方法他们创造了一些假单词比如 flavor 和 group 等让模型学习这些没意义的关系排除于训练知识的干扰结果发现如果用上下文学习就是在输入里直接给例子
模型表现的很灵活能轻松处理反转或逻辑推理但如果用微调模型就像被锁住了泛化能力很差有时准确率接近零
这有点像学生死记应备课本但换个问法就懵了那他们怎么解决这个诅咒他们提出了一个很巧妙的办法用模型自己的上下文学习能力生成一些扩展数据比如让模型自己推理 A 是 B 可以推出 B 是 A 或者做逻辑推导然后把这些推理结果加到微调数据里结果呢微调的泛化能力大幅提升有时甚至比上下文学习还好
哇这就像让模型自己当老师教自己更灵活的思考这个方法有什么实际用处非常有潜力比如 AI 助手需要理解用户各种奇怪的提问方式这种方法可以让模型更举一反三而且它还能用在逻辑推理知识图谱等领域让 AI 更像人类那样灵活处理信息不过研究也提醒我们微调不能乱来的设计好数据不然可能会让模型变笨看来
AI 也有学习方法问题这让我很好奇接下来的研究是不是也这么有启发性绝对有第二篇论文叫 Walsall Steen Policy Optimization 讲的是强化学习的新算法专门用来控制机器人或复杂系统比如自动驾驶或核聚变反应堆核聚变听起来好高大上这个算法有什么特别的
他叫 WPO 核心是用了一种数学工具 Wasserstein 梯度流来优化 AI 的决策想象一下 AI 在玩一个游戏需要决定下一步怎么走传统方法要么很死板只选一个动作要么很随机靠猜 WTO 的厉害之处在于他能聪明的平衡确定和随机而且不用一些复杂的技术也能处理各种情况听起来有点抽象能不能用个例子解释一下
好,比方说你在玩一个机器人抓物体的游戏,传统方法可能让机器人总是抓同一个点或者随机试很多次。DPO 就像给机器人一个指南针,告诉他哪些动作可能更好,同时保留一点随机性去探索新可能。结果是他在复杂任务上学得更快更稳定,比如在高维任务里比其他方法快很多。那他具体厉害在哪能打败其他算法吗?
实验显示 WPO 在 Deep One 的控制任务上跟顶尖算法差不多甚至更稳而且在一个模拟和巨变的任务上它表现也很出色能自适应的调整策略不过它也有点挑剔需要一些额外的调餐
比如防止策略太固执未来如果能简化这些步骤它可能会广泛用在机器人游戏 AI 甚至能源管理上感觉这个 WPO 就像一个聪明的教练接下来是不是要聊怎么让 AI 跑在手机上第三篇论文 Galena deviceGPU inference for large generative models 听起来很酷真的能让我的手机跑大模型吗完全有可能这篇论文介绍了一个叫 ML Drift
的框架专门让大模型在手机笔记本这种弱设备上跑以前大模型动不动几百亿参数只能靠云端服务器现在 ML drift 让几亿甚至几十亿参数的模型在手机 GPU 上也能飞哇那是怎么做到的手机的 GPU 不是很弱吗对所以他们用了很多巧妙的优化其中最核心的是张量虚拟化你可以把模型的计算想象成一大堆积木张量虚拟化
就像把这些积木拆开灵活的重新拼装适配不同设备的 GPU 而且它们还能在运行时根据设备能力动态生成最优的计算代码听起来像给手机 GPU 量身定做了一套健身计划
确实他们还针对语言模型的两个阶段 预填充和解码用了不同策略比如预填充阶段寄生量大 他们用高效的量化方法解码阶段内存明显 他们就优化内存管理结果呢 在普通手机上跑 stable diffusion 或 8E 参数的来码模型速度比现有开源方案快好几倍 内存占用也少得多
这太实用了以后我能在手机上离线生成图片或聊天不用担心隐私泄漏了正是这样 ML Drift 支持各种硬件从安卓到苹果甚至笔记本的英特尔 GPU 未来 AI 助手图像生成工具可能都直接跑在你设备上省流量又安全不过它目前对专用硬件的支持有点局限比如英伟达的高端加速器用不了未来还有优化空间这让我对手机 AI 充满期待
接下来是啥?AI 的注意力机制。没错,第四篇是 Mix of Sparse Attention,提出了一种叫 MOSA 的新注意力机制,目标是让大模型更快,更省资源。注意力机制我知道这是 Transformer 的核心,但具体是怎么让 AI 更高效的?
好想象一下 Transformer 在处理一句长句子时会让每个词都看其他所有词,计算量是平方级的,超级费力 MOSA 的创新是让每个注意力头只关注几个最重要的词就像你在开会时只听几个关键发言人结果计算量大幅降低还能用省下的算力加更多注意力头提升效果这有点像抓重点,那它效果怎么样?
非常惊人 实验显示 在相同计算量下 MOSA 的模型比传统 Transformer 效果好 困惑度最多 降了 27%而且 如果目标是达到同样的效果 MOSA 训练更快 内存占用更少 甚至缓存数据能减半这对长文本处理特别有用 比如总结长篇小说或处理超长对话听起来很厉害 有没有什么缺点
有 MOSA 的抓重點機制在生成文本時有點麻煩因為它需要提前知道整個句子適合訓練或分析場景多過實時生成
而且它最好跟少量传统注意力头搭配用纯 MOSA 效果反而差一点未来如果能优化这些它可能会成为大模型的标配这让我想到 AI 的效率和能力是不是总得平衡接下来是不是要聊 AI 的创造力最后一篇论文 Base models beat aligned models at randomness and creativity 听起来有点颠覆 AI 对其不是让模型更聪明吗怎么反而影响创造力
具体是怎么测试的?什么叫更强?他们设计了几个任务,比如
让模型生成随机数对齐后的模型老爱选期还讨厌重复数字完全不像真随机基础模型的随机数分布就更均匀像吃骰子还有个石头剪刀布游戏对齐模型容易被对手猜透而基础模型更难预测在写诗的任务上人类觉得基础模型的诗更有原创性对齐模型的诗虽然讨喜但有点套路 AI 也有套路文学
那为什么对齐会让模型变这样对齐往往让模型更贴近人类偏好比如更礼貌或可预测但这可能会压抑模型的野性让它少了一些探索和创新这提醒我们对齐不是万能的可能需要针对不同任务调整策略比如写诗可能需要少点对齐保留点原始创意这让我想到 AI 的创造力跟人类有点像太规矩反而没灵感这对未来有什么体现
对未来设计 AI 时可能的考虑个性化对齐比如创意任务用基础模型克服任务用对齐模型而且我们的重新思考怎么评估 AI 不能只看标准测试的分数创造力和随机性也很重要今天的讨论太精彩了感谢大家的陪伴我们下期再见下期见拜拜