We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从“反转诅咒”到手机上的超级AI

AI前沿:从“反转诅咒”到手机上的超级AI

2025/5/3
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小T
Topics
小爱: 我参与了本次AI前沿论文的讨论,主要关注点在于如何提升AI模型的灵活性和效率,以及如何平衡AI模型的对齐和创造力。在讨论中,我们深入探讨了五篇论文的核心内容,并对未来的AI发展方向进行了展望。 首先,我们分析了语言模型的‘反转诅咒’问题,即模型在微调后容易死记硬背,缺乏灵活运用能力。针对这个问题,研究人员提出了一种巧妙的解决方案:利用模型自身的上下文学习能力生成扩展数据,并将其添加到微调数据中,从而显著提升模型的泛化能力。 其次,我们讨论了WPO算法在强化学习中的应用。WPO算法通过巧妙地平衡确定性和随机性,使得AI模型能够在高维控制任务中学习更快、更稳定。这对于自动驾驶、核聚变等复杂系统的控制具有重要意义。 此外,我们还关注了如何将大模型部署到手机等低功耗设备上。ML Drift框架通过张量虚拟化等技术,使得大模型能够在手机GPU上高效运行,这将极大地扩展AI应用的范围,并提升用户体验。 最后,我们探讨了AI模型的对齐和创造力之间的平衡问题。研究表明,过度对齐可能会压抑模型的创造力和探索性。因此,在未来AI模型的设计中,需要根据具体任务调整对齐策略,以平衡模型的实用性和创造力。 小T: 我与小爱一起参与了本次AI前沿论文的讨论,主要负责对论文核心内容进行详细解读和分析。 在‘反转诅咒’问题的讨论中,我详细解释了该问题产生的原因以及解决方法。通过实验结果,我们发现上下文学习能够有效提升模型的灵活性和泛化能力,而微调则可能导致模型的泛化能力下降。 在WPO算法的讨论中,我用具体的例子解释了该算法的工作原理以及其优越性。WPO算法通过利用Wasserstein梯度流,能够更有效地处理高维控制任务,并在实验中取得了优异的成果。 在ML Drift框架的讨论中,我深入解释了张量虚拟化技术的工作原理,以及该技术如何提升大模型在手机等低功耗设备上的运行效率。ML Drift框架的应用,将极大地推动AI在移动端的应用发展。 在MoSA注意力机制的讨论中,我解释了该机制如何通过关注关键信息来降低计算复杂度,并提升模型性能。MoSA机制的应用,将极大地提升长文本处理的效率。 最后,在AI创造力的讨论中,我分析了模型对齐与创造力之间的关系,并指出过度对齐可能会压抑模型的创造力。我们需要在未来AI模型的设计中,找到对齐与创造力之间的最佳平衡点。

Deep Dive

Shownotes Transcript

大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,很高兴我们又见面了。第一篇论文听起来就很有意思,叫 On the Generalization of Language Models from In-Context Learning and Fitting a Controlled Study。

这个反转诅咒是什么,听起来有点像魔法。这个反转诅咒其实是语言模型的一个弱点,简单来说语言模型在学习某些知识后可能会死记硬背,没法灵活运用。比如,模型学会了 A 是 B,但你问它 B 是 A 是,它竟然答不上来。这篇论文发现这种问题在微调也就是针对特定任务额外训练模型时尤其严重,等等。

模型不是应该很聪明吗怎么连这种简单的反转都不会对这就是研究的重点论文用了一个很聪明的实验方法他们创造了一些假单词比如 flavor 和 group 等让模型学习这些没意义的关系排除于训练知识的干扰结果发现如果用上下文学习就是在输入里直接给例子

模型表现的很灵活能轻松处理反转或逻辑推理但如果用微调模型就像被锁住了泛化能力很差有时准确率接近零

这有点像学生死记应备课本但换个问法就懵了那他们怎么解决这个诅咒他们提出了一个很巧妙的办法用模型自己的上下文学习能力生成一些扩展数据比如让模型自己推理 A 是 B 可以推出 B 是 A 或者做逻辑推导然后把这些推理结果加到微调数据里结果呢微调的泛化能力大幅提升有时甚至比上下文学习还好

哇这就像让模型自己当老师教自己更灵活的思考这个方法有什么实际用处非常有潜力比如 AI 助手需要理解用户各种奇怪的提问方式这种方法可以让模型更举一反三而且它还能用在逻辑推理知识图谱等领域让 AI 更像人类那样灵活处理信息不过研究也提醒我们微调不能乱来的设计好数据不然可能会让模型变笨看来

AI 也有学习方法问题这让我很好奇接下来的研究是不是也这么有启发性绝对有第二篇论文叫 Walsall Steen Policy Optimization 讲的是强化学习的新算法专门用来控制机器人或复杂系统比如自动驾驶或核聚变反应堆核聚变听起来好高大上这个算法有什么特别的

他叫 WPO 核心是用了一种数学工具 Wasserstein 梯度流来优化 AI 的决策想象一下 AI 在玩一个游戏需要决定下一步怎么走传统方法要么很死板只选一个动作要么很随机靠猜 WTO 的厉害之处在于他能聪明的平衡确定和随机而且不用一些复杂的技术也能处理各种情况听起来有点抽象能不能用个例子解释一下

好,比方说你在玩一个机器人抓物体的游戏,传统方法可能让机器人总是抓同一个点或者随机试很多次。DPO 就像给机器人一个指南针,告诉他哪些动作可能更好,同时保留一点随机性去探索新可能。结果是他在复杂任务上学得更快更稳定,比如在高维任务里比其他方法快很多。那他具体厉害在哪能打败其他算法吗?

实验显示 WPO 在 Deep One 的控制任务上跟顶尖算法差不多甚至更稳而且在一个模拟和巨变的任务上它表现也很出色能自适应的调整策略不过它也有点挑剔需要一些额外的调餐

比如防止策略太固执未来如果能简化这些步骤它可能会广泛用在机器人游戏 AI 甚至能源管理上感觉这个 WPO 就像一个聪明的教练接下来是不是要聊怎么让 AI 跑在手机上第三篇论文 Galena deviceGPU inference for large generative models 听起来很酷真的能让我的手机跑大模型吗完全有可能这篇论文介绍了一个叫 ML Drift

的框架专门让大模型在手机笔记本这种弱设备上跑以前大模型动不动几百亿参数只能靠云端服务器现在 ML drift 让几亿甚至几十亿参数的模型在手机 GPU 上也能飞哇那是怎么做到的手机的 GPU 不是很弱吗对所以他们用了很多巧妙的优化其中最核心的是张量虚拟化你可以把模型的计算想象成一大堆积木张量虚拟化

就像把这些积木拆开灵活的重新拼装适配不同设备的 GPU 而且它们还能在运行时根据设备能力动态生成最优的计算代码听起来像给手机 GPU 量身定做了一套健身计划

确实他们还针对语言模型的两个阶段 预填充和解码用了不同策略比如预填充阶段寄生量大 他们用高效的量化方法解码阶段内存明显 他们就优化内存管理结果呢 在普通手机上跑 stable diffusion 或 8E 参数的来码模型速度比现有开源方案快好几倍 内存占用也少得多

这太实用了以后我能在手机上离线生成图片或聊天不用担心隐私泄漏了正是这样 ML Drift 支持各种硬件从安卓到苹果甚至笔记本的英特尔 GPU 未来 AI 助手图像生成工具可能都直接跑在你设备上省流量又安全不过它目前对专用硬件的支持有点局限比如英伟达的高端加速器用不了未来还有优化空间这让我对手机 AI 充满期待

接下来是啥?AI 的注意力机制。没错,第四篇是 Mix of Sparse Attention,提出了一种叫 MOSA 的新注意力机制,目标是让大模型更快,更省资源。注意力机制我知道这是 Transformer 的核心,但具体是怎么让 AI 更高效的?

好想象一下 Transformer 在处理一句长句子时会让每个词都看其他所有词,计算量是平方级的,超级费力 MOSA 的创新是让每个注意力头只关注几个最重要的词就像你在开会时只听几个关键发言人结果计算量大幅降低还能用省下的算力加更多注意力头提升效果这有点像抓重点,那它效果怎么样?

非常惊人 实验显示 在相同计算量下 MOSA 的模型比传统 Transformer 效果好 困惑度最多 降了 27%而且 如果目标是达到同样的效果 MOSA 训练更快 内存占用更少 甚至缓存数据能减半这对长文本处理特别有用 比如总结长篇小说或处理超长对话听起来很厉害 有没有什么缺点

有 MOSA 的抓重點機制在生成文本時有點麻煩因為它需要提前知道整個句子適合訓練或分析場景多過實時生成

而且它最好跟少量传统注意力头搭配用纯 MOSA 效果反而差一点未来如果能优化这些它可能会成为大模型的标配这让我想到 AI 的效率和能力是不是总得平衡接下来是不是要聊 AI 的创造力最后一篇论文 Base models beat aligned models at randomness and creativity 听起来有点颠覆 AI 对其不是让模型更聪明吗怎么反而影响创造力

具体是怎么测试的?什么叫更强?他们设计了几个任务,比如

让模型生成随机数对齐后的模型老爱选期还讨厌重复数字完全不像真随机基础模型的随机数分布就更均匀像吃骰子还有个石头剪刀布游戏对齐模型容易被对手猜透而基础模型更难预测在写诗的任务上人类觉得基础模型的诗更有原创性对齐模型的诗虽然讨喜但有点套路 AI 也有套路文学

那为什么对齐会让模型变这样对齐往往让模型更贴近人类偏好比如更礼貌或可预测但这可能会压抑模型的野性让它少了一些探索和创新这提醒我们对齐不是万能的可能需要针对不同任务调整策略比如写诗可能需要少点对齐保留点原始创意这让我想到 AI 的创造力跟人类有点像太规矩反而没灵感这对未来有什么体现

对未来设计 AI 时可能的考虑个性化对齐比如创意任务用基础模型克服任务用对齐模型而且我们的重新思考怎么评估 AI 不能只看标准测试的分数创造力和随机性也很重要今天的讨论太精彩了感谢大家的陪伴我们下期再见下期见拜拜