We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从超低比特模型到机器人学习

2025/4/29

AI可可AI生活

小爱: 我认为BitNet V2最显著的贡献在于它通过Hadamard变换和量化技术，成功地将大型语言模型的激活值压缩到4比特甚至更低，极大地降低了内存和计算成本，同时几乎没有损失性能。这为AI在边缘设备上的部署以及更广泛的应用铺平了道路。此外，我还注意到，该方法的有效性依赖于对激活值分布的巧妙处理，这为未来的模型压缩研究提供了新的思路。在可扩展监督方面，我认为这篇论文提出的框架非常有意义，它通过游戏模拟和Elo评分系统，量化了弱AI对强AI的监督效果，并揭示了监督任务设计的重要性。这对于未来构建安全可靠的超级AI至关重要，因为任务设计的好坏直接关系到监督的有效性，甚至关系到AI是否会失控。关于TPT框架，我认为它提供了一种非常有效的AI自主学习方法。通过模型自己生成数据、筛选数据并进行训练的循环过程，可以显著提高模型的推理能力，这对于解决高质量训练数据稀缺的问题非常有帮助。虽然该方法需要真实标签来判断答案的正确性，但这并不影响其在许多任务上的有效性。最后，在模仿学习方面，我认为这篇论文从信息论的角度分析了泛化能力受限的原因，并提出了通过压缩模型中间表示和增加数据变异性来提升泛化能力的方法，这为未来设计机器人训练数据提供了重要的理论指导。虽然目前实验验证还不够多，但这项研究为解决机器人模仿学习的泛化能力问题提供了新的方向。小T: 我同意小爱的观点，BitNet V2在模型压缩方面取得了突破性进展，它不仅降低了计算成本，也为AI的绿色发展做出了贡献。Hadamard变换的应用是其成功的关键，这为我们处理高维数据提供了新的思路。关于可扩展监督，我认为这篇论文的实验设计非常巧妙，通过游戏模拟的方式，直观地展示了不同监督策略的有效性，以及任务设计的重要性。这提醒我们，在构建超级AI时，不能仅仅关注AI本身的能力，更要重视任务设计，确保AI能够被有效地控制。嵌套监督策略的提出也为我们提供了新的思路，但同时也需要进一步研究其最佳层级和适用范围。 TPT框架的迭代学习机制非常值得借鉴，它通过模型自身的学习和改进，不断提高推理能力，这体现了AI自主学习的潜力。然而，该方法对高质量数据的依赖性也需要引起重视，未来可以探索如何结合其他技术来降低对高质量数据需求的依赖。在模仿学习方面，我认为这篇论文的理论分析非常深入，它从信息论的角度揭示了泛化能力受限的原因，并提出了相应的解决方案。这为未来设计更有效的机器人训练数据提供了理论基础，但同时也需要更多的实验验证来支持其结论。

Deep Dive

Shownotes Transcript

大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,很高兴我们又见面了。第一篇论文叫 BitNet V2,听起来像是在给语言模型减肥,它到底在做什么?确实有点像减肥,BitNet V2 解决了一个大问题,如何让大型语言模型在内存和算力上更高效。想象一下语言模型就像一个超级图书馆里面存了无数书籍。

但每次翻书都需要巨大的电力现在研究者想让这个图书馆用更少的电翻书更快那他们怎么做到的核心是量化简单说就是把模型的计算单位从高精度比如巴比特压缩到低精度

4 比特甚至 1.58 比特这篇论文的突破是他们让模型的激活值也就是模型思考时的中间数据从 8 比特降到 4 比特而且几乎不损失性能激活值听起来像模型的脑电波为什么要压缩这个

对激活值就像模型在处理信息时的临时笔记这些笔记占了很多内存尤其是批量处理时压缩它们就能让模型在普通硬件上跑得更快省电省内存比如未来你的手机可能就能跑一个超级 AI 助手

那听起来很酷不过压缩会不会让模型变傻 BitNight V2 的聪明之处他们发现激活值里有些刺头数据分布的很乱难以压缩他们用了一种叫 HeadM2 的变换的数学工具把这些乱糟糟的数据整理成更规则的形状就像把一团乱麻理顺再压缩就容易多了有点像整理房间把杂物归类再打包那结果如何效果惊人他们的新模型性能几乎和原来 8 位版本一样好

但内存占用和计算成本大幅降低。实验还证明,没有这个 header 们,变换模型直接罢工,性能崩盘,这说明处理这些刺头数据是关键。太厉害了,这对我们普通人有什么用?好处多多,比如 AI 可以部署到更小的设备上,像智能手表,无人机,甚至边缘设备。以后你可能在没网的地方也能用 AI 翻译语言分析数据。

而且省电也对环保有贡献不错 AI 也能做绿色科技不过有没有什么局限当然有 Hardware 2D 变换要求数据维度是 2 的密不是所有模型都天然满足训练过程也稍微复杂需要两步走不过这些都是小代价整体来看这是个大突破明白了 Binning V2 就像给 AI 装了个节能芯片让它又快又省

接下来我们聊聊 AI 怎么监督更强的 AI 听起来有点像管家管主人第二篇可扩展监督的苏方律这篇论文研究的是可扩展监督听起来有点科幻是不是在说未来的超级 AI 需要一个 AI 警察来管他 AI 警察这个比喻很贴切这篇论文其实在解决一个严肃的问题如果我们造出了比人类还聪明的超级 AI 怎么确保它不

若 AI 監督强 AI 听起来有点玄他们怎么研究的

研究者设计了一个很巧妙的实验框架把监督过程模拟成两个 AI 玩游戏一个是监督者另一个是被监督的导弹鬼他们用类似象棋等级的 ELO 分数来衡量谁更厉害然后他们测试了四种游戏比如辩论代码

后门看看监督者在不同场景下能不能管住导弹鬼这有点像 AI 版的猫捉老鼠结果怎么样结果很有意思他们发现监督的效果取决于游戏的设计比如在辩论游戏里监督者随着能力提升管住导弹鬼的能力也变强但在代码后门游戏里导弹鬼提升的更快

监督者就有点力不从心这说明监督任务的设计至关重要所以不是随便找个 AI 就能当警察的看任务对不对没错他们还研究了一种嵌套监督的策略让弱 AI 监督强 AI 强 AI 再去监督更强的 AI

像接力赛一样,他们算出了最优的监督层级,发现并不是越多越好,太多了,反而可能出错。这让我想到公司管理层级太多,反而效率低,那这对我们有什么启发?最大的启发是未来要控制超级 AI,任务设计比 AI 本身的能力更关键。

如果任务天然有利于导弹轨再强的监督者也可能失败他们还提出了一个康普顿常数用来估计 AI 失控的概率提醒我们的认真对待这个风险听起来有点像核反应得算好每一步有没有什么不足有他们的实验用的是简化游戏现实世界更复杂可能有更多不可预测的因素

而且他们假设导弹轨的坏行为是预设的实际中超级 AI 可能更狡猾这些都需要进一步研究明白了这篇论文就像在为未来 AI 社会制定交通规则提醒我们设计好路牌接下来我们聊聊 AI 怎么自己变聪明吧这篇标题叫思考简直训练听起来像在教 AI 健身它是怎么让 AI 变聪明的

确实有点像给 AI 做脑力训练这篇论文解决了一个问题高质量的训练数据很稀缺怎么让 AI 靠自己变聪明他们提出了一个思考简直训练的循环框架简称 TPT 让模型自己生成数据筛选数据再用这些数据提升自己

自己生成数据有点像学生自己写作业再改作业,具体怎么操作对第一步思考,让模型用思维链方式一步步推理生成答案第二步简直把错误的答案扔掉,只留下正确的第三步训练,用这些正确答案再去调优模型,循环几次,模型的推理能力就层层上涨这有点像优中选优效果怎么样

效果很驚人比如一個小型模型 Gemma22B 在數學推理任務上的正確率從 41.9%漲到 57.6%一個大模型來碼 70B 甚至超過了 GPT-4O 達到 91.5%這說明 TPT 能讓小模型追上大模型大模型更上一層樓 AI 自己就能開掛為什麼簡直這麼重要

因为如果不剪汁模型可能会学到错误的坏习惯导致性能下降研究发现没筛选的数据甚至会让模型变差简直就像给 AI 当质检员确保他只学最好的这让我想到做菜的挑新鲜食材那这个方法有什么局限局限是他需要真实标签来判断答案对错

如果任务没法验证正确性,比如创意写作就不好用了,而且模型的答案多样性可能会下降,变得有点偏执于正确答案。明白了,TTT 就像 AI 的自学秘籍,靠高质量数据让它突飞猛进。接下来我们聊聊 AI 怎么学不忘本吧。

通过神经网络坍缩增强基于预训练模型的类增量学习这篇论文提到神经坍缩和类增量学习听起来很高级它在解决什么问题这个问题很实际想象你学了一个新技能比如骑自行车但学了之后忘了怎么走路这叫灾难性遗忘是 AI 的一大难题这篇论文研究怎么让 AI 在学新东西时不忘老本特别在类增量学习里比如让 AI 先认猫狗

在学任鸟类这不就是 AI 的终身学习吗他们怎么做到的他们用了一个叫神经探索的现象简单说当 AI 学得很彻底时它会把不同类别的特征整理得很整齐像把书按类别摆在书架上他们设计了一种方法让 AI 在学新类别时保持这种整齐的书架结构这样就不会把老知识弄乱有点像给 AI 的记忆装的分类文件夹具体怎么操作

他們提出了 NCP Team CIL 方法包括三招第一用一個動態的分類器能隨時加新類別第二加一個對齊層讓新學的東西和老知識保持一致第三用一種拉與推損失函數把新類別拉到正確位置推開其他類別避免混淆

这听起来像整理一个超级大的衣柜效果如何?效果很棒,在多个测试中,它们的方法比其他方法好很多,比如在 VTAB 数据集上提升了 6.73%,更厉害的是,模型的表现接近联合训练的理想水平,也就是一次学所有类别的情况。

太强了有没有什么缺点有方法需要存一些老类别的特征站点内存还有每次学新类别都要重新初始化一个对其层稍微麻烦点而且它依赖强大的预训练模型如果基础模型弱效果可能打折扣

明白了这篇论文就像教 AI 怎么当记忆大师最后我们聊聊机器人怎么模仿人类吧最后这篇论文模仿学习的泛化能力研究机器人怎么模仿人类听起来像在教机器人当学徒他在解决什么问题对这篇论文研究模仿学习也就是让机器人看人类操作比如搬箱子

然后学会自己干但问题来了机器人学了之后换个新环境就懵了泛化能力差这篇论文从理论上分析了为什么会这样并给出了解决办法泛化能力差是不是像学了开车只会开一条路太形象了就是这个意思

他们发现泛化能力差有两个原因一是模型对训练数据依赖太强二是数据本身的变异性太低比如人类搬箱子时动作可能很固定机器人学了就只会这一种搬法那他们怎么解决他们用信息论分析提出了两个关键点

第一,压缩模型的中间表示,减少对训练数据的死机硬背。第二,增加数据的条件,伤,也就是让同样的输入对应更多样的动作。他们还建议用预训练模型,但不要过度调优,保持点弹性。有点像教机器人举一反三结果如何?

这篇论文主要是理论分析给了很清晰的指导比如他们证明如果数据动作更丰富模型学到的规律更通用泛化能力就强这为未来设计机器人训练数据指明了方向听起来很实用比如以后机器人搬家能适应不同房子有什么不足不足是理论为主实验验证还不够多增加动作变异性听起来简单但实际收集这样的数据很难比如让人类演示几十种搬箱子方式成本很高

今天的五篇论文真是让我大开眼界感谢小 T 的精彩讲解也谢谢大家的收听我们下期拍拍报再见下期见拜拜

AI前沿：从超低比特模型到机器人学习 10:38 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从超低比特模型到机器人学习