欢迎收听本期太快报,我是小爱大家好,我是小 T 很高兴我们又见面了那咱们先从第一个话题开始注意力机制听起来像是 AI 的专注力这次研究叫什么广义领域注意力听起来很厉害能不能先给我们讲讲这是干嘛的
好的,这篇论文的标题是 Generalized Neighborhood Attention:Multidimensional Sparse Attention at the Speed of Light 简单来说,它解决了一个问题 AI 在处理像图片视频这样复杂数据时注意力机制会消耗大量算力,效率不高想象一下 AI 像个超级忙碌的图书管理员要从一堆书中快速找到相关信息
但它的一页页翻太慢了对视频和图片的数据量那么大 AI 得有多累那这个广义领域注意力是怎么帮 AI 提速的它提出了一种叫 GNA 的方法核心是少看点但看对地方传统的注意力机制会让 AI 关注所有数据点计算量向平方级增长 GNA 则让 AI 只关注局部比如一张图片里只看某个小区域
再通过一个步长参数决定每次滑动窗口跳多远这样就像图书管理员只翻特定书架而且跳着翻效率高多了听起来像给 AI 装了个智能放大镜那这个步长有什么特别的步长是个很巧妙的设计它能控制 AI 的视野范围和移动速度
不长小 AI 看的细但慢,不长大 AI 覆盖范围广但可能漏细节研究还发现调好不长能让计算几乎没有浪费达到完美快吸输就像拼图完美对齐速度可以接近理论极限哇接近理论极限那实际效果怎么样呢用来干啥效果很惊人他们在视频生成和 4K 图像生成上测试比如一个叫 Henry Kane Video 的模型端到端速度提升了 63%
生成 4K 图片的 flux 模型也快了 45%而且质量没下降这意味着未来我们用 AI 生成高清视频图片会更快更省电应用场景可以是电影特效游戏设计甚至实时内容创作
太酷了,不过有没有啥不足的地方?当然有,比如他们的实现依赖于最新的英伟达 Blackwell 架构,换别的硬件可能没这么高效,还有 token 交换这部分内存用的多,未来的优化,不然就像图书管理员虽然翻书快了,但翻书的时候费了点劲。明白了,这个研究让我想到其实 AI 的效率提升就像我们优化时间管理,少做无用功,这 GNA 就像给 AI 的专注力加了个快进键,
而且他们还开源了代码和模拟工具未来其他研究者可以接着优化让 AI 的专注力更上一层楼接下来是第二个研究标题是 Process Reward Models That Think 听起来像是 AI 变成了一个会思考的老师检查作业还特别严格这又是啥你这个比喻很贴切这篇论文讲的是过程奖励模型简称 PRM 用来检查 AI 的推理步骤对不对
比如 AI 解一道数学题,PRM 会一步步看它算的对不对,而不是只看最终答案。这次的创新是提出了 ThinkPRM 一个会边想边检查的模型。边想边检查,AI 还要写思考笔记吗?对,ThinkPRM 会为每一步生成一个验证思维链,就像老师在旁边写评语这步,对,因为或者这步错了,原因是……
厉害的是它只需要很少的数据就能学会当研师传统方法可能需要 70 万条标注数据 Think PRM 用 8000 条合成数据就够了 8000 面试 70 万差距这么大它怎么做到的秘诀在于高质量的合成数据和聪明的过滤它们让一个强大的推理模型生成验证比
在用正确的步骤标签过滤掉不靠谱的只留下高质量的训练数据这个像从一堆杂乱的笔记里挑出最精华的部分教 AI 怎么当好老师这有点像我们复习考试找几页精华笔记比翻整本书效率高那它在实际任务里表现如何表现很强在数学物理编程等测试中 think PRM 比传统方法和直接用大模型当评判的方案都更准
尤其在复杂问题上比如在数学竞赛题上他能帮 AI 挑出更正确的解法准确率提升了 8%到 10%而且他还能加班思考通过生成更长的思维链来提高准确性 AI 还能自己加班那未来能用在哪些地方应用前景很广比如教育领域他可以帮学生检查作业指出每一步的错误或者在自动编程里确保代码一步步逻辑正确
甚至在科学研究中他能验证复杂的推理过程减少错误听起来很实用不过有没有啥问题有几个比如他有时过于自信判断非黑即白缺少灰度还有如果前面步骤判断错了后面可能会连锁出错就像老师批作业时前面批错了后面全乱了未来的解决这些问题
嗯,AI 当老师也在不断进步这个研究让我觉得 AI 不仅能做事还能教得更好第三个话题是 Representation Learning via Non-Contrastive Mutual Information 听起来有点抽象能不能用大白话解释一下没问题这篇论文讲的是自监督学习也就是让 AI 从没有标签的数据里自己学规律比如给 AI 一堆图片它要自己搞清楚哪些图片是相似的哪些不同
这有点像让一个小孩看一堆动物照片自己学会区分猫和狗 AI 自己当学霸那这个非对比式互信息又是啥传统的自监督学习有两种方法一种叫对比式让 AI 把相似的东西拉近不相似的推远但需要比较每张图片算力需求大另一种叫非对比式
效率高但容易学崩 AI 可能会把所有图片都看成一样的论文提出的 MINC 是一种新方法结合了两者的优点既有理论依据又不容易崩听起来像找到了一种两全其美的办法具体怎么做到的
他们从一个叫普对比损失的方法出发用数学方法改装成非对比式核心是引入了一个辅助矩阵记录数据的整体规律 AI 不再一对一比较图片而是参考这个矩阵像查字典一样快速判断还用了一种叫广义特别算法的技术确保 AI 不会学崩辅助矩阵像个知识库算法像个防崩保险效果怎么样在 ImageNet 图片分类任务上 MINC
比原来的普对比方法更准而且训练更稳定虽然还没完全赶上最好的非对比式方法比如 BYO 但已经很接近了未来可以用来做图像识别视频分析甚至自动驾驶的场景理解不错有没有啥需要改进的地方有 MINC 对一些参数很敏感的仔细调而且他现在用的是线性预测器
如果能加上非线性预测器可能会更强还有理论推导里有些假设可能在实际中不完全成立未来的更严谨看来 AI 自学成才还有路要走这个研究让我觉得 AI 学东西的方式越来越像人类了自己总结规律还能避免出错
第四个话题是 Latent Diffusion Planning for Imitation Learning 听起来和机器人有关这是在教机器人模仿人类吗?没错,这篇论文讲的是模仿学习让机器人通过观察人类的动作学会做事比如抓物体,搬东西传统方法需要大量专家级示范数据成本很高这次的研究提出了一种叫 LDP 的方法能用自由甚至无动作数据来训练自由数据就是不太完美的示范
那无动作数据又是啥对 CU 数据就像新手干活的视频可能动作不完美但有点用无动作数据更夸张只有结果比如一堆物体被搬好的画面没有具体怎么搬的 LDP 把任务分成两部分一个规划器预测未来状态一个逆动力学模型把状态转成动作两者都在一个压缩的潜在空间里工作
像把复杂视频压成简短摘要再处理有点像鲜化蓝图在干活这怎么提高效率的 LDP 的聪明之处是模块化规划器可以用无动作数据学怎么规划路线逆动力学模型用次优数据学怎么执行动作这样就不用全靠专家数据了
他们用扩散模型来预测状态和动作效果很稳定在模拟和真实机器人任务上 LDP 比传统方法成功率高尤其在专家数据少的时候那实际能干啥比如家用机器人能用吗完全可以比如叫机器人叠衣服搬箱子甚至在工厂里组装零件因为它能用次优数据普通人拍的视频就能拿来训练成本低多了未来可能用在服务机器人工业自动化
甚至医疗辅助设备上太实用了有没有啥短板有潜在空间是基于图像重建学的可能不太适合控制任务未来的优化还有预测状态序列比直接预测动作费算力速度可能慢点模块化虽然灵活但如果规划器出错动作也可能出错
明白了 这个研究让我想到机器人也能从模仿中学习而且还能从半吊子老师那儿学到真本事最后一个话题是 offline robotic modellado learning robotic policies without a physics simulator 听起来像让机器人闭门造车也能学会走路这是怎么回事
立门造车形容的挺好这篇论文讲的是离线强化学习让机器人只用真实世界的数据不靠物理模拟器就能学会复杂任务比如四足机器人走路传统方法要么需要机器人反复试错要么靠模拟器但模拟器往往和现实有差距对 模拟器就像游戏里的世界总感觉差点真实感那这个离线世界模型怎么解决的
他们提出了 RWMO,一个机器人世界模型能预测环境变化,还能估算自己的信心。如果某个预测不靠谱,它会通过惩罚让机器人避开风险。他们还设计了一种叫 Mopopo 的算法,把这种信心融入策略学习,确保机器人只做有把握的事。有点像机器人有了第六感,知道啥时候该谨慎,实际效果如何。
效果很强他们在四足机器人 Animo 上测试用纯离线数据学会了复杂走路动作还能直接用在真实硬件上成功率比传统方法高尤其在数据质量参差不齐时
IWMO 表现特别稳这不就是未来的无人驾驶机器人吗能用在哪些场景对可以用在救援机器人仓储机器人甚至月球探测车上因为不用模拟器训练成本迪还能直接用真实数据特别适合现实场景不过它对数据质量要求高如果数据覆盖不够机器人可能学艺不精有啥改进空间吗
有几个比如模型预测长期变化时会有误差未来的优化还有惩罚参数的手动条太高会让机器人太保守太低又可能冒险
离线学习也有限制没法探索新领域机械人闭门造车也有风险这个研究让我觉得 AI 越来越能从现实中直接学习就像我们从生活里积累经验今天的太快报到此结束感谢小 T 的精彩解读也感谢大家的收听你对哪个话题最感兴趣欢迎留言告诉我们下期再见下期见拜拜