We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从光速注意力到机器人自学

AI前沿:从光速注意力到机器人自学

2025/4/25
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
Topics
小T: 我深入研究了五项AI前沿技术,包括广义邻域注意力(GNA)、过程奖励模型ThinkPRM、基于互信息理论的非对比式学习方法MINC、模块化模仿学习方法LDP以及离线机器人世界模型RWM-O。GNA通过局部稀疏注意力机制和步长参数,显著提升了AI处理图像和视频的速度,在HunyuanVideo模型上取得了63%的提速效果。ThinkPRM通过生成验证思维链来检查AI的推理步骤,只需要少量数据就能有效评估AI的推理过程,并在数学、物理、编程等任务中表现出色。MINC结合了互信息理论和非对比式学习的优势,在ImageNet图片分类任务中表现出色,训练更稳定,效率更高。LDP利用次优和无动作数据,在低专家数据的情况下提升了机器人的模仿学习性能,降低了数据成本。RWM-O和MOPO-PPO基于离线真实数据,无需物理模拟器,在四足机器人上成功实现了复杂动作的学习。这些研究展现了AI在效率、数据利用和现实应用上的突破,为未来AI发展提供了新的方向。 小爱: 我从旁观者的角度对小T介绍的五项AI前沿技术进行了总结和思考。广义邻域注意力(GNA)的快速高效让我印象深刻,它如同给AI装上了一个智能放大镜,能够快速锁定关键信息。ThinkPRM的出现则解决了AI推理过程验证的难题,如同一位严格的老师,能够一步步检查AI的解题步骤。MINC方法的提出,则为自监督学习提供了新的思路,它结合了对比式和非对比式学习的优点,既高效又稳定。LDP方法的模块化设计,使得机器人模仿学习更加灵活高效,即使是次优数据也能发挥作用。最后,RWM-O和MOPO-PPO的离线强化学习方法,则为机器人在真实环境中的应用提供了新的可能,无需依赖昂贵的物理模拟器。总的来说,这五项研究都代表着AI领域的重大突破,它们将推动AI技术在各个领域的应用,并为我们带来更加智能化的未来。

Deep Dive

Chapters
本研究提出广义邻域注意力 (GNA) 机制,通过优化注意力机制的计算方式,显著提升AI处理图像和视频的速度,尤其在视频生成和4K图像生成上效果显著,但存在硬件依赖性和内存占用高等问题。
  • 提出广义邻域注意力 (GNA) 机制
  • 显著提升图像和视频生成速度
  • 在HunyuanVideo模型上速度提升63%
  • 开源代码和模拟工具
  • 依赖于最新的英伟达Blackwell架构

Shownotes Transcript

欢迎收听本期太快报,我是小爱大家好,我是小 T 很高兴我们又见面了那咱们先从第一个话题开始注意力机制听起来像是 AI 的专注力这次研究叫什么广义领域注意力听起来很厉害能不能先给我们讲讲这是干嘛的

好的,这篇论文的标题是 Generalized Neighborhood Attention:Multidimensional Sparse Attention at the Speed of Light 简单来说,它解决了一个问题 AI 在处理像图片视频这样复杂数据时注意力机制会消耗大量算力,效率不高想象一下 AI 像个超级忙碌的图书管理员要从一堆书中快速找到相关信息

但它的一页页翻太慢了对视频和图片的数据量那么大 AI 得有多累那这个广义领域注意力是怎么帮 AI 提速的它提出了一种叫 GNA 的方法核心是少看点但看对地方传统的注意力机制会让 AI 关注所有数据点计算量向平方级增长 GNA 则让 AI 只关注局部比如一张图片里只看某个小区域

再通过一个步长参数决定每次滑动窗口跳多远这样就像图书管理员只翻特定书架而且跳着翻效率高多了听起来像给 AI 装了个智能放大镜那这个步长有什么特别的步长是个很巧妙的设计它能控制 AI 的视野范围和移动速度

不长小 AI 看的细但慢,不长大 AI 覆盖范围广但可能漏细节研究还发现调好不长能让计算几乎没有浪费达到完美快吸输就像拼图完美对齐速度可以接近理论极限哇接近理论极限那实际效果怎么样呢用来干啥效果很惊人他们在视频生成和 4K 图像生成上测试比如一个叫 Henry Kane Video 的模型端到端速度提升了 63%

生成 4K 图片的 flux 模型也快了 45%而且质量没下降这意味着未来我们用 AI 生成高清视频图片会更快更省电应用场景可以是电影特效游戏设计甚至实时内容创作

太酷了,不过有没有啥不足的地方?当然有,比如他们的实现依赖于最新的英伟达 Blackwell 架构,换别的硬件可能没这么高效,还有 token 交换这部分内存用的多,未来的优化,不然就像图书管理员虽然翻书快了,但翻书的时候费了点劲。明白了,这个研究让我想到其实 AI 的效率提升就像我们优化时间管理,少做无用功,这 GNA 就像给 AI 的专注力加了个快进键,

而且他们还开源了代码和模拟工具未来其他研究者可以接着优化让 AI 的专注力更上一层楼接下来是第二个研究标题是 Process Reward Models That Think 听起来像是 AI 变成了一个会思考的老师检查作业还特别严格这又是啥你这个比喻很贴切这篇论文讲的是过程奖励模型简称 PRM 用来检查 AI 的推理步骤对不对

比如 AI 解一道数学题,PRM 会一步步看它算的对不对,而不是只看最终答案。这次的创新是提出了 ThinkPRM 一个会边想边检查的模型。边想边检查,AI 还要写思考笔记吗?对,ThinkPRM 会为每一步生成一个验证思维链,就像老师在旁边写评语这步,对,因为或者这步错了,原因是……

厉害的是它只需要很少的数据就能学会当研师传统方法可能需要 70 万条标注数据 Think PRM 用 8000 条合成数据就够了 8000 面试 70 万差距这么大它怎么做到的秘诀在于高质量的合成数据和聪明的过滤它们让一个强大的推理模型生成验证比

在用正确的步骤标签过滤掉不靠谱的只留下高质量的训练数据这个像从一堆杂乱的笔记里挑出最精华的部分教 AI 怎么当好老师这有点像我们复习考试找几页精华笔记比翻整本书效率高那它在实际任务里表现如何表现很强在数学物理编程等测试中 think PRM 比传统方法和直接用大模型当评判的方案都更准

尤其在复杂问题上比如在数学竞赛题上他能帮 AI 挑出更正确的解法准确率提升了 8%到 10%而且他还能加班思考通过生成更长的思维链来提高准确性 AI 还能自己加班那未来能用在哪些地方应用前景很广比如教育领域他可以帮学生检查作业指出每一步的错误或者在自动编程里确保代码一步步逻辑正确

甚至在科学研究中他能验证复杂的推理过程减少错误听起来很实用不过有没有啥问题有几个比如他有时过于自信判断非黑即白缺少灰度还有如果前面步骤判断错了后面可能会连锁出错就像老师批作业时前面批错了后面全乱了未来的解决这些问题

嗯,AI 当老师也在不断进步这个研究让我觉得 AI 不仅能做事还能教得更好第三个话题是 Representation Learning via Non-Contrastive Mutual Information 听起来有点抽象能不能用大白话解释一下没问题这篇论文讲的是自监督学习也就是让 AI 从没有标签的数据里自己学规律比如给 AI 一堆图片它要自己搞清楚哪些图片是相似的哪些不同

这有点像让一个小孩看一堆动物照片自己学会区分猫和狗 AI 自己当学霸那这个非对比式互信息又是啥传统的自监督学习有两种方法一种叫对比式让 AI 把相似的东西拉近不相似的推远但需要比较每张图片算力需求大另一种叫非对比式

效率高但容易学崩 AI 可能会把所有图片都看成一样的论文提出的 MINC 是一种新方法结合了两者的优点既有理论依据又不容易崩听起来像找到了一种两全其美的办法具体怎么做到的

他们从一个叫普对比损失的方法出发用数学方法改装成非对比式核心是引入了一个辅助矩阵记录数据的整体规律 AI 不再一对一比较图片而是参考这个矩阵像查字典一样快速判断还用了一种叫广义特别算法的技术确保 AI 不会学崩辅助矩阵像个知识库算法像个防崩保险效果怎么样在 ImageNet 图片分类任务上 MINC

比原来的普对比方法更准而且训练更稳定虽然还没完全赶上最好的非对比式方法比如 BYO 但已经很接近了未来可以用来做图像识别视频分析甚至自动驾驶的场景理解不错有没有啥需要改进的地方有 MINC 对一些参数很敏感的仔细调而且他现在用的是线性预测器

如果能加上非线性预测器可能会更强还有理论推导里有些假设可能在实际中不完全成立未来的更严谨看来 AI 自学成才还有路要走这个研究让我觉得 AI 学东西的方式越来越像人类了自己总结规律还能避免出错

第四个话题是 Latent Diffusion Planning for Imitation Learning 听起来和机器人有关这是在教机器人模仿人类吗?没错,这篇论文讲的是模仿学习让机器人通过观察人类的动作学会做事比如抓物体,搬东西传统方法需要大量专家级示范数据成本很高这次的研究提出了一种叫 LDP 的方法能用自由甚至无动作数据来训练自由数据就是不太完美的示范

那无动作数据又是啥对 CU 数据就像新手干活的视频可能动作不完美但有点用无动作数据更夸张只有结果比如一堆物体被搬好的画面没有具体怎么搬的 LDP 把任务分成两部分一个规划器预测未来状态一个逆动力学模型把状态转成动作两者都在一个压缩的潜在空间里工作

像把复杂视频压成简短摘要再处理有点像鲜化蓝图在干活这怎么提高效率的 LDP 的聪明之处是模块化规划器可以用无动作数据学怎么规划路线逆动力学模型用次优数据学怎么执行动作这样就不用全靠专家数据了

他们用扩散模型来预测状态和动作效果很稳定在模拟和真实机器人任务上 LDP 比传统方法成功率高尤其在专家数据少的时候那实际能干啥比如家用机器人能用吗完全可以比如叫机器人叠衣服搬箱子甚至在工厂里组装零件因为它能用次优数据普通人拍的视频就能拿来训练成本低多了未来可能用在服务机器人工业自动化

甚至医疗辅助设备上太实用了有没有啥短板有潜在空间是基于图像重建学的可能不太适合控制任务未来的优化还有预测状态序列比直接预测动作费算力速度可能慢点模块化虽然灵活但如果规划器出错动作也可能出错

明白了 这个研究让我想到机器人也能从模仿中学习而且还能从半吊子老师那儿学到真本事最后一个话题是 offline robotic modellado learning robotic policies without a physics simulator 听起来像让机器人闭门造车也能学会走路这是怎么回事

立门造车形容的挺好这篇论文讲的是离线强化学习让机器人只用真实世界的数据不靠物理模拟器就能学会复杂任务比如四足机器人走路传统方法要么需要机器人反复试错要么靠模拟器但模拟器往往和现实有差距对 模拟器就像游戏里的世界总感觉差点真实感那这个离线世界模型怎么解决的

他们提出了 RWMO,一个机器人世界模型能预测环境变化,还能估算自己的信心。如果某个预测不靠谱,它会通过惩罚让机器人避开风险。他们还设计了一种叫 Mopopo 的算法,把这种信心融入策略学习,确保机器人只做有把握的事。有点像机器人有了第六感,知道啥时候该谨慎,实际效果如何。

效果很强他们在四足机器人 Animo 上测试用纯离线数据学会了复杂走路动作还能直接用在真实硬件上成功率比传统方法高尤其在数据质量参差不齐时

IWMO 表现特别稳这不就是未来的无人驾驶机器人吗能用在哪些场景对可以用在救援机器人仓储机器人甚至月球探测车上因为不用模拟器训练成本迪还能直接用真实数据特别适合现实场景不过它对数据质量要求高如果数据覆盖不够机器人可能学艺不精有啥改进空间吗

有几个比如模型预测长期变化时会有误差未来的优化还有惩罚参数的手动条太高会让机器人太保守太低又可能冒险

离线学习也有限制没法探索新领域机械人闭门造车也有风险这个研究让我觉得 AI 越来越能从现实中直接学习就像我们从生活里积累经验今天的太快报到此结束感谢小 T 的精彩解读也感谢大家的收听你对哪个话题最感兴趣欢迎留言告诉我们下期再见下期见拜拜