We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：SFT vs. RL、Agent安全研究与机器人高效学习

2025/1/30

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小T

小

小岸

Topics

小T:我主要研究了SFT和RL在基础模型后训练中的效果。研究表明,RL在泛化能力上优于SFT,尤其在规则学习和视觉任务中表现突出。RL能提升模型的视觉识别能力,而SFT则有助于稳定模型输出格式,为后续RL训练打基础。两种方法各有千秋,选择哪种方法取决于具体需求。如果希望模型能够举一反三,适应新环境,那么强化学习可能是一个更好的选择;而监督微调可以用来打基础或者规范模型的行为。小T:我还研究了Transformer模型在贝叶斯推断中的应用。研究发现,Transformer模型可以通过上下文学习(ICL)执行全贝叶斯推断。通过在合成数据上训练,模型能够隐式学习后验分布,其采样质量可与传统MCMC和VI方法媲美,为深度学习在贝叶斯框架下的应用提供了新思路。小岸:我的研究方向集中在AI Agent安全和机器人高效学习。针对Agent安全问题,我们提出了Conseca框架,该框架强调上下文是Agent安全性的关键。Conseca利用语言模型动态生成上下文相关的安全策略,并进行确定性执行,在保证安全性的同时,尽可能维持Agent的效用,为通用Agent安全提供了一种可扩展的解决方案。在机器人高效学习方面,我们提出了iRe-VLA框架,该框架通过在线强化学习和监督学习迭代的方式,有效提升了视觉-语言-行动模型(VLA)在机器人控制任务中的性能和泛化能力,并兼顾了训练稳定性与计算效率。此外,我还研究了如何提高行为克隆的样本效率。我们提出的知识引导模型(KIM)利用大型语言模型(LLM)和通用领域知识实例化策略结构,并用少量演示数据进行参数调整,显著提高了行为克隆的样本效率和鲁棒性,突显了结构化知识在机器学习中的重要作用。

Deep Dive

Chapters

本部分对监督微调(SFT)和强化学习(RL)这两种AI模型训练方法进行了比较。研究发现,RL在模型泛化能力上更强,尤其在规则学习和视觉任务中;而SFT更擅长记忆训练数据,并能稳定模型输出格式,为后续RL训练奠定基础。两种方法各有优劣,选择哪种方法取决于具体需求。

强化学习在基础模型后训练中展现出更强的泛化能力,尤其是在规则学习和视觉任务中
监督微调更侧重于记忆训练数据
强化学习还能提升模型的视觉识别能力
监督微调有助于稳定模型输出格式,为后续强化学习训练打基础

Shownotes Transcript

大家好欢迎来到太快报我是小岸大家好我是小 T 很高兴有和大家在太快报见面了今天我们要聊的这几篇论文主题还挺丰富的我看了下关键词又是机器学习又是计算机视觉还有自然语言处理和机器人感觉信息量很大是的

今天的这几篇论文确实代表了 AI 领域一些非常前沿的方向我们今天就来好好解读一下看看 AI 研究者们最近都在关注什么又有哪些新的突破好那我们先从第一篇开始吧题目是 SFT Memorizes RL Generalizes a Comparative Study of Foundation Model Post-Training 名字有点长先用大白话给我们解释一下这是在研究什么吗没问题

这篇文章的核心其实是对比两种训练 AI 模型的方法监督微调 SFT 和强化学习 RL 看看哪种方法训练出来的模型更聪明更通用监督微调和强化学习这两个听起来就有点专业能简单解释一下吗当然监督微调你可以理解成填鸭式教育

就像我们小时候贝克文老师给你答案你照着答案去学习模型也是一样我们给他大量的数据和对应的正确答案让他去学习模仿强化学习就更像实践出真知模型像玩游戏一样在环境中不断尝试做对了就给奖励做错了就惩罚让他在试错中学习最终学会完成任务这么一说我就明白了那这篇文章是想比较这两种教育方式哪个更好可以这么理解这篇文章

这篇文章的作者们就好奇对于现在很火的基础模型比如大型语言模型用 SFT 和 RL 进行后续训练哪一个能让模型更好的泛化也就是学到的知识能更好地应用到没见过的新情况上而不是只会死机硬背泛化能力确实很重要

那他们是怎么研究的呢?他们设计了一个新的考试,一个叫 General Points 的卡牌游戏。这游戏有点像算术推理,他们还用了一个真实世界的导航环境,VRRL,来考察模型在文本和视觉任务上的泛化能力。听起来挺复杂的,那研究结果是什么呢?

结果很有意思,他们发现强化学习而要训练出来的模型在泛化能力上更胜一筹,特别是在用结果导向的奖励方式训练时,模型更能学会通用的规则,即使面对没见过的规则变体,也能应对自如。而监督微调训练的模型更倾向于记住训练数据里的规则,一旦超出训练范围就有点懵了。

这有点颠覆我的认知,我一直以为监督学习不是更扎实吗?这就是研究的有趣之处作者还发现,强化学习还能提升模型的视觉识别能力这对于处理视觉任务的泛化很有帮助而且 SFT 也不是一无是处,它可以稳定模型的输出格式让模型更好地进行后续的强化学习训练原来如此

感觉这两种方法各有千秋那我们应该怎么选择呢这篇文章给我们的启发就是如果你希望模型能够举一反三适应新环境那强化学习可能是一个更好的选择而监督微调可以用来打基础或者规范模型的行为就好比你想培养一个有创造力的学生不能只让他死记硬背还要让他多实践多思考

很有道理,那我们来看第二篇论文,题目是 Context is Key in Agent Security,这个 agent 安全听起来就和我们生活息息相关了。是的,这篇文章关注的是 AI agent 的安全问题,随着 AI agent 越来越智能,应用场景越来越广泛,如何保证他们的安全就变得非常重要。

Agent 安全是指防止 AI Agent 被黑客攻击吗?可以这么理解,但更广义来说是防止 Agent 做出不安全不恰当的行为。这篇文章提出了一个新框架叫 CONSEQA,也就是 Contextual Security for Agents,上下文是 Agent 安全的关键。上下文,这怎么理解呢?

你可以想象一下我们人类判断一个行为是否安全,很多时候要看当时的情境,比如删除一封邮件,如果是垃圾邮件就没问题,但如果是重要的工作邮件,可能就会出问题。对于 AI Agent 来说也是一样,在不同的上下文下同一个操作的安全风险是不一样的。嗯,有道理,那这个 concept 框架是怎么做的呢?

Consecrate 的核心思想是让 AI Agent 能够根据当前的上下文动态生成安全策略而不是像以前那样用一套固定的静态的安全规则动态生成安全策略听起来好智能是的 Consecrate 利用语言模型的能力根据任务和可信的上下文信息自动生成定制化的安全策略这样就可以避免策略过于宽松或者过于严格在保证安全性的同时尽可能地让 Agent

那这个框架怎么保证生成的策略是可靠的呢?

防止被恶意的信息干扰比如防止 prompt 注入攻击 prompt 注入又是一个新名词 prompt 注入你可以理解成套路 AI agent 用一些精心设计的问题或者指令让 agent 做出一些本来不应该做的事情比如泄露隐私信息或者执行恶意操作 Consecat 通过限制策略生成的上下文来源来降低这种风险听起来 Consecat 框架还挺靠谱的那它实际应用效果怎么样呢

作者们做了一个概念验证的原型系统把 Consica 集成到了一个 Linux 计算机使用 Agent 中实验结果表明 Consica 在安全性和效用之间取得了很好的平衡既能有效地拒绝不安全的操作又能保证 Agent 正常完成任务太好了感觉 Agent 的安全真的是一个非常重要的方向有了 Consica 这样的框架我们用 AI Agent 也能更放心了

是的,随着 AI Agent 越来越普及,Agent 安全的重要性会越来越凸显。Conflict 框架为我们提供了一个很好的思路,未来可能会有更多类似的研究涌现出来。接下来我们看第三篇论文,题目是 Can Transformers Learn Full-Base and Inference in Context?

这个贝叶斯推断听起来就很高深确实有点专业这篇文章研究的是 Transformer 模型能否在上下文中学习贝叶斯推断 Transformer 模型我们都知道现在很火的 AI 模型都离不开它但是

但是贝叶斯推断是什么呢贝叶斯推断简单来说就是一种概率思考的方式它不是给你一个确定的答案而是告诉你各种答案的可能性以及每种可能性有多大就像天气预报不会说明天一定下雨而是说明天降雨概率 80%我明白了

就是更灵活更贴近真实世界的不确定性那 Transformer 模型怎么和贝斯推断联系起来呢这篇文章的作者们就发现 Transformer 模型有一种很神奇的能力叫上下文学习 In Context LearningICL 就是说你不用专门去训练它只要给它一些例子它就能根据这些例子理解你的意图完成新的任务听起来像极学极用

对,这篇文章就探索 Transformer 模型能不能利用这种上下文学习能力来做 BAS 推断也就是让模型在上下文中学习如何进行概率思考而不是只给出确定性的预测这听起来太酷了那它们是怎么实现的呢?

他们用了一种巧妙的方法,叫用于贝叶斯推断的上下文学习 ICL 核心思想是用合成数据来训练 Transformer 这些合成数据是根据一些概率模型生成的,包含了数据和引电量的联合分布信息为什么要用合成数据呢?用合成数据的好处是我们可以控制数据的分布,让模型学到更通用的贝叶斯推断方法

而不是只在真实数据上过拟核而且合成数据可以大量生成解决训练数据不足的问题原来如此那训练出来的 Transformer 模型真的能做贝叶斯推断吗是的实验结果表明这种方法训练出来的 Transformer 模型后页样本的质量可以和传统的贝叶斯推断方法相媲美甚至在某些情况下更好

太厉害了 Transformer 模型不仅能做语言视觉任务还能做贝叶斯推断感觉它真是无所不能 Transformer 模型的能力确实很强大这篇文章的意义在于它展示了深度学习模型在贝叶斯框架下的应用潜力为我们提供了一种新的贝叶斯建模思路接下来我们关注一篇机器人领域的论文

题目是 Improving Vision Language Action Model with Online Reinforcement Learning 这个视觉语言行动模型听起来就和机器人很相关是的这篇文章研究的是如何用强化学习来改进机器人的视觉语言行动模型也就是 VLA 模型 VLA 模型这是什么意思呢 VLA

听起来好智能,那为什么要用强化学习来改进 VLA 模型呢?

因为现在的 VLA 模型大多是用监督学习训练的也就是用大量的人工标注数据来训练但是这种方法的泛化能力有限很难让机器人在真实世界中灵活应对各种复杂情况强化学习的优势在于可以让机器人在与环境的在线互动中学习不断试错从而提升模型的鲁棒性和泛化能力强化学习确实更符合机器人的学习方式

那这篇文章是怎么做的呢这篇文章提出了一个新框架叫 I21VLA 也就是迭代强化学习 VLA 框架它的核心思想是在线强化学习和监督学习交替进行在线强化学习和监督学习交替进行这是什么意思

你可以理解成先用监督学习让 VLA 模型学会一些基本的技能比如识别物体理解指令然后再用在线强化学习让机器人在真实环境中不断试错学习更高级的操作技巧并提高模型的泛化能力那为什么要交替进行呢直接用强化学习不行吗

直接用強化學習對於大型的 VZ 模型來說訓練很不穩定容易出現性能下降的問題而且計算資源需求也很大 IREVLA 框架通過交替進行兩種學習方式穩定了訓練過程降低了計算需求原來如此

那 IREVLA 框架效果怎么样呢?实验结果表明,IREVLA 框架显著提高了 VLA 模型的性能,不仅在强化学习训练的新任务上表现更好,而且在原始的监督学习任务上性能也得到了提升。更重要的是,模型的泛化能力也增强了,能够更好地应对未见过的任务。

太棒了,感觉 IREVLA 框架为机器人技术的发展又向前迈进了一步。是的。

这篇文章的工作表明,在线强化学习是改进 Viala 模型的有效途径,可以帮助机器人更好地适应真实世界,完成更复杂的任务。最后我们来看第五篇论文,题目是 Sample Efficient Behavior, Cloning Using General Domain Knowledge。这个行为克隆听起来有点像模仿学习。是的,行为克隆 Behavior,Cloning,BC 就是一种模仿学习的方法。

它的目标是让 AI 模型模仿专家的行为学习完成特定任务比如你想让无人驾驶汽车学会开车就可以用人类驾驶员的驾驶数据来训练模型让模型模仿人类的驾驶行为行为克隆听起来挺直接的

那这篇文章的重点是什么呢?这篇文章的重点是提高行为克隆的样本效率,也就是说用更少的专家演示数据就能训练出性能更好的模型。样本效率确实很重要,数据标注是很费时费力的,那他们是怎么提高样本效率的呢?

他們提出了一種新方法,叫知識引導模型 K.I.的核心思想是利用通用領域知識來指導模型的學習領域知識是指哪些知識呢?領域知識就是指任務相關的鮮豔知識比如對於無人駕駛任務來說領域知識就包括交通規則、駕駛常識等等這篇文章的作者們用自然語言來表達這些領域知識

然后利用大型语言模型的编码能力将这些知识融入到模型的结构中用 LN 把领域知识融入模型结构听起来好神经是的 KM 的创新之处在于它不是像传统的神经网络那样从零开始学习而是先用领域知识构建一个骨架然后再用少量的专家演示数据来填充血肉哦我明白了就像盖房子先搭好

那这种方法效果怎么样呢?

也就是更稳定更可靠太厉害了感觉 Tim 维行为克隆技术打开了新的思路以后我们可能只需要少量的数据就能训练出很强大的 AI 模型了是的 KM 的工作表明降领域知识融入模型结构是提高样本效率的有效途径这对于那些数据匮乏或者数据标注成本高的任务来说尤其有价值

非常感谢小 T 今天对我们带来的精彩解读听完这五篇论文感觉 AI 技术真实日新月异每天都有新的突破是的 AI 领域的研究非常活跃新的思想和方法层出不穷希望今天的分享能让大家对 AI 的最新进展有所了解相信听众朋友们一定都收获满满感谢大家收听本期太快报我们下期再见下期见拜拜

AI前沿：SFT vs. RL、Agent安全研究与机器人高效学习 14:36 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：SFT vs. RL、Agent安全研究与机器人高效学习