[LG] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training: 对比研究表明,强化学习 (RL) 在基础模型后训练中展现出更强的泛化能力,尤其是在规则学习和视觉任务中,而监督微调 (SFT) 更侧重于记忆训练数据。RL还能提升模型的视觉识别能力,SFT则有助于稳定模型输出格式,为后续RL训练打基础。
[LG] Context is Key in Agent Security: 提出了 Conseca 框架,强调 上下文是Agent安全的关键。Conseca 利用语言模型动态生成上下文相关的安全策略,并进行确定性执行,在保证安全性的同时,尽可能维持Agent的效用,为通用Agent安全提供了一种可扩展的解决方案。
[LG] Can Transformers Learn Full Bayesian Inference in Context?: 研究表明,Transformer 模型可以通过上下文学习 (ICL) 执行全贝叶斯推断。通过在合成数据上训练,模型能够隐式学习后验分布,其采样质量可与传统 MCMC 和 VI 方法媲美,为深度学习在贝叶斯框架下的应用提供了新思路。
[RO] Improving Vision-Language-Action Model with Online Reinforcement Learning: 提出了 iRe-VLA 框架,通过 在线强化学习和监督学习迭代 的方式,有效提升了视觉-语言-行动模型 (VLA) 在机器人控制任务中的性能和泛化能力,并兼顾了训练稳定性与计算效率。
[LG] Sample-Efficient Behavior Cloning Using General Domain Knowledge: 提出了 知识引导模型 (KIM),利用 大型语言模型 (LLM) 和通用领域知识 实例化策略结构,并用少量演示数据进行参数调整,显著提高了行为克隆的 样本效率和鲁棒性,突显了结构化知识在机器学习中的重要作用。