New News: System-2 Fine-tuning for Robust Integration of New Knowledge新消息:系统-2 微调以实现新知识的稳健集成引入“系统2微调”和New News数据集,通过自问答策略显著提升AI内化新知识的能力,发现“上下文遮蔽效应”,为新闻推荐和知识更新提供新思路。
More Optimal Fractional-Order Stochastic Gradient Descent for Non-Convex Optimization Problems更优分数阶随机梯度下降算法用于非凸优化问题提出2SEDFOSGD算法,通过动态调整分数阶指数优化非凸问题,收敛更快、更鲁棒,适合自动驾驶等复杂数据场景。
The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures for Robot Policy Learning离散时间高斯过程混合对机器人策略学习的非平凡有效性MiDiGaP以离散时间高斯过程混合表示,仅用5个演示高效学习复杂机器人任务,支持推理时避障和跨机器人迁移,适用于工业和家用机器人。
RM-R1: Reward Modeling as ReasoningRM-R1:奖励建模作为推理RM-R1将奖励建模定义为推理任务,通过推理链蒸馏和“规则链”强化学习,提升判断准确性和透明度,适用于聊天机器人对齐和自动评分。