[CL] Streaming DiLoCo with overlapping communication:Towards a Distributed Free Lunch提出了Streaming DiLoCo算法,通过部分参数同步、通信计算重叠和梯度量化等技术,显著降低了分布式训练大型语言模型所需的通信带宽,朝着实现分布式训练的“免费午餐”迈进。
[CL] R.I.P.:Better Models by Survival of the Fittest Prompts提出了Rejecting Instruction Preferences (RIP)方法,通过分析拒绝回复的质量和奖励差距来筛选低质量指令数据,有效提升了指令微调数据的质量和模型性能。
[LG] Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge提出了EvalPlanner框架,将LLM-as-a-Judge的评估过程解耦为规划和推理阶段,通过迭代自训练和偏好优化,提升了AI模型作为评估者的性能,尤其是在复杂评估任务上表现突出。
[CL] People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text研究发现,频繁使用ChatGPT等AI写作工具的人类“专家”,能够比多数自动检测器更准确、更鲁棒地检测AI生成文本,揭示了人类在复杂文本判别任务中的独特优势。
[LG] TAID:Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models提出了时间自适应插值蒸馏 (TAID) 方法,通过动态调整蒸馏目标,有效解决了知识蒸馏中teacher-student能力差距和模式崩溃等问题,实现了高效的模型压缩和知识迁移。