[LG] The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training: 揭示了非光滑凸优化理论与深度学习学习率调度(特别是 wsd 调度冷却阶段的优势)之间惊人的吻合性,并利用理论指导实现了学习率的优化和迁移,提升了大型语言模型训练效率。
[LG] Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming: 创新性地提出了基于宪法规则和合成数据训练的宪法分类器,有效防御了大型语言模型的通用越狱攻击,并通过大规模红队测试验证了其在真实场景下的高鲁棒性和实际部署可行性。