本期播客精华汇总:
- [LG] InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU 提出 InfiniteHiP 框架,通过模块化分层剪枝、动态 RoPE 调整和 KV 缓存卸载等技术,将LLM上下文处理能力扩展至300万Token,推理速度提升近19倍。
- [CL] CopySpec: Accelerating LLMs with Speculative Copy-and-Paste Without Compromising Quality 提出 CopySpec 框架,利用 “投机性复制粘贴” 加速LLM推理,通过高效识别和复制重复Token序列,实现最高3倍的加速,且不影响生成质量。
- [CL] SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models 提出 SelfCite 自监督框架,让LLM学会生成高质量的句子级引用,通过 “上下文消融” 技术生成奖励信号,提升生成内容的可信度和可追溯性。
- [CL] SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models 提出 SQuARE 提示技术,通过引导LLM进行 “自我审问”,生成并回答多个辅助问题,增强模型在复杂问答任务中的推理能力,尤其对小模型性能提升显著。
- [LG] Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting 提出 Eidetic Learning 方法和 EideticNet 架构,通过迭代剪枝和神经元回收机制,有效解决持续学习中的 “灾难性遗忘” 问题,并实现无需任务ID的自动任务路由。
- [LG] Escaping Collapse: The Strength of Weak Data for Large Language Model Training 研究表明,即使是 “弱数据” 也能有效防止LLM在合成数据迭代训练中发生 “模型坍缩”,并提出受 Boosting 算法启发的迭代训练框架,少量 “弱数据” 即可显著提升模型性能。
完整推介:https://mp.weixin.qq.com/s/MWV_AzKGTG-Jw5SjmRYLiA