大家好 欢迎来到本期太快报 我是小安大家好 我是小 T 常上下文大爷模型听起来可能有点复杂 但其实很好理解想象你和朋友聊天时 能记住对方前几句话 还好但如果聊了几个小时 你还能记得开头的事吗现在的 AI 模型也有类似的问题 他们的记忆有限比如只能处理 12 万 8 千个字的上下文但这篇论文 Efficient Training of Ultra-Long Context
Large Language Models 告诉我们他们找到了一种方法把 AI 的记忆力扩展到 400 万字甚至更多哇 400 万字真的是多长的小说他们是怎么做到的是不是像我们人类用笔记一样给 AI 也加了个大脑存储器
有点像但更聪明他们用了一种两步走策略第一步叫持续预训练让 AI 学会处理超长内容第二步叫指令微调确保 AI 还能听懂指令回答问题特别有趣的是他们发现用一种叫单步预训练的简单方法比复杂的多步方法更有效就像我们直接记重点比翻来覆去复习更高效
他們還用了一些技術,比如特殊的分隔符和一種叫 ERROR 的縮放方法,幫助 AI 更好的組織這些超長信息。這聽起來很厲害,那這種超長記憶對我們有什麼用呢?比如我寫文章或看視頻時,能不能讓 AI 幫我總結超長的內容?絕對可以超長上下文能力,可以讓 AI 理解長文檔、長視頻,甚至幫律師分析厚厚的法律文件。
或者帮助科学家梳理海量的研究论文更酷的是他们的 ultra long bar b 模型不仅在长内容上表现优秀在常规任务上也没掉链子比如数学题和编码问题这说明 AI 可以既记得住又想得清不过他们也提到一个挑战模型的安全性还没完全解决比如可能会生成不准确或有害的信息这需要未来改进确实很激动人心那
第二个话题呢,听说是关于深度神经网络的几何形状,这听起来像数学课上的内容和 AI 有什么关系。别担心小爱,这其实非常有趣,论文 Factor and Regular Geometry of Deep Neural Networks,研究的是 AI 模型内部的形状。
你知道 AM 模型就像一堆叠起来的层每层用不同的激活函数来处理信息这篇论文发现这些函数的规则性决定了模型内部的集合结构会变得像分形还是规则分形那是像树枝一样无限分叉的东西吧
规则又是什么?对,分形就像海岸线的曲线越看越复杂,规则就像平滑的圆形很整齐。他们发现如果用一些不规则的函数,比如接约函数,模型的内部结构会变得越来越复杂,像分形。但如果用更平滑的函数,比如 renew 或 tun,
结构就更规则想象一个建筑用的材料是杂乱的石头还是光滑的砖头形状和稳定性会大不一样这对我们设计 AI 模型很有启发比如选择什么函数能让模型更稳定或更灵活这真是新奇我能想象设计师根据不同需求选择材料这对 AI 的应用有什么帮助吗非常大理解这些几何特性可以帮助我们设计更高效的模型
比如在图像识别或语音处理中选择合适的激活函数能让 AI 更快学到东西但论文也说他们的研究还局限在理论和简单实验实际应用中还需要更多测试比如模型训练后的变化
好吧第三个话题是 Lattice 听起来像个谜这和我们刚才聊的记忆效率有关吗没错 Learning to efficiently compress the memory 解决的是另一个大问题传统 AI 模型处理长序列式像 Transformer 计算量会向平方增长太费资源他们提出了 Lattice 一种新方法像一个聪明的小助手能高效压缩记忆只存最重要的东西压缩记忆吗这就像我收拾行李只带必需品吗
正是这个道理 Lattice 用了一种叫正交更新的技术确保每个记忆槽只存新的非重复的信息避免浪费空间他们还用优化算法动态调整这些记忆向我们实时整理抽屉实验证明 Lattice 在长文本上的表现比很多现有方法都好
尤其适合处理很长的对话或文档这听起来很实用那第四个话题 Hogwell Inference 又是什么名字听起来很狂野名字确实很吸引人 Hogwell InferenceParallel LM Generation via Concurrent Attention
研究的是让多个 AI 模型一起工作就像团队协作他们让几个 AI 实力共享一个注意力缓存试试看彼此的进展然后一起解决复杂问题比如数学难题特别惊喜的是这些模型不用额外训练就能自然协作靠的是巧妙的提示和一种叫 ROPE 的技术这太酷了就像一群侦探一起破案每个侦探都能看到别人发现的线索那这种方法能加快 AI 解决问题吗
可以,而且效率很高。实验显示这种方法在复杂任务上比单打独斗快得多,也比简单的定型方法聪明。但它也有挑战,比如结果可能有点不稳定,需要更好的提示设计。最后一个话题是 Knowledge Instruct。
听起来像教 AI 学新知识,这和前面提到的记忆有关系吗?关系很大,Knowledge Instruct Effective Continual Pre-training from Limited Data Using Instructions 提出了一种方法让 AI 从很少的数据中快速学到新知识,比如某个行业的专业术语。
他们用指令和合成数据教 AI 就像我们用问题和答案帮孩子复习功课特别棒的是这种方法成本低效果好还能防止 AI 忘掉老知识这对中小企业或需要定制知识的场景是不是特别有用
下期见拜拜