小安:我们讨论了AI模型的记忆限制问题,就像人类聊天一样,AI只能记住有限的上下文信息。目前,一些模型的上下文窗口只有128K个token,这限制了其处理长文档的能力。
小T:是的,这就像我们人类聊天一样,如果聊了几个小时,我们也很难记住开头的内容。这篇论文《From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models》提出了一种两阶段训练方法,将大语言模型的上下文窗口扩展到400万个token,这极大地提升了模型处理长文档的能力。
小安:这种方法包括持续预训练和指令微调两个步骤。持续预训练让AI学习处理超长内容,指令微调则确保AI仍然能够理解指令并给出正确的答案。有趣的是,他们发现单步预训练比复杂的多步方法更有效。
小T:他们还使用了特殊的分隔符和ERROR缩放方法来帮助AI更好地组织超长信息。这种超长记忆能力可以应用于许多领域,例如长文档摘要、长视频理解,甚至可以帮助律师分析大量的法律文件,以及帮助科学家梳理海量的研究论文。
小安:虽然这项技术非常有前景,但他们也指出了一个挑战:模型的安全性仍然需要进一步改进,以防止生成不准确或有害的信息。