在咱们日常生活里总会遇到一些两难的选择比如说你想要一辆车既要有跑车的性能又要有家用车一样的省油这可能吗在很多领域这就是所谓的鱼与熊掌不可兼得在人工智能的世界里尤其是我们天天都在听说的大圆模型也面临着一个类似的根本性矛盾
你看现在的主流的 AI 模型比如大家熟悉的 Transformer 就是 GBT 背后的那种架构它有一个巨大的优点学习能力特别强在学习也就是训练的时候它可以把一整本书的所有内容同时铺开一眼看尽并行处理这就像是一个天才学生可以同时阅读一万本书找出他们之间的关联效率极高学得又深又透但它的缺点也同样致命
工作起来特别慢还特别健忘当他要一个字一个字的跟你对话也就是推理的时候每说一个新字他都得把前面你说过的所有话都重新看一遍这导致他的计算量随着对话变长而急剧增加这就像是那个天才虽然读过一万本书但是每回答你一个问题都得把那一万本书重新翻一遍这谁受得了另一边呢还有一种老派的 AI 模型叫做 RNN
他正好相反他工作起来非常快一个字一个字的处理就像是一个办事利索的职员看完一份文件寄个摘要然后就看下一份从不回头他的记忆是流动的占用的资源很少但他的缺点是学习能力有限因为他总是顺序着看很容易忘了最开始的东西抓不住长距离的重点就像那个职员虽然手脚麻利但格局不够看不到整个项目的全貌
好了 问题来了我们能不能创造出一种 AI 既有天才的学习能力又有职员的高效执行力呢既能在训练时并行饱览全局又能在工作时串行快速响应过去大家觉得这很难但最近一篇名为 Sequential Parallel Duality in Graphics Scannable Models 的论文就为我们捅破了这层窗户纸它告诉我们鱼与熊掌或许真的可以兼得
这篇论文的精华不在于提出了一个多么炫酷的新模型而在于它揭示了一个深刻的底层原理它发现所有那些试图兼顾并行训练和串行推理的成功模型背后都遵循着一个共同的逻辑就像是被同一根线给串了起来这个逻辑我们可以通俗地理解为一种分块总结接力前进的策略想象一下我们不再让 AI 一个字一个字地读也不再让 AI 一个字一个字地读
也不让他一口气读完全文而是把它分成一小块一小块的章节在论文里叫做 trunk 首先是学习阶段也就是并行阶段 AI 可以同时处理所有这些章节并为每一个章节快速生成一个内容摘要这个过程可以并行完成非常快保证了学习效率这就像把一本书分给不同的人每个人负责一章并写出摘要
第二是工作阶段这个阶段是串行的当 AI 需要生成新内容时它不需要回头看之前所有的原文它只需要看一下前一个章节的摘要就能心灵神会然后结合当前正在处理的小章节继续往前走处理完当前的章节后它会把之前的摘要和当前章节内容再整合成一个新的更全面的摘要然后把旧的原文丢掉这个过程就像是一场接力赛
每一棒选手也就是每个章节的处理只需要从上一棒选手那里接过接力棒也就是那个摘要然后奋力跑完自己的赛程就行了这样一来他的记忆负担始终很小
跑起来自然也就飞快这篇论文把所有具备这种分块总结接力前进能力的模型统一命名为潜坠可扫描模型也就是标题里的 Prefix Scannable Models PSM 这个名字虽然听起来很技术但它的核心思想就是我们刚才说的那个接力赛的比喻
更妙的是这个框架还打开了新世界的大门它不仅统一了解释了像 MOMBO 这类新锐模型为什么又快又好还启发研究者可以创造出全新的模型比如论文里就尝试做了一个迷你版 Transformer 接力赛模型
也就是 Transformer PSM 它的每一个章节内部用的是强大的 Transformer 来处理保证了理解的深度而章节之间呢则使用了高效的摘要接力方式传递信息保证了速度实验结果怎么样呢非常惊人在一些特别考验长期记忆力的任务上这种新模型的表现远远超过了传统的 Transformer 和 Mamba
而且在生成长文本时它的速度优势非常明显不会因为文本变长而越来越慢所以这篇论文带给我们的启发是什么呢首先真正的创新往往来自于对底层规律的洞察它不是简单的修修补补而是找到了连接并行和串行这两个看似矛盾的世界的桥梁建立了一种顺序与并行的二元性也就是说
也就是标题里所说的 Scrinshow Parallel Duality 其次它提供了一个食谱而不是一道菜它给出了一个设计高效 AI 模型的通用框架未来研究者们可以在这个框架下自由地组合不同的章节处理器和摘要算法就像用不同的食材和烹饪方法做菜一样创造出各种各样适合不同任务的又快又好的新模型总而言之
这篇论文就像一位武林高手没有纠结于一朝一世的优劣而是直接揭示了上乘武学的内功心法他告诉我们在追求更强 AI 的路上不必在学得好和跑得快之间做出痛苦的取舍而是通过巧妙的结构设计我们可以让 AI 成为一个既能博览群书深思熟虑又能严谨易改反应神速的理想伙伴这个
这个发现无疑为未来 AI 的发展指明了一个充满希望的方向