We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI的“鱼与熊掌”:既要跑得快,又要学得好?

AI的“鱼与熊掌”:既要跑得快,又要学得好?

2025/6/17
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
Topics
我观察到目前主流的AI模型,如Transformer,虽然学习能力很强,能够并行处理大量信息,但工作起来却很慢,而且容易健忘。在推理时,它们需要重新处理所有信息,导致计算量随着对话长度增加而急剧增加。这就像一个天才可以同时阅读一万本书,但每次回答问题都需要重新翻阅这些书。 另一方面,传统的RNN模型虽然工作速度很快,能够像职员一样快速处理信息,但学习能力有限,容易忘记最初的信息,格局不够。因此,我一直在思考,是否能够创造出一种AI,既有天才的学习能力,又有职员的高效执行力,既能在训练时并行处理,又能在工作时串行快速响应。 最近的研究表明,通过一种分块总结接力前进的策略,AI可以兼顾并行训练和串行推理。这种策略将AI的学习过程分成小块,AI可以并行处理这些块并生成摘要。在工作阶段,AI只需要查看前一个章节的摘要,然后结合当前章节继续前进。这种摘要接力的方式降低了记忆负担,提高了处理速度。这就像一场接力赛,每一棒选手只需要从上一棒选手那里接过接力棒,然后奋力跑完自己的赛程。 这种框架不仅统一解释了现有模型,还启发了新模型的创造。例如,Transformer PSM模型在长记忆任务上表现优异,速度优势明显。真正的创新在于对底层规律的洞察,建立并行和串行的二元性。该研究提供了一个通用框架,可以组合不同的章节处理器和摘要算法。通过巧妙的结构设计,AI可以兼顾学习能力和运行速度。这个发现为未来AI的发展指明了方向。

Deep Dive

Shownotes Transcript

在咱们日常生活里总会遇到一些两难的选择比如说你想要一辆车既要有跑车的性能又要有家用车一样的省油这可能吗在很多领域这就是所谓的鱼与熊掌不可兼得在人工智能的世界里尤其是我们天天都在听说的大圆模型也面临着一个类似的根本性矛盾

你看现在的主流的 AI 模型比如大家熟悉的 Transformer 就是 GBT 背后的那种架构它有一个巨大的优点学习能力特别强在学习也就是训练的时候它可以把一整本书的所有内容同时铺开一眼看尽并行处理这就像是一个天才学生可以同时阅读一万本书找出他们之间的关联效率极高学得又深又透但它的缺点也同样致命

工作起来特别慢还特别健忘当他要一个字一个字的跟你对话也就是推理的时候每说一个新字他都得把前面你说过的所有话都重新看一遍这导致他的计算量随着对话变长而急剧增加这就像是那个天才虽然读过一万本书但是每回答你一个问题都得把那一万本书重新翻一遍这谁受得了另一边呢还有一种老派的 AI 模型叫做 RNN

他正好相反他工作起来非常快一个字一个字的处理就像是一个办事利索的职员看完一份文件寄个摘要然后就看下一份从不回头他的记忆是流动的占用的资源很少但他的缺点是学习能力有限因为他总是顺序着看很容易忘了最开始的东西抓不住长距离的重点就像那个职员虽然手脚麻利但格局不够看不到整个项目的全貌

好了 问题来了我们能不能创造出一种 AI 既有天才的学习能力又有职员的高效执行力呢既能在训练时并行饱览全局又能在工作时串行快速响应过去大家觉得这很难但最近一篇名为 Sequential Parallel Duality in Graphics Scannable Models 的论文就为我们捅破了这层窗户纸它告诉我们鱼与熊掌或许真的可以兼得

这篇论文的精华不在于提出了一个多么炫酷的新模型而在于它揭示了一个深刻的底层原理它发现所有那些试图兼顾并行训练和串行推理的成功模型背后都遵循着一个共同的逻辑就像是被同一根线给串了起来这个逻辑我们可以通俗地理解为一种分块总结接力前进的策略想象一下我们不再让 AI 一个字一个字地读也不再让 AI 一个字一个字地读

也不让他一口气读完全文而是把它分成一小块一小块的章节在论文里叫做 trunk 首先是学习阶段也就是并行阶段 AI 可以同时处理所有这些章节并为每一个章节快速生成一个内容摘要这个过程可以并行完成非常快保证了学习效率这就像把一本书分给不同的人每个人负责一章并写出摘要

第二是工作阶段这个阶段是串行的当 AI 需要生成新内容时它不需要回头看之前所有的原文它只需要看一下前一个章节的摘要就能心灵神会然后结合当前正在处理的小章节继续往前走处理完当前的章节后它会把之前的摘要和当前章节内容再整合成一个新的更全面的摘要然后把旧的原文丢掉这个过程就像是一场接力赛

每一棒选手也就是每个章节的处理只需要从上一棒选手那里接过接力棒也就是那个摘要然后奋力跑完自己的赛程就行了这样一来他的记忆负担始终很小

跑起来自然也就飞快这篇论文把所有具备这种分块总结接力前进能力的模型统一命名为潜坠可扫描模型也就是标题里的 Prefix Scannable Models PSM 这个名字虽然听起来很技术但它的核心思想就是我们刚才说的那个接力赛的比喻

更妙的是这个框架还打开了新世界的大门它不仅统一了解释了像 MOMBO 这类新锐模型为什么又快又好还启发研究者可以创造出全新的模型比如论文里就尝试做了一个迷你版 Transformer 接力赛模型

也就是 Transformer PSM 它的每一个章节内部用的是强大的 Transformer 来处理保证了理解的深度而章节之间呢则使用了高效的摘要接力方式传递信息保证了速度实验结果怎么样呢非常惊人在一些特别考验长期记忆力的任务上这种新模型的表现远远超过了传统的 Transformer 和 Mamba

而且在生成长文本时它的速度优势非常明显不会因为文本变长而越来越慢所以这篇论文带给我们的启发是什么呢首先真正的创新往往来自于对底层规律的洞察它不是简单的修修补补而是找到了连接并行和串行这两个看似矛盾的世界的桥梁建立了一种顺序与并行的二元性也就是说

也就是标题里所说的 Scrinshow Parallel Duality 其次它提供了一个食谱而不是一道菜它给出了一个设计高效 AI 模型的通用框架未来研究者们可以在这个框架下自由地组合不同的章节处理器和摘要算法就像用不同的食材和烹饪方法做菜一样创造出各种各样适合不同任务的又快又好的新模型总而言之

这篇论文就像一位武林高手没有纠结于一朝一世的优劣而是直接揭示了上乘武学的内功心法他告诉我们在追求更强 AI 的路上不必在学得好和跑得快之间做出痛苦的取舍而是通过巧妙的结构设计我们可以让 AI 成为一个既能博览群书深思熟虑又能严谨易改反应神速的理想伙伴这个

这个发现无疑为未来 AI 的发展指明了一个充满希望的方向