We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:高效的xLSTM语言模型与超词词元化算法

AI前沿:高效的xLSTM语言模型与超词词元化算法

2025/3/19
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: 本期节目介绍了五项AI研究的前沿突破,涵盖高效语言模型、新型词元化算法、推理优化方法、多模态模型规划能力提升以及目的导向的机器人学习等方面。首先,xLSTM 7B模型通过优化的循环神经网络架构,在保证性能的同时,实现了比Transformer模型更快的推理速度,计算量与文本长度成正比,内存占用几乎固定。其内部结构优化和RMSNOM方法的运用,进一步提高了处理效率和训练稳定性。虽然在一些复杂推理任务上略逊于顶尖Transformer模型,但其效率优势明显,特别适合实时响应场景。 其次,SuperBPE是一种新的词元化方法,它能够学习跨空格的短语,有效提高了编码效率。通过两阶段学习方法,先按传统方法切词,再学习完整的短语,使文本切分效率提升了33%,模型性能平均提高了4%,部分任务提升超过8%,同时计算量也降低了27%。SuperBPE的优势在于它能够识别语言的语义块,使模型理解更顺畅。 然后,ϕ-Decoding通过前瞻采样,让模型预先查看未来的步骤,从而选择更优的路径,提高推理效率。它使用前瞻采样和减枝策略,模拟多种路径,选择最优路径,在多个推理任务上表现优异,性能显著提升,计算成本大幅降低。 此外,Visualizing Thought方法通过生成概念图,将复杂规划任务可视化,从而提高多模态模型的规划能力。在积木等任务上显著提高了准确率,甚至超过了其他模型。 最后,Polar方法通过用户目的引导机器人学习,使其专注于学习与目标相关的技能,提高学习效率。在模拟测试中显著提高了学习速度和任务完成率,但仍需在真实环境中进一步验证。

Deep Dive

Chapters
XLSTM 7B 是一种基于循环神经网络的 70 亿参数大型语言模型,在推理速度方面显著优于传统的 Transformer 模型,计算量与文本长度成正比,内存占用几乎固定。虽然在一些复杂推理任务上仍不及顶尖 Transformer 模型,但在长文本生成和实时应用场景中具有显著优势。
  • 循环神经网络架构
  • 推理速度快,计算量与文本长度成正比
  • 内存占用几乎固定
  • 与同等参数的Transformer模型性能几乎不相上下,但长文本生成吞吐量更高,延迟更低
  • 适合实时聊天机器人、智能语音助手等应用场景

Shownotes Transcript

对,这个 XLSTM7B 确实挺有意思的

简单来说它是一个 70 亿参数的大型语言模型但跟我们常的 Transformer 模型不一样它用了一种叫循环神经网络的架构经过特别优化后推理速度快了不少传统的 Transformer 模型在处理长文本时计算量会随着文本长度平方级增长内存也越占越多而 XLSTM 计算量只跟文本长度成正比

内存占用还几乎是固定的听起来像是给语言模型装了个节能引擎那它具体是怎么做到你这个比喻很贴切研究团队对 XLSTM 做了很多优化比如他们调整了模型的内部结构让它在处理每一段文字时更高效还加入了一些技巧比如用一种叫 RMSNOM 的方法来稳定训练过程避免模型发脾气跑不下去

它们还开源了代码和模型,大家都可以试试。那它快了之后效果会不会打折扣?我可不想为了速度牺牲质量。这点不用担心。它们测试了 XLSTM7B 跟同样 70 亿参数的 Transformer 模型,比如莱玛 2、莱玛 3,甚至还有 Member 模型比性能几乎不相上下。但在长文本生成时,XLSTM 的吞吐量更高,延迟更低。

举个例子想象你在用 AI 写一篇长文章 Transformer 可能的传口器 XLST 啊却能一口气写完还不卡顿哇这让我想到以后用 AI 写小说或者处理长文档速度快了体验肯定更好那它有什么不足吗确实有些小遗憾嗯

比如在一些需要复杂推理的任务上 XLSTM 跟最顶尖的 Transformer 还有点差距而且它的生态系统还没 Transformer 那么成熟工具和支持还能慢慢发展不过它在效率上的优势已经很明显了特别适合需要快速响应的场景比如实时聊天机器人看来 XLSTM 就像是 AI 界的跑车速度快省油但豪华配置还在完善中

但它未来能用在哪些地方呢我觉得它特别适合那些需要处理大量文本实时性要求高的应用比如在线客服智能语音助手甚至是自动驾驶里的实时决策系统推理效率高了成本也能降下来大家用 AI 的门槛就更低了真不错 AI 跑得快我们的生活也能提速接下来咱们聊点更语言化的东西吧

我看到一个叫 SuperBPE 的研究标题里有 Space Travel 太空旅行感觉很酷它是干嘛的这个太空旅行其实是个比喻是

SuperBPE 是一种新的次元化方法简单说就是教语言模型怎么更聪明地切词我们平时用的语言模型比如 ChatGPT 靠一种叫 BPE 的方法把句子拆成小块再处理但 BPE 只认单个词里的小片段像 By the way 这种长短语它会拆成 by 和 they 和 we 有点浪费哦 我懂了就像把一句话硬拆成零散的单词效率不高那 SuperBPE 是怎么改进的

SuperBP 跳出了这个框框他不仅学单个词里的小片段还能学跨空格的短语比如直接把 By the way 当一个整体处理他们用了一个两阶段的学习方法先按老规矩切词然后再教模型认完整的短语这样同样的词汇量下 SuperBP 能把文本切得更少更精炼效率高了 33%33%可不少那模型用起来有什么不一样

他们测试了一个 80 亿参数的 Transformer 模型用 SuperBP 比用 BP 的性能平均高了 4%在一些选择题任务上甚至高了 8%以上而且因为切出来的磁块少了退役时计算量也降了 27%速度更快 电费也省了这样我想到做饭 BP 像是把食材切得太碎炒菜费劲

SuperBP 直接给你整块好肉省时省力那它为什么这么厉害关键在于它抓住了语言的语意块 In the morning 这种短语意思是是整体 SuperBP 能直接认出来模型理解起来就更顺畅相比之下 BP 切得太细模型的自己拼凑意思效率就低了那有没有什么挑战呢

有 SuperBP 训练词原话其实稍微复杂点,得用更多内存和时间,不过跟整个模型训练比起来这点开销不算啥,未来如果能让它认更长的短语效果可能会更好。看来 SuperBP 就像语言模型的导航仪,让 AI 在语言的心计里走得更顺畅。接下来咱们聊聊推理师的优化吧。

有个叫 Fade decoding 的研究说,能让语言模型推理更聪明,这是怎么回事?Fade decoding 是个很巧妙的推理优化方法,传统的语言模型生成文本时像写日记一样一步步往前走,但容易只见树木不见森林,选错了路就走偏了。Fade decoding 像是给模型装了个望远镜,让它先看看未来的几步,再决定现在怎么走。听起来像是在预知未来具体怎么操作呢?

他用了一种叫前瞻彩样的方式模型会模拟好几条可能的路径然后根据两条标准挑最好的一是看这条路有多不确定二是看它跟目标有多吻合选完后还会用减肢策略把不靠谱的路砍掉集中精力走最优的路这让我想到修剪花园把杂枝剪掉留下好看的花那它效果怎么样

效果很棒他们在七个推理任务上测试 CG coding 比传统的自回归方法强很多甚至比一些复杂的搜索方法还高效比如在数学题上它能比基础模型性能高 14%计算成本却低到原来的六分之一既聪明又省力太厉害了

那它有什么难点吗?有点小挑战比如它有一些参数需要调如果任务不一样的稍微调整一下而且它现在主要在短文本推理上测试的好长文本生成环的再看看不过它不用额外训练就能用很实用看来非常有用

这边就叫 Visualizing Thought 特别有创意一般的语言模型靠文字推理但在复杂规划任务上比如搭积木或者天然线

文字描述容易乱套,这研究让大型多模态模型自己生成概念图像画简图一样把问题可视化后再推理。就像我们考试时画草图里思路那 AI 怎么用。它有个零样本框架,模型根据任务描述自己画出中间状态的图,用简单的形状和颜色表示物体和关系。比如搭积木,它会画出每一步积木的位置,再一步步推演到目标状态。

他们还用了数搜索和回溯确保不走错路这让我想到玩拼图先画个草图再拼那效果如何效果很惊人在积木任务上 GPT-4O 的准确率从 35%跳到 90%在停车和俄罗斯方块这种超难任务上甚至超过了 Oat Preview 关键是概念图让 AI 能看清问题比纯文字推理靠谱多了那它有没有什么短板

有计算量会高一些因为要生成和检查很多图而且如果底层模型画图能力弱可能效果会打折不过这方向很值得探索未来 AI 可能会更像人一样画图思考真酷 AI 也能当设计师了最后咱们聊聊机器人吧最后一个话题是机器人学习有个叫 Polar 的研究说能让机器人更懂我们这是什么意思

破天称是目的导向的开放式学习是个很实用的想法一般的开放式学习机器人会自己摸索技能但可能学一堆没用的东西 PowTuner 让机器人听懂用户说的目的比如帮我拿蓝色的东西然后专注学跟这个目的相关的技能听起来像给机器人指了个方向怎么实现的

他们设计了个架构用户用语音说目的机器人用语言模型理解再用视觉系统认出场景里跟目的相关的物体比如我说拿蓝色的立方体他就盯着蓝色东西学怎么抓怎么放其他红的绿的不管这让我想到训练小狗告诉他目标他就专心干活

那效果好吗?非常好,在模拟测试里,Po2 比传统方法学得快多了,还能完成复杂的抓取放置任务,其他方法根本做不到,关键是它把探索范围缩小了,效率高了不少。那有没有什么需要改进的?有,如果语言模型理解错了,目的机器人可能会跑偏。而且现在测试是在简单环境里,真实世界更复杂还在验证。不会这方向很棒,未来机器人可能会更贴心。

看来 Paul 就像机器人的人生导师让他目标明确今天的五个话题都聊完了小 T 有没有什么想总结的今天我们聊了 AI 的五大突破从语言模型到机器人真是脑洞大开感谢大家的收听我们下期再见下期见拜拜