大家好欢迎收听太快报我是小爱大家好我是小 T 很高兴又见面了今天的第一个研究听起来很有意思是关于一种叫上下轮引导 transformer 的技术听起来像是能让 AI 自己调整自己能不能跟我们讲讲这是怎么回事当然
可以这项研究提出了一种新架构叫做上下文引导 Transformer 简称 CGT 它的核心想法是让 AI 模型在处理信息时不需要每次都依赖长长的提示来告诉它该怎么做而是通过内部机制把上下文信息直接编码到模型的权重中想象一下 AI 就像一个会自我调整的乐器根据听到的前半段旋律自动调音来演奏后半段
这听起来很神奇那它具体是怎么实现的呢普通人能理解吗其实原理可以简化成这样模型在处理一段文本或数据时会在某个中间阶段生成一个上下文摘要有点像你读完一篇文章后总结出的核心要点这个摘要不是用来直接输出的而是用来动态调整模型后续部分的计算方式就像是 AI 根据前文内容临时改装自己让自己更适合处理接下来的任务
更神奇的是一旦这个摘要被固定下来 AI 甚至可以在没有原始上下文的情况下继续高效工作这有点像我们记住了某本书的重点后即使书不在手边也能根据记忆回答相关问题那这种技术有什么实际好处呢
最大的好处是效率提升传统模型每次处理任务都需要重复读取长长的上下文提示这很耗费计算资源而 CGT 通过内化上下文信息减少了这种重复计算尤其适合需要频繁处理类似任务的场景比如聊天机器人或自动问答系统不过它也有挑战比如在处理超长文本时固定的上下文摘要可能会过时需要不断更新
确实是个有趣的平衡接下来我们聊聊第二个研究好像是关于如何从大模型生成小模型的听起来像是母体生子体能不能给我们揭秘一下这个比喻很贴切这项研究叫做可投影模型核心是从一个大型通用 AI 模型中一次性生成小型任务特定的模型想象一个
那這種投影是怎麼做到的 聽起來像是魔法
其实是通过一种数学变换研究者设计了一个投影算子有点像一个过滤器根据任务需求从大模型的庞大参数中提取和重组出一部分形成小模型的参数这种方法的好处是高效一个大模型可以同时支持生成多种尺寸的小模型适应不同设备或场景的需求比如在图像生成任务中这些小模型的表现甚至能媲美比它们大好几倍的通用模型这对
对普通用户来说意味着什么呢?比如我用手机上的 AI 应用会不会受益?绝对会,这种技术可以让高性能 AI 模型瘦身后运行在手机或小型设备上,不需要强大的服务器支持比如你用手机做图像编辑或语音识别时背后可能是从大模型投影出来的小模型,既省电又快不过目前研究主要在图像领域、语言处理等其他场景的效果还有待验证期待它早日普及
接下来我们聊第三个研究关于推理图的概念听起来有点抽象能不能用简单的方式解释一下没问题这项研究试图揭开大型 AI 模型在推理时的思考过程他们提出一个叫推理图的概念
简单来说就是把 AI 在解决复杂问题时每一步的内部状态抽象成一个网络图通过分析这个图的结构比如是否有循环探索范围有多大连接是否紧密研究者发现优秀的推理模型往往有更多的循环和更大的探索范围这就像一个聪明人解决问题时会反复思考修正思路
而不是直线式的得出结论所以 AI 的思考深度可以通过这种图来量化那这对我们改进 AI 有什么帮助是的 这种量化非常有价值研究发现通过改进训练数据可以让 AI 的推理图结构变得更复杂
从而提升他的推理能力这就像告诉老师如何设计课程来培养学生的批判性思维未来我们可能根据这些发现设计更好的训练策略让 AI 在数学逻辑推理等领域表现得更出色不过目前还只是初步研究如何直接用这些发现优化模型还需要更多探索确实让人充满想象
第四个研究是关于 Cartridges,听起来像是某种存储卡,这是干什么用的?你猜得挺准,Cartridges,中文可以叫卡带,是一种用来存储长文本信息的小型数据结构,它的目的是解决大型 AI 模型在处理长文档时的资源消耗问题,传统方法是把整篇长文塞进模型的上下文窗口,这就像每次读书都要从头读到尾,非常费力。
而 Catchages 是预先把长文档的内容压缩成一个小型缓存模型只需要加载这个缓存就能快速获取信息这听起来很省力那怎么保证压缩后的信息不会丢失关键内容呢研究者设计了一种叫自学习的训练方法让 AI 自己对长文档
进行多角度的提问和总结生成多样化的训练数据然后通过一种蒸馏技术把这些信息浓缩进塔袋中结果非常惊人这种方法不仅减少了内存占用比如降低到原来的三十分之一还能保持甚至超过传统方法的表现
更神奇的是他还能把多个卡带组合起来回答跨文档的问题这对我们日常使用 AI 比如查资料写报告应该很有帮助吧确实如此想象你在用 AI 整理一本厚厚的教科书或法律文件卡带技术可以让 AI 快速抓住重点不用每次都重读全文效率提升几十倍不过
训练卡带本身需要一些前期计算成本对于经常更新的内容可能还需要重新训练最后一个研究是关于 AI 如何处理关系数据的叫做 RELLM 关系数据听起来像是数据库里的东西能不能解释一下
没错 关系数据就是像数据库表格那样的结构化信息里面有各种实体之间的联系比如客户和订单的关系传统上 AI 处理这类数据时往往把表格转成纯文本但这样会丢失很多结构信息这项研究提出一个叫 RESL
通过结合图神经网络和大型语言模型让 AI 既能理解文本又能抓住数据间的复杂关系简单来说就是用一个翻译官把数据库的结构信息转化成 AI 能理解的提示引导他做出更准确的推理这听起来对商业应用很有价值比如分析销售数据或客户关系非常有价值比如在预测客户行为或商品销量时 RELM
LM 能比传统方法更准确因为它不仅看数据内容还看数据间的联系更重要的是它对输入数据的变化不敏感表现更稳定未来这种技术可能广泛用于金融医疗等领域帮助分析复杂的结构化数据不过它目前还需要额外的计算来处理图结构如何简化流程是个挑战今天的内容真是让人大开眼界感谢小 T 的精彩讲解也感谢各位听众的收听
我们下期再见下期见拜拜