大家好 欢迎收听本期的太快报 我是小爱大家好 我是小 T 很高兴和大家一起聊聊 AI 的前沿进展我们先从第一篇论文聊起吧 Transformer 模型在 AI 里很火 比如翻译和聊天机器人都用它听说它有个重要部件叫皈依画层 这篇论文却说可以不用 这是怎么回事
对 Transformer 确实是 AI 界的明星模型皈依化层的作用就像一个调音师帮模型稳定训练避免数据跑偏但这篇论文的作者发现这个调音师其实干的活可以用更简单的方式代替他们提出了一个叫动态 Tank 的东西简称 DYT
用一个数学函数和一个可调参数来压缩数据范围既简单又有效那这个 DYT 具体是怎么工作的听起来像魔法其实不复杂想象你再挤一个气球气球太大不好控制 DYT 就像轻轻一捏把数据压缩到一个合适的大小它用一个公式 Tense A Alpha Tax
这里的α是可以学习的 模型自己会调整这个捏的力度结果是既省去了硅胰化层的复杂计算 又能保持甚至提升性能那效果如何 真的能取代硅胰化层吗作者在很多任务上试了 比如图像分类 语言模型 预训练 甚至 DNA 序列分析发现 DYT 的表现跟传统方法差不多
甚至有时更好而且因为计算更简单训练和推理速度也有提升举个例子就像你做饭不用老盯着火候锅自己就能微调温既省力又好吃听起来很实用不过有没有什么短板有 DYT 在传统卷积网络里替代硅化效果不太好说明它更适合 Transformer 这种结构
还有在大型语言模型里那个α参数的初始值需要仔细微调不然可能会影响效果但总体来说这是个大胆又成功的尝试挑战了我们对模型设计的固有认知接下来聊聊第二篇用 AI 炒股听起来就很酷什么是 XLSTM 网络它怎么帮 AI 炒股 XLSTM 是扩展长短期记忆网络的意思是传统 LSTM 的升级版
LSTM 就像一个有记忆的记事本能记住之前的信息但记太久的东西容易忘 XLSTM 改进了这一点能更好的抓住长期规律在炒股里股价走势受很多历史因素影响 XLSTM 就派上用场了那它具体怎么用在股票交易上
论文里用了一种叫深度强化学习的方法简单说就是让 AI 像玩游戏一样学习炒股策略他们选了 PPO 算法让 AI 在买卖中找到平衡点而 XLSTM 被装进 AI 的大脑帮他分析科技公司像是苹果微软从 2009 年到 2022 年的股价数据结果显示 XLSTM 比传统 LSTM 赚得更多
风险也控制的更好赚更多是怎么衡量的他们看了几个指标比如总收益每笔交易的平均利润还有一个叫下谱比率的东西衡量收益和风险的比例 XL
XLSTM 在这些方面都胜出举个例子 传统 LSTM 像是只看昨天的天气预报今天的与 XLSTM 能看到过去一周的趋势判断更准有没有什么挑战有 XLSTM 计算量更大像个高级厨师 做菜好吃但需要更多食材和时间
论文也提到未来可以加点微调料比如更丰富的市场数据来进一步提升效果第三篇论文研究大型语言模型的技能扩展这里的技能是指什么这里指的是模型擅长的任务比如回答知识问题和生成代码论文想搞清楚给模型加参数和加数据哪个对不同技能帮助更大传统认为有个统一规律但他们发现知识问答和代码生成的需求居然不一样怎么不一样
知识问答更吃参数模型越大越能记住更多事实像个大容量书柜代码生成更吃数据多看例子才能学会写逻辑像个需要多练的程序员他们还发现这不是因为训练数据偏心而是技能本身的特点
这就是我们决定的就什么意义意义很大以后训练模型时可以根据目标任务调整策略比如想让 AI 更会聊天就多加参数想让他写代码就多喂数据还有个关键点他们发现测试用的数据选择会大大影响结果选错了可能差 50%
这提醒我们设计 AI 时要更用心真有意思像给 AI 量身定制成长计划对 而且这还推翻了一种方法通吃的老观念未来的 AI 可能会更个性化第四篇是关于时间差分流听起来很神秘这是什么
时间差分流简称 TD flow 是帮 AI 预测未来的一种新方法传统的预测像接力赛一步步传下去容易出错累积 TD flow 直接跳到终点预测远期的状态比如机器人走迷宫能直接算出十步后的位置它是怎么做到的
它結合了兩種技術,一個是強化學習裡的公式,另一個是流匹配,像給 AI 畫了一條直達未來的路。他們還設計了三種版本,其中 TD2C-FM 最好,因為它減少了訓練中的抖動,預測更穩。
效果如何很惊人在迷宫机器人行走等任务中 TD Flow 预测比传统方法远五倍的时间而且更准就像你不用一步步走迷宫直接知道出口在哪效率和准确性都提升了有什么局限吗计算量是个问题
特别是长时间预测时像跑长途需要更多油不过它的潜力很大未来可能用在自动驾驶或天气预报上最后一篇是关于 KVDSTO 的帮大型语言模型压缩内存这是什么技术 KVDSTO 是给语言模型瘦身的方法
模型处理长文章时会存一堆临时数据叫 KV 缓存占内存很大 KVDistill 像个智能打包机把这些数据压缩到很小还几乎不影响效果怎么压缩的它用一个评分器挑出重要的信息再用一个小工具调整模型让压缩后的数据还能正常工作
训练时他让压缩版尽量模仿原始版保证输出一致结果是压缩 1000 倍后回答问题或总结文章的能力几乎没变这太厉害了有什么不足吗训练过程有点费时而且效果可能因模型不同而已但它的通用性很强能用在各种语言模型上未来可能让 AI 在手机上跑得更顺畅今天的旅程真精彩
从 Transformer 的新设计到 AI 炒股技能优化远期预测再到内存压缩每篇论文都让人耳目一新感谢小 T 的精彩讲解也谢谢大家的收听我们下期再见下期见拜拜