We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：没有归一化层的Transformer与AI炒股策略

2025/3/15

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小T

Topics

小T：我参与讨论了五篇AI前沿论文。首先，一篇论文提出用动态Tanh(DYT)替代Transformer中的归一化层，通过数学函数和可调参数压缩数据范围，在图像分类、语言模型预训练等任务中取得了与传统方法相当甚至更好的效果，并提升了训练和推理速度。虽然在传统卷积网络中效果不佳，且α参数的初始值需要仔细微调，但这仍然是挑战模型设计固有认知的成功尝试。其次，一篇论文利用xLSTM改进AI炒股策略，采用深度强化学习方法，在科技公司股价数据测试中，xLSTM策略的总收益、平均利润和收益风险比均优于传统LSTM策略。虽然xLSTM计算量更大，但未来可以通过更丰富的市场数据进一步提升效果。第三篇论文研究大型语言模型的技能扩展，发现知识问答更依赖模型参数规模，代码生成更依赖训练数据规模，这颠覆了以往的统一规律认知，提示我们应根据不同任务调整训练策略。此外，测试数据的选择也会显著影响模型性能评估。第四篇论文介绍了时间差分流(TD Flow)，这是一种可以直接预测远期状态的新方法，在迷宫机器人行走等任务中，其预测时间比传统方法长五倍且更准确。虽然计算量较大，尤其是在长时间预测时，但其潜力巨大，未来可应用于自动驾驶和天气预报等领域。最后，一篇论文提出KVDistill技术，该技术可以实现大型语言模型的内存压缩，在压缩1000倍后，模型的回答问题和总结文章的能力几乎没变。虽然训练过程费时，且效果可能因模型而异，但其通用性强，未来可能让AI在手机上运行更顺畅。

Deep Dive

Chapters

本期节目首先介绍了一篇关于Transformer模型的论文，该论文提出了一种名为动态Tanh (DYT) 的方法来替代传统的归一化层，从而简化模型设计并提升效率。DYT通过一个数学函数和可调参数来压缩数据范围，在图像分类、语言模型预训练和DNA序列分析等任务中表现出色，甚至优于传统方法。

动态Tanh (DYT) 替代Transformer中的归一化层
DYT通过数学函数和可调参数压缩数据范围，简化计算
在多种任务上表现与传统方法相当甚至更好，并提升训练和推理速度
DYT在传统卷积网络中效果不好，更适合Transformer结构
大型语言模型中α参数的初始值需要仔细微调

Shownotes Transcript

本期《TAI快报》探讨了五篇AI前沿论文：

Transformers without Normalization：提出动态Tanh替代归一化层，简化Transformer设计并提升效率。
A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks：用xLSTM改进AI炒股策略，收益和稳定性双赢。一种基于 xLSTM 网络的自动股票交易深度强化学习方法：利用 xLSTM 改进 AI 炒股策略，收益与稳定性双丰收。
Compute Optimal Scaling of Skills: Knowledge vs Reasoning：揭示知识问答偏爱大模型，代码生成依赖大数据的新规律。
Temporal Difference Flows：推出时间差分流，直接预测远期状态，突破长时预测瓶颈。
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs：实现1000倍内存压缩，保持语言模型性能。KV-Distill：几乎无损的可学习上下文压缩，实现 1000 倍内存压缩，保持语言模型性能。

完整推介：https://mp.weixin.qq.com/s/wA-FDESDa04UWsRfil9FMA

AI前沿：没有归一化层的Transformer与AI炒股策略 07:13 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：没有归一化层的Transformer与AI炒股策略