Transformers without Normalization:提出动态Tanh替代归一化层,简化Transformer设计并提升效率。
A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks:用xLSTM改进AI炒股策略,收益和稳定性双赢。一种基于 xLSTM 网络的自动股票交易深度强化学习方法:利用 xLSTM 改进 AI 炒股策略,收益与稳定性双丰收。
Compute Optimal Scaling of Skills: Knowledge vs Reasoning:揭示知识问答偏爱大模型,代码生成依赖大数据的新规律。