We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：无状态优化、TeLU激活和智能体生态

2025/1/2

AI可可AI生活

AI Deep Dive AI Insights AI Chapters Transcript

People

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

主持人: SWAN优化器是一种无状态优化器，有效解决了大模型训练中内存占用过大的问题。它通过梯度预处理技术（Gradenorm和Gradenwhitening）稳定梯度分布，在不存储历史数据的情况下，实现了与Adam优化器相当甚至更好的效果，内存占用减少50%，训练速度也得到提升。 TeLU激活函数作为一种新型激活函数，解决了ReLU激活函数中梯度消失的问题，提高了模型训练速度和稳定性。它结合了ReLU的高效性和其他平滑激活函数的优点，避免了梯度消失，使训练过程更加稳定。 SMOOTHIE路由方法是一种无监督方法，能够在无需标注数据的情况下，自动为不同的任务选择最佳语言模型。它通过比较不同模型输出的一致性来估计模型质量，从而实现高效的模型选择，性能优于现有方法。构建智能体生态系统是未来趋势，单一的智能体存在局限性，而由智能体、模拟用户和助手组成的生态系统，能够更好地协调智能体完成任务，提供更个性化、更安全的服务，并提升用户体验。这需要考虑用户的需求、信任和社会接受度等因素，人工智能发展应该以人为本。

Deep Dive

Key Insights

What is the SWAN optimizer and how does it improve large model training?

The SWAN optimizer is a state-free optimization method designed to reduce memory usage and improve training speed for large language models. It achieves this by preprocessing gradients using two techniques: Gradenorm, which stabilizes gradient distribution, and Gradenwhitening, which counteracts local curvature in the loss landscape. This allows SWAN to match or exceed the performance of Adam while reducing memory usage by up to 50%.

Why is the TeLU activation function considered an improvement over ReLU?

TeLU combines the speed and near-linearity of ReLU with the smoothness of other activation functions to mitigate gradient vanishing. It ensures efficient activation for positive inputs while maintaining gradient flow for negative inputs, leading to more stable and faster model training. TeLU can directly replace ReLU without modifying other hyperparameters and has shown superior performance in tasks like image classification and text processing.

How does the SMOOTHIE routing method select the best language model for a task without labeled data?

SMOOTHIE uses a weak supervision approach by treating the outputs of different models as votes. It leverages embedding space consistency to estimate model quality, where semantically similar data points are closer in vector space. By comparing the similarity of model outputs, SMOOTHIE can automatically select the best model for a given task, often outperforming supervised methods.

What is the proposed ecosystem for improving AI agents, and why is it necessary?

The proposed ecosystem includes agents (task executors), simulated users (representing user preferences), and assistants (coordinating agents and interacting with users). This system addresses issues like lack of generalization, coordination difficulties, and robustness in standalone agents. It enhances user privacy, provides personalized services, and improves trust by focusing on user needs and societal acceptance, emphasizing that AI development should be human-centric.

What are the key benefits of the SWAN optimizer for resource-constrained organizations?

SWAN reduces memory usage by up to 50% and improves training speed, making it ideal for organizations with limited resources. It achieves performance comparable to Adam without the need for storing historical data, enabling larger model training on smaller hardware setups.

Chapters

本篇讨论了SWAN优化器，它通过对梯度进行预处理（Gradenorm和Gradenwhitening），在减少内存占用的同时，实现了与Adam优化器相当甚至更好的训练效果，尤其在大模型训练中内存占用减少50%，速度提升显著。

SWAN优化器通过预处理梯度，减少内存占用，提升训练速度
内存占用减少50%，训练速度提升显著
在大模型训练中表现突出

Shownotes Transcript

大家好

他们分别从不同角度对当前深度学习的一些痛点提出了新的解决方案涉及到模型训练优化激活函数还有最近很火的智能体听起来就很有料那我们先从哪个开始呢我们先从第一篇论文开始吧他提出了一种叫做 Swan 的优化器能让大型语言模型训练更省内存 Swan 听起来有点像天鹅名字挺好听的

优化器是干什么呢?我只知道模型训练很烧显卡,要花很多钱,和这个有关吗?没错,优化器就相当于模型训练的教练,他会指导模型参数如何调整,才能让模型变得更好。像现在流行的 Adam 优化器,虽然效果不错,但是它需要记住很多训练过程中的历史数据,就像教练要记着运动员每天的训练记录一样。那这样岂不是很占内存?

是的这就是问题所在大模型邓哲几十亿上百亿的参数如果再加上优化器需要技术的状态内存占用就会变得非常夸张这限制了模型训练的规模 SDD 是另一种优化器它不计历史所以内存占用小得多但是效果又不太好苏安就是来解决这个问题的它既有 SDD 的神内存的优点又能达到 Adam 的训练效果太棒了它是怎么做到的呢

他的核心思想是对 SDD 的梯度进行预处理就像给运动员做热身一样他用了两个技术一个叫做 Gradenorm 可以稳定梯度分布另一个叫做 Gradenwhitening 可以抵消损失地形的局部曲率你可以把梯度想象成模型训练的方向盘

如果这个方向盘不稳定模型就容易跑偏 Gradenorm 的作用就是让方向盘更稳定 Gradenorm 的作用就像是给方向盘加一个减震器让模型在训练过程中能更平稳这两个技术结合起来就能让 HGD 像 Alam 一样好用同时还不需要记住那些历史数据内存占用大大减少真是巧妙那它实际效果怎么样呢

实验结果表明 Swan 的性能可以和 Adam 媲美甚至更好而且在训练大模型时内存占用能减少 50%左右训练速度也能提高不少那

那真是太好了这对于那些想训练大模型但是又没有那么多资源的科研机构和公司来说简直是福音是的这项研究的一个重要启发就是有时候不一定要死守传统方法通过一些巧妙的创新也能达到意想不到的效果真是太赞了那我们接下来聊聊第二个论文吧第二篇论文提出了一种新的激活函数叫做 TELU

它可以提高深度学习模型的训练速度和稳定性激活函数又是什么你可以把激活函数想象成神经网络的开关它决定了神经元是否被激活以及激活到什么程度传统的激活函数比如 relu 虽然简单高效但是也存在一些问题

比如容易出现梯度消失导致模型训练不稳定梯度消失又是什么听起来有点吓人梯度消失就像是你传递一个信号传递到后面就越来越弱了最后完全消失了模型就无法学习了 Taylor 的设计就是为了解决这个问题它是怎么解决的呢 Taylor 的数学公式看起来比较复杂但是他的思想很简单就是结合了 ReLU 的优点速度快接近线性和其他平滑激活函数的优点

缓解梯度消失这个公式我听不懂不过我大概理解你的意思了它是怎么提高模型训练速度和稳定性的呢它既能保证神经元在输入为正数时高效激活又能保证在输入为负数时依然有梯度可以传递这样就避免了梯度消失提高了模型训练的稳定性而且它的计算也很高效所以训练速度也更快了

那它和 ReLU 相比有什么优势呢?Telio 可以直接替换 ReLU,而且不需要修改模型的其他超参数,就能取得更好的效果。实验结果表明,Telio 在图像分类、文本处理等多种任务中都表现出色,而且训练过程更加稳定。这是个好东西,感觉以后激活函数又多了一个选择了。

是的这下研究的一个启发就是不要轻易满足于现有的技术要不断探索新的方法才能让模型变得更好接下来我们聊聊第三篇论文吧这篇论文的名字是 Smoothie 听起来就很清爽

他讲的是什么呢这篇论文讲的是如何为不同的语言模型选择最佳模型现在有很多不同的语言模型它们各有各的特点针对不同的任务选择不同的语言模型可能效果会更好就像是在不同的路况选择不同的车一样你这个比喻很形象但是问题是我们怎么知道哪个语言模型最适合哪个任务呢传统的做法是需要有标注的数据也就是要告诉模型哪些任务用哪个模型最好

但是标注数据往往很贵那这篇论文是怎么解决的呢他提出了一种叫做 Smoothie 的无监督方法也就是说不需要标注数据也能自动为不同的任务选择最佳的语言模型听起来很神奇他是怎么做到的

它的核心思想是利用弱监督把不同模型的输出看作是投票者如果一个模型的输出和大多数其他模型的输出比较一致就说明这个模型的效果可能不错它用的是嵌入空间中的一致性来估计模型的质量嵌入空间又是什么

嵌入空间就是把文本或者其他数据映射到一个向量空间让语义相似的数据在空间中距离更近这样模型就可以通过向量之间的距离来判断语义的相似程度 Smoothie 就是利用这个来判断不同模型输出的相似程度从而估计模型的质量

我有点明白了,那它效果怎么样呢?实验结果表明,Smoothie 的性能优于现有的无监督和有监督方法,在很多情况下甚至可以媲美甚至超越需要标注数据的方法,而且它还能根据不同的样本进行个性化的路由选择最适合的语言模型。真是太厉害了,这对于我们合理利用现有语言模型提高效率非常有帮助。

是的这个研究启发我们在没有标注数据的情况下依然可以通过一些巧妙的方法来解决复杂的问题最后我们来聊聊智能体最近智能体太火了我们之前也聊过那这篇论文又有什么新观点呢

这篇论文的标题是 Agents are not enough 意思是说光有智能体本身是不够的我们需要一个更完善的生态系统为什么呢智能体现在不是已经很厉害了吗虽然现在的智能体在某些任务上表现很出色但是他们也存在很多问题比如缺乏泛化能力协调和沟通困难鲁报性不足等等那这篇论文提出了什么解决方案呢它提出了一个由智能体 agent

模拟用户 SIM 和助手 Assistant 组成了新生态系统。智能体负责执行具体的任务,模拟用户代表用户的偏好和行为,助手则直接与用户交互协调智能体完成任务。听起来有点复杂,能详细解释一下吗?你可以把智能体想象成各种不同领域的专家,比如做饭的、开车的、写作的等等。而模拟用户就是用户的一个数字替身,它知道用户的喜好和习惯。

助手则是和用户直接沟通的服务员他会根据用户的需求协调不同的智能体来完成任务我懂了这个生态系统更像是一个完整的智能服务体系而不是只有单一的智能体那它有什么好处呢它可以更好的保护用户隐私提供更个性化的服务提高用户信任感而且可以解决智能体在协同工作时遇到的问题

文章强调仅仅提升智能体的技术能力是不够的还需要考虑用户的需求信任和社会接受度等因素我感觉这个观点很有深度看来智能体的发展不仅仅是技术问题还是社会问题要考虑更多更全面的因素

是的这个研究的一个重要启发就是人工智能的发展应该以人为本要充分考虑用户的需求和社会的影响好的今天我们聊了很多从无状态的优化器到新型的激活函数再到无监督的路由方法以及智能体的生态系统感觉每一项研究都非常有意思

是这些研究都从不同的角度推动着 AI 技术的发展而且他们都从各自角度提出了新的思考方式让我们对 AI 的未来有了更多的期待没错感谢小 T 的精彩讲解也感谢各位听众的收听我们下期再见下期见拜拜

AI前沿：无状态优化、TeLU激活和智能体生态 08:56 Share