We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 中美大厂研究员深度剖析:DeepSeek大模型蒸馏与RLHF技术技术解析

中美大厂研究员深度剖析:DeepSeek大模型蒸馏与RLHF技术技术解析

2025/3/24
logo of podcast AI Odyssey

AI Odyssey

AI Deep Dive AI Chapters Transcript
People
主播
以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。
奚辰光
陈天逸
Topics
陈天逸: 我专注于高效AI研究,包括模型压缩、蒸馏、量化和架构搜索等。DeepSeek的低训练成本源于量化技术和流式方法,它采用非传统的数据蒸馏方法,利用数字模型筛选高质量数据和响应,更有效地学习。传统数据蒸馏学习教师模型的概率分布,但DeepSeek更关注高质量响应。DeepSeek的数据蒸馏方法类似于追踪信号,而传统方法像在大海中寻找岛屿。高质量数据可从网上获取,但需要有效的筛选方法,这需要大量成本和投资。后续厂商可以利用DeepSeek的技术积累降低训练成本,不会出现赢家通吃的局面。模型压缩和蒸馏的关键在于优化搜索策略,找到更好的参数点,这取决于损失函数设计、数据匹配以及其他策略。小模型效果不如大模型,是因为使用了与大模型相同的训练策略,而忽略了为小模型设计更优的训练策略。通过更智能的训练策略设计,小模型可以达到甚至超越大模型的性能。未来算力使用会趋于动态平衡,预训练数据趋于饱和,未来可能更关注其他类型数据。预训练数据接近饱和,未来可能更关注后训练和少量高质量数据的利用。未来算力资源主要掌握在大公司手中,高校和个人难以接触到,这可能会影响科研方向。MoE类似于模型剪枝,但它保留了所有参数,通过自动选择激活部分参数来克服瓶颈。MoE有两种实现方式:一种是复制粘贴部分层并微调,另一种是在激活时选择激活部分矩阵。小模型可能在特定领域超越大模型,但在其他领域性能可能较差。未来大模型效率研究重点在于软硬件结合,降低功耗和推理成本,以及改进量化技术和高效注意力机制。量化技术可以降低模型的bit数,但需要更强的训练技术来保证性能;未来模型尺寸可能在10B左右,重点在于部署和降低推理时间。高效注意力机制可以降低计算量,但目前尚未完全取代Transformer。高效注意力机制的研究热度持续存在,但尚未取代Transformer,这可能与计算资源和研究方向有关。蒸馏、RL和SFT都是搜索策略,选择哪种策略取决于具体情况,没有绝对的好坏。当模型能力足够强时,可能不需要领域知识,前提是Agent工具足够成熟。 奚辰光: DeepSeek的MoE与传统公司不同,它更稀疏,专家数量更多且粒度更细。小模型可能在特定领域超越大模型,但在其他领域性能可能较差。DeepSeek的RLHF方法证明了强化学习在特定领域提升模型性能的有效性。DeepSeek的RL方法证明了强化学习在特定领域(例如解决竞赛类算法题)的有效性,并为其他领域应用提供了指导意义。2025年可能是Agent元年,因为强化学习可以在特定领域内将模型性能提升到极致,而Agent本质上就是各种不同领域的应用。强化学习不能创造知识,但可以在特定领域内将性能提升到极致,而Logi的思考步骤提升了模型在不同领域泛化能力。DeepSeek的RL方法的核心在于大规模的纯强化学习,并通过一些手段来实现。多奖励模型在训练中可能不稳定,难以同时最大化多个目标。多奖励模型的训练需要仔细调整超参数和训练过程,没有简单的黑魔法。DeepSeek的RL方法与其他方法不同,它注重信号的准确性,并避免了过程奖励模型的复杂性。模型蒸馏可能为了提升benchmark结果而过度拟合特定领域,忽略其他方面。DeepSeek可能没有进行传统的模型蒸馏,而是利用高质量数据进行后训练和RLHF。数据蒸馏在现代模型中很常见,DeepSeek可能使用了这种方法,但没有进行传统的模型蒸馏。SFT可能限制模型的采样空间,不利于后训练的自我提升,而直接从基础模型进行RL训练可以保留模型的潜力。大模型需要scaling out来提升在各个领域的性能,但这并不意味着简单地增加模型大小就能获得更好的效果。未来大模型发展的重点在于盈利模式,降低成本,并对社会负责。大公司很难开发出覆盖所有领域的Agent,而专注于特定领域的公司更有机会成功。

Deep Dive

Chapters
本节探讨了DeepSeek降低训练成本的策略,主要包括量化技术以减少内存消耗,以及一种创新的数据蒸馏方法,使其能够更快地收敛并降低通信成本。 嘉宾们还比较了DeepSeek与其他大模型在训练成本上的差异,并探讨了未来大模型的竞争格局。
  • DeepSeek通过量化技术和数据蒸馏方法降低训练成本,成本约为O1的二十分之一。
  • 数据蒸馏方法比传统方法更有效,因为它可以引导模型更快地找到最优参数。
  • 未来大模型竞争格局可能呈现多个寡头并行的局面,不存在单一赢家。

Shownotes Transcript

主播的话:

欢迎收听本期AI Odyssey节目。DeepSeek凭借其出色的性能和创新的技术路线在AI领域引起广泛关注。作为国内新兴的开源大模型,它在多项基准测试中表现优异,引发了业内对其背后技术实现的好奇。正因如此,我们特意邀请了三位AI领域的一线专家——投资人CW,美团首席工程师奚辰光,以及专注于大模型优化的GenAI研究员Tianyi,共同解析DeepSeek模型的技术创新点,特别是在训练成本优化、数据蒸馏和RLHF等方面的突破。通过这次对话,我们希望为听众揭开高性能开源模型背后的技术思路,也期待探讨大模型未来的发展方向。

嘉宾介绍:

  • CW:国内机构投资人,关注AI/Robotics。
  • 奚辰光:奚辰光,美团首席工程师
  • Tianyi:美国大厂的GenAI研究员,从事高性能AI,自动化人工智能,大模型后训练和知识蒸馏。

主播介绍:

  • Leo:硅谷大厂高级机器学习工程师,GenAI LLM发烧友

shownote:

00:21 嘉宾自我介绍

01:25 DeepSeek 如何降低训练成本

04:07 数据蒸馏 vs 传统蒸馏的区别

05:42 训练数据的获取与质量优化

06:01 大模型的竞争格局与未来发展

07:11 蒸馏与小模型训练策略

10:41 Scaling Law 的未来趋势

14:38 Moe (Mixture of Experts) 在大模型中的应用

17:02 AI 的跨模态能力与未来发展

24:42 强化学习 (RL) 在大模型优化中的应用

30:47 AI 未来的发展方向与盈利模式

32:63 Efficiency 研究方向:降低 AI 成本

40:03 AI 代理 (Agent) 时代的到来

44:12 未来 AI 企业将如何调整盈利策略

PS:AI Odyssey 听友群正式开通了,添加 vx:aiodysseyai 带你一起看 AI。

以上就是本期的全部内容了,欢迎您的收听,我们下期再见~