cover of episode 一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

2025/4/5
logo of podcast 42章经

42章经

AI Deep Dive Transcript
People
吴翼
前OpenAI研究员,清华大学交叉信息研究院助理教授,边塞科技创始人,专注于强化学习和人机协同。
曲凯
专注于推动AI应用创业领域的发展和分享行业见解的“42章经”创始人。
Topics
@曲凯 : 当前Agent领域,具备强化学习算法能力的人才非常稀缺,市场对其需求旺盛。 @吴翼 : 我长期从事强化学习研究,我的博士论文就关注强化学习的泛化性和多智能体强化学习。我将在课程中讲解强化学习的原理、其与大语言模型的结合方式、目前领域内的非共识以及未来的发展趋势。强化学习与传统机器学习的关键区别在于,强化学习处理的是一系列决策问题,且没有标准答案,只有最终结果的好坏之分。人生本身就是一个强化学习的过程,但人生没有明确的奖励函数,需要不断探索以找到自己的奖励函数。强化学习的前提是已知奖励函数,而人生中奖励函数往往未知,需要不断探索。大语言模型通过强化学习实现指令遵从,这是强化学习与大模型结合的关键。InstructGPT 使用强化学习来解决大语言模型的指令遵从问题,这标志着强化学习与大语言模型结合的开端。RLHF (Reinforcement Learning from Human Feedback) 的核心是利用人类反馈来训练奖励模型,因为难以定义精确的奖励函数。预训练模型的扩展定律放缓,强化学习为提升大模型能力提供了新的途径。OpenAI 通过“慢思考”(Thinking Tokens)机制,让模型在生成答案前进行更多思考,从而提升答案准确性,并用强化学习来训练这一机制。Anthropic 在强化学习模型的“慢思考”方面做得特别好,但其具体方法尚不清楚。DeepSeek 的成功在于其专注和早期的投入,证明了强化学习在提升大模型能力上的可行性。目前行业内对于强化学习提升大模型能力的最佳路径尚未形成完全共识,各团队仍在探索不同的方向。Agent 的核心在于对现实世界或虚拟世界产生影响,而不仅仅是文本输出。Agent 的关键在于对外部世界产生影响,而不仅仅是文本生成。强大的决策模型可以减少对 prompt engineering 的依赖,这是强化学习对 Agent 的影响之一。强化学习需要强大的预训练模型作为基础,才能发挥其决策能力。早期强化学习的失败,正是因为缺乏强大的预训练模型。预训练和强化学习相辅相成,两者相乘才能产生真正的智能。预训练的收益递减,强化学习成为提升大模型能力的新方向,但其扩展定律仍在早期阶段。强化学习仍处于早期阶段,未来可能出现模型能力的分化,例如专注于泛化、代码或 Agent 的不同模型。强化学习模型的训练效果评估,主要依赖于指标和实际使用体验。大模型团队的组织架构可以根据预训练和强化学习两个方向进行划分,但团队成员需要具备跨领域知识。理解比生成更难,理解一张图片所需的 token 比生成图片更多。强化学习的泛化能力受限于训练数据,早期强化学习在复杂任务(如买机票)上失败,是因为缺乏足够的泛化能力。构建人工智能需要先解决理解问题,再解决决策问题,强化学习主要解决决策问题。

Deep Dive

Shownotes Transcript

当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。

在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。

但很多人对 RL 都没有一个足够清晰的理解,包括我自己。

所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。

而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。

最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。

人类博物馆】

**导游:**曲凯,42章经创始人

**32 号珍藏:**吴翼,清华大学交叉信息研究院助理教授,蚂蚁集团强化学习实验室首席科学家,前 OpenAI 研究员。

时光机】

  • 1:51 到底什么是 RL?
  • 4:25 人生就是一个强化学习的过程
  • 6:22 RL 和 LLM 是怎么结合起来的?
    • 7:01 强强联手第一步:InstructGPT,实现指令遵从
    • 10:07 过程中衍生出了 RLHF
    • 11:41「慢思考」的需求催生了 RL 的应用
  • 16:10 为什么说 Anthropic RL 做得特别好?
  • 21:17 行业对 RL+LLM 的最优路径形成共识了吗?
  • 25:11 RL 起来之后,对 Agent 的影响是什么?
  • 32:11 Intelligence = LLM (理解) × RL (决策),二者缺一不可
  • 34:14 Scaling law 的未来
    • 34:33 Pretraining 的两个发展方向
    • 36:43 RL 还处于早期,进入深水区后可能会走向分化
  • 40:02 大模型团队的组织架构要如何设计?
  • 43:21 一个反常识:对 AI 来说,理解比生成更难,token 消耗更大
  • 47:38 现在做 Agent 一定需要一个懂 RL 的人吗?
  • 49:32 为什么 RL 人才这么稀缺?
  • 56:10 RL 目前三大分支:泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)
  • 58:55 框架对 RL 意味着什么?
  • 1:02:51  RL 在海内外进展还有明显差距
  • 1:04:42 想做好 RL,基建≫数据>算法
  • 1:06:05 研究 RL 收获的一些人生启发

【Reference】

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescaleros