一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

2025/4/5

42章经

AI Deep Dive Transcript

People

吴

吴翼

前OpenAI研究员，清华大学交叉信息研究院助理教授，边塞科技创始人，专注于强化学习和人机协同。

曲

曲凯

专注于推动AI应用创业领域的发展和分享行业见解的“42章经”创始人。

Topics

曲凯: 当前Agent领域，具备强化学习算法能力的人才非常稀缺，市场对其需求旺盛。吴翼: 我长期从事强化学习研究，我的博士论文就关注强化学习的泛化性和多智能体强化学习。我将在课程中讲解强化学习的原理、其与大语言模型的结合方式、目前领域内的非共识以及未来的发展趋势。强化学习与传统机器学习的关键区别在于，强化学习处理的是一系列决策问题，且没有标准答案，只有最终结果的好坏之分。人生本身就是一个强化学习的过程，但人生没有明确的奖励函数，需要不断探索以找到自己的奖励函数。强化学习的前提是已知奖励函数，而人生中奖励函数往往未知，需要不断探索。大语言模型通过强化学习实现指令遵从，这是强化学习与大模型结合的关键。InstructGPT 使用强化学习来解决大语言模型的指令遵从问题，这标志着强化学习与大语言模型结合的开端。RLHF (Reinforcement Learning from Human Feedback) 的核心是利用人类反馈来训练奖励模型，因为难以定义精确的奖励函数。预训练模型的扩展定律放缓，强化学习为提升大模型能力提供了新的途径。OpenAI 通过“慢思考”（Thinking Tokens）机制，让模型在生成答案前进行更多思考，从而提升答案准确性，并用强化学习来训练这一机制。Anthropic 在强化学习模型的“慢思考”方面做得特别好，但其具体方法尚不清楚。DeepSeek 的成功在于其专注和早期的投入，证明了强化学习在提升大模型能力上的可行性。目前行业内对于强化学习提升大模型能力的最佳路径尚未形成完全共识，各团队仍在探索不同的方向。Agent 的核心在于对现实世界或虚拟世界产生影响，而不仅仅是文本输出。Agent 的关键在于对外部世界产生影响，而不仅仅是文本生成。强大的决策模型可以减少对 prompt engineering 的依赖，这是强化学习对 Agent 的影响之一。强化学习需要强大的预训练模型作为基础，才能发挥其决策能力。早期强化学习的失败，正是因为缺乏强大的预训练模型。预训练和强化学习相辅相成，两者相乘才能产生真正的智能。预训练的收益递减，强化学习成为提升大模型能力的新方向，但其扩展定律仍在早期阶段。强化学习仍处于早期阶段，未来可能出现模型能力的分化，例如专注于泛化、代码或 Agent 的不同模型。强化学习模型的训练效果评估，主要依赖于指标和实际使用体验。大模型团队的组织架构可以根据预训练和强化学习两个方向进行划分，但团队成员需要具备跨领域知识。理解比生成更难，理解一张图片所需的 token 比生成图片更多。强化学习的泛化能力受限于训练数据，早期强化学习在复杂任务（如买机票）上失败，是因为缺乏足够的泛化能力。构建人工智能需要先解决理解问题，再解决决策问题，强化学习主要解决决策问题。

Deep Dive

Shownotes Transcript

我们今天很开心请到了吴易来跟我们一起来聊 IL 强化学习这件事情这个的初衷我觉得是因为去年 IL 这件事已经开始火起来对但今年我一个特别明显的体感是在今天大家都在讲 agent 然后 agent 团队里面如果有一个 IL 算法能力特别强的人好像就特别吃香

这件事是基本上现在彻底起来了大家非常认这件事所以今天我们可以聊一下强化学习尽量把它聊透首先还是先请你自我介绍一下大家好我叫吴易 20 年从 OpenAI 回国然后在清华当老师的然后一直都在做强化学习相关的工作我的博士是在加州大学伯克利分校博士论文的题目就叫 buildinggeneralizablelearningagents 所以就有一些强化学习的关键词有些泛化的关键词有些 agent 的关键词

全齐了对那个博士论文的题目记得还不错算是最早做强化学习和强化学习泛化性以及多智能力强化学习的人我现在是清华大学交叉信息医院的助理教授讲清华大学交叉信息医院的本科生的一门课是深度学习所以我觉得今天我们其实有点像上大师课的感觉

我们的受众可能大多大家不一定是有那么深的技术背景包括我自己在内我们可能通过各种渠道了解了很多强化学习这个概念或者相关的大家都在讲就说 DeepSeek 用了很多 IL 什么的但真正这件事的它的发展的历程它里面的一些细节可能很多人是没有那么了解的所以我觉得我们今天就

把它深入浅出的聊一下所以我的第一个问题就是到底什么是 IL 这个概念可不可以给大家简单解释一下首先我觉得强化学习是机器学习这个大概念下一个比较特殊的问题那么传统大家讲机器学习的比如说我们讲分类问题讲人脸识别讲指纹识别去讲我给你张图片判断它是猫还是狗就是传统的这种深度学习也好机器学习也好它本质上都是你有很多的数据

和人类标出的准确答案这样的对比如说我给你 1 万张猫的照片 1 万张狗的照片我每一张照片都是人标注好正确答案的然后收集大量的数据丢给神经网络也好或者是丢给之前别的模型也好然后继续学习去记住它

然后当然它会产生一些泛化的能力所以基本上我觉得在上一个人工智能浪潮比如说我们之前讲的这个人工智能四小龙人脸识别时代安防时代其实都是在这一套机器学习的框架下边那么强化学习跟它有什么差别呢那么强化学习最早是用来打游戏的嗯

比如说我们想去玩一个切西瓜的游戏俄罗斯方块或者说我们想去玩一个打乒乓球的游戏它的特点是有两件事情第一件事情是打游戏中间你要做很多的动作比如说我打个乒乓球我要从发球接球回球

每一个动作都要做出一个决定到底我应该是往前伸拍子拍子应该是转一转还是怎么样或者游戏机里面我是往左走还是往右走还是跳这里跟传统的机器学习不一样比传统机器学习一张图片判断它是猫还是狗这是一个动作结束了但是打游戏不是打游戏需要我做很多很多的动作最后

才会有一个结果这是第一条第二条是对于传统的图片识别来说它是猫还是狗这个是有标准答案的但是对于打游戏来说其实你说我打一个 DOTA 我是出门向左走还是出门向右走

差别不大的你有一百万种方法去完成这样的操作因为它的选择有很多很多很多所以它没有一个标准答案的概念它只有最后好坏的概念比如说我打游戏打赢了这是好的但是具体怎么打

没有标准答案所以这是两个最大的差别那么强化学习就是一套算法框架它希望去解决的就是这么一个我有很多个决策要做并且最后我也不知道好坏只有一个平凡标准做完了所有决策之后我告诉你它好还是不好的反馈机制的这么一个问题所以说强化学习它会更一般一些你说一般的时候指的就是犯话吗我可以理解一下

我们人的生活当中更多的问题其实是应该通过强化学习建模的比如说我想去美国出差怎么去中间好多不决策你只有说我成功去了我开心的回来了这是一个好的奖励他很难把它规约成传统机器学习那样这是一个标准的问题每一步都有标准的其实不是的人生就是一个强化学习的过程因为你有很多种选择没人告诉你正确答案所以说强化学习它更像是一个

可以针对通用的对吧像人一样这种泛化智能体可以去做的一个更一般的框架但只是说这个问题它如此之广大可以把生活中的几乎所有问题都包含进去它一定会更难解

因为一个问题它的范围越大你就越难求解传统机器学习因为它问题非常标准非常简单所以求解起来会容易所以强化学习这个技术其实一直要到比如说理论师 alpha goal 这件事情才出圈但是人脸识别那事其实很早就出圈了所以也本身是因为强化学习它处理的问题更复杂更难

对但其实你刚才提到人生本身是想强化学习这个点我觉得很有意思但我想追问一下你看你刚才讲简单来讲就是机器学习它是一种简单问题的解比如判断一张照片是猫是狗对然后强化学习是一系列复杂决策的解对

但人生其实是可能没有一个标准的解对这种时候强化学习到底是不是适合它没有一个客观的解所以我就说我觉得人生还有一个很好玩的事情是强化学习很多时候是假设你知道那个打分的比如说我到底是赢还是输所以确实也得说强化学习有个前提是你知道奖励函数是什么但是我觉得人生的差别是在于人生你不知道 reward 的方式奖励函数是什么

所以可能人生中很大的时间是你的探索那个奖励函数是什么

它是在一个你不知道奖励函数或者你以为你在优化这一件事情可能你最后到了结果你发现好像你的奖励函数不是这样对所以我们听到的比较多的一些案例比如说用潮玩游戏去打游戏对吧比如下棋比如说迷宫怎么样最快的找到路径对我们听到都是这种但确实在大模型这个时代包括很多 agent 完成的任务它其实没有一个明确的解这种情况下该怎么办

对所以这里就是有一个历史的原因就是说强化学习跟大模型是怎么在一起的我们先说大模型是一个什么样的东西大模型是 next token prediction 我们用俗话说就是熟读唐诗三百首不会做事也会赢让他读好多的文章他就发现 AI 他就通用了就泛化了他就能做很多的事情

但是这个事情其实跟强化学习一直是没有关系的因为我们也知道强化学习是要有目标的但是大模型的这种十度塘是三百手它没什么目标的它就是压缩 next look and prediction 这里面其实有一个重要的问题叫 instruction following 指令遵从

它这个背景是什么呢是 OpenAI 有一个很著名的工作叫 instruct GPT 是在 Chad GPT 之前的一个前身就指令的那个 GPT 他就讲了一件事情是 GPT-3 训练完了之后大家就会发现说这个东西很强但是如果你把 GPT-3 API 给一个外行人去用在那个年代 19 年 20 年的时候他会反映说这个 API 不好用比如说你跟他说请帮我解释一下登月是什么他说 can you explain the moon landing for me 然后你让 GPT 往后续写

他会重复他会说 explain the mood landing for meexplain the mood landing for me 他就讲好多好多遍经常会出现我去年用一些友商的大模型也会还是那就是仍然有这个问题对所以这是一个很常见的问题所以很多人就会说大模型不好用

好我们来分析一下一个人说这东西不好用的时候是为什么是因为这个人其实给了大模型一个指令这件事情其实并不是让大模型把它当成一段文章补全 Next token prediction 他其实的意思是说我告诉你一个指令你看着这个指令把它完成

比如说那 explain the moon landing for me 这件事情其实是说好你给我讲一下登月是什么我发一个火箭然后有阿波罗计划有嫦娥计划对吧这些东西我希望 GBT 在看到这个指令之后输出的内容是能够满足这个指令的指示的这个叫 instructionfollowing 指令遵从所以 GBT 当时他 next token prediction 其实他的训练目标只是为了预测下个词而已

没有指令和遵从这个东西的概念对我们一直说它本质是个概率模型对所以直到 instructGBT 欧伯安第四说我们有没有方法能让大模型可用就是我给你一个指令你输出的话是符合指令的要求的这事怎么办有很多方法去做所以当时 instructGBT 提出来说我们要不然用强化学习来做

强化学习需要一个任务需要一个奖励还需要决策动作对吧他们说我们这么来建模这个也没有谁对谁错只是 OpenAI 这么做了最后发现效果还不错怎么建模我怎么定义任务任务首先就是我有一个指令我说 explain the moon landing 这件事情就是我的任务之后你的强化学习所有决策都是指定于 explain moon landing for me

好动作是什么呢决策是什么呢我从看到这个指令之后说的每一个词就是我的决策那你就基本就全了那就剩 reward 是什么对吧 reward 就是你说出来的话最后是不是和我指令描述的内容一致那我就可以完整的用一个强化学习的过程

来描述这个训练过程给你一个指令好大模型开始输出 action 输出很多词最后你输完了给你个 end 好我最后来判断一下你是不是跟我的指令答案一致这个一致是怎么定义这是一个非常好的问题大家发现怎么定一致发现定不了对吧然后就得靠人来就得靠人所以最后这个东西就叫 reinforcement learning from human feedback 对就是

R L H F 所以当时说的事怎么办呢指令遵从那是人说了他确实遵从指令所以欧本安找了一堆人写这个指令

然后再让大模型输出然后他们来判断大模型输出个 10 个指令他们排排序说哪个好哪个不好他们也去写一些人觉得好的指令最后训练出了一个奖励模型因为确实没有这种精标准的奖励模型所以需要人来定义人来定义之后有很多数据然后把它训练出一个模型之后作为奖励模型这就是

IllHF 的由来对但去年其实这个词很火包括随着这个词一起起来就是 alignment 这件事情但也有人我觉得是 openAI 里面的人在讲说他觉得 IllHF 其实本质上不是一个 reward model 觉得它就是一个跟人对齐的一件事情它并不是一个真的强化学习的事情

今天大家讲的 I/O 和当时的 I/OHF 的区别是什么这还确实不太一样这里我还得说一下 I/OHF 到去年为止存在的主要价值是让大模型好用让一个聪明的清华北大的同学经过实习之后他能变成公司里很能打的一个员工他并不能让大模型更聪明他也不存在 scaling law

scaling law 是说我有更多的计算更多的数据更多的资源这个模型的智力水平会提升对吧那么直到 Omega 01 用了另一种强化学习的方式发现我靠这玩意可以提升智力这事儿是怎么来的呢就是预训练就是说我有个更好的基础模型那么很长一段时间大家就想是说我除了预训练之后有没有第二曲线除了预训练阶段堆更多的数据和更多算力更大的模型之外能不能还让模型变得更聪明

那么当时这个事还得说伊利亚牛逼这个事是伊利亚想出来的只是说最后实现是其他人想出来那伊利亚当时想的想法是说那人是怎么样更聪明的他就说其实人在很多复杂的问题之前他会先思考因为现在传统大模型给他之后他立马 next token prediction 就把答案给你了但是很多问题其实是要思考的那么只有个问题是如何让大模型思考

这是 OpenAI 希望解决的问题那么思考有很多种方法比如说我可以搞一个小模型一个大模型或者模型结构上做一些创新但是最后 OpenAI 发现了一种方法是 work 的这个叫让模型多图点字

就是你先让模型吐他个 1 万个字吐完了你再说好你现在说答案就叫 Thinking Token 就是现在我们做 DeepThink R1 它会先想一会儿所以这个有个名词叫 Inference Time Scaling 也就是说我模型训练好之后我让它想一会儿当然这个想其实就在纸上写字写完了之后你说想 10 秒想 30 秒想 100 秒最后你给我答案发现想的越久答案越准

这个通过写字的方式让模型想更久的这种范式是 OpenAI 想出来的所以 OpenAI 在欧望上实现了这件事情但这个的到底到底是啥呢为啥它土的字多不知道目前到今天为止也没人知道很多人试图去理解这件事情当然就是你可以去说因为人会打草稿或者怎么样这都是很直觉的解释其实没有一个特别理论上的解释它为什么会 work

所以 OpenAI 从要做 slow thinking 到他真的做出来这件事情花了得有一年半到两年的时间这个是不容易的这是要坚持的我告诉你说好像这样就可以了但是你为什么能从 slow thinking 想到他吐废话可以呢至少是不知道所以这个 paradigm 确定之后那好我们来说怎么训练一个模型让他吐那么多废话

这就又回到强化学习了因为我们是希望最后结果对中间你吐了一半个字吐什么字无所谓的是不是回到刚才打游戏的想法对吧一开始我管你的游戏是怎么操作的最后你只要赢就行了所以怎么才能训练一个模型能有 slow thinking 的能力大家发现强化学习

就是我通过强化学习中间到底你吐什么字自己探索我只要你最后结果对就可以了但是我们怎么设计这样的数据它的问题是说它跟 IoHF 来说它中间的探索过程太大了因为 IoHF 我是说输出的文字是不是跟我想的一样我可能才输出几百个字

慢思考模型可能输出 10 万个字或者几十万个 token 非常大对这两个问题有点像我们刚才讲的机器学习跟生动学习是有区别关系的对所以在传统的如果是对齐问题上来说你还可以说输出的问题都比较短对吧找一些人来给他打点标排排序现在 AI 说他想了一个

1 万个字另一个 AI 想了 2 万个字最后输出的结果分别是比如说国庆是哪一天有人说我想了 1 万个字我说国庆是 10 月 1 号还是想了 2 万个字说国庆是 10 月 1 号你说是想了 1 万个字的人好还是想了 2 万个字的人好

不知道啊因为你脑子里怎么想的我怎么评断哪个好呢所以没办法评判了那怎么再能做强化区域训练呢因为中间我其实很难用人来评判你的这个推理过程哪个是好哪个是不好因为这个事解决不了所以最后大家发现 OpenAI 用了一种非常简单的方式就是训练推理我只用有标准答案的问题比如说

一个二项函数帮我解一个 x 是多少对吧我算出来 x=3 你写 x=3 就是完全正确的你写 x=4 就是不对

所以 O1 开始 R1 开始还有我们最近发布的 Areal 系统做的所有这样的强化学习推理模型它都只让大模型去训练答案是能够标准检验的问题当然这肯定会有一个 spectrum 了稍微含糊点行不行有的时候也行但是核心的原因是因为思考的过程太复杂了所以我们只能判断答案你可以让模型自由探索你怎么想

你发散思维吧反正答案对就行有好多个问题首先这里他结果对了以后但过程当中涉及到他的成本他的效率等等问题对所以这个也有谁做的好跟坏的区别有做的好和坏我们其实觉得这里面 anthropic 就是做的特别特别好的因为你看我们刚才的思维范式大家对你中间怎么想的很难限制

所以经常出现的问题就是大家也经常 complain 说我问 DeepSeek 的 1+1 他给我想了半天为什么因为你不管 AI 是怎么想的对吧或者你想对他的思考过程给他一个好坏的信息是挺难的那么自然你如果不管他 AI 就说 1+1 到底啥意思你是不是有什么别的意图我来想一想想半天然后你就会发现这个 AI 什么情况 1+1 都要想半天那么 Anthropic 其实他的 thinking 就做得很好你给他 1+1 他就不想

然后你给他一个很复杂比如说算个 24 点他就想个 10 秒钟对这个按我们惯常理解来讲是不是就可以用一个小模型先去判断这个问题什么之类的首先我不知道他是怎么做的我们当然会觉得有没有可能 Anthropic 背后是放了他个 5 个模型因为 OpenAI 也会 OpenAI 他现在也是说让你可以选择 O3 lowO3 mediumO3 high 他就是三个模型所以 Anthropic 也有可能是把这三个东西藏起来

也有可能就是他模型训练的好这事是不得而知的然后第二件事情其实还有我们知道因为我们对模型思考的过程其实没有限制但是像比如 DeepSeek R1 它好玩的一个地方就是你发现虽然它的训练上没有对思考过程做限制但是你确实发现比如说我给你一个文科题这个明显是没有标准答案的你让 DeepSeek 想一想

他也能跟你讲出一些道理来这事怎么做到了其实这是靠大模型的泛化能力他到文科题上发现我我摁着你的头让你想一想他也能给我想点东西出来所以这个也是比较有意思的一件事情对这也是我刚才想问的就是我们用标准的爱学完以后他会做了这些更偏数理逻辑之类的东西对但目前看起来确实是能泛化到一些其他领域

这有两个事情第一个事情是它确实会有泛化能力第二是你也不能单靠它的泛化能力所以最后当你做强化学习这样大规模理科训练之后最后还要用一些文科训练让它掰回来一点不然你是一个极致理性思维的人就那的来回答我那的回答我哲学也不行所以你如果去看 DeepSeek 的 report 其实他们最后是做了一下合并的它有一个极致的那的模型再加上它的 base 模型两边合起来

最后再做了 SFT 再做 IOHF 让它最后起码是一个能用的模型然后你会发现最后得到的模型它真的是会有一个比较好的在中间的位置就是它深思考的能力也保留的不错然后它也能跟你讲做 IOHF 普通的这些事所以到底怎么才能用一个特别 nerd 的模型和一个特别人文的模型把它合起来也是一个挺挑战的事情

所以 DeepSeek 在情话学习这件事上它的应用最主要是强在哪我觉得首先 IHF 这个事情大家都在做 DeepSeek 也是最早做 I/O 的团队那么我觉得 DeepSeek 最重要的事情是它证明这个东西真的可做因为我们就像我们说的就是 OpenAI 在推出 O1 的时候从它真正开始立项想这个事情把它发出来可能过了两年的时间

大家都会觉得就比如说当时我自己的判断也会觉得这个事情好难这么难大家估计要花很长的时间去摸索迪佩斯最重要的事情是他团队特别专注他们其实做这个事可能就做了个把月这就发现原来真的可以所以我觉得欧盟爱的厉害之处是在于茫茫人海本来是 365 度都是黑暗欧盟爱说你看我告诉你东方有个灯塔

大家说对吧东方走但是到底咋走的好害怕到底是多远的是不是万丈深渊 Deep Sik 说我说哥们我回来了灯塔就在这个方向往前走一个月就到了大家说原来是这样这个信心是很难的

所以一下子就变成路线非常清晰当然你真的去做了之后你会发现它也还是有很多挑战的比如说你还是要有个好的机座模型这也是感谢很多开源社区没有机座模型就这人要是个小学水平他想的再生也没用他怎么着也得是个高中生你让他思考一下能做大学题所以机座模型很重要第二是整个训练系统非常重要因为强化学习它的输出的长度变得特别长你要允许一个模型自由探索 1 万个字

你要有一个很强的训练引擎能够支撑大模型在那瞎说话而且你还要很多并行的让很多大模型去想想了之后还要判断判断了之后还要拿回来再去训练而且大模型在不断想的越来越长所以系统的稳定性和训练效率要求是非常高的所以 DeepSick 也是最早我觉得是在国内有比较好的强化学习系统的团队所以很多事情我觉得也不是说他们做了什么大家都做不了的事情

而是他们很专注做得很早并且很扎实但你刚才其实提了个点就是说你觉得 Deep Seeker 是相当于说他已经到了一灯台回来然后探索出来一条可行的路径了对这个事现在是整个行业的一个共识吗说这个就是一个最后路径了后面大家就沿着这个做就好了还是说大家其实也还在同时探索其他的一些路径

我觉得国内可能做的比较好的团队比如说 DeepSeek 比如说字节像字节的豆包团队有那么多人他们肯定是在同时探索很多方向的然后 DeepSeek 也是比较前沿他们肯定还会做他们下一代的模型比如说他们最近放的这个 324 的模型就扣定能力特别特别强也在探索那么其他的很多团队其实我觉得也是在一个相对追赶的位置大家都会有自己的思考

但是第一步先追因为你看国内也真的很难有一个做的跟 R1 一样好的模型大家都说差不多但你说真的能全面超过

其实也没有但是我觉得海外还是有很多团队有不同的自己的 belief 像 OpenAI 自己还是有好东西没有拿出来我们就知道 OpenAI 其中强化学习已经不光是做推理了它通过强化学习还能去做很多比如说它之前的 operator 比如它的 deep research 其实它的强化学习已经通过纯推理变成 agent 的方式了这个是有差别的比如说我们做数学题

你实际是给了他一个指令然后想半天给个答案但是你想 deep research 或者 operator 其实是一个指令想一会儿操作

又看到一个新指令或者新的反馈再想一会儿再操作所以它这个训练范式从一个指令输出答案就从当年的 instructGBT 这样的一轮的范式到 chatGBT 多轮的范式而且还是要有虚拟世界交互的所以其实你看 OpenAI 它的强化学习训练系统就从传统的做题只要思考到开始就交互了这也是一个很大的改革并且它其实已经产品化了

多轮的难度为什么不是一轮加一轮加一轮是同样的难度而是更高的难度它会更复杂吗因为就是有没有交互比如说最简单我们从系统的模块上说那我只做数学题的话

那么我的模块就只有让 AI 想判断答案对不对然后加上训练三个模块就 OK 了对不对如果我要去做一个 deep research 或者说我要去做一个 operator 那么至少你还有第 4 个模块叫一个虚拟的网页你得跟他交互那么我们都知道一个复杂系统模块越多

越容易出问题越容易不稳定你还去想那个模块设计出来到底是什么你真的是不是能够边跟大模型训练边真的在网页上做搜索对吧所以就整个会复杂很多明白你看 agent 的这个概念我记二十三年初就有了从 autoGBT 什么那个时候开始对但如果我们回头来看是不是那个时候其实完全不具备 agent 的基础 agent 应该是从真正巧合学习起来 O1 什么起来才开始可以做的

首先咱们得定义什么是 agent 我个人认为现在通行的定义就是说做数学题到做交互的差别就是你传统的大模型它只是写字

它不会对于任何别的软件或者硬件或者任何网页什么这样的虚拟世界电子世界也好产生影响只要你能产生影响大家其实就认为它是 agent 了比如说特简单一件事我如果家里有个开关然后大模型自己输出开还是关然后我这里随便搞个电线连过去它说关蹦蹬就关了它还是大模型输出了一个叫开或者关但是它因为对世界产生了影响所以我就认为它叫 agent

我一直认为这个是一个 agent 最常见的理解应该是这件事情对我觉得 agent 大家定义太多了有的人觉得说一个 bot 也叫一个 agent 有的时候就 copilot 也容易跟 agent 混淆但我觉得当下大家最关注的应该就是复杂决策加上对现实世界或者虚拟世界的一些 action 的影响对叫做 agent 所以我觉得这里面重要的点是对文本之外的世界产生影响

那么当年我觉得 AutoGBT 也好 LandChain 也好是早期的一些 agent 框架也好他们是不是有这样的能力呢他们是不是 agent 他显然是

只是说它实现 agent 功能的方式是靠什么靠 prompt engineering 我写你是一个什么样的 AI 对吧你有这样的功能你如果什么时候你就输这个然后我再写了一些脚本把这个东西它输出的某一个函数调用也好还是某种特定的模式动作也好把它给人现实世界去执行所以 LandChain 也好还是 AutoGPT 也好都是通过 prompt 的方式

把很多不同的大模型的输出组合起来那么到现在来看对于 OpenAI 来说他们的 operator 或者 deep research 做了什么改变它的改变是在于你不需要那么多人为 prompt 你只要给一个指令剩下的所有的事情每一步该怎么做是大模型自己端到端做的

这里面其实特别好的一个例子就是最近 4 欧特别火嘛就是你给他一张狗给他一个衣服把狗穿上衣服了还换了个风格对不对那你想传统这个事情在一年前两年前大家能不能做能做叫 Comfort UI

大家可以说我搞一个流程图每一步都用一个 diffusion model 把它换一换也可以实现同样的工作但是你会发现有了一个特强的多模态模型可以多轮交互的模型之后这些事都不要所以我觉得 agent 是一样的就是传统 Landchain 是说因为我发现模型能力不够所以我需要这 Prompt 一下这 Prompt 一下然后中间通过一个流程图把它连起来

然后你会发现如果你有一个特别强的决策模型那你就发现 Pranton 的大量的 Pranton 大量的这种流程工作不需要了一个模型解决了所以这个也是强化学习你会发现它除了提升推理能力它也能让模型有决策能力当你有个特别好的多模态模型的时候最后你会发现有一个 GBT-4 给你画图你就会有一个 deep research 就会有 operator

对我觉得这里面还有一个点就是当你说用 prop 的时候这里面其实隐含了一个意思就是说我其实非常明确每一步要做什么然后我告诉他但其实大家在提要求的时候我可能都不知道这个事要怎么做就是他要去探索各种可能性对所以你需要这个模型被这样训练过

传统只是说原来的基础模型它没有这种对于非常未知的或者描述不清楚的指令有自己探索能力的模型那你就必须拆解

这些事也挺正常的我们第一次做饭的时候爸妈都会说第一步先干嘛开火倒油但是如果你是一个大厨你会说你这个菜这里要注重一点炒菜技术刀工要怎么样就结束了对不对所以好的模型和坏的模型会有这样的差别

所以其实最早的那些模型它更多具备的还是文本的一些东西它没有长程探索和思维的能力对就是 I/O 加上了更多复杂决策的解决方案的东西

但我就想到一个问题如果我们把大模型抛开单纯只是 I/O 它仍然具备这些复杂决策的能力吗为什么历史上没有出现单独以 I/O 为基础的一个模型然后去做这些事我可以说一些历史 OBI 在 2016 年的时候这个真的很历史这个其实我在一些分享上提过这个事 2016 年的时候 OBI 当时有一个项目叫 Universe

大家可以搜一下叫 openai universe 或者 word of bits 比特的世界 paper2016 年的时候当时强化学习如日中天的时候 openai 说我们能不能通过强化学习在网页上买机票就这么一件事情对吧

你是不是想这个事儿跟现在的大模型特别像是吧所以当时 OpenAI 搞了一个几十人的团队去打理一个真的可以在本机跑的网页环境因为它要真的能够上网那个 demo 还是挺炫的什么打开美联行的网页输入旧金山到纽约然后乘回车买机票跟现在的 Commuter Use 其实是一样的一样所以他想做的事儿是 ExactlyOpenAI 可能 9 年后做成的事情

但那个时代他就搞了一个团队去做了防震器然后搞了大规模强化学习那时候 Andrew Papasi 还在 OpenAI 失败了

所以那是 OpenAI 第一次大规模裁员他把这个团队裁了当时我还特好玩我当时我去问中枢们中枢们还在然后我说你们 OpenAI 裁员大家 repetition 不太好他说咋办那些人都是写 networking 的我也不知道他能来做啥或者写前端他说我也给了他们很多好的 recommendation 但是确实就开了所以 OpenAI 其实在很早的时候就想干这事但是通过强化学习失败了这是第一次失败

第二次失败是什么是机器人的时候因为欧巴安在 2019 年有个特别有名的项目叫 Rubik's Cube 用强化学习控制机器人的一个灵巧手去拧魔方大家想想拧魔方这事挺难的因为人手一只手拧魔方都很难欧巴安用个机器手去拧魔方这是很厉害的一件事然后 19 年机器人团队做了这件事情之后 20 年他们就做了另外一件事情他们是说通过图像输入

在桌上整理桌面这个是不是现在巨声智能公司做的事情对吧是 Google 的 Gemini Robot 和 Pi1 做的事情这是 Obi 机器人团队在 2020 年当时想做的事情然后他们当时还发了一个不太成功的一个 report 反正就挺失败的全失败什么时候开始成功的大家发现这里面缺了啥缺了预训练模型

之前两次所有的失败都是大家仅仅通过强化学习直接学出一个通用模型发现这事不行机器人是什么时候第一次可以通过语言控制机器人去抓桌上的东西的呢欧巴是 2021 年机器人团队解散的

然后当年年底 University of Washington 那个团队当时就搞出了一个控制唯一的差别是当时 OpenAI 搞了图片生成模型也叫 DALIDALI 中间有一个小的模块叫 CLIPCLIP 是一个预训练的多模态模块它是可以把语言和图片经过预训练有一个好的表征这个模块

是 OpenAI 自己发的但是在机器人上把它做通做成一个语言控制机器人叠衣服的 demo 是 University of Washington 用了这个模块加到强化学习或者收数据上然后实现了这个事情所以你最后就看发现这个世界特别遗憾就是 OpenAI16 年就想做这个事失败了 20 年又做了一次又失败了 21 年解散年底发现预计量模型有了

然后之后的故事大家也都知道了大家发现原来我有一个 GBT-4O 这样强的预训练模型那就机器人也能在家虽然都是 demo 但是也能做很通用的事情我给他这两张图片编辑一下也能给我弄出来帮我去做 deep research 也可以所以这件事情我说了这么多我想的是说历史上有很多人其实我自己也做过当时我自己 17 年的时候在 Facebook 我们当时做 embody 的 agent

那时候也是希望通过强化学习去做也失败了原因就是你会发现强化学习是决策能力但是理解能力这件事情强化学习是给不了的

需要通过预训练所以你依然是需要一个非常好的预训练模型才能激发出强化学习的能力所以这里也得说预训练现在是不是重要的依然是重要的因为即使你说我最后是通过强化学习实现出了我最后的决策模型的效果那你是不是在预训练的时候可以为这件事情做考虑我是不是在预训练的时候就能训练更好的理解模型

训练更好的记忆训练更好的基础的长程逻辑能力对吧最后我加上一个特别强的强化学习就会有一个完整的智能体所以这里面我一直会说预训练跟强化学习是一个乘法的关系它是两个人乘起来才有最后的智能

起码你得有你不能是空的对吧对这样其实就很合理了这么一讲其实很多东西都串起来了为什么 OpenAI 把强化学习这件事做起来因为他本来先做的就是强化学习对失败若干次所以他后面再加起来是非常正常的一件事情很自然的一件事情所以相当于说预训练或者说我们之前讲大运元模型他做的就是理解记忆的这些东西

然后强化学习进来做的更多是决策跟一些 action 执行操作让他有决策和长程思维的能力那能不能说这两个现在放到一起就是一个完成体我只能说我不知道只能说我们现在看到的最好的 agent 模型或者这种决策模型确实它是通过强化学习通过好的机座模型整合出来的但是它有没有更好的方式或者下一步

强化学习算法本身有没有什么改动这件事情我觉得是空间是很大的因为我还是觉得它是个起步阶段也是说强化学习这个 scaling 就是说我通过决策思考也好提升他的智能这个 scaling law 才刚刚起步所以你也不知道下面会往哪里走但是你确定的事情是他肯定天花板还没到我觉得在至少今年年底大家都会看到更好的决策模型更好的通用 agent 模型出现未来发展的方向是什么现在

就是听起来其实已经做得挺好的了对哪些方面是要在比如我们知道预学练习之前就是反正我扩大规模对我们讲的 scaling load 对然后现在似乎大家觉得说这个东西已经不太 work 了在强化学习这条路线上后面再发展会是怎么发展

两个问题第一个问题是 pre-training 是不是不 work 了其实这里要更正 pre-training 不是不 work 了而是它的收益变小了强化学习只是说他在 skill note 初始阶段斜率够高所以大家觉得他比较好做就像我们作为一个刚开始的团队对吧我也觉得强化学习比较好突破你让我现在从零开始做一个 gbt4 我也做不出来但是我可能做一个单点突破的推理模型是比较好做的

那么回到 pre-training 的话题 pre-training 是不是没有说一台还是有的一大家还是在洗数据我们老说数据是一个叫挖矿的过程对吧你地表的石油挖完了还有页岩油加压对吧还是能洗出数据来这个差别是很大的第二是合成数据比如说我们想一想我们如果希望训练一个

能够很好的做视频理解或者说多模态理解的 AI 我们希望给他做预训练那么这个数据该从哪来文本还好说互联网上都是文本数据好有没有那么多图片和文字混在一起的并且前后有强关系的数据有但是量远比你文本数据少

好那么如果你要训练一个好的多模特理解模型数据哪来构造是靠合成数据的

所以这里面其实大家就是从一个浅水区走进深水区了石油都没有了现在我要加添加剂石油好你添加个啥石油能够燃料好这个就空间特别大了这是一个第二是说比如说我们说 scaling loss 要变大对不对想强化学习这个模块已经这么复杂了你要来个 1T 的模型或者 10T 的模型那么大训练不了

所以怎么把模型变小也是一个好的问题所以你看 OpenAI 它牛逼的地方在于它针流 mini 模型做得很厉害所以我们老说针流可耻我说针流不可耻你能针流个像 O3 mini 那么好的模型吗也不容易所以运行链几个方面一从潜水区走到深水区走向合成数据第二规模能不能有可能小一点的尺寸同样做到一样的能力允许你针流所以运行链还是有的

那么讲强化学我还是说它是在早期的阶段就比如说我们还是发现能刷的榜其实还没有完全刷完还是有人说你决策能力还是不够好我们在做对吧所以它还是个早期的阶段智能还能提升这是第一方面第二方面是说你会发现其实各家是有特色的举个例子比如说 Cloud

大家会发现其实大部分的编程任务喜欢用 Cloud 是吧它刷分可能没有欧望强但刷分刷的是什么分是一个编程题是一个独立的项目帮我做好那么大部分人的 use case 不是这个大家是说我现在就想这个 PPT 帮我画出来这个网页帮我画出来然后你帮我抵个 bug 有交互的

所以跟人用交互的方式有很好的编程体验你会发现 Cloud 的认识实际上做得特别好 DeepSeek 最新的基础模型也是这样所以你会发现我到底是要一个特别全面的模型

还是说有这样的一个模型就是专注于代码把代码做得特别好所以还是有分化这个其实也是跟比如合成数据有关系然后跟他们的训练方式也有关系所以这里也有另一种可能不确定就是有可能不同的大模型公司走向深水区之后他们会有不同的个性可能你去做 deep research

做这种网页 agent 你就喜欢用 gbt 然后你说我写代码可能就喜欢用 cloud 然后你说喜欢什么都会一点的你就用 grok 所以这里面还是有差别嗯

但我还是想追问一下就是像大家都理解 pre-training 大概能理解就是反正我往里堆更多高质量的数据或者做些算法调优调参对吧那到底强化学习这件事是怎么样算训练的更好我觉得首先还是看指标就是你指标都不够好那你一定训练的不够好指标你指的是难的一些指标比如说代码的指标比如说你强化学习那你起码在数学的分数上要刷的足够高

对我想问的是这个过程是怎么做到的是靠调参数还是靠什么东西这个真的是练单这就是练单它有很多单就是你有调参数你有训练算法上的改动然后你有数据特简单你就想我找一个学生我想让他做奥数培训

老师出什么题也关键对吧有的老师说你这个地方有能力欠缺我跟你来两道题回家做做完了就会了这是高级教师对吧有些学的不好的你可以他天天灌小学数学题说你去刷题刷了没用对吧所以出题也很数据也很重要然后算法很重要基建很重要比如说我们的基建我们说 7bit 模型两天就可以寻完

但我们最早的 100 模型可能 7B 模型是要训一个周的你想我一天多两天一周迭代 4 次 4 次试错的机会对吧我训练一个模型 7 天才能看到效果那这个完蛋所以有很多这样的因素偶合起来但确实要看最后的结果因为强化学习是一个你过程很难讲的东西他经常会发现你看着他长得很好

但是后来突然不涨了或者说训练训练一直不太长突然开始猛增都有可能所以这个事就是我们 DPC 老说啊哈 moment 就是他顿悟时刻这事很难的所以判断只能看他最后的结果到底好还是不好那么你要看最难的几个指标但是高也不代表你模型真的好你最后就是体感

体感这事怎么说呢就是你自己去试了所以其实我能不能解大模型里面现在反正就两条主线一条是训练往理解方面加深一条往决策方面加深但我好奇的是比如说我们说现在大模型的组织结构来讲可能比较好理解一点就这两件事现在是一个人核心在负责这个人是他具备多种能力都很强还是这两件事是分别两个人在平行的线上去跑

首先最好的情况大家分的没有那么开当然我觉得预训练和后训练其实这两个范式还是差别比较大的所以可能至少你有个预训练团队和后训练的团队但是我理解最好的情况是分工不要分的那么多比如说我们举个例子你做强化学习后训练你要不要去考虑数据

有一个预训练好的预训练模型之后你得先做冷启动去做 SFT 用什么数据所以你说后训练的人完全不管这样的监督数据你可能也不是可能训练之后你说可能机座模型缺某些能力你还得跟预训练的人说你帮我补一些这样的数据所以我觉得大致还是可以分成比如说预训练比如说多模态的一些训练然后比如说做语音的肯定跟预训练不太一样后训练跟这个也不太一样

然后做 IHF 的人可能跟候选人不太一样我觉得大概还是可以通过目标来区分的但是我觉得 AI 时代团队的最大的差别是在于需要每个人有破圈的意识就是你最好所有东西都知道才不容易出问题

所以模型理解这件事情包括思欧的刚才我们说图片理解这个东西理解本身跟 Io 是完全不相关的可以这么理解吗我认为它大量的理解是出现在预训练阶段我觉得 Io 显然是会有理解能力的提升的但是我会觉得它的基础能力是在预训练奠定的就 Io 更多的是激发它的理解能力就是我知道你的能力要这么被用起来

但是它不会带来这种基础能力的跃升明白这样的话多摩泰生成什么的其实也是跟 IL 其实现阶段是关系不大的深层应该是没有太大的关系所以我一直觉得就是说深层都是容易的理解是困难的所以多摩泰理解其实也跟 IL 没什么关系对我前段时间还刚听了一个事实可能很多人是想不到的就是去理解一张图片花费的 token 其实比生成是要高的

是这个背后的原因是什么就是理解是一件更难的事情或者我这么说因为其实核心是可控或者说 instruction following 的能力是你现在理解指令是什么那么你首先得看得懂那个字比如说我举个极端的例子你没学过俄文我把那个指令写成俄文你二要学一辈子你也学不上

不是说没有可能有可能你刷了大量的题之后你也可以它是一个效率极低的过程你最好是你这哥们你预训练的时候你就会俄文但是我阿尧就是你先认识俄文字我阿尧的时候我经过给你训练我可以比较快的然后你说我就知道俄文题怎么做画画也是一样的你画画本身有个能力然后我发现你只要有能力之后我能跟你讲明白你就能画了对不对

就是只生成这个事情本身是都能做但核心是说我给你两张图给你三张图然后交互式的让你把最后给生成出来这个是难的对我这里还想再追问一个点就是我们刚才讲到比如说最早的 I/O 买机票其实不太行因为他理解能力不够这个点对那理论来说我的理解是 I/O 它反正是一个奖励你得到那个结果然后去用各种方法去试对只要我最后要判断那个结果是他成功的买到了我想要这个机票

就 ok 那为什么他一定要理解前面的所有东西欧文安最早就是这么想的所以他们失败了好几次就是投铁这里面的核心是泛化能力的问题比如说我们去想下围棋我们知道只要强化学习就可以了但是你说让一个下围棋的 AI 去下象棋他行不行

这个就不行为什么因为它的所有训练过程是在那一个围棋棋盘上进行的所以它的所有的推理逻辑是基于那一个棋盘进行的那买机票也是你世界上主要航空公司几十家几十家机票都能买的又怎么样呢我给你再来个新的航空公司你很难保证这个 AI 到底是记下来了

还是他真的说我知道看图片上的文字但理论上说我如果世界上我有一亿种网页我就让你狂点理论上也可以但他肯定是效率很低下的一种方式我理解我觉得这个简单来讲就是当时的亚洲纯粹就是喜极迎背或者说你希望他能够学出一种更高级的理解不好意思数据真的不够或者数据广度不够

然后问一个很马后炮甚至于可能有点白痴的问题你看

我们觉得要训练一个人工智能首先他肯定是得理解这个世界或者说大家先想是我要做有用的东西所以他要具备决策能力所以我先用 I/O 来做用 I/O 来做发现他理解上是欠缺的所以我要训一个能理解的模型或者说有公司可能我先训了一个理解的模型然后发现他要做 A 制能要做东西的话肯定要加决策那就是说决策最好的肯定是 I/O 然后我要把 I/O 训好他肯定最好的就是说我给他

有标准答案的能够获得的东西来训对吧所以这里面就是数学体之类的对这个逻辑听起来非常顺啊为什么大家摸索了这么多年才摸索出来啊就听起来是很必然的一个结果吗为什么 RL 这个事是最近才得到共识对我觉得我们简单来说一些事吧比如说我们发现 RL 不够这件事情这个事情是大家反复试错直到比如说我就对于我自己我可能最早一批做这事情的人

我自己意识到这件事情是可能 18 年的时候我充分意识到当时巨神智能的所有瓶颈在视觉跟阿瑶毛的关系没有所以我放弃了我不做了对现在其实也是然后所以首先大家花了

很长的时间去发现它真的不行碰壁了对吧第二件事情是大家发现你到底需要多少数据可以让它泛化这是 scaling law 这事情要变成当年到底是 BERT 这种监督性的学习还是 next token prediction

其实比较像 Ian LeCun 一直很长时间都是说我们要 contrastive learning 我们不要用生成方式去学我们要有一些别的监督的对比的方式去学对吧直到 GBT-3 scaling law 有人在还不是图像是在文本上实现了这件事情而且这个中间有很多偶然比如说伊利亚说想做没人帮他做 Alec Rafford 说我试试这哥们够强这哥们要是个菜鸟

也干不出来所以大家可能又到了 scaling law 发现原来 scaling law 这么牛然后再往后说我们来试一试然后我们来做这件事情然后大模型是不是能有通用的推理能力这件事情也是不知道的也是可能有人坚信这件事情然后一帮人探索了一年两年我现在回头告诉你觉得逻辑通是因为每一步逻辑你都知道它是对的我们如果回到那个年代是战争迷雾的时候为什么阿尧不行

有人说我要做预训练那时候没人做预训练或者说预训练要用深层式做预训练还不是用监督式的方式做预训练这个事情又要老后了所以我觉得现在只能从后验来看这件事情是顺的它确实是因为答案

答案往往都是简单如果他不简单说明答案是错的对不对是所以就确实是一个马后炮的问题对对对对对然后现在好多做 agent 的公司其实他内部可能都会想要说我要配一个 RL 的人嗯嗯嗯你觉得这个事是 make sense 的是有必要的吗我觉得 make sense 就是你至少有一个人对这件事情有认知因为我觉得虽然现在 RL 的门槛还是很

就像我们自己在做开源嘛那我们做开源那个目的也是希望让这个门槛降下来那么比如说一年

两年总是能降下来的那么最终你说大家有没有可能自己都简单微调像强化学习做微调觉得肯定这一天会来的多久只是你不知道你先储备一些人总是没错的但你看类比的话其实前两年大家都在讨论说英语公司到底要不要自己做 persuading 对吧要不要有自己的一个模型现在基本上没人讨论这个问题了

过两年会不会说就模型能力也包括他的 agent 包括他各种决策 L 能力也足够强了创业公司或者说一些应用公司也不需要自己做相关的事情这个其实我觉得就是创业公司可能需要思考的问题我且不说他到底是答案是怎么样的

我觉得创业公司是不能想终极思维的他一定是在想一个 partial solution 该怎么做因为我觉得创业公司如果去想终极没意义那别活了对吧这世界没有你的机会对尤其是现在 AI 变化这么快对所以这里面的观念在比如说我觉得 Mannus 就是一个特别好的我特别喜欢他们因为他们其实就是有一定的模型训练能力你可以说他最终没有意义没关系创业公司

你的切口就是在一个终局没有到来的时候你把这些事情做了对吧所以其实 Manas 是说你看他们在这个市场上没有这样一款产品的时候他们用最快的方式用微调也好掉 API 也好给你传出了一个可动的东西这个就是创业公司的机会如果你创业公司老想的是最后有一天就会能用拜托那你还做啥呢你就趁早投资节对吧

对然后你看大模型训练的人其实前两年是非常缺的现在肯定好的人也仍然是缺的因为这个事也就是这两三年尤其在国内才起来但是 RL 这件事情已经至少 10 年了为什么现在大家还是觉得这个人才非常缺乏我觉得首先客观上讲

我们去看论文引用数对吧你是做 CV 的做 NLP 的引用数都很高然后你说就在 RL 的引用数就会少一个 order 这个就是本质上还是门槛变高的特简单吗你机器学习的问题定义简单你 RL 环境配好跑下来能复现这已经筛掉好多人了然后它数学还会更麻烦一些所以它本身的门槛就高所以客观上讲研究 RL 的人

它就是比做这些视觉大家做 NLP 去做推荐的这些人就少第二件事情我觉得挺遗憾的可能在工业界大规模使用强化学习的机会其实是相对比较少的比起 NLP 比起视觉所以你想很多人他可能在学校里面做但是他没有一个工业界的人才职所以这个人也会少然后第三件事情也是强化学习其实

对工程的要求非常高我所以也说很遗憾就是很多公司其实它的业务长期肯定是少的所以导致很多人也没有这样的机会去用大规模好的基建用工程化的方式把强化学习的方式升级所以其实我回国的时候做的很多工作比如说我们当时做了一个多智能体的框架叫 MAPPO 到后来我们去做大规模强化学习的框架 SIR 到最近我们做 Areal

其实都是我们希望因为我们发现国内做这个工程化的强化区的人真的好少所以我们也许自己会去做一些这样的工作去做开源所以多个方向吧就是一确实是门槛高第二确实是人人少第三是

他的工程能干比大家想象的厉害然后大家又没有这样的实践的机会所以总体上就会少对而且我觉得 16 年那一波就是 Duban 的 AlphaGo 起来其实带动了一波但后面好像 L 的热度是不是又下去了对是的就像欧巴亚也碰壁了

而且很多阿尧的人其实转向机器人了对所以我就想你当年学这个的你是哪年开始读 PhD 的我 14 年读 PhD 的那个时候它算是一个冷门专业吗或者说你可能有过几年比较难过的日子我是运气比较好因为我在 Berkeley 我觉得北美强化学习高校的大本营是 Berkeley

这个也是感谢当时的几个 professor 就当时是 Peterbilt 老师然后 Sergey Levine 老师当时我印象特别深刻是可能 14 年底还是 15 年初的时候当时 Peterbilt 跟组里面开会他是做机器人的他说不行这个时候我们全组 all in deep reinforcement 我们不做别的了

然后伯克利又是一个合作起来风气非常好的所以因为我早是 stu rosser 但是我其实也跟 peter 做了很多的工作然后还有别的组也是感谢伯克利当时那个氛围然后让我们去有了这样的合作因为我最早做强化学习我第一篇工作 validation network 当时拿 best paper 那个工作其实也是合作的我是敲 peter 的门

我说皮特我想试试这玩意儿皮特说你这些项目你挑一个我说我挑这个挑这个 best paper 然后 OpenAI 早期的时候其实皮特比尔在 OpenAI 当 chief scientist 然后他也让 OpenAI 跟 Brokerly 有很强的联系所以这也是比如说我当时引用最高的工作就是跟 OpenAI 的同事一起做的所以我得说这个也不是说我就多牛或者我选的特别强

就是运气好我在那个地方对今年应该是 l 就彻底起来因为图定奖一般给的那两个 l 的人对吧对对对对那这里我看有比较有点就是图定奖那个萨顿他其实本科是学心理学的是啊对所以就我就回到你开头讲的就是人生本身你觉得就是一场窍花学习对我觉得好像有点呼应的感觉

其实蛮有意思的很多做 AI 的人就本科不知道学啥的就是国外其实有蛮多的稀奇古怪专业著生的人非科班的人其实有不少尤其其实强化学习在很长一段时间是个冷门领域他真的到初圈我讲句也不怕别人笑话我升 PhD 的时候我 2014 年入学的我当时拿了 CMU 的 offer 拿了 Berkeley offer 我那时候不知道世界上有个东西叫 reinforcement learning

我第一次听说是 campus visit 的时候 Alex Moller 当时他办公室说我太忙了我学生约不过来你们俩人一起来我去在那跟他讲 large scale machine learning system 旁边一个小哥进来说我们能不能搞 large scale reinforcement 说 reinforcement 是什么东西所以真的你想我们其实也是接受了最好的中国的这段阶段的科班教育了

不知道我真的不知道有强化学习这个东西我们的教科书上是没有的所以我们得说中国的整个起步是完的但是美国就不一样美国就是你想反正这小众领域那么多少年前都有人研究然后高校那么多所以你想 Saturn 他们一直在阿尔伯塔大学对吧 You must Amherst 在中国人看来绝对不是主流高校中国人哈耶普斯斯坦福伯克利斯 MU 就是阿尔伯塔 You must Amherst

啥学校你要是放 10 年前如果不是图灵奖你说让学生你这里有个 off

肯定不愿意去对吧所以有很多有这种人他们是在鸡叫咖喱里边然后最后有一天把它做成所以现在如果国内的公司他真的现在想招一个 IL 的人或者想培养一个 IL 的人大概需要做什么或者包括怎么判断我觉得这事挺难的而且我不太想给这样的建议我觉得这个东西是非常带个人风格的而且不同公司

不同阶段他需要的人就不一样比如说大公司可能觉得招一些研究背景更强对吧然后你可能小的公司你可能需要的是动手能力特别强的对吧所以我觉得这里面挺难讲的但其实我觉得在这个时代尤其大家开源这么多自媒体这么多然后途径也这么多大家也愿意去宣传其实更重要的事情是动手

如果培养的话我会觉得是一个不要有边界意识他愿意去做很多东西他愿意去学发自内心的想学去动手我觉得这个人都是可培养的不管什么领域都是然后你强化学习未来的一些发展的路线和可能性是什么其实刚才大叉不扎也说了我觉得首先肯定是 scaling 就是你肯定还是可以提升智能 scaling law 没有停下来当然 scaling law 的本身可能是跟预训练结合起来这是第一条

那么 Screen 了完了之后就像我说的其实很多公司开始多不同的特色了比如说有一些公司繁华性做得很好比如说 DeepSeek 对吧他出现了一个大的原因就是说他哲学体验的跟你想一想对吧繁华性做得很好比如说 Cloud 代码做得特别好

还有比如说 agent,openh 是 agent 做的特别好我一个模型从头到尾 deep research,不知道你写特别复杂的代码但是你要很多次的交互去调函数所以我觉得这个方向比如说泛化性比如说 professional code 比如说 agent function code 我觉得是分叉的这些点当然我觉得还有别的点了我只是举例子我觉得

首先是一个主的树干然后会有分叉所以这也是我自己最近在想的就是说我们这个团队往后走往哪个方向走但我觉得大家都可以讨论你那天提了一个在三个方向是吗对我就说饭话代码和 agent 这是三个挺大的分支而且都可以长出非常大的东西了我在想决策这件事的 skilling load 最后在用户端体现的感知是什么

你文字其实是很明确的对吧谁写的更好谁写的不好之类的但角色演示人最后成了结果准确率还是什么几个东西首先是结果准确率比如说我们去说初学题我们给你写一个分析报告对吧帮你去 deep research 或者 operator 帮你去网站上完成一些操作对吧这是准确率可以判断的

当然交互体验也是就比如说 Cloud 前端代码写的就是好对吧它本质上还是可验证只是说到底是 benchmark 验证还是人的体感验证还有一个我觉得特别重要的东西是多轮交互比如说我觉得 Cloud 特别强的一个地方一般你正常的模型给他一段代码让他 debug 他就说我来帮你看看这东西怎么 debugbug 可能在这

Cloud 会问你问题的 Cloud 会说你装的环境包是什么你装的 Huda version 是什么这就不一样你想本质上跟你做个性化交互的时候是要有交互的它是要问问题的那么能不能有一个 agent 他除了做事他能适时的去给你问问题适时的能给你做一些个性化的选择这里面其实水很深了我觉得问问题里面到底理解跟决策的一个占比是怎么样的

我觉得这很难说都是一个综合的结果对我觉得它是 A*B 比如说你要他看个屏幕屏幕上的字你这玩意看不清

让他分各个图像里面有几个物体他都点不出来那不好意思我觉得你肯定完成不了你去上网帮他比如说买东西的任务对吧对但我就说他在哪个节点提问什么时候提问提出问题这个更多的这可能是推理了还是 I/O 对吧这还是 I/O 来的就是你能理解过去发生了什么对吧然后你能做出正确的决定明白

然后你们其实一直在做强化学习的框架对吧然后你正好这周新发的一个框架对对你能不能给大家解释一下就框架这个事对于强化学习到底是个什么概念两个事第一件事情是首先因为强化学习还是一个 scaling law 它是不是 post-training scaling law 或者说这种叫强化学习 scaling law 我打算一下我追加一个问题就是之前大家讲 post-training 讲 scaling law 的时候不一定是一定是强化学习的对吧

其实是我觉得他原来只讲 post training 因为在 IHF 时代做 alignment 但是讲上 scaling law 这个事儿是因为 O1 R1 出来之后在强化学习连上了才讲 scaling law 的对你继续讲你框架问题框架我觉得两条因为第一它首先是 scaling law 你首先要能 scale 你能 scale up 所以你好歹要有一个框架能让你真的在 1 万张卡上去做大规模强化学习训练

这就是说你要宰牛你好歹得有牛刀对吧那么很多公司的框架是不开源的就像我们框架的前身或者再往前的前身当时我们发现 OpenAI 在打游戏时代打游戏也有一个需要框架对吧你要去打多他你要大规模并行模拟多他这个框架怎么来所以当时我们说开源的没有只能自己写

那么现在也是开源有好的但是可能没有我们自己用的趁手的所以我们有些自己对框架的想法所以就搭了所以一是得有牛刀你好歹先跑起来对吧跑上一个月这个已经很了不起了第二件事情就是快二我们知道模块太多了它是一个复杂系统

之前说 Math 就三个模块加上 Agent 四个模块每个模块本身都很复杂而且这个交互的模式还不可预测你怎么知道这个 Agent 会怎么跟环境交互啊所以中间就会有很多很多的可快可慢的东西一个复杂系统嘛

就像一个公司对吧你有好多部门效率差个 10 倍不夸张对吧你就想 AI 在算法得到阶段本质上是一个你能做多少实验你就有多少 improvement 的地方那么你想一个 infra 一个系统如果能 10 倍你就能做 10 倍实验那进度可不快所以我们一是先得有牛刀得能跑 agent 强化学习第二是也希望有个东西尽量能

所以我们最近也是跟很多做推理引擎的团队比如我们跟 SG 浪就做了一些联动然后我们也希望后面给他们做一些合作的开发能让这个模型尽量快

所以你们现在核心就像这周发的框架主要进步的地方就是快一点一还是稳定能在 7B 32B 都能做稳定性当然 32B 还没有达到我们想要的效果我们还在训练 DL 它确实快了很多两件事情都让我们觉得它是一个可发的版本但是其实我们内部还有

很多想做的东西而且我们内部其实也有更快的版本但我们没有把它完全做到我们一个满意的状态所以应该会很快有下一个版本对你后面所以主要研究的一些方向或者自己在花时间的一些方向是什么首先我自己最感兴趣的就像是我说的就是 AI 和人交互应该是一个怎么样的方式我觉得它是一个非常强化学习而且它有意思的地方是在于

如果对面是个人那么人一定有 partial 或者 hidden information 就是很多时候大家去做指令遵从是假设的指令讲完了所有事情但是大部分其实其实不是对吧所以你才会有交互才需要决策因为你需要去猜

人是想什么有什么信息可以去问所以这个其实像因为我过去做泛化性做多智能体学习可能在这条线上这是我最感兴趣的问题那么短期其实我们就是在做追赶的问题对吧因为我们首先得先追上主干 scaling load 我能顶上来还有后面技术路线的选择毕竟是个起步比较晚的团队

你说的感觉是说你们团队在追赶对追赶世界一流嘛对我们一直都觉得说比如之前两年我们总讲说玉琴店国内还是至少比海外晚个一两年对吧现在在慢慢在追上对所以你觉得乔瓦学习这件事情现在国内跟海外的进展的区别大概是怎么样

至少你能看到明显的差距我举个例子比如说 OpenAI 和 Cloud 特别明显他们有在强化学习环境里面大规模训练 agent 的能力 Cloud 模型 SONET 肯定是强化学习出来的然后 OpenAI Deep Research 不是他已经说了吗他就是

国内似乎还我不知道 DeepSeq 做成什么样了就至少我们从放出来的东西来看至少我们看这里面是有 gap 的大家就说推理做的还都可以对吧单做代码做的也都还可以但是你说做到那么细那还是有差距的而且这里面也有很多算法探索的东西所以我个人因为我其实三月份 GTC 我也去了一趟

跟美国的朋友们也 catch up 一下我还是觉得美国还是比较领先的尤其这种探索性的东西国内是追嘛但是说到底差多少这个我不能随便下判断明白如果按你讲的就是我们把模型的效果等于一个 pre-training 乘以 post-training 或者说理解乘以决策我是不是能理解成现在其实 pre-training 也是有差距 post-training 也是有差距只是 deep-seek 在 post-training 上走得更前了一步它其实技术模型也很好

但是你要注意到 DeepSeek 一直没有做多么 Tile

DeepSeek 也是一个非常专注的团队所以 DeepSeek 我还是很佩服他的事情就是一个小的团队在有限的资源下他把一件事情做到极致所以这个可能也是 OpenAI 开始 slow down 的原因因为他变成 Google 了对我觉得他现在特别像 Google 对但是 Google 你说他目标明确的时候他做的东西也挺好的是对所以反正总体而言其实差距还是在的对但我觉得他就是谨慎乐观嗯哼

然后关于 IL 你觉得有没有什么是你比较认同或者你觉得就是目前行业里面是有一些错误的判断或者共识的东西我觉得其实大家可能没有意识到

阿瑶的数据阿瑶的基建非常重要数据大于算法我觉得基建远大于所有基建就是指的是你们做的框架对框架当你有屠龙刀刀能比较锋利基建是非常难的而且基建需要有能做工程的算法同学去做因为这个东西最后是个复杂系统它是为算法服务的

所以这个其实要破除很多概念很多人觉得工程是工程算法是算法强化学习真的不行因为你很难标准化去定义我要什么所以有一个好的基建是非常难的而且需要很多时间打磨的然后它远远比算法本身重要当你有一个团队能搭出个贼牛逼的基建的时候它算法不会走的差的其实 DVC 可以证明这件事情然后它数据也很好

很多人会觉得强化学听起来好算法的一个东西是不是还能用预训练的方式去想这个数据但我觉得它其实是一个小范围的共识但只是需要被人听到就是基建非常重要数据重要算法重要但不那么关键算法你只要有一两个能判断对错的人就可以了明白我最后一个问题还是回到你刚才讲的人生的一个问题大家好像是研究各种决策研究各种

路径方法等等你觉得你在这么多年研究情报学习有没有其中的一些点是能够泛化到人生这件事上是给你很多启发或者你能够用在一些决策上的点各种算法各种

paper 里面研究的东西这些是不是其实放在人身上做决策也会有些参照性的就是我做强化学习有一套我很喜欢的论文但它其实没什么引用叫 diversity driven reinforcement learning 传统强化学习只是我只要赢所以你会发现强化学习打游戏它一旦发现那个赢的策略之后它就在哪我就不停地打嗯

比如说我要踢足球我中路一个人带球单刀我赢了之后我就会每次都这么单刀这是最 efficient 的最稳定能赢的方法但是你会发现人一般玩游戏的世界不是这样你会想我玩一次我腻了再给我换一个我要短传渗透我要传中我要投球对吧这个是人生的样子所以我觉得 diversity 这件事很有意思因为其实人之所以为人是因为有不同的人他有 diversity driven 就是说我一定要跟你不一样

这件事情才导致了大家有各种不一样的生活不用担的决策对我们之前路过一期德普主题的播客对那个人就在讲说他现在发现最好的牌手越来越趋同就是大家都在学 AI

对然后这个游戏就变得没有意思了对所以我很喜欢那个系列的工作就是你发现你就是让一个 AI 在强化学习的时候你加一个 constraint 就是说不光你要 reward 要高还要跟之前你找到的所有 solution 都不一样然后你会发现很自然的就会推动这个模型去发现一些很好玩的东西虽然你也不知道它有什么用对吧所以我其实想跟大家讲的是我发现其实现在的很多同学

也都喜欢去一个风险最低的路径我跟很多学生聊他们老说老师我去美国我有签证风险我要保研保研是一个稳妥的选择我要怎么样怎么样怎么样我觉得人生还是要追求高商的一个过程我觉得很多我的学生是 20 岁的年纪我觉得是大家做所有的事情都是对的

但是你只有去选就比如说我觉得我确实运气很好我当时在博弈里读书但是如果我不去敲 Peter 的门我不会有机会去选就像我当时我不回国选择来看一看我不会有我后来的各种人生的经历所以我倒会觉得这里可能会建议大家可能可以想想 diversity driven reinforcement 可能去追求一种最大商

的生活强化学习是怎么选的呢强化学习它在仿真世界里面不会出错嘛就是不是因为强化学习它理论上来说它是无限次的嘛对它很无限次但我是觉得即使你在一个很强的限制条件下就像你打牌嘛

你别把把我引一般也不会怎么样对但我觉得问题是无限次所以他可以试所有选择所以他不会有一个情绪叫做后悔人经常有这种情绪叫后悔就是只要你没选的东西你就会后悔你就觉得那可能更好对所以我昨天还跟我老婆在聊

就是当你选择之后其实期望是变高的那你的 variance 也变大了就是如果你只看期望是大概率会变高但只是它有很小的概率你会变差大家因为恐惧这个变差所以导致大家不愿意去选

所以我觉得这是一件蛮遗憾的事情是因为差其实大家差不到哪里去但是你如果不选你永远不会去 explore the more 就像你在二摇里面在一个 local optimal 里出来出去跳一跳大不了再跳回来其实我觉得人生只有一次其实也不是

我觉得人生怎么着也能选个三四次然后 Reward 这件事情我也想再给你探讨一下就是你刚才提到的说其实人很容易说我这段时间奋斗最后发现我那个目标或者那个东西不是我想要的对在深度学习里面会遇到类似的问题吗就是你中途比如改 Reward 还怎么样呢会有些参照吗我觉得这也是我喜欢那些研究就是传统的深度学习或者强化学习都不是就是大家做算法的同学都希望这个问题是

formulator 的非常标准我知道这个 objective 是什么但因为我做多智能体学习我做人机合作的那你跟人一起玩游戏不会就比如说我们当时跟人做一个什么 overcooked 的游戏一起玩厨房做菜所以我们就希望 AI 能够猜人想干嘛说跟人合作所以其实这个东西是一个 information seeking 的过程就是你只有去

试了有交互你才有 signal 你才能知道那个 reward 是什么对吧你要是不看你永远不知道那 reward 是啥所以跟一个不确定的世界交互一定要去 active seek 你才能看清对有的时候不是我一直找的目标再去做而是做的过程当中再找目标一定是这样的因为不可能想清楚我觉得我读书的时候我还说大家判断未来只能判断三年我觉得现在判断未来最多一年半对吧一年半挺厉害的

我一年半已经挺厉害了对因为你真的你现在回头想一年半之前的大模型那些事情我老劝我那些学生然后我那些学生就会说我先读个博读个博再怎么样我说你读完博 6 年过去了我的天哪你做这种运作有什么意义

对但是我觉得很多人可能就希望是这样但是可能是一厢情愿 ok 最后再来讲一下你们框架再来宣传一个对我们最近开源了一个框架叫 Areal 然后我们这其实是 Areal 的第二个版本叫 Areal Boba 就是一杯真正的珍珠奶茶

但它全称是 Ant Reasoning Reinforcement Learning 是一个我们跟蚂蚁研究院一起做的一个强化学习训练框架然后我们把它开源出来基本上自己测下来应该是开源里面非常快的一个框架同时呢我们也把所有的源代码所有的数据所有的模型所有的评测脚本都开放出来然后我们也在

7B 的尺寸上是用强化学习做到了一个 SOTA 的标准就是我们应该是第一次我觉得公开汇报在 7B 模型上在 AME24 做了 60 以上的一个挺高的一个分数所以我们也觉得这个框架以

也算还不错然后也确实开源了之后我们也希望有更多的人如果想用强化学习做尝试的话可以来尝试一下我们这个框架也可以来关注我们这个项目然后我们后面也会持续的发布跟蚂蚁一块大家都是一个完全开源的状态对欢迎大家去 Github 点赞对谢谢好谢谢

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼 01:12:49 Share

42章经

Deep Dive

Shownotes Transcript

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼