We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

对话吴翼：用打游戏的方式做AI Agent

2025/6/26

ReSpark

AI Deep Dive AI Chapters Transcript

People

Tim Peng

吴

吴翼

前OpenAI研究员，清华大学交叉信息研究院助理教授，边塞科技创始人，专注于强化学习和人机协同。

Topics

吴翼：我认为大公司在移动互联网时代的反应较慢，这同样适用于AI Agent领域。Agent提供的服务非常通用，因此会出现许多利基市场，这些市场大公司在短时间内难以覆盖。创业公司若能抓住这些利基市场，并以更快的速度推出产品，就能获得巨大的领先优势。品牌优势在AI领域至关重要，即使产品存在不足，强大的品牌也能为创业公司赢得发展时间。吴翼：在AI Agent领域，早一个月发布产品能带来巨大的领先优势，品牌优势至关重要。即使产品存在不足，强大的品牌也能为创业公司赢得发展时间。

Deep Dive

Chapters

本节探讨了AI智能体的定义，以及它如何通过与环境交互来扩展大模型的能力，从而解决以往大模型仅能聊天的局限性。智能体可以操作各种软件和工具，甚至扩展到物理世界，实现更广泛的应用。

AI智能体定义：所有基于大模型、能够与世界交互的软件。
核心是交互的概念：环境、世界、AI之间的交互。
解决了大模型只能聊天的局限性，扩展了其应用范围。

Shownotes Transcript

互联网时代有很多大厂但是你看他在移动互联网时代他的反应是慢的这个也是一样我觉得因为 agent 能够提供的服务太广他真的很通用所以他其实会出现很多的 niche 这些 niche 大厂短时间是 cover 不到的 Mannus 就是做了一个大厂赛道但是他其实比别人可能快了几个月甚至是一个月但是我们知道在

AI 证明一个全球关注流量特别大的赛道上你早出来一个月其实会带来一个巨大的领先优势领先优势可能会到半年你的品牌优势都在确认 chadgbt 也是 chadgbt 可能大家对他的新国性不太满意但是他的品牌优势依然特别大那么这个品牌优势给你建立了一个时间那么这个时间会给创业公司带来他第二段阶段的计划

在 agent 的时代你可能重新得去看 10 年前这帮做打游戏的人是用了什么技术很多那样的技术都是可以拿过来用并且是很好用的

做出 Occult Chess GPT 的那些人并没有那么多的 PhD 所以我觉得现在这个时代也更像是你看 Adrian 的时代都是一个新的东西我会觉得我会鼓励大家去上手这些经验都是通过你的上手经历而积累出来的那在这个阶段其实对于所有人都是公平的就是大家几点都差不多

然后呢,大家就可以自己去探索,对吧?然后你探索得多,你的 get your hands more dirty,然后你就会有更多的收获。大家好,欢迎来到 Risbark。我是本期的嘉宾主持 Tim Peng。本期邀请到的嘉宾是清华大学交叉信息学院的助理教授吴毅。吴老师现在同时也与蚂蚁技术研究院合作,开展强化学习的研究工作。

出生于 1992 年的吴毅在高三暑假代表中国参加国际信息奥林匹克竞赛随后被清华摇班录取 2014 年本科毕业他前往加州大学伯克利分校攻读人工智能方向博士第一篇深度学习论文就获得了 NIPES 当年的最佳论文奖博士毕业他加入 OpenAI 工作了一年半

参与的游戏项目捉迷藏是 OpenAI 历史上视频点击率最高的视频 2023 年他创立编赛科技想用强化学习为更多人创造更好的智能体验 2024 年底他受邀帮助蚂蚁集团成立了强化学习实验室本期节目就来听一听吴老师对于当下 AI Agent 智能体发展的看法

吴老师也会提到他们正在构建的开源强化学习平台 Areal 这个平台可以支持各种类型的 agent 学习和开发他们团队也已经完成部分 agent 应用的开发甚至也有应用到具生智能领域的一些有趣的 agent 具体内容大家都可以通过收听本期节目进行了解希望今天的内容对于我们各行各业的普通从业者也能带来不同视角的启发

吴老师你好,有一段时间没联系了,最近你在忙些什么呢?最近我们就是在搭建我们的开源强化学习训练平台,叫 Areal,我们是希望搭建一个开源的开放易用的,然后也可以为 agent 和通用的强化学习决策模型服务的这么一个框架,所以欢迎大家关注。

现在是什么一个进展估计什么时候会跟大家见面这个产品这个其实已经放上很长时间了然后我们一直在一直在迭代我们第一次的这个 release

应该是今年年初的时候,然后我们在三月份的时候放出了第一个稳定的版本,然后在数学上做到了一个开源搜查的水平,在三月份的时候,三月份的搜查水平,然后我们在五月底六月初的时候,我们放出了第二个版本,然后是一个全一部的版本,这样是达到了一个 coding 的,

在来 code bench 上达到了一个开源呃搜他在同样规模主份的模型上是开源搜他的水平然后我们应该会在下个月或者下下个月的时候推出第一个能做 Agent 强化学习的就是把 Areal 升级到可以做 Agent 强化学习的这么一个版本所以他一直在一直在往前推进然后也希望我们能够更快能帮助大家训练出更好的 Agent 模型

这个听起来还挺让人兴奋的,然后这个具体的一些工作细节我们稍后可以再做一个更深入的沟通。然后我们可以在一开始由浅入深,先谈谈就是对于智能体 agent 的一些宏观层面上的看法。就是现在就是关于这个 agent 的智能体,好像我看市面上没有一个严格准确的定义,就你认为应该怎么来定义智能体这个概念?

先说一下结论吧我觉得从结论上说我个人觉得所有能够基于大模型能够和世界进行交互的而不是只简简单单吐出文字的这么一个大模型的软件叫 agent 这其实是一个大家常识上比较通用的认可的这么一个

这么一个定义比如说它能够调用一些比如输出代码来调用一些函数比如说它能够去这个能够操纵一些这个电脑屏幕比如说它能帮你去做一些浏览器的操作那这些其实都是因为它不光是输出文字了这个文字最后产生了跟这个世界的交互软件也好真实世界的这个函数的工具也好真实世界的一些

API 也好这些都是跳出了文本的概念所以他们把它叫做 agent 这是一个宏观的我觉得大家常常通用的一个概念当然 agent 的概念其实很早的时候

是从强化学习和博弈论的领域里面或者说最早其实是博弈论领域里面的概念他讲的是就是能够把一个问题出向成一个序列决策问题它有动作有状态然后然后这个并且有一个环境对

所以它本身是有一个环境交互的概念在,然后直到这个东西一直都是在强化学习领域里面去谈论这个概念的,比如说打游戏的时候你会说这是一个 agent 在跟一个游戏环境做交互,比如说做机器人的时候你说是一个虚拟式的三维仿真世界里面,有一个机器人在跟这个仿真的物理世界做交互,那么你把它也会建模成一个 agent。

一般在大语言模型或者自然语言处理领域是不讲这个词的直到大模型当它有一定泛化能力之后它开始可以跟一个环境做交互了原来是在强化学习和博弈论里面的概念就被拿到了大语言模型里面去当然这个概念其实也有一点滥用但是我觉得它的核心还是交互的概念就是有个环境有个世界然后有一个 AI 能跟他做交互那么这个软件叫做 Agent

所以听到了关键词是 AI 大模型环境交互对吧这些都是一些关键词在里面那么 agent 智能体它的出现解决了之前没有解决的什么问题呢我觉得是它是把大模型的这个 scope 或者它就是它能解决问题的范围扩大了因为原来大模型在早期的时候其实就是说话

他就是跟你打一段对话他主要是个聊天的场景那么但他不能跳脱于跟人对话这个概念那么到了智能体这个阶段他就发现那我把他说的话以某种格式进行处理之后我是可以让他去跟别的东西不是跟人

它是可以跟世界或者跟软件或者跟浏览器或者说你手机上的一些工具一些 APP 去做交互的它的范围就变成只能跟你说话变成理论上可以操作所有的东西只要你能把这个接口定义好然后让 AI 训练出一个好的大模型让他知道怎么去调用这些接口

去调用这些服务那么就变成了一个智能体所以它会从对话变成理论上可以帮你做所有的这个电子世界里的事情当然咱们再跳多一再往大里说如果有个机器人对吧有一个实体它能够帮你去在真实的 3D 物理世界里面去帮你去开个柜门炒个菜然后按个开关那么它就变成巨神智能或者叫巨神智能体的概念了

所以它理论上是变得越来越大嗯看来 agent 这个东西的延伸还是有很广的一个应用领域的对那么其实所以我们就看到各行各业很多人现在涌入做 agent 这样的创业公司现在也特别多对啊然后就是问题是就是大家在这个涌入这个赛道的时候有没有去想好说 agent 应该具备什么样的一些特点它才会是一个好的 agent 嗯

我觉得一般来说大家做 AI 都是会有一些阶段比如说首先会先从 0 到 1

然后再从 1 到 10 这话怎么说最早的时候当没有 agent 的感觉 agent 概念怎么来的最早的时候大家只有对话只有 chat gpt chat gt 是只能跟你聊天的对吧所以当时有很多聊天工具聊天的软件像 cat ai 或者像心眼这些聊天的软件

然后大家发现说我们其实调整一下 prompt 让大模型输出一些代码或者输出一些函数调用

这个其实现在有一些标准化的接口比如说 mcp 其实就是这样的一些标准化接口那我可以设置上大模型你就输出这样的接口然后呢我给你写一层软件的工具然后你输出了这样的接口之后我就去帮我就去对应的这个函数接口上去执行这样就产生了一个这个 agent 的这个

除形所以当时其实有很多的或者到现在有很多的 agent 的开源框架他们其实本质上做的就是这样的事儿我来调用一个大模型然后呢我帮你用框架的方式让大模型有能力在输出某些特定内容的时候会触发一些现实世界的响应然后它就形成了一个 agent 框架因为

所以这些框架是第一次展现出了大模型不光可以聊天它也可以去驱动一些真实的任务真实的软件所以它先是从 0 到 1 原来大模型不行现在可以那么之后就是好不好用的问题比如说我希望它触发软件的时候我希望它能进到准

我不希望说你帮我去你希望他帮你去找一个这个网上搜一个什么东西我搜了半天搜不到你希望他变得准对吧然后呢你也希望他的繁华性更好因为这个世界上的软件服务其实特别特别特别多

你怎么让他这个调用的更准或者更快因为现在比如说我们做这个智能体比如说火的 manus 也好或者 openend operator 也好其实他的这个响应时间都很慢他要去鼠标就是去看网页的话可能几分钟就出去了大家想的更快所以这是一个一到十的过程那么一到十的过程我们会觉得

你最后是需要训练模型的你需要把这种因为聊天的能力和帮你去干活的能力是不一样的对吧那你其实希望背后的那个模型可能也是不太一样那你就有可能从一到十的时候除了你要有一个框架让这个 AI 能够展现出很强的 Agent 能力同时你也希望把这些能力内化到模型参数里面去那么你就会有一个我个人觉得这样会产生一个最好的

agent 模型啊然后这也是为什么我们一直想做 agent 模型训练框架的一个原因理解了所以如果我们通俗一点讲的话现在也觉得说如果一个好的 agent 有人也说啊那他就是做的更像人了对不对就是更智能的然后可能就是这些任务你需要语言科学编码

各种因素融合在一起融合在一起做好这个任务所以模型和 agent 不仅他是一个优秀的程序员他可能还得用语言清晰的思考或者还要带点哲学家的气质或者是什么更更更像人对吧去去做好对的事情嗯那就是我们现在看到 agent

他有一些是想做通用的 agent 有一些他是在专专注的某一个垂直领域做专用的 agent 所以你更好看好哪一条发展路径这个真的挺难说的我觉得挺难说的这个这个我觉得是个非共识我的我的感觉是这两件事情可能未来谁大我说不好

但是他们肯定没有那么冲突,就是我不觉得最后会有一个人就不存在了,我觉得这个是不会的,就像你现在咱们看移动手机上,对吧,你有一个巨无霸的应用叫微信,但也不是说就没有别的应用了,虽然可能大部分应用可以在微信上做,对吧,但是你依然有很多别的应用,它就是即使小一点,

大家还会去做的因为它本质上是一个服务就算你有个超人特别强的一个秘书总还是有在某个领域它让你更爽的一些对吧专业秘书所以这个事是不知道的但我觉得核心能力是说你的但就是多大这个问题其实取决于通用一阵的能力能提升到什么范围这个大家其实不好说如果

这个特用的能力真的 agent 能力能够特别特别强的是吧就是他的泛化能力巨强它是有可能产生一个像微信这样的一个入口的就是我特别强反正你告诉我什么我就帮你做什么活都能做再专业的我都能做

但它确实可能会压缩很多这样 Trader Agent 的空间但是我觉得 Trader Agent 一定会存在的因为总是有在每个 Trader 里面不同的这种知识和经验它会把这个产品做得更好或者这个软件本身做得更好所以这也是存在的但是到底会多大到底是通用 Agent 变成微信了还是说通用 Agent 最后也就是一个普通的入口还会有很多的软件出现这个是不知道的

明白,所以我们就一起来拭目以待 Agent 的发展那么 Agent 也有人会觉得,打比方说它是不是像上个时代移动互联网的 APP 其实大家都可以开发自己的 Agent 可能技术壁垒没有那么高它对一个应用的要求和场景的要求会更高一点所以有人在说那大模型和应用一体化才是 Agent 的未来吗?

就是我是不是还得做深去往模型层去做还是我就是做一个 agent 其实也能做到很好的效果

我其实有一点同意这个观点,就是它确实很像当年的 APP,就是每一个人都可以搭一个自己的 agent,然后会变成一个服务。但是如果按照这个逻辑去讲,那么它确实门槛比较低,并且会陷入一个特别惨烈的竞争。

因为大家其实没有什么本质的差别嘛就变成就是就是我做软件嘛最后的 AI 是一样的那我能不能做一个锤类的 agent 做的好也是有可能的因为你想在移动互联网时代其实有很多很小的就打了很 neach 的这种点的这种 APP 然后他也是能成功的这个也是有的但是这里面呃

就是咱们来看竞争后哪里去的吧除了你的产品 sense 特别好你动查到一些人的需求然后你站住了个特别逆序的人群和点这是有可能的那就是传统互联网的逻辑只是把当年的应用放在 AI 上工作了一遍如果除了这种天才的产品设计者那么再往后竞争会哪里来一定会涉及到背后的算法层

就是你的模型最好是跟别人有区别那才会带来一些产品体验上的不同那不然就纯粹是产品定义上的差别产品定义和软件服务上的差别了那这个就会竞争更惨烈所以我会觉得是这样一个竞争让大家必然的往后走那么在 AI 时代最后的那个东西就是模型所以大家都会想着在模型上产生一些差别

所以我这才会觉得可能然后随着模型的这个训练的成本的下降以及算力成本的必然下降那么在一段时间之后我确实觉得能够训练模型的人或者说在不同就可以就是你不一定是要训练一个像 ChatGPT 这么大的模型你可以说我有几个模型开源的模型组合起来或者怎么别的一些方式去有的时候调用 ChatGPT 有的时候调用 Cloud 但总之背后的这个 AI 模型的能力是应该会有一些差别的

这样才是一个就是这是竞争驱使大家去做这样的事情而且随着价格的和成本的下降这个竞争也越来越可能所以我确实会觉得未来是在模型上大家会有差别的

OK 就這種轉變其實意味著智能體 agent 他的設計的核心複雜性就轉移到模型訓練的階段了那就從根本上需要提升模型的自主推理能力然後最終顛覆現在的這個應用層的生態對就是我或者說有可能他不是說要

它可能不是要每个人都可以训练模型才会颠覆这个生态而是我会觉得这个生态很快会进入到大家都需要怎么着去模型上搞个花样的一个阶段明白所以 Agent 智能体它如果是一个好的 Killer App 你觉得会是什么样的 Killer App 我的观点一直都是我觉得它不应该是一个 Killer 就像我刚才讲的

他到底是一个通用的 agent 还是很多锤类的 agent 我个人肯定是希望是一个有很多很多不同的锤类的 agent 的世界我肯定也不希望是一个有一个 agent 把所有人垄断的世界因为这个垄断的世界对所有人都不是一个好事

所以就跟移动互联网时代有那么多的 APP 一样虽然最后可能还是收敛到了几个大的 APP 但是你也依然希望在这个时代里面是有很多很多不同的智能体的然后我也确实觉得智能体的范围特别特别大因为它本质上就是个秘书

它本质上还是个生产力工具,我们先不讨论这种饭娱乐属性,大部分的 agent 还是一个生产力工具,那么你想秘书还是可以做很多很多的事情的,所以我觉得我希望看到的是有很多种不同的 agent 出现,

然后每个 agent 有不同的特点最后大家可以去这种百花齐放的场景我会觉得这是一个健康的生态而且我也希望看到这样的生态所以我们其实做的很多开源的工作也是希望能帮大家去降低一些未来可能成本比较高门槛比较高的事情然后能促进大家能够产生不同 scope 的 agent

我不希望我还是说我的观点我不希望最后大家只用 SharedGPT 或者 Cloud 对能不能力推去复制之前 SaaS 服务这个发展的历史它可能也会有很多不同的 SaaS 服务的产品百花齐放只是说它的落地的时间点不一样不同时间点会涌现不一样的成功的产品

我覺得 2C 2B 還是挺不一樣的我覺得 2C 的 agent 和 2B 的 agent

他的表现形式还是很不一样的因为比如说 2C 的话大家就是在基本上是个移动端或者电脑端接口是比较统一的那么就主要是看需求那么对于 2B 来说其实还存在这个每个企业里边现在是一个什么样的生态我们要得知道不同的行业尤其传统行业里面所用的信息化的平台和习惯是相当之不一样的

所以其实我觉得在 SaaS 平台当然我们得说中国的 SaaS 和美国的 SaaS 不太一样比如说以美国为例那么美国的 SaaS 我觉得还是很多东西可以做的因为本质上就是一个对于信息化的升级所以这里边还是很多的但是 2C 可能就会比较像当年的互联网就是他给你秘书服务理解

那其实 agent 在你来看 agent 的壁垒主要在哪可以去建立自己的一个壁垒两个东西嘛我们还是讲之前 agent 的能力是什么第一首先是你要个软件站这个软件站让大模型跟这个世界交互起来因为大模型本身是输出文本的对吧所以你一定有一个软件站这个软件站里面可能包括 prompt

包括了这个工作流的流程怎么把大模型串起来比如说包括了大模型输出什么东西的时候你要去调用一些外部的这个接口比如说你要帮大模型做一些哪些样的存储比如说做一些记忆的存储啊做一些文件的存储和处理啊

这些是个软件战的问题那么这个东西首先本身是一个壁垒我们得说就做的好跟做的差的是有壁垒的比如说这个跟你我觉得简单类比一下就是说当年这个互联网产品对吧有很多功能差不多的互联网产品有的人做的就比另一个人好对吧这个这是产品力的问题所以产品力本身是一个差异化的点差异化的点可以成为壁垒

对就是当然这个壁垒会薄一点那么第二个壁垒就是我们说的除了软件层还有模型层所以模型层的差异以及数据的累积肯定也是另外一个另外一个差异点所以大家一定会先把这个流程软件层做好然后去往模型侧走嗯

所以其实这些都是你觉得 agent 的壁垒它可以掌握一些优势的着力点然后就这些着力点其实我们也看大厂和创业公司的比较大厂其实它有很好的流量有很好的平台有很好的生态来去做 agent 那创业公司它的机会会在哪儿

我觉得这个就跟当年互联网时代是一样的,因为互联网时代有很多大厂,但是你看它在移动互联网时代它的反应是慢的,这个也是一样,我觉得因为 agent 能够提供的服务太广,它真的很通用。

所以他其实会出现很多的内需啊这些内需大厂短时间是 cover 不到的而且大厂特别容易聚焦一些就看起来很大的东西这就是必然的就是因为大厂的资源多嘛他要去立项的时候一定会想一些比较大的比如说呃呃就这个比如生产力工具比如说什么这个是 coding 对吧 coding 是个所有人都在都在做的事那么

但是他就会有很多的内需他就是做的比较慢或者就没有关注到就是我们其实看到美国有很多现在有很多非常小的小众的需求服务年轻人的这个服务某些社群的那这些东西其实都是创业者的机会那第二件事情呢是即使那一些特别大的大厂下厂的大厂也会慢我们举我还是喜欢老师喜欢举 Mannus 的例子那 Mannus 就是做了一个大厂赛道

但是它其实比别人可能快了几个月甚至是一个月但是我们知道在 AI 这么一个就是全球关注流量特别大的这个赛道上你早出来一个月其实会带来一个巨大的领先优势这个领先优势可能会到半年你的品牌优势都在确认 Chad GPT 也是 Chad GPT 可能就是大家对它的新国性不太满意但是它的品牌优势依然特别特别大

那么这个品牌优势给你建立了一个时间那么这个时间会给创业公司带来它第二段阶段的机会那本来创业就是一个很难的事情嘛你本来就是一个走钢丝你需要连续几个角色都做对但是创业公司通过快然后更快的反应然后能够带来的品牌优势会给你带来几个月的时间这已经是非常大的成功了

对于创业公司来说,他也要非常小心去选择他的一个产品定义和他自己的一个商业模式,这样把握住时间窗口机会,然后有可能他会获得成功。对,我觉得依泽是你的定位特别 niche,从 niche 的定位开始,要不然就一定要快。唯快不破。对,唯快不破。

那你从你的观察来看,现阶段市面上的 agent 还有哪些问题或者说还有哪些局限性,然后在接下来做你自己的产品的时候,你会怎么去解决这些问题或者说带来什么样的提升和改善?我觉得首先两点嘛,一个点是说大家现在的局限性本质上还是不好用。

说白了是不好用的就是比如说 manus 我们也用就是说你用多了还是能发现他有些时候没有那么强

然后他做的东西可能跟你想的不一样,有的人说 deep research 这个现在做出来其实不是 research,做出来都是也不知道真的还是假的,对吧?他的那个深度不太够,比如说我自己有的时候也会用 deep research 去写一些东西,那你会觉得他写,就是说我发现 deep research 帮你去写一些,啊,特普类的东西,他是 ok 的。

当然你真的帮你写论文对吧后面我们要去写项目计划书啊那这还是不太行的还是得自己改所以他肯定是现在不够好用的所以这还是要往往往往前走就是他的模型能力上当然他的产品界面上肯定也有一些一些问题导致很多人比如说 minus 其实这么火了其实用他的人还是不那么多那么这也是大家在探索怎么样一个产品是大家真的会每天用但是我觉得每个人都有秘书的需求

就是我觉得所有上班的人吧所有上班的人吧都有一些秘书的需求那怎么让这个产品定义出来然后一是需要这个是需要教育教育客户的第二也是需要一些很好的产品上的工作然后去去推广这个 agent 所以这都是需要时间的那对于我来说那么就第二点对于我来说对于我来说我们现在在做的其实就是开源产品主要是服务开发者的

所以我们现在短期来说我们就是希望做最好的这个巧话学习的训练平台把这个 Agen 的训练和构造的成本都降下来那么这样的话对于这个开发者来说他能更早的进入到我去调试模型然后能够可能可以给大家一些早这个带来一些模型上模型测不一样的这个能力的一个

一个平台吧这是我们想做的那么再往后看的话那么比如说我就两年后三年后这个事情会怎么样我觉得不好说但我会觉得如果 AI 是一个十年的事那么两三年后肯定还会有新的机会特别简单因为比如说 agent 这件事我觉得现在可能还是处在一个初级的教育市场的阶段

对吧你你当然这些人有可能是他们呃他们是先驱有可能是先列先列和先驱一般都是很小的差别对吧你如果两年之后因为呃每个行业都会这样有的时候有些公司可能进场早了可能变成先驱了啊所以或者说就算 A 站的时代那如果他们变成了就是呃错了他们变成先列了那如果他们是他们他们没有挂对吧两年之后他们成为了先驱

我也觉得想象一下这个世界上都是 Agenting 时代,也会有新的机会出现。所以我倒不觉得这个机会会没有,我会觉得在未来的十年中一直会有新的机会出现。所以你现在做的这个产品是一个 infra 层面的东西,然后 base 在这上面,你们自己也会做一些应用对吧?对,我们也会去做一些应用的尝试。这些应用尝试你初步会有一些什么样的想法?

首先因为我们还是面向开发者的所以我们首先肯定还是会告诉大家你看用我们这个框架可以去训练一个 agent model 我们可能会从特别简单的开始比如说搜索什么这样的特别简单的内容开始因为让大家去接受这个东西需要一些时间而且打磨这个模型的能力和我们这个 infra 平台然后并且把我们这个代码库还要更新让大家变得好用

都是需要时间的当然我们会希望当我们这个东西相对稳定之后我们自己的算法的同学做 agent 技术的同学就也能开始疯狂拍脑洞因为我还是观察到大家每天还是有很多乱七八糟的这个秘书需求的我们可能就

如果有这样的能力我们可能想想看能不能先满足我们自己职场的需求比如说我有个特别大的需求就是报销我如果有一天我们这个 pipeline 做好了之后我可能第一件事情帮我搞一个可以报销的一整

日常的秘书啊点餐啊报销啊这个都是大家非常疼痛和希望亟待解决的对就肯定是有这个需求的当然我们先不说商业模式因为我们自己反正做开源产品我们不用考虑商业模式嘛对但我觉得这里面其实大家从需求侧去讲先不考虑赚钱的话那真的是好多好多要做的

都能做啊对感觉好像这个移动互联网能做的事都可以再做一遍啊这个对但是门槛会变高一些因为你你不光得提供服务用互联网找提供服务就可以现在是不光提供服务你还得让他能帮你解决这个问题的吧这个事是不是真正能解决解决多少对吧那现在市面可能有一些

可能做的好的可以解决一件做到百分之七八十的解决需求那后面看能这个呃解决问题的这个程度能不能逐渐去提高但可能越往上提高其实它的难度也是指数值急着在增加对吧从基础对对对对对对

所以我们这个训练我们是会做一个端到端的训练吗?对,我们希望是做端到端,因为我个人会觉得端到端的效果一般就是如果你可以做端到端,并且有能力把它做的稳定的话,端到端的效果肯定是比你拼接是要效果好的。只是说大家现在没有这个能力或者说因为它的技术门槛比较高,没有人先把它跑通。

所以你们会是第一个端到端的 demo 吗?也很难说吧,我们希望是我们去做的比较好的,我说第一个比较难,因为总是有人做很多这样的尝试嘛,我们不能去否认做了这些尝试的人,但我们肯定也是希望我们看了这些大家做的尝试,然后呢我们也有团队,然后也有一些资源能把这件事做好,所以我们会这么去做。嗯,理解。

然后刚才也提到包括你主要去研究的一个方向也是强化学习那我们会发现其实像技术它会有自己的周期强化学习好像也是经历了这个过程我们看从 2014 年到 19 年出现了这个 AtariAlphaGo 下围棋 AlphaZero 玩游戏这个时间段呢

好像仿真它的这个强化学习的应用是一个高峰的时间点但是从 2020 年到 2023 年这个时间段呢也被人称为这个人类数据的时代强化学习的使用好像就相对减少一些那我们从这个 2024 年开始往后我们看到这个 reinforcement learning 强化学习它又有趋势被更多的使用起来比如说 alpha proof

有这个新的概念 computer use agent 所以有人也有说把这个时代现在叫做经验的时代大家会期待超人智能体 ASI 的出现就你对于这个技术的周期强化学习的这个起起伏伏怎么看那么强化学习肯定会是接下来几年的主流吗会不会有更新的一些技术范式出现伴随着这个技术周期的迭代

首先是会不会新的范式出现我不知道

但是强化学习确实是而且我重新说一下吧就是未来会不会有新的这个范式出现我个人不知道但我肯定是希望有这样范式出现的然后我们可以讲一讲一些关于这样范式的这个趋势但我们先回头去讲一下强化学习强化学习确实是蛮有意思的一件事情是你会发现它的从技术上看

他确实是走了一个完整的周期在 not even 就是 not even 是在不断地点就是甚至你会觉得他有的时候是开了倒车再开回去的这么一个过程因为我们在想强化学习当年是怎么来的当年强化学习其实是打游戏的时候来的

打游戏的时候当时是夏威奇也好还是说打阿特尔游戏还好然后比较出圈的就是什么打星际争霸打打打这个呃打多塔这欧盆爱打多塔吗然后当时是你这个强化学习最辉煌的那个时代就是一直在打游戏然后呢你会发现游戏是一个特别标准的这个序列决策问题它是一个呃你要有一个环境一个环境游戏场景跟他做交互然后交互时间可能时长要

可能要长达 20 分钟半个小时甚至一个小时这么一个很长的交互所以当时的很多强化学习的设计都是基于你要去做这么长时间的交互这么多轮的交互然后你需要跑这么长的时间来设计的但当时的特点是说因为模型特别特别小

因为当时可能没有这么大的预训练模型所以当时去做强化学的模型都很小大家不太考虑这种模型计算的问题主要就是你在去想那我有个环境这么长时间的交互之后我该怎么办的一个问题

所以在那个年代大家你想如果当你知道要设计一个模型他要跟这个游戏打 20 分钟或者 30 分钟那你很多设计师很自然的去想的是我要把这个游戏作为一个黑箱因为游戏你还不能动你也不可能说去改 dota 的底层代码

所以把它变成一个黑箱然后用一种异步的方式你就跑一万个游戏环境让它随便跑然后我的训练引擎就是收集收集收集训练所以在当年打游戏的时候这种异步的概念其实是特别特别常见的因为你游戏好像确实只能异步因为游戏也停不下来

然后强化学习打游戏之后,打到了游戏之后发现好像打不出什么东西来了,就只有游戏,发挥能力不够。其实 OpenAI 在 10 年前,可能将近 2016 年的时候也做过类似的尝试,就是让强化学习训练一个智能体去订机票。

然后当时也是失败也是用了一个比较小的模型用 CNN 当时还没有传输嘛然后让他用强化学习的时候不停地去在屏幕上就浏览机上去买机票美国的各个航空网站去买机票然后当时学习也失败了那大家会发现一个特别大的问题就是这些强化学习在那个年代是没有泛化能力的

我让你去买了一个美联网的网站他就确实能买一个美联网网站的机票我让你去打 Dota 他确实可以打 Dota 他可以打围棋打围棋但是他只能下围棋他只能打 Dota 只能打星期然后他就发现强化学习好像没有什么用于是他就经过了一个有一点遇冷的一个时间段当然那段时间因为我一直做泛滑性所以我一直在做类似的研究但是总体上这个东西是相对来说

大家是这个热情是下降了很多的那么直到 chatgbt 出现大家发现哦原来强化学习可以放在大模型上大模型本身是一个比较泛化的东西然后呢我可以用强化学习让它在特定垂类上变得更好但同时因为大模型本身有泛化性这个预训练带来的这个泛化的能力让强化学习的智能体第一次产生了

比较通用的泛化能力所以这是 CHAT-GBT 证明的一件事情他就说通过强化学习可以让这个大模型在对话和听人话这件事情上表现得很好当时的技术叫 RHF

然后让他就重新回到了大众的视野所以这是 22 年底 23 年的时候因为随着 Chad G.P 的爆火让强化学习再一次的出现在人们的这个视野里面去再往后就是这个 O1 的推理模型让这个强化学习再火了但是这中间基础上的看就会发现有一个特别大的偏差就是大家想强化学习当年是打游戏的打游戏是真要对话 20 分钟的

你要跟他做 20 分钟的交互做 30 分钟的交互但是你想这个 chatbot 这个对话模型它本身的交互轮次很少的你跟他人跟他交互一般你我们也承认有人会跟他聊一个小时两个小时大部分的人可能交互时间就是很短的交互的轮次也很少然后推理模型更别说推理模型基本就是说你给他一道题他给你做出来

所以在 22 年到 23 年或者说到 24 年年中的时候很长一段时间所谓的强化学习技术都聚焦于很短的交互轮次然后呢对于因为这时候交互轮次不光是交互轮次短同时它的模型是大模型大模型的这个计算量非常非常大所以所有的人在这两年中做强化学习的人都是默认这个交互不会特别长

然后我就是去聚焦于我怎么把我的所有计算资源去投入在大模型的计算上所以这个也是计算范式发生的变化但是到了智能体你会发现不太一样因为智能体真的会在你不住在你帮你做事的时候真的可能是跟着一个环境可能交互 10 分钟 15 分钟 20 分钟

有可能比如说你真的给他一件特别复杂的事情让他去办吧然后你就把他挂起了一个智能体系真的可能重新跟一个复杂的浏览器交互很长时间同时这个浏览器也是不能停的你会发现然后大家重新来看这个技术选择的时候你会发现好像他开始又回到了当年十年前打游戏的那种感觉

因为这个智能体又出现了环境对吧你本来对话是没有环境这一说的对吧做 O1 R1 做 Math 数学题做代码题是没有环境这一说的然后到了智能体的时候你发现又存在了一个软件环境存在浏览器存在一个游戏一样的环境同时这个智能体又开始要跟这个环境可能要交互 10 分钟交互 15 分钟你会发现从技术上看是不是要回到当年打游戏一样那

就是我们可能要重新把环境当成一个黑箱像一种打游戏的方式一种异步的方式去处理交互处理数据然后来做强化学习训练所以你会发现这个地方大家就是所以你会发现最近可能有些大家这样的看法重新开始提异步强化学习同时重新开始提所谓的离线强化学习算法就是你会发现其实大家在重新走十年前的那个过程

只是它的差别是在于它的模型变大的很多所以这个事也蛮好玩的你会发现我就老说我说大模型 make RL great again 确实 great again 或者说 agent 真正 make RL great again 因为当年那些做游戏的东西其实你会发现在 agent 上都是直接使用的所以蛮好玩的这么一件事

OK,所以就是用打游戏的方式在做强化学习。对,或者说在 agent 的时代,你可能重新得去看十年前这帮做打游戏的人是用了什么技术,很多那样的技术都是可以拿过来用,并且是很好用的,因为它的范式跟当年对话其实不太一样,因为对话只有几个轮次,但是 agent 真的是有可能在后台一直做事情。

OK 那么强化学习从技术层面而言呢他怎么来去你们怎么去做这个收集数据训练然后去做奖励的这里面是两方面吧我觉得一个是奖励一个是怎么做训练和数据收集这里面先讲那个这个

训练和数据收集吧,训练数据收集其实有两种模式,就像我说的嘛,因为强化学习刚上来的时候是 RHF,或者说做数学题,做代码题,然后它的交互轮次是很少的,并且没有环境这个概念,因为你不需要做交互嘛,比如说你做代码题,其实你就是给你一道题,你把代码写下来,然后环境只要给你做一下评测就可以了,

所以中间它其实没有真正的环境的概念它不会有一个仿真器像打 DOTA 一样一直在那跑你的 AI 需要跟它不停的交互也不能停下来它没有这样的概念所以它有两个特点一个特点是说首先一交互轮次不是很长就一轮或者几轮然后没有环境而且所以就导致你可以随时停下来

对吧就是我们举个例子你比如做数学题我答案输出下来之后我系统可以等上个 10 秒钟 5 秒钟然后等我比如说有空了再去做评测这是 OK 的但是打游戏不行就是打 Dota 你怎么可能让一个 Dota 的游戏停下来 5 秒钟 10 秒钟这个不说不可能啊但是从技术上做会非常非常的麻烦所以呢

对于 IHF 或者 reasoning model 这种写代码对话或者数学题的模型来说大家就会用很多同步的方式去做因为你可以停下来嘛而且交互轮次也不多所以大家就会用比如说然后又因为生成和训练很耗资源所以大家的常用的做法就是会说那我这样我就用所有的卡就先去做数据生成

数据生成收集生成结束了之后把所有的数据拿下来然后呢丢掉我的然后再用所有的卡去做训练这叫一个同步的训练模式啊这个呢是比较好理解的然后呢也比较好写但是他的问题呢就是说如果你真的要用这种模式去打游戏他不太行因为呃打游戏的问题就在于一局游戏的时间有的可能轮次很短有的轮次可能很长然后同时游戏不能停下来所以呢

这种同步的模式做推理模型可能还可以做 IHF 可能还可以那其实做推理模型就已经不太行了呃所以我们就会说我们希望回到当年打游戏的那种训练模式我们希望啊

如果真的做智能体训练的时候我们希望这个智能体的这个交互环境比如说网页比如说真的是一个软件那它就不要停下来因为你没有必要让这个网站停下来等你对吧你就希望正常的方式就是有一堆智能体在后台跟这个环境不停的做交互它不要停下来

那你这个训练的时候只要那他每次做一次做一些这样的这个交互产生的数据之后你的你的训练引擎就主要在那等数据等数据收满了之后你就训练

这样是个特别特别自然的方式因为你的三天报纸的环境是不用停下来去等你的这个智能体做交互的然后那智能体有的长有的短也不需要等反正你每个智能体就不停的交互呗你这一轮游戏结束了之后就开始下一轮游戏它是个特自然的方式但是呢他肯定是说他的这个

它的效率会更高然后呢它的这个实现也其实会更简单但是呢它确实这个这个这个编程模式上会有些不太一样因为它相当于是你得有一个并行执行的概念所以呢我们最近也是在想有没有可能从编程的这个角度上因为让大家能够感觉不到这两种执行模式的差异

让大家能更好用但是我们会觉得这种异步的方式就是让一个智能体和环境不停的交互你也别去打断它然后呢有一堆训练引擎在那等数据等够了我就训练这样是一种其实是更自然更适合做 Agent 交互的模式也是当年所有打游戏的强化学习统都是这么做

所以我们也是希望说让这种我们个人觉得它可能是一种更灵活的方式能够让大家更好地让大家用上所以这是训练和数据收集的这个问题就是同步的模式和异步的模式我会觉得异步的模式在 Agen 的时代应该是一个更更

更普适的一种模式当然他需要把这个使用成本讲起来这也是我们在做的事那么关于奖励奖励是另一个事奖励本身跟数据收集和训练框架其实没有特别直接的关系但是奖励也是个很好的话题你会发现强化学习的这个范式其实奖励特别特别特别的不一样

那么一开始最早的强化学习在大模型上的应用叫 RIHF 强化学习 from human feedback 这个核心解决的问题是大模型不听话的问题因为早年的 TRACKGBT 在没有做强化学习 RIHF 训练的时候它是不听话的我经常举一个例子叫你让它去

你问他一个问题然后 Chad GPT 会给你重复几个问题他不会回答你他就会不停的重复那么就会让人觉得这个 Chad GPT 不好用所以当时 IoHF 想解决的是一个听话的问题就是我给你个指令你别给我重复你给我把答案写出来所以当时就用那怎么判断一个大模型是不是

真的遵从了人类的指令呢他是通过人来看所以他就找了很多人来判断这个大模型的回复是不是跟你想的一样想的一样呢就给他高分想的不一样给他低分这样的话通过一个人类反馈学了一个奖励模型的方式让大模型听话

这是第一个时代,在 IHF 的时代,当时 Chad GPT 开始 2022 年到 2024 年年中都是这么一个 IHF 的范式那么到 2024 年年中的时候大家发现欧望出现了这个欧望出现当时说的事就是大模型可以去做

就是他可以去做数学题啊可以去做代码题啊这种特别特别难的问题然后强化学习可以提升模型的智能了那当时的那奖励怎么来的呢就是说那你要提升模型的智能

那你最好那个模型的答案能够比较准因为人的反馈说他到底是不是听人话这件事情特别主观所以要用这种人特别主观的判断去提高模型的智能其实挺难的所以在 24 年开始当时是 O1 以及 R1 后来的出现就是大家发现原来我们可以通过一些可判定有标准答案的问题

让大模型自己去反思自己去思考然后因为我答案反正是准的然后呢我就通过这个方式来训练大模型的思维能力最后你发现这个思维能力可以有一定的泛化性能提高模型的总体智能水平所以这是第二个阶段就是叫叫我们叫的 RLVF 这个

这个 VR 也行反正就是说这个叫 verified reward 就是这个对对对 verifiable reward 但是核心就是说我希望对我核心就是希望因为我希望提高这个模型的能力所以我其实希望这个模型的反就是我我可以给它的反馈越准越好

所以大家就找了那些题目,那些题目首先很困难,需要复杂的逻辑思维,同时它的答案是可验证的,因为如果答案不能判断的话,那没办法来保证模型能提高水平和能力嘛,所以这也是我们比如说大家学生上课都得考试,考试都得标准答案,是一个道理,大家通过考试的方式来提高模型能,这是第二个阶段。

再往后智能体呢我觉得就也挺有意思的我觉得智能体首先智能体阶段来说大家还是很多训练的模式还是基于 RLVR 的就是 Verified Reward 因为智能体本身比如说我可以判断最后一个任务是不是完成了比如说你帮我点个外卖对吧或者帮我搜一个机票那机票是不是满足我的要求这是可判断的

所以这个事本身也是可以用 RLVR 的方式去进行的当然我觉得里边再往后可能有一些东西可能是得结合起来看比如说我们以 Deep Research 这个产品来看比如说我们希望去设计一个 Deep Research 这样产品的奖励其实你会发现这个奖励蛮综合的首先我给你 Deep Research 写了一个报告

他首先得写的比较好,对吧?他肯定存在一个 human feedback 这样的 reward,对吧?那但是报告里面也需要有一些详实的内容,比如说有些 deep research,你帮我去研究一个英文达这个公司,那你不能,不能 jason huang 这个人不讲,都那肯定是不行的,你哭大不讲肯定是不行的,那你肯定得搜的时候能搜到这些点。

所以这里面应该会是一个组合的感觉就是你可能需要一些模型质量过程流程中间它到底执行的怎么样搜的好不好或者说做一个智能体的时候它某些地方让你觉得不爽了那你得告诉它是地方不好但同时也需要有一些 verifiable reward 因为你

你还是得把一些不能量化的部分拆除一些量化的点让模型知道从哪里去提升所以我个人会觉得对于 agent 的时代这个 reward 和数据的构造会更复杂它肯定是需要一些符合的方式就是又有 human 因为它是产品那它又要有一些

提高能力认知的地方就是比如说我我可能比如说对英伟达我去做个英伟达的 deep research 那可能会有一些人的规则来定义你一定要踩到哪些知识点你要是没踩到那可能不行所以我觉得第三部分以后就会是一个混合的方式但是这个呢还是一个探索的阶段没有人真的把它做出来或者说没有人一个开源的社区把它真的做出来

所以就是两块,一个是数据收集,数据收集我们讲的就是说你希望是从一个同步的光,只关注运算的这么一种同步的方式,把它变成一个更适合智能体,更适合打游戏的那样一种训练方式,变成一个异步的方式,这是我们最近 Areal 这个新版本做的事。第二部分就是 reward,reward 的话就是存在 human feedback reward 和 verified reward,然后我个人会觉得以后做产品的时候,这两个东西应该是混合的。

OK,这个确实会给大家带来一些很好的启发。然后说到 agent 的一些硬伤,从大模型到 agent 可能都有幻觉问题和记忆力不好的问题。这个现在是会比较大的 bottleneck 瓶颈呢?我们怎么样去消除这些幻觉或解决记忆力不好的问题?这里其实是两个问题,一个叫幻觉。

这个记忆力这两个还是挺不一样的就是幻觉呢其实我们还好办一点大家都基本知道你幻觉是可以通过因为幻觉本质上就是不准嘛就说错了因为人也会说错嘛就是他就是没有成功或者说错了或者做了一些犯了一些错误这本质上是正确率低或者说不可靠导致的这个呢是可能通过模型的能力提升去解决的

或者说我个人觉得它的本质的解决方案是通过模型能力的提升那么它有可能是通过基础模型比如说通过 Chad GPT API 通过 Cloud API 通过 Gemini API 通过我们什么别的这种模型的 API 的基础模型的提升去逐渐解决的或者说大家以后可以做更好的后训练去做更好的微调那么这个是有可能去提升的

或者我们可以在这软件层当然我们的软件层可以做一些做一些这个限制然后让大模型不要出现这种幻觉比如这个例子嘛比如说我让大模型出一个做选择题做 ABCD 我这最简单的例子出了 ABCD 你最简单的事情就是说因为我知道这个答案只能说 ABCD 那你干脆就只看 ABCD 这个 token 那你大模型一定不会出现幻觉最多他就是选错了

但是如果你让大模型直接输 next token 它是有可能输个亿出来那这不就幻觉了吗当然这是一个非常非常简单的例子我只是想说那么你怎么让它不输亿呢你可以是提高模型的能力也可以在软件层做一些设计所以这里面都是可以去解决的所以我觉得幻觉问题总体上还是你知道方向在哪那么记忆力其实我倒是觉得是一个更开放的

因为大家其实解决记忆力的问题本质上是通过一些很 hack 的方式就是我告诉模型有哪些内容是重要的我把它存下来那在模型下次输出这个 token 的时候我把我觉得重我产品设计人员或者说这个软件设计人员觉得重要的内容把它拿出来放在模型里面告诉模型说你看这个东西很重要你记着

所以现在是一种非常 promptingengineering 的方式去解决这个问题,大家还没有看到一个特别系统的,通过模型训练解决记忆问题的一种路径。但是我们来看记忆问题核心是什么,我们为什么需要记忆?其实记忆的核心是个性化。

为什么需要这段记忆呢是因为我的过去跟别人的过去不一样我希望你模型记下来 so that 下一次你跟我对话的时候跟你和别人对话是不一样的这个是记忆的原因我跟我的一个朋友我跟他关系很好是因为我跟他有一段共同的经历这个经历是我的记忆 so that 我看到我这个好朋友的时候我的动作和表现跟别人是不一样的

所以记忆本身是个技术而这个技术解决的是个性化的问题所以如果我们要从根本上去解决记忆这个问题其实我觉得还是要回到它的终点来看就是个性化就是我有一种训练的方式能够提升模型个性化的能力如果我们要从训练上去解决而不是 prompting 从软件设计的地方去解决的话

那么就是理解这个个性化那么个性化最后怎么才能判断一个人是不是个性化呢那你最后还是得有用户

所以呢我个人觉得最后这跟推荐系统其实有点像因为推荐系统本质上也是一个个性化的过程对吧比如你刷抖音每天看到的就是你自己想看的东西它是个性化的过程所以我觉得记忆本质上最后的那个终点就是让大模型有个性化的能力它会有点像推荐系统只是说它的推荐系统的这个方式它能做的动作大模型是只给你推那个视频对吧大模型

就是抖音是只能给你推哪个视频但是对于大模型来说它是其实它可以做所有的事情它可以它输出的所有 token 都应该是个性化的所以我个人觉得最后想做极致的好的记忆和个性化是要回到用户数据上是要回到用户的动线上

所以我就会觉得要解决这件事情可能还真的是对于所有的技术人员来说你是需要有一些东西能够触及到用户的得有用户的数据才可能能够更细致的去研究记忆这个问题才可能知道有一些端到端的训练的方式让模型有记忆因为它最后是个性化的

所以这个是我觉得这两件事情不太一样的就是我觉得幻觉是有一个大致的框架你要么等一等要不然就是你现在去想办法包一包或者说做一些后续训练大概知道怎么做但是记忆我觉得现在大家还没有触及到那个问题的根本但这根本的原因也是因为 Agent 现在可能没有那么的普及或者说有用户数据的人他也不愿意把数据分享出来

所以我觉得这里面反而是要研究的所以你觉得记忆问题可能是要通过数据的积累同时一些工程化的迭代演进然后来解决这个问题我觉得首先就是想做好的记忆大家一定不要空中造逻辑我觉得最好是有一些真实用户数据

这是我的一个观点 OK 那从实操层面我们会想问一个问题就是如何兼顾训练好和实用性好就是说在当前这套模型能力和训练环境下哪种模型大小最优哪个点的学习效率和算力开销会最平衡

因为实际工作中你都要去解决这些问题就比如说如果模型太小它的推理很快大家可能学不到什么有用的东西但如果模型太大学的快但推理又很慢算力消耗又很大又不太划算那尤其是在强化学习中模型它要生成大量的 token

才能从中学习并且获取反馈就这部分对推理能力和执行效率的要求也是非常高的那你训练再好如果推理慢或者太贵这个落地也是个问题所以就是实操中怎么去平衡这些东西

这里其实有两个问题一个问题是说怎么去组合站立和使用不同的模型第二个问题是怎么平衡训练和推力对吧我觉得先说第二个问题就是怎么平衡训练和推力那么我总体上的建议都是其实我们之前讲过很多了我们就说 agent 是怎么构成的 Agent 会先是一个软件它首先是个 agent 它是一个软件

然后第二是他后面的模型对吧所以就算你要去训练模型你也需要这个软件本身 ready 整个 pipeline 整个这个流程是 ok 的然后呢我才能针对这个软件去做强化学习的定制化去做微调让这个背后的模型在你这个软件之上能力更好

所以不管大家做什么事都应该先从软件去开始也就是说你首先先定义好整个 agent 的工作流然后让它可以被人使用然后你看到一些优秀的效果然后看到了用户的反馈然后再去考虑

训练的问题就比如说我们回到真的从训练问题上就是我们真的回到强化学习算法的工程师这个角度去看那么就算你想去跑强化学习那你可能也需要先把这个 agent 的流程搭好

准备好好的测试数据就是用户到底会问什么对吧你应该有训练的这个问题然后测试的问题对吧然后你需要做好这个奖励到底怎么设计或者说标准答案应该是什么然后做好评估对吧这些事都做好然后真的出去给别人也可以用然后这个事整体都跑通了然后你觉得他能力还不够

并且有一个有一个特别完整的评估流程去说这个能力确实不够你再回过来来考虑训练的问题因为这个一定是不能跳不走的

因为它本身还是一个软件你现在把软件做好它就做模型的训练这个我觉得 Agent 还是跟通用的模型 API 是不太一样的我个人觉得如果你需要做一个模型产品你当然随时做训练就可以了但是如果你做 Agent 产品它本身是个软件所以我会非常建议大家一定先把软件做好把评估做好然后把能力点的认知

先理解清楚然后回头再去做训练这是我的观点然后一般来说你前面这个事情做好了之后做训练会比较自然因为你也知道模型能力到底缺在哪里对吧你要去构造什么样的数据去做什么样的训练都还是知道的或者说它的成本到底是怎么样你是知道的

所以这是我的第一关于训练和这个产品的一些建议那么回到另一个问题就是说不同模型的设计就到底应该怎么使用不同的算力那这个我觉得核心是看效果和成本的就是大家很简单嘛就是一般就是你要是模型能力够你肯定愿意用小的你肯定不愿意用大的他用大的唯一原因就是因为他他强

对吧所以比如说我举一些简单的例子比如说你可能这个就是做一个成本的推导比如说我们说小模型可能很小可以跑在端侧那么端侧的成本就会比较低那么他可能就是说你你可能大部分的这个简单对话都可以用小模型来做但是他可能不能有特别长的记忆他不可能有特别长的 context

现在没办法做很复杂的规划那么可能你就可以说在一些频率非常交互频率比较高的地方你可以去用一个小模型用 1B 的模型然后可能需要去做规划和拆解的时候可能需要去这个 process 特别长的网页信息的时候可能就需要一个 72B 的模型或者 32B 的模型或者说你调 API 因为这些模型是更强的模型但是它的使用频率不会那么长

所以大家还是可以去看一般我觉得一个典型的使用方式就是有一个比较大的模型去做规划和推理或者说用开源模型做规划和推理然后在对应的任务上我去选择一个可行的模型比如说真的要去写代码那可能你得用 Cloud API 比如说 SatManus 就是用 Cloud API 去做了很多写代码的事儿

或者说有些东西简单的对话可能你用一个端层的模型在手机上能跑的模型就可以帮你把很多对话已经可以解决了所以这个是一个我觉得未来也会很有意思的一件事情也是我们最近在研究的一个问题就是说当你手上真的有一堆模型的时候怎么是更有效率的事情因为从成本角度上可能一堆模型是 make sense

就比如说你要是能在手机上跑这个东西它就是零成本你掉 token 怎么抓 token 也有成本但是在手机上能跑的话它就是几乎没有成本那这里就会有一个差别什么时候该用云端的模型什么时候该用本地的模型真的也是很好玩的一个东西反正我们最近也在研究但我觉得总体上的建议就是根据使用评次和效果大家来做一个 trader

我觉得这是很好的一个经验总结希望能给我们的听众带来一些指导性意见或者带来一些启发我们接下来可以聊一些 AI 领域的热点的一些议题第一个议题就是说关于通用人工智能 AGI 有的人认为很远有的人认为很近你怎么看待到来时间点的一个问题我觉得

这也是我一直的一个观点啊就是我觉得这玩意儿特别看你以前的定义是什么就是呃就是人的预期总是会就人总是不满足所以实际上随着社会的发展人的预期总是在预期一个他没有达到的地方就是对就比如说呃我我我我记得当时那个

我们当时 19 年在 OpenAI 的时候当时那个公司的章程说 AGI 是什么 AGI 当时的定义是说在 90%economic jobs 就是在经济上有价值的这种工作上超过很大部分人大概是这么个标准那他可能就是 AGI 了

然后如果你以这个标准去看的话其实

他已经解了,我老喜欢这么说。就是你抓一个,相当于一个工作,你基本上随便抓一个人力市场上拿个 average person,其实你在人力市场上能抓到的人其实也没有那么差,中国的人其实还是比美国的人还同级上强不少。然后你抓一个人,他其实跟 AI 也差不多,如果你不培训他。

对吧你就直接拿来用其实差不多对吧你就想我老开玩笑我说你看美国人算个数还要按计算器你说老说大模型大数算不对那美国人也算不对那不已经超过了大部分的美国人吗他为什么不设计在对吧但其实原因是因为原来大家从来不会想着有些事可以让 AI 做

比如说我们现在做一些文书的处理,帮我们去做一些作业的批改,比如说帮我们去做一些我经常报发票,通过整理发票。原来你不会想着这事可以用 AI 的。现在你发现可以用 AI,然后你就开始抱怨说 AI 做的不够好。但你实际上就想这个事原来是 AI,你根本一想都不会想。

你根本不会想着说我让个 AI 来帮我做一下规划,然后我就敲个回车,啪做出答案,你是不会出现这样的情况,你原来都会觉得这事应该人做,而且其实如果大家真的去做一些那种旅行的这种,或者说我可能旅游比较多,就是你真的去找一些什么就挟尘的这个什么普通找一个这种顾问,就做的挺烂的,不见得有 AI 好的。

所以其实它已经实现了,只是说大家现在随着 AI 的水平提升,大家对 AI 的这个认知的提升,大家觉得这个 AGI 的标准其实也被提高了。所以我个人是觉得就是如果按照这个标准的话,AGI 永远不会实现的,因为大家永远会希望一个更好的秘书。

但是我个人其实觉得它已经实现了,当大家已经开始愿意让 AI 帮你处理很多工作的时候,它就已经实现了。或者说现在要实现一些初步的 AGI,比如说 agent,带人上班,可以完成很多工作,它会面临现在的瓶颈和需要解决的问题是什么?现在也看到说业内的很多专家,有些人认为,

第一,那你如果要在长上下文推理多模态理解方面实现突破,没有那么快。就人类级别的推理能力通常还需要算力提升几个数量级才能支撑嘛。然后第二就是一个芯片的产能的问题,包括电力 GDP 的这些限制,就是会让算力增长会在一个窗口期,比如说 2830 年它会

停滞啊所以就是这些可能会是一些阻碍因素或者是瓶颈问题啊你觉得啊你怎么看这个这个考虑嗯这个我倒是挺认同的就是我们考虑一些外部的这个这个条件就首先这里面存在两个条两个问题一个问题是说他内部的内部就是不好用吗不好用的我还是说我觉得不好用你觉得标准是什么标准是不是一定要替代人替代什么样的人

现在他替代一个你从这个人力市场上随便拽一个人其实差不多能替代其实是吧只是说他你需要大家对传统的软件的这种确定性因为大家对于软件这个东西的理解是过去几十年积累的他是说我只要买了这个软件我就 exactly 百分之百知道他能做什么他的吧他就是要么就是这个软件傻

他只要能做基本就能做它是确定性的那 AI 只是说这个软件产生的不确定性那其实人也是不确定性的只是说所以这个是大家对软件的认知就是不能犯错的吧因为想司机也是能犯错如果他统计意义上说其实自动驾驶比人靠谱但大家为什么还是不能接受呢是因为一旦他都变成软件大家对他的预期就不是人的预期

它是一个你一定要不能出错的这么一个预期所以这是一个需要一个过程就是它可靠性的问题那么这个东西是需要我们通过模型我觉得最后总是要走到模型的训练和数据的累积的那这是一个问题需要一些时间就是真正在人的智力上达到软件的标准这个事是需要时间的但它这个其实我不觉得它是个 AGI 的标准因为人你可能不能这么要求人吧

对吧然后回到外部的条件我觉得你说的特别对就是芯片和电的问题芯片和电的问题但其实我觉得它是有的解的为什么因为随着 agent 也好还是推理模型的出现也好你会发现 agent 的输出 token 数变得越来越长

而输出 token 的数量的长,它其实不需要那么高级的计算卡。训练当然需要很多计算卡,但如果最后来的模型产生之后,去做推理。推理,尤其在这个,我们不知道价格会不会发生大的变化,假设价格会发生大的变化,还是 transformer。那么对于 transformer 来说的话,它其实是 token by token,一个 token 一个 token 的输出的。

他每一个 token 其实只要对 kv 开始做一个访问做那一集就行了他每个 token 输出的时候其实算的要求是很低的

它的 bottleneck 其实不在算力它叫 memory bandwidth 它是你一个 token 的 kvcache 去做 kvcache hit 的时候你去做一个这样的 for loop 对吧因为就是大家在写这个底层算力算子的时候其实有着一个内存的带宽的瓶颈它卡的慢呢其实是内存带宽它算力要求是没有那么高的所以理论上我们是可以设计出新的芯片

它带宽达满但是算力差点这样的芯片是可以做到功耗低的所以这个事理论上如果真的有一天 AI 产生了我其实会觉得是新的芯片公司的机会这个产能是可以够的当你不需要那么高的这个制程的时候其实产能是可以跟上的然后电也是会下来的所以我个人觉得我不对这件事情就是我会觉得它会是新的商业机会反而是可解的对

OK 就是总是在不同的环节去迭代更新然后支持另外一个环节这个就是我觉得推理跟训练是不太一样推理和训练不太一样就如果你说的那一天就是说你是因为你讲的是部署其实不是训练对吧训练你还是需要最有最好的计算卡去跟你做训练的但推理真的是我觉得有很多优化空间的而且他的 Botanek 本身不在制程和算力上

好的嗯对那下一个这个议题就是说最近也有很多人在炒这个 ai self evolution 人工智能自我进化的概念嗯那这个背景概念其实早在 2003 年 ai 先去 lstm 支付就提出过一种名为哥德尔基的构想那谷歌最近他发布了 alpha evolve 然后过去的几周这方面的进展也是比较多的就也有几篇这种论文啊出现比如说让

Large language model 或智能体学会自我训练然后这样的一些 paper 发出来所以你对这个概念现在这个阶段去炒作它怎么看我先说一个我的观点就是我觉得我们肯定很希望 AI 可以真正自我进化就像人类社会一样

但是 so far 我觉得历史上没有任何一个真正的做到这一点的任何工作真正做到这一点一些所谓的突破都有一些它背后的原因就是它存在一个标准一个标准的存在让大家可以看到所谓的自我进化话怎么说呢我们来看一看一些历史上成功的自我进化的例子比如说当年的 AlphaGoAlphaGo 是一个特别成功的自我进化

对吧就是自我自博弈自己跟自己下棋然后进化成功产生的特别强的 AR 它本质上为什么能做进化当然有本就是它有两个原因一个原因是围棋自己跟自己下棋出题的人和做题的人是对称的因为你跟自己下我提高一点我的老师的相当于水平提高一点我再跟我的水平高一点的老师下我也能提高它是一个完全两边都是对称的一个问题那么这个问题会导致自我进化特别容易

比起数学题再说,如果你要做个数学题,那么出题的人水平是需要比做题的人高一点才行的,而且甚至可能要高很多,因为大家知道一个好的老师是很难搞的,做题的人可能很多,但是好的教练其实挺少的,所以这个其实是不对称的,就是出题和做题是不对称的,但是围棋上是完全对称的,同时最重要的一点是围棋有个标准的 signal,这个信号叫赢,

这个是一个 ground truth,人,这是标准的,金标准,人设置的,不会变的一个目标,而这个目标最后牵引着他能够去做进化。比如说我当时在 OpenAI 做的这个捉迷藏游戏,它也是有一个客观标准,标准叫捉迷藏,就是如果小蓝人看到了小红人就得分,没有看到就扣分,这也是个金标准。

如果我带去看当年的这个进化算法所有的进化算法其实都有个东西叫 fitness function 就是如果大家去看就是 evolution algorithm community 它都会 fitness function 这 fitness function 大部分时候或者说几乎我看到的所有成功的例子也都是人定的它是需要一个外部的人为指引告诉你进化的

但是不存在这个就是没有任何成功例子说你完全不要这个东西让它自进化都是有这个东西存在的只是说很多人在讲故事的时候会刻意的放低这个人为标准的重要性去讲一个自进化的故事那对于大模型也是一样的

对大模型来说我觉得它就是存在两个问题第一个问题就是我说的大模型的能力提升其实除了做题或者还存在出题的问题而出题是比做题难很多的不好题是很难的就是高考命题组总是比做高考题要难的就是它这本身是不对称的所以你希望一个

做题很好的学生同时给自己出出来一个特别好的题提升自己的能力这个几乎是不现实第二是你这种提升还需要有一个客观的标准所以很多人比如说 Google 为什么能做一个 AlphaEvolve 因为它有一个速度的标准

一个速度的标准,就是他比如说我希望以为我出一个代码,那代码那我总有客观标准,所以他这个地方可能有一些客观的标准啊,这里面往往我其实猜测他有些东西可能没有说的特别清楚,就是里面可能有一些人为的信号,但大家可能为了讲一个这样的故事,他会把一个人工的这个信号和指引把它这个全中会放低一点,但是总之他一定是要有的。

所以这里面很多人会鼓吹说大模型可以 AI 像人一样有个社会然后它可以自我进化自己出题左脚踩右脚这个事情我们只能说这是一个我们希望的美好的未来我们也希望这件事能出现但是我觉得这事是

我会觉得他跳不周了为什么跳不周呢就是我们来这就是我们想讲的那个模型的训练范式就是我们来看一下模型的这个训练范式是怎么来的对吧他的范式大致是先从预训练或者说像原来的监督学习训练我需要人标百万级的数据 1T 的数据一个几十 T 的数据人洗出来的数据让模型去做训练做预训练

然后到了 post-training 阶段我只要出题就可以了人去出题然后给答案可能只要几十万的题十万的题就可以让模型提高自己的智能水平那么现在大家觉得我要跳过所有这样的步骤进入一个模型自己出题自己做答案的一个过程

那我觉得这事儿有点像跳舞轴因为我觉得它中间怎么着应该经历一个阶段叫人还是给了监督信号但是很少比如说一百条或者一千条或者给了一个判别器这个判别器对吧就比如说像 Google 它用的是一个东西是我要一个呃

我有一个速度的指标我要写个代码代码尽量快我个速度的指标然后还有一些人的对于代码应该怎么写的一些指标我告诉了他这个人的监督让这个模型可以进化

但是如果你但我觉得这个中间这个人能不能给 10 条指令或者 100 条指令就像或者一个职业运动员来说他要成为世界级历史级的运动员他可能需要个教练他还是需要教练的他是不能自己跟自己学的还是要个教练在旁边给他做一些简单的指导说你大概这么提你这么去进步可能会更好对吧能不能有这么一个阶段出现一个稳定的大家都接受的这种这种方式出现就是不需要几百万条数据可能只需要 10 条数据 100 条数据

然后人给非常少的指引然后可以给模型带来能力的提升我觉得这个阶段如果已经稳定下来那我们可以去展望说那是不是存在下个阶段这个模型真的可以自己跟自己左脚踩右脚提升了但是如果我们这个阶段其实没有出现很对吧大家直接跳到下个阶段去说

我们希望这个模型左脚踩右脚就能进化了那一般来说这个事是不太成立的那么大部分现在这样的论文它所谓证明了左脚踩右脚其实一般来说都

都其实不是就是他没有真正突破模型的智能或者说他没有在他没有他的这个这些研究并不是在一个模型能力边界上提升他可能是在一个模型他只是说他模型可能他有

20%的概率是正确的但是你通过左摇踩右脚的方式让它成为 40%概率可以正确或者说一道题它本来 10 次里面只能对两次然后左摇踩右脚了之后然后它 10 次里面对 4 次这件事情本质上没有提高模型的智能因为这道题它模型本身也会做你只是让这个模型更稳定的可以做回这道题但它没有提升模型的智能

所以我觉得真正要做的是那些模型他不会做的题解不出的问题他永远做不对的场景能不能让通过一种训练的方式让模型做对了对吧就是原来他是一个世界排名前十的选手换了个教练之后他成为排名第一的选手这事能不能做到这个我觉得现在还完全没有看到要么是他其实仍是有介入的但他可能没有在讲故事的时候没有告诉你这件事情或者没有强调这件事情

还有种情况就是说其实这个模型它只是会的更稳健它其实没有提升模型的能力现在的所有我看到的工作基本都这样所以我会觉得大家的探索路径应该是先从我们现在已经站在了强化学习这个阶段这个范式就是我只需要 10 万条数据或者 100 万条数据就可以训练模型提升模型的能力我们下面要去想的问题是有没有可能人给 100 条数据或者人给的监督信号就很少

然后它也能提升某些的智能然后我们再去探索说有没有可能让 AI 自我进化我觉得那才是一个比较扎实的路线就像当年我们想跳过预训练阶段直接通过强化学习去学会 agent 这是十年前 OpenAuto 的事情它也失败了

但他这个想法很好,最后十年后他成功了,但是我觉得就看大家到底是想探索一个想法,还是把一件事做成,事做成我会觉得那大家应该再务实一点,但是如果提想法,我当然我觉得做研究什么样的想法都是应该被鼓励的。

好的,感谢。下一个议题是这个 Diffusion vs. Auto Regression,就是扩散去对标这个自回归,谁会是下一代大模型的关键,还是说他们要融合在一起去做?我觉得首先我们先从现在的角度上去看,我觉得 Diffusion 有个特别大的特点,就是它不需要一个一个蹦出来,

就是在 decode 的时候其实它能够更好的利用算力因为我们知道之前我也提过我们说 Auto-Regression Model 其实在输出的时候它一个一个蹦导致它的 Bottleneck 被 Memory 绑了住然后它其实算力的使用特别特别低对所以

这里就会带来一些这样的问题所以比如说当你的 decode 的时候真的只有一条数据或者两条数据它不能它真的被 memory 绑得住了那么这种情况下如果你有个很好的 definition model 会快非常多

因为我能更好地使用算力对所以这是一个就比如说我们经常会聊我觉得 Diffusion Model 在一个端测或者说在一个算力比较分散的阶段下面的话那它本身是有很多的速度优势和算力优势的

当然我就说那当然比如说因为 auto regressor model 它能做很多的优化因为比如说我可以我在云端做服务的时候我可以把很多的 query batch 起来或者去就是 kvcache 可以做一些缓存那么当我有真的有比如说我有一个每天有巨量的海量的 query 我很多 query 是可以存的

可以利用一些原来算过的结果,不要重算了,那么这种时候在语音端,其实现在的 best practice 还是 auto regress model 能够优化的更好,diffusion model 的话它中间还有这样的优化没有做,但是至少以现在的角度来看,那么 diffusion model 至少在端测或者算力分散的情况下它就是很快的,

这是它的客观的优点然后同时是我们也知道有很多的理论上去分析也好还是说什么也好就是 Auto Regress Model 因为你不能改之前的生成的内容所以很多时候会导致

一些问题或者说一些出了错他就回不去了对吧但 diffusion model 本质上可以可以做做修改因为 diffusion model 是一个 diffuse 的过程它是整个 sequence 然后你不断的去修改中间的一些 token 所以理论上说我是可以做全局修改的所以大家会觉得至少我们至少我觉得也不说效果怎么样但是我们从理论上去分析你会发现 diffusion model 在处理一些更复杂的推理思维链过程中间它是有优势的

所以这两件事情让我们觉得肯定比 pure model 这个事儿写不论未来怎么样他在处理一些特定任务上的能力肯定是

会看到它的能力曲线和 Auto Reversal Model 是不一样的只是说现在比如说对于云端我们只看能力只看 scaling 来说可能 Auto Reversal Model 还是更好那么长期来看我觉得这是一个挺复合的内容就是我的观点是首先我很支持说大家应该去找不同的范式因为只要两个模型的架构它的能力曲线有不一样

那 ultimately 我就可以组合起来生成一个更好的大模型,但它肯定要它的覆盖曲线不一样,它的特性不一样,对吧?那大家基本上能感觉到 Diffusion Model 跟 Auto Regression Model 还是有一些能力曲线上的不一样的地方,那么我觉得如果我们当智能的提升出现平定了之后,我们又发现两组模型它们的能力曲线不太一样,

那么它是个好事儿,因为它可以相互补齐嘛,所以这个事儿是我一直是特别特别认可的,就是不管怎么样我们应该去投入一些资源去做一些这样的工作,那也是其实在我的团队或者说在蚂蚁研究院其实也有一些这样的工作,我们也去做这样的研究,也是跟我们那些合作者一起做这样的 Depression Model 的 Language Model 的研究,大家也可以多关注。

那么另外一个观点就是说我觉得我也是一些这个跳出来之后给一些建议就是首先我们要放弃一种幻想叫我们改了一个模型架构之后这个模型会有质的提升这是不可能的因为模型有一个我觉得模型它具有

很多符合的因素的比如说他有数据的问题对吧然后他有整个训练和推理 intra 的问题因为呃就是有个好的架构但是没有好的推理加速没有这个跟硬件偶合之后去做很多这样的工作那你就算我是模型本身比你快 10 倍但是可能硬件上我另外一边可能慢了 100 倍我这就只在最后总体上我还是慢 10 倍

所以有数据的问题然后这个数据也跟整个模型偶合会有很多的问题然后有推理和训练 infra 的问题然后对吧然后你最后才是这个 architecture 所以它是一个非常 mix 的问题所以我大家觉得对于新的这种问题呢一是不要抱特别大的幻想觉得它是一个 black box

就是他这个东西我只要改了一下 infra 之后就会瞬间出现所有的变化所有的都会变好这是不可能的他是一个就是大模型现在是一个系统工程但是呢我另外一方面也就是说大家可能对这种研究要多宽容一点因为他本身又要时间就是他只要最后我只要能力曲线上有一点提升他都是对最后是会对智能提升

这个是我的观点,就是首先放弃幻想,第二呢,我觉得它是个有意义的研究,是应该去做的。好的呀,下一个议题是关于这个世界模型和空间智能,因为行业有些专家他会觉得说大模型是有损压缩,那重构世界的世界模型才是真正的重要方向。

这个是具备空间智能的下一代 AI 系统那也可以广泛应用在工业设计电影制作建筑构图游戏开发机器人等领域然后所以就是你对于这个世界模型机空间智能的发展怎么看它会是一个未来很大的机会吗我觉得这里边至少是很不一样的能力曲线

我们来我们来想一想我老是跟大家举个例子就是我们现在很多的推理问题都是比较客观比较抽象的对吧啊就是他可以用文字表达或者说用一个题目的方式表达然后我老跟大家讲一个呃讲个例子就是假设你现在想个场景叫你在家里收拾东西然后你跟你妈说啊我的袜子去哪了或者说你的手机找不到的要找手机因为呃

我们家经常出现这样的问题就是找不到手机在哪你想这是一个什么样的东西然后你就在家里翻箱倒柜你就找然后这个东西你想你需要有方向意识

你需要有记忆,因为你得知道哪找过哪没找过,你可能还需要有一些回忆和常识,手机大概在哪,比如这个时候你去马桶里面去找,可能就没什么意义,开玩笑,你可能还是在抽屉里面,或者说你之前去哪了地上找一找,所以这里面是一个很复杂的特别典型的空间推理的例子,

对吧或者当然你要说再最深智能一点你去做饭对吧你可能比如说你锅烧着了应该怎么办这个事是更具体的例子但是我们就废一步对吧最简单找东西这个事情找东西这是一个多么长期的任务然后他需要的能力显然不是

跟大模型现在的这种文字推理能力是有些不一样的所以这就是会发现当你的输入不再是一个抽象的东西而是一个三维世界的视频或者连续图片输入的时候它需要的推理能力是很不一样的所以它会是一个我觉得是一个现在还没有被充分的

研究的这么一个或者说现在知道大家没有看到任何一个特别好的模型在做这件事情那么它可能带来的可能性

至少是在真实世界里面带来的可能性我觉得是其实很有空间的大家可能还因为没有看到它对吧你其实它能做什么大家也没有想到所以我会觉得它是一个新的没有被大模型至少现在大模型在卷的这个方向所真正覆盖到的一个方向然后呢可能巨神智能大家现在比较关注的地方又是在操作对吧我要抓个杯子要把一个什么水给放到桌上我要切一个菜

怎么样都是在操作上那么通间推移其实是一个反而被不少人有一些忽略的部分当然我知道有很多研究团队在做但是总体上他说这个就是聚身一侧更多看操作然后文大模型这边主要是看文本和代码

function call 对吧反而它是被忽略了所以我觉得它对于研究来说也是一个我觉得至少是一个很好的机会那至于应用呢我希望它有好的应用你肯定不希望最后是变成

从我们的角度上来说,希望它最后会产生好的用,而不是最后就是简单的通过巨声的机器人的操作,加上一个大模型,简单的把所有事情都覆盖掉。但是我直觉上觉得应该不会,因为咱们就是以一个找袜子的场景,它还是挺需要普遍的空间推理能力的。所以我个人还是看好的,我们也会想做一些这样的工作。

OK 那现在这个世界模型它可能其中有个环节会是视频生成然后

这个视频生成其实我们看现在还是在一个生成的阶段但肯定下一步是更好的是要做到理解交互那你觉得如果要做好到理解的话在哪些方面是需要去做到突破技术上的突破对我觉得首先生成和理解是特别不一样

就是它所需要的这个技能点或者需要你学习的东西是很不一样的比如说对于深层来说它其实重要的东西是 pattern 就是它的这种纹理这种视觉效果是更重要的它可以接受一些物理失真对吧它可以接受一些有一些不一致的地方我们举例子比如说我们想假设我们希望用一个

我们希望考虑一个场景叫机器人比如说炒菜那你看到一个机器人炒菜或者说看到一个火焰好莱坞里面制作的特效很多火焰是不真实的或者说一个人打了一枪之后这个人是怎么

倒在地上的对吧那好莱坞演员跟你演一下你觉得直觉上反复合你的这个这个这个这个想法就可以了但是其实他不比这我我我看过好多这种采访就是说真的上过战场的人会说那好莱坞上面的这种特效其实是为了追求视觉特效他其实并不真实但是如果你希望去训练一个机器人去炒菜

或者说训练一个机器人去做某一个物理的内容你是希望每一帧物理都是准的因为他是照在真的世界里面去完成这样的任务

但是人的视觉在感觉视觉感觉的时候其实你有一些不准是 ok 的所以会发现人的视觉信息在做生成的时候你重要的事情是不要让人感觉不是是大部分的这种视觉效果他 95%的 pixel 他对就可以了但是对于机器人或者巨声来说你要去做一个操作或者你希望物理的规则对他其实 95%的 pixel 或者 99%的 pixel

都是没有意义的我只要知道在最关键的那几帧上它的物理规则一定要准但反而对于人的视觉感受来说这几帧反而不重要所以这会产生一个特别大的 paradox 就变成了我理解就是要从百分之百的视觉信息里面抽取出那百分之一最重要的信息

而深层来说我那 1%错了其实 OK 我只要 100%我人的视觉感受是 OK 的就可以了所以我一直会说理解和深层其实是一个没有

就是从能力点上来说,我不是说模型没有这样统一的模型,还是有些模型可以做到视觉都统一在一个模型里面,这本身没有问题,只是他从能力点上来说,他们是有一点正交的。所以如果你想通过,所以相对来说这个生成其实更容易一些,因为生成,

你想你要就是从 pixel 上去做学习 99%的 pixel 都是你的监督信号 1%错了无所谓所以生成其实简相对来说更容易或者说他做到 90 分更容易做到 100 分当然很难就是做到 90 分是

比起理解是更容易的而且更容易 scale up 是因为你真有那么多数据直接学就可以了但是你希望通过学习深层的方式让模型锤炼出这种理解关键证关键信息的理解能力其实是很困难的因为你希望就相当于你就希望这个模型通过看大量的视频涌现出这种对于关键证关键物理环节交互的这种理解问题

理解能力这事是很难所以对于理解来说核心就变成了怎么构造数据就是你要么就是在视频学习上能够有一种更高效的方式让模型知道这个模型你别去管这些 text 了你就是去能不能把最关键的物理规律给我学会

但是你怎么才是一个好的学习范式让他学会的是从深层的 loss 上让他学会理解这件事情这是很难的这也是可能为什么 Lacombe 老师说他要说在 latent space 去做一些学习的原因这是 make sense 的当然我觉得最近也没有看到特别好的这样的工作真正去做到学的工作他还需要一些时间探索那么另外一方面如果视频学习的方式没有效率还是比较差没有特别

真正的突破那个坎那个高校学习的这个算法这个坎的话那么回过来那么我们能不能构造一些专门的数据和训练方式来专项的提升理解能力这其实大部分大模型多模太大模型在做的事情那大家构造数据构造了很多 QA 的数据构造了一些这个专门用来去问问题的这样的数据或者类似的

有很多构造的方法提升多摩泰模型的推理能力就是变成了那就变成了一个数据问题就是我怎么构造数据的问题就是你很多的数据都在但是你怎么把它用起来因为你不能直接的去学视频的方式去学所以这就变成了数据构造的问题所以现在大部分的工作提升理解能力都是在数据构造上那我个人会觉得

这里面还是有很多技术问题,然后能不能,我觉得会有一些方向,比如说就像我们刚才说的,就是比如说视频生成能不能产生更好的理解能力,这是一个最难的方向,但是一旦如果有一天能够迈过那个坎的话,那我觉得会是非常非常好,因为视频是对外合作最好的方式。

比如说这也是可能巨神智能现在做机器人的一些人他们也没有能够真正的能够利用到视频的数据这也是个大的问题的吧所以我觉得但这个问题很难很难很难因为视频的学习和运营就是特别特别难做这么多年也没有一个什么特别好的那个方式出现它就是很难

那么第二方面就是构造数据对吧那构造数据除了我们用现在的这种训练多模态模型的方式去构造数据能不能比如说我们通过强化学习去提升对吧比如说构造一些仿真环境一些任务可以通过 verifiable reward 或者说有一些仿真

然后通过强化学习这种构造合成数据的方式去提高多模态模型的能力那这也是我觉得有意思的问题所以我们自己可能想探索一下就是强化学习的这个方式所以我们 Areal 系统其实有一个重要的方向也是在做多模态的一些集成所以也希望这种功能和模型能够尽早跟大家见面吧

好的,非常期待啊。那提到巨神智能,你們現在做的工作跟巨神智能有什麼直接的結合或者應用嗎?巨神我們其實團隊在做兩塊。

一块呢就是我说的嘛就是巨生其实更多的是在做操作比如说我想去切一个菜啊拿个水杯倒个水啊都在做操作嘛那我们肯定就是会离操作远一些所以我们想的更多的是说推理层对吧我能不能做一个大模型还能帮我找袜子

这是我们一直特别想做的一件事儿,然后呢,所以我们就是想去做推理模型,就是多模态的推理模型,这样的话有可能我是能够在上层做好记忆和空间理解,这样的话能帮助我假设有底层有很多这样的 skill 的话,那我

能去做这样的规划,能去做这样比较长程的规划,就像一个 agent,就是我有一个空间的 agent 或者是 embody 的 agent,然后我架在一个巨声的智能体上,那 potentially 我就会有一个更好的跟人做交互的硬件,对吧?因为之前我们讲的所有 agent 都是软件,那我就相当于把巨声的智能机器人当成一个硬件,然后我有个大脑,这是我们想做的一个方向。

还有一个方向呢也比较好玩就是人机合作这个其实也是我们组一直在做的一些工作原来是我们做了一些游戏上跟人一块玩游戏玩星际争霸跟人一起玩 overcook 跟人一块玩狼人杀这是我们大模型上做的好多工作但是我们也有很多机器人上做了一些人机合作的工作比如说

我们去年的 Ecra 这个有个 best demo finalist 就是做了一个跟人一块玩的狗这种狗你可以牵着一条狗上街散步然后你做一些动作那狗也会做一些动作试试的啊

我们会做一些这样的好玩的东西啊比如说今年我们有一件工作我也挺喜欢的是机器狗和人一起踢足球我们也是通过多智能体强化学习的一个方式然后让这个狗可以给人传球低视角的一个狗可以给人传球然后人可以去射门人也可以给狗传球然后狗可能对面的狗会去把狗把这个球抢下来所以这也是我们做到一些好玩的工作但是我们团队可能更聚焦的是 high level 的一些呃

这个推理也好合作的技能也好还是规划也好这种 task level 的这种工作也是蛮好玩的所以我们都是希望最后能有一个 AI 一个智能体一个 agent 也好跟人

合作或者说产生一些跟人一样的行为我们会离这个硬件本身会远一些但我觉得我们也没有那么擅长嘛所以希望是说也希望这个做硬件本身或者做控制的这这些同事和朋友能够加油然后我们最后能够肯办起来啊那你怎么看现在巨声他的一个发展阶段如果类比这个大模型的发展他现在什么阶段我觉得

它有一点不太能类比就是说为什么呢是因为比如说我说大模型到 Agen 其实特别直接是因为我们之前讲过我说 Agen 是什么它本身是个软件软件完了之后后面是一个大模型的能力那么软件这一层其实就是比机器人轻很多的就是好大机器人就出现了它这个硬件层这一层很重

比如说你首先要做一个硬件对吧然后硬件本身要有控制然后有传感器然后你还需要很多这种关节的控制算法因为你不可能真的把控制算法扔掉的还是有控制算法的所以这些都是机器人硬件的一部分但是你想这事对应到软件层那软件层简单太多了对吧对于软件层来说比如说我的所谓机器人我有感知器要 sensor

软件层不就是把那个掉个包吗对吧就是但是没那么简单但是本质上就是掉个包或者我说去做一些这样的操作和交互界面他就是

很直接,没有这么多复杂,因为你是拿到的是 bit,bit 的这个中间没有这种信号的损失,但是机器人不是,所以对巨神来说,它就导致这个硬件这一层太重了,重了之后就导致特别割裂,就是你应该去好好的把这个硬件层做好呢,还是说去往后去做这个模型,

对于软件层其实没这个问题因为你软件层总是先把软件做好因为软件就是好做你软件都没做好你后面大模型肯定不太行对吧所以它是特别割裂的然后所以导致机器人特别割裂割裂出现了一个到底我们应该走大模型路线我是聚焦于后面的模型硬件我先不管我就买一堆硬件对吧这是一些美国的公司还是说我把自己的硬件产品做好

就像我们之前说的 agent 的这边我应该先做软件做完人家做模型对吧那机器人我这边可能也是就是我先做硬件然后再做软件再去做后面的模型对吧我一定基于我的硬件和数据去做这也是两条完全不一样的路线我觉得是没有定论的原因就是因为这两个阶段太重重到

他割裂了对所以这个东西我觉得是大家拭目以待需要一点时间我觉得没有那条路一定是对的一定是错的最后大家都是要做的理解

然后还有个议题是说,比如说杨乐坤他也说应该重视其他的底层架构新范式,你觉得什么样的底层架构新范式会有机会,或者说现在也其实很难预见到,就是让时间等待这样的机会出现?我觉得是这样的,就是我觉得范式分两种,第一种呢就是,

就是在当前框架上的改进其实你如果从改进这个角度上去看的话你看 DeepSeekDeepSeek 其实做了很多微创新然后它的微创新结合起来带来了很多质的提升对吧然后其实 OpenAI 也好 Cloud 也好 Astropic 也好就是 Grok 也好他们其实都有自己模型的微创新它基于传送的架构就是我觉得传送的架构它也不是那个标准的传送嘛它都是有很多呃

不停的小的改动然后小的改动累积起来带来了很多很明显的这个提升因为它是个系统工程所以我觉得对于这种比如说我们在一个复杂系统里面去不停的做架构的微创新和提升这个是绝对要的因为你最后可能就会可能你连续半年的提升之后就会看到一个十倍的提升或者五倍的提升 DeepSeek 就是个特别特别好的例子它就是一个硬件团队和架构团队一直在做 Code Design 的一个过程最后它就是

它的训练成本可能比 Meta 便宜个 10 倍这个就是微创新带来的微创新是会带来这边的咱也不要看不起微创新

因为它是复杂系统的工程所以我们做系统其实就会比较明白这一点就是很多小的创新传起来成为一个大的创新第二就是像我觉得所谓的比如说像 Diffusion LRM 我觉得它就是一个完全不同的路线那么完全不同路线我觉得是需要 appreciate 的因为就像我说的它只要最后的 converge 的进点不是一个全子级

那就对这个世界有帮助但是大家就一定要所以我觉得对他们一定是鼓励的而且因为它是个系统工程所以新的这种范式是需要大量的工作的所以它一定会在早期的时候或者说甚至它可能长期都没有什么

就是他不到最后一天对吧他都没有能能能 show off 或者说其实到最后一天他也只是在某一些一些特别特殊的场景上比起这个主流框架有一些新的价值但是他只要有就是那个价值所以我觉得大家应该对他更宽容一些我都就觉得我会建议这个 community 或者所有人应该对这样的研究更宽容一些啊

就是我的观点所以我支持了昆但是我觉得要放弃的事情就是放弃他就放弃两件事情一是不要看不起微创新第二是放弃有一个这个这个黑箱这个黑箱一个响指一打会带来这个惊天动地的变化这都是不存在的理解都是一个不及魁部不无以至江河的这个过程对的对的对的对的对的

我们下面谈一谈就是你在 UC Berkeley 求学的一些感受因为你一开始是在 Steward Russell 的博士生然后做的是 AI 的一些安全相关的后来其实也是 Peter Abbeo 的大组里面然后也去学习强化学习所以你的背景还是比较

全方位多元的一些东西就在你的眼中啊你看就是你这两个导师啊会有一些这个对于你有什么一些启发或者是有一些什么好的啊体验可以去分享的因为我们看到 Peter Abiel 他也是孵化出了很多 ai 和巨声行业的头部公司比如说 open aiperplexityphysical intelligence picovariant 这些的啊就是

这个还需要首先去先帮 Peter Clarify 一下有些话是不能这么说比如说 OpenAI 肯定不是 Peter 孵化的就是 OpenAI 其实在 17 年之前他的首席科学家是 Peter Bill 所以 OpenAI 早期不能说他是孵化的而是 OpenAI 跟 Peter 走在了一起然后呢所以最早期 OpenAI 奠定他的研究品位和学术基础的这些工作都是 Peter 的学生比如说早年的这个这些

这 OpenAI 的很多的研究人员都是 Berkley 的这是一个早年的基础然后可能从 17 年开始 Peter 就离职了所以只能说他们当时有非常强的 connect 然后 Peter 也是帮助 OpenAI 然后相互共赢了这么一段时间可能也比较像我们跟蚂蚁的一些关系就是刚好他也需要在早期的时候有些人帮他去组建一下这样的团队

对但是应该是一个就是一个合作的很好的关系所以 OpenAI 是这个然后呢像派和 Proplexity 应该就是说是 Peter 的 postdoc 和 Peter 的学生比如说 Proplexity 那个 CEO 就是当年 Peter 的学生然后派呢 Sergey Levine 也是 Peter 当年的 postdoc 也是 Berkeley 的 faculty 所以总体来说我觉得 Berkeley 是非常非常鼓励这样跟企业的合作以及鼓励学生去创业的我觉得这是也是

对我非常大的触动,我的很多工作的方式和习惯都是很受 Peter 影响。Peter 本身是一个企业家或者一个创业风格很强的人,比如说 Peter 在这些 AI 公司之前,他其实搞了一个 P 作业的公司叫 Great Scope。

这公司后来也是被买了,也是他的一个学生,当时 Peter 就是很纯粹,他就觉得,就是我们的话说叫现在就搭一个自己的 AI agent,因为当年他特别喜欢教学,然后呢他的这个作业就是觉得让助教批太满了,因为他就搞了一个 AI 公司专门批作业,然后这个公司后来也先自用吧,自用了之后服务了很多这样的大学,最后也是被收购了,所以呃,

所以 Peter 是一个很有理想主义很有热情的这么一个人然后他对学生也非常非常的好然后他也会支持自己的学生去创业所以这个事对我也是很有影响就是我也希望我能够帮我自己的学生让自己的学生去成功所以这个 principle 我觉得是继承于 Berkeley 但是 Stuart 也是这样 Stuart 也是对学生非常非常的支持所以

我也觉得在 AI 时代的话我也希望是有更多的年轻人可以去挑战这个世界去做一些新的东西去开公司也好或者去做一些自己想要的尝试也好然后对于我来说我也是希望能帮助到大家这是 Peter 了

Covereign 的 AI 也是 Peter 也是他的几个学生去创业的一个公司,Peter 也是在早年的时候帮着公司站台了非常非常多的时间,最后这个公司是被 Amazon 收购了。我觉得算是一个不能说最好吧,但是也是相对圆满的一个创业经历。

皮特对于学生也都很 nice 他是个很务实的人对然后呢 stuart 呢就就就不太一样一点 stuart 是一个呃常年在这个呃国会议会啊几点和国发表报告的一个人所以 stuart 是一个你会觉得他是一个飘在天上的人然后 peter 是一个特别务实的人但 stuart 呢一个一个飘在天上的人啊

当然首先他自己飘在天上但是他对学生也非常非常好他对我的帮助也非常非常多他也愿意比如说他要写推荐信也好或者说要支持个学生做什么东西也好他是可以非常帮忙的比如说有一次我想去 DeepMind 实习他就直接给 Demis Hassafis 写了封信所以这些老师都是很帮很帮学生的当然最后我去 OpenAIR 了我没有去 DeepMind

但是我觉得处事方法风格确实不一样我现在会觉得当时我读书的时候对于 stuart 的很多话和 vision 是不理解的比如他当时想做 AI safety 我当时会觉得你要做事你为什么去搞这些形而上的东西但是后来你可能在快 10 年之后你再去看当年 stuart 的一些 vision 会觉得他确实站在了

十年前再考虑一些十年后的事情他会给人很大的启发其实姚先生也是我觉得姚先生也是这种很有 vision 的人所以我觉得大家可能给我的启示是首先我希望成为一个 Peter 这样的人对吧能能能能能够推动更多这样的对世界有影响力的工作公司也好然后或者工作也好然后希望让学生成功然后呢我也希望是说大家如果

有可能的话也可以多去看一些这种,就是像 stuart 这样更有 vision 的人,这些话可能在当下他不会让你理解是为什么,但是你可能那个话放在脑子里,你可能五年后十年后你会觉得,哦,当年老板讲的话是有道理的,你会去多去多去想的话,对你长期的发展也是有帮助的,这是我的一些我的一些感觉,

嗯,挺好的感悟啊。这个,过来人,有经验的人还是有他们一些有沉淀的想法,其实会给年轻人一些很好的借鉴。那其实也提到你在 OpenAI 有一段时期的工作,这一段时期有没有什么比较有意思的经历或者体验或者是一些体会可以跟大家分享?哦,呃。

首先我觉得我们当时做的工作还挺好玩的,叫 OpenAI 多智能体捉迷藏,大家如果感兴趣的话可以去看一看,也是一个所谓的涌现智能体,然后进化的一个项目,到现在还是 OpenAI 历史上点击率最高的一个视频,即使在现在有了 Sora 之后,还是一个 YouTube 的播放量最高的一个视频。

然后我觉得欧可安里面比较好玩的一件事情是两个吧我觉得对我的触动第一件事情是首先我是一个特别喜欢做我是一个做系统我一直想去做系统

然后我会觉得算法需要跟一个系统和数据结合起来才有价值的这个人所以在我们组一般都是我们就说算法是三等人一等人是做系统的二等人是做数据的三等人是做算法的这个事呢跟我在 OpenAI 的经历有关系因为我觉得 OpenAI 当时我们当时就有一条大规模的强化学习训练框架

然后呢你的所有实验都可以在这个大规模上去做验证然后大家的所有的工作都是基于大规模训练的就是我们经常起工作可能就是几千个 CPU core 然后你在那个情况下就会意识到其实很多的算法

没有太多的就是从实践的角度上来说没有太多的区别你可能你要去想的是那么一个算法你还是希望就是你可能就不需要在小规模的算法上就花那么多的时间你可能还不如说你把一个问题 scale up 之后然后去考虑在一个更大规模和尺度上怎么产生更优秀的算法所以你的算法也需要是能够 scale up

然后会给你带来不同的 insight 所以这也是我可能从 OpenAI 回来之后我一直践行的一种方式就是我会先去搭建一个系统一个平台让我们有能力去做稳健的

这种强化学习比较大规模的训练然后这样的话去做这种善法的探索我会觉得他更让我觉得更踏实一些这是欧巴给我带来的所以我现在会做更多一直在做系统各种强化学习系统最早的 MAPU 从 19 年 20 年开始做 20 年开始做一直到后来我们去做 CPU 的训练系统叫 SR 然后再往后就是

real hf 做 irhf 的一个系统然后到最现在做 a real 其实一直在践行这样的想法我们也希望把这个能力门槛变得越来越低所有人都可以有机会做一些相对更大规模大一点的这种强化学习训练这是欧巴国带来的一个感受第二点也是比较好玩的当年的欧巴的人员构成

当年的人员构成就很奇葩的,比如说我们当时我们组里面,我当时 19 年 20 年的时候,我们欧盟只有 100 号人,90 多号人,然后当时我们组里面吧,就是只有我和我们组的 manager 两个人是正经 CSPHD,

然后有一个 neuroscience 做 neuroscience PhD 的大哥就原来是正经 neuroscience 没有搞过 AI 的然后有两个是本科生然后有一个是 Unity 的开发有一个是当时一个俄罗斯的老哥这个老哥反正就是一个算法工程师没事挺喜欢玩开源社区然后 OpenAI 因为当时可以随便发工作签证就把他说你要不要来美国工作就转来美国工作了然后那个老哥

其实英语说的也不太溜结结巴巴的然后就就是这么一群人然后当时还有很多比如说做 mechanical engineering 的啊做 quantum informatics 的啊

就就特别特别然后比如说当时我记得我的同事像 lillian 温就现在根据国文关系很好温利嘛就现在也是国内在国内这个圈子里面特别火的啊 lillian 当时也就是从当时他去的时候就从 dropbox 的一个 software engineer 他的成长也是在 openai 完成的所以啊我想说的是在那个阶段就是其实对于 ai 和大模型来说所有人来说都是新事物

一个新事物下其实大家都不会,大家都是在探索,所以其实背景没那么重要,我觉得关键是你是不是相信这件事情,然后愿意到一线去做一点东西,因为反正大家都不会,这是一个对吧,你像欧本安当年都是一些什么人,他也不是 Berkeley Ph,就当然他做 research 的时候是一本 Berkeley Ph,但是他最后做出 Traded GPT 的那些人并没有那么多的 PhD,

或者说没有那么多所谓名校的 PhD 所以我觉得现在这个时代也更像是你看 Agent 的时代都是一个新的东西我会觉得我会鼓励大家去上手不要去给自己设限就是这些经验都是通过你的上手经历而积累出来的这个也不可能有人给你一个特别好的课程不存在的因为课程只有一个系统稳定了之后才会有好的课程才会有好的书

在这个阶段其实对于所有人都是公平的就是大家几点都差不多然后大家就可以自己去探索对吧然后你探索的多你的 get your hands more dirty 然后你就会有更多的收获所以这是我对大家的一些建议就是说不用在乎大家的出生是什么这个年代对于大家所有人因为都是新事物就反而是公平就跟当年欧文一样

这个确实是很好的一个从 OpenAI 的体验然后可以传达给现在实下我们普通人的一些建议然后其实你正在做的事情也是想降低去做 agent 参与 AI 的一个门槛然后所以对于我们普通人来说要抓住这一波 agentAGI 的机会你还有什么建议吗我觉得是

尝试新事物吧就比如说你想做一个 agent 你自己也得用 AI 嘛对吧你要是不用 AI 你也不可能做一个好的 AI 产品或者做一个好的框架就是那你就应该多去看多去使用这种新的框架去尝试一些新的产品然后比如说你用 cursor 去编程然后你去用多用 XGBT 多用这个 AI 的工具多试我觉得

它确实会导致我们的工作流程会很不一样然后呢那你最好能够多上手听别人的肯定不如自己上手来的好特别感谢吴亦老师本期非常丰富的这个分享然后感谢您的时间谢谢好谢谢感谢大家收听本期 Respark 节目我们下期再会

对话吴翼：用打游戏的方式做AI Agent 02:05:31 Share

ReSpark

Deep Dive

Shownotes Transcript

对话吴翼：用打游戏的方式做AI Agent