We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

2025/1/18

42章经

AI Deep Dive AI Chapters Transcript

People

朱

朱哲清 Bill

领导Pokee AI开发下一代AI代理，前Meta AI应用强化学习组负责人。

Topics

我曾在Meta带领应用强化学习团队，将强化学习应用于广告投放和基础设施建设。在真实环境中应用强化学习的挑战在于获取持续的交互和结果反馈。近年来，强化学习的再次兴起源于在复杂规划和推理问题上，单纯的经验学习和模仿学习已不足够。强化学习擅长探索未知路径，寻找现有数据或预训练模型未曾覆盖的能力。强化学习与大模型并非平行关系，而是垂直关系，强化学习作为一种学习方式，可以与Transformer框架结合，增强规划能力。大模型的出现为强化学习提供了更强大的世界理解能力，扩大了其发展空间。有效的Agent架构应以强化学习为核心，大模型负责翻译和解释。Agent选择行动步骤的方式取决于其所处环境和行动是否被完整定义。单纯使用大模型进行探索效率低下，因为它缺乏对世界不确定性的理解。人类探索基于对世界的不确定性，而大模型的探索方式是完全随机的。强化学习的优势在于能够识别并探索不确定性，从而更高效地找到最优路径。强化学习解决的是平行宇宙问题，它通过计算条件概率下的期望值来规划行动，而大模型缺乏这种推理能力。目前尚无统一结论，但将大模型与强化学习结合是主流方案之一。我们的Agent架构类似于人类大脑，不同区域采用不同的思维方式。在缺乏明确目标的场景中，强化学习通过优化整体结果来处理人类反馈。强化学习的探索能力在不确定性高的场景中尤为重要，例如推荐系统。多层规划问题需要搜索能力，而大模型缺乏这种能力。强化学习能够评估行动对未来结果的影响，从而做出更优决策。大模型可以帮助强化学习理解人类数据，并进行抽象和决策。我们最新的产品架构中，强化学习负责所有决策，大模型负责输入输出。我们的目标是创建一个能够自主调用大量API，并完成复杂规划和推理任务的Agent。我们已经开发了一个电商领域的通用型Agent，它可以在Shopify平台上运行，并能快速掌握多种API。我们的Agent可以替代多个插件，并提供统一的控制和交互。使用我们的Agent就像雇佣了一个资深的网站负责人。我们的Agent学习的是Shopify底层的API，而不是插件本身。通过self-play，Agent学习如何调用API以及选择合适的参数。大模型在Agent中扮演着理解结果好坏和生成需求的重要角色。当前Agent发展阶段面临的主要问题是编码能力和通用性。目前缺乏能够横跨多个领域的通用型Agent。未来的Agent将主要与各种API打交道，并进行整合和决策。在现实世界中，真正需要编写代码的情况越来越少。大多数场景不需要Agent从零开始编写代码，只需整合现有的API即可。我们的Agent与其他Agent的区别在于，我们专注于基于现有业务进行排列组合，解决问题。我们正在进行电商Agent的公测，并计划扩展其功能。未来的Agent可以帮助商家自动化完成各种营销活动。未来，各种领域的企业都将拥有自己的Agent。Agent将在供应链、制造业等领域发挥重要作用。我们的强化学习技术路线使得训练和推理成本非常低。我们专注于Agent，而非大模型本身。未来一年，我们将继续发展电商Agent，并扩展到其他领域。我们的Agent目标是成为各个领域的API杀手。美国投资人对Agent很感兴趣，但准确性和盈利模式是关键问题。AI投资市场活跃，但优质标的较难寻找。明年将是Agent真正落地的一年。

Deep Dive

Chapters

本节探讨了强化学习(RL)和大型语言模型(LLM)的结合，以及它们在解决复杂规划和推理问题中的优势。强化学习能够处理不确定性，探索多种可能性，而大型语言模型则提供了强大的世界理解能力，两者结合可以构建更强大的AI智能体。

强化学习和大型语言模型的结合是构建更强大AI智能体的一种新技术路线。
大型语言模型为强化学习提供了强大的世界理解能力。
强化学习能够处理不确定性，探索多种可能性，找到最优路径。

Shownotes Transcript

有些東西在那裡啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦

我们今天很开心请到 Pokei 的壮神 BillBill 我们也是校友对你先简单介绍一下自己之前的大概的情况我之前几年半一直都在 Meta 然后后面几年是在 Apply Reinforcement 就是强化学习团队做负责人负责的事情主要就是把强化学习这一套框架以及研究落地到广告突进系统以及 Infra 各个方面同时的话过去六年多我在 Stanford 读了强化学习的博士

是跟 Benjamin VanRoy 是做二辽方向然后最近刚刚出来做 PokeEye 这个 startup 主要核心目的就是要以强化学习加 LM 核心做出一个在推理能力革新化各方面更强的 AI agent 所以你之前其实主要是技术背景对纯技术背景基本上但是

我在 Meta 的前三年其实做 ML 落地比较多负责 Meta Ads 的 2B 业务的 ML 推荐系统的落地以及第一批的强化学习的落地模型当时我们做了二

二维码在广告的那些折扣上面的一个应用也是 Meta 的第一批的二维码应用之一对就为什么这次请贝尔来聊我觉得现在海外其实大家都知道有好几个东西很热其中一个就是强化学习一个是 agent 然后你现在是用强化学习来做 agent

对这两个正好都站上了所以我觉得我们今天可能可以多聊一些美国那边的 agent 强化学习等等这些相关的东西还是想先从 Meta 这段经历开始因为你之前 7 年 7 年半还挺久的对而且核心做的都是深度学习强化学习相关的东西首先我好奇的是这个东西其实是最近一年又开始热起来的

对,之前很多人对强化信息都有他们自己的怀疑因为强化信息在 16 年完成 AlphaGo 那一批以及在各种游戏上面的突破以后后来很长一段时间大家都觉得没有进展当中有很多很多的问题就是核心的一个痛点在于说这些环境都是游戏环境你可以不停地跟这个游戏环境进行交互去得到结果

但是你在真实环境下很难得到这样的问题与此同时大概 20 年左右的时候比如说那一系列 GBTNLP 那一波开始慢慢慢慢变火了

当时就觉得说很多的规划问题或者说这种多步决策问题是不是 LM 也可以做了然后与此同时也出现了很多 Decision Transformer 类似于这样的文章出来说 OK 我们可以完全用 Transformer 作为 Inference 的方式去解决问题完全不需要再用强化学习了最近又热起来的一个核心原因是大家发现在更复杂的规划或者推理问题上面

只是通过过往的经验以及一定程度的模仿性的学习已经不足以完成这个问题了所以即便 OpenAI 他们也开始转型说 OK 我们可能要做一些规划型的这种 agent 比如说 O1 的时候大家猜测就是他最后在 Inference 做了 MCTS 类似于这种规划型的能力那他的核心目的也就是能够找到说

现有数据集或者他在预先链或者 post training 以后没有得到过的这种能力能不能通过搜索来得到去探索未知或者说平行宇宙式的这种路径这是二辽比较擅长的所以为什么大家会觉得说二辽可能要焕发新生了最近 OB&I 他们做 O3 和 O1 一个 researcher 他们在 Twitter 上面还说因为发现了二辽非常 powerful 所以他们最近的思考问题的方式全部都被二辽化了

我跟很多人分享一个看法就是 RL 跟现在大模型这一系列的并不是一个平行的这种操作模式它可能是垂直型的

就是说你可能可以把大模型跟传统的神经网络做对比但是二辽是一种学习方式所以它仍然可以和现在的 Transformer 这一套并行在它也可以利用 LOM 的能力去使规划能力更强所以我觉得强化学习能够在 LOM 井喷的今天可能会有更长足的发展嗯

所以你觉得它并不是一种比如技术方案上的倒退也会怎么样不是可以联系到我自己为什么出来的一个核心点就是我认为 LM 和今天算力增强以后大模型的能力的提升是二 L 能够接下来有巨大成功的一个基础过往的话我认为可能二 L 直接成功的基础还没有那么大现在反而我认为基础更大怎么讲

因为二标有几个比较重要的点一个是它有非常强的对于环境 action 各个方面的理解能力而这一系列的 representation 是很多人一直在强化学这边寻找方案的一个事情那

现在的话,你如果有了 LOM,很多东西都可以完全用语言,然后做 embedding 这一系列的这种方式去完成这个重构,你就不再需要专门去设计一个架构给二维 O 去解决这些问题。就现在 LOM 的出现相当于是给了一个非常基础的对于世界的一个理解,

让强化学习去产生更强大的那种跟世界交互的能力所以有了 LOM 以后我认为 RL 可以发展空间就变得更大了

所以最终我们不管是这两个谁为主或者是技术上谁好谁变最终他们结合起来到底要解决的是一个什么问题比如说我们的设想技术架构就是当一个用户或者任何一个终端给到我们的 AI agent 一个需求这个 AI agent 会把这个需求去解构结果他就说我的目标是什么我们有哪些措施我可以采取

我们所处在的状态是什么样的我们需要去采取一二三三个步骤来完成最后的目标这个结构完了以后我不知道说一二三这三个步骤是什么二要就可以抗命说我先采取一措施然后三措施然后四措施得到说它可能成功的概率是多少下一步我再去试一个别的通过这种方式我就可以找到哪样的一个路径最容易能够达到那个结果

然后找到最优路径以后完成这个路径得到解决方案拿到结果以后再返回给语言模型然后由它再去重写写成一个人可以读动的东西在 IoO 选步骤这个时候就像你讲的不管是 123 还 132 这些步骤它是从一个 LM 已经有的生成的步骤库里面去挑还是说它现场去生成取决于这个 IoO agent 或者整个 AI agent 它处在的环境是什么就是你的

Action 本身是不是被你完整定义了我举个例子比如说在供应链问题上面你的 Action 是完全定义的你只能把这个量的货物从这个点派发到另外一个点像这样的 Action 你可能就直接去 call 就好了如果有一些比如说我要去解一个数学题这个是没有被完全定义的 Action 像比如说 O1 跟 O3 现在要解决的那种偏数学性的问题它就是没有被完全定义的它的 chain of thought 的那种

推理方式就是说我先生成一个结果这个结果再生成下一个结果然后每一步结果以后都会有一个 LM 自己去 evaluate 说我这个结果到目前这个位置是不是好的一个结果然后如果到某一步卡住了那我再倒推回来在某一步再重新往前推在这种情况下就需要 LM 去辅助然后去找到说哪些是真正的 action

但如果之前没有 IL 的时候他会遇到的问题是什么呢就是我要怎么知道说

什么样的路径是最好的它有可能会完全永远卡在同一个路径上面对这个就是之前大家讲的就是有可能它在一个小闭环里面无限重复对但这个为什么 LM 模型本身它不能去验证这件事情也一样的逻辑就我试了一二三得到个结果然后用大模型本身去验证这个结果然后不行的话再换一个然后再验这个好像从人类的逻辑来讲感觉不是一个很复杂的事情语言模型核心还是以一个数据集作为光临的在这种情况下

语言模型就是我只有一根筋了我已经想不到别的方式了而且像它这种探索方式几乎是完全随机的效率很低的一种探索方式我们从人的一个比较直观的方式去想人是怎么探索的比如说我今天去吃饭有三家店是我想去吃的其中有一家店是我每个礼拜要去吃五次的

剩下两家店有一家店我去吃过一次非常非常差然后另外还有一家店我从来没去过如果你今天觉得说我想要知道我最喜欢的是哪一家店你会选择的不是说我随机在这三家店里面选一家而是我在第三家我一定会选第三家因为我对第三家有最高的不确定性

如果我去了第三家我觉得还不错那我可能会再去一次两次都很好比第一家还好我可能就觉得好第三家可能是最好的所以它所做的选择更多是基于你对于世界的不确定性而不是说我随机在里面不停的选那如果你用圆模型去找到那个最佳路径它基本上就是完全随机的一个状态

那二维码为什么在这个地方会有效是因为它可以去找到我的不确定性在哪里我更好地去探索那些不确定性然后使得我更快速能找到那条路径应该是什么

对我记得之前经常举例子就是一个迷宫人家从一个点进来找出口里面可能有各种算法然后各种方法去怎么样最快最短时间去找到那个出口对所以像你讲的如果是大圆模型本身的话它可能就是在中间一个有可能有个路径它是最高概率然后它一直在那转圈对不停地在那转圈然后它再也不会往外走因为它根本不知道说它对外界有多大的不确定性所以

RL 在这个地方会有一个非常大的优势还有一个点就是我们叫 Counterfactual Reasoning 的能力其实 RL 的一个核心点就是假设这个世界本身是一个大世界还是小世界的一个区别如果说你觉得这个世界是个小世界一个模型可以学习到这个世界所有的变化那你就可以直接 reason 而现在我们发现那么大的模型仍然不能够直接 reason 得到所有的结果

那就意味着大世界小 agent 的这么一个假说就是说这个世界的可能性是无穷的 agent 需要知道并不是这世界上所有的变化而是说在每一个我所在的状态之下我成功的概率有多高最后我能得到的 reward 是多高所以我能够去规划说我这么采取这三个措施最后能够成功的概率是最高的而 LM 它不是这么去思考的

我一直在想他的中文是什么因为之前好像有个德剧还是叫什么就是他研究历史上其实很多时候用在你刚才说那个概念对吧对我记得他的剧情是说如果二战是德国日本胜利了世界会变成什么样子对对对就这种我

我经常说很多时候强化学习要去解决的问题是平行宇宙的问题这件事情永远没有发生过将来可能也不会直接发生但你就去思考说如果你做了这一系列的事情会发生什么他是思考还是他真的自己在后台自己试了一遍他没有试就是他根据他过往已经做的所有的事情去算说比如说你过往去走了五条路径那

这五条路径本身你是用不同的决策方式来做的根据这五个决策方式以及你所在的现在的状态如果你把这个决策稍微偏一偏

我能够得到的结果是什么它是算的一个条件概率下的一个 value 但你刚才讲那个 case 里面它是要收集到所有数据然后去计算出来一个确定性的结果它不是确定性的就是它是条件概率下的一个期望它也是一定的概率性对但是它条件是条件在它自己的决策方式上而 LM 的决策方式是不会变化的

所以当你去采取不一样的一个策略以后它会发生什么其实 LOM 它是没有这个 reason 的能力的就是它只知道我现在这个决策就是固定了我不会再变听起来还是有点像一个是理科生一个文科生作为结论我想问一下就是现在你觉得尤其是你在美国那边看了这么多听了这么多大家讨论是不是现在有个结论说 LOM 跟 IL 结合就是一个现在最好的方案其实有很多人是想做 RL 的单一方案的

比如说 Rich Sutton 他现在在做的就是怎么用 RL 和持续学习去完成一个 LM 本身无法完成的事情就是把

Transformer 整个都推翻我不知道它会不会推翻但是它的意思就是说在持续学习的状态下如果你的数据是流就数据流会不停的进来是无限的而不是一个单一数据集的情况下 LM 这种模型本身它是不具备可以永久训练的能力的这个东西叫 plasticity 举个例子你把一个弹簧把它拉拉拉最紧了再拉就会崩掉

就是当你拉到最紧的时候这个模型已经饱和了以后你就不再能得到更多的信息了所以有这么一条线一直在推它这条就偏理论了

所以落地而言大多数人还是希望把 LM 和某种意义上的规划性模型将它组合起来比如说 Google 以及 Meta 有一部分人也都提出了快思考跟慢思考的概念就是快思考就是不停的直接可以给到你 Q&A 的结果然后慢思考可能说我需要去做 chain of thought 然后得到结果以后再能返回给你

有一些人就说我可能不是做 chain of thought,不依赖于 LM,就像我现在在做的这条路,我有个完全不一样的决策模型,然后用不一样的算法训练,训练完后得到的结果,再反馈到 LM 作为结果,变成一个组合型的 AI agent。我们现在做的做法有点像人类大脑的每个区域,它的思维方式是完全不一样的。我们二维网的这种训练方式就跟像多巴胺自己一样,

多半越高我可能做的东西就越好所以我的决策是跟着最后的结果好不好来的然后 M 可能是个知识区我存储下来了我就怎么回给你就类似于这样的一个东西所以这两块对于我们来说可能它的训练方式就完全不一样了

我在最后问一个跟 L 相关的问题就是因为我们之前也看过一些相关的资料就发现之前的 L 大多是有一个明确的标准答案的或者有一个绝对的一个清晰的目标的比如我就是要赢某款棋或者我就是要走出一个迷宫但在现实生活当中尤其跟 LM 结合了很多领域里面场景里面它可能没有这个东西比如最典型的就是大家跟 AI 做陪伴聊天这种场景没有一个所谓的谁比谁更好

这个时候你去做人类的反馈该怎么样去处理这个问题我举些我之前在 Meta 的例子二楼一个比较厉害的一个地方就在于因为它算的是一个期望值当我有一整套系统我需要去优化整个公司的营收的时候比如说我们优化的是广告竞价在某一些竞价上面我可能做的没有那么好

但有几个竞价我使得某些用户有比如说 20%30%的提升那总体的广告效率就会提升很多这个也是过去几年我们落地最好的一些场景就是说你有大量的可以尝试的空间然后你要优化的不是单一场景下的结果而是在总体场景下的一个总结果那

还有一个比较重要的点就是二楼落地要么需要一定的探索能力你可以采取的 action 的数量非常非常多然后你很多的 action 都没有见到过它的结果是什么样子比如说我们有一个推荐系统的落地例子就是我们在 Facebook Reels 上面有一个项目是用自动老虎机就是 Bandits 去落地怎么快速推荐

我们用二维奥的 Exploration 算法然后我们发现对于那些我们不太知道他们的兴趣点是什么的用户通过探索型的推荐算法可以使得有几十个百分点的他们的 engagement 的提升而如果你只是用普通的推荐算法那些新用户你不知道他们喜欢什么有很大不确定的情况下用户很快就流失了

这是我们一个实验的结果而另外一个比如说我们刚说的广告金价这个例子的话一个 action 是基于另外一个 action 之上的所以比如说你第一个时间点上花了 10 美金那就意味着第二个时间点你可能要少花点钱而第一个时间你如果花了 5 美金第二个时间可以多花点钱

那如果有这样的互相之间第二个 action 基于第二个 action 这样子一个性质的话呢它就会让你的决策有一个多步的性质在里面那二辽也会有更大的好处吧而如果你所有的 action 就是单一一个 action 然后我知道它的结果是什么只是一个纯预测型的问题的话那二辽在里面不会有什么太大的作用

明白然后我们讲讲 Agent 相关的 Agent 这个事其实去年就有从什么凹凸 GBT 开始然后今年大家又讲了一年的感觉包括最近 Divend 就出什么的又很热然后明年又有很多人讲明年是 Agent 的元年 Agent 这几年到底在发生什么他经历了什么变化然后为什么一直在讲然后但一直在等落地的感觉

我觉得 agent 这个概念有点被玩坏了有点也有人跟我讲啥都是 agent 对吧确实什么都可以是 agent 可能就是说你帮我买张机票他就买了订机票这件事情目前你靠工程也能完成这件事情连 LM 都不用我就直接写点条件我都可以把这个事做了真正复杂的点是我比如说你来上海出差然后我要去这三个地方然后回头我还要去趟杭州然后去完杭州以后在两天之内我要回北京

这种非常复杂的情况下就会使得正常的靠工程方式来完成的事情就不可能完成了你说这个真的是我的刚需如果真的有人用 AI 做出来我愿意付费真的吗因为你自己搞很复杂你得定好了到底哪个约在哪然后怎么安排怎么定票时间怎么样什么的对这个东西是我当时创业开始的时候我去 pitch 投资人 pitch 的第一个 demo 就是做的这个东西然后我们当时做了 signature

single city 就是单一城市下多天多酒店多地点的一个规划性的问题但你看这个东西我记得去年上半年的时候有很多黑客松每个里面我觉得基本都会有一个是做 AI 旅游什么 AI 行政规划的但那个时候为什么做不出来呢现在还是做不出来所以你遇到的问题到底是什么因为规划性的问题就在于你短途规划你可以用 LM 就可以完成了因为你很简单

但多层规划就出现了我们刚刚说平行宇宙的问题我可能规划规划规划了十步第十一步发现规划不下去了这个城市被卡住了那你往前推推到哪呢你也不知道就是每多一步它的复杂度都是数级上升的

所以你需要的不是一个穷举的能力了而是一个搜索的能力这个搜索能力就是你需要去真正去理解我采取每一步措施对未来所产生的影响会是什么样然后在考虑到未来的情况下再去采取这样的措施才能够完成这种比较复杂的规划问题那

我觉得 LM 没有这个能力它因为是基于过去去预测下一个可能出现的 token 是什么所以它不可能说知道我先去知道未来可能会发生什么再去推理说我下一步要做什么决策所以 IL 在这里面就能起到作用对因为我算的时候做了这件事情以后对未来的期望是什么

比如说我有三个事情我如果这三个措施里面有一个措施我做完了以后我对未来希望变成零了那我就知道说这个东西未来肯定不能完成这个任务那我就会选别的措施但这里面如果我只用 L 不用 LM 会怎么样 LM 可能是个 RL 的基础就是 Transformer 这种架构能够理解人类语言或者图像的这种能力是帮助 RL 去跟人类

的数据进行结合的一个过程就是我如果单有 RL 我只是一个

抽象的跟数字打交道的一个系统你需要一个语言模型 LM 或者一个 Vision Model 从一个具体的措施变成一个抽象的措施然后让 RL 去做决策我明白但我从一开始你讲的时候我就在想如果按这个逻辑其实 IL 反而是核心对 LM 就变成它就是一个你的输入输出的一个翻译我们最新发布的产品里面所有的决策全是 RL 做的

外部所有的 I/O 接口是 L/M 这么一个架构你是觉得长期来讲就是这样大概 I/O 跟 L/M 的一个配合的关系这是我们的想法所以这是我下一个要问你的就是你公正客观来看在美国至少美国的技术界什么的大家的现在最主流的想法其实也是像这种吗还是什么不一定 I/O 加 L/M 的这个大方向目前没有统一的

比如说李飞飞他们最新的 AI Agents 那篇 paper 里面讲的更多的不是以二绕为核心而是以模仿学习为核心的所以总体来说这个路径没有被统一可能期待第一个真正意义上的可以多步决策而且非常

可靠的这种 AI agent 出现如果有这么一个东西出现的话大家就会一拥而上变成一条路但听起来是不是不管这个路径是什么好像大家现在默认的是 LM 本身挺难达成的不够当然还是这句话就是你可以通过 LM 这个架构在这之上你比如说你把它的训练算法变了就比如说 O1 和 O3 并没有改 LM 本身的架构它只把最后训练算法变了而已就是它的模型架构是不变的只是算法变了

所以从我的角度来说 LM 本身不能解决这个问题的核心还是在算法层面上不是在架构层面上明白就还是算法加工程的一个组合的感觉所以最后你为什么会想要做 agent 的这件事情我想做 agent 其实想挺久了

我之前一直卡在一个点上就是在大公司你有很多人帮你准备从具象到出象的这个过程那你通过这个方式你可以比如说我们在做广告竞价推荐系统这些东西落地的时候你就只需要把二摇放在算法层面然后去把这个决策方式给他学了就好了

但是你真的要放到完全开放世界里面二维模型其实是不行的你没有具象到初向的经典过程现在有 LM 了以后把原来的人为的过程全都变成了初向过程一个模型就可以帮你搞定并且在很多时候它可以帮你生成线下数据让强化学习去学习而且有了 LM 它还可以从某种意义上去帮你去判断说你的二维模型是不是做得好或者不好

所以从我们的角度来说他把我们整个我一直在想的这个思维的闭环给闭环了那我觉得就是机会出来试一下所以你可以再讲一下你们现在的 agent 大概做的具体的是一个什么事情我们最终的目标是要完成一个可

可以自主调用上千上万个 API 然后多步决策能够完成非常复杂的规划跟推理任务的这么一个 agent 早期的话今年我们已经北的发布了一个在电商方向的一个 agent 它是架在 shopify 的架构上面但是在

不到一个月的训练时间之内我们的只有 1500 万个参数的 Aero Agent 加上一个 10 个别的不到的一个预约模型放在一块就已经可以完整的掌握几十个 Shopify 的 API 基础的搜索跟推荐的能力以及克服能力而且当你把这个 Agent 放到任何的一个 Shopify 网站上面的时候需要再特殊的个性化训练

所以它等于是一个非常通用型的一个 agent 而且用了一个那么小的架构加上那么短的训练时间就达到这个效果我认为这个未来是非常可期的就是你的客户是受比反商家对就假设我是一个受比反商家嗯就是你要跟我讲的话你提供的最核心的产品服务和价值到底是什么就是你不再需要去安装几十个你完全没有办法控制的插件嗯

而且你不再需要去雇佣好几个工程师然后你也对于你自己的整个商店里面的所有的参数什么都有完整掌控

而且你所有的插件互相之间比如说搜索推荐客服各方面它是互相之间都是有交互完整一体的就是你的 agent 它是在后端是对接各种 API 对然后在前端是对后端的所有的各种数据和 API 的所有整合以后重新

定义或重新建立他觉得 OK 的一个前端可以这么理解就是除了展示产品页面之外剩下的搜索推荐客服 Chatbot 这一系列的这种 UI 都是有 agent 进行

基于一个模板生成出来的一些结果以前其实可能商品票里面也有插件就有个 A 插件加上关联产品推荐 B 插件可能加上搜索 C 插件可能就加上一个什么客服对话你现在相当于说我只接你然后你去判断说你要接哪个东西怎么样组合起来怎么样去呈现以及说这几个东西还能联动起来对吧就是因为你后台的数据是一致的

我用你就有点像招了一个网站负责人的感觉对对就是这么一个意思而且特别好的一点在于说

原来的其实并不是你搜索就一个插件就行了而是你搜索需要找一个搜索的插件然后你搜索的品类还需要再装一个插件然后推荐也不是一个插件加起来可能有几十个插件比如说一块一共有多少个插件你有算过有几千个 OK 对但我如果用你的话你是来调用他们的一些插件还是你就这个事就是我们现在整个

可能我认为互联网世界里面的工程性的问题就是它的层特别多这些其实都在调用 shopify 的几层插件但是这些人呢就是在当中插了一层然后收你钱

但其实你可以调最底层的插件都可以完成这件事情可能比如说有些 Shopify 不提供的功能你可能自己需要做一个后端的存储所以你学习的是不是学习的这些插件我学习的是 Shopify 底层的 API 这个学习怎么学习呢它底层 API 是学什么东西呢我只能说它把 API 从具象变成一个抽象的 action 以后二楼会去完成就是做什么样的 action 会得到什么样的结果用户是否满意的一个 self play

这个我具体怎么说我不能说但是简单来说就是通过 self play RL agent 会

知道这些 API 能解决什么样的问题然后在什么时候应该调用什么样的 API 甚至于这个 API 的参数应该用哪些参数他都会自己知道那你这个训练其实是纯 RL 的方面的训练对吧就是它跟我们现在讲的那个大模型本身的训练是不太一样的没什么关系唯一的关系就是这个 embedding layer 那些 API 把它从具象的文字变成了抽象的 embedding

但之前如果没有语言模型做不到这件事有几个点一个就是我要理解我做了一件事情最后的结果好不好这个东西需要语言模型帮你去告诉你说你做的是不是好对吧然后另外一个就是需求的生成你也需要语言模型然后一个非常好的 inviting 模型也是最近有语言模型以后才出现的东西

所以这一系列都是整个路径非常重要的一个事情过去没有好的语言模型不行也有很多人在猜说 O1 什么 O3 是不是就是用了很多 L 相关的各种技术对有他们在更多是在 Inference 层面上做到很多

类 RL 的优化比如说 O1 大家的猜测是用了 MCTS 就是 Multicolor Tree Search 它是一种探索型的规划算法就是说我走这么一条路然后看一下行不行然后再返回来然后再走另外一条路然后再返回来重而复始可以帮助你去规避掉说你肯定不行的路径但是它所带来的结果就是你的整个 Inference 的

价格非常高然后时间非常长所以就需要长思考所谓的长思考就是这意思就是说我需要在

Inference 的时候去思考这个事那就非常复杂其实 Yan LeCun 我跟他聊过两次他其实也是想做这种长思考型的规划型的从他的概念可能没有 Agent 这个概念他更多的是说就是怎么通过世界模型去进行长思考就是世界模型在你采取一个措施以后他会自行地告诉你下一个状态是什么样的然后再下一个状态是什么样的这是为什么他觉得说有个世界模型以后所有的规划会变得非常容易因为你会知道说你做了什么以后下一步会发生什么

就还是挺 IRL 的那个思路的如果不是 IRL 我在讲你刚才说那个那就变成穷举法了对从某种意义上来说如果你没有像 MCTS 这种探索方式或者说你没有一个 world model 可以帮你去知道如果你做这件事情一定不会沉的话就变成跟穷举法就是我刚刚说随机探索的那种状态 OK

所以 agent 你现在觉得大概在一个什么阶段然后大家现在核心面的问题是什么我觉得有一些问题首先是目前大多数的所谓 agent 还是基于 LM 可能加一些 rag 做出来的一些所谓的 agent 他们在 coding 方面可能是有最多落地的目前 coding 其实从我这一上来说应该是所有 agent 里面相对来说可能最复杂的一个

但是也是可能金字塔顶尖最之前的现在最大的问题就是如果你做一个非常复杂的工程架构型问题目前的 LM 都解决不了这个问题我们如果退一步说

不是 coding 这个领域剩下的所有领域可能在每一个锤类上面都有一些公司在想办法做更多的就是接 JMNI 接 OpenAI 想办法去做一些工程上的调整去完成这些所谓的对于正式世界的影响的一些落地但是通用性的这种能够横跨很多个领域的 agent 还不存在所以这也是我们最终想要达到一个目的

你想做一个 agent 是他有点事迹 agent 的他已经见过大多数要做这件事情需要靠什么样的 API 用什么样的措施的这么一个 agent 当你真正把它落地到某一个场景的时候你可能几乎不需要微调他就知道你给他这 20 个 API 哪个 API 可以解决什么样的问题你觉得一个未来的 agent 他其实就每天在跟各种 API 打交道

对有可能他会跟人打交道对吧他比如说如果是客服之类的这种也是有可能你所有的东西都可以把它用 interface 包起来说这是个 API 你可能只发了一个 email 给这个人然后等着这也算是一个 API 从我的角度来说

在现实世界当中真正需要写代码的地方其实已经越来越少了你像我举个例子在大厂里面你真正去写一个完整不靠任何别的方式的一个方式是非常非常少见你基本上每一次写代码就 100 行代码这 100 行代码里面大多数都是在尝试组合各种各样的 API 从我的角度来说如果

一个 agent 他知道怎么去整合这 API 去完成一个多步决策那他可能已经完成了大多数需要完成的事情而真正复杂可能那些

在追求金字打尖那些公司在做的事情是说 OK 我还有个更复杂的事就是这件事完全没有任何世界上的能力可以做到我需要有一个 agent 从零开始写这些代码然后把它组合起来形成一个代码库这样的问题这可能是他们在追求的一个终极 agent 但我认为大多数的

场景的话我看下来基本上不需要这种能力他就是跟各种 API 打交道然后排队组合对对对那有点像之前是谁是 GoogleEthropic 还是谁的出了一个协议是吧好像就是要往这个方向去走因为未来如果是这样的话其实很多东西可能就在后端在协议层就完成了类似于这种就是

你可能不需要一个代码型的也可能就是用那种是 command line 靠几个 function 然后得到的 raw text 然后在下一个 function 就可以完成整个操作了你根本就不需要进入代码层

对于未来的用户来讲我在想你看像 Devon 它好像是能让你看到它每时每刻在做什么东西我觉得体验是蛮神奇的但最终是不是其实也不一定需要这些过程性的东西如果它就是完全在后端调用 API 最后只要输出个结果就好我觉得这个地方还是有一个不一样的地方就是 Devon 和这些 coding 公司要解决的问题是一个跟我们剥离开的一个问题我们是在业务层面就是说已经有这些业务了

有这么一个客户要解决这样一个问题通过现有业务怎么解决这个问题他们是说我根本没有这个业务我要去建立这个业务本来需要雇 20 个员工去完成这件事情那我现在一个员工都不雇我雇 20 个 David 能不能解决这个问题这是两个商业模式的最基础的区别就是你是基于现有业务去排列组合解决一个问题还是我完全没有任何的技术我就需要人去把这一切东西从零搭起来所以你们

今天正好刚上了一个那个刚才讲的电商的那个它是一个什么是开源还是公测还是一个什么公测公测现在我们邀请 50 个电商商家尝试安装然后体验一下这个产品然后本来是 14 天的免费试用期现在我们

延长到 30 天让大家给一些反馈然后帮我们提升这个模型各方面还有很多的我们正在做的一些功能还没有上线比如说商户跟用户之间通过 agent 来进行溢价然后再比如说自动化的帮你去上线一些折扣然后通过你的给到 agent 的一个 prompt 去改变整个网站的推荐策略和搜索结果策略这些东西都是正在做的事情

我可以理解你前端可以做各种的排列组合跟动作但是如果你要涉及到折扣什么的它是会动到后端了对吧对但后端本来就有 API 可以做到这点所以你只要告诉我你要干什么这个 agent 就会自己去考码这些东西帮你改了比如说一年以后假设就是电商场景你这个 agent 已经做到很成熟了然后你能举一个具体的例子说大家大概会怎么用它然后能达到一个什么效果就比如说

你今天是个商家然后你说现在圣诞节了我要搞个圣诞测速那你可能需要做三件事情第一件事情我要把里面跟圣诞节相关的产品打个折扣第二个我可能需要把整个运费以及运输时间做一个修改然后第三个我可能需要把整个线上的首页推荐搜索各方面全部都换掉变成一个以圣诞节为主题的这么一个

现在会做什么现在就是我要找我现在的销售我去把这些首页的这些东西换掉然后每个东西要写特有的介绍搜索上面我可能需要去找个工程师去想办法把排序给改一改然后推荐上面我也需要去找第三方谁给我做的推荐公司手动改然后我去改折扣各方面都需要我去找个工程师去手动的往数据库里面去写

等到明年年底如果我们一切都成型了以后就是你告诉我你要干什么你就直接文字写下来说现在圣诞节我需要把我的首页变成以圣诞节为主的推荐搜索结果也往圣诞节去偏帮我去上线这三个产品以及这个 promotion code 到我的数据库里面

就完成了你就不再需要做任何别的操作所以这个需求现在就像你讲的它现在就是很多工程师它的产品什么的在完成对比如说我们认识的一些电商他们每个季度要花上百万美金就为了干这件事情因为你原来你还需要打个电话发个邮件然后那边人还可能放假了不一定迷你你现在跟他聊两句五分钟之内就搞定了可能最后结果还更好我觉得这个当中的差异化还是很大的

然后我在想他也可以说比如我要给所有老客户发一封邮件发个促销对这个也可以做到你对于未来的 Vision 来讲你是相信说未来会有很多很多的 agent 然后在各个领域各个企业里面都会有我觉得会是的我现在能看到的点是首先在比如说写代码的这种 IT 类公司里面代码生成已经成为了一个非常简单的事情了

如果非工程类公司他们更大的头疼的点就是在于他们需要跟外界的 API 做接触他怎么去整合他那么多个服务商去完成一整套系列就跟我们电商这个场景一样 Agent 也是一个必不可少的东西除此以外我认为比如说在

供应链制造业这方面 agent 也会变得非常有用因为很多现在的这种重复性的工作比如看订单派发这一系列的东西都是重复性 agent 可以完成的事情而不需要人坐在那看反而是我认为人可以去做那种 agent

LM 生成不了的视频生成不了的那种更有创造力的工作可能会有更多的公司把人才往那个方向去引对所以未来可能那就是每个公司都有自己的 agent 那就是真的是 agent 和 agent 交流接触完全不需要人去接触很可能就在后台了

对就在后台对比如说你刚才说的那个库存你们不管但有可能在库存那边他上后也是一个 agent 对然后这边你只要没有库存然后自动就靠一个下单对靠你们的 API 然后那就下单然后那边库存就直接运过来是对我们为什么不管库存就是这个原因因为我们不知道对面有没有一个可以自动化的一个流程很多都是靠打电话

你可以调用 API 就是客服机器人什么的要自动打个电话过去如果有这样的服务我们也会通过我们的 agent 去调用这种 API 的方式去完成但是这个效率相对比较低因为没有通用化的情况下你可能打个电话过去人家完全不理你这怎么办你就没有办法完成闭环了我们希望能够至少在我们亲自下场做的这些场景里面完成闭环

然后我们这个通用模型还是会在那里就是任何人可以拿这个模型放到他们的场景里面如果他们需要 Funtune 我们也会发出 Funtune 的这种 API 明白你走 IoT 技术路线的话你的训练成本会低很多吗非常低我们到现在一个月训练下来不到

一万美金然后你在去帮客户做实施的时候的算力成本什么的 token 成本也很低对非常低我们的二维码模型可以在 CPU 上跑但你现在也聊了蛮多投资人是吧对有没有人差点就你们说你这个是不是一个伟大模型的概念

讲的是一个大模型但其实你训练和实施用的都不是大模型对吧大模型用来做一个意图的识别翻译而已对但是问题就在于为什么大家都要追捧很大很大的大模型呢

它能解决问题就好不一定说我非要把一个榔头造的超大变成一个核武器但是这个问题明明可以拿机枪就可以完成的问题这我觉得没有什么太大的意义所以我们从来不说我们是大模型公司我们说的我们是 agent 公司而且是强推理和规划型的工具使用 agent 的公司所以最后机构的反馈他们是认这件事情的大多数公司都认因为我们当时做了一个 demo 还是比较

出乎意料的一个小 demo 吧对你说规划形成的那个对对对当时这个模型大小是 1000 万个参数的一个二辆模型加上 Lama 8B 能够比当时的 GPT-4 要好在单一程式规划上面已经可以超过他们了明白

所以未来一年你们大概的规划打算是怎么样电商方向肯定会要推下去然后我们会把里面的很多 API 开放到非 Shopify 的用户然后如果他们需要我们帮他们去管理他们的各种的产品或者折扣各方面他们可以把 API 开放给我们我们可以靠 Agen 去完成这些操作我突然想到一个问题如果你真的做成了是不是刚才说的 Shopify 上几千个 API 就都没有用了

可能有百分之四五十五六十都没有用了对为什么就应该是全都没有用了就都调用你然后你就是纯工程类的东西基本上都可以被替代掉但是有一些非工程类的我们就不去管它了明白

然后后面的话我们会明年争取发布一个规划类的 AI agent 可以横跨几千上万个 API 然后在不需要特殊 prompting 的情况下就可以知道你的需求是什么精准完成 API 你的客户面向仍然是 2B 的一些商家对 2B 的一些商家还是电商领域为主

不一定我们现在有电商广告和刚刚说的视频那些然后后面的话我们会行跨比如说旅行教育健身再往后我们会推向法律金融这一系列的 API 特别金融类的 API 特别多所以也是一个比较好的落地场景我觉得你 Stoken 就类似于什么 API 杀手我觉得这种感觉

你可以把所有领域排序哪个领域 API 越开放我就先进去让 Agent 学会怎么用然后就让任何人就可以直接靠 API 完成很多任务比如说我举个例子我自己在管我们自己的财务的时候我需要建一个 Google Sheet 建完了以后每一个东西要去靠不一样的 Yahoo 或者 Google 的 API 再能组合出一个东西来

如果有一个 Agent 问两句话他自己帮我把这些 API 全 call 了然后把它塞进去这事就完了根本就不用花几十个小时了它在后台也有点像一个自动的 AI coding 的那么一个感觉对但是它不是真的去 code 因为你 code 的一个核心点在于你需要 compile 它而且你要保证这个代码运作这个的成本就会高很多因为你的决策点不再是单一 API 了你是每个 token 都需要保证精确那你需要决策数量就高很多嗯

你就只需要调用通过一个 action 然后得到一个结果就 OK 了对对对有点像那个什么蚂蚁搬家什么那种感觉对对对 OK 最后几个问题一个是你怎么看整体明年 AI 的市场就你跟国内的等级不同可能就你还是带了更多

美国那边科技公司的一些视角对美国市场我认为大多数的投资人还是对 agent 很有兴趣的所以你如果能够做锤类的 agent 的话他们投资的概率是很高的当他们在讲这种锤类 agent 他们的定义和想象中的是什么东西

跟我说的这个比较类似的这种就是你可以取代大多数内部工程解决的问题那这个现在大家遇到的最大问题就是准确性可依赖性而且你怎么盈利我们模型小有特殊的训练算法可以使得它非常的可靠而不成贵但是你完成我们这个能力你需要真的去靠 GPT-4O

那它就是我们 1000 倍的价格你不可能按照我们这个价格收费的所以明年可能会有一堆走你们技术路径的 agent 出来吗你觉得我不知道就是信我这个技术路径而且要懂二辽背景需要比较深的人也不是很多可能会有一些做 planning 方向 chain of thought 的那种方式想办法通过工程师的方式把

LM 的四维路径或者是模型大小压缩然后放到一个单一的垂类上面但我们的护城河在于即便你压缩的再多我比你不需要一个基础 LM 的价格还要低那你怎么能够跟我竞争呢明白然后除此以外我觉得在相对比较小型的那种市场

投资人会关注更多而且会投那种比较小额的因为人比较多的那种市场实在公司太多了他们可能会希望去找得到一些比如说偏 science 类的偏那种 supply chain 之类的做的比较少的这种场景看看有没有突破性的公司出来钱是不缺的这个我非常确定就是

最近我看到 AI 投资的那种 Found 雨过春笋般的在往外冒虽然大小都不是很大都是千万上亿美金的盘子但是感觉就是冒得很快而且很多而且非常的活跃所以我觉得可能钱是不缺的只是

标的比较难找因为非常混乱而且大个子太多导致底下那些小个子不知道怎么生存你自己也算小个子吗是吧我现在算小个子只容了几百万所以不可能跟他们容了几千万的比明白

所以明年你觉得是 agent 的元年吗我从来不觉得有个元年的说法因为很多年前就有 agent 这个概念了我觉得明年可能会是有很多公司真的能把 agent 落地的一年就是真正由 agent 来帮你采取措施并产生结果的一年

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill 45:57 Share

42章经

Deep Dive

Shownotes Transcript

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill