We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill

我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill

2025/1/18
logo of podcast 42章经

42章经

AI Deep Dive AI Chapters Transcript
People
朱哲清 Bill
领导Pokee AI开发下一代AI代理,前Meta AI应用强化学习组负责人。
Topics
我曾在Meta带领应用强化学习团队,将强化学习应用于广告投放和基础设施建设。在真实环境中应用强化学习的挑战在于获取持续的交互和结果反馈。近年来,强化学习的再次兴起源于在复杂规划和推理问题上,单纯的经验学习和模仿学习已不足够。强化学习擅长探索未知路径,寻找现有数据或预训练模型未曾覆盖的能力。强化学习与大模型并非平行关系,而是垂直关系,强化学习作为一种学习方式,可以与Transformer框架结合,增强规划能力。大模型的出现为强化学习提供了更强大的世界理解能力,扩大了其发展空间。有效的Agent架构应以强化学习为核心,大模型负责翻译和解释。Agent选择行动步骤的方式取决于其所处环境和行动是否被完整定义。单纯使用大模型进行探索效率低下,因为它缺乏对世界不确定性的理解。人类探索基于对世界的不确定性,而大模型的探索方式是完全随机的。强化学习的优势在于能够识别并探索不确定性,从而更高效地找到最优路径。强化学习解决的是平行宇宙问题,它通过计算条件概率下的期望值来规划行动,而大模型缺乏这种推理能力。目前尚无统一结论,但将大模型与强化学习结合是主流方案之一。我们的Agent架构类似于人类大脑,不同区域采用不同的思维方式。在缺乏明确目标的场景中,强化学习通过优化整体结果来处理人类反馈。强化学习的探索能力在不确定性高的场景中尤为重要,例如推荐系统。多层规划问题需要搜索能力,而大模型缺乏这种能力。强化学习能够评估行动对未来结果的影响,从而做出更优决策。大模型可以帮助强化学习理解人类数据,并进行抽象和决策。我们最新的产品架构中,强化学习负责所有决策,大模型负责输入输出。我们的目标是创建一个能够自主调用大量API,并完成复杂规划和推理任务的Agent。我们已经开发了一个电商领域的通用型Agent,它可以在Shopify平台上运行,并能快速掌握多种API。我们的Agent可以替代多个插件,并提供统一的控制和交互。使用我们的Agent就像雇佣了一个资深的网站负责人。我们的Agent学习的是Shopify底层的API,而不是插件本身。通过self-play,Agent学习如何调用API以及选择合适的参数。大模型在Agent中扮演着理解结果好坏和生成需求的重要角色。当前Agent发展阶段面临的主要问题是编码能力和通用性。目前缺乏能够横跨多个领域的通用型Agent。未来的Agent将主要与各种API打交道,并进行整合和决策。在现实世界中,真正需要编写代码的情况越来越少。大多数场景不需要Agent从零开始编写代码,只需整合现有的API即可。我们的Agent与其他Agent的区别在于,我们专注于基于现有业务进行排列组合,解决问题。我们正在进行电商Agent的公测,并计划扩展其功能。未来的Agent可以帮助商家自动化完成各种营销活动。未来,各种领域的企业都将拥有自己的Agent。Agent将在供应链、制造业等领域发挥重要作用。我们的强化学习技术路线使得训练和推理成本非常低。我们专注于Agent,而非大模型本身。未来一年,我们将继续发展电商Agent,并扩展到其他领域。我们的Agent目标是成为各个领域的API杀手。美国投资人对Agent很感兴趣,但准确性和盈利模式是关键问题。AI投资市场活跃,但优质标的较难寻找。明年将是Agent真正落地的一年。

Deep Dive

Chapters
本节探讨了强化学习(RL)和大型语言模型(LLM)的结合,以及它们在解决复杂规划和推理问题中的优势。强化学习能够处理不确定性,探索多种可能性,而大型语言模型则提供了强大的世界理解能力,两者结合可以构建更强大的AI智能体。
  • 强化学习和大型语言模型的结合是构建更强大AI智能体的一种新技术路线。
  • 大型语言模型为强化学习提供了强大的世界理解能力。
  • 强化学习能够处理不确定性,探索多种可能性,找到最优路径。

Shownotes Transcript

新年正式第一期,来点新东西。

大家都说 Agent 热,那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样?

大家都说 RL 是新方向,那 RL 到底是啥,和 LLM 的关系是什么,又能怎么和 Agent 结合?

这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill,讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent,并且在电商等领域是如何落地的。

最后,我们的 AI 私董会也在持续报名中,目前已经聚集了一批市场上最好的 AI 创始人,欢迎点击链接报名(里面也有目前已加入的成员名单,可点击查看)

人类博物馆】

**导游:**曲凯,42章经创始人

**30 号珍藏:**朱哲清 Bill,Pokee AI 创始人兼 CEO,此前 7 年在 Meta AI 做应用强化学习组负责人,并攻读了斯坦福大学强化学习专业博士学位

【时光机】

Part1 强化学习

  • 3:06 我们思考方式已经全面 RL 化 —— from OpenAI 研究员
  • 4:36 Transformer 和 RL 到底是什么关系?又要如何结合?
  • 10:15 RL 解答的是平行宇宙问题
  • 12:35 RL+LLM,就是公认最好的技术路线吗?
  • 14:02 RL 的算法原理类似于「多巴胺刺激」
  • 14:42 在无法清晰定义 Reward 的场景下,RL 还好用吗?
  • 15:12 RL 最强的三个能力

Part2 给 Agent 用上强化学习

  • 18:42 为什么直接用 LLM 做不出规划型 Agent?
  • 20:17 一个有效的 Agent 架构:RL 做核心,LLM 做翻译
  • 23:35 我们做出了一个电商领域的通用型 Agent
    24:39 体验相当于一个资深的网站负责人
    26:05 原理是让 Agent 通过 self-play 学会使用上千个底层 API
  • 29:43 Agent 当前市场格局:
    29:52 Coding Agent 是皇冠上的明珠
    30:26 Vertical Agent 遍地开花,但准确性仍是大难题
    30:46 通用型 Agent 尚不存在,但 RL 或可迎战
  • 31:17 万物皆可 call API
  • 34:07 一个具体的应用示例:Agent 是怎么帮商家省钱提效的?
  • 39:08 训练成本和推理成本都低得令人发指...
  • 40:33 先定一个小目标:做各行各业的 API 杀手
  • 42:57 对 25 年硅谷 AI 市场的观察和预判
    43:11 垂类 Agent 是绝对的热点赛道,融资并不困难
    45:29 25 年是 Agent 真正落地的一年

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescalero

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Export Podcast Subscriptions