We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 111: Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端

111: Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端

2025/4/22
logo of podcast 晚点聊 LateTalk

晚点聊 LateTalk

AI Deep Dive AI Chapters Transcript
People
朱哲清
Topics
我与团队成员认为,当下主流的AI Agent产品都将大语言模型(LLM)或其多模态版本作为决策中枢,这种方式在工具调用方面存在局限性。LLM使用工具需要将工具描述、输入、输出等信息添加到上下文,而LLM的上下文长度有限,限制了其调用工具的能力。 我们提出的方案是:将LLM作为Agent理解人类需求和呈现结果的“前端”,而将强化学习训练的模型作为后端的决策和任务执行中枢。这种方式能够克服LLM上下文长度的限制,实现更强大的工具调用能力。 此外,我们认为优秀的通用Agent应该具备四个要素:速度快、无需人工干预、能够读写信息、成本低廉。Agent产品的壁垒不在技术,而在于与用户工作流程的深度绑定。 我们的Pokee.ai产品正是基于这一理念开发的。我们已经与许多互联网大公司和大平台的API接口打通,并尽可能避免对网页端的依赖。这使得我们的Agent能够快速、高效地完成任务,并能与用户的工作流程深度绑定。 我们相信,长期来看,LLM可能只是Agent与用户交互的界面,而Agent之间的沟通并不一定需要依赖自然语言。后端的决策和任务执行将由强化学习模型完成,这将是未来Agent发展的一个重要方向。

Deep Dive

Chapters
本节回顾了朱哲清在强化学习领域的十年研究历程,包括他在杜克大学攻读本科和斯坦福大学攻读博士学位期间,以及在Meta工作期间的经历。他分享了在强化学习并非显学时坚持研究的经历,以及从早期大模型等其他方向的诱惑中坚持下来的原因。
  • 在杜克大学完成CS本科,后加入Meta,前三年从事B2B推荐系统工作,后三年从事应用强化学习工作,并开源了Meta的核心强化学习框架PoRL。
  • 在读博期间,每周工作110小时,并行完成学业和工作。
  • 坚持强化学习研究方向,未被早期大模型等其他方向的诱惑所动摇。
  • 在强化学习并非热门领域时就已坚持研究,并取得了显著成果。
  • 从图灵奖得主Rich Sutton的经历中获得启发,强调坚持方向和专注的重要性。

Shownotes Transcript

「长期看,LLM 是 Agent 和人类之间交互的前端,后端则靠 RL 模型完成工作。」

几乎所有主流 AI Agent 产品,都把大语言模型(LLM),或者它的多模态升级版当作“大脑”,靠一个或几个 LLM 编排工作、调用工具。

但也有不同的路。这期节目的嘉宾,Pokee.ai 的创始人朱哲清(Bill),认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”,后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。

Bill 提到,把 LLM 当作大脑时,Agent 调用工具的能力有限。这是因为 LLM 使用工具时,需要先把工具描述、输入、输出等相关信息传入上下文,而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。

本期节目中,Bill 还聊到优秀的通用 Agent 需要具备四个要素:实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术,而在于和用户的工作流深度绑定。

此外,我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断,以及他在强化学习还并没有成为显学时,便相信强化学习潜力的原因。

Bill 本科开始便在海外留学,不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语,可参考 Shownotes 文末附录。

本期嘉宾: Pokee.ai 创始人,前 Meta 应用强化学习负责人、工程经理朱哲清

时间线: -创业前,花近十年研究、落地强化学习算法 04:02 一边在杜克读博士,一边在 Meta 上班,每周工作 110 个小时 07:20 拒绝 LLM 创业机会,留在强化学习主航道上 10:17 刚开始研究强化学习的时候,强化学习还并不是显学 16:52 DeepSeek R1 带火了强化学习,让投资人意识到强化学习重要性

-强化学习做 Agent 的优势 19:26 现有 LLM 写入能力较弱,调用工具数量有限 23:51 长期看,LLM 可能只是模型和用户的交互层,Agent 之间沟通不一定用语言

-如何设计一款 Agent 产品,服务专业用户 31:02 保留用户控制节点,避免“自由落体”的失控感 36:36 Pokee.ai 想服务专业用户,未来还要进入企业工作流 43:46 一项子任务失败,不一定挡住 Pokee.ai 完成其他子任务 45:33 抛开 browser-use,强化学习 Agent 完成一项任务只需要数十秒 46:53 Pokee.ai 最初没用 MCP,团队自己设计更简单的协议 48:47 目前主流做 Agent 的方法还是以 LLM 为核心 50:00 优秀 Agent 的四要素:速度快、无需干预、能读能写、成本低

-创业故事:从垂直 Agent 回归通用 Agent 58:20 Pokee.ai 团队全职员工只有四人,成员主要来自 Meta 59:30 早期产品:旅行规划助手 / Shopify 助手 01:02:07 强化学习爆火后,回归创业初衷做通用 Agent 01:07:33 Manus 出圈是意料之内 01:09:54 Pokee.ai 发布产品不会用邀请码,单次任务成本是同类产品的 1/10 01:10:59 技术不是 Agent 的护城河,重要的是和用户工作流绑定 01:20:24 Pokee.ai 在做通用 Agent,但也能帮垂直 Agent 落地 01:22:15 Agent 行业最后会存留三到五家公司,接下来是各个通用 Agent 差异化的时候 01:26:03 判断技术潜力的好方法:Toy Example(玩具案例)

附录: RL(Reinforcement Learning):强化学习; policy:策略,强化学习语境下指模型完成任务的方式; exploration:探索,强化学习语境下指探索可能完成任务的新路径; exploitation:利用,强化学习语境下指利用已知信息,选择最优的动作,和 exploration 相对; reward model:奖励模型,是强化学习算法的一部分,用于评价某个动作的好坏; ground truth:真值,指训练强化学习模型时使用的标准答案; prosumer(professional consumer):专业用户,本期节目语境下指用 Agent 产品完成工作需求的用户; context length:大模型的上下文长度; browser-use:使 AI 能够像人类一样浏览、操作网页的开源工具; Monte-Carlo Tree Search:一种基于随机模拟的搜索算法,用于在决策过程中评估不同选择的潜在结果,常用于需要策略规划的情境中; API:应用程序编程接口,是一组允许不同软件系统之间通信、交换数据的规则; SDK:软件开发工具包,旨在帮助开发者为特定平台或系统构建应用程序。

剪辑制作:甜食

本期主播: 孙海宁(微信 @_HaydenSun) 程曼祺 小红书 @曼祺_火柴Q),即刻 @曼祺_火柴Q)

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: