强化学习早期的出圈是在星际争霸2击败职业玩家的AlphaStar,是Open AI击败Dota 2世界冠军战队OG的OpenAI Five,更是DeepMind击败李世石的AlphaGo,但由于在泛化性上的不足,学术与资本的关注度逐渐转冷,直到ChatGPT的出现,让人们发现强化学习与大模型结合所迸发出的泛化能力,强化学习一夜之间重新回到大众视野。在当前的Agent时代,Agent在替人们计划跨国旅行的行程、自动生成制作精良的网页的时候,不可避免的与形同黑箱的环境进行长时间且大量的交互,这种对数据的异步处理方式,越来越接近当年用AI打游戏的范式。今天有幸邀请到清华大学交叉信息学院的助理教授吴翼老师,跟我们分享他在用强化学习探索Agent道路上的心得体会。
出生于1992年的吴翼,在高三暑假代表中国参加国际信息奥林匹克竞赛,随后被清华姚班录取。2014年本科毕业后,他前往加州大学伯克利分校攻读人工智能方向,博士第一篇深度学习论文就获得了NIPS当年的最佳论文奖。博土毕业在回国任清华交叉信息学院的助理教授前,他加入了OpenAI工作了一年半,参与的游戏项目捉迷藏,是OpenAI 历史上视频点击率最高的视频。2023年,他创立边塞科技,用强化学习为更多人创造更好的智能体验。 2024年底,他受邀帮助蚂蚁集团成立了强化学习实验室。
关于吴翼老师参与的Open AI捉迷藏项目:Emergent Tool Use from Multi-Agent Autocurricula (ICLR 2020, Spotlight)(openai.com))
本期节目就来听一听吴老师对于当下AI agent智能体发展的看法,吴老师也会提到他们正在构建的开源强化学习(决策模型与服务)平台Areal,这个平台可以支持各种类型的agent的学习和开发,他们团队也已经完成部分agent应用开发,甚至也有应用到具身智能领域的一些有趣的agent。希望今天的内容对于我们各行各业的普通从业者也能带来不同的启发。
本期节目由嘉宾主持Tim来Host,节目制作由晨歌完成。
播客文字整理可以在ReSpark同名公众号《ReSpark》上查看(文字版可能发布时间滞后)
时间轴:
Part 1:关于智能体与AI Agent
05:34 当我们谈论Agent,我们究竟在谈论什么?
15:55 竞争会驱使Agent向哪里发展?
24:44 创业公司的壁垒在于niche market与唯快不破
35:59 从AlphaGo到GPT o1,强化学习已经走过完整的技术周期
41:32 用打游戏的方式做AI Agent
54:29 用数据和工程迭代解决大模型和Agent的记忆问题
Part 2:AI的热点话题探讨
1:06:56 AGI到底离我们还有多远
1:15:33 AI self-evolution是不是炒作?
1:24:57 Diffusion vs. Autoregression,谁是下一代的版本答案?
1:31:03 世界模型与空间智能的发展
1:45:34 今天的具身智能到了什么阶段?与Agent怎么结合?
Part 3:伯克利求学经历与吴翼眼中的Pieter Abbeel
1:51:32 与Stuart Russell和Pieter Abbeel两位大牛合作,从他们身上看到了什么?
1:57:49 普通人如何抓住Agent浪潮的机会