We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 对话吴翼:用打游戏的方式做AI Agent

对话吴翼:用打游戏的方式做AI Agent

2025/6/26
logo of podcast ReSpark

ReSpark

AI Deep Dive AI Chapters Transcript
People
T
Tim Peng
吴翼
前OpenAI研究员,清华大学交叉信息研究院助理教授,边塞科技创始人,专注于强化学习和人机协同。
Topics
吴翼:我认为大公司在移动互联网时代的反应较慢,这同样适用于AI Agent领域。Agent提供的服务非常通用,因此会出现许多利基市场,这些市场大公司在短时间内难以覆盖。创业公司若能抓住这些利基市场,并以更快的速度推出产品,就能获得巨大的领先优势。品牌优势在AI领域至关重要,即使产品存在不足,强大的品牌也能为创业公司赢得发展时间。 吴翼:在AI Agent领域,早一个月发布产品能带来巨大的领先优势,品牌优势至关重要。即使产品存在不足,强大的品牌也能为创业公司赢得发展时间。

Deep Dive

Chapters
本节探讨了AI智能体的定义,以及它如何通过与环境交互来扩展大模型的能力,从而解决以往大模型仅能聊天的局限性。智能体可以操作各种软件和工具,甚至扩展到物理世界,实现更广泛的应用。
  • AI智能体定义:所有基于大模型、能够与世界交互的软件。
  • 核心是交互的概念:环境、世界、AI之间的交互。
  • 解决了大模型只能聊天的局限性,扩展了其应用范围。

Shownotes Transcript

强化学习早期的出圈是在星际争霸2击败职业玩家的AlphaStar,是Open AI击败Dota 2世界冠军战队OG的OpenAI Five,更是DeepMind击败李世石的AlphaGo,但由于在泛化性上的不足,学术与资本的关注度逐渐转冷,直到ChatGPT的出现,让人们发现强化学习与大模型结合所迸发出的泛化能力,强化学习一夜之间重新回到大众视野。在当前的Agent时代,Agent在替人们计划跨国旅行的行程、自动生成制作精良的网页的时候,不可避免的与形同黑箱的环境进行长时间且大量的交互,这种对数据的异步处理方式,越来越接近当年用AI打游戏的范式。今天有幸邀请到清华大学交叉信息学院的助理教授吴翼老师,跟我们分享他在用强化学习探索Agent道路上的心得体会。

出生于1992年的吴翼,在高三暑假代表中国参加国际信息奥林匹克竞赛,随后被清华姚班录取。2014年本科毕业后,他前往加州大学伯克利分校攻读人工智能方向,博士第一篇深度学习论文就获得了NIPS当年的最佳论文奖。博土毕业在回国任清华交叉信息学院的助理教授前,他加入了OpenAI工作了一年半,参与的游戏项目捉迷藏,是OpenAI 历史上视频点击率最高的视频。2023年,他创立边塞科技,用强化学习为更多人创造更好的智能体验。 2024年底,他受邀帮助蚂蚁集团成立了强化学习实验室。

关于吴翼老师参与的Open AI捉迷藏项目:Emergent Tool Use from Multi-Agent Autocurricula (ICLR 2020, Spotlight)(openai.com))

本期节目就来听一听吴老师对于当下AI agent智能体发展的看法,吴老师也会提到他们正在构建的开源强化学习(决策模型与服务)平台Areal,这个平台可以支持各种类型的agent的学习和开发,他们团队也已经完成部分agent应用开发,甚至也有应用到具身智能领域的一些有趣的agent。希望今天的内容对于我们各行各业的普通从业者也能带来不同的启发。

本期节目由嘉宾主持Tim来Host,节目制作由晨歌完成。

播客文字整理可以在ReSpark同名公众号《ReSpark》上查看(文字版可能发布时间滞后)

时间轴:

Part 1:关于智能体与AI Agent

05:34 当我们谈论Agent,我们究竟在谈论什么?

15:55 竞争会驱使Agent向哪里发展?

24:44 创业公司的壁垒在于niche market与唯快不破

35:59 从AlphaGo到GPT o1,强化学习已经走过完整的技术周期

41:32 用打游戏的方式做AI Agent

54:29 用数据和工程迭代解决大模型和Agent的记忆问题

Part 2:AI的热点话题探讨

1:06:56 AGI到底离我们还有多远

1:15:33 AI self-evolution是不是炒作?

1:24:57 Diffusion vs. Autoregression,谁是下一代的版本答案?

1:31:03 世界模型与空间智能的发展

1:45:34 今天的具身智能到了什么阶段?与Agent怎么结合?

Part 3:伯克利求学经历与吴翼眼中的Pieter Abbeel

1:51:32 与Stuart Russell和Pieter Abbeel两位大牛合作,从他们身上看到了什么?

1:57:49 普通人如何抓住Agent浪潮的机会