We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

88. 和吴翼技术解读OpenAI Operator：推理从抽象世界走向物理世界的开端

2025/1/24

张小珺Jùn｜商业访谈录

AI Deep Dive AI Chapters Transcript

People

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

吴

吴翼

前OpenAI研究员，清华大学交叉信息研究院助理教授，边塞科技创始人，专注于强化学习和人机协同。

Topics

吴翼: 我长期研究强化学习,曾在OpenAI工作。Operator的发布在意料之中,但其细节依然令人震撼。它具备多模态、连续交互和闭环控制系统等特性,在AGI路线图上是一个里程碑。Operator成功解决了泛化性问题,这主要得益于多模态输入、更广泛的任务类型和更复杂的奖励模型。Operator的底层使用了新的Computer-Using-Agent (CUA)模型,其核心在于闭环控制系统和动态上下文。OpenAI早期尝试的Web Agent项目失败,主要是因为缺乏强大的基座模型。Operator并非O3的极端版本,而是更像一个多模态闭环的O1版本。Operator作为单独入口发布,是因为其底层模型与O1、O3不同,并且从产品角度考虑,更适合作为单独产品发布。复刻Operator并非难事,关键在于拥有高质量的基座模型、数据集和高效的强化学习训练系统。2025年被定义为“Agent之年”,是因为多模态模型和强化学习技术的成熟。OpenAI的五级分类(聊天机器人、推理者、智能主体、创新者、组织)反映了AI技术演进的路径,以及人类参与度的降低。Agent这个词最早起源于博弈论,在大模型时代,它通常指大语言模型可以调用外部世界。Operator是AI从抽象推理到物理世界交互的开端,但它目前还局限于软件和网页层面。未来,OpenAI可能会推出更多形态的Agent,并形成一个生态系统。Agent领域存在创业机会,尤其是在特定垂直领域。主持人: OpenAI发布Operator,标志着“智能体元年”的开始。Operator在与人类协作时,如何平衡自主决策和人类指令的优先级?Operator如何整合语言、视觉和动作等不同模态的信息?Operator能否支持与其他Agent的协作?这种协作的机制是什么?广密认为Chatbot不是提取智能最有效的交互方式,Operator能有效提取智能吗?OpenAI智能提升与更多产品的关系是什么?Agent这个词从博弈论进入人工智能,现在指大语言模型调用外部世界。Agent中有创业公司的机会吗?Operator释放了信号:逻辑推理从抽象世界走向视觉物理世界的开端。如果Agent在未来成为主流,人类与AI的协作方式会发生哪些变化?大公司全部开着重装坦克往前走,其他人怎么办?

Deep Dive

Shownotes Transcript

2025刚开年，全球AI届就已高度共识，将2025年定义为“智能体元年”。

北京时间1月24日凌晨，OpenAI率先抢跑，发布智能体产品Operator（操作员），打响了全球智能体竞赛的第一枪。

在Operator发布前，广密在我们的节目中预言，25年核心关键词是Agent、Agent、Agent，这些AI产品最终会演变成一个任务容器，朝着“下一个Google”方向进发。

本集节目，在Operator发布后，我邀请前OpenAI研究员、清华叉院信息研究院助理教授吴翼，从技术视角解读Operator和Agent之年。我们的播客节目在腾讯新闻首发)，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

02:55 对Operator的感官感受

- 04:19 Operator在AGI路线图上的地标：多模态、连续交互、闭环控制系统

- 06:34 OpenAI内部还有更好的模型，智力会刷得很高，Operator带有泛化性

- 08:17 Operator是多模态、闭环的o1，一个Agent o1的版本

- 08:57 为什么Operator是单独入口？

- 11:13 Operator包含的技术要点：基座模型、高质量数据集、高效大规模支持Agent的强化学习系统

- 14:10 有关Operator底层用的新模型：Computer-Using-Agent（CUA）

- 19:02 2025是Agent之年：多模态模型+强化学习

- 20:49 回溯到2016年，OpenAI成立后第一个大项目就是Web Agent，但失败了

- 22:40 OpenAI的5级分类：聊天机器人Chatbots〉推理者Reasoners〉智能主体Agents〉创新者Innovators〉组织Organizations，技术演进轨迹，人类参与越来越少

- 31:26 Operator在与人类协作时，如何平衡自主决策和人类指令的优先级？

- 32:30 Operator怎么整合语言、视觉和动作等不同模态的信息？

- 34:11 Operator能否支持与其他Agent的协作？这种协作的机制是什么？

- 38:45 广密说Chatbot不是提取智能最有效的交互方式，Operator能有效提取智能吗？

- 42:14 OpenAI智能提升与更多产品的关系

- 49:48 Agent这个词从博弈论进入人工智能，现在指大语言模型调用外部世界

- 54:29 Agent中有创业公司的机会吗？

- 58:57 Operator释放了信号：逻辑推理从抽象世界走向视觉物理世界的开端

- 01:02:27 如果Agent在未来成为主流，人类与AI的协作方式会发生哪些变化？

- 01:06:46 大公司全部开着重装坦克往前走，其他人怎么办？

预言单集：大模型季报年终特辑：和广密预言LLM产品超越Google之路)

吴翼往期：和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角)

【更多信息】

联络我们：微博@张小珺-Benita)，小红书@张小珺)

更多信息欢迎关注公众号：张小珺

88. 和吴翼技术解读OpenAI Operator：推理从抽象世界走向物理世界的开端 01:12:02 Share

张小珺Jùn｜商业访谈录

Deep Dive

Shownotes Transcript

88. 和吴翼技术解读OpenAI Operator：推理从抽象世界走向物理世界的开端