如果你很有意思的去看 OpenAI 的歷史你會發現 OpenAI 成立之後幹的第一個項目就是這件事情就是 Web Agent 就是有一個通用的視覺智能體在網頁上點的如果你 trace back 回溯到 2016 年的時候當時 OpenAI 開的第一個大的項目就是這玩意
但是他们的做法失败了就我很多时候会在我的深度学习课程会跟同学讲这个故事就是为什么失败呢当然他们只有强化学习他们没有极作模型他们甚至没有人找到计标数据甚至当时连传送我都没有他们用一个大的 LSTM 叫 comnet 然后去点网页用强化学习点然后失败还把好多人给裁了 Hello 大家好欢迎收听张小俊商业访谈录我是小俊这是一档提供一手高密度信息的商业访谈节目
2025 刚开年,全球 AI 界就已经高度的共识将 25 年定义为智能体元年。北京时间 1 月 24 日凌晨,OpenAI 率先强讨,发布了首个智能体产品 Operator,打响了全球智能体竞赛的第一枪。在 Operator 发布前,广密在我们的节目中预言,25 年的核心关键词就是 Agent,Agent,Agent。
而这些 AI 产品最终会演变成为一个任务容器朝着下一个 Google 的方向进发那在本期节目呢在 Operator 发布之后我邀请了前 OpenAI 研究员清华插院信息研究院助理教授吴易从技术视角来给我们解读一下 Operator 和智能体产品
Hello Will,还是先给听众朋友们打个招呼大家好,我叫吴易,我是清华大学交叉信息研究院的助理教授我一直的研究方向都是强化学习我在 20 年回到清华任教在这之前我从加州大学伯克利分校获得了博士学位然后在 2019 年到 2020 年之间在 OpenAI 工作
如果大家还记得吴易在商业访谈录的第 75 集曾经为大家从技术的视角解读过 O1 如果大家对他在 OpenAI 的亲身经历感兴趣或者是对于他关于 O1 的看法感兴趣都欢迎前往我们的 75 集收听那今天时间距离上一集节目过去了 4 个月在 2025 年的 1 月 24 日的凌晨 OpenAI 突然发布了另一个中邦项目一个叫 Operated Agent 项目那我们再一次邀请吴易来给我们做一个技术上的解读
Will 对于 Operator 你的整体感受怎么样首先是意料之中第二件事情也是确实挺真正看到的时候还是挺震撼的
有哪些是預期之內哪些是預料之外啊就是你知道歐巴尼亞今年一定會去做多摩泰的智能體一定會去做這種我們叫 GUI 或者圖形界面的智能體然後你知道他今年一定會放出來他今年一定會把這個事情捲到天上但他真的放出來的時候你去仔細看他的這些行為其實還是覺得真的很厲害
震撼你的點是什麼?它有意思有意思就是你去看它放出來一些 demo 有一些特別細節的點比如說它自己放出來的一些 demo 有一些有一個 demo 是說那個 AI 會去把盤出的廣告給關掉
然后还有一个例子是这个有个 AI 他要去算一下退钱嘛然后他会去给你想算一下多少钱多少钱最后我应该退多少钱他会在浏览器上尝试去尝试然后尝试几次失败了之后他再去计算器里摁一下就很有意思就是发现他真的会用一种
好像人也会这么去做的一种方式然后真的可以把这种方式把它通过强化学习把它规模化变成通融化然后这个 AI 看起来很多新闻真的很像人 Operate 的发布在通往 Azure 路线图上标志着什么
我覺得它是一種像通用型的變化就是我覺得像 O1,O3 它像是一種就是在聚焦的問題上可以思考的更深但是它其實中間是沒有環境交互的這是第一條它沒有環境交互第二點是它沒有鍍膜態
而你知道如果需要一个通用的大脑的话它除了要想得很深它还需要多么态还需要那个环境交互之后形成一个闭环的控制系统什么叫闭环呢比如像 O1 你给他了一个指令之后他中间是没有任何外界的交互的他最后想了 20 秒钟给你一个指令到答案中间是没有任何的反馈控制的
但是,传统世界是不一样的,比如说我要去做一个软件的操作,或者像这种 agent operator 这样的操作,它是需要我想一会儿,然后我去点一下,看看外面的反馈。之前所有的,比如说 SO 也好,它的所有图片的理解也好,语言的指令理解,都是单步的。
或者说它的动作都是一步的很少出现这种我有一个模型真的可以我看到一个观测我去做一步动作然后我看到新的观测再做下一步动作它是连续做很多轮交互这样的能力之前是没有的当然你知道这件事情一定会发生因为这个是你到一个通用的智能体一定会要有的这种横轴的能力纵轴是思考深度横轴是你的广度你的通用能力一定要有这样的能力然后欧巴人家终于把这个东西拿出来了
我們上次聊 O1 你當時說 O1 標誌著 PRE-TRAINING 預訓練能化的情況越來越少以強化學習為基礎的 POST TRAINING 後訓練是一大驚況 使賣相 HIT 多了幾截那現在過去四個月 我們先倒回去說說 O1 它的後訓練進展符合你的預期嗎比如說它驗證了 SKILLING LAW 嗎以及它的放話性如何首先 SKILLING LAW 這件事情我覺得它是符合我的預期的
甚至我会觉得因为各种原因欧盟还没有把它最好的东西拿出来所以我也不知道他们内部现在做到怎么样了其实跟一些朋友聊应该比较肯定的是欧盟内部还有更好的模型所以在智力水平上看就是 O1,O3 然后可能后面还有 O4 可能很快会把智力刷得很高所以智力上这个 scaling law 我倒是还是挺有信心的它能变得更聪明
泛化呢,其实我觉得这个 operator 是一个比较明显的例子它是带有泛化性的比如说我能做各种各样的网页我能做图形的这种泛化然后 O1 其实 openend 的泛化没有做的特别好但其实我会觉得这应该是他们水下的东西
我還是知道有些團隊其實在內部的時候他們已經把飯花放在日程上並且其實看到一些效果了所以我對這個事情我倒不擔心我覺得可能我們可能今年拭目以待吧我覺得所以 Operator 其實是延續著 01,03 的一個產品
其實不完全是我覺得更像是說它是符合 Post-training 強化學習這個路徑但是它沒有像 O1,O3 走的這麼極致它其實是在廣度上往寬離走了因為特別簡單如果你去觀察 Operator 它的思維鏈它的思維鏈相對來說是短的
如果 O1,O3 你去看它的这个它放出来的思维链的思维链是很长很长很长它会有很多的回速但是你去看 operator 的话它的思维链相对来说是短的它的回速主要出现在动作上比如说你会看到一个智能点了一个网页之后发现点了半天没点开对吧它会减后退它的回速发生在动作上但不是它的思维链
所以我傾向於認為它應該不是 O3 那麼極致的一個模型但是它可能是類似於 O1 但是是一個多模態閉環的 O1 一個 agent O1 這樣的版本這是我的理解所以我會覺得它其實還有空間就這個模型肯定比如說它如果有更好的思維鏈會怎麼樣如果它有更好的多模態的
理解的模型如果它有更好的泛化能力它会怎么样我觉得它是有空间它比较像是多模态世界里的 O1 或者可能 3O1 一点的这么一个位置为什么 Operator 这次是一个单独的入口呈现我理解这件事情应该是不同的机座模型所以我会觉得它把它做成单独我更觉得这件事情两方面吧一方面是它应该明显是一个和 O3 不一样的机座模型
这是第一件事情,它本身是一个多摩泰用不一样的数据去激发了 Agent 的潜力之后再去做强化学习的所以它的模型性质肯定是和 O3 不一样的或者 O1,O3 相对来说不太一样的然后从产品上,第一条就是模型是不太一样的所以它 host 了两个模型第二件事也是产品上,就是当你有两个很强的模型之后能不能把它融合起来
我其实觉得是可以的它肯定是可以的所以某种程度上也是欧关 AI 刻意从产品角度上它把这一个单独的更像是一个中间太过度的这么一个模型放在一个单独产品上我觉得也是 make sense 的比如说因为大家其实习惯了 Chad GPT 的使用方式然后给它一个这么完全不一样的用法可能确实更适合作为一个单独的产品放出来
你刚才提到 operator 它更好的解决了放缓性的问题这一点是怎么做到的我觉得几件事情就是首先 O1O3 它是做深度推理所以你看它解决的任务是比较相对来说就是科学计算科学理解的任务比较集中
至少那对于这个 operator 来说至少它是有多么太输入的这一点上就天然的会带来更好的发挥性比如它可以看网页对吧
就是它有了眼睛它自然會有更好的散化能力而且也看從任務上看你想 O1,O3 基本上還是做 coding 還是去做這種純文字的推理任務那麼這個 operator 因為它需要去點網應它自然需要去完成各種各樣的任務它確實需要一個更複雜的
reward model 所以这件事情会让他自然的会从第一天开始他就一定要有一些泛化能力不然你没法去点网页去点操作系统对吧 O1 和 O3 来说他可以一开始先做的窄一点然后慢慢去解决这个泛化的问题
對於 OpenAI Operator 你覺得我們應該有哪些核心的技術要點需要關注能不能幫聽眾朋友們畫一個重點還是三件事情我覺得跟偶爾是一樣的首先你要一個很好的機座模型
你需要个特别好的原生的多模态的机座模型这件事情也是很重要的其实在很多的我们自己的训练经历里面也好还是说 DeepSeek 之前放的 report 也好还是 OpenAI 自己放的很多模型也好它的机座模型是非常非常重要的所以你首先多模态的机座模型一定要好这是第一件事情第二件事情特别明显就是你需要一些高质量的数据和任务数据集
特别简单我们还是回到这个 operator 自己放出来的一些这样的例子对吧你看到有一些智能体它真的会去把广告关掉它真的会说我去输入一个网页之后我没点成功我还后退这是非常拟人的一些动作这些动作我相信 OpenAI 肯定是有相当一部分的这样的数据存在的因为你还是需要因为它的这种行为的模式和你的机座模型还是很不一样的
所以他一定是为了这件事情要准备一些数据但这个数据我的感觉是不会需要那么大的量比起预训练还是一样的后续年的数据是不需要那么多的量的但是他依然这件事情的数据本身以及任务本身是需要做好准备这是第二点这是数据的事情第三件事情就是强化学习强化学习除了需要一个很好很好的训练系统你需要把它 scale up
那么其实在 agent 这个环境里面其实还挺麻烦的地方是在于你后面还需要个交互的环境而这个环境比如说它是一个网页也好还是一个操作系统也好那你是需要对这个事情做很多的工程优化的所以这里面也是需要挺多的努力然后尤其在一个你可能需要几千卡或者一万卡的这样大规模训练的时候你怎么能高效率的去做这样的交互
所以这也是一个比较麻烦的事因为原来如果你是 O1 这个 O3 做数学体的话中间是没有交互的你自己只要让个模型往外吐 token 就可以了它是简单的但是你想现在的话它实际上吐了几百个 token 之后还要去屏幕上点一下那你就需要有一个电脑在那等着这个 AI 去点然后给它做模拟对不对做完了模拟仿真之后再让 AI 吐它的这个训练系统上就会更复杂
然后怎么让它做高效能支持高效的训练也是一个课题所以三件事情好的基模
高质量的人类的数据和一个高效率的大规模的支持 agent 的强化学习系统三件事情加起来会得到一个这样的 operator 的模型他也提到说他这次用了一个新模型叫做 computer using agent CUA 那么给大家解释一下这个概念这概念其实最早我觉得最早拿出来的其实是 cloud
就是 Anthropic,Anthropic 比较早的时候在它的新版模型里面其实就提出了这样的概念其实核心也是说它的差别其实是在于交互能力就是说传统的大模型就是输出 token 它不会真的去做交互之后拿到新的反馈再去输出对吧,然后那么有了在这个新的概念下你是希望这个模型它是一个有一个闭环控制系统
传统的大模型它其实是一个开环的系统你给它一个指令之后这个大模型直接就输出它从前不会有任何人的反馈但是现在这种智能体的模式它其实是一个闭环系统它是一个 close loop system 就是我有了一个指令之后我会输出一些 token 然后我再主动的去调用这时候我的模型会 expect
我会有下一个反馈然后它这个模型会给予这两个新的反馈再做下一步的思考所以这个模型的训练的模式或者它的 context 上它就不是一个固定的 context 这 context 就是会不断的发生变化的然后同时这里面有动漠态所以这两件事情加起来就是这么一个新的概念但其实这个事情的本质上这个概念并不新这概念其实很早的时候在 agent 的概念提出来的时候本质上就是这么一个框架
就是说在传统在这些像 Cloud 和 Open operator 提出来之前所有的 agent 是说我用一些 agent framework 或者是用一些 prompting 一些工程的实现去把一个原来开环的模型一个基座的模型不为这个任务专门训练的模型让它看起来可以做这样的任务但是像新一代的像 Cloud 之前的 Solnet 或者说是这个 Open operator 它是专门为这个任务去做训练
所以它就会比原来的这些传统的 workflow agent 就要效果好很多也会更智能这个 CUA 就是你说的那个好的机座模型吗它是经过一个好的机座模型和强化学习训练之后得到的一个专门为了交互和这种 agent usage 而定制化训练出来的一个模型
但如果国内的团队想要复刻 operator 的话这个难吗然后通过 operator 这次我们能返向复原哪些技术细节这件事情并没有什么 secret
并没有那个那么神秘因为其实很多人放出来之后都是啊就是一种我知道你一定会放的终于你放出来了哦对所以只是说他做的确实很极致就是他在这个模型上你知道他可能机座模型然后这个收集的这种演示数据或者人类数据加上强化学习训练三件事情都做的很好
因为其实国内之前也有大家很多时候用一个开源的多模态模型然后去做一些 SFT 或者做一些微调或者做一些 prompting 也能做出一些类似的效果但是这个质量和 OpenAI 或者像之前 Ethropic 发出来的模型是有比较大的差别的这就是说用一个之前我说的用一个
通用的不为这件事情定制的模型去做一些简单的 Prompt SFT 和你真的把一个模型通过完整的强化学习训练把它打磨出来这个差别会非常非常大
所以国内的同学要去做的话首先我会觉得他们需要一个好的机座模型然后需要一些这样的数据去一个好的小会计训练系统但我觉得如果只看 operator 这件事情其实我觉得国内的团队要去追赶没有那么远其实我理解出来很多团队应该就在路上它没有像到时要追 HHPT 或者 Sora 时候那么难
至少你路线是清楚的而且可能很多基建本身已经在了就是一个 half air 的状态但问题就是说你不知道本来水下有多少东西当他发一个东西的时候说明这个东西已经被打磨的不错了
我觉得这是 OpenAI 一向的习惯,它真的放出来大家用的一般是这个东西已经在他们公司,在那打磨的很好了打磨的大家觉得可以给人用的一个状态或者说可以出来收集一波用户反馈了你觉得为什么这个时候 OpenAI 选择发布 operator 我觉得就是开年了吧,发布完了再发表新东西
我覺得這個也是挺不好的 非要找中國春節之前發這個東西不讓我們過年 對吧 就不讓大家過年以後主要是歐洲人很多人都走了我說要是高層的中國人在 可能應該等春節之後再發現在很多人都說 2025 年是 Agent 之年 你對這個怎麼看我很同意這件事情 我覺得原因是因為我覺得各方面的技術
比如说你看我们 agent 我们还是在看我之前说的就是你想做一个 agent 如果你希望这种强化学习这种好的训练模式去做一个真的通融的 agent 那你需要什么样的东西你需要真的需要一个好的机座模型数据其实还 OK 很多人知道数据该怎么做所以抛开数据本身你需要一个好的机座模型你需要一个好的成熟的强化学习训练框架
那你即使看这件事情对吧到了 GBT4 欧开始到 GBT4V 然后基本上大家能看到这个机座模型越来越好到一个越来越能激发机座模型潜力的一个状态然后呢在 24 年的时候你看到了欧望看到了欧三大家看到国内的团队一开始强化学习赶上来那么其实很多人都开始有强化学习的这个技术在那了
或者他已經至少看到了 O1,O3,原來強化學習加上一個好的自動模型可以激發出這麼大的潛力那這個時候他自然會想那我把一個多模態的模型
加上強化學習它應該會有怎麼樣的潛力這是自然的對吧原來我們是純文本的模型純文本的模型加上強化學習我們看到了 O1 看到了 O3 那自然往後一步一步想的是那我多模態的模型呢多模態的模型自然它最直接的用戶的使用的方式就是這種 agent 或者這種通用的圖形界面的 agent 所以這件事情是一個技術也到了然後對吧單模態的有了我們往多模態走
一个很自然的眼睛然后其实我也多说两句这件 web agent 这个东西其实我其实在别的地方也说过如果你很有意思的你去看 OpenAI 的历史你会发现 OpenAI 成立之后干的第一个项目就是这件事情
就是 agent 就是 web agent 就是有一個通用的視覺智能體在網頁上點如果你 trace back 回溯到 2016 年的時候當時 OpenAI 開的第一個大的項目就是這玩意
当时他们的做法失败了我会在我的深度学习课程里讲这个故事当时他们失败了为什么失败了?因为他们只有强化学习他们没有极作模型他们甚至没有人找人去标数据甚至连传送我都没有他们用一个大的 LSTM 叫 comnet 然后去点网页用强化学习点然后失败了然后还把好多人给裁了那个团队给裁了
我还问过 Juan 这个问题,当时应该得裁了第二三十人因为当时你想要搭一个训练环境,强化学习真的能去点那你背后是互联网,你需要去做很多工程上的事情让 AI 能去点,你要把互联网接进来
然后还能去做这么复杂的训练所以最后有一堆很多工程的事情然后他就说把这些人怎么办了那就只能猜了对当时还网上还有人讨伐欧文也还说开人但是你看十年之后他们把这事做成从 16 年到 25 年对对然后他们这个事你看当时的 missing recipe 就是那个机座模型
如果没有好的机座模型光靠强化学习是不行的但是呢你看光靠好的机座模型也不太行对吧还要加强化学习两块加起来
我很好奇啊因为 OpenAid 它不是发过一个五个分级吗第一级是聊天机器人 Chatbot 第二级是推理者 Regenerate 第三级是 Agents 就是现在发布的这玩意儿然后第四级是创新者第五级是组织这个是哪一年开始有了这个分级啊听起来它 Day1 的时候其实想做的就是这个 AgentsDay1 的时候想做的就是第三级
挺有意思的,我觉得这个分级是比较厚的分级应该是 post-Chad-GBT 那个时代的分级,或者应该是二二二三我不确定是什么时间,但肯定不是最早的时候那个分级最早的时候没想这么清楚,当时想的东西还比较多所以那个时代我觉得也挺有意思的嘛就是说当时 16 年是一个强化学习最顶盛的一个时代大家就想会就是说我强化学习能做什么吗
所以我覺得當時他們能搞一個這個事就是操作嘛所以就可能就是
理想 AZ 的這個事情還是它商業價值確實是有很大的商業價值這倒是我們後面可以再聊這個事從 L1 到 L5 它是一個技術眼鏡上的疊帶嗎是先有 A 才能有 B 嗎它是這樣的關係嗎在技術上其實是這樣子的我覺得是這樣子的就 chatbot 然後 chatbot 其實是個 reactive 的反應就是你告訴我你說一句話我說一句話
然后 reasoning 是说它有推理和规划的能力对吧然后 agent 你肯定需要推理和规划的能力比如说我去点一个网页对吧我点错了我还得返回呢那它肯定需要有推理规划的能力但同时它又有跟现实世界交互的能力因为你需要这个模型不光是看自己的输出对吧你还得看这个世界的输出并且是没有人的指令的你是一个指令然后看这个就是你有指令
然后你还有这个世界的变化你有这个物联网的变化然后他能够超脱于人的详细的指令去跟另外一个世界做交互对吧就原来你看就是我 chatbot 是个 react 就是我反应很快你说一句话我说一句话是只有人和机器的第二部分是你说一句话我脑子里想了十秒钟我再说一句话
也是人和机器但是我想了很多步我中间有我自己的这种思维过程第三步是说我有人我有机器我还有一个外部的世界同时这个机器也得想对吧它的想的过程其实就是跟外部世界交互的过程当然中间还有它自己脑子里的过程对吧它有自己脑子里想的东西和外部世界的过程它是一个三方的过程所以这个事情本身是把这个 AI 的 scope 是变大的然后
然后这个创新创新会更难我觉得这是一个特别大的 gap 是在于你看 123 里边他讲的所有事情都是 instruction following 或者 instruction execution 我给你一个指令这个指令是我告诉你去做什么然后你去完成对吧所以它是一个给指令最后 AI 有一个 verifier 的过程叫我可以 verify 它是不是正确的我判断它是不是正确的但是创新不一样创新其实是
你只能给出方向性的评论比如说我们知道学生我们知道博士生写论文你其实不能说这个东西是对的还是错的因为对错没有意义了因为如果要创新它肯定是对的对不对但同时它也是好的原来没见过的所以这件事情它就得有个好坏它就不是给你个指令你是不是完成
他可能还要好要要要是超越原来这是体系的好对不对所以这件事情是挺难的就是你希望一个 AI 能够超出人的这个指令嗯这是第四级对吧这个其实其实我觉得三到四是个大特别大的改变
可能不止两三年就能做成吧我觉得这个三到四是个特别大的事情一二三就是你看到有强化学习的 recipe 一可能是预兴链然后二三可能是有了强化学习的 recipe 之后加上预兴链好像看得到但是到我觉得三到四是一个特别大的改革当然四到五就是一个对吧你有好多好多正能体对
好多好多这问题会有组织其实我觉得 5 跟 4 哪个先来不一定因为这事是这样的即使你没有创造力
未來我們的世界上有很多很多個大模型很多很多的智能體這事是有可能存在的所以它依然可能會有個組織或者說這些 AI 被動的形成一個組織比如說你以後每個軟件都帶來了一個這樣的 agent 或者說你有幾個 agent 在幫你做事可能他們之間就會存在交互
你现在是一个 operator 那人家网站上也可以放一个 operator 对吧这个事所以有可能这个 5 会一种比较低级的形态先出现
这是有可能的但是我理解这个 RECITI 这个真正的 L50 你是希望它会形成自发的组织那这件事情当然会更难因为你要形成自发组织那你肯定就需要有创造力对吧我能 propose 出我真的就形成一个组织那最后会有很多 AI 形成的组织那真的就归基掌握地球但是我觉得组织这件事情也可能是被动的形成就当这个世界比如说我们每个人都有几个 operator 在帮我们干活了那可能会它会形成一个比较低级的组织
从一级到五级是不是越来越不需要人参与了其实是这样的你去看这件事情就是人需要介入的越来越少确实是这样它的自动化也越来越高所以刚好补一句这就是为什么我觉得 Agent 这件事情它是有商业价值的商业价值在于它人参与的少 which means 其实是扩展了人的时间
因为每一个人的时间是有限的比如说我现在要去做个饭或者说比如说做饭了怎么做个别的比如说我要去退个货比如说我要去买一个什么东西比如说我要去报个税美国的同学可能对报税深不痛觉你报税你可能真的半天就过去了然后
然后你报税的同时你可能不能去买东西因为你人只有一个脑子但是有了 AI 之后这件事是在于 OK 我真的可以同时做一些事情如果我有三个 reliable 的 AI 可靠的 AI 那么我的时间其实乘三当然可能不一定乘三我乘三点过分就是我有些事本来我的脑子是不能从多进程进行的但是因为有一个 AI 之后它如果能可靠
可靠的完成一些任务那我的时间乘以 2 比如 3 个 AI 乘 2 吧那其实是人的时间变多了这件事情是有价值的为什么说 operator 推动了 AI 从一个被动工具向主动行动者的转变然后这个转变对于 AI 技术的发展来说意义大吗
其实我觉得他本质上还是推理的一种延续就是我人不需要介入然后我本来是他自己想但是他现在能跟外面世界交互所以我人可以给的这样的指令越来越复杂然后他能做的事就越来越多
AI 最后其实还是一个生产力工具它还是希望解放人类的生产力所以当一个 AI 能做的事情越来越大的时候假设我们能做到它真的非常非常可靠对不对假设它能做到我们先不考虑它怎么做到可靠假设它能做到可靠那么我其实会有很多跟我一样或者跟我比我
就是一些很忠诚的我的助手对吧同时帮我做很多事情那我的时间就解放出来这其实是 AI 的目标因为 AI 其实就是一种自动化的终极形态我能人进入的越少那么就离我们所需要的这种通用的跟人一样的 AI 就越近
他最后会主宰人类吗如果人类参与度这个我觉得这个是完全特别看屁股的就是因为我导师是 Stewart Russell 然后 Stewart 现在一直是在做 AI safety 的工作就人工智能安全他之前还跟在联合国然后去做一些这种人工智能安全性的一些这种呼吁和这种公开文件然后经过我导师的这种训练我觉得还可以就是
应该人工智能还是可以在一个如果我们用正确的训练方式以及训练的时候我们能正确的做安全性的保证的话应该还是可以的就是现在的这个训练还没有说真的超出一个我们完全不可控的状态所以我也希望我们老跟人开玩笑我说如果我的老我的导师一直健在的话对吧那说明他应该成功了应该没有一个邪恶的 AI 时间穿越过来要把他杀掉对吧应该不是
他應該成功了我們來討論一下一些 Operator 的細節問題因為 Operator 的交互能力很強他在和人類協作的時候怎麼去平衡這種自主決策和人類指令的優先級
挺有意思的,我觉得这是一个特别好的问题然后我看了一下,他给了很多 demo 他的很多 demo 基本上还是能看出来有一些是 rural based 的他是比较 rural based 的,就是他基本上是说我在做一些点击的时候,这些点击他会做一些分类,然后这些有一些分类比如说你真的是要下单或者说要去做付钱的时候,他都会跳出来给人做这个好像是他们安全团队专门做的一个东西
我其實不確定他們是怎麼做的,他們有可能在訓練中間也做了這樣的工作但我更傾向於這個事情相當於是有一個他們訓練的時候可能不太考慮這些問題但是訓練完了之後,我在產品和安全團隊可以在外面套一下因為相當於有個人一直在監控這個 AI 在做什麼
然后我在它需要人类介入的时候我就让它停下来我看它的报告以及看它的 demo 我其实还没这么认为 Operator 这次也是在多模态的交互上面有一些突破它是怎么整合语言视觉和动作这些不同模态的信息的
首先这件事情是分两块一块是理解部分就是语言和视觉那这件事情是它有一个非常好的多模态基模它号称是 4 欧过来的但我也不知道是哪个版本的 4 欧但是我们知道在 4 欧本身这个系列就是个原生的多模态的基础模型其实有语言了有语言这 4 欧是有语言的所以它其实是
语言视觉加上文本的一个原生多模态模型然后这个多模态模型加上强化学习训练有的没过程所以理解的事情是靠它的基础模型的预训练质量很好那第二呢是看它的动作但你看它的动作其实是文本交互的它是非常非常有结构的就是说我先 thinking 想一段然后有个 action 这个 action 呢可能基本就在于点或者 type
这些方式基本上就是键盘和鼠标键盘鼠标其实它的动作是有限的所以我倾向于认为它是一种简单的格式
那这个其实跟那个 O1 和 O3 也是一样的如果你去看 O1 和 O3 它的思维链也是会有些特殊的 token 的它特殊的 token 来规定这一段是我的 CWX 课过程这段是我的 action 所以我倾向于认为它应该是有一个这种格式的规定格式的规定之后再用强化学习让这个模型在这个给定格式的情况下去做这种动作和这个任务的探索当然这个学格式其实很容易的
就这个事儿所以我觉得这个 action 是好定义的因为它的 action 没那么复杂
operator 能不能支持和其他的 agent 进行写作这种写作机制是什么这个是一个特别好的问题所以我也会说嘛就是现在的网站上还没有 operator 对吧只有 openAI 自己的这个我们从其实分几个角度上说吧我先说我的观点我的观点是在短时间的应该暂时不会出现多个 agent 之间交互的这样的情况
然后我来解释一下为什么这么说因为短时间内如果你的目标是完成一个任务比如说我要去网页上买个什么东西你完成一个任务其实这件事情一个足够通用的大模型可以自己完成所有的事情
因为就是 O1 和 O3 已经证明了就是如果你的强化学习训练得到你的 context 你的记忆超级长一万个 token 一点问题都没有他依然可以推理的过程非常非常清楚没有问题所以我觉得如果他只是给定一个固定的问题去完成那么一个多模态的原生多模态有长文本能力有记忆能力有很强推理能力的大模型自己就可以全做
所以完成任务本身一个模型就够了但是什么时候可能会有多么大的交互呢一定是你完成任务的中间涉及到一个 AI 被动的去触发比如说以后所有的网站
进门也是一个 agent 的时候那可能就涉及到多个 AI 了对吧它是被动的对吧如果对面的网站上来是个 chatbot 比如说你现在这个 AI 你说帮我去豆包上查个什么东西
或者说你帮我去这个 chatGPT 上查一个什么东西那他不就得去问打开 chatGPT 网站吗这样被动的触发动不太得意识但我觉得短时间不会出现因为短时间我觉得因为大部分的人机交互界面还是图形化界面还是为人设计的所以我觉得可能在未来的一两年之间还是一个单智能体的状态但是你说比如说
比如两三年之后对吧会不会有一天真的是所有的网站的界面因为 AI 的出现而发生了大的变化他必须要去适配一个 agent 去他那查我觉得这是有可能的以后如果我们干活假设你的工作中间可能有 80%的工作我们这是畅想我觉得可能是三年之后的事或者两三年之后的事你工作中间 80%的 query 不是你去发生的
而是你的 agent 或者你的 operator 帮你去发出的那是不是你常用的那些网站要为这件事情做出一些改变可能你就会给他付费说你给他发个 10 块钱是吧说你帮我打开一个 agent 入口以后我的 agent 就可以直接掉就不用我去点因为 tween 界面还是一个多少来说是一个相对来说比较低效的方法它通用但它相对来说会低效一点
所以我也不觉得这个 operator 会是一个最终的形态它应该是个中间态但是也是在现在这个世界为人设计的这个世界中去通用的一种方式所以我觉得畅想未来的话就是我觉得很快会出现的短时间不会还有一点欧鹏还提到 operator 可以进行长期规划这个能力是怎么实现的它和之前我们聊的传统的强化学习有什么不同吗
它跟床上决计没有什么不同我觉得本质的不同就是有一个机座模型以及在一个足够复杂需要常规化的任务上激发了它的常规化的能力这个就是和 O1 和 O3 是一脉相承的
比如说 O1 和 O3 它的这种反思的能力其实就是强化学习自己激发出来它模型自己或者说你有一些人类的标注数据之后能激发出模型向这个方向去行为然后最后强化学习把它激发出来比如说这个点网页我相信这应该是一些人的有些人会有这样的习惯我进了网页之后我先拖一拖或者我把这个
网页关掉对吧你有一些这样的简单的数据去指引大模型有这样的行为之后再通过强化学习它自然的就会出现涌现出这种自我探索自我修正的这样的行为
所以它本身沒有太大的變化但是因為有個好的機動模型有好的人類的數據以及足夠複雜的測試環境它自己會湧現出來所以大的方向是沒有變化但是裡面有很多這樣的細節你可能要把它全部都搞對才能會湧現出這樣的能力還有一個點就是上一期節目廣秘說 Chapel 這個對話形態大概率不是提取智能最有效的交互方式
那你觉得像 operator 这样的 agent 能更有效的从人类社会中提取智能吗因为现在有一种讨论是说就人类的反馈就比如说人类用 chartboard 这种人类反馈并不能够帮助 AI 去提升智能就提升智能是一条线然后它作为一个产品去运转是一条线它两者其实现在没有一个交互关系
首先我非常同意广秘说的那个话就是 chatbot 这个东西并不能帮助你提升智能原言特别简单我们闲聊有啥智能我们这种对话的形式大部分在 by default 就不会有出现深思熟虑的过程
就不会那么难的事情那么因为智能这个事情基本还是难的事情带动长尾因为你有的更好的能力它会带动所有长尾的能力然后你把比较难的技术路径走通之后这个技术可以带动你把长尾的覆盖更好所以如果通过用户那样大量的反馈它不能提供智能只能提高产品的舒适度所以这个是没有问题的但是我觉得 operator 相对来说
有一点点不一样我觉得差别在于你什么时候需要一个人帮你去点网页一般来说是带着目的的所以它跟 chat 不一样 chat 大部分都是问个问题或者怎么样但是你想你要有一个软件帮你去点网页这得多麻烦一般来说是个麻烦事
我要算个税了我要定一个复杂的行程安排了要真的查好多次所以一般来说它的 query distribution 就是你用户给的指令会跟 chatbot 很不一样
所以一般来说因为它比较重它比较重对吧所以这个东西我倒是觉得其实如果能够给也能够收集这样的用户反馈以及用户的这样的最后完美完成这样的信号是有助于提高这个模型通用能力但是这个我觉得所以跟 chat 有些不一样因为 chat 的这个噪声太大了但是 operator 会好很多所以 open 你看嘛它也有一个选项是你不提交你的这个用户脚本嘛
所以大家不也說嗎說這個 OpenAI 提出 reinforced 的那個 fine tuning API 的時候就說這 OpenAI 要來收數據了因為
这种带着复杂任务的指令和是否完成的这个评判的这种数据是非常适合强化学习训练的而它强化学习训练如果一个难的题被你找到了它只它需要的数据量很少所以你你找到那些难的题强化学习可能这个就很快会带来智能提升所以我会觉得总体上就是 operator 的这个用户数据的价值会更高依然我觉得你可能不如你自己去标啊
如果说 AI 产品都不能带来智能水平的提升这个话太武断有可能是那个产品形态不对他没有找到更好的产品形态去帮助 AI 提升智能我的观点是反过来的是你得先有好的智能然后你会带动这个产品
如果希望通过产品来做智能的提升我觉得是不对的比如说我还跟一些人聊过好像 OpenAI 他们真的很多时候去做这种智能提升的训练是不用用户数据的所以我个人觉得产品可能考虑的问题是说在当前这个智能水平下我怎么做出一个最好的产品大家用个叔叔
但是如果你說我希望下一個層級的智能這個事我覺得還是研究的人或者說做這個模型的人來決定的因為這裡有個特別大的問題就是產品跟用戶實在是如果大家是做產品的話肯定會知道這件事情就是一個用戶問這個問題有可能不是說他不想
而是你這個模型答不對所以我只問這些問題了我只問你幫我去寫一個報告寫一個什麼文書這是因為我發現只有你這個事能做得好
所以我觉得智能还是应该稍微提前于产品的但是产品的人是说我能有这个智能之后我能有些就是什么样的产品这个是不同的人会做出很大的差别理解 我很好奇 OpenAI 它是怎么看待它的模型也就是它的智能水平和产品的关系的它们是挺分开的它为什么要不停地发出新的产品来我觉得它的这个事跟我说的很像就是因为它有更好的智能你有更好的智能之后你就会产生新的产品
但他有失败的产品,不是所有产品都很好用,但是他朝着智能的路径一直在往前走,他知道有更好的能力出现,那应该会产生产品。所以他其实蛮,他现在的状态其实是比较割裂的一个状态,就是他有一个核心的研究部门,研究部门人挺少的,还有一个大的这种 post-training 团队,然后一个产品团队。
所以研究的人相对来说不太需要考虑这些产品的问题就是往前走往前做最好的预训练做的更好的 reinforcement training 然后他们这个东西会有一个更偏产品的这种 post training 团队去做产品上的再去做训练做对齐然后再有这个产品的团队去做交付所以还是挺不一样的所以智能提升是核心生态那个研究团队在做
这个是的,因为其实这两个事挺 90 度的比如说强化学习 O1,O3 这个路线,你能做这么难的问题那你其实需要一些人就天天想着怎么让他做最难的问题能做出来如果你天天想的是产品,因为你很难说因为如果一个东西没有的时候,你很难让一个产品去空想出来
去定义一个产品不太可能为什么后训练要有一个单独团队来做这个很特别简单的事比如说你做这 O1O3 的团队可能他就说我把数学刷上去我发现这个算法这个 pipeline 是通的那真正的用户数据就不在他们那儿就像你说的用户数据不能带来最好的智能体现智能需要一帮 research 一帮研究员去带来智能体现但是那你也要去管用户数据
那你还是要去让这个模型能发出来让人看对吧你还得重新对着用户数据用同样的一个方式再去做一些调整那既然这样的话为什么他们不一本心思就提升智能水平为什么还一定要发用户产品呢
发用户产品是秀吉肉我觉得也不是因为他确实有收入而且我觉得赚钱因为他是一个赚钱公司毕竟还是一个跟大家在非常极致的竞争状态下的一家赚钱公司所以他们就是说 OpenAI 是 CloseAI 赚钱呀
不赚钱的开源吧赚钱的都不愿意开源所以产品是用户交钱然后去提升制度对啊所以用户提供的不是数据用户提供的是钱对对对对对嗯懂了或者用户提供了一些钱让 OpenAI 可以以此为杠杆拿到更多的钱这个 make sense 了
所以我们就说这个 AI 时代其实大家老说数据飞轮数据飞轮其实 AI 时代的数据飞轮有一些不一样就是数据是互成合但它是不是飞轮呢其实我觉得是不太一样因为我原来做过一段时间推荐系统在推荐系统里面其实就是数据飞轮什么数据飞轮就是说这个系统在那跑了
你不用管他你就让他在那跑着不太要去做大的调整他应该会越来越变得越来越好我点的多了这个淘宝比如说你买淘宝也好或者你抖音刷视频也好你刷的多了你就越变得越来越好了系统的团队可能没做什么然后但是对于 AI 来说就不是这样就 AI 说我有护城痕我有很多很多的数据但是可能这个数据中间大部分都是噪音
你需要很聪明的研究员和团队花很多时间去找出这个数据里面真正有用的部分所以它不是一个自动飞轮即使产品的反馈它也不是一个自动会转起来的它也是需要人不停地介入去清洗数据的
他跟推荐就真的不一样理想状态下 AI 产品的数据飞轮和闭环应该形成什么样子我觉得它依然是个闭环只是说它可能不是一个人能撒手状态的闭环就是它依然会就是你会有你有更好的数据累积然后你可能或者说用户数据能让你知道你这个模型能力缺陷欠缺在哪里或者说你想去做更好的用户
你需要去提升模型什么样的能力提供什么样的功能你可以去跟你的用户去聊去沟通你知道他们对面他们到底需要什么这是可以的但是你说但是你可能这个反馈拿过来之后它并不是一颗立马可以变成变成算法变成那个 accuracy 提高两个点这个事很难你可能还是需要把这个信息过到一个 researcher 的脑子里他再去操作一下对
它是一个半自动的闭环我们刚才谈到了 agent 大家说 2025 年是 agent 之年其实抵达 agent 之年是需要满足很多的生产要素条件的而我们今天是达到了对吗
我覺得他是看到突破了那個年份但是商業化變革我覺得還需要一點時間但是我覺得不會特別久就是像那個 01、03 比如說因為我覺得還是很多人會抱怨說 01 很厲害但是它產生的東西都是 Shit 會讓好多人罵嘛對吧就是我覺得它更多的是一個能力的變化原來你看不到這個東西
現在你可以看到了但是到你看到和它變成一個商業化產品 run 的很好我覺得還是需要點時間的但我覺得為什麼說 25 年是 agent 之年是我覺得在今年我們可以看到很多東西就是多麼態的推理就是兩件事情原來是我從文本的推理變成多麼態的推理原來是沒有一個開環的一個給一句指令給一個反饋變成一個有
有闭环的就是它真的可以自己跟环境交互的这么一个东西原来是看不太简单或者原来是一种很初级的状态没有定制化模型今年又看到很多定制化的模型然后看到很多分数我们说分数先说分数分数被大幅度提高
对我就觉得这个欧巴现在做到三十几的东西年底应该都会发报可能他们已经发报了没有告诉我们在 AI 领域 agent 这个词是怎么由来的因为现在太多人聊 agent 了这个词已经听完了
是听吧,我其实原来给过一些报告我去讲这个事情我就说 Agent 最早的时候它其实是一个怎么说呢它其实最早 AI 提出来之后提出来这个概念之后它就很多地方会用 Agent 的这个概念 Agent 基本上最早是在博弈论里的
我们讲两个 player 或者两个 agent 他们在剪刀石头布我们会说两个 agent 在在玩一个 0sum 在一个灵活游戏 The two agents are playing a 0sum game
然後他在一種就是帶博弈的這種場景下一開始在博弈論裡面提出來了常用那個詞然後可能是在強化學系裡面因為從博弈論一直到強化學系這種序列決策問題在強化學系裡面我們說一個跟環境交互的這麼一個 AI 就叫做 agent 一個智能體在一個環境裡面做交互所以一直這個東西是在博弈論和強化學系裡面相對來說比較小眾的
一个概念然后呢到了大模型之后突然有一天大家都讲 agent 然后呢所以在大模型时代很多时候大家谈 agent 就是等价于大模型可以调用外部世界
的接口一般就是现在大家谈 agent 一般会等价的事情尤其如果你的他的研究背景是自然语言处理他原来是这辈子他可能原来从来没有接触过 agent 这个词他人生中第一次接到 agent 就是说大语言模型不光能输出一个文本还能
去调一个调动外部世界对调动外部世界它到底是调 API 的也好还是屏幕上点一下无所谓反正是大语言模型可以调动外部世界所以从我觉得从二三年开始大家熟知的最火爆的 Agent 概念就是这件事情大语言模型可以调动外部世界其实本质上还是出了一段文字对吧它
但是我觉得到 operate 这个时间反倒是很多概念终于混合起来了因为真的有一个模型它要跟环境做交互然后你会训练它因为强化学习终于最后回来了对不对
或者说他把强化学习原来强化学习的这对概念又合并了因为他最后把大语言模型和强化学习合并在一起有了 operator 所以两边都有自己的 agent 最后跑到一起了也可以挺好现在 OpenAI 说 operator 是他们的首批智能体首批 agent 之一未来会推出更多的智能体你对于这些尚未发布的 agent 有哪些预期能做一些猜想
我覺得首先兩種事情一個是產品上產品上很顯然 GUI agent 只是一種形態
因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为因为 因为因为因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 因为 为 为 为 为
未来但是这是欧巴一贯套路他说未来他其实已经跟先先早期用户都合作起来了所以肯定有些早期用户已经集成了这个东西这些早期用户集成的时候他不一定要去点对吧他可以把代码公开给欧巴对吧
然后你其实也可以写代码或者做一些别的事情它其实形态有很多这是一个所以我觉得它推出不同形态或者跟别的公司合作去嵌入 Operator 这是很自然的产品上的形态第二就是这个版本肯定只是一个 Operator 对吧后面有 Operator v2 Operator v3
或者说他觉得这个模型不好我重新换个基础模型我叫 operator o 有可能我觉得今年肯定会就至少特别简单他今年那个榜单 OS world 才 30 多这肯定不是 OpenAI 的风格今年肯定给你干到七八十所以可见的是未来会有更多的 agent 被推出那这些 agent 是不是会成为一个生态系统
还早我觉得就像我们之前聊过很多我觉得当这个东西普及了之后它必然会成为生态系统因为如果你的工作 80%都是由 agent 做成的它必然会成为生态系统但是你现在有一个 agent 大部分人愿意花他 80%的时间让 agent 去做他的活
這個事還有一點時間大家會看到很多這樣的產品出現 還經驗必須要有機動模型的公司才能做 agent 沒有機動模型的創業公司能做嗎
是这样的我还跟挺多的创业公司挺熟的 Agent 的这个事情其实创业公司也可以做为什么呢是因为就像我们之前说过的 Agent 它有多么它其实当然方法性更好当然它所需要的数据和很多领域知识也会更复杂
而且因为它的 scope 变得越来越大了是不是就至少在 OpenAI 现在的模型它还没有办法覆盖那么长尾的一个分布因为你想世界上的软件和网站有那么多
它就算 99%了,它那个 1%的网站或者 1%的软件依然是巨量的所以对于创业公司来说其实美国中国的这样的 agent 公司少一些因为它本质上是一个 2B 服务的工作嘛因为如果你去看这样的 1%的话那可能是个 2B trade 的服务工作这个事在中国比较难做但是在美国其实得有个 10 多家
又做出了这样的 agent 的公司然后他们都会在各种垂内有一些是做客服的有一些是做一些传统行业比如说
有做通用一整套的也有去做传统服务行业的有一些比如说快递公司对吧比如说一些这种物流公司或者说有一些传统的商业公司一些中小的企业的商业公司他可能报报税做做客单这些
有很多这样的公司所以小公司我觉得在美国的话大家是有 trade 的一些机会的至少因为我们不确定这个事欧公安会不会有个巨大的公司把所有事都做我们不确定对吧在他做到这件事情之前那么小公司肯定有欧公安因为这个可能性太大了所以小公司他可能可以在某个 trade 上更好的数据累积
在 OpenAI 的大规模强化学习魔爪还没有摁到这个领域的时候他有机会你刚才讲 agent 定义就是说带云模型调动外部世界然后我脑海里出现了一个从 OpenAI 的产品形态对话框里突然伸出了很多只手然后往外部世界里抓的画面是啊因为确实是这样他其实也不是很多只手可能就是鼠标键盘
对吧 鼠标键盘其实又是手嘛因为你看这个 operator 就是鼠标它的洞然后键盘的输入嘛你推测 openA 的这个 operator 需要多少的硬件资源这个很难说啊 这个很难说就是因为大家也不知道它这个模型多大但是如果它是基于 GBT-4O 的 4O 那个模型可不大这个 4O 模型是比较小的一个模型
但是它有可能是伺候的某一个大点的版本但是我们推我觉得它既然这么说了那肯定不是一个特别大的模型应该也不需要人数这么多来做做科研肯定是不需要但做产品肯定还需要很多人但是我觉得卡的话就是很难说因为我只能说它应该不是那种预设的那种就是要十万卡级别我现在肯定不是应该远比这个小
但是他中间做了多少步的研究对吧这就不知道了因为我们不能总看最后一步他训练成了那一把他也肯定是一个相对小的规模的因为这个模型肯定不大从商业角度来看他的商业模式可能是什么样我们觉得是首先是他的商业模式是说他首先他的前提是这个东西真的可以你在他托管的时候帮你做事这个事如果存在了之后我觉得
还是清楚的因为它就是你花钱买时间但是这个事儿本质上是提高生产力的事情就是你愿意为你多的时间多的维度花多少钱相当于你雇秘书或者雇员工所以理论上这也是美国 2B agent 公司的这种逻辑我可以
AI 员工那个员工比你原来的人便宜或者说我你多招一个人需要多少钱但是我现在丢了 AI 员工更便宜但是核心是说你真的能成真的是个员工
能成了之后这个钱应该是很容易收回来的从技术角度看 Operator 它能够为未来更高级别的 AI 电竞技术如果 Operator 是一个过渡性的产品那它在 AI 实现更高智能水平上它能扮演什么角色吗首先我一直有个观点是说智能其实分两块一块是这种纯文本模态的这种推理还有一种其实是这种视觉信号的推理它其实不太一样
然後我覺得這個 operator 現在來看它其實沒有真的到物理世界裡面去它是在一個軟件網頁層面網頁其實它的這種物理的感覺其實沒有那麼多因為網頁大部分是為人瀏覽而設計的所以它是文本概念比較強的一個東西
所以我觉得这个东西是 OpenAI 表示的一个信号是说我希望有更我希望这个智能不光有纯抽象的 O1 O3 这样的抽象的逻辑推理
我也希望它有视觉世界里的这种推理它现在是展现出的第一种可能性是在一个网页里网页其实是你把文本图像画了对吧对还是文本还是文本对吧所以我只是说它只是展现了这个可能性的开端
他没有把这个可能性真正拓出去我觉得真正我觉得比如有一天他真的有一个 AI 在你比如说在物理世界里他能把智能从逻辑抽象的世界到物理世界里比如说我给你比如说你要去在你家里面找你的袜子对吧收拾行李的时候找袜子这事是需要物理世界的推理的或者说我想去
收拾个什么东西它需要有物理实验你希望有一天有这个东西能够智能从逻辑抽象的文本到物理实验这个事我觉得也是挺有意思的但欧布莱还没做欧布莱还是聚焦在这个里面所以我就觉得他是把能力拓展了但是智力上限他还没有因为他纯逻辑的推理他也没有比欧三强
它如果比上物理世界推理它也沒到物理世界但是我覺得它是一個信號就是本來它是個 90 度的指針一直往北走可能北斗星是這個可能是這個這個圖靈獎或者諾貝爾獎對吧然後呢右邊一條指針是物理世界裡面的智能然後呢它現在可能原來是一直都是 90 度的現在 90 度往右擴了一點可能到了 80 度
所以你不知道它會往哪里走所以它是伸向物理世界就是那個手好像剛剛想伸過去但是又還沒伸到還沒伸到 對它是一種信號對 它是個信號它會激發你那些想像所以你就很期待說我們最後能推出什麼東西了
你覺得歐巴馬最後會走向物理世界嗎這是個好問題我覺得從商業上物理世界的錢是難賺的所以歐巴馬一定會先從數字世界賺錢但能不能走到物理世界這就不知道了其實美國也有公司專門做物理世界的智能比如說
Physical Intelligence 就是美国的一家专门注重物理世界的大模型预训练的公司也不知道他能不能走成但我觉得对于欧邦来说他其实没有必要自己走了他可以投资嘛因为就像欧邦当年把这个机器人团队踩了对吧他后来就投资就可以了他做那个大脑就好了
所以他做大脑就好了因为大脑确实赚钱快嘛如果 agent 在未来成为主流你觉得人类和他的和他的写作方式会有哪些变化我觉得这个事情还挺有意思的我觉得两件事情我可能会想聊一聊可能会发生变化这件事情是 agent 和人的交互模式是不是可以更交互一些比如说他是不是一定要一个人我把我要做的什么事情一五一十跟你讲清楚
然後這個 agent 去執行雖然這個 AI 你看它是個閉環的對吧就是我可以跟你對話我也可以跟物理師也交互但是你依然需要把你的指令說得很清楚那有沒有可能一個 AI 跟你的交互次數變久了之後
他比较懂你对不对就是有一个 AI 比如说我比如说你经常去淘宝或者非洲买机票订酒店当然知道以后你买机票就是去非洲买机票用你的会员号去买机票去买酒店
這個事兒是有沒有可能會有一種個性化的方式然後現在其實是不個性化的它通常相對來說它是一個比較通用的智能體然後呢對吧你需要每一次跟它講清楚指令它是 instruction following 有沒有可能 personalize 這個 AI 能夠有一種比較好的記憶的模式然後它真的能夠你不需要說我怎麼詳細
所以现在其实 AI 还是一种人在适应 AI 的过程就是相当于有一个新的 AI 了对吧因为有人你看如果网上最近还有个帖子特别火就是推特上就是说有人说我觉得欧望不好用但后来我发现是我们使用欧望的方式错了对吧因为对就说因为大家原来习惯 TED-PT 了就是跟你说一句话也不说全对吧就跟你聊聊对吧现在欧望不行欧望你把指令得说全了他答想了 20 分钟把你把我干了对吧
其实人在适应 AI 说有没有可能 AI 最后能够适应人所以我觉得这是一个大的变化我觉得是一个可能比较深层次比较难的一个问题长期来看还有一件事情就是说当第二个也是比较有意思的问题是说当大家习惯于使用一个 AI 之后会不会有新的不一样的地方因为现在属于大家这个世界上没有 AI
我告诉你有个产品你可以跟他聊一下对不对但如果以后真的是每个人都习惯于使用 AI 了他还会这样的模式吗比如说 GUI Agent 因为 GUI 是因为这个世界不为 AI 设计对吧所以你需要个 GUI Agent 但是如果这个世界以后真的很多人在用 AI 了这个所有软件的界面会不会发生一些改变他会留两扇门对吧一扇是给 AI 的一扇是给人的
所以就不知道所以我觉得这是一个好的问题但是我觉得交互模式的改变肯定是一个先普及再改变的过程也有可能这个事就变成了反正你别管这个 AI 就是这样你用吧只要人去适应也可以嘛就像很多人一开始的时候觉得手机一定要有键盘对吧后来不也就适应了吗
因为我是做强化学习的所以这个对我来说肯定是一个很好的信号因为其实我们讨论这件事情也觉得这是一个今年可能整个学术界也好还是说整个工业界也好大家都会在这个多么态推理和交互上面花功夫的一件事情然后欧本亚就是在今年打响第一次打响对所以对我自己研究也是有影响的就是只能让我我原本想的事情是那要不我们再想点
后年大家会做什么先做了对吧因为你别上来就做了之后人家再发一个什么东西你又落后了所以这个事我觉得对于学术界大家考虑的问题就是做点啥其实是一个很好的问题因为你别做了之后欧巴还给你全做了你有答了吗对对对
我觉得还没有想的特别具体我觉得是想了一些非常 high level 的反正过年吧再想想 2025 年你预测的技术演技方向是什么呀你有什么看好的应用落地的方向吗应用我觉得不会出现特别多新的我觉得更多 25 年我的判断还是主赛道的大的竞争
25 年我觉得比较糟糕的事情就是好的事情怎么说我觉得好的事情是这个技术其实开始接近一些拐点但是坏的事情是这些拐点太共识了大家基本上在看的东西都差不多大家觉得要做的东西都差不多不是动不太要去做一些物理世界还是软件世界去做交互要做 reasoning 要去做 agent
所以它太共识了太共识的时候你希望有一个东西大家突然没有想到长出来我觉得这是挺难的我觉得在非共识角度上面比较容易出现一个突然成长起来的一个就是一个产品一个新东西共识下面是挺难的共识就会出现
剧统们的主战场所以我倒觉得我会觉得今年应该还是一个技术演进的年份所以我给大家的建议就是说那我们不妨想想 26 年搞点啥 25 年提前开始做是被带了 26 年就会有新东西出现就像你上次说现在是大家都开着坦克往前跑因为太共识了所以就变成了有一些这个大公司在很重装的往前走你自己开个摩地是不行的
但是你開模艇你可以走鄉間小道嘛對吧你別在那個高架上人家開坦克你確實比不過你鄉間小道坦克不一定往那開嘛這就可以最後問你一個小問題我們知道你的工作最近幾個月其實發生了一些變化有沒有什麼想給大家分享的以及
威廉的研究方向会是哪些方面一月底其实有一个我们机器学习顶会 ICML 它是 International Conference on Machine Learning 它是个 Data Line 然后呢我们本来有一些 paper 后来那个 DeepSeek 还有这个 Operator 放出来我们想算了不投了结论都被人说了不投了一大影响就是我们可以放假了
所以我也會開始想嘛當然我們還是有些論文可以投啦就是我開始想的問題就是我會就這個進展會讓我開始想就是那學術界應該怎麼找自己的定位
所以我會覺得學術界可能要去想的事情就是學術界應該去就是這些非共識或者探索其實是學術界應該去做的事情應該去提前去想就是如果你這個事是 OpenAI 一定要做的事那麼對於學術界來說那可能你最好選擇不去做
就是耶拉莫昆当时说嘛当时他讲过一个话叫如果你现在读 AI 的 PhD 那么你不应该做大学员模型这当然他的话一直很极端他经常会讲一些就是为了反驳反驳的话但他这个话其实是有道理的
因为对于做研究来说如果你现在做这件事情一年之后我们的大公司做出所有方向都做的比你好那确实没有意义但是我觉得学术界来说你可以去探索一些美普的东西但这个美普的东西因为 AI 变化的很快说不定两三年之后它就是对的比如说我们讲的 agent 的之间如果每个人有一个 agent 他的交互模式应该是什么其实是一个特别有意思的问题
其实我觉得是这种问题就是我觉得这是一个真正的 multi agent problem 而不是说你去搞很多 agent 去解决一个点网页的任务那这件事情其实没有意义因为 OpenAI 会在他的这个推图机上把这个坦克车上全给做但是如果我们去回去想一想这个世界上如果大家都用 agent 他们交互模式应该是怎么样的对吧这个有没有一个个性化的 AI 或者说人给他提供反馈和介入的时候应该
提供什么样的信号因为人可以给很多的反馈他不光是说我给你一个成功的例子给你一个错误的例子这些问题我觉得都是很开放的那这些问题我觉得反而是学术界可以去想的但我只是随口说了一下就是我自己还也得再去想想我觉得反而可能也是让学术界说有些问题就别做了你去想一点更开放的问题说不定两三年之后这个事就会变得很重要
好了,这期节目就是这样,如果你喜欢我的节目,欢迎前往腾讯新闻,小宇宙,苹果 podcast,喜马拉雅,QQ 音乐,订阅张小俊商业访谈录。如果你有其他想邀请的嘉宾,想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。那我们下集再见,拜拜。