We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E5 LLM 范式迁移:OpenAI o1,Self-play RL与 AGI 下半场

E5 LLM 范式迁移:OpenAI o1,Self-play RL与 AGI 下半场

2024/9/14
logo of podcast 海外独角兽

海外独角兽

Transcript

Shownotes Transcript

大家好,这里是海外独角兽开源 AI 研究平台海外独角兽的同名声音栏目我们主张用开源的研究和讨论精神链接全球 AI 从业者行业瞬息万变我们在这里拉起认知,火平鸿沟

广秘之前三期的节目里你提到的很多预测都验证了那我们继续来做我们的这个全球大模型记报今天是第四期三季度似乎在硅谷出现了非常非常大的变化 AGI 可能出现了范式转移这也让这期节目变得很特殊因为中文世界里谈论范式转移的声音还非常的小那我们这期节目应该是对于范式转移解读最全面也最前沿的一个最近这两个月你思考最多的问题是什么

对 我感觉语言模型预训练这个范式是不是到瓶颈了吧模型的 skilling 的编辑效益开始递减那接下来的路线怎么走包括这轮技术革命会不会就此卡住了我感觉这个问题就很关键吧现在得出了什么样的结论呢现在只能说有 50%的概率就是传统意义上的 skilling law 已经失效了当然另外 50%的概率就是说沿着老的路还能继续走向 AGI 对吧继续怼 10 万卡

感觉这两个概率 half half 吧主要是现在各种 evidence 还不够多还不能妄下这个结论也不能下盘的说 pull train 这条路就到头了但你目前看到的就是说纯靠加参数加数据加算力这条路肯定是不容易了 model size 想想 scale 都还是有些问题吧

我们能看到就这几个要素嘛参数数据算力你从参数上看现在最好的模型应该都是 6700B 的总参数的一个 MOE 的模型对吧为什么在 6700B 基本上也是单台 server 现在 H100 能放得下的今天我们还没有看到向上涨个三五倍

2 到 3 个 T,两三万亿总参数的模型或者说你卖上去两三 T 总参数吗但短期的收益效果可能还没有那么好包括怎么 scaling 的规律也没有识清楚吧那另外你从数据上看就是说很多公司弄到 15 到 20T 的高质量文本数据可能还 OK 对吧比如说每个月再增加两个 T 但你很难叫倍数据的增加到 50 到 100 个 T 我感觉就是

还得用新的方法去突破数据的瓶领另外你看算力上就说英伟达 H100 这一个卡单一集群最大搞到 3.2 万张充分互联对吧全球应该能有三五家都能做到了在 B 系列 GPU 规模化出来之前我感觉算力基本上也不太会有倍数级的提升你看这几个基础条件

它不一定能支持今天的模型在 GP4O 或者 Cloud 3.5 这个基础上做大幅的提升我感觉可能走这条路就是比 GP4O 好一些但不一定能像 GP3 走向 GP4 那样叫显著跨越的好吧不能支持模型在 GP4O 的基础上大幅跃升的原因是什么

可能有几种情况第一你可以说今天的 scale up 的幅度依然不够你未来等 B 系列卡出来之后再 scale up 可能就解决了现在有可能就是处在一个真空的死亡地带说明 H100 这一代卡可能没有那么好第二你也可以说是执行问题

训练更大的模型就是比较复杂就像发一个比如说中型火箭或者说芯片流片一样那失败因素是很综合的你就比如说 MOE 很大了之后就是很难调

高矮胖瘦你怎么摆你训练 2 到 3 万亿参数的 M1 本身就是很难因为现在业绩主流基本上是六七百币左右吧那还有很重要的问题就是说数据问题对吧怎么搞出来那么多高质量的而且真的能提升能力的这种文本数据包括能不能用好合成数据对吧其实合成数据今天也没算 fundamental 的突破吧大家都是去用模型去改写对吧去扩充

把这些低质量的变成高质量的数据重复其实对模型提升也没那么大更多高质量的逻辑推理数据我感觉可能是更重要的前面这两个问题我感觉可能都是短期问题慢慢随着时间还是可以解决的但有一种情况就是第三种情况就是说最担心的一种情况就是说纯靠语言的

这种比较经典的 skin-law-pull-train 这个物理规律是不是就遇到瓶颈了或者说就在比如说更大参数下比如说两三 T 参数以上就开始失效了

那我们就得用新的方法才能带来更大的突破我感觉这个第三种情况在 B100 GPU 出来之前概率是非常大的这个还挺让人惊讶的就是 Skinning Law 遇到了瓶颈甚至有可能在变大的过程中失效 QE 的时候你观察说 GPU 数据中心和物理硬件是瓶颈现在似乎瓶颈是变得更多维度的不只是物理硬件这一个原因其实 GPU 数据中心和物理硬件依然是瓶颈

但这个瓶颈你没办法短期突破因为 H100 这一代卡你现在创新互联的可能就做到 3.2 万卡对吧 H100 这一代卡用起来可能不算太好你看 per dollar 其实还是很贵的我感觉有可能还是得币出来才能把参数 skill up 上去如果在这个之前有可能就还是得在

有限的机群下吧做一个叫新的 skinroll 方式的探索当然还有另外 50%概率所在啊就是说可能就是留给马斯克的 XAI 马斯克是觉得算力决定生死的对吧他们就败趟 10 万卡对吧这也是叫第一性原理我觉得也有很大的概率就是说马老师做出来 10 万张卡机群对吧然后称出来一个更好的模型让很多人傻眼我觉得也是有可能的

但是算你往上加呢其实加到 10 万卡其实短期挑战很大的我们能看到就是说你现在 3 万卡的集群基本上每两个小时能 break 一次那 10 万卡集群呢基本上是二三十分钟就 break 一次其实综合利用率会下来非常多这个对数据中心的运维的挑战是很大的你要快速的定位损坏的卡对吧快速的插拔更换去上线

我感觉就是说模型反正 skill 到两三 T 刚才提到就是 MOE 更复杂了对吧有可能还有一个原因就是说实验不够充分那你实验不充分呢你这些位置怎么摆其实 bug 也很多那还有一个说法就是说

做 Dense Model 更容易比如说做到两三 T 的都是 Moe 那 Moe 其实有可能并不一定很好做但 Dense Model 有一个缺点就是说它的 Training 过程中 GPU 的利用率不够高这也是一个问题包括刚才提到数据问题合成数据也没有算突破我感觉其实确实是一项综合的它不是一个叫单一因素算力的问题存在然后

M1 这个复杂架构的问题也存在数据的问题也存在因为大家还不知道叫视频数据怎么用起来对吧有可能还是有一个新的架构未来会出来吧如果 Sketin Law 在模型变大的过程中它就不 work 了你们看到了哪些新的方法新的路线来替代它

我感觉可能能有两三条潜在的路线吧我感觉每个公司也都有自己的一个 BAT 我们首先说一下多模态吧尤其是视觉很多人会说这个多模态的确定性很高只靠语言无法走向 AGN 就还是得靠语言加视觉这种多种模态但是呢你用大量的视觉数据做大规模的训练其实今天还没有任何证据能证明说我们能从视觉模态训练里面涌现出叫智能或者逻辑能力吧

我不确定 Tesla FSD 这个算多模态还是叫单一模态其实 AI 最重要的一个还是叫通用泛化性你就像 AlphaGo 下棋一样你下棋做到世界第一但你没法做其他的人物 Tesla FSD 或者说今天的所谓的通用机器人公司今天在某一个特定设备上采的数据包括训练的模型其实你换到另外一个新设备上其实是不 work 的我觉得这个其实是没有泛化的

我是感觉多摩泰模型的技术路线还是没有像今天语言一样那么统一也许未来会诞生一个全新的架构但这里其实是又涉及到基础科学的突破了这个你就不确定是一年两年三年还是五年十年能看到的因为你看现在视频生成今天都走一个叫 DIT 路线那是因为年初的时候 Sora 给大家给整个行业指名路线短期你看 DIT 其实向上的收益还是可以的

但我觉得能确定的就是说多姆泰肯定是能叫带来交互能力的提升有可能你交互能力上来 Brizling 逻辑推理能力也会提上来吧

这是一种路线第二种路线呢就是说那十万卡集群也是一个路线那就是刚才说的比如说短期不成功那可能就还是算力不够对吧处在一个中间的死亡地带那总有人要试试更大的集群万一怼更大集群怼成功了怼出了更强的模型那我觉得会让不是的人可能会傻眼了

但是客观来讲就是说 10 万卡机群重型互联的难度可能还是比预期的要更难的甚至有可能这是全人类目前遇到的最难的一个项目吧可能比 SpaceX 发重型火箭可能还要复杂

聊到多摩泰和十万卡机群这两个其实都是较确定性会发生的我感觉就是时间问题但是其实是还不够本质或者能称得上范式级别的其实能称得上范式级别的就是一个就是强化学习 R 这个事今天整个业界不管说硅谷包括中文媒体其实提的还很少或者说大家今天也不知道怎么做就今天的强化学习就是 self play R 呢

我感觉这条路线还是最 make sense 的天花板也最高其实我们能看到那个 AnswerPay 那个 CloudSonic 它那个从 3 走向 3.5 你能明显的看到代码和数学很大的提升对吧其实这里就是强化系 RO 带来的吧你用 self play 这种方法提升模型的逻辑推理能力我感觉是接下来最重要的一个范式吧

我觉得这是一个最核心最核心的变化然后当然多摩泰 10 万卡和强化学习这三条路其实并不矛盾的其实也是可以并行的但是你的资源有限你就得摆上你最相信的一条路对吧如果我是一个 AI 公司的 CEO 我肯定会 200%的资源 all in 到强化学习 R 这条路线我感觉这是目前最有机会走向 AGA 的一条路我来试图理解一下你说的这三条路线第一条是多摩泰

他不能确定到底能不能带来智能水平的提升起码到现在为止他没有证据能表明第二条是十万卡机群他能不能涌现出更强的模型要依赖于 screen law 能不能继续过现在也还不知道第三条是你说的这个范式转移就是强化学习现在的 rl 主要讲的是 self play rl 我理解的对不对是的

那能不能给大家解释一下这个 RL reinforcement learning 简称是 RL 中文是强化学习给大家解释一下这个概念对就是我们回到 2018 年其实那个 Lex 邀请 Illya 去 MIT 课做讲的一节课 Illya 选的主题其实就是强化学习和 self play

他当时就认为这是通往 AGI 路上最关键的方法之一就是当时伊丽娅用一句话概括了强化信息我觉得非常准确就是说让 AI 用随机的一个路径去尝试一个新的任务如果效果超预期

那就更新神经网络的权重让 AI 记得多使用这个成功的时间然后再开始下一次的尝试其实我们在实现强化学习的过程当中其实有两个元素是最重要的这两个元素一直在反复的交互第一个就是环境

AI 你探索完成任务的环境你比如说下棋的时候那个环境就是 19x19 的一个棋盘以训练你家的一条狗的话那个有可能就是狗主人的家和小区其实环境会发生变化那环境发生变化的时候 AI 就会从环境变化中收到 reward value 去判断过去的那几步探索是否有明显的收益比如说你距离下棋胜利是否更接近了

然后这是一个奖励机制对吧对这是一个奖励机制这个奖励机制其实是强化学习当中应该说最重要的一个要素吧其实第二个就是一个 agent 这个智能体其实 agent 这个智能体是从强化学习来的一个定义 agent 对环境的观测和感知它会来输出一个动作

其实 agent 他的目标就是要得到奖励这个是最重要的这里面有几个基础概念我觉得可以有一些科普就是说刚才我们聊的智能体比如说我们训练一条狗这个狗就是那个智能体

他就是一个 agent 他是一个学习的人或者是一个决策的人那个环境呢可能就是狗主人的家或者小区那狗还有动作比如说狗的动作是叫坐下可以握手一些行为的然后包括狗的状态他所处的一个位置包括你对这个狗的奖励要么你给他一些吃的零食对吧或者你就责骂他这是正面信号和负面信号那我们可以把狗换成大圆模型大

大圆模型就是一个只能体一个 agent 本身了今天 XGT 它就是一个文本或者对话场景的东西那它可以输出不同的文本或者各种 action 甚至各种模态对吧包括它也有奖励只不过今天文本的奖励的噪音比较多我们是不好定义这个 reward model 我感觉这个可能是一个今天还不清楚的就是对于 LLM 来说小零食是什么不清楚

给狗是小零食,他很明确,给他零食,他就知道这是正确的或者摸摸头,这对于他来说就是一种奖励但是对于 LLM 来说,就不知道他的奖励反馈到底是什么没有一个清晰的界定你看我们今天上亿人用 TryGPT 其实我们给到 TryGPT 的反馈是没那么有效的对,因为你可能很快就进入下一个话题了对,你包括点赞和点踩有可能噪音也比较多

能不能进一步举一些例子来尝试这个二 L 我觉得有一个比较好的例子你比如说咱们去一个叫深山去探矿寻宝对吧一个人他有一个藏宝图但是我有

5000 个特种兵带着一些专业探测设备你可以说我资源浪费但是只要有宝贝我有可能是几乎百分百都能探测出来的而且比拿着藏宝图的那个人有可能还更快我就是把各个地方各种路径反正都探索一遍但是假如说有其中的两三个特种兵健保能力不足他就会漏掉这个宝贝或者捡回来很多垃圾这就是奖励模型 reward model

那就出错了或者说还有一个更形象的一个神变的例子就是说

比如说我们要训练一个运动员比如说一个马拉松的运动员对吧我今天是一个 GPT 我已经通过语言和录像已经学成了博士各种知识道理都懂了今天我就设置一个目标就是取得马拉松的一个最佳成绩对吧那我就会探索各种方法甚至找漏洞的方法取得一个怎么获得最佳成绩的方法比如说每次比赛都有一个正面信号和负面信号对吧那比如说怎么科学的饮食什么姿势

怎么肌肉发力对吧你比如说前一天如果你运动消耗过量那其实也会影响第二天的比赛吧这就是一个负面信号对吧甚至我可以找到捷径你比如说之前比赛没有禁止星辰季之前其实我可以吃星辰季的那这个就是 hack 了比赛规则嘛那你就要制定新的比赛规则这其实就是 AI 的 safety 或者 alignment 这个价值嘛我感觉包括狗主人训练一条狗其实这些例子我感觉都是

逻辑都是一样的然后我觉得可以延伸的说就说这意味着什么如果基础模型变强其实我们每个人都可能有一个 5000 个特种兵或者你有一个世界冠军一样他们在各个领域去做探索你可能就是一个教练员指导他们怎么做人和 AI 一起去在各个领域拿金牌我觉得这个是一个

蛮有意思的会发生的事吧那这里面的奖励模型其实就很重要了今天业界奖励模型最核心的还是在代码和数学因为他就是刚才提到他的环境和目标很简单很清楚对吧容易设定

但其他领域的目标和环境其实还不太好设定的这里也有一个更关键的问题就是说代码和数学在未来两年可以确定性的变得非常强但能不能泛化到其他领域是目前还没有证明的刚才提到 AlphaGo 下棋很厉害了对吧但其他领域不行计算机视觉人脸识别也很厉害了其他领域也不行 AI 最重要的还是一个通用和泛化性如果你不能泛化到其他领域

我觉得那还是挺麻烦的这波技术天花板有可能还是会受限的吧但是呢即便不能犯话那我们借助大语言模型在各个垂直领域做强化学习我感觉应该也能在很多场景找到一些最优解我觉得下线有可能也是会替换掉传统的机器学习那一套吧当我们说强化学习的时候它应该跟什么概念对比它应该跟大语言模型对比吗

它是一个交替的我感觉历史上神经网络跟强化学习一直是交替发展的就是每一个神经网络变强了之后大家后面都会提强化学习那强化学习和代言模型的区别是什么我觉得可以这样说就是

大圆模型是利用现有数据主要是强调在利用这一个点那强化学习呢更多强调探索它探索一个长距离你给它一个非常粗的颗粒度的目标然后它自己去探索各种能做成这个目标的一个路径我感觉强化学习的核心就是说在探索和利用之间做一个权衡吧

大圆模型在利用现有知识上我感觉已经做到很极致了但探索新知识方面基本上还没有做太多那强化学习的引入其实就是为了让大圆模型能探索进一步怎么提升逻辑推理能力我们可以回看一下 AI 最经典的三大方式就是监督学习 非监督学习和强化学习

其中只有强化学习的假设是让 AI 进行自主的探索和连续的决策我觉得这个方法是最接近人类学习的吧我们现在说的是这个 self play RLself play 强化学习它跟传统的强化学习的区别是什么呀还有之前有个概念是 RLHF 它和 RL 的区别又是那些对

我感觉传统 R 其实跟今天的 selfplayR 最大的一个变量和区别就是说这个 R 的主体的 agent 计算量增加了三到四个数量级你看最早的那个 alpha zero 它应该就是一个千万参数的神经网络和今天的圆模型应该差了三到四个数量级然后

RHF 其实更大的一个目的是不是获取机器智能还是一个人机对齐其实是让 AI 做到更像人但是不能做到超越人的一个叫超级智能吧我觉得一个简单的例子就说 RHF 呢其实能像人类一样更喜欢好理解的东西而不是喜欢逻辑更严谨的内容 self play R 呢其实更多还是奔着怎么提升逻辑能力去的吧

那 self-play RL 能提升智能水平吗目前在 coding math 这个是很明显的其他领域还没看到大元模型和强化学习和 AGI 他们三者的关系是什么

我觉得这是一个特别有趣的话题就是说之前有一个特别有趣的描述啊就是说语言是走向 AGA 的一个拐杖虽然最近推特上很多人在批评这个表述其实很有道理这个表述我体会了很久就是说首先是为什么是语言啊

语言是人类积累了几千年对吧是对人类历史几千年的一个压缩总结又经历了 30 年数字化变成了互联网的 token 其实大语言模型诞生也是一个技术发展的必然这是机器能学到的最高密度的一个知识另外语言还有一个好处什么呢它的通用性很强其实同一个事物可以用不同的语言描述对吧

同一个语言你也可以有不同的理解方式它的弹性和容错性就会很高你可以说语言是今天唯一走通泛化性的传统的 AlphaGo 其实是没有泛化的只能下围棋对吧 CV 视觉也没有走通泛化性只能做人脸识别对吧我觉得有一个猜想就是说可以借助语言这个通用和泛化性让这一波的 AI 能力泛化走到更多领域

通用人工智能的核心还是通用和泛化所以语言和育育训练还真的有可能就是个拐杖它就是一个中间菜的甜点前菜对吧后面的强化学习有可能才是主菜我觉得一个更形象的比喻就是说你可以把语言和育育训练比作人类的一个基因组携带着人类几千年进化的基因那么强化学习就是人类成长的一生你从出生那天起就开始接受正面信号负面信号

其实一个职业运动员他的职业生涯也是一个目标和环境定义很明确的特定任务就是拿成绩拿奖牌所以我感觉不管黑猫白猫能实现通用和泛化我觉得这才是实现 AGI 或者 SI 超级智能的一个关键所以今天看光靠大学模型可能走不到 AGI 也可以想比如说 AI 可能是一个偏科语文的大学生如果他要就业的话他需要新的范式引入

那大语言模型和强化学习应该怎么相互补充呢他们两个应该怎么结合我感觉是一个接力关系或者说

语言模型是一个做强化学习的必要条件因为这里面非常重要的一个点是你必须要有很聪明的模型才有能力做 self play 对吧做探索如果一个人他没有一定的能力他做自我的探索其实能力也不强的我觉得这个标准有可能是至少迈过 GP4 或者 Cloud3.5 这个水平如果你模型能力不足

那你做 self play 的效果还是会很差的吧那你想做好强化学习呢我感觉还是必须要有 pres train 这一步的其实 pres train 呢还是一个必经之路但 R 又是一个 pres train 确定的未来

我感觉做 AI 的人应该都会意识到就是你做 Pertran 最终往后一定会走向 R 的不是今天那就是明年对吧刚才提到就 Pertran 呢其实是让模型学光了网络上的数据对吧总会学完的那通过 self play 这种自主探索那你再选出更高质量的一些 case 去学习这是一个长期才更能 skillable 的一个路径但我觉得还有一个更

更深层次的一个就是说 self play 这个方法本质是用 AI 无线的算力来补数据不足的这个短板吧就是数据不够算力来凑我感觉也是符合当下 AI 的一个优势的吧其实一个好的 self play 呢其实能合成大量的高质量的数据甚至可能比人类历史上见过的棋局对吧游戏的数可能还更多其实

其实用这个数据量有可能也能做到叫超级智能吧其实你看 AlphaGo 下棋 Dota 游戏对吧其实都探索出了跟人类不一样的玩法也战胜了很多叫金牌选手对吧那还有一个循环我觉得很有趣就是说 Subplay 呢合成的数据再用到 Pertune 那激发更大的 Pertune 的一个计算的需求那这样的话整个大语言模型的 Pertune 呢其实就变成了

强化学习系统的一环强化学习变成了一个更核心的系统那这样一个循环有可能才能更好地走下去吧我可以理解这个范式变化是硅谷现在通用人工智能领域当下发生最大变化这个变化你观察到什么时候发生呢它很突然吗

我感觉 Anthropic Cloud 3.5 是一个标志性的产品它应该是 6 月 20 号发的 3.5 Sonnet 其实我们能看到代码和数学是显著提升因为 Anthropic 很早就重视强化学习我感觉 Anthropic 好像就摆脱了两件事一个是下级代模型一个是 RL 强化学习好像也不搞 Sorr 不搞 Search 好像主线就是 RL

R 这个事我感觉在研究层面其实很久了其实你看 OpenAI 最早就用强化设计的方式去打到它游戏对吧但我感觉核心变量还是语言模型的能力发展到了一定程度就是用大模型做 self play 这个事其实变得有效了我觉得之前是做的效果不太好但是我感觉语言模型 Pretrain 遇到瓶颈就是最近两个月吧外界可能还不一定意识到说

语言的 pretrain 已经到了一定 bottom neck 了你预计 RL 的上限是什么 RL 的上限就是 code math 没法泛化到其他领域以及其他领域你制定不出来好的 reward mode 但是呢如果你把 coding 能力变得很强我们未来用自然语言后端实时编程它有可能也会巨大的加速我们整个数字化的进程

你刚才提到这几条路线在一些明星公司里面他们资源会怎么分配我可以这样说应该说只有一两家公司把 RO 当作了最高有限机我感觉好像对语言的 Pretend 有限机放到了第二位如果是放到最高有限机的话那就应该给最多的 compute 的资源

因为 9 月份 Anthropic 和 OpenAI 应该都有新模型要发布大家都挺关注的对于这两个模型有什么可以值得期待的我感觉首先是 Cloud 3.5 Opus 这个进步幅度应该还是会很大的因为你看 Solnet 从 3 到 3.5 进步幅度挺大不知道 OpenAI 会发什么样的东西但是你看草莓已经造势很久了我感觉应该也是在 R 这条路线下

代码和数学肯定是大幅提升的我感觉这个提升的幅度应该都不会亚于 Solnet 从 3 到 3.5 但是会不会真的发新模型这个不好说这样的话如果是有了新的范式那之后 GBT6 和 7 还会有吗

我感觉如果只靠传统加参数 skilling 短期预期不高的我觉得范式还是变了但是我还是相信接下来一代代的模型还是会变得很强不知道还用不用 GPT567 这种代号也不确定的是模型参数会不会倍数级的变大我觉得还有一个可能就是说参数

并不会增加很多有可能比如说就是 GPSO 或者 Colour 3.5 这么大参数的模型但未来也能持续变得很聪明也能达到大家对 GPT-567 的一个预期吧

我觉得还有一个点就是说我明年有可能就会看到很小的一个模型可能比今天的 GP4O 还要聪明的很多单位参数下智能水平提升还是很快的所以这里面有一个期待就是说有可能实现 AGI 倒不一定需要巨量参数的模型所以在硅谷实现 AGI 的方法和范式其实已经彻底变了但是我们可能到今天还没有意识到

我感觉是不过新的范式下有可能也有很多卡点对吧你比如说刚才提到 reward model 它能不能繁华到更多领域 coding 和 math 其实提升的确定性是非常高的

因为下棋游戏数学 code 这些环境都有明确的胜负对吧可以比较好的做 self play 尤其是 coding 机器乐观然后但是你看物理和医药那你做了 self play 有些结果之后你还要做临床的验证这个周期物理的周期是很长的那你看法律和金融这里面其实没有太多标准答案的但有可能我们做到偏好和偏坏比如说我写了一个 memo 他写了一个 memo 有个裁判来

comments 说哪个 Memo 好那也有可能的投资里面其实你看一级市场你构建 reward model 其实就过于前瞻了这个反馈就太长了对吧那二级的噪音又很多但是你看文字创意这些领域有时候经常各种剧情反转跳遍这个其实 AI 是比较难捕捉的我觉得其实还有挺多问题要解决的就是能不能有一个绝对通用范化的 reward model 应用到各行各业

这个是不好说的或者说你只能在垂直领域一个个的构建但我觉得还有一个点就是说大家期待另类架构也很多从更基础更底层的架构出发不是 transformer 而且是一个未来应用到全模态尤其是视觉这个有可能也是需要天才科学家去突破的吧

另外我觉得可以提一嘴就是说大家对天才科学家的 value 我觉得还是应该更高的其实你看 character 的 Nom 这个就超过了 20 亿美金 Google 收了 character 主要还是为了 Nom 其实这个账也很清楚其实你看 Nom 如果对整个 Google 能提升 1%那就是 200 亿美金你看 Google Gemini 肯定也能占到 Google 的市值的 10%

那我们肯定是确定了能对 Gemnet 提升 1%其实也就是 20 亿美金我感觉这个在传统估值体系下其实是不被认可的吧这个收购价格就等于 Google 一天的利润好吧说到这一点你怎么看 Carrot.ai 的出售它给今年的 AGI 市场带来了什么信号我感觉就是上半场完全结束了

下班场正式开始了能进入下班场的选手其实不多我感觉 Norm 加入 Google 也是从 Google 进入下班场了那就是这个新范式 Self Play RL 这个事成为主角了大云模型的关键要素大家觉得是算力数据算法那这个新范式 Self Play RL 它的关键要素是什么它对比大云模型来说难度怎么样

我感觉 R2 它其实不是一个模型它其实是一整套的系统包含了很多东西其实刚才我们提到的那几个包含智能体对吧 Agent 可能就是模型对吧还有包括环境这个环境有可能是一个狗主人的家一个是 coding 的环境还有可能是垂直领域对吧动作 action 也是很重要的到底

是狗的这种坐下或者一些行为还是说其他的模态的输出包括奖励模型也很重要如果说最重要的两个东西我感觉就是环境和智能体智能体的目标其实是要来得到更多的奖励的其实这里面 RO 在语言模型中的一个思路本质上是

Inference 的 Time 去换 TrainingTime 其实是来解决模型向上 SkillUp 时暂时编辑收益递减的一个现状我感觉这个势必也会对 SkillLog 带来很多新变化或者说应该是传统的 SkillLog 不 Work 了但是新的 SkillLog 又开始了 By the way 这个新范式现在还需要那么多 GPU 吗很多人可能会很关心英伟达的股价

这个其实有点不确定我感觉在 RO 的新范式下其实 ScreenLog 就要被重新定义了因为训练时候的计算量它不只是和参数量上升有关还多了一个新的变量就是说 self-play 探索时候 inference 的这个计算量因为 RO 的思路本质是用 inference time 换 training time

来解决这个编辑收益递减的问题之前我们算过一个账就说对 GPT-4 和 Cloud 3.5 这种水平的模型我们算下来就说你要合成一个 T 的高质量的推理数据大概要 6 亿美金如果你合成 10 个 T 的高质量推理数据可能要 60 亿美金其实这个量级也很高但跟预训链不同的是

Inference 其实对单张卡的性能和集群规模的性能其实相对低一些也就是说不一定非得用最顶尖的卡或者 3 万卡 10 万卡的集群分布式的集群其实也可以跑 RO 的 Inference 所以我感觉就是说新的范式下 Skinning Law 依然存在那计算成本可能还是会大幅的提升来提升模型能力但提升的并不一定是模型参数量的快速增加吧

长期是否还需要那么多 GPU 我感觉就得看做强化渠的效率吧

今天看资源是比较浪费的对吧因为你跑的步骤 99%最终都是无效的但是你还是得跑对吧因为你一开始没有那张藏宝图对吧那要解决的是很多没碰到过新问题我觉得确实是存在大量资源浪费的除非说未来更高效另外如果做推理的话我感觉不一定也非得依赖英伟达的 GPU 了其实其他的 AMD 包括其他的 ASIC 芯片有可能也能 work 的当然

英伟达 GPU 还是性价比最高的就是说英伟达有可能比其他芯片公司的领先地位还是拉大的

它肯定也是能 cover 住这个新的范式变化的吧就说英伟达股价我感觉就说因为二级市场是容易先行外推的也许明年后年英伟达就是全球利润最高的公司对吧可能比苹果利润还要高千亿美金利润但我感觉先行外推的订单短期可能没问题但 AI 的叙事变化我感觉还是很剧烈的如果你说长期变化我觉得还是挺难下盘的

ACI 范式发生转移这件事情在硅谷的共识程度到底怎么样是所有人都共识了还是只是一部分人开始这么做了

我感觉只有在最核心的 researcher 中间有一些共识吧有可能也就几百个人我感觉还没有完全扩散吧或者说很多人都知道 RL 很重要但是不知道怎么做这方面人才也很稀缺还不是传统 RL 的那些人我感觉很多 AI 的管理层可能还没有意识到因为最近也只有少量那么一些 paper 才开始发出来了杨乐坤最近又在批评强化学习 RL 说这是资源浪费

但你看爱迪生发明灯泡也浪费了大量的实验资源对吧但你只需要成功一次嘛那你就可以大量复制我觉得 LeCun 现在喜欢说话引起争议吧有争议才有流量嘛效果才能被放大嘛他有流量干嘛我感觉这是文人的号称心吧彼此有时候瞧不上啊

有不同流派其实每个流派都有各自的道理的都要给自己的流派站台对我们是播客说的都很扎实的不追求流量

所以基于上面说的这些你对 AGI 的现状是更乐观了还是更悲观了一开始这几个月发现语言模型的 presh train 遇到瓶颈不顺利我感觉还是悲观的之前觉得二五二六年可能才会碰到瓶颈没想到这么快但是想了两个月之后感觉更乐观了觉得

SoPlayR 这个事儿 work 了之后感觉离实现 AGI 和 SI 超级智能我感觉更清晰了我感觉强化学习打开后的天花板还是更高的我觉得离实现 AGI 更 make sense 了包括我自己使用 Cloud 3.5 也是一个切身体会有什么最有效的指标能够衡量 RL 的进步

我感觉一个是 AI 能写出的有效可靠的代码的行数就去年的时候只能写 20 行今天能写几百行了也许明年就能写几千行你比如说今天你让他写一个美团官网的这个程序对吧

其实 Cloud 3.5 Sonnet 我感觉是一个显著的提升其实最近你看那个 Cursor 很火 Cursor 很火背后我感觉很大的原因是它接了 Cloud 3.5 以前不 work 的事今天 work 了我觉得这是一个很大的代码的行数是一个能有效体现的很量化的一个指标然后我觉得还有一个指标就是说

有一个公开的比较权威的数学题的测试集 GPT 今天就解决七八十分我觉得未来在没有人工干预的情况下能不能得到 100 分全部解答不追求速度让他 self play 自己去解如果全对了我觉得是一个很大的突破的强化学习而 L 目前全球来看谁最领先这个是不是 Google demine 强项

我感觉还是安骚水和 OpenAI 比较领先因为去年 Daryl 访谈的时候就公开提到过 RO 包括你看 OpenAI 也在造势草莓 Q*我感觉背后其实也就是强化学习 RO 吧过过 Dingman 它是在传统的强化学习很强新范式的这种 self-play 其实还不太确定但 Dingman 的人才优势还是挺强的但不确定管理层是不是重视我感觉除了这几家之外

其他的模型公司应该还没开始重视或者不知道怎么做甚至 Lama 应该还完全没有接下来我们有什么值得期待的一些大的事情或者节点我感觉就是接下来的一两个月 Cloud 3.5 Opus 和 Hiku 这些模型发布包括 OpenAI 肯定也会发新模型对吧因为草莓也造势很久了看看效果怎么样吧你觉得会让我们吃惊吗就是超出我们的预期吗草莓这个项目

我感觉能力还是会变强很多某些能力上会很强尤其是 coding math 对吧在局部领域再过来一两年我觉得 coding 是确定性更高的能看到局部的 AGI 或者局部超过人你让他写一个很复杂的程序在人的指导下一个不会写代码的

能生成一个很复杂程序我觉得这个是很有可能的最主要是人的预期太高了我不确定模型的迭代是不是满足大众的一个预期因为毕竟 coding 还是专业领域的有很多大众群体有时候感觉会不到的我觉得更长期的一个期待就是看前华学习的天花板能走到哪吧能不能在更多领域泛化通用我觉得这个是更重要的在你看来国内公司现在应该全面的跟进 RL 吗

我感觉如果 model size 短期上不去的话这样其实对 OpenAI 这种头部公司是比较麻烦的就是说对后面跟进的公司应该还是利好的吧我感觉如果是我的话那应该 all in200%的资源跟进或者说怎么去发挥

人力的优势用更多的人去标数据去设计真的有效的 reward model 对吧但这里有个前提就是你没有一个很强的底座模型是没办法做 self play 的你做的那个效果是很差的或者说别人用很强的模型看到的东西你用很差的模型是看不到的大家有可能利用这个 RL 玩到超车吗我觉得会有的

但是我感觉语言模型跟 R 它是一个乘积关系是一个 A 乘 B 的关系如果你这个 A 别人是 8 分你是 2 分那你那个 B 变化很大乘不上去我感觉是一个乘积关系但是变化有可能会给市场带来什么样的结构性改变我感觉就是下半场开始了嘛

以后就是 RO 的天下了吗我感觉目前看 reward model 能泛化到整个文本推理领域这个概率目前还是比较小的因为不同领域对 reward model 定义很不一样其实这就给了很多创业公司去建立垂直领域 reward model 的一个创业机会但我感觉更具体的你得看 OpenAnswer 是不是把

reward model 的 fantune 接口开出来我觉得这个是很关键的其实每个领域都值得建立一个垂直的 reward model 这样我感觉在每个垂直领域都有很多的收益创业公司就得找到 reward signal 我觉得这个是比较重要的我觉得机会挺多的比如说一类是给垂直领域建立 reward model 的比如说金融法律对吧还有一类是通用的就是说你用一个 agent

建立一个通用的场景比如说一个浏览器也有一些公司在做当然还有一个大的变化就是说有可能不需要叫超大规模的单一互联机群了其实这里面不确定的是 GPU 需不需要那么多但短期肯定是需要的长期不好说不过我感觉这里面我自己最兴奋的是 coding 编程编程能力的民主化我觉得这个是一个很重要的赛道

By the way 再问一个问题假设模型能力就停留在 D4O 的水平会怎么样我觉得也有一般的概率能实现 AGM 如果能放号的话我就没问题如果不能那下线可能也是能把传统的机器学习都提掉以及 coding 会很强那 coding 如果很强有可能也会在很多领域加速我们接下来聊聊硅谷的 AI 的赛道

我自己先说说我对国内市场的感觉因为我觉得去年和今年初中国的投资人在狂热的用 club deal 的方式投了一波大模型公司之后今年中国最火的投资主题好像就是人行机器人硅谷你怎么定义硅谷的 AI 赛道对如果是新的 AI 赛道的话因为我们自己只看模型我觉得具体来说就是得靠 AI 这一波模型为基础的我们自己画了几个圈

最大的一个圈就是大圆模型对吧这是这一轮技术革命的核心那围绕大圆模型呢其实外面有三到四个圈我感觉就是说搜索 coding 视频包括理解和生成还有机器人我感觉就是一个大圈可能套四个小圈吧

可以展开聊聊每个赛道我可以先说一下代码就是说为什么代码会成为一个单独的一个赛道是不是足够大其实你看代码这个方向过去一年在硅谷还蛮热的就是有四五个独角兽公司吧 AI 程序员 DevonAugment 还有 Magic 还有巴黎的 Posev 其实这几个公司最新都已经二三十亿美金不值了包括好几家产品还没法用的包括还有 Cursor 对吧

一个最近特别出圈的编程工具 Cursor 火我感觉背后最核心的还是 Cloud 3.5 Solid 代码能够变强了就是刚才聊到有效代码从几十行变成几百行我自己有个比喻就说 Cloud 3.5 Solid 可能就是这个行业的 iPhone 的摄像头今天的 Cursor 可能就是一个基于摄像头之上的一个拍照工具今天的 Cursor

我觉得还是给专业群体的一个工具还是很早期的其实我觉得最期待的就是能一个给大众级消费的 coding 编程工具为什么期待大众级我感觉背后还是有一条叫技术民主化的一个趋势就是说你看 Adobe 的 Foodshop 其实在创意和内容里面很强全球两三千万的专业设计师吃饭都靠这个对吧但是你看在大众群体里面基本上还有

抖音 剪映 看话这种消费级的而且活跃用户都是上亿级的比 Foodshop 几千万还要大一个量级其实你看 iPhone 是有摄像头的但抖音没有在苹果还是有一个独立的超级应用我觉得未来有一种情况就是说我用一个自然语言描述我的任意一个需求比如说我给手机说让超市每周一八点给我家门口送到一些水果这周的食材今天是没有一个

程序能满足我的需求的甚至说以前的程序只能满足头部的需求对吧长尾的需求就是没有被满足的我感觉未来就是一个自然语言编程然后 agent 是叫多步长距离的推理能完成的对吧

我感觉如果投 coding 的话只做专业开发者群体是有限的我感觉上线天花板可能就是 GitHub10 个币对吧然后我觉得最有想象力的故事还是应该去做大众消费级市场它有可能就会有一个叫 Task Engine 叫任务引擎 Google 是一个叫搜索引擎 Search Engine

我感觉这不就新一代的 Google 吗 Google 是信息对吧那 Task Engine 就是说完成任务那完成任务才是这一轮技术革命下最核心的一个主题当然这里面谁来完成不好说是不是 CHP 完成了甚至说现有的搜索公司完成了还是说落到这些 coding 的公司我觉得不确定甚至说今天做

做专业群体的编程工具的是不是能下沉做到消息级群体我觉得也不好说之前我们播客说到 Properlacity 是能够匹配现在模型能力的最好的应用在 RL 的这个新范式下现在能匹配这个模型能力的最好的应用方向是不是就是 coding 对我感觉就是 coding 有可能 Cursor 就是今年的 Properlacity 模型能力匹配产品最 match 的

一个阶段因为刚才提到代码生成能力从几十行到几百行 Cursor 变得更加的 work 了但 Cursor 跟 Property City 我感觉我们也在想对比就是说搜索和广告这个市场是足够大的你抢过来 1%这个生意都很大但代码其实付费群体是不够大的其实这两个领域它都有个巨头的编程工具最大的是微软的 VS Code 垄断性也很强但是广告的

生意足够大 我感觉这个是个相对的不同但另外就是说 Populacity 和 Cursor 今天它的门槛都还是偏高的就是怎么下沉到更大的大众消费级市场我感觉这个可能是大公司出现机会的所在的地方中国有 Populacity 和 Cursor 吗 Meta, GenSpark, Cursor 还没有这是 coding 下面是视频 除了 coding 的

除了 coding 就是视频我感觉 coding 和视频是我现在最兴奋的两个赛道觉得应该去 battle 的两个吧为什么视频呢就说首先我们能看到 Sour 出来之后过去的半年视频生成的

进步效果非常大其实你看半年前一个人走路那个动作是很慢的今天是很丝滑的其实 Sora 给行业的推动我感觉是很大的就是给大家指明了可以走向 DIT 这个路线为什么看视频我感觉就是大家可能远远的低估了创意和内容赛道了其实你看手机有了摄像头之后每个人都可以拍视频了就有了抖音对吧其实很多抖音的

视频播放量能几个亿影响力外面比传统的大导演影响力还要大但如果视频生成能力如果很强了呢

那我觉得人人可能都是电影级别的一个导演了我们每个人都有自己的想法和创意只是说之前没有能力实现今天可以低成本的实现了就以前一部电影可能几千万美金上亿美金的拍摄成本那未来有可能很多爆款的电影可能就几万美金的成本从编剧到生成到甚至到营销我觉得甚至可以简单的说就说

未来 AI 能不能产生更多的李白杜甫毕加索樊高就是 AI 生存的内容质量是更高的人和 AI 共创可以有更多的天才的想法能被实现我觉得这是一个很兴奋的我觉得电影只是一个例子就说因为今天 AI 的可控性还有限有可能在游戏领域可能是更早容易落地的我觉得游戏是一个

非常有意思的但是今天的视频生成整个格局特别不稳定它不像语言模型一样大哥老二做次比较清楚视频生成其实整个领域的风险我感觉也是巨大的为什么它不能稳定下来技术架构没有统一今天叫个领风骚 100 天每家都有一个自己的 byte 比如说有的人去做广告群体有的人去做电影动画用的数据也不一样

有可能我感觉这个会像内容行业有可能它不像是语言模型一样赢家通吃它有可能是分散的一个

视频赛道是很诱人的但是风险很大如果你往大了说他可能有新的 TikTok 这种级别的机会但是这个窗口有可能是比较长的今天已经开始了但是有可能决胜的窗口可能是得持续个三四年所以我感觉这个过程中就得紧密的去跟着甚至说你今天可能就得下场或者去 bite 一些东西包括未来技术架构

也是会变化很大的有可能会有完全全新的架构出来视频不只在深层理解也很关键对其实你看 Meta Ray 板眼镜这个就蛮有趣的它现在可能销量有个上百万台但假如全球有一亿人每天戴着这个眼镜

我觉得它能从我们日常习惯里面总结出来更多的人类的习惯商业的习惯我没有发现的规律我觉得它就是新的牛顿嘛能总结出来很多我们没有发现的规律而且这个可能还是采集的非常关键的一类数据有可能这是机器人需要的很重要的数据第一视角嘛

你怎么看语言和视频模态的关系我感觉语言还是最难的就是刚才提到它是一个人类几千年的一个抽象语言的竞争其实是最激烈的作次排名我感觉今年跑完基本上是就稳了别人想再翻盘我感觉挺难的但是视频的格局其实作次

很模糊变化会很大我感觉有可能有一个语言底座再加其他模态有可能是相对容易的但其他模态想反向的再做好语言模型的底座我感觉是比较难的视频那块有可能会独立或者多加共存就像内容产业也是有可能的

视频生产你最看好的是哪家公司我觉得现在比较难说因为格局不稳定拜订任何一个初创公司风险都是很大的你只能在这个阶段相对选最优因为之前最早 runway 很火后来 pika 的营销很出圈今天从视频生产流量上 Luma 是 runway 和 pika 的七八倍了包括 hyper 有些产品

做的也不错包括今天我们还不知道 OpenSR 2.0 进展怎么样它肯定是资源上人才上肯定是更强的你包括字节跟 Meta 它肯定是在他们的核心辐射之下我感觉

今天不好说哪一家最好我觉得这是一个在未来三四年也是一个关键的角逐的赛道除了 coding 和视频第三个是机器人通用机器人其实硅谷这波通用机器人的 hype 我感觉还是 OpenAI 带起来的就是说大家想赌一个巨声领域的 OpenAI

但这个赌注我感觉不是一个商业和投资问题其实还是一个基础科学能不能突破的问题好像还挺早期的对硅谷的这些通用机器人公司我感觉本质上都还是一个 research lab 还不是一个商业公司但这个 lab 你说到底是两三年突破还是十年突破我觉得不好说的今天肯定是靠着十年这个时间维度的

我感觉这里最核心的是说谁能像 OpenAI 一样能融到二三十亿美金你能有足够的资源多试错几次如果没有技术科学突破我感觉这里面优秀的人才还是会被大厂给揭秘过去另外一个你看不同的是大语言模型跟机器人机器人的重要性对大公司来讲其实

没有像语言模型那么重要语言模型好像在每个科技巨头的主线之下因为不是每个巨头都得要做机器人的今天做机器人的巨头我感觉主要是 Google Tesla 还有 Amazon 这三个了其实你看 Google Tesla 内部的团队我感觉都比外面还要强每年投入几亿美金他们自己并不一定会像微软一样去支持一个巨深的 Openshift

我感觉还有一个很关键的基础科学问题就是说今天还没有在通用机器人领域看到通用和泛化能力大家都是针对特定场景去做一些叫模仿学习 A 设备采集的数据 B 设备现在还不能用我觉得这就是一个有趣的甚至说你今天采数据的成本都很高从几十美金到几百美金不等甚至每个场景都要采几百个小时场景和产品定义

今天没有看到哪个好的或者说你真的愿意买一个带回自己家的就真的有用的你今天让他帮你把衣服放到洗衣机里再放到烘干机里你让他去把吃完的这些餐具放到洗碗机里再倒上洗碗液这个好像都做不到对而且他可能做到了 A 这个场景 B 就做不到对完全没用对但我感觉中国的语术是比较好的

它起码可能是一个机器人的富昌这是打底的其实这个背后还是中国的供应链优势比较强现在美国的通用机器人有哪些明星项目 OpenAI 投资了一个机器人公司叫 Figure AI 你这个有了解吗对 我感觉美国我认为的最头部的是两个一个是 Pi 是 Google Robotics Team 出来的

Chelsea, Sege,他们几个我感觉是人才上绝对最强的一个然后还有另外一个是自动驾驶公司 Cruise 的创始人 Kell 做的 The Boat 我感觉这两个是核心圈子包括那些 researcher 认为最头部的两个吧除了这两个我感觉声量和融资比较大的还有红杉美国投的一个

Skilled AI 还有一个 Figure 差不多是几家公司你刚才问到 Figure 我感觉它是融资能力比较强 CEO 讲故事能力特别强而且 OpenAI 投了它我感觉好像就投了几个 million 并没有投那么多钱 CEO 好像讲了一个故事说 OpenAI 的机器人的模型交给他们做我感觉其实合作形式可能就是 Figure 给 OpenAI 一些机器人的数据然后 OpenAI 有一个团队帮他翻 Tune 一个机器人的模型 Figure 去把这个东西端出来

端到端弄好但我就感觉非个这种定位你的 AI 能力也不是最强的硬件能力又不如中国公司强他只能说在硅谷的话硬件能力相比其他公司强就是端到端优化可能好我总感觉竞争力定位比较尴尬硬件肯定还没有 Tesla 强反正我感觉这个公司是有点被高估的人才密度上好像也不见得有另外几家公司强所以你觉得第一梯队是 The Pi 和 The Bolt 对

中国的第一梯队你觉得是谁在通用集群这个赛道我觉得还是非常不清楚的今天去投通用的 timing 我觉得还是比较早的

投人形呢我觉得人形和通用是一致的一件事一件事他没有可能先把人形机器人这个形态做出来然后再等着通用能力灌到这个机器人里面吗我觉得最后是需要 fundamental 基础可以突破的没有泛化通用我觉得是来不了的据你观察国内的机器人和硅谷的机器人项目团队有哪些不同

我感觉国内应该走 Tesla 这个路线从模型到硬件端到端 AI 在模型上可能投入不用很大你就等开源国内做你肯定是先定义好硬件产品或者场景你先找一个特定场景去落地你像 Tesla 就有出行刚需场景手机也是一个通话这种刚需场景你才能落地把轮子转起来我感觉今天想做场景或者动作上完全通用

这个技术上本身就是不 work 的你做了 A 动作 B 动作是没有泛化的你在 A 设备采集 B 设备也不能用对吧我感觉硅谷现在都是想投一个技术人的大脑想做 iOS 或者安卓在国内你就读整机 OV 小米对吧但我感觉还有一个就是说从中距来看

有可能不会是一个 AM 模型适配所有硬件,像 iOS 安卓是一个适配所有硬件,但是

我感觉机器人因为 A 设备采的东西 B 设备不 work 它有可能就是得端到端的从模型到硬件到数据端到端的优化我觉得有可能是你就得找到一个好的大的场景去大规模的数据数据针对单一场景去端到端优化而且 AI 能力还只在这一款上先体现我觉得 Tesla 那套逻辑可能还是 make sense 的其实机器人跟自动驾驶我感觉还是相通的

但硅谷除了 Tesla 以外制造能力都不太行我觉得肯定还是需要中国的供应链能做出来的吧硅谷我感觉是看不到有什么整机全套的产品出来的人情通用这个大爆发这个 timing 可能还是得叫 5~10 年这个范畴吧

很可能这批公司没有真正做出来我觉得很可能 5~10 年大家都还在一个 research lab 的一个阶段所以你就得摆上最牛的最独特的一些科学家人才了你等着被大公司收购但硅谷是容易收购的中国好像收购习惯不多通用机器人最核心还是技术的 timing 所以你在硅谷投一个机身大脑在国内投整机我感觉是一个比较好的害质但又有一个悖论就是说

是不是有可能不存在一个机器人大脑有可能这个大脑就是 gpt 或者通用的大模型你做一个机器人大脑有可能它也不适配所有硬件 A 机器的数据不能用到 B 机器上这也比较尴尬还得端到端的适配

今年巨声智能这个赛道真是太火了国内的投机器人投资人说在大脑层面国内有很多做这方面研究的华裔的科学家所以他们不担心在 AI 能力上追评美国他们觉得这个差距是要比大模型要小的你怎么看以及你觉得中国的这些公司有没有这种 research lab 的文化

我感觉国内硬件能力肯定是非常强的国外的 AI 能力是非常强的我感觉如果能有什么团队能把这两个能力结合到一起这个肯定是最好的然后你从大模型到多模态再到巨神智能包括未来的世界模型我感觉这是一个 AI 发展的过程其实每个环节都有自己价值甚至说这里面的很多的 AI 人才是可以跨界的你比如说做多模态的研究其实就能促进机器人和世界模型的研究

这里面其实挺多华裔背景的科学家的吧也有不少人回来了

我觉得是有可能培养出来一些比较好的 AI research 的文化但我感觉除了人才其实经济基础是最重要的经济基础这种创新环境甚至说信仰我觉得这个比较需要但其实很重要其实这两年愿意回来的人还是在减少的相比七八年前我感觉国内也有国内的优势就是说各种英年支持供应链也不一定非得照着美国那套逻辑去一等一的去弄

我觉得最现实的可能还是说解决一些具体场景的具体问题也不一定非得用最强的 AI 能力我觉得今天国内做通用其实还是有点早现在是投机器人最好的时候吗我觉得看什么角度吧如果期待投一个很强通用的能力的

或者说在家庭工厂做完全通用的任务的机器人我觉得今天肯定不是最佳的 timing 了我觉得这个 timing 还挺远的但今天有这么多资源和人才进入这个领域最后也不至于说完全做不出来什么东西比如说美国的机器人大脑机器人的房地产 model

我觉得肯定还是会有进展的这帮优秀的人才团队可能还是有很大概率去被收入的比如全球在机器人的投入越来越大把硬件做到极致卖给全球的实验室我感觉这也是一个挺大的市场有可能机器人的研究会带动很多周边的一些研究有可能某些东西先出来这一国际主浪潮对于之前成立的机器人公司会有什么样的冲击和影响因为资格赛道好像又 10 年了

对主要是之前的机型公司它商业化还没做好今天我不确定它有没有足够的资源真的投入到通用人形的研发其实做人形是很容易的大家都会发一个产品好像没有人形今天感觉就落伍一样但是在技术上真的做投入的

我觉得是比较少的那如果只有一个型它一直没有技术落地的话这些公司怎么办拿了很多钱几年我感觉还是会走向特定领域就是大家有理想也会有现实吧就看谁能先定义出来一个好的场景或者一个好的产品今天还不太多对我觉得你说它的那个目标不明确目标不明确它不像扣的那样那么简单对

对我设计一个人性机器人到底是帮我干嘛呢还是帮我搬箱子还是帮我洗衣服对我感觉现在只有军用场景或者消防场景没比人的生命更贵吗那这种有可能还行但是军用和消防它还是一个特定领域去优化的更多还是一个设备的角度

对它其实对于是不是人行关注度不用那么高对甚至说对这里面的 AI 的能力要求是不是有多高复盘来看在硅谷过去年哪些东西是超出你预期的我感觉超预期的公司层面就两个一个是 Ethopic 就是从落后 18 个月到从模型上追评了甚至有微弱领先优势了

然后还有一个就是 ASO 所的 Proplastic 这也是我们上次博客聊的我感觉这两个公司还是有些超预期的其实其他超预期的我感觉不算太多 OpenAI 我感觉就符合预期甚至说它的领先优势没有进一步放大我觉得甚至有点低于预期一些我感觉最近恶补学习了强化学习之后我就感觉走向 AGA 的路径更清楚了强化学习的提前到来我感觉是超预期的

你最近几个月听到最让你兴奋的 idea 有哪个我感觉最重要的还是把模型的能力变得更聪明其实没有其他的 idea 这还是最重要的 idea 站在今天拿 LL 我们再去重新对比一下移动互联网它的主线的叙述逻辑是什么有哪些明显哪些暗线对我觉得移动互联网跟今天的 RM 做个对比是蛮有意思的我们可以画一个图就说

主线可能有一条明线一条暗线移动互联网的明线可能是全球多了四五十亿的移动用户一条暗线可能就是有了用户行为数据做推荐其实过去十年没有做推荐的公司都没做大我觉得是蛮有意思你看移动互联网还有几个关键的 feature 能力就是大屏幕摄像头还有 GPS 其实这每个 feature 都诞生了非常大的一些公司就是大屏幕摄像头就跟

TikTok 抖音一样 GPS 就 UberDD 这些你看今天的 AN 的主线暗线关键 feature 到底是啥我感觉一条明线还是 skilling law 虽然是 skilling law 在发生饭吃的变化

其实 skilling log 的背后的核心还是 compute 的这个我感觉大家有一定共识但这条暗线到底是啥就之前咱们新时代摩尔定律里面觉得那个暗线是成本但今天我觉得这条暗线有可能是 self play 强化学习大家有可能会低估了强化学习的重要性甚至说有没有一个可能性今天不做强化学习的公司下一波浪潮里面都跑不出来这就跟推荐一样

那今天 RM 的关键能力呢我感觉可能如果让我排序我感觉是 coding 多莫泰数学 agent 这几个吧甚至说可能还有些其他的就说个性化 土抛性啊

我觉得还是跟我们之前提的那个观点一致就是说你观察这几个主线暗线也好或者关键能力它也是渐进式提升的我觉得应用也是随着它这个渐进式提升逐渐解锁的吧你什么时候意识到 RL 这么重要的也就最近两三个月吧 AI 领域的最大体验的数据是从哪里来呀以东互联网最大的数据来源都是新产生的而不是旧的应用的积累

我感觉可能是做墙外学习的过程中 AI 产生的数据加上人指导的数据就是一个教练员指导一个运动员反复训练的过程中产生的数据现在今天你能够重新评价一下中国这些 LLM 的公司我感觉大家在模型上做的都差不多技术辨识度依然还没有完全拉开背后我感觉还是因为做了太少的基础研究吧

其实很少有人拜访前沿的研究大多数都是在 follow 硅谷的进展把硅谷的一些技术做产业化落地另外一个就是想做 AGI 的可能不多大家都想做 K-Lab 但今天可能还没有看到 K-Lab 长什么样的影子今天可能还主要局限在 chat

Search 还有 Character 这几个产品形态我感觉今天还是 AGA 的故事在称估指月亮和六便士吧就是但也没什么好办法是我的话我可能也只能这么做我感觉还有一个就是说去年的时候大家可能都花了比如说三五千万美金去训练了一个初代模型大家有可能能力上做到了 GP3.5 的水平但我感觉后面可能很少有人在继续跟进几亿美金投入在训练一个模型了

甚至说我感觉得有百分之七八十的公司会放弃 Post-Train 预训练大家直接用开源去做 Post-Train 就可以了因为大家去做预训练有可能还不如开源这个水平我感觉可能大家是没有明确看到未来的收益包括你贸然做 Post-Train 资源投入的风险也太大了年内你预计有几家能够达到 GBT-4 的水平你觉得 GBT-4 的水平还是一个关键的门槛吗

我感觉国内会真正意义上达到 GPT-4 的我感觉至少能有两三家的比如说字节 deep seek 还有接约这种还是在认真的做 skill up 我感觉 GP4 还是一个走向下一阶段的必要条件如果你这个不行后面还是一个 A 乘 B 的成绩关系你的 A 不行我觉得是比较吃亏的但 GPT-4 和 RL 可能需要同时做

对中国应该加大投入 LLM 吗我感觉现在投入还是太少了你看移动运营商 4G 和 5G 的投入应该都是七八千亿人民币的量级公路高铁投入也比较大对 AI 方向你再怎么投入都不为过我觉得这个还是挺可怕的我们想想为什么会有鸦片战争或海湾战争这是不对等的一个东西为什么我们的技术研究做的不够我感觉很简单

经济基础不够厚你失败了就得出局了其实基础研究我感觉是一个社会在资本富足后的一个奢侈品其实你看当时为什么有贝尔实验室是因为 AT&T 他很赚钱包括 DeepMind 之所以存在每年的投入那么大还是 Google 它有印钞机业务我觉得如果没有一个强大的经济基础其实没办法支持这些科学家去冒险的

你包括愿景和文化也很重要比如说 AGI 就很诱人对吧就能吸引到最优秀的人他也不用太担心这个商业压力我觉得一个非常纯粹的研究性的组织这个文化愿景我感觉也是很重要的基础研究一般来说需要什么样的文化

冒险文化吧中国以前就是一个农耕为名吧耕好自己的一亩三分地你看我们写的这些 paper 领导让这个人写那个人写对吧量很大但是 fundamental 突破的极其极其少因为欧美它是一个海洋为名吧我感觉是勇于冒险或者探索为之的东西也有契约或者合作精神我觉得研究的氛围很重要

就是要一堆很强的人在一起碰撞今天我们的牛人都分散了每家都有也没有集中起来怎么才能更好地支持基础研究呢我感觉就得让有经济基础的富人和有利润的公司多投入吧甚至鼓励科学家们的一些造福效应因为社会总是有少数人创新和冒险推动的

而且基础科学研究的投入亏了对富人没啥影响但成功了也得让这些人赚到大钱我觉得千万不要拿穷人的钱去做科研冒险亏了钱就会有人拉风扶让科学家们的包袱负担会很大你在美国创业你容易美金亏了可能被大公司收购了擦了屁股有可能三年以后再来了

但在中国你亏一亿人民币我感觉创始人年代好长时间翻不了身我感觉同样亏了一个亿的单位货币其实结果还是区别很大的所以还是得先致富再冒险和创新最后一部分我们照例来点评一下硅谷各个主要的 player 第一个毫无疑问是 OpenAI 了在 OpenAI 的商业上过去一年你有什么总结

我感觉还是有点浪费了技术领先的红利你看 GP4 刚出来的时候去年出多么多么的领先但是这个领先优势并没有转化成很明显的产品或者商业的飞轮上的一个优势你说今天它可能有 40 亿美金的 AR 年底可能七八十亿美金这个也不差数字上很成功但我感觉按理上应该说更好的我觉得背后有一个很大原因可能就是没有找到对的人做出更好的天才的产品

你比如说咱们提到 selfplayRO,ChatGPT 其实今天可能没有很强的数据飞轮的它不像推荐系统广告系统这么强包括你看 OpenAI 除了 ChatGPT 以外其他的产品好像都不算太成功 so far 今年又发了 Sora 对吧又发了 SearchGPT 包括之前的 Plugin 也好 Dali 也好

GPS 也好好像都有点感觉产品没做好就发了自己也没啥好处反而是启发了行业吧就有点给行业做工业的感觉拆 GPT 的订阅商业模式今天看我觉得比广告还是要差的

广告这个商业模式还是今天最好的商业模式在 OPI 的组织和人才上你怎么看他们感觉今年一直都很动荡那么多离职对他们影响大吗我感觉不会有 Fundamentals 的影响首先是最核心的人没离开其次 OPI 也不会说缺了某个人就转不下去了我感觉他们的人才密度极其的高

反而管理可能不一定压得住我感觉人才是过剩的但是有一些核心的创始人离开有可能对整个公司的内部信心包括凝聚力可能有些影响创始人都走了甚至还加入了竞争对手公司我觉得这个可能会有些信心上的影响比如说 Greg Brockman 他是联合创始人和总裁他离开影响大吗我感觉技术上影响应该不大

也许历史使命已完成了但 Greg 应该是最 opera 的人就是感情极其深的一个人我觉得也不清楚他现在的状态他是说长期休假是吧对也许硅谷也有这个文化但是最近在外区也有好几个朋友碰到他在跟一些比如说人聊天不知道这是 Founder 还是 Dropin 还是 VC

不确定他会不会说比如说自己创业什么的 Greg 以前是一个比较喜欢 0 到 1 的人但我感觉好像 Open 安我不知道算不算完成 0 到 1 了我感觉如果说依然去做 AGA 他应该留在 Open 安做 AGA 或者说 maybe 离开后去创业也比较有意思另一个联合创始人 Joe Schumann 他宣布加入 Anthropic

John 离开应该影响也不大因为他以前是 post training 和 hour 的负责人按理说 hour 是今天核心的核心其实他平时不太喜欢管理很多工作去年都已经交给另外一个 Brett 了

他们现在 Post-Train 的核心我感觉他就想独立的做 research 做 IC 吧 Anthropy 一个比较纯粹的 research lab 可能这种文化 may be 可能更好但我感觉他可能加入 Anthropy 也许对 Anthropymay be 帮助更大因为有可能两个公司的信息就拉齐了作为核心的管理层但是有可能我还不一定知道 Anthropy 的核心信息 OpenAI 人才足够的多而且核心的人并没走其实这些人

离开可能影响并不大伊利亚的离开今天回头看可能的原因是哪些大家说他离职跟 Q*有关我觉得一种概率就是伊利亚可能更早的看到了实现

不止 AGI 叫 SSI 叫超级智能的一个更快的路径但也许比如说去年的时候跟 SAM 没有达成一致 SAM 可能跟追求商业或者拆 GPT 这些要么就是管理层可能有一些不可调和的矛盾其实你看 Illia 的新公司叫 SSI 超级智能我感觉他很自信似乎看到了实现超级智能的

路径不然也不会轻易开一家公司甚至说可能近期都在更精进的招人你说伊利亚能败他啥我感觉还是败他强化学习 Q4R 这些东西

其实 Q*最早是基于 Deepman 的一个 paper 应该是 Illya 最早提出来的其实刚才我们聊到 18 年他就在提这些东西其实做强化学习是 OpenAI 很深的一个传统的我感觉如果 Q*真的是 Illya 提出来的我感觉他应该很早看到了纯语言模型 Pertune 的一个不足了

好媒更像是一个项目的代号吧 R 呢其实是方法 Q*可能是最早的一个源起的 paperQ*是个 paper 最早定买的一个 paperAI 解释今天你觉得颠覆了任何的巨头没有主要是 AI 的颠覆性好像没有那么强或者说时间没有到但我感觉更会重构很多巨头吧其实你看今天的 GPU 和 AI 的人才都很贵对吧其实有点像你去组织一个战斗机飞行编队

有的飞行员可能就开 100 个小时有的人能开 1000 个小时有的人开 1 万个小时这就是所谓的百卡人才千卡人才万卡人才其实你没有开过战斗机经历过大量的训练有可能他就不一定是一个好的飞行员创业公司今天就缺卡我觉得还有一个比较大的不同就是说今天的 AI 只是改变了生产环节但是分发和消费环节都在成熟的老公司这里

美国红杉的合伙人 David Kent 他不是发表了一篇文章是说 AI 的 6000 亿美元之问吗他就说每年需要填补 AI 的收入缺口增加到了 6000 亿美元强调了这个收入增长与基础设施投入之间的差距你怎么回答他这个问题啊

我觉得挺难回答的这个文章标题我感觉也有点标题的其实也肯定也没有华旅千亿那么多因为大头还是有些大公司语音广告用到的多真的用到模型上的其实我感觉还可能没到千亿美金我感觉 revenue 和 use case 肯定是低于预期的我觉得这个是共识但这个也没办法但我感觉只能说看下一代模型尤其是 GP5 或者说草莓这些的进展我感觉 David 讲的这个问题其实是一个

历史规律问题吧其实每一次科技变革都是经历先硬件投入再 infra 建设再应用爆发历史上也都是先有铁路建设再有后来的经济活动先有芯片 PC iPhone 再有移动互联网先有数据中心才有企业上云我觉得还有一个有意思的就是说 2010 年的时候 Amazon 当时只有 4 颗的

三分之一的市值那个时候思科已经 1500 亿美金了但现在思科是 2000 亿美金 Amazon 是 2 万亿美金十倍了所以我觉得硬件投入 infra 建设可能还是需要时间的应用和收入其实是后半程体现的更好的我们其实前段时间做了一个 AGI 的指数代号叫 AGI-X

其实就是反映了不同阶段的公司变化其实这个指数里面 40%就是硬件公司的权重尤其半导体产业 40%是 infra 的公司 20%是应用的公司我感觉随着

AI 建设的发展其实后面这些的权重比例肯定是要增加的你比如说我们看到 SourceNow,Palantir 其实这些公司在应用上进步还是比较快的在 2024 年 Q3AI 叙事还有哪些非共识这个问题也比较有意思有可能开源模型和小模型在很多特定高价值任务上并不 work 比如说我们就拿 Property City 来看其实你同一个用户

问同一个问题用不同的模型这个答案差异很大因为你用这个产品去做探索其实一个大的模型一个小的模型对你的结果用户体验影响是很大的其实在很多复杂任务上你的问题解答力就比较低最后你还得又回到 GP4O 或者 Cloud 3.5 我觉得这是一个过去几个月观察到一个很有趣的就是发现用开源或者用小的很多问题解答不了这个是一个我给你非公式吧

第二个我感觉是很多硅谷或者这一波的 AI 公司它不是商业公司我觉得本质上还是一个

Research Lab 的一个感觉有可能在美国就是个常态就像贝尔实验室 AT&T 支持一个 Lab 对吧巨头以投资的形式给到 Funding 支持发展这个 Lab 的研究成果呢再给到巨头做商业化其实这样也挺好的因为巨头内部的文化包括人才不够可能也做不出来 Lab 有一个自己的好的文化而且巨头投的这些钱还不算亏损巨额的亏损还不用并表我感觉有可能还是不错有可能会不会这是一个

常态这些公司就是一个 Live 的形式我觉得有可能也不指望它真的有大规模的商业爆发我觉得还有其他很多好玩的你比如说可解释性的研究我觉得研究是一方面但如果可解释性研究真的突破了其实更重要的是对后面怎么设计新的模型是有很大帮助的其实你看今天的模型的参数很大

但真的你每一次 query 它激活的参数是很小的你把那些其他的参数砍掉是没问题的这个就很像人的脑科学的研究人脑也是分区的最后真的研究清楚模型的科解实性激励我觉得这个是蛮有意思的很多人预期多摩泰但多摩泰真的能不能带来智能有没有 skilling law 不好说

扣的有没有 skinning law 不好说我们相信是有的包括刚才聊到数学和代码能不能放好到各种领域后面的追赶者相比领先者的结局到底是怎么样的历史上有非常多的追赶者但是结局往往是不太好的虽然说头部可能遇到一些路线上饭食上的变化但是追赶者真的能追上或者反超吗这个不好说追赶者为什么一般命运都不好因为国内的模式创新他们就会觉得一般都是第二名赢

追赶者成功第二名反潮第一名成功的好像只有抖音反潮快手其他历史上好像美团也不是第一个对美团做外卖也不是这种也有 Carry.ai 之后哪些 AI 公司还有可能被收购能不能做个预测 Populacity 比如说 AmazonMetaApple 我感觉好像每个科技巨头都有一个做搜索的梦想

像 Property City 这种搜索的意图数据是极其有价值的能让平台公司能更深入的了解用户的需求提升广告或者服务的一些匹配度另外搜索的整个技术站其实是最前沿的能反向带动整个平台的技术站的升级其实你看微软有了 Bing 才能在做 Azure 这个语音的时候是更有优势的

Mystery 我感觉也是 Mystery 并不是说做不下去了我感觉他做的其实还蛮好但是他不一定能进到新的赛场里面所以有可能我觉得值得一个巨头去买掉他吧 2000 年互联网 Bubble Burst 以后只留下了 Amazon 今天如果 AI 的 hype 破灭了谁会是下一个 Amazon

这也是很好的一个话题我感觉硬件公司是值得看的一个是 Apple 一个是 TeslaApple iPhone 是还值得继续好好研究的虽然 Apple 的 AI 能力不是最强的

但是大概率未来的 K-Life 还是涨在手机上的 Apple 肯定还是一个叫无形的受益者我觉得这个还是一个挺大可能的我感觉 Tesla 也是长期值得关注的真正意义上从一个卖车的公司变成一个真正的 AI 的公司整个交通行业还是变化更大的而且它也是一个机器人公司但今天的自动驾驶我感觉还是受限于端侧算力有限在 AI 的大量上变化下你对一二级市场有没有一些预测

今天看 AI 好像不是颠覆老公司我觉得很大程度上一个关键词叫重构 Enable 一批老公司吧其实 AI 提升了生产力但并没有改变生产关系它只是改变了生产环节但分发和消费环节都还在成熟的老公司这里生产关系和生产环境都还在老公司手上老公司大概还是受益的其实我觉得之前我们内部经常举的两个例子

一个是 AdobeAdobe 在当年上云之前就是一个几十亿美金的传统软件公司你看转云之后商业模式变好了市场规模变大了现在是一个两三千亿美金的公司包括中国的海棠卫视对吧之前就是一个卖摄像头的公司一个硬件公司经历了上一波计算机视觉的它的商业模式变好了规模也变大了然后增速也变了 PE multiple 都变了这一波 AI 肯定也会有类似的故事

但这一个大幕我感觉还没有开始 HCI 的第一幕还是科技巨头收益了第二幕之下我感觉会有

更多的可能几百亿美金的公司因为 AI 这一波商业模式发生变化了规模发生变化了我觉得这个是更期待的所以我们自己也推了一个二级市场的追踪 AI 的一个指数叫 AGIX 能更好的追踪这些成熟公司也能更好的理解希望成为一个 AI 领域的 QQQ 或者长期收益能 beat QQQ 我觉得这也是一个 ANATIP 的产品