We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

2025/6/2

张小珺Jùn｜商业访谈录

AI Deep Dive AI Chapters Transcript

People

张

张小珺

活跃在人工intelligence和大模型领域的播客主持人和专家，通过《全球大模型季报》和《商业访谈录》分享行业深入分析和预测。

张

张祥雨

李

李广密

Topics

张祥雨：在深度学习领域，模型扩展（scaling）是推动技术进步的关键动力。ResNet的成功在于它恰好在模型、数据和算力都达到一定水平的历史时机。2012年，数据方面，ImageNet数据集提供了大量数据；算力方面，CUDA的性能提升提供了支持。ResNet通过增加模型的宽度、深度和分辨率来实现扩展。在博士研究阶段，我主要致力于模型扩展，探索了多种方法来解决梯度消失和爆炸等问题。毕业后，我转向研究小模型，发现模型架构设计对小模型至关重要。19年，数据扩展成为主要挑战，CV领域缺少像NLP中GPT时刻的东西。对比学习只在小模型上管理，skill up后效果快速完整。

Deep Dive

Chapters

本节回顾了张祥雨在多模态研究领域的十年历程，从计算机视觉到自然语言处理，以及他对多模态融合的全新思考。他分享了在模型scaling上的经验教训，以及对未来多模态研究方向的展望。

回顾了张祥雨十年的学术研究经历，以及研究主线。
探讨了计算机视觉和自然语言处理的学习历史，以及各自的优势和局限性。
分析了多模态融合的挑战，以及如何利用视觉和语言的对齐关系来提高模型性能。

Shownotes Transcript

大家都知道圖像是大自然創造的它不管你人類對它怎麼理解它就在那裡但是當時發生了一件事讓我們就覺得就百思不得其解了然後是發現了一些蛛絲馬跡就比如說更大的模型它在作業數學期它更傾向於跳路它可能直接指向了我們做那個 Next-Token Prediction 這樣一個本質的缺陷

Hello 大家好,欢迎收听张小骏商业访谈录,我是小骏这是一档提供一手高密度信息的商业访谈节目今天这集呢,商业访谈录第一次迎来了一位 co-host 是大家熟悉的李广秘广秘邀请了大模型公司接月星辰的首席科学家张祥宇来给大家聊聊多模态的前世今生和未来技术的前沿走向

张翔宇在这期节目中详细地阐述了他参与的多模态研究的十年历史对多模态的全新思考以及所预见的下一个 GPT-4 的时刻

他提到了一个细节在训练过程中他曾经发现了一件百思不得其解的现象那就是模型的通用对话能力情商和知识量都是在随着模型的变大而变得更强但是模型的推理能力尤其是数学的能力表现却是先上升后平缓再扩大反而是下降这点在业界还没有引起广泛的讨论那关于这个怪现象呢他也给出了自己的解答

下面就是广密和小语的聊天还是那句 2025 期待我们和 AI 共同进步

这个播客的目的呢还是想推动 AGA 的生态吧传递这个 AGA 的观点影响社区影响大企业的管理层重视基础研究文化也重视研究员也投入更多的资源到推动 AGA 的事业下吧因为 15 年前是移动为先嘛今天是智能为先智能为先其实最重要的还是要非常理解和重视研究文化今天我们要访谈的张湘宇是我特别崇拜的一位

AI 科学家现在也是大模型公司接月的首席科学家其实祥宇非常低调然后这也是人生第一次公开放弹祥宇的总论文引用已经超过了 37 万对吧然后还有一个特别有意思的就是在 AI 圈子

口碑非常好我问过非常多的研究员你们觉得新一代的华人 AI 科学家谁最牛湘宇的名字是提的最多的今天我们不聊通关竞争也不聊 J 越公司具体的我们就从比较纯粹的技术动静的角度聊聊 AGI 反正也听听湘宇从个人研究视角的一些技术动静反正今天我们重点聊聊比如说接下来两三年还有哪些

潜在的 GPT-4 时刻默融合的大一统的架构比如说多目态有没有 COT 四维链然后 Lang Context

希望这一期播客是关于多么泰最佳步道播客吧响宇先给听众朋友打个招呼哈喽我们了解响宇你今天的论文引运数已经超过了 37 万我们之前都从外界听过你的代表作 RestNet 叫残差网络之前在微软亚洲云音乐院的时候跟

何凯明孙剑任少卿你们几个一起完成的对吧跟我们展开讲讲你个人的学术经历

和你研究的这个主线我当时在读国的时候就是时间其实非常好也赶到 12 年 12 年大家都知道 XNet 其实它的方法跟之前的这个深度学习框架其实没有任何差别但它最大的差别就是它做了 skilling 所以说呢其实你可以看到就是整个就是影响这个我们说深度学习就是人工智能深度学习它最大的一个动力其实就是要做 skilling

当时 ISNet 非常成功大家都知道非常成功为什么呢因为它刚好是达到了那个时间的就一个最佳的历史细节

我们说 skilling 按今天的观点你要同时 skill 模型数据和这个算力刚好在 2012 年那回我们知道我是搞 CV 出身搞 CV 的话就是在 09 年像力飞飞他们团队就推出了那个 Infinite 就是搞了一个 120 多万的这个数据集当时你能跑完就已经很不容易了所以 data scaling 可以认为在那个时候已经不受问题有人给了一个非常大的 data

那个算力呢就因为大家都知道在那个零几年就提出了库达一开始都是为科学计算但是到一二年左右那回他那个库达的性能已经非常好了就是也有一些算力的支持所以可以认为在算力的这个 skilling 已经解决了

所以到那个时间点就最重要的一点就是你要谁最先或者说是谁能够把这个 model 给 skill up 上去像 XNet 它就成功了之前我们做那些神经网络也就几兆它一下子搞到了 700 多兆就是因为这样的一个契机所以 XNet 成功

刚好我在那个时候读国呢也是延续了相同的路线所以我整个 PhD 阶段就是 2012 年到这个 16 年我所做的事情其实也就是在做 model skilling

我想把模型做得更大然后做下去而把模型做得更大呢无非就是更大的宽度啊更大的深度视觉信号来说还有更大的分辨率啊对然后这个这块就是啊凯明老师和这个曾念老师给我指导是非常多的然后我们也一起提出了很多种方法比如在分辨率 scaleup 啊在那个宽度 scaling 上嗯对他会遇到那个就是相当于梯度的这个爆炸或者是 vanishing 这些问题啊

所以我们提出了一种数学化策略 MSI 就比较好的解决了这个宽度在那个就是深度方面深度是最困难的

之前的一些模型基本上过了十几层以后它那个效果就会迅速下降我们刚好在那个时候就主要提出了 Lessnet 也是现在影响力比较大的一个工作可以把网络从十几层提到几十层上百层甚至愿意上千层也是可以的当我们把这一系列做完以后实际上我认为就是 model scaling 这一块

至少在那个时间点我认为已经基本上解决了所以在我毕业以后就找矿石做小模型因为那个时候继续把模型做大因为没有特别大的收益了因为这时候棒子重新变成了数据和专利从我 16 年 17 年加入矿石以后其实我做的反而是那种小模型而且我也发现就是说从把模型从大做小其实

他的思路非常不一样可能跟大家想象的不一样觉得模型架构这些设计细节非常关键但实际上做过架构的同行可能都知道很多时候我们发现架构是没有用的就是架构设计尤其是对大模型架构设计更多的是针对大方向就大方向只要对了比如说你只要用了 resnet 那么至于它里面的那些层间如何连接其实差别是不大的

对效果差别是不大它关键是它的那个大方向很重要但是一旦你把这个计算的 quota 变小放到比如说放到端侧这时候模型架构的那个细节设计就会变得非常重要

尤其是对于不同的硬件设备它的执行效果它的效率都是有很大不同的所以我在做 Safranite 的时候也深刻地感受到这件事非常困难就是说你要把在特定的硬件上要把一些特定任务的模型跑起来要设计出效率最高性能最高的模型其实需要有大量的经验设计

所以一开始我们做了几个小模型工作以后呢我的研究点又主要转向就怎么通用或者自动化的把这些小模型很复杂的这些小模型设计出来所以在 1718 年的时候我就立了一个项目就是搞那个神经网络架构搜索就是 NAS 就利用自动化的那个手段就是把这个就是把我自动化的设计

设计能够在特定硬件上能够高效的跑起来的这样的模型 19 年提的 SPOS 这个工作它可以用非常小的代价在特定硬件上就针对给定的硬件我去搜索一个在目标数据题上效果最好的这样的模型就可以很大程度上解放人工所以到 19 年底的时候我们的目标就是目光重新要做大模型要做大

按照 19 年这回其实把模型做大和当时 16 年它的难点已经很不一样了 16 年那回就是 16 年之前主线的故事都是怎么把模型做大叫 model skill

对但是到 19 年它最大的难点在于 data skill 因为大家知道就 CFA 其实发展那么多年虽然自监督或者是自监督或者就是这种 label of rate 的方法其实层出不穷但是一直以来就缺少一个就像那个 NLP 里面的叫所谓的 GPD 实测或者 BERT 实测这样的东西对在其实在 19 年

就这么说呢在 19 年的时候其实 NLP 里面进展非常大很多人说这个进展大致没揣测嘛但其实并不是我前面也说了架构在这里面不起主要作用其主要作用是优化方法之前 NLP 其实跟 CV 是一样的我来一批数据我需要标一大批数标一大批 label 但你只要你还是依赖人工标注那么你是永远 skill up 不起来的

对,但是 NLP 它就是他们很幸运的发现了我通过一个特定的训练方式就是用类似的晚性填空这样的方法它就看起来这个 task 跟我的下游要做的千千万万的那个 task 可能没有关系

但是呢他通过这样的一个上游的 task 让首先他不需要 label 他可以无限扩展其次他发现这个说数据越多我通过上游这个 task 我神经网络就可以学到更强的表征我在下游任务上就做得更好 GPT 这种 decode only 的

就是 Prading Max Token 这种方式就更进一步就是说我不需要 Label 并且它还可以 somehow 给统一通过 InContext 建模的方式给统一很多下游的 task

当然这里很多的 inside 都是在 GP3 出来的 20 年 GP3 出来之后才有了至少 NLP 这条路是完全打通了对但在 19 年至少在 1.2CV 其实还没有经历过这个时刻当时 19 年的时候尤其上半年 Google 有很多在半检度领域的一些突破对比如像 UDA 这些

这些东西其实它走向了一个就看起来不错的一个方法我们叫对比学习然后呢到 19 年底像 MOKO 像 CMCR 这类工作出来让大家重新看到了希望我通过对比学习是不是对比学习是不是就是

类似这个 NLP 里的 BERT GPT 这个时刻因为大家尤其是看到他在那个他在一些很多

很多指标上性能通过完全的这种自检读的效果他的学习非效果已经开始逼近当时还有一定差距但是已经在快速逼近像我们用 Inline 的这种全标注的数据性能的效果就是给人很大的鼓舞但是整个业界包括我们也是花了很多精力在研究结果发现了很多这些方法它其实只在小模型上管理仍然没有 skill up 的特性一旦 skill up 它很大

然后发现就是效果就快速完整了然后到了 20 年 20 年其实 CEO 里面还有个大事就是说有人把这个 transformer 在就是纯 transformer 架构在 CV 上彻底做 work 了对其实就是 VIT 那个系列一直用到今天当时考学入学的人大家就自然想那这太好了我可以把那个 NLP 的方法都搬到这个 CV 这里面来试试

所以产生了很多类似的方法比如说现在 NLP 里叫做 GPT 在 CV 里面它叫 IGPT 就 image GPT 在 NLP 里叫 BERT 在 CV 里叫 BATE 叫 BEA 有一系列从 NLP 接见了一个方法过来

但是呢一开始的效果非常好,尤其是像这个凯明提出的 MAE 系列以后,我们可以看到它在自监督方上性能,尤其在对于 Fintune 后的下游踏车,你不输,甚至略有超过对应的在全监督的信号的这样的模型,就再次让 CV 社区又火起来了,

对但是其实我对此一直谨慎了因为真确实我做了很多事情都是在小模型上很多这些方法都是在小模型上

它一放到大的上面你会发现它完全不像 RMP 内容它有这个 skill up 的特性然后其实大概到 21 年底的时候我仔细分析了为什么早期大家做 contrast learning 就是放到大模型 mim 可能效果好一些但是我依然不看好我当时大概想明白了是为什么

原因是这些不管是 contrast learning 还是 mm 他商铺都在学某种不变性确实不变性对于这个 CV 的这个尤其是视觉的这个 reparation 说是非常关键的但是问题是这两种方法他所学到的不变性他并不是 data driven 而是完全的 handcraft 因为我们知道对于

contrast 的能力来说它非常非常依赖你的 augmentation 就是你这样的构造方法它实际上是在鼓励它的负样本部分你可以认为它是一个 regulator 它在鼓励一个最大商就防止信息坍缩它的分子部分其实是在学习一种不变性但这个不变性不是数据赋予的而是你通过人工 design 的 augmentation 赋予

但是这其实又走到了更早,我们之前说人工设计的这个老路上,你看那个 NLP 为啥这么 work,它是真正做到了冷房 Beta,我有越高质量的语料,我这个模型就可以学习这个语料中的这个关联性,然后建模的量分布,通过压缩学习了更多的知识,但 CV 这个不行。

你设计了一个什么样的不变性比如说对于旋转比如说 color permutation 或者是 multicrop 这样的不变性他最后学到的特征就是满足你所设计的那几个不变性那他当然没有 scope 效果因为你只需要少量的 data 我就可以让这个模拟学会然后你就没有信息增量当时呢 mrim 还是有非常多人就一用来上去搞其实就是 label 的那个方法

但是我也是很早就看到这个方法的上限也就是说他学到了遮挡不变性遮挡不变性确实很重要比如说我们人类认识这样一瓶水我把这个水给挡住

它就露一个头但对于一个人类来说我仍然能猜到这后面是一件事它只要看到一个局部就好这就是人类认知的这种不变性但是呢拥有这种不变性的特征它只是一个必要条件它不是充分条件对然后你做比如说你做那个 MMV 的方法就是你在数学上很小的时候你通过这样它的这种算法的设计可以让你学出这个拥有这种变性的特征这个非常好这个特征非常有用

但是即使你的数据量再扩大你学习的仍然只是这一种不变性它并没有从数据中激发出更多的不变性这就是他博弈的观点所以当时在 2022 年初我发了一篇观点的文章

我就认为 MM 其实是没有用的没有较大的 skin lock 就没有明显的 skin lock 当然也受到圈内不少人批评但现在看来确实这条路线走的人也很少确实不是那么的优秀其中最主要的原因就是其实你看到它的本质大概就可以意识到它其实就是这样的一个问题所以其实到 2022 年开始我对单纯依靠

视觉这个 domain 尤其是依靠静态图像可以学出智能 CV 领域的 GPT 时刻这件事我是比较悲观的就是这个时刻呢就怎么说呢就怎么说呢一个是也是大家演绎了这么多年搞出了各种各样的自建筑的方法但是似乎都没有取得像那个 LT 领域这样就这么容易的 feeling 的特性

尤其是当时在阿尔里面当我看了两篇 paper 以后这两篇 paper 刚好都是杰森魏的一篇就是关于思维链的发现另一篇就是关于永现性这里面永现性这两篇文章我当时大受震撼因为当我们我感觉我研究了这么多年都还停留在表征这个层面

但是像做 NFP 的同行已经开始在研究推理已经在研究更高级别的智能特性我越来越检查纯视觉这个东西可能是有问题虽然它很重要但它会很有问题有什么问题呢就比如说我们知道我们就从三个角度来看这个就是

自然语言数据和静态图片和视频例外视频可能蕴含更丰富的信息但是知道从自然语言角度它的深层尤其在 GPT 这个框架下它的深层理解和人类的对齐是三件事它是合三为一的对

也就是说我只需要做当我做出了一个类似 GPT 这样的一个生成模型来说你建模了它的联合概念你只要建模了联合概念你就同时拥有了生成理解和人类对齐这是为什么呢

比如说像对于 GPT 这样的它是个自闭环像 GPT 这样的架构它的前文你给定了这个前文当你在输出后文关于前文的条件概率的时候它的前文一定会影响后文的条件概率改变了这个分布在后面这个分布它就可以输出跟前文所匹配的这些文字这其实就是一种理解

因为你可以在中间要求他通过一些 crump 约束他让他回答前文中的你可以任意对前文进提问他在这个联合概率建模的过程中他针对这个后文的这个条件概率进行采样这就可以回答前文中的问题

我们可以认为这就是一种生成当然也是肯定的因为它本身就是一个像 GBT 的话它本身就是一颗生成模型我当然可以对它听作生成那么它所预训练的它训练的语料都是人类来自于人类自然的语料你建模了它的分母你当然就完成了跟人类的对齐

然后我们再反过来再看这张图片仍然从这三个维度一个是生成理解和人为对齐这三个维度然后你发现图像尤其是静态图像这个领域它不是自闭化的也就是说为什么呢我给你一张图像或者给你一个图像数据集大家想想你能拿到的最多的信息就能够最充分利用这个数据集的充分利用这个数据集信息的模型是什么那肯定是这样生成的模型

也就是说我完全可以做一个真正模型把你这个图像的数据集的这个联合概率分布都给做出来当我做出了这样的一个模型以后我认为我已经拿到了这个数据集的全部信息但大家想想这个模型当然可以做生成但它能够做理解吗这个显然是不可以的因为这个数据集你建模的是这个数据集的所有图像它的每一个 pixel 之前的联合分布

这个棉花分布的建模可以用无数种方式但是没有什么这里面的一个限制要求它这个建模的方式就刚好符合人类对这个图像的理解方式因为图像的客观存在它是来自于大自然它跟人类的就是如何理解在这个信息并不蕴含在这张图上

可能有少量的图,比如说带文字的图,你可以认为是它拥有人类对它的理解。但是 in general,一个图像是,大家都知道图像是大自然创造的,它不管你人类对它怎么理解,它就在那里。所以这张图像不必然包括人类对它的理解,它其实缺少了这类信息。

为什么我们说的 MRM 或者像那个 contrast learning 它 sum up and work 的程度说白了还是注入了人类的理解比如说我这张图摆在这里如果我不注入我不注入我这张图

的特征需要有某种不变性这样的一个东西那么这张图它自己是不可能拥有这样的不变性因为它不知道你对人类来说比如说对人类来说我理解这个杯子它需要一个这样的不变性

它的特徵是遮擋不變性,我遮擋注意部門我還知道它是被遮擋,但如果是一個動物或者是一個外星生物,或者是一個機器人它需要用人這種方式來理解這張圖,當然是不必唄也就是說遮擋不變性這件事它並不允許含在這張圖所以呢,你會發現這個理解和生成在

就至少静态图像这个维度就产生了隔裂当然很多人问那视频能不能补偿这些因为视频我可能有不同角度拍摄它自然就有了这种自动普遍性我只能说有可能但是视频数据的利用实际上是比较要比这可能是下一个方向因为视频数据的有效利用是要比静态图像的利用要难很多的

它的信息密度也是低很多那最后一点就是人类对齐那自然更不必说了我们语言模型的语料是人类生成的你在上面训练一个生成模型你自然你的分布跟人类所产生的这个分布是对齐的但这个图像它来自于大自然它是未必是对齐的或者说它一定不是对齐的

这就是对静态图像来说它的理解深沉还有人类对其次三点是隔裂也就是说你在静态图像上你做再多的东西我认为你都很难形成人类所谓意义上的那种智能所以其实想到这里我是在 22 年那回我基本上就停止了对这个静态图像所表征这块的研究我认为在视觉里面首先一个真正的 AGI 系统活动

智能系统视觉肯定是必不可少的这样的一个模块但是肯定不是按现在我们做考察论理做 MM 这样的一个方式就可以真正通向就在视觉领域的智能

所以我当时大致构思了一个方向短期内我可以利用视觉和语言的对齐关系你们知道在互联网我们有大量的用图文交错类的数据不管是网页还是

不管是网页还是像论文还是这种期刊杂志还是公众号我往往都组织成这种图文交错文牌的这种形式图像自己是很难表达很多东西的但是如果我让图像嵌入在文字的这个文字流里面我利用文字的这个字笔好像我刚刚说的叫理解深深

和人类对齐这个自闭环的性质是不是这个图像也可以借由这种对齐让我这个智能系统拥有智能能力这是一个短期内最容易想到的一个方法

但是长期的因为这一类语料毕竟这个 BIOS 是特别显著的而且局限性也很大比如说它很少包含非常细节的视觉的过程尤其是物理运动的这种过程这种数据更多的还是在视频里面对视频上从长期来看我们还是要通过视频甚至像这种巨声系统从这里面来挖掘视觉智能的可能

但是到 20 年之後其實想到這裡這個框架我覺得就已經像 VR MODEL 就是做視覺多麼的大模型這個想法就已經非常顯現了我有一個比較短期的 VVHR 還有一個比較長期的 VVHR 那就幹嘛但是也聊了一些大家都不相信

因为刚好 22 年那个时间点年终那个时间是比较尴尬因为当时在 21 年的时候尤其是国内就出过一波大模型的热潮就在 GPT 尤其是 GPT-3 出来以后就相当的人都跳出来说我做了一个多少亿参数千亿甚至万亿的都有这样的大模型但是最后都没有取得非常好的效果对所以大部分人是不信这个故事对当然这里就要

就插一句为什么那个时候的大模型其实效果不好其实我认为主要可能还是两个原因

第一个就是老生常难的数据质量尤其是将那些进模它在没有 instructuring 的时候它确实是很不好用而且能做的事情也很少效果还不好但是当时更重要的一个原因我认为是大家远远低估了 scaling log 数据这部分所占的比例

尤其是像 GP3 出的时候,GP3 刚出的那回,它用了千亿的产生,但只配了几百币的数据,按今天的观点来看,这就是相当于完全倒置了,像这么大的一个模型,我不配一个十几 T 甚至几十 T 的数据,肯定是对不起这一台,所以当时模型都是一个训练严重的状态,

也是因为这两个原因导致了其实整个 21 年大家在复现 GDP-3 其实没有说出特别好的效果但是很快时间到 22 年底确实继续出来一下子就打了很多人的脸说原来这个东西可以做到这么有用还让人感觉非常 promising 感觉智能时代就一下来了

因为过去主要是叫视觉类数据今天是文本类数据大家都想更好地结合起来从我的理解下今天视觉类的很多数据其实还没有跟文本关联起来其实关联起来也是一个很难的我不知道做这个过程中会遇到哪些

难的地方吗不管说数据上包括架构上包括做实验的过程当中其实我觉得就是做多模态模型的机构都会有或者团队都会跟我有类似的想法就觉得语言模型尤其 GBT 在 GBT 成功之后因为它是个纯语言模型就觉得多模态应该可以复刻同样的路线

包括我创业的时候当然也这样想的当时从现在看也是大大低估了这件事的难度我当时想法其实非常简单无论是互联网还是书籍我们这些都有大量的图文混材我们交错了这些数据那其实既然语言 next to prediction 这条路我们验证是 walk 对那么对于那我图像进来那我就很简单我想办法把这个图像首先用 tokenizer

把这个图像对齐到跟语言同样的一个空间那么我也用跟这个语言相同的方式来处理这种多摩台的交错式的数据也就是说遇到文字 predic 文字遇到图像 predic 文字

这样不就成功了所以我们当时做在 23 年的时候我们做我们的第一代语言模型就是 step1 的时候就完全走了这样的一个路线我们当时没有做就是一个纯的语言模型还是从我们预计量最开始我就把我所有的数据都把它组织成图文混排的一个形式

然后遇到图像呢我就可以遇到图像遇到文字我就可以遇到文字文字的话也是 token 化的图像也是 token 化的只有一点是跟文字略有区别在生成的那个地方生成这个图像的地方因为 auto regressive 至少在那个时间点它直接用 auto regressive 生成图像还是效果会差一些

所以我外挂了一个 Diffusion,已经预训练好的一个 Diffusion 的模块来做这个图像的生成,这就是我们就做了当时的第一版的这个,就是我们的多摩泰模型,就是 Sav-1,这个模型就说一下效果怎么样,首先文字部分跟直接训练文字相比差不多,效果也是挺好的,它的图像理解效果尤其的好,

经过这种统统本牌训练因为当时的就是尤其学术界流行的方法先训完语言模型之后再把其他的模态通过后训练对齐的方法

我刚才对到这个圆模型它并没有在预训栏最开始就把这个东西数据加进去所以我们的这个方法呢其实在预训栏最开始就把数据加进去以后就发现它其实图像和这个文字对齐得非常好它主要是体现在这个图像理解上它能力很强而且你会发现这个图像和文字它的

相容性非常好也就是说比如说你把字写到图像上你针对这些字问问题和把这个字用 OCR 做出来来问问题它的效果几乎是差不多的也就是说对于这个模型来说它已经完全能够自由地利用文字和这个图像这两个模态的这个信息进行思考在它看起来没有什么障碍但是唯独有一点就是生成的效果特别差

我们虽然是在上面挂了一个 diffusion 单元这个 diffusion 单元也是经过预训练的它是可以生成图像但是我们发现就简单的就这样做了一个动态系统你的理解部分也就是说你的语言部分对视觉部分它的控制能力是非常非常差

对同时呢更有意思的是我后面还试验我在训练的某个阶段我把这个生成部分给去掉后来发现呢我完全没有影响我的理解部分性说白了就是我的这个生成部分可能就是没有用了这个其实是对我们就是也是一个

很大一个打击本来设计这个系统就是想做叫所谓的生成理解一体化就从架构上仿佛实现了就既能生图也能理解图既能生成文字也能理解文字但是最后效果其实没有大同时期我们也注意到同时期像海外的一些比较有名的工作像 Gemini 1.0 它也号称是东北大训练但它最后我看它也没有做到图样和理解和生成的一体化还同时间呢基地 4V

好像也没有实现它也是通过外挂打理这种方式这就让我意识到这件事情其实可能没有那么简单就是说这个图像和视频就看起来你是强行把这样的一个生成和理解做到了一个系统里面但是从它实际的效果来看它其实完全没有达到这个语言的这个生成和理解完全融合到一起

这样的一个特性就是深层和理解在那个时间点看起来还是分开的对但是至于为什么导致了这个深层和理解就图像的这个深层理解也如此难以融合其实在那个时间点我们一直没有太好的 idea 对所以呢当时就做了很多种假设啊对可能认为是更多数据质量的问题可能我

图文相关的这种图文高度相关的这种数据量或者数据密度还是太少因为我们知道从互联网拔了有很多看起来相关的其实图文无关的这样的内容这个很有可能干扰了这个训练所以说在整个 14 年我们的这个深层和理解其实是分开点的

因为我看这个也是受就 20 年对对 20 年对对也是这块也是分开迭代的因为我观察到像海外的一些大厂像欧巴尔亚他也是他从那个他们一直就是他的理解这条线把语言把声音尤其时候之后把语言把声音还把视觉理解甚至后面还有视频理解

像金门也是都融合到一个模型但是生成这部分一直是单独做的走的是达里到斯洛拉这条路线所以到 24 年的时候我们也是在走这条路线但是我们在不断地在找这中间有没有机会能把它融合一起因为对于一个生成模型来说它需要构造文本和视觉信号的配合我完全可以用我最新版的这个

理解模型给它 WW 我就可以做到一个更好的一个视觉生成模型再把生物模型外挂到这个理解模型里面我去继续训练我的理解模型这样我的生物模型它可以提供梯度这个梯度是可以指导我这个

理解模型这样的话经过这样一轮迭代我就认为生存和理解这中间的 gap 有缩小了一截我再利用这个生存模型给这个理解模型再给生存模型打标希望下一代的生存模型再反过来再给理解我在想是不是到中间某一个时刻这两个 domain 的 gap 就会越来越小最后在某一个时刻我就可以把它

放在一块进行训练我有一个这样的一个出手已经充分对齐的这样一个初始的系统我把它放在一块我就可以把整个联络给跑起来了

但是呢其实我做了大半年,这件事都没有成功,我得到了一个越来越强的理解模型,和一个越来越强的生成模型,但是把它放到一块,不是说不 work,你永远可以放到一块,但是它没有 1 加 1 大于 2 的效果,我放到一块以后,它的表现还是两个模型,也就是说我随便把它,

摘掉一个另一个的效果不受影响既不会变强也不会变弱那我还要把它两个放在一旁也就是说它完全没有起到这两个叠加的这样的一个效果这是理解对生成生成对理解就更糟糕我刚说错了刚刚我说的是生成对理解理解对生成就更为糟糕虽然我打了这么多数据我还联合训了半天但是我生成分支的可控性仍然是非常的差

对比如说它经常会生成一些像比如说有肢体畸变有那个违反几何约束尤其说我这个视频生成的时候是大量的违反这个物理约束的这样的一个视频信号被生成出来

我把这样的一个信号直接送给理解模型它能够准确地告诉我这个东西是不符合常识的它自己都知道但是它自己无法控制住自己生成出这些显著违反物理常识或者空间透视关系的这样一个图像所以这件事就一直卡在这里我当时是一直是没有想清楚这件事要怎么做

所以深层理解一体化就当时我做了大半年以后其实当时是一个很迷茫的

但是呢这个转机呢其实出现在那个欧系列语言模型这个欧系列的就是产生之后就欧一对就是欧一这个东西非常了不起对我可能还要再把时间回退了我再研究一下就是其实在 20 年之后就我们语言模型也走了一个很大的一个弯路对其实直到欧系列出现我才把所有的事情想清楚

对对对时间回到这个二三年底其实到二三年底我们是把那个三维一给做完了他其实一个刚刚主要介绍了他是一个多摩台那个多摩台这样这样这样的训练对他参数大概是 100 多币就是一个千亿参数

那很自然的就想当时数据量也够了我算力可能也够了对然后呢我是不是要挑战一些更大的对所以 24 年初的时候我们选择上码了一个更大的一个模型就是 step2 万亿参数尤其是它跟今天的这些万亿参数它不一样它激活非常大它激活有 200 多亿对这是一个非常巨无霸的模型

但是一旦这个模型开训以后,我们发现它这个投入就简直是一个无底洞一方面一开始大大低估了,就训练这么大的模型的时候需要的数据量在数据不足的情况下,你光把这个模型 screw up 到非常大,其实效果是很差的还需要巨大的数据量,大家都知道这个算力

跟你的卡数算力需求跟卡数是正比关系是吧所以说数据的增长跟你的算力也是个正比关系所以你同时扩大模型的参数和数据量对算力需求就是个平方关系

我们是现在模型是非常吃力的普尔加克前后做了 9 个多月总算算迅到一个我们认为其实比较满意的状态但是当时发生了一件事让我们就觉得百思不得其解一般我们认为随着数据扩大模型扩大模型应该是能力是全方位增长

但是我们就发现了 Style2 这个模型的性质很奇怪它在文科上非常非常强文科类还有包括写作类非常的强但它在理科类尤其是数学上表现的还不如一个 7B 的模型而且是很困难你想把它通过 Elanman 的方式把它的数学或者逻辑能力做上去这是一个非常困难的事情

这个最近是其实非同选坛因为当时走在整个可能也大家都认为是就模型越大应该应该是 in general 越好对但是我们

发现这个现象以后一开始觉得我们数据质量不行或者是没有训够时间等等但后来做了一系列非常严谨的测试我们在野小模型上从 1B 到 7B 再到 30B 再到 70B 这样一路测我们训了一系列小模型发现确实模型通路对话能力尤其是情商这一块是确实是还有知识量确实越大越强但模型的推理能力

尤其是数学这种比较

比较局限了这个推理能力比较局部的推理能力它其实是表现为一个先上升然后再平再扩大的时候反而是个下降这个是不是还是一个业界的非共识很多人还没怎么到今天已经有很多人意识到了对但在去年那个时间点其实因为还很少有人真做到这么大把它这个曲线增长曲线的后半段给画下来

它其實是個下降,這件事其實讓我們比較詫異,但仔細一想,其實我們看到為什麼更大的模型做理科這些問題,它效果是變差,然後是發現了一些蛛絲馬跡,就比如說更大的模型它在作業數學期它更傾向於跳脫,

它不会像一些相对比较小的模型它虽然能力很弱但它处理一些长练的算式不管它再简单它都会老老实实地一步计算一个较大的模型它总是写了比如说写了三个书这三个书相加它经常就是它放弃一步步推导它直接一口就是报出这个最后的结果

虽然从总体的这个思维链来看它是从前写到后面但它中间的某些细节步骤它总是倾向于跳步一跳步呢其实大部分情况都是对的但是就有那么少量的情况是错的数学题大家都知道你错一步那最后的结果就完全错了

这件事其实当时就引起了我注意我就很好奇实际上我们在训练的语调人很多是来自互联网但也包括很多核能数据核能数据我是可以保证他跳步的情况是很少的对但是对于那互联网数据因为人类的数据很多是省略了中间过程那跳步应该是非常多的

这种情况跳步是非常多的所以这很容易理解为什么这些大模型会跳步但是那些相对比较小的模型为什么我训练完以后它反而不会跳步最后我经过分析我认为这其实就是 Nexus and Prediction 它有本质的缺陷 Nexus and Prediction 大家都知道其实就是 GPT 的核心范式也是支撑这一代大模型起飞的就是第一代的最基础的一个算法

它本质是连概率的建模也就是说模型会在优化过程中会尽可能调整它的输出使它输出就越来越接近你输入数据的分布就是我模型输出的分布和数据的分布要越接近越好

它还有一种理解就是做压缩因为大家知道就学过心机论大家都知道你联合概率对一个压缩器来说你联合概率估得越准那么你对这个数据做无损压缩的时候你的码率其实可以做到越小它其实是通过对数据的压缩通过这种归纳的方式获得了一定的智能这其实能够做得越小

的主要的原因但是到了数学刚刚说了数学这样的问题你会发现这两件事之间存在一个非常本质的概念就是说更大的压缩率其实未必对应更高的计算精度我们举一个思想实验

对我们举一个实际上实验平常假设数据集里面它有很多的操作都在做比如十几个数字相加这样的一个操作可能有 50%的数据它来自于互联网正常的预料它是没有给出计算过程的它就直接十几个数字相加最后一个等号得到了最后的结果

还有一些数据可能是你精心清洗或者专门找了有过程的数据它会非常老老实实的一步一步的把这十几个数字一步步相加最后得到了最终的结果我现在让这个小模型去我让一个模型去拟合量的分布大家在想在

当你达到最优的这种情况下,最大压缩的情况下,那种模型就应该是以 50%概率直接输出结果,还有 50%概率按右边那样,就一个一个次这样输出结果。这是理论的最后词。但是当我们拿一个小模型去训练的时候,你会发现其实左边那个风直接一口爆出结果,因为它模型,

参数量有限它处理不了这么复杂的函数所以它几乎会出现几乎拟合不上

这样的一个问题所以最后他能够学会的其实只有右边那个缝这其实就是非常经典的就生成模型里面的叫特征坍缩现象就像大家我们做一个比如说我们做一个 Diffusion Model 去生成图像你会发现它总是先建模那些比较简单的图当你这个模型能力或者训练时间更久以后它才逐渐才会把完整的这个分布刻画出来

如果你训练不足或者模型的人有限他只会建模就每次输出你会发现基本都一样我们把这个现象做特征探索那大模型就不一样大模型会尝试比如我们尝试过这个 Stand2 它的机会有 200 多币它真的可以十几个两位数相加它直接一口爆出最后那个答案而且那个答案大概率是对的可能有个 90%90%以上的概率是对的

当然它也有概率一步一步输出但现在问题来了如果你以压缩率论英雄那当然是那个大模型压缩率更高因为它跟原来的分布更接近你这小模型直接扫了一个峰那肯定是压缩率不足的一个表现

但是呢对于数学题我们首要的要求是你得算对而不是你的分布离那个预训练语料更为接近这就产生问题了小模型不管小模型大模型只要它是一步步算因为都是一些比较简单的数字运算它几乎是不会错它肯定是对但大模型它总有倾向它觉得它行了它却是走了那个就是一步步

就是一步直接报出了答案你想对于一个相对比较复杂的数学题他可能有很多很多的步骤他可能有很多很多步骤然后呢中间任何一步只要他觉得他很行他不用一步步计算开始偷懒就一步步报出答案可能 90%都是对的但他就那错了 10%就那 10%他就要命只要错一步尤其是很长的人

它最终的抽入率就会非常的高所以你会发现它做那些长链的这种 COT 数学是这样的很多那种推理型需要推理的问题也是一样对它总是在中间跳过了一些标的步骤然后直接输出一个它自认为

很多时候确实是对的但是一旦我这个逻辑推理越复杂步骤越多这种小的错误可能性的累积就使得你整个的这个错误率反而就大幅增加就很多时候还远远不如那些小模型走到就这个现象非常糟糕而且我们他可能直接指向了我们做那个 next token prediction 这样一个本质的缺陷

其实 Next Open Prediction 大家其实在业界大家对它的批评也很多因为它本质是个 Behavioural Colony 天生容易 OOD 容易在中间出现分叉其实就是 OOD 以后它容易陷入了一个它没见过的环境很多幻觉也是这样产生的这个都是老生常谈

但是我刚发现这个现象可能我想在一些界内讨论的还不多这还是一个比较有趣的一个问题当然解决方案大家也比较自然因为刚刚说了压缩率就 NP 了本质上还是基于信息论是压缩率最大化压缩率了

就是怎么说呢如果你的这个问题本身跟压缩率最大化压缩率这两个优化目标存在干那你还不如直接优化这个我关心的那个任务本身那其实就是啊哟

所提出的这个问题的依据对所以像你想大家像这波 OE 出现以后包括像 R1 这样就 DiSSEC R1 这些就非常优秀的这些工作对其实大家都用了这个 Rubase RL 这套方案但实际上这套方案真正在大模型里面使用大规模使用时间是非常早的对其实基本上在 24 年初就非常非常多人都试过把这个 Rubase RL

接进来啊就很大的原因也是为了克服大家所说的这个 behavioural colony 或者说就是或者 next to prediction 这套范式有缺陷对但是呢从效果来说啊大家发现这个收益是非常有限就看起来 RubySR 我的目标非常对我不管你他其实就就相当于跳出了之前叫你和分布这样的一个范畴我就是

只打目标我不管你中间怎么做你把目标做对就行你可不可以发现这种情况下大模型和小模型就一视同仁了那个一视同仁大模型不是喜欢跳步吗但是他只要跳步他就会降低他遇到正确他的这个概率所以呢一旦我上了这个 Ruby R 那么大模型的这个缺陷就容易跳步这个缺陷其实就得到了很大程度的防御

因为他自己会找到一种最可靠的最有可能达到

达到这个目标的这样的路径但是这个路径有收益就这个方法有收益尤其是大模型收益会更大因为它其实是起点更低的对它的倍次量更低小模型也会有收益要对它的稳定思维量很有效但是这个总体来说这个收益还是非常小对我们发现很多的问题它该做不对它还是做不对对但是直到欧伊出现以后这个情况得到了非常大的一个改观

对我觉得把欧伊斯克跟这个基利斯克这个就怎么说呢把它也当成一个某种意义上的基利斯克我觉得一点都不为过对对

O1 这个同样是 RLO1 跟之前它用的凡是有什么不同其实这个核心点可能很多人都觉得可能是一些 RL 算法或者是一些数据上的一些演进但其实都不是算法还是那个算法还是 Rule base 这样的一个算法其中最核心的原因就是它的思维链的 patting

我们做这一行很多人都说做 OE 或者做思考方式本质就是 Python is all you 就是所谓的你要找这样一个最佳的思维链的组织方式再有 RL 算法进发就可以了 RL 算法至于选什么其实都不关键应该业界用的比较多 MPPO,GPO 那当然可以但如果你不想用你用什么 reinforced plus plus

用一些其他可能更简单的甚至最原始的这个 policy grading 的一些方法其实都是可以的没有什么本质差别真正的差别其实就真正使得它或者说让这个 oe like 的方式和之前的方式产生差别的最主要原因还是那个思维链的 pattern 这就不得不说一下说就是为什么 o

就是怎么说呢他虽然用了 RL 这个方法

但是说实话在这个 community 里的很多人都认为尤其是搞阿海奥的都认为这不是阿海奥他只是借用了阿海奥的一些名词和方法论但他的世界观是完全不一样比如说我们传统做打游戏的这些或者做控制的这些阿海奥算法他遇到的问题其实很多时候都是那个奖励回报就是过于稀疏

而且难以估计这有没有问题对就比如说你想打游戏你真想达到一个非常高的分

你纯粹这种在原地你让游戏中的人物在随机胡乱的操作是非常非常困难的你需要写非常多的规则或者是你要用各种各样的技巧去鼓励他的探索性让他真的能走到一个能够达到高分的这样的一个点尤其像棋牌类棋牌类你想

假如说当然很多棋牌类它是一个左右互搏式的训练假如说我不是让你左右互搏而是我上来让你挑战某一个已经训好的人工智能题大家可以想象一下你想获得正的 reward 难度有多大基本是不可能的对而且关于回报的估计也经常会有很多的问题比如说在一个早期

在一个序列的早期能够获得精准的回报这是不太可能的而且这个空间它的那个决策空间也非常不光滑我可能需要用 MCTS 就收到非常后期的一些分支就筛选出一些高质量就可能有高比如说的机位分支把它一路 propagate 到前面我才能拿到比较 high quality 的

这个就是训练的 sample 我这个 RL 路径才可以继续但是大家做 OE 的时候大家很多人都发现我上一个 MCTS 似乎完全没有什么用我搞一个 PRM 呢不能说完全没用但是至少在目前大家研究的这些问题可能也许是问题过于简单也许是因为其他原因但是总总

种种现象都是发现在 RL 里面流行的那些方法其实在语言模型里是很不一样的我认为这里的其实最核心原因还是在于语言是有 pre-tune 语言 pre-tune 而且这个 pre-tune 它非常

的重跟我们做其他一些尤其打游戏场面的那些场面很多时候是靠完全能启动或者仅仅是一个很轻量级的配置它是完全不同大家想象一下就是我解研数学体验往往需要有上千或是上万个头款如果从动作序列的角度来说就相当于我有一个成千上万的这样一个动作序列每个动作序列的我的 action space 是整个词表

这是一个非常大的搜索空间如果是这种情况下我可以认为是目前所有的 IOS 可能都是无能为力但是不是实际上在有预训练之后我们发现其实因为预训练里见过非常多种以数学为例他见过各种不同的难度不同的这种题目可能全天下的题目他都见过

就使得它的动作空间得到了极大的压缩你看起来是一个长度是几万人的一个 token 序列它真正会让它的解法产生本质区别的分叉点就那么几个

可能我做了一些统计对于一个比如说 5000 长度的这个输出序列可能只有不超过 10 个我们叫做关键的 decision 它会影响最终的结果它一旦进入到每个分支你看起来那些 token 这么多但基本都是自动的对那些就几乎确定它有一个几乎确定的形式就把后面都全部输出去了也就是说它那些 token 其实根本不在 search space 里面就要解决了 search space 里面

而要实际要解决的其实就是那些 critical 的分叉就那些 critical token 就它数量很少也就是说看起来语言模型我们解决一个困难问题的时候它的决策序列是很长的但是跟传统游戏相比因为存在就做游戏做控制相比因为存在于行人它实际的动作空间实际上是非常小的

你只要想办法把那几个关键 token 给搜对就解说了这也就可以解释为什么我们今天做就用 UbaseR 来训练一个语言模型在刚开始训的时候我都还没有训练因为发现即便对于一个很难的题目我都有不低的概率即便是随机 ro

就可以把它揉对,这在我们做那个传统 RL 的很多 setting 是不可想象的,你不可能在原地随便走走,我这个游戏突然通关了,我就可以找到,对对,我就找到,我就学习了,进一步学习,哦,我原来这样走就可以通关,但是呢,在运营模型这里面,你会发现如果你把达伯迪解队定位通关,那我这个通关率也太高了,

几乎如果题目不太难甚至有一半以上你什么都没有做你发现在刚开始训练的时候他都是做对的就可能有一半题目都是做对的就算题目很难我比如说我揉个一百次我可能也会有几次那个时候完全揉对在中间我没有做任何过程检读我仅仅是就 random sample 这就使得

你会发现这个语言模型上做 RL 它跟我们传统在游戏上做 RL 你遇到问题是完全不一样的对就是这里面所以 RL 在这里面产生了一个它起到的作用其实本质是什么呢它其实就是要决定这些 credit token 要怎么走对因为我们发现虽然这个模型如果你多次 roll 它经常能 roll 对但它并不能稳定的对

可能这次是对的那次是错所以在大家的想象中我使用这个 RL 我就是要想办法让这个模型 focus 在那些关键的头发 focus 在那些关键的头发把它给做对选择了正确的分支你就做对了你根本就不需要考虑那些已经被预训来压缩掉的就对但是问题又来了

这跟我刚说的 pattern is all you need 有什么关系如果就是这么简单那么之前大家做 Rubes 为什么不 work 就是说我为什么做了半天 RL 那些关键的 token 它还是不能稳定做对这里面就涉及到另一个问题当这个模型走到从这某一步的时候摆在它眼前的其实有两个分支它到底是走左边还是右边这件事可不可以通过一个 token

对我认为对于很多问题这是不可能的举个最简单的例子就是比如说我们做惩罚做惩罚惩罚众所周知是当你未熟很多人惩罚众所周知是你让现在的语言模型你要用一口爆的方式去做一个大数惩罚是几乎不可能得罪的这里面其实核心原因是复杂度我们知道你要做一个大数的惩罚你至少是得是个

N 平方的吧要抬个杠的话是 N log N log 反正是大于 ON 的但是我们知道传输网一步单次做那个点击的结果单次做点击它的复杂度也是 ON 的也就是说如果你做一件事它的复杂度超过 ON 那么它就大概率不大可能通过在一个图本内解决现在的问题是浮现了问题返回到我刚刚说的那个问题

就是现在问题摆在那我现在搜索空间非常小我告诉你可能只有 10 个 critical token 是你要搜索的你试试你 RL 算法的话你要帮我决定你到了某一个关键的 token 的地方你要走左边这个分支还是右边这个分支还是中间这个分支才能最大概率的通向正确答案对好但是问题是

当这个问题足够复杂尤其是很多数学问题它是无法根据这个题目以及前面一些浅显的推导就立刻决定我在中间某一步我需要用一个怎么样的构造或者怎么样的一个算法

也就是说他的那个 decision 的 complexity 已经远超了就单个 token 所能干的事情的上限你想人类是怎么处理的就很多数学问题它其实都依赖一些巧妙的构造比如说上到最后一步刚好我设的某一个位置数消掉了这道题就可解就可以用这种方法解否则的话我可能要用另一个方法解又比如说一些不能是问题它

他非常依赖一些巧妙的构造你想不到那个构造他就解不出来或者你构造错了你也解不出来但是在你做这种构造的那一刻你只能凭感觉是吧你在算完之前你根本不知道这件事可不可以对所以呢那你指望如果你人都不可以原因是太过复杂我要做前就是做提前的盘算过去复杂对于

Transformer 这样一种单步计算量限定在 ON 这样的一个系统它凭什么又可以它当然不可以所以我们就观察到在 OE 这个范式出现虽然我们也做 RubySR 虽然我也能观察到 reward 上涨但你发现它涨到一定程度就涨不上去了我的那些题目永远就出现你很生气

他明明我做十遍可能有六遍是对的但就有四遍永远是错的那其实就是这其实就是在他一些关键的我们叫做 critical decision 那个地方他其实没有充分的依据能够在这么短的时间内有一个头人之内他选择正确的路径比如说你很生气就是说我看着他这个题做到这一步了前面都是对的就做到这一步他总是有 60%的概率走到了

正确的分支有 40%的概率走到了错误的分支他为什么就不能学会我就 100%的概率走到正确分支

那你可以这样想也许你的数据集里还有另一道题跟它长得非常像当走到这个点的时候但那个题就有几个数字不一样对于那个题来说它就有百分之就有百分之四十的概率走的那个分支它才是对的那百分之六十对因为有这两种数据同时存在所以模型根本无法就是它如果选择全走百分之六十那个分支

那么剩下那一类题他就做错了就不利于他要最大化这个就是最大化这个正确率的这个目标所以他永远到不了百分之一百对这其实其实想到这一步解决方案也就是非常显而易见如果我允许他按两条分支都走那不就解决了对那所谓那其实其实就是引入反思这是引入反思的最最大的一个动机

这也是 O 系列最了不起的一点就是说它真的把反思补充到这个计算过程中对那这里就要查一句那为什么 R 要自己没有就不能自己产生激发性反思其实可以的从实验上来看你考得足够久的话你不人工注入反思它自己也是会产生反思但是概率非常低也特别耗时并且效果也不是很好

为什么会产生这样那就其实也是因为预训链对我们知道前面预训链对于这个 OE 这套范式对于这个 RL 这套范式前面说了非常关键因为它起到了动作空间裁剪的效果就大幅压缩了这个动作空间对但是呢

就怎么说呢这个动作空间在反思这件事它其实是过度压缩了因为我们人类的语调中反思的数据非常少因为人类基本上只会给出正确的就比如对解题来说人类只会给出正确的解决过程它并没有在绝大多数的时候它是没有写下来那些错误的或者它走过的那些弯路的那些过程你看到的永远都是一条路走到底

所以在模型充分压缩之后他认为所有的题目都应该非常顺畅地从第一步直接思维去到底

Safety 到底它是没有这个所谓的反思这样的过程你动了空间虽然我有反思那样的一个 token 但是它的概率非常低因为我经过预训练把它压缩掉或者叫过度压缩掉所以我们用 IL 过程是不容易把这些反思集法的这也就可以解释为什么之前那些 Ruby 的效果其实没有那么好 IO 这个方式呢我可以利用其他的一些方式比如说

就是能启动,这些 Python 注入的方式,把这些反思 Python 给它重新注入,可以相对于扩展这个动作空间。我在这个扩展的动作空间来说说,刚好就会解决刚刚说的那个问题。你不是有一个 credit token,你不知道从左走还是右走,没关系,你自己随便选,选到底,你意识到不对,

你可以返回我有一条反向边你可以连回来我可以从再接着那个就是之前从再进一步是 OK 这样就所以其实我有点我觉得怎么说呢欧凡是商务号你可以认为叫做他其实是一种买他对我们知道

原模型在原模型那个最早的时候大家的用法其实跟我们早期大家对 AIC 系统用法是一样的就是希望我输入一个问题然后直接输答

但 COT 发现以后大家突然发现它对于一类复杂的问题它可以大幅提升正确率其中它背后的主要依据其实就是很多问题的复杂度其实超过了你这个模型单步推理的最大复杂度所以我要把步骤拆开一步一步的才能更好的把这个问题给回答正确我保证我拆开的每一个单步都不超过这个模型复杂度的上限

但是紧接着我们又遇到了你为什么用这种 COT 而不是用这种 COT 这就涉及到一个叫 COT 选择的问题对于更复杂的问题因为你根本无法一眼看出来接下来我这个 COT 的路径要怎么走所以 OE 这种通过引入这种反思态这样的一种方式我们可以认为它其实本质是一种 Meta 叫 COT 的也就是说它是一种 COT 的 COT

它就使得模型可以在多种 CODpattern 之间自由的切换进行排列组合

把更复杂的这种网状的这个问题能够解决对这是我理解的就是这个 OE 这个方式对为什么成功的这个因素 OK 我把所有这些把把 OE 复现这个过程全部全部想明白以后把这些全部做完一遍以后再回到

最初的那个视觉这个深层理解一体化这种情况那我觉得为什么我们的深层可控性这么差其实问题就有了一个眉目了对其实根本的原因就是还是还是一个所谓的复杂度问题因为深层要考虑的因素太多了对不管你用 auto-regressiveauto-regressive 是最显然的 auto-regressive 最大特点就是落子无悔就一旦你把那个区域画上了你就不能再改变它了

也就是说神经网络需要在单步推理的过程中就要把那块怎么画就这件事给做出来那么这件事的复杂度有多高呢有没有超过这个 Transformer 的单步复杂度上限这个是不清楚的但是我可以做一些思想实验那绝对让它绝对是超过比如说我让它在黑板上

画一个黑板在黑板上写一个基图通融问题的完整秋节和解答它看起来是个话题但它背后隐藏的其实是一个数学题这个数学题包含了很多步骤它的很多步骤明显超过了 Transformer 的单步推当你要求他做这件事的时候那显然我现在都不管你画图画得怎么样

你就光是把这个问题解对就不是你现在这些 token 或者叫一口爆可以爆出来 Diffusion 可能好一些因为它是一个多步的过程它是一个 SD 如果你用 Fluoride 就是那个 FluorideMatch 的话它其实是一个 ODE 所以它其实是一个多步过程

但这个多步过程你要说它蕴含了什么推理那我肯定是不信的对尤其是那些降噪的过程那些降噪的过程它其实是在构造一个随机过程就更方便让这个系统更方便的去拟合一个用一个已知的分布来拟合一个未知的分布但是降噪这个过程很明显跟人类生成图像的过程明显不一样人类生成图像比如画家他往往是要先打草稿

然后再描绘轮廓然后再描绘里面的关键元素再上色最后再渲染这样的一个过程它不是用橡皮一点点把噪声给擦掉这样一点点把每一个局部给还原出来这样的过程我们对比这两个过程会发现人类画时代画的时候它是严格遵守人类对场景的语义理解的它是强语义的比如说它会从一个 object 到另一个 object

从轮廓再到它的细节按照这样的一个过程不像降噪这个过程你很难说哪一步是它在做语义哪一步是在做物体在它看来都是一堆噪声这样生成所以它跟 auto-reversive 我认为

就是差别不大基本上你可以把整个 Diffusion 这个过程看成一个整体它其实就是一步生成语意可能在它 Diffusion 的某一步就已经完全确定了完全确定了剩下的都是在补细节而已也就是说不管是你用 Auto Regression 还是 Diffusion 在我看来你都还处于语言模型的最原始的形态就是一口爆的时代就是说我给定了一个问题我要求你在一步之内直接把这个图像生成出来

那当然你生成的结果是非常差的因为你的复杂度根本完成不了根本达不到完成这个任务所需要的要求也就是说生成这边其实我认为生成这边其实我认为它最大的问题还是在它缺少 COT 类似语言模型的 COT 甚至于它被语言模型现在已经甩了两代了

他不只是没有 COT 他不只是没有我刚说的所谓的 Meta-COT 他连 COT 都没有他还是在之前那个一口爆那个

那样的一个时代对所以我想到这一点的时候其实在去年年中的时候我就认为简单的你要把这个怎么生成和理解就简单的要把它做到一起看起来难度非常大是中间我缺失了非常大的一环这个环其实就是 CFT 对 CFT 这件事直接在生成上做 CFT 还是比较困难

借鉴语言模型更多的还是在理解上先做对这条先把这条先把理解上的 COT 烫通我们可能就能把这个方法稍加扩展可能就可以做到做到那个深层上所以在去年年中的时候开启了一个另一个可见的就是说我要做视觉理解我说的是视觉理解更多的要叫做要是基于就是它的核心是叫做

真正在视觉空间上做的 COD 因为我们知道其实现在的这些欧的这些范式它的那个社会链基本上都是文本是吧都是文本即便是你可以把 input 就是你的 primer 里加入图像对但是我可以用跟文本模型完全相同的方法我也可以把这个 oe like 的这个浪 COD 给激发出来

但是所有这些推理其实都还是在文本那么对于很多你必须要在图像空间上做的问题最典型的就是数数比如说像走迷宫比如说像连线像这些还有像识别图表

阅读图表这些东西其实对于人类来说是非常简单的因为人类可以在图像做各种的圈点批注就算是人不做圈点批注就仅通过这种视线和注意力的转移比如我先数左边再数上面再数右边我也可以把 counting 或者是定位比如我问我给你一个表格我问某一个字母在第几行第几列

还有像坐标图还有读钟表这些事情其实人类都非常简单其实最主要的原因还是人首先这个问题虽然简单但它也没有简单到可以一口就直接说出答案的地步你还是需要做推理而且这个推理它并不是在语言空间你必须在视觉空间上做一些东西来去做推理

所以在去年年中我 setup 这个项目其实就是想研究一下在视觉空间这个慢思考或者说叫视觉空间上的这个 long-suit 我要怎么做这样的东西这也是受语言模型启发语言模型不是说我缺失了一些动作空间吗比如说反思这样动作我把它补回来就好了对吧视觉我继续做同样的处理现在是在视觉上不是数数不好数吗你回想一下人类要怎么数数

我可以在那个图上圈点你数一个我就给你打个点再数一个我再给你打个点这就解了人是怎么做迷宫的连线从入口开始连连到死胡同再回来把那些线擦掉再回到另一个点再看这样动作空间就有了是吧有了动作空间我把通过一些训练把它放到放到我的模型里面去对我在

对我再用 RL 的算法这个 RL 也可以做得非常简单也是个 rule base 我就鼓励那些能够通向证据答案的抑制那些大不了证据答案的我甚至里我还允许反悔你做过的标记我都可以把它 cancel 掉给它插掉这样不就有那个反思了

然后这样就想得很美我们就可以做真视觉空间上推理不利害文本我还可以在图上做全脸皮肚结果呢就做了半年实际出来效果跟大家说透露一下首先不是说完全没有效果我这样训练确实可以把这类问题给解掉

但问题是我造什么样的数据他就只能解这一类数据他完全没有在语言模型上我们看到的这么强大的这样的一个方法对这件事就说起来就比较复杂就涉及到对欧我觉得这是涉及对欧的另一个理解就是说欧这个方式它对

跟刚刚就是怎么说呢就比它解数学题解代码题相比它更吸引的一点就是 O 这个范式有无与伦比的这个推广性就比如说我做过实验我故意只在纯数学模型上训了一个 O-like 的这样一个模型然后呢我把它在那个诗词尤其那些古诗词因为它要严格满足它的格率和

和押运的要求这样的一个问题事实上我的数据里面是完全没有这一类实识要这么做结果他激发出了跟那个解数约题非常类似的那种思考 pattern 因为发现他会先给一个 draft 足以检查哪些不满足要求

再一个一个替换替换完之后可能这个句子就不成句了他又说看起来这个完全不行他就把前面两句全部推翻又重新试了一种还不行他把整个诗又全部推翻又来了一种而且呢他在过程中他会反复检查他的字数还有以及是否满足这个提议的这个要求对跟那个他做数学几乎是一模一样他在数学的时候也是

也是会有这样的一个 pattern 我刚刚说的反思只是众多它激发出来的 pattern 中的一种反思可能最重要的但它还会有一些其他的 pattern 比如说换一种方法验算还有叫 verify 就是用不同的方法验算还有叫大循环

大循环的意思就是推翻前面做的所有东西再从头再开始做一遍还有一个叫审题就多次比对题目看是否符合题目要求你会发现同样的过程它可以非常完美地 transfer 到这个像文学类这样的场景虽然我完全没有做过没有做过这类的

这是一个非常好的例子就是它泛化的是整个它的 pattern 就是怎么做事的方式完全正确这个 O 这个泛化它非常厉害的点它似乎不仅是按照 domain 泛化也就是说从一些数学系泛化到另一些数学系这个是有的但是不是它最吸引人的点它更多吸引人的点是 pattern 的一种思考模式比如说验算比如说那个就是回退到上一步这样的 pattern 它会在

另外一些问题中可能我训练中完全没有出现问题但是也适合于这种 pattern 解决的问题上它会有所体现这就是它非常强大泛化力的这个来源并且呢我也找到了数学模式

纯数学数据它无法泛化的一个领域看起来就是博弈对博弈比如说我在一个纯数学性能的一个模型上我故意问他这样的一个问题比如说我给他一个斗地主的一个残取双方名牌其中一方可能两个 A 两个勾另一方是另一手牌我问第二如果是第二家出牌他要怎么出才能赢对我发现这个范式它是完全

掌握不到要理对他做了很多无效思考而且还有很多低级错误比如说把扑克牌把扑克牌的那个张数都能数错以及就其中一方都出完了他还是说因为他两张 A 已经下去了所以他无法再抵挡我后面的这个后续的这个出牌但其实对方都出完了他会出很多这种低级的错误思考也完全不得要理

其实我们分析就因为这种博弈类的问题他的思考方式跟大部分数学题都不同他其实是一个 min-max 的思路也就是说他要从对手的最优解里面要尽可能地降低对手的最优解这样的一个收益所以他是一个最大最小的这一类思维排挥他是没有掌握

当然我们也发现如果你合成了很多这样的数据就是这样的题目你让他去学习这个东西这一类思维他也是很容易激发所以真不是他不会还是你在训练的时候你需要有这样的一类的问题来激发出他这种思考的方式所以换句话说就是他的推广性他推广性是非常非常厉害的他一下能推广到一大块但是再回过来再想呢我

在图上做圈点批注这样的一个问题看起来也是非常多的视觉推理问题都可以用的那为什么我合成了这些

这些数据它就没有或者说我做的这一系列方法它就没有这么强的这个推广性对再回到语言再回到语言其实这时候因为我们这边的研究基本上因为我们的团队基本上每个人都是同时通晓语言视觉和语音对所以大家这也是我们团队一大优势大家可以比较能够利用这个跨模态的思维来来诊断问题啊

后来就发现了其实 OE 激发出来这些反思的 pattern 就很多经验证比较恶的这些 pattern 典型的这个代表就是它有很多像 wait 像 alternative 这样的一些口水词以及它的一些上下像 retrack 还有 vendition 这样的一种反思 pattern 虽然说我们在那个 coastup 里会人工合成这些数据但是其实这也是

就怎么说呢就 somehow 也是在操控因为他告诉我们可以这样搞但为什么可以这样搞对后来我们发现是因为这些 pattern 在那个预训的语料中其实都有虽然说它非常的少

比较典型的就是像 Mass Overflow 这样的论坛上有一些比较高占的那种答案对他经常会用就类似的那种思考过程来一步一步把这个问题给答出来对就我会发现国内和国外的论坛还是有很大不同的国内论坛特别喜欢用注意到这种

把那些脚手架全部拆掉就显得他自己很牛就是一个很神奇的构造把这个问题解了事实上这种语料如果模型砍多了这是灾难因为那些它等于是它把自己的思考真实的思考过程给隐藏起来把思维变得特别跳远这种其实非常不利于模型学习但是像 Math of Flow 上有一些高端大主你会发现他上来拿到一个模型他会尝试求解

但是他解着解着他就会发现不对劲然后他就会在上面写就等等我发现这个东西我少考虑了一个因素对然后他把这个因素加进去我发现他之前想的方法完全不恶

他就陷入一些死抓狗,这样想,那样想,最后把这个结果用另一种完全不同的形式给呈现出来,还有瑞切。你会发现他这样的一个搭提过程,事实上就正是,其实跟我构造的那个 pattern 是一样的。

或者说我觉得 OpenAI 很有可能也是因为看到了预训链语料中有很多这样的数据,所以它才设计出了这样的一个 Python。也就是说它的 CodeStar 这些 Python 它不是无中生有的,它是预训链里的一本牌就有的。就这一点后来我们发现它对于模型的泛化性其实非常重要,因为预训链里的这些 Python 虽然数量很少,

但是它是由不同的人或机构生成,涵盖了不同的领域,虽然它绝对数量很少,但从知识体系和能力体系来说,它跟其他的数据形成了一种悬崖交错的这种体系。也就是说当你在 code start 的阶段,你把这些 Python 激发出来,然后再用 RL 强化这个 Python 的时候,

因为预训练语料中虽然很稀疏但是到处都有这种排行的散布他就顺带着他把跟这些语料相连的非常广大的这些领域都给激发出来

就融会贯通这就是它我认为它又非常强繁华性的一个主要根所以 O3O4 的多模态推理能力就明显强了很多这也是像你预期的方向对其实这个又会反思一下就好像我们为什么就做的那套方案就不行因为在图上圈点批数这些全部都是我们拿程序人工合成的数据它的 pattern 过于固定还在预计量语料中这一类

就在图上就非常惊喜化的圈点比如说有谁解迷宫是真的一步从第一步开始一个第一张图走一步第二张再走一步这样这个形式可能动画或者视频里有但是像我们用的比较多的图跟交错语料这类细绝对是没有的所以我们造的这个东西你会发现它处于一个很尴尬就是说它只能代表它自己

但它没有能力能激发出预训链语调中间非常广大的非常广泛的一大类这个派对这就是它效果不好的原因我们再看一下这些新的这个欧三它也是支持这个图像进这个长思维链但是它对它图像进思维链的方式是看起来似乎更原始它只是对原图进行非常简单的编辑操作比如 Crop 比如 Reset 这些操作

但是呢它在做很多问题我们尝试了一下它具有非常强的繁华性实际上能做的效果当然有些问题比如说迷宫如果你不让它写程序它肯定是解不了的

对就是他解的求解问题的上限可能并不高对因为他能做的动作是有限但在他能解的这个问题中他的求解成功率是远高于我们当时做的那条线其实基于这套刚刚说的这个这套理解也很容易解释因为预训练语调尤其是图文混排是预训练语调前面有一张大图后面有各个局部把它放大也还有各种解释的这种语调是大量存在的

就比如说一些电子维修网站经常有那个有那个有问题的人他上传一张图对然后那个上传一张图他就问这个我这个收音机哪里坏了地下机又打阻反正这个他们也局部给放大你看这里你这个电容烧了再看另一个地方你这个原点又出了什么故障这种预料大量成本也就是说他对原图做这种比较原始的编辑也就是说只有这种

只有放大 resize crop 这种东西看起来很原始但是它是严格遵守了在自然语要里面它的预设语要里面是有的有这种态度所以它效果反而好我那个看起来科学但因为没有所以效果反而差这也是很多同行都发现的一个事实阿尔这一步其实他并不能发现

并不能无中生有新的东西其实所有的知识或者能力都已经有分布了对都已经有了说白了这也是给我们一个难题你像尤其是要做多么的推向我刚刚说的圈点提出它是非常好的开头但预训练里很遗憾没有对这种情况下我要怎么办我总不能我整个系统都被预训练绑死

所以这一块也是一个非常大的难题我插一句因为之前很多人提预训练的时候你加很多多摩泰的数据会影响 Tex 的智商了我不知道这个问题解决了没有还有另外一个说法你今天可以加多摩泰的数据之后好像 Skinning Law 的曲线也在上台了我不知道这两种说法是一个什么样的当你知道要在插档的地方

我要把某一个图像生成出来的时候其实这个控制信号本身就是生成这张图的控制信号本身是有非常丰富的语义的它必须要能完全理解前面这一段话的内容它上下文中甚至是更远处的一张图像就是它要对这个多元态信号有完全的理解所以它才能非常可控地把这个图像给生成出来

但是很遗憾的是像我刚刚说的就是你生成这张图像现有的所有这些方法它都不是一个因为种种原因其实最主要是复杂度的原因就是它无法有充足的算力和信息把这张图完整的生成出来那么这就导致生成这张图它产生了这个规定本身就噪声巨大也没有什么信息量

比如说 Diffusion 最简单就是 Diffusion 你如果跟文字同时训练那么 Diffusion 它一次只能做一次 Denoised Step 你要 sample 某一个 T 其实对于大部分的 T 来说它的 Diffusion 过程都是没有语义的因为语义都已经生成了它都在补细节补细节那个东西产生了这个 Loss

把它反传到前面语言的部分其实对于那个语言的语义提升没有任何作用反而有可能把它搞坏了这也是为什么后来有人说如果用 auto regressive 会好一些但也没有本质的好好一些原因是因为好歹 auto regressive 在训练的时候的行为和

推理的时候行为是基本一致的他在训练的时候他不是只做一步他好歹是我生成一个 patchpatch 就出来了他不是只生成图像的一次 denialize 的结果所以他的 grading 相对而言会更清晰更有语义一些但也没有好太多因为我前面说了图像过于复杂你 auto regress 你还是个落子无悔的模式你不大可能是有非常清晰的行为

这就像你在预训案中有很多人都试过灌题把那些数学题啊什么或者各种各样的有一些公务员考试那些题灌到预训案但你没有给他过程你只给他一个答案对然后这种模型的时候他遇到这种题他会非常 confused 你告诉他选 C 但他根本不知道他在一个投稿内他根本想不到我为什么选 C 所以这种预料灌多了你会发现模型会出现两个极端

一些比较强的模型它会硬强行记住这个关联关系下次遇到这个题我不管三十下以后就选 C 这就是表现的 overfeed 还比较弱的模型它会在想这个 C 好像跟其他一点 C 的答案比较长是不是这个 C 我选 C 的原因是就因为它比较长所以我应该再选 C 所以它找到了这些叫错误的关联

对,就会导致,你看我们早期做了一些非常小的模型,让这种一口爆的数据做多了之后你会发现它会学到一些很奇怪的 buff,就比如说遇到一些比较难的题,一律选最长的,对,它会 buff 这个。如果语言这一块大家能够理解,就这种训练是有害的,那么自然就能理解在图像上,你这种图文交错的训练,如果你不解决,

这个 COT 或者这个 complex 的这个问题它也是有害对就是你 out of reverse 就算你你的监督信号是深圳市但是因为它一步实际上盖得不到这一点所以它的它产生梯度很多是错乱的所以最好的结果就是没有效果对如果你稍微再差一些你甚至可以做的就做得非常糟糕

那我们再回到主线那个祥宇你理解的多么太推理的 GP 时刻你估计还有多久还要在架构上发生什么变化吗还要还差什么东西那我接着把刚刚那个故事讲完吧就是刚刚那个故事其实就卡在了其中一个很重要的一个点我看我给出了一个看起来很美的一个模式对但是呢受限于你预训练的

这个局限性,你没有这个思维量所以其实它的推广性是很纯洁的并且就是在原图上做编辑不管是圈点还是批注还是放哪它这个动作空间太有限了很多问题我是想对它进行一个重新打草稿我是要 re-generate

所以这里就很自然的一个想法往后的路我得分三个两条路要走第一我得想办法扩充我的训练语调让更多的这种表示让我思维链允许更多的动作空间要扩大其实这时候我觉得第一条路就比较显然了就是视频

视频我们知道有大量的这种教学视频它是有非常丰富的这个就是就一步一步所谓的叫做思考过程而且很多思考人员尤其老师上课时他他有那个激光笔他会指这些点他会在上面打草稿还会连辅助线等等他有非常丰富的这种过程对如果我们把这个过程也引入了这个

训练过程中对那肯定是大有好处的这是一条比较确定的路线我是觉得可以扩充把这个视觉推理但是它主要难点还是这个视频数据的清晰因为绝大多数视频数据都是垃圾我说垃圾指的是从这个模型训练的这个角度对对对因为它经常因为视频长度特别长对以及还有一种大的一个缺点就是说它怎么跟原模态对齐

一旦用视频的话它跟用图文交错是一样图文交错也要经常它的文本部分是非常丰富的但视频类语料的话它是视觉部分很丰富但是文本部分不是很丰富一般都是一些解说或者 ASR 的数据或者字幕的数据甚至还有很多是无声的这种其实是很难应用的所以这里面的一个难点其实

其实还是叫做怎么有效的挖掘这类数据我相信这个可能很多机构都在做尤其是 Google 在这一块是比较超前的另一条路径也是比较显然的就是说我要进一步扩展动作空间对原途定义编辑是一种但是其实最具吸引的那个还是假如说你能做非常自由的且高可控的生成

那么这件事其实就这个吸引力会更大对因为一旦你能做自由形式的生成那我的思维链里面就不再局限原图了我可以把我任何我想象出来或者文字描述用图像具象化然后再进行推理那这个世界推理肯定能再更上一层但是前面也说了我为什么要做视觉推理因为觉得视觉生成它们

他需要思维链这件事没搞定但你现在又告诉我你做视觉推理也需要靠深层来辅助这不就死锁了吗死锁对解开死锁那就需要有一边能够先行一步对然后今年我是看到了非常好的一个趋势一个是那个 Gemma 他的高可供深层其实已经做得非常不错了

更让人震撼的还是 SO,SO 的最新版它的图像生成的可控性在可控线上我觉得是可以做到非常好而且看起来是跟它跟原模型已经融得非常好虽然我不知道很清楚它是怎么做但结果在那里我也做了一些相关研究

后来发现如果你只看重口控生成的质量其实这件事不是那么的无解就不一定需要你把 COT 甚至是 Lang COT 这件事搞定你只要限制你的问题的 domain 你把你的 domain 限制到能够一口爆解决的范畴

对这个也就要也就是意思是假如说你能很好的清洗数据并且严格控制这些数据的难度那么高可供生成其实在很大一个层面上它是可以实现我举个例子我给你一个图一个几何的图我想连接 AB 这件事不需要任何思考

它这个很简单的我认为它的复杂度是非常低的它完全是可以处在模型一口直接输出答案这个范畴的范围又比如说把某一个人给移除这样的一个编辑指令这个编辑指令当然你要看背景的复杂度但在绝大多数情况下这也是一个存感知加深的问题

它不需要它这些问题背后不需要太多推理之前我们没有特别重视把这些数据的程度以及难度控制到比较好就更多的还是把互联网语调所有乱七八糟的图文交错都混了一块

进行训练对这就产生一个问题一个是刚刚你说过的那些语料很多就比如说很多新闻配的都是图文无关的图那种就诱惑的说有些图也等图它难度非常的大

它不是一个你单步或者叫单次生成所能够做的事情之前是把这些东西全部混了一遍这个模型非常的 struggle 所以导致它可控性做得非常差当然这也说明海外这些公司还是很多技术或者认知走在我们前面他们既然做出来了我看了他们做的效果大概也能猜出来

这种做法其实基于现有的架构它还是有机会的,在里面的核心还是把数据好好搞一搞。所以今年我们就出了一个编辑模型,当然数据做得还是非常糙,数据也是非常脏,但是它出来的效果已经不是我当时做的那些深圳一体化的模型所能做,当然现在还不是一个完全的深圳一体化。

还是有点像打积木拼的,但是我们很快也会出一个基于这个模型所造的,他们合成大量数据,用这种相关的数据再去训练一个一体化模型,至少对于一些简单的踏实。

它是可以做得非常不错这就是一个很鼓舞人的信号事实上因为我们公司也不是很在乎这些美学这些东西我们是要走危机嗨的对对所以呢但是光从这个画面的结构和这个 instruction 的这个忠实程度来说我觉得现在是可以做得非常好就至少对于简单的问题叫指令型问题就无需推理的问题它是可以做得非常好指令型问题就是把这个挪到那儿

或者是生成一个左边是什么中间是什么上面是什么就这样的问题它是可以做得非常好指令又比如说像像那个在柱状图帮我连接一条水平线让右边那个柱子指向那个左边的那个坐标头像这样的指令它可以做得非常好这个指令你要说有什么用呢

就很多人比较在乎美学,就是人脸是否极变什么的,如果你要搞的目标是推理,那其实这也是不关键的,它关键在于你要把这些指令性的任务,就是该完成的完成,至少在语义上完成,完全质量上都不关键,有一个大概那样的感觉,有一个方向就行了。对,一旦你搞定了这一步,那下一步就最吸引的,像这样的一个模型是不是我就可以进刚刚说的推理思维链了,

对,我有了这样的一个模型,并且我还能做到叫初步的初级生成的业绩,初级生成的业绩是不带 ZOT,我又简单的把指令性 Program 能够执行好的这样的一个生成和理解的模型,我以它为起点,它可以在任何地方想要的地方产生输出,这个输出也不一定要一次性生成对,因为后面的思维链还可以对它,

再进行修正,你发现是不是理解,可能更广泛的意义上的理解,它就可以做了。就比如说一些需要空间想象,或者需要画草图才能解决的这些问题,有了这个东西,它就这些问题,我不说做得如何的好,至少它就可做。以及你会发现,这件事当你搞定了,

理解部分就像我刚刚说的带 COT 的生成甚至于 Lang-COT 的生成也变得可做它无非就是最后的结果你输出的是文字那么它就是理解最后那一步输出的是图那它就是生成至于中间的思维链全部是图文文的也就是说如果能做到这一步我就可以一次性地做到就真正地在视觉空间生成加密这就是我想象中的下一个

我们叫做多模态的 GPT-4 时刻对这个还是很兴奋的你感觉这个还要多久到 GPT-4 时刻今天处在很乐观真的很快因为它的前置技术觉得但我不是特别清楚后面还有多少坑

但看起来前置技术都是 ready 你的数据能洗的都干净你的算法是否能稳定把动物态这种东西建出来我再问一个小细节你比如说数据清洗咱有现成的一些 Pi Plan 算力上它的消耗比语言这一块要消耗会大很多吗这个不好说的都是看具体的算法和任务对但总体来说涉及视频的都少不了

不涉及视频其实跟语言都还好差不多另外你感觉架构上基本上也是现有的架构就可以支撑对这件事其实不涉及更下一步的更下一步进展包括跟 Languages IoT 啥都是足利的对如果你真要做 Languages IoT 你要做自主学习在线学习我认为现有的架构肯定是不行的对但是就我刚刚说的这个维度我

我感觉现在海内外的公司都在强调 Long Context 特别重要你能讲一下为什么重要吗以及说今天的难点到底在哪 Long Context 就是大家想知道为什么重要它首先这个重要我理解大部分公司或者机构说的都是指在应用上重要因为我们现在有海量的

就是就做很多应用我们最后有海量的这个参考信息了模型自己输出一个是他不知道你具体环境具体环境或应用场景的这个 domain specific 的信息对然后另一块呢就是模型自身的幻觉是目前今天的一大问题所以大家都希望把那个进很多的参考资料给扔进去而在现有的架构下其实承托这些或者容纳这些资料

的主要方式就是把它进 context 对所以很多人大家都会说这个 long complex 这件事很重要但其实说实话我是有不同看法就从智能发展的角度就是不同看法其实现在我们转科目在建模 long complex 上是非常有问题对大家可以设想一下就是对于一个人类这个 context 可以类比如果你把这个 context 类比成人的记忆系统你会发现这个很有问题

首先 context 大小对于传输网标准的传输网来说它的 context 大小是随着数据的增长它也是以同等的比例在增长也就是说它不会做任何的压缩

他不会对信息进行裁剪人类非常不一样比如说一场会议开完像大部分人都会记录一下这个会议上最重要的或者印象最深的一些细节你看电影也是也会看到这些细节但是你绝对不会看到在

在第多少分钟上桌上有多少个水杯这样的一个问题会牢牢记下来对也就是说对于人类的记忆人类的记忆机制也说它其实是个分层的一体短期经历一般人认为叫短期经历叫 working memory 我们认为它的时长也就是 2-4 秒非常短非常短比如说你抄写一个电话号码它是可以保证无损或者就是

或者说精确的对当然它维持时间非常短你抄完这个电话号码如果这个电话对你来说不重要你也不会记住对人真正厉害的是人的中期记忆中期记忆可能从几秒钟到星期几点不等对这套记忆其实是人类现在你也可以要含 Mati 记忆

对就是这是人类经济和学习工作的一个非常就是非常重要的一个机制它的最大特点就是说第一它是有延续性对然后呢它是有它是会遗忘的它抓重点的能力非常强对它根据呢就是未来最有可能能用上的信息它才会人家会记住并且呢这种技能会通过反复刺激来增强对脸皮呢就比人体起来嘛

人在写代码的时候根本不需要把整个仓库所有的这些东西都记录人只要知道一个大概然后他就可以开始工作在工作的这段时间内他可以保证就第二天起床上班他跟前一天工作是可以完美的接续在一起的他不用把代码库像文言原文形象每一个他都要把前面的所有代码全看一遍他肯定是不需要的对

但是呢,这件事也看时间,比如说他出去休假了几星期,再回来他可能就啥都忘了,他又得重新再 review 一遍,然后再看所有的东西。然后最后是有长期记忆,就有一些东西呢,就是经过反复的刺激,然后印象深刻以后它会形成一辈子都忘不了的记忆。用神经网画的时候可能就固化了参数里面。

对人是有这种分层记忆机制对但是我们在反观我们的火门网络就是传统的传输码架构似乎如果按刚刚的这几个就人类的这个记忆机制来类比的话它似乎只有这个短期记忆这个但是短期记忆的话它又太长了

退后太长了对就比如说我之前曾经算过比如说按照一定的就是码率来估计的话光是视觉这个信号可能 2~4 秒就占个三四万个头差不多但我们今天说的 LUNCOMBAT 动不动就是 10 万还是百万还要做千万这种级别的 LUNCOMBAT

就是产生一个大家大家也都发现了一个问题就是 context 就是说 context 变长他很多时候他只解决了我把这个信息装下这个问题但是他没有解决的一个问题就是说我能从这些信息里获得什么就似乎我们只能做一个最简单的 retriever 稍微复杂一些的这个就这个推理问题他其实做不了他并没有解决就怎么把这些信息用好啊这样的问题

更麻烦的一件事目前主流的架构其实尤其是相对较小的模型我们发现随着这个 context 增长这个模型性能都下降了对都下降了对这其中一个很大的一个原因就是因为 context 干扰就比如说你让模型做一张数学卷如果你让他一题一题

一题做完一题清空然后再做一题清空你可以得到一个性能如果让他连续做题从第一题做到最后一题可能开始的时候效果跟他差不多但假如我题很多比如说有 100 题 200 题你会发现越往后面那个模型性能是急剧下降其实你分析他的 attention 就可以看出来

就是他后面明显遇到了这个注意力换善这个问题因为有太多相似的 contact 在在在他这个商业文明里面有清空他在看后面的题的时候他不断的会要 attempt 到前面然后他模型要花很多的精力来来避免这种干扰对就这种因素呢就是就是让他这个就是他这个效率随着这个 contact 延长急剧下降

对而且就不说老生常态了大家说追溺机制是平方的大家说就是 complexity 的角度对对但 complexity 不是我最主要关心的我主要还是关心智能智能本身的建模就是你光是这个问题你就使得他就这个方式是不对的就是就不对的而且我们经常说压缩产生智能对你这个信息如果你不经过加工

来来压缩他不管是无损压缩有损压缩的道理是一样就是用一个更精炼的表示啊你要想办法提炼了性性性性里面一个更精炼的表示他才能产生智能对但我们知道就在那个你用传送的来的那个 context 来建模这个商想文的时候就是他的那个容量就是他的 memory 容量所用性性增加的同步增加所以他并没有任何压力或者痛力也没有什么 loss

来让它做亚索尤其是如果你关心了 task 还包括很多 retriever task 这个模型就会更学到一个 bias 就是说我是一点都不能忘我必须得牢牢记住因为我的训练器老是考我 retriever 问题比如说考我大海捞针问题我就一点都不能忘

对但其实就是这些训练就是它不是一种智能的表现反而是一种智能倒退就本来可能存在智能中就因为这种不遗忘或者最片面最有无损或者就就是它其实是阻碍这个智能进来

然后再想到就是当然很多人都意识到这点啊就是比如说像很多人就就是想用这个 RNN 来因为人类可以看成一个 RNN 它是个无限无限学用 RNN 来替换一下有的成功最经典的就是各种各样的传输的 linear 传输的变体一念才能就会看成一些 RNN

对然后实际中也取得了一个效果但是用的据我所知还比较少但我是有这样的看法就这样的这些架构都很好对都很好但是我们无论是但是现在关于建模 long context 的核心难点或者是就关键点根本就不在这甚至于今天的班尔曼娜有很多误区

比如说有很多人会把 RN-like 的方法比如说 linear transformer 和普通 transformer 混用理由就是如果你不混用 retrieve 任务就没法做比如说大海捞金过不了就很难通过但问题是你想想这件事总真的重要就这个 benchmark 真的重要

对其实在今天这个方身靠的这个时代就郎康他完全可以利用多模型就是 rechew 这个他说是可以通过多模型协作来解决你想想我给你一本书就人看完以后人是怎么找到假如他要他要对这个书写总结但是很多细节比如他要摘抄一些金句这肯定是这些细节他都忘了那句子是什么样的都他这都是不知道

人并不是直接输出这个就直接从他的记忆里背出这些这些金句这个很容易出幻觉因为他记忆是有限人会忘还是人会烦恼主张去烦就看看有没有他虽然已经读过这元素但他还是会夜夜的去烦我就根据我的印象可能在哪附近是有一个我觉得比较好的情节我想从那个情节里再造一些好的内容

它是会翻书那怎么建模翻书这个动作你可以理解说这是一种方程口或者 RAP 对但是在我看来它可能会更复杂一些它其实涉及到一个注意力就是 context 的转移也就是说我从一个全局的注意力转移到了一个局部而这个局部呢是靠这个全局的这样一个注意力来导引来实现的对

所以具体建模我完全可以建模成两个 LM 对然后一个 LM 我每一个 LM 我都是只使用上下文比如说相对较短的普通传送混合上无线上下文的 linear 传送来构建我就不再像现在

现在流行的像捡把这样的架构我是直接用一个全尺寸的 transformer 加一个全尺寸的理念的弹圈去搞那样的话就等于你还是只是取了个巧然后你的 memory size 其实还是会变得非常大就我前面说的所有确定都还在那实际上大可无比所以我就故意用一个 context 非常小的普通传播来建模前面说的短期记忆

然后再用一个就是无限长序列的比如说 linear 程数目或者其他来建模这个就全局的信息我先把书破了一下我有了整体感受然后我想打开哪一页我就触发一个动作我就触发一个动作然后我就可以找到那个动作这就是我印象中可能这个书 20%不一定需要有一个东西我很看重如果然后呢

对于另一个对于另一个这个 LM 我也可以用同样的价格来说他就只看了 20%我看看他有没有我想要的这个东西对如果有了他直接反馈给我的主传送就是下面那个就是无线程序的时候对然后没有下面那个说他没发现好东西那我再换一个位置再看看因为我总有印象有没有好东西这样一搞

而其实它还是一样的我用扩通思维链的方式就比较巧妙的把它解决了自始至终我都没有哪一个东西把整本书就完整的存下来相反我通过扩充思维链并且我这个思维链还带工具了当然这个工具是广义的工具它不只不是只 RAD 那种工具它还包括调用另一个 LM

这其实也是我认为为什么人类的脑区没有学到了这种比较精细的分工而不是一个脑区就搞定了所有模态所有 task 这可能是更节省上下文的一种方式未来像大脑分区一样对我完全可以用 multi agent 的这种方式它是完全可以实现节省上下文的目的对

又比如说我们在讨论一下像 OpenAI 那个当时欧三刚出来的时候他是说他他们可以做 6 天 6 夜不停的推理然后有上千万个投资对那么那么可以适合我但我我肯定不知道他真正是怎么做的那我可以思考一下就简单思考一下如果让你做你要怎么做啊对那最简单但粗暴的方法就是我设计一个架构硬扛了几千万个成分我投资

对低很难也很慢是吧而且听起来就不太没算成本也去搞对但是我现在就告诉你我现在手里只有我告诉你我做了推理的基模我手里只有比如说 128k128k 剩下的我要怎么做的这么长其实有一种非常简单的方法就是我搞两个模型一个模型做 plan 另一个模型来做具体的球结

Plan 模型我是每次我搜索到一条分支我到这条分支的我进入到这条分支以后后面就是一个具体的演算和执行了我把这个演算过程我交给第二个模型来做这个模型是它只有有限的上下文它的上下文是经过 Plan 模型摘要之后产生的上下文

他接上了一个结果可能是已经找到答案了或者是没有找到没有找到但是他反馈了一些思路然后他把这个捷宝汇报给我的主产我采取到控制作用的那个模型然后这个模型再 plan 根据他这个反馈我再 plan 第二条路径再 plan 第二条路径然后这个第二条路径我再发给刚刚负责执行任务那个模型

啊对这条路径其实已经跟刚刚的路径无关了所以第二负责计算和那个推导那个那个模型他根本不需要保留刚刚那一步的生产它只需要有你这个就是起到控制作用的这个 agent 了

A 进了发给他的必要的信息他只用这些信息就跑去了这跟人类也一样你做第二题的时候你为什么你还要对第一题念念不忘对比如说你做第一道题你已经探索了路径此路不通然后你再算那你为什么还要对刚刚那个路径念念不忘

对这是一个道理就是说第二个模型就相当于它是人的注意力转移中的就就它就有一个情景转移它已经从一个 context 上切换成了另一个 context 人是有很强的情景隔离的比如我现在跟你说话对其实我刚刚办公室那个问题很多有很多办公的问题但是在这一刻我是不会想它它就不在我的 context 了就这个意思

对对对你就通过这样的一个方式你会发现你的路径假如说你的搜索成绩是一个就二叉数上展开那原来你需要你把整个二叉数每条 pass 全部拉直你的 cot 需要可能要上千万但你现在只需要 log 几遍我从顶层节点到底层节点我只要 log 几遍

我只需要非常多,也就是說我的負責 plan 的那個模型,它只要知道 highlight 我的價值,我哪些路徑收到了,之前得到什麼樣的結果,也 highlight 我的信息。而我負責執行和演算的模塊,就那個模型它只需要負責它關心的那一部分,當前關心的那一部分。它歷史上計算的,它完全可以不存儲,這樣其實思維鏈常駐就大幅減弱。

但最最关键的是这件事很多人看不起这个假如说这不就是拼 A 径了拼 A 径但是在今天这个时代就很多人说叫拼 A 径的肯定永远比不过短道端了对不对但是我现在可以告诉他告诉你现在这套系统发展到今天以后有了 RL COT 这套范式这一套系统也是可以短道端训练为什么呢我现在就给你个 retro task 我现在也是甚至于我也可以用 Rule based 这种方案

去搞对然后呢我限制你这两个模型的抗态长度你永远不能超过人这个程度但是呢你们可以互相之间 communicate 可以清空你的不断的清空你的想象反正最终的优化目标就是就是那个我要最大化我回答对答案的概率对这时候你会发现这两个系统他如何协作他不是你自己拼啪啪啪拼出来你可能需要一个简单的人启动但是那个

但是经过 R 的训练他完全会 adapt 到他自己的那种 pattern 这个 communicator 所以他也是短道短道而且比你直接塞到一个上下文要强大得多就是他对于这个 contact 使用而且他避免了那种上下文干扰问题就甚至于他会主动避免上下文变长因为上下文变长一定会才能干扰

这个不仅解决了长上下午的问题好像也是一个 multi agent 的未来出行吗或者说你要那你要看你定一种的 agent 我觉得这个可能更像于人脑的不同脑区之间的协作基础还没有到真正的 multi agent 就多个体多个体协作像你就像多个人你想要为了同一个目标进发这是个很困难的事但是对于一个人内部

或者说我认为对于一个独立的个体以后设计这种系统你就得讲那如果是沿着大脑分区的那未来可能更多个模型有更多的不同的分工通过 RO 的方式可以趁着一体化更好对它很有可能它的基础都是普通的 LM 或者 VLM 但是在训练的过程中它逐渐产生了分化就是功能上的分化我觉得这是非常有可能

有的模型它就是为了记忆存在的有的就为了做 planning 做 action 虽然说在训练之初你可能没有这种偏好但他最后他为了达到让他每一个我举个例子让他每一个上下文都不爆掉对他会学出这种模式

就不断的裁剪的上线网这种东西这是非常有可能的现在很多人围绕着 attention 架构去改好像今天没有什么好的解决办法是这样的我还一直强调一个观点架构不重要架构是服务算法和系统

所以你有什么样的算法你就能做到就包括我说 linear transform 我为什么认为它一点都不本质呢因为我们今天的算法是 auto regressive 的 NTP 如果你不用这个算法比如说 Hinton 的这个 Full forward only FFN

不是,那个叫什么,我有点忘了就是 Fade Forward Only 的那一套方法就是无反传算法你根本不需要 Linear Tension 你就一个任何一个普通的 RN 都可以因为它不反传历史甚至于这个它好像叫 FFA 甚至于这个算法如果最后是 work 那么在线学习也就可以直接搞了

我就不需要有所谓的 train 和 inference 这个阶段 train 也是一种 inference 对所以这个就是简单说一下架构是服务于算法因为你有 next to prediction 这件事然后这个算法你需要并行化所以你不得不对 RN 的结构产生了一定的要求它必须得是一种表现为一种可分离的这种形式所以才有了理念的开始

你刚才也提到了在线学习或者叫模型的自主学习这块能不能展开讲一讲为什么这个重要以及这可能是实现 ASI 最重要的一个路径对其实从今天大模型的眼睛来说你会就很明显的发现就真正的核心的驱动力是两根轴很多是底层算法其实就是或者我们说叫优化方法重轴是魔态

对然后优化算法的起点就是零点部位或者叫单位长度那个部位就是从 0-1 的那个代表代表性的世界是 next token prediction 的发现对而模态那个的起点是语言自然语言对然后我们的发展趋势其实都是在不断的它是呈现一个螺旋上升那个地方

这因为 next-to-end prediction 很 work 在文本上很 work 所以沿着多模态有越来越多的人去研究怎么把类似的范式迁移到更多的模态先给它迁移了但迁移过程中可能会反复碰壁碰壁的多了可能人们就会怀疑你这个训练到底 work 不 work

对然后一群人呢还有一群人呢他可能他的焦点是主要是 focus 在语言本身他在研究语言推理问题尤其数学这些问题他也发现了 next-to-one prediction 的问题对所以呢大家一致结论这个不行对就基于这个压缩这个不行我们得搞 RR 就相当于直接面向目标优化就不走那种间接的那种优化模式面向目标优化呢

发现一下子盘活了很多思路对首先语言模型推理能力强了一大块多摩泰之前大多摩泰都无解的深圳理解一体化这些问题突然就因为有了推理模型就很多事情就变得都想通了我们就可以继续再走对然后今天我们仍然是处于还是在

就 RL 这个模态的这个算法这个训练算法的大家还在挖掘这个上限但是已经越来越多的人也是开始发现了这套算法就看起来也不是那么的完美比如说存稿语言的人他其实最觉得这件事最不 make sense 的一点是在于什么呢就其实在于就目前只有 Ruby

以及一些像逆强化学习这样的方案它是 work 了但是这件事跟人类的学习其实差别非常大而且局限性也特别大比如最典型的就是 rule base 你是无法处理那些没有评价标准没有明确评价标准这些没有明确评价标准的东西你可以通过模型来建模但这些模型的行为又很容易被害

以及对于人类来说就是关于自我价值的认知以及正确性的判断这个更多是靠人脑自己并不总是人就像经常开的玩笑就是人不是做每件事都是服务于 KPI 的他是要有自我意识他有一个自驱力

在驱动这件事也就是说评价的模块很大概率上它不应该是个外界我们现在是 Ruby 它都是外界就是说你训练模型就 Reward Model 它也是外界这就是逆强化学习你针留了外界的偏好然后再监督它自己它都是来自外界但是我们学到一个就真正的内生运动

但可能很多人说这个不重要,现在的方法已经够了但是你在工程实践上你会发现如果你一直沿着 Ruby 之前这套方法走下去你又会重新遇到 scaling 问题这个 scaling 不再是我们之前说的 model scaling,data scaling 现在叫 environment scaling 就是说就比如说你要解编程问题你要搭环境码

你要做到 Rubes 你就得搭环境结果一个 project 你得搭一个环境把那整个的一套 docker 那个输入输出还有测试数据都会配起来结果你产生了一条数据对这个效率太低了当然大厂现在很多据我所知就这样干了就找了很多工程师一个一个写 project 这也是很多厂那个就尤其是主打编程的厂他可能比较擅长做这件事情但是终究这件事跟人类不一样

人類不是通過給他無數的環境讓他就外界手搭好人類是自驅的他會自己看文章自己搭環境自己搭環境從環境反饋中獲得學習變成這個學習絕對不是一個 01 這種要素的一個學習

我就说一个非常小的这个大循环这个大闭环里面非常小的问题就是说如何从人类三元中拿到返回因为发现就即便是这么小的一个问题目前都是很难实现的举个例子我写了篇作文我写了作文我的老师跟我说你第一段写的不错然后第二段稍微修辞用的有点过对然后第三段的话就是跟上下文衔接不太行然后第四段有些除别字

然后整体读起来就感觉略显干吧而且长度太短了对这个老师从非常多不同维度对我这篇作文做出了评价对但是我们今天的 RL 是怎么做呢把每条评价都单独加了个全这个算了 0.1 分这个要加 0.5 分最后说我这个模型得了 3 分

我这个回答得了 3 分完全丢失了这里面非常丰富的评价的维度看起来你的这也是现在大家做 general table rm 的一个困境就是说你确实是可以从多维度评价一个回答的好快

但是怎么利用这些这些维度现在是没有什么好方法最后都是把它加全成一个干巴巴的数字既不知道这个数字对模型来说他根本不知道这个数字怎么算出来他只能猜他通过大量的样子去这是个很低效的去猜你你的打分规则你是靠什么算出了这个数字以及他不仅要算你的打分规则他还得猜

你的每一块的打分的要素你是根据我第一段打的分还是第二段还是整体风格还是整体的这个叙事逻辑这些不同的维度这信息完全丢失了我根本无法从这句话中获得反复就现在就是连这一步我们都还没有比较完美的解放虽然说论文很多就是这一块的论文是现在已经比较多了但是还没有一个在工业界上大家普遍认可做得比较好

有些你想在自然语言反馈这一块其实这也是我现在重点有了一个理由让自主学习它其实也是要真正实现自主学习就是它前置技术来还是非常长的我认为其中最需要解决的就是跟环境沟通跟环境沟通很多是那个自然语言你要得解决从自然语言中获得反馈这个能力这个领导批评你都做的错了你得知道你要向哪个方向去改

对这个才是基础当然这只是一个刚刚说的众多问题中的一个非常小的技术细节是需要突破的但我刚刚说的就是上一代或者当前这一代 RO 就 RubyRO 它面临的最大问题其实还是环境环境不可 save up 你需要非常多的人去做标准

而且这个跟人类是完全不一样对人类他应该具有在那个就是空间里面自主探索跟环境沟通中不断的 improve 他自己这样的一个能力这里面又涉及两个技术细节就是一个就是

还是叫做无限长上下文的建模其实就跟刚刚那个 Long Context 就建立关系了在无限长因为真实的环境它就是一个无限长序列而且是个动态的就没有稳态的这样的一个界面第二个就是学习算法尤其学习算法中尤其关键的就刚刚说的如何从这个自然语或者非结构化反馈中来提醒自己以及你要如何

如何涉及你的就是叫内生奖励对就内生奖励就是说就驱使你这个模型如何更新你自己的权重参数来适应这个世界对这个其实就是下一代自主学习对有要解决的问题对我们经常说这个自主学习跟在线学习经常是绑定到一起因为看我刚刚说的这个模式如果你能搞定自主那为什么不不把它放到真实环境中玩一玩

对那其实它就是一个在线模式所以这两个件事其实帮助这个也是我们下一步就是要做的我这边会重点投入的一个东西他提到多么太退 GBT40 了可能一年以内那自主学习或在线学习你估计时间表会有时间表会推迟一些但我认为也不会太多两到三年对可能都不需要两年以内我认为

两年以内因为现在研究这块的人已经非常多了我是觉得很有可能就是不用特别久

这一块就会有突破如果你刚关注学术界就会发现这块现在也是一个研究的大热门比如伊犁啊如果自主学习在线学习突破了那其实公有的知识跟很多领域的专有的知识企业的私有的知识有可能会融合的很快比如说一个自主学习的 agent 在咱们公司内学习他可以把我们公司的很多 know-how 都学的我们公司最强对吧

而且可以持量高度的定制化就这个这个智能体就是你公司的员工了对就是他这是专为你定制的当然这里面会有很多系统上的挑战就比如说你怎么复制怎么迁移比如说

比如上帝造人类其实留下一个大 bug 就是说这个人的记忆他没法很容易的给那些人其实自主学习实现以后它也有这个问题就是你要怎么融合两个人两个课题对这也是一个比较难玩的点当然这也取决于建模建模的方式对

如果自主学习实现了你感觉对今天的基础模型这个范式会有多大影响因为它学习效率更高了它有限的数据很少的数据可以学得很快那今天这些它是给未来的一个叠加式的一个技术的底座还是说它会现有的东西可能未来的重要性就没有那么重要了

这个是很难预判的基本上每一次迭代你会发现你都得把这里其实最难的认知不管是颠覆式还是渐进式它都有可能有可能就是个小修小改甚至有可能就是一个损失函数的事解决了一个损失函数就搞了它有可能解决非常简单也有可能会非常复杂但是基本上从历史上来看这里面最关键的点还是在于认知

你只有把上一代做的比较完善了你才能充分理解到它的边界在哪或者问题在哪这个认知的 knowhow 是这个所以无论如何你上一代你都得做所以未来两年可能我们还能再看到至少两个 GPC4 的时刻一个是多么态的推理一个是一个是这个自主学习或在线学习觉得还会有更多的 GPC4 的时刻吗

剩下的就不好预估了现在 Google 还有一个 Agent 可能在未来一两年大规模的做有经济价值的任务他们也觉得这个可能是一个我想澄清一点现在的 Agent 提的很可能不是一件事

OpenAI 的 5G 智能度的 5G 分类法它其实是非常有逻辑的它第一级是 Chabot 第二级是 River 第三级是 Agent 我想说的就是它 Agent 跟我们今天说的叫 Agent 应用还是差别挺大的对你会发现 OpenAI 的这三个分级它 5G 分级它其实背后的潜台词是每一代分级它都得有一个全新的算法

比如说 Chad Paul 的这个时代他本质就是 next-world prediction 之所以要 reason 他硬要把他的 O 系列取因为他把强思维利亚 R 做了而且 R 会往后越来越 scaling 对所以以 R 主导的这个时代他把这个叫做 reason 那 agent 呢你自然又可以想那是什么上上去我认为就是自主在解学习自主在解学习因为 agent 这个东西他定义特别强调自主性

就是说我不需要人工设计这么多行业我人工给他定义这么多规则就是就相当于相当于现在的这个 raying 系统就感觉还是一个 tph 就是说就第一是他训练结束他就不能再继续 impro 了第二他的训练过程完全依赖啊就人工给他定了目标当然比那个 NTP 要好一些的是 NTP 你不仅要给目标你还要

你让他背就你要还要把路径达到这个目标背你给我背下来就这条这条路对现在是我我给你个目标你去实现去对但是在自我学习他全都会把这个目标这块也要反过来对你得自己去找目标自己才有自己学习自己的价值对这个是这个是 A 型时代就是因为他定义为他能够独立工作你要能独立工作自我进化呢你必须得有这样一套机器所以他是要有心算法

对啊今天我们说的更多是应用他其实把一个复杂的他不让你搭了一块或者是借由今天的今天的这个 ray 的模型这一代的这个 R 机制你看现在大家突然普遍在图一叫工具叫 function 靠近那个浪费物体其实就意思是让 function 靠这件事变得更加智能就是按需调用啊对他其实这一代 agent 更多的还是

这个时代的想法就是说把一系列系统给它串起来然后我有个统一的 KPI 你们尽可能你随便输出最后你要让我那个 KPI 最大化就结束了这还是这个时代的思路这个解释有意思但是它比 Long-chain 那个东西它又进一步了 Long-chain 那个时代好像也有人说那个 Agent 那个就是完全的自主

就是那个就 Handcraft 的 PapillonHandcraft 的那个 Papillon 那个时候讲的 Agenome 本质上还是确定的就 Next Token Prediction 那个时代的东西大家通过 Program Engineering 几个流程给它糊起来那个是属于那个时代的 Rhythm 的这个时代我们现在讲究的是叫模型主动调工具

但不是掉就完了这个掉不是靠 prom 的激发掉的它是因为它有了我要扩展它这个掉的都在红边它靠 RL 自主激发就是说它认为需要反正就以 RL 的那个优化目标最大为原它认为掉了会更好它就会掉如果它发现掉了还不如不掉它就不会掉就像那模型学出了这种我是想关注过飞飞提的那个世界模型了没有包括了困也在提吗

我感觉最后可能就是祥宇说的这一套最后殊途同归的是的他选核心想解决的也是那个也是那个要解决自主自主在于那个但是说他的设计方法论还是有很大的区别的

对就是比如说他不提生成力液体化我觉得也是非常有道理对生成真不是必须的甚至只是说我为什么我这边提生成是因为呃从语料获取方便性角度生成是最最好的那个他是最好的那种一种监督或者自监督的一种模式但是冷混说的是完全正确的人身上没有视觉生成器官人可以想象未来但未必要化他可以在脑中想象

对这件事非常正确我认为非常正确甚至于这个方向才是我们说再下一步再到下一步要是我们进行更复杂的空间推理我需要结合世界模型这个是结合了世界模型的这个做法它可能更为本质但是世界模型要怎么训练从目前来看还是得靠深层式训练

所以这里又回到一个叫做人虽然是没有生成器官但人是有世界模型的他能够脑中想象未来但这个世界模型的怎么学习更为方便对于人来说可能非生成式更方便对于我们现在的这个部落可能走生成式方案不重要未来机器人的大脑

跟今天的多玛泰未来融合之后的模型包括甚至自动驾驶的模型这几个未来会是殊途同归吗对实际上这几个领域目前都有一些其实它是在强跑的我们的智能水平远远没有到聊到这一块就是说现在大家还在为视觉这一块在挣扎中对那个机器控制它实际上是先强跑先起跑

就提前想了因为他研究的 Domain 一般要么是问题比较局限要么是他的控制的他的场景比较局限比较自动驾驶它的控制维度其实比较低的对然后他讨的场景也是比较受限就相对于那种通用机制

所以说他给了一些他机会他可以提前用一些 Ruby 方法以及分拆模块的方法就先把这个系统先装起来再说你看现在自驾的趋势他也是在走向断断断当所有这些事情走向彻底的断断断

并且你还需要整合视觉的推理或者动画的推理你会发现就是跟 A 加的中局形态是一样机器人当然更是现在是因为做不好你只能做个叠个被子或者跑步像跑马拉松然后再做个小脑这些东西那还是因为基础还没到这但是并不妨碍这些东西已经可以做一些运用了所以它其实是提前强化它的路线也未必是按照

就是我刚刚说的 A+的主线这块来了但是终究它会在某一个时刻合录

好了这期节目就是这样如果你喜欢我的节目欢迎前往小宇宙苹果 podcast 腾讯新闻喜马拉雅 QQ 音乐订阅张小俊商业访谈录如果你有其他想邀请的嘉宾想听的内容或者你有任何想探讨的话题都欢迎各位听众朋友们在评论区里留言那我们下集再见拜拜

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻” 02:28:43 Share

张小珺Jùn｜商业访谈录

Deep Dive

Shownotes Transcript

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻”