We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

98. 逐篇解析机器人基座模型和VLA经典论文——“人就是最智能的VLA”

2025/4/6

张小珺Jùn｜商业访谈录

AI Deep Dive Transcript

People

陈

陈建宇

Topics

陈建宇：大语言模型的出现为机器人领域带来了革命性的变化，使得构建通用机器人模型成为可能。过去，机器人技术受限于专用模型，难以规模化发展。而现在，我们可以利用大模型的能力，构建一个能够处理视觉、语言和动作三种模态的端到端模型，即VLA模型。这将使机器人能够胜任各种不同的任务，不再需要为每个任务单独开发模型。我们对通用机器人的探索经历了两个阶段：第一阶段是将现有的AI模型（如LLM、VLM）应用于机器人的规划、感知和执行环节；第二阶段是预训练专门针对机器人的基础模型。VLA模型正是第二阶段的核心，它是一个端到端的模型，能够同时处理视觉、语言和动作信息，并直接输出相应的动作。目前，VLA模型领域的研究进展迅速，涌现出许多经典论文，例如Google的RT-1、RT-2，以及其他研究机构的Aloha、Gato、Octo、CrossFormer等。这些模型大多基于Transformer架构，并通过不同的方法来处理视觉、语言和动作信息。一些模型还引入了预测未来状态的能力，以更好地理解当前状态并辅助决策。构建可扩展的机器人模型架构是目前通用机器人领域最棘手的问题。我们需要找到一种能够处理各种不同类型的机器人和任务的模型架构，并且能够在大量数据上进行训练。此外，数据的多样性比数据量更重要，因为多样性有助于模型的泛化能力。我们团队也进行了一些探索，例如HiRT模型，它通过增加专门处理动作的模块和分频处理，提高了模型的性能和推理速度。我们还研究了基于扩散模型的VLA模型，以及将预训练好的视频生成模型应用于机器人控制的方法。未来的研究方向包括构建统一的理解和预测模型，以及利用强化学习来改进VLA模型。我们相信，随着技术的不断发展，机器人将在未来五年内得到更广泛的应用，并为人类社会带来更大的价值。张小珺：作为访谈主持人，我引导陈建宇教授对机器人领域，特别是VLA模型的发展历程、关键技术和未来方向进行了深入浅出的讲解。我从观众视角出发，提出了一些问题，帮助听众更好地理解VLA模型的原理和应用。

Deep Dive

Shownotes Transcript

人就是一个标准的通用的 VOA 模型大佬人就是一个 AGI 之前的机器人是什么是 100 种场景 100 个任务我要重新开发 100 种机器人那么恰吉比的出现使得我们看到这样一种曙光这样一个希望我们不用去再做专用的开发专用的模型这个是完全没法 scale 的

包括 Sergei Nevin 包括刚才的 RT 系列工作的话像 Sergei Chesire 这些都参与的比较多然后他们其实后面如果了解也知道他们后来创立了派这一套都是他们这一帮人 Google Berkeley 和派等等这帮人当然也包括 Stanford 几个然后这 Chesire 其实也是 Sergei 的一个学生然后这儿立了两个工作是一个系列的工作其实是自己也这边做的

这也是在国内相对比较早开出 VLA 模型的单位之一哈喽大家好欢迎收听张小军商业访谈录我是小军这是一档提供一手高密度信息的商业访谈节目今天的嘉宾是清华大学交叉信息研究院助理教授心动纪元创始人陈建宇他的研究和创业方向都是人行机器人

大元模型浪潮爆发后,学界和工业界都看见了机器人从专用走向通用的可能迹象,机器人革命随之而来。其中,本轮革命最重要的是对机器人底层架构,也就是机器人的大脑的探索。

但是今天的通用机器人还在科学研究阶段处在产业发展的早期那这期节目陈老师将带领大家盖蓝式的阅读机器人机座模型和当下最前沿的架构 VLA 架构相关的经典论文

希望我们的节目能帮更多人靠近科学前线感受技术之美并且能够直观地感知当前的技术拐点还是那句话期待 2025 我们和 AI 共同进步哈喽陈老师先给听众朋友们打个招呼你也可以介绍一下你的研究方向和创业方向哈喽大家好我叫陈建宇我这边目前是新中基园的创始人然后也是清华大学交叉性研究院的助理教授

那么我这边的研究方向主要是集中在巨神智能以及人影机器人然后我这边创业的方向其实也是在这两块简单介绍一下我整个的一个背景经历本科的话是在清华大学博士阶段是在 UC Berkeley 那边读博然后主要的研究的就是机器人和相关的控制还有包括无人车

然后博士毕业之后就回到青蛙茶院这边任教然后继续从事机器人 AI 相关的研究然后是大概二年的时候开始做关于人形机器人和相关的机器人 AI 的课题然后在 23 年的时候我们成立了行动机缘公司

目前我们是研发了多代的人形机器人的本体以及它所对应的命中控制的强化学习模型以及它更上乘的智能的巨声的断道端机器人大模型因为你也是创业公司 CEO 我也有几个快问快答想问你公司名字

新农纪元公司创立时间正式的我们成立是 23 年 8 月但是实际上的话 22 年我们就开始做了融资轮次目前是 pre-A 轮目前的估值

暂时保密这轮正在进行中你的 MBTI 是 INTP 和 INTJ 之间跳变今天我们的节目是机器人专场节目延续我们之前的技术报告系列陈老师会带着我们讲机器人的发展的历史以及在历史之中的重要技术拐点和重要的论文尤其是在现在机器人非常通用的架构就是 VLA 架构以上

那中间遇到我不懂或者有疑惑的地方呢我会作为观众视角来提问提问可能穿插在中间有可能在最后主要目的是希望和大家一起来学习机器人 VLA 这些关键的技术和行业那在正式开始之前我还是先问陈老师几个小问题啊

帮助大家做一下定位那这两年巨神智能赛道尤其受到特别多的关注这是为什么呀就是你在其中也有做研究也有做创业这一轮的创业相比过去十年其实过去十年一直机器人就是这个赛道一直在涌动着就这一轮它的显著的差异是什么它的变量是什么这轮的话最大的这个变量其实还是说我们大圆模型的这个出现

对所以其实看这一轮什么时候开始火起来真的非常大的火起来其实大概是在 23 年下半年然后基本上也是在大圆模型基本上 23 年上半年火了半年之后开始辐射到了机器人这一块我们如果往前面看整个的脉络的话其实 AI for robotics

这个事情是基本上近十多年才开始的事情那么此前的话 AI 它一直跟 Robotics 其实没有太直接的一个关系 AI 的话近十多年最重要的进展当然就是说我们 Deep Learning 的出现那么 Deep Learning 的出现其实最开始跟机器人最相关的还是 Computer Vision 它代表机器人的感知这一部分

但它跟之前的其他部分其实没有太大关联但它确实已经用到了之前里面因为它这边出来之后很快的就开始在无人车里面开始用 deep learning 方式去做无人车相关的 computer vision 和视觉感知方面的工作了然后进一步的一个非常标志性的一个 milestone 就是 AlphaGo 的出现 AlphaGo 它背后代表的是深度强化学习

那么这块的技术深度的强化学习其实强化学习也是蛮古老的一个领域了基本上半个多世纪的一个历史但此前的强化学习依然是没有进入到极前的领域里面它可能是拿来去做一些小的游戏或者是下棋等等当然就是说 AlphaGo 也是下棋但是它代表的是说因为 AlphaGo 它围棋是有非常

大的这样的一个状态空间去搜索的然后所以说它用深度神机网络和强化学习结合所以说它能够解决连续的空间的问题而机器人就是在一个连续空间里面做行为决策的所以说这个的出现代表着 OK 我们可以用 AI 和用神机网络的方法去继续做机器人的行为决策和控制了

所以这是一个非常重要的一个重要然后当然就是后面又有一些非常一线的工作因为当时也正在我读破期间基本上 AlphaGo 出现之后我很快的也往这个方向去做相应的很多的研究但是说这块还是依然不够强大就是说它还是很难做到非常通用我们做机器人包括做机器人 AI 其实很多人最终的一个目的就是想做非常通用的这样的机器人的模型

然后直到 CHIGBT 的一个出现他秀出来了 ok 虽然他还不是一个机器人的模型他是一个纯一元模型但他秀出来我们有某种 AI 的方法能够做到足够的通用 CHIGBT 的话你基本上你问他在任何的 contact 下面任他任何的问题他都可以给你回答的不错所以说这个点让大家看到了 ok 我们有希望 ok 真的去构建一个比较通用的机器人的模型

因为机器人确实是蛮长的一个历史了基本半个多世纪了第一台机器人是 1959 年 60 年的时候就出来了然后到后面包括各种轮式机器人包括无人车包括这些工业机器人写作币等等一波又一波又非常多但是之前都没有这一波这么火原因就在于之前它没有足够强大的 AI 去支撑

所以说之前的机器人是什么是 100 种场景 100 个任务我要重新开发 100 种机器人那么恰吉比的出现使得我们看到这样一种曙光这样一个希望我们不用去再做专用的开发专用的模型或者是写专用的代码对每一种任务这个是完全没法 scale 的所以一直到现在为止那么基于此前传统的机器人的技术的即使是这个出货量最多的

工业机器人公司它的出货量跟其他的我们现在像车或者手机或者 PC 或者等等这些量来比的话还是非常微不足道的原因就是刚才说的它完全是专用化没法同样化所以说它很难去 scale 然后这里面的话就是上面也提到也有本体的原因在里面所以为什么人性机器人货

因为人形机器它就是一种非常通用的本体那么此前的话我们机器就是说有各种各样的形态那么基本上是针对就是说相应的任务你就得重新设计这样一个形态所以刚才说到你 100 种场景你不光是要写 100 套代码你还要造 100 种不同的机器这样更加的震大了它的 scaling 的一个难度所以说

叠加起来就是说这一波巨声智能和人性机器开始火起来也是因为大家看到了 OK 未来我们通用机器的曙光经过了半个多世纪不管在模型上还是在本体上大家都看到了通用的可能性那就这两年迅速地涌现了几十家的不管是机器人还是人性机器人创业公司这些公司目前的技术路径技术路线分别是什么样的它的技术路线现在是收敛了吗有共识吗以及它的场景收敛了吗

逐渐在收敛的过程中但现在还没到咱们完全收敛的这个点对然后并且我们一定会先进入技术的收敛期然后再到场景和商业应用的收敛期显然我们这一波的商业化它一定是基于我们这一波新的这波系出来的对吧那么传统的机器人的商业化其实已经被

之前大量的基金各类基金公司挖掘了很多了所以我们这个时代的我们新的这一波做的商业化它也一定是基于我们新的这一套技术的当然我们的商业化也在同步在探索商业和技术也不是说完全结果非得技术做完了

才到商业化对吧那么我们技术的方向包括我们数据的来源或者是等等很大程度也需要和商业闭环起来这样的话能够有一个促进的一个作用然后我们技术的进展也能够启发说我们帮助我们判断我们能做出什么样的商业模式以及我们的能力足够做哪些形态但是大体上会说

先技术手练然后到商业手练现在技术路线它核心包括哪一条还是我们今天后面会非常详细的讲到对对对这就是说就是后面会主要讲的当然就是说我们今天主要集中在 Robot Foundation Model 就是研究通用的这样的机器人的模型往这条路就是这是我认为这个才是

我们只要这样才能通向通用的基金但其他还有非常多各类各样的基于传统的方法的一些改进或者拍拍就是我认为它可能短期内也许能帮助我们拓某些商业的场景但是它长期来说没法帮助我们通向真正通用的

这样机器人的这条道路其实今天会整个把在我的视角里面 Robert von Dessenmodel 和以及那么最近非常重要的这个 VLA 的这个模型它的一个脉络

跟着去梳理一下然后通过讲解论文的这样的一个形式然后从这里面也可以看到大家是怎么样 OK 一步一步的可能形成了大致这样一个共识为什么大家现在都在提 VLA 架构这个架构能不能给大家介绍一下以及它的由来发展 VLA 架构是解决通用机器人的终极架构吗你认为

先说什么是 VLA 就是 V 就是 visionL 就是 languageA 就是 action 在我眼里的话我所指的 VLA 的话它也需要是一个端到端的模型所以说我们是希望一个端到端的大的这样的一个能够去 scale 和泛化的模型然后它同时能够处理 visionlanguage 和 action

这三种非常重要的模态然后当然 VOA 也是逐步的在最开始是 LAM 纯语言对吧然后后来我们有 VOM 有世界语言模型然后现在我们要做机器人力 Action 必须加上所以 Action 当然就是说在我眼里这是泛指的这么一种对吧因为机器还有别的一些模态

它可能还有触觉可能还有声音可能还有等等但是我是希望把这些都给加到里面我就这个字母就别无限的去延长了在外面就把那些也都加在里面所以说如果以这样一个非常通用的观点来看它是一个端到端的模型然后它有非常全的各种各样的极权相关的模态都进去

那么我认为这就是我们最终要做的这样一个事情当然就是说我们现在对吧大家做出来的这些 VLA 的模型并不一定代表我们未来最终的这样的一个路线但是说刚才说到的这样一个大的一个 VLA 的概念的话是我们最终的要做的事情现在大家都想通往通用机器人通用人性机器人你觉得现在最棘手的几个尚未解决的问题是什么呀最关键的几个一旦解决了可能就爆发了的问题你觉得可能是什么

我觉得如果要说最最重要的一个问题就是能够去 scale 的这样的一个模型的架构

然后这是最核心的能够 scale 的模型架构我认为整个行业正在往这个方向去进展但是暂时还没有到暂时还没找到正在往这块快速的进展这个能够 scale 的模型架构目前是一个科学问题还是一个工程问题都有当然就是说这个架构本身的话很大程度上的话是

是一个科学问题吧因为对于巨生来说的话你可能很多时候包括后面我讲的有一些方法你甚至会涉及到我会思考很多人是怎么去思考人是怎么学习因为人就是一个标准的通用的 VOA 模型大佬人就是一个 AGI 而且我认为就是说未来的 AGI 它

最终的形态就是聚神的到最终某一个时刻的话我们所有的圆的大模型自动驾驶的这些大模型断道大模型还有机器人的模型都会 unify 起来都会统一起来

成为一个终极的一个巨人模型然后你可以理解它就像人一样对吧人的话你也可以说话你可以干各种事情做各种视觉事情你也可以做各种 action 你还可以开车所以这里面会到最终要达到我们真正想要非常通用的人模型的话会涉及到很多科学的问题就是巨神智能的本质到底是什么我们可能需要去进行进步的一个探索当然就是说我们会是一个阶段一个阶段去

达到的对吧就像自动驾驶对吧主播的去上去然后这个过程中呢也会涉及到非常多工程上的一个问题对吧就像是其实语言模型它的突破到底是属于科学突破还是工程突破这里面的界限其实也不明晰在你心中预计多少年我们能看到遍布机器人的这个世界遍布机器人对吧我希望在五年的这个时间吧

5 年这个很乐观目标就是看怎么去定义遍布就是说因为现在的机器还是太少了现在你身边你真正用的机器几乎没有就是说我们是希望在比如说 5 年的时间真正的说你经常能看到不一定是达到说每家每户都有好几台这种但是你经常去哪儿你都能看到有一台机器然后并且有的家庭里面也有开始有机器

我觉得这个是在五年的时间是非常有希望实现的好那接下来把主场交给陈老师来跟你一起学习好的谢谢张老师那我下面的话就是会沿着我做这个 snare 然后进行相应的这样一个介绍嗯

那么首先就是说讲一讲就是为什么咱们需要这样的一个机器人的仿对性 model 那么首先我们看 AI 之前是怎么去工作的那么这儿举了很多例子就是说在这一波大模型之前那么 AI 基本上它是分很多种模型去解决各种各样不同的这样的问题你的分割你的 classification 对吧然后你的标注 VQI 等等每一个都是一个不同的一个模型

当然就是说大家觉得这样的话每个模型你收集不同的数据你的训练是非常麻烦的而且你需要 keep 太多的模型而且每一个模型的能力都不是特别强所以说我们看到那么近两年的发展从语言模型开始再到一些多模态的模型那么逐步的我们开始

说构建了这样的 AI 的 Foundation 的 Model 然后它是拿各类各样的可能带有不同模态的这个数据非常大量的数据然后你带去训练然后让它带不到各种各样的不同的任务下面然后会发现这样的会造成非常好的这样的效果其实是把大脑统一了

对对把大脑进行统一了啊啊所以说我们也希望说呃你可以看到那么现在的总结一下现在的 ai 是怎么去 work 呢对吧就跟之前不一样不是说各种各样的 pipeline 各种各样的这个小模型是说一个巨大的一个预训练的一个模型啊我们可以把它叫做 foundation model 然后完了之后呢

这儿最开始我们的 relation model 它是相对你要用到不同的模型上我可以进行一个特定模型的 fine tune 对吧但是比如说我们的很多语言模型现在也不需要进行相应的 fine tune 了你直接 prompt 就已经足够好了

这是在已经强大到一定程度的时候已经从 Fintune 再到直接的一个 Prompting 然后 ZeroShot 的 Generate 到新的这样的一个任务然后你可以把它拿来去做不管是 Segmentation Model 或者是其他的各种模型都是可以的

那么 robotic learning 是怎么做的呢就是说我们其实看到 robotic learning 刚才也提到了就是说有从近十几年开始那么都有相应的研究去做出来那么目前的大部分就是很多的这个真的可以开始去用的这些模型包括我们的阿罗哈它其实也是说单独的一个任务对应一个模型然后这样来去做的

这个其实是指不同的机器人比如说这有 PR2 机器人对吧这个是机器人的型号他在做一个 pancake 是指然后后面跟的是他的任务我是指这么来去说的这个比如说是另一款机器人这个比如说是 U20 这款机器人然后他在做一个 box picking

等等的就是说你可能每一个不同的本体和一个任务的话你都是用不同的模型来去做的对就跟之前 AI 一样然后所以说对专用的所以说这个已经比较先进了因为再传统的话你是编程你是不同的机器人不同任务你写代码

对吧我们这说的是 robot learning 那么我们近十年已经开始进入进化到有 robot learning 的方法但是说他还是说比如说我们之前的小模型的不管模型还强化学习那都是说 OK 我对应这一个极前的本体和这一个任务的话我可能需要重新训练一个模型

它本身还是一个转移所以说我们需要进一步的去改进进一步的进化就沿着刚才我们这个 AI 的大模型放电性 model 的这样的一个路子我们能不能说也可以有各种各样的机器人的数据或者其他的各种数据然后一起来去培训一个非常巨大的

当然 size 不是很关键它肯定一定程度要比之前的要大但是后面会讲这个 size 的大小我们要根据这个机器人的本体的算力来去定但是 anyway 就是说一个相对来说比较大的 robert von der lind model 然后再大量的数据机器人相关的各种各样的数据预训链下面之后

形成一个比较通用的 Rubber 反転性 Model 然后在这个基础之上我们去 Prompt 或者 Find Tuning

然后我们也一定会经过这样一个过程就是说你直接靠 prompt 就能 generalize 到新的任务和本体这个是一个终极目标对这个也是非常难的那么前期也一定会先经过说 fine tuning 然后主播的这样来去做那么后面我们介绍的很多方法也是说这样的一个架构下面它就可以拿去做相应的这样的一个任务比如说捡个垃圾或者做一些分捡或者等等这样的具体的任务

所以这个是我们整体的这样的一个目标那么这儿我会大致分两个类然后基本上我们的 Robert Fondensi Model 大家开始去研究这个问题也是经过了这样的一个顺序过程那么首先大家是研究怎么把现有的 AI 的比如说语言的模型或者视觉语言模型然后直接拿来用到

或者跟之前的机器人的这些方法相结合直接拿来用大家先是经过了这一步然后逐步的后来就开始有一系列方法就是我们真的是预训练一个机器人的防灾性 model 单单单单机器人的防灾性 model 那么今天我们主体就是我们所指的 VLA 其实也是在这一类里面我们主要会介绍这一类比较多那么这一类我前面也会先大致的介绍一下它的主要的思想

那么这儿是给的我们相对传统的机器人的三块

然后我们可能有一个目标完了之后你有 decision 和 decision making 对吧相应的和 planning 这样的一个规划 high level 的规划然后你可能需要这样一个 perception 你需要感知这样的环境而且你需要 actuation 你在环境里面去执行你具体的动作和行为所以我们大体分这三类当然说比如说之前传统无人车可能还有更多的什么预测或者等等但是我把这三类最主要的给出来

那么最开始大家是想什么 OK 最早的是说我们把 planning 这一层用一个语言模型来去替代因为这是最自然的因为 planning 就是我规划我要去接个水那么我第一步要干什么第二步要干什么第三步要干什么然后本身我们在脑海里去规划的时候也是可以用语言去描述出来的所以这个非常自然可以用现有的语言模型去 HP 直接去规划然后但是保持比如说 perception 和 actuation 我可能还是说传统的机器人的这样的一个方法

那么这有一个例子如果你给 CHIGEBIT 或者给某一个源模型然后你说假如说我是一个 mobile robert 对吧我有一个机械币我怎么样去做一个咖啡

你可以看到这个圆模型可以非常好的虽然它没有本体或者等等但它其实可以非常好的把这个任务拆解好你怎么样一步一步去做咖啡它也会假设你可能需要一个夹爪学一个 graper 因为它基本上知道机前的每一个部件大概有什么它也知道机前大概有哪些技术它可以推理大概能干什么所以它可以规划出来你一二三步你该怎么去做

对然后完了之后你就可以因为它已经规划完了之后其实直接做一个替代规划了第一步之后然后你用传统的进行的方法然后可以做接下来的事情然后这里面就是说相关一个工作也是比较有名的一个工作就是 Google 在 22 年的时候做的一个工作叫 SEECANDo as I can not as I see

这个是做的什么样一个呢它是就是需要把就是说刚才的事情把鱼眼模型跟机器人的真正他的行为能够结合起来然后他是希望能够通过这个能解决一些比较常识序的这些任务然后直接通过自然语言的这个命令然后来去让机器人做相应的事情其实他希望机器人做的事情是一个我们最终满通用希望的这样达到的一个效果

但是它就是说方法上的话还不是我们现在想的最新的 AVAA 的方法比如说有很多我把这个饮料倒洒了然后你们能不能帮我就是说不太比还比较间接的比较复杂这样一个指令反正我们会知道就是说比如说你给语言的默契的话它基本上可以告诉你你大概能做哪些事情然后但是说语言默契给的这些事情呢

它不一定能跟这个机器人它能做的事情相吻合起来对所以 C 看这样什么方法就是说把这两块可以结合起来就是说一方面有语言它给出来有哪些可以做的需要去做的事情然后并且有一个打分然后另一方面就是说每一样事情那么它有一个它单独训练一个叫 Value Function 这个可以去判断我们当前这个机器人在当前这个状态下是否能做这些事情

所以是把原模型给出来可以做的和他能做的这个事情所以叫 C-CAN 对吧然后可以做和能做的事情然后做了一个匹配然后这样的话去规划对对对对就有一个方向会告诉我 OK 这些任务这个机器人能不能做当前对吧然后这个原模型师告诉我要完成这个任务他规划出来 OK 我要完成这个任务的话我有哪些动作可以去做

对吧然后所以说他这两个做了一个匹配然后最终的话是说这样的话 OK 规划出来的是一个既能够去帮助完成这个目标同时这个机器人又能够去达成的这样的一个任务这样的一个方法现在学术圈的论文感觉到还蛮有意思 attention is all you need 然后 say can 就是告诉你可以对对都要给一个这个有意思的名字比较让比较容易让人记住嘛

所以基本上这个是当时大致一个视频然后稍微有点慢这个不能加速反正大致就是用你给他输入这样的一段话然后语言模型的话这边的话会进行相应的拆解然后完了之后同时分析那些是能做的然后做一个匹配然后他就一步一步去执行那他不能做不就卡了

他会选一个可以做的相信他有一个 list 然后他一定会选一个他当前可以做的事情对就是只不过不一定最优所以确实是有这个问题他不一定能匹配的更好所以我相信他里面肯定有很多 failure case 只是没有展现出来

OK 然后这个大概是这样然后那么下一步是什么刚才可以看到他把 planning 用 LM 来去替代了那么接下来大家下一步因为后来就 VLM 出来了 Vision Language Model 出来了大家可以对基于直接对基于图像进行一些相应的推理和这样的一个

这样一个思考所以说大家想那比如说我们的 Perception 的这一块跟对环境视觉的感知的这一块我可以用一个 VLM 做更通用的一个这样的一个推理和思考就不像之前的话 Perception 就刚提到的什么传统的 AI 的模型的话分割一个模型然后检测一个模型或者等等就非常多单一的模型那么现在的话你可能基于一个大的一个 Vision Language Model 的话然后你可以就可以做更加通用的这样事情

所以说他是把这块取起来这里面有几个工作那么有一个也是比较有意思的一个工作叫 Inner Monologue 翻译过来就是内心独白这个也是比较有意思他举了一个例子比如说我要去拿钥匙这个任务我要去拿钥匙去开门然后你去开了之后他自己来想我要开门我先试一试我把钥匙拿起来然后把它插入钥匙孔然后看一下

完了之後會發現

好像這把鑰匙沒對我想我得找另一把 OK 我找另一把然後再一次現在好像 work 了可以做所以說你其實是內心不斷的在思考這個它這篇其實主要想說明的重點是什麼現在重點是說 OK 我執行了一個 action 執行了一個行為動作然後完了之後我會獲得某種反饋就比如剛才插鑰匙孔我做了這個行為之後我就發現環境給我一個反饋這個鑰匙插不進去

这是环境给你的一个反馈然后我需要根据这个反馈我再进行一个推理 OK 既然这个插不进去说明这个把钥匙不对不配对 OK 我需要再换另一个钥匙对吧然后我再来去做我就修正了我们的一个 action 所以说它相比于 C-CAN 的不同在于这 C-CAN 就是说从最开始刚才那边最开始的时候我就规划完了对我就规划 12345 步然后我就按照 12345 步去做

他没有考虑说我中间如果反击缓快比如说这个不行这个任务我做不了然后我从头再去做一个新的规划和纠正我的任务这没考虑然后他是把这个考虑进去了多了这样的一步然后当然这个是大致他的 showcase 可以看到他中间的一个思考的等等的一个过程有点像咱们 COT 的过程对机器人来说对吧就是做没有做的对可能时间关系就不放太多

下面就是说是我们的一个工作我们当时也是 23 年上半年时候有一个工作然后当时我们也做了人行基金然后所以做了一个当时在仿真主要在仿真里面吧然后做了一个相应的这样一个工作然后这个呢是在刚才说的 Inner Model Network 技术上又进一步的去改进因为刚才可以看到 Inner Model Network 它获取这个环境的反馈的时间点是在 OK 我执行完了这个任务之后

我在看就比如说我已经做了一下这个动作然后我发现这个好像不行失败了然后 OK 我重新规划一个但是这里面会有一个问题就是说如果说在中间某一个人里面的任务执行的时间相对比较长的话你如果要等到这个任务完了之后我再给一个 high level 的一个反馈再做 high level 的 planning 那么可能中间执行的过程中这个时间就会被浪费了所以说我们给了一个

就是说更加及时的这么一个反馈那么我给的例子是这个就比如说机器人搬箱子我告诉他从一个桌子要搬到另一个桌子然后他会规划出来一二三五步我先拿起来再走过去再放或者等等

然后完了之后在执行过程中呢我有一个非常及时的一个反馈这是用一个视觉语言模型 VLM 然后来去作为 detector 这个 detector 是实时的基本上我们是大概 10 赫兹的这样的一个频率实时的去观测我当前的这个任务比如说我正在搬运的这个任务有没有什么异常的情况出现那比如说搬着搬着的过程中这个箱子突然掉了

这个时候我可以及时的去发现它然后并且马上进行一个思考那么我要蹲下来去把这个箱子再去捡起来然后再继续走对吧如果是刚才的 In the morning 的话我可能得等到这个箱子掉了我可能并不知道然后等到了这个

最后已经走到我的目的地了才发现这个箱子没有我得回去再找这样的话效率就会比较低所以这边主要的改进是说我加了一个更实时的这样的一个反馈用 VLM 来去做的整个模型架构其实也是去实现刚才的这样一个做法然后跟我们的语言模型去配合 VLM 主要是去监测那么我们的

任务执行过程是否是否是正确的是否是正常的然后 language model 呢然后会进行相应的一个是 task planning 然后还有就是说那么如果出现了异常我怎么去进行重规划

所以 LLM 和 VLM 它们是配合起来用的对配合起来用的 LM 还是主要做思考 VLM 还是主要是看环境感知环境对就像刚才在我们画的图上面的这样一个作用然后我们也做了一系列的试验可以在机械臂上然后也可以在比如说机器上做相应的实验具体的可能也不用播放

所以因为刚才是这样的一个然后后面还有一个大家想就进一步的想把比如说 action 的这一部分那么进一步的去自动化比如说刚才的话我们看 action 部分可能还是说我们自己首选了一些要么是自己编程的这样的 action 或者是说我首选了一些 model 对吧这个时候他想把这一部分进一步的自动化那么这一部分他想的是什么因为我们知道语言模型它可以自动的编码写程序

对他就把这部分的程序让机器人让我们的 AI 让 Language Model 来帮我们去写这里面比较有代表性的是李飞飞比较有名的一个工作家 Vox PoserVox 大概是指空间的意思

然后 poster 就是 pose 其实是关于你的 pose 就是你的位置因为李飞飞他那边空间智能大家都知道他做空间智能所以说他是用世界圆模型语言模型来去对空间你怎么去移动比如说你空间轨迹我这个机械臂要怎么去避障怎么去移动怎么去来执行我的任务进行一个 reasoning 对然后他是最终以代码的形式去写出来

因为机器人最终底层还是执行一些相应的代码比如说它这的话一个 VLM 可以看到当前的场景然后你的 language model 可以 take in 比如说我的某一个指令然后它可以进行 reasoning

然后这两个模型共同因为 VLM 可以得到空间的信息然后 Language Model 可以得到 OK 我跟任务相关的这样的一个信息和推理然后这两个共同来写一个程序然后这个程序来去调用机器人底层的一个 model 底层的一些控制然后来去共同完成这个任务就比如说它会写一个叫 Affordance Map

这样的一个程序然后这个程序呢是会把就比如说这个空间里面哪些点是我们的目标点就比如说我要开这个抽屉然后这个 map 可以给出来然后它也给一个比如再写一个 constraint map 就是充一点哪些是障碍物在这个空间里面然后把这个图给画出来然后完了之后呢我就可以用这样一个轨迹优化的方法去配画 coding 是赛博世界的环境是吗这是我刚学的一句话

对因为如果做 Gtion 就知道你底层让它怎么做起来其实你要写一些程序的对它向你把这部分自动化了然后世界语言模型和语言模型来自动的写 Gtion 代码对这里还有其他一些工作像 Code as Policy 或者等等包括 CHIGB 刚出来之后微软就搞了一个工作让 CHIGBT 来写 Gtion 的代码

李飞飞这个工作是什么时候的 23 年了就是他做世界模型的时候同步的是这个非常重要的工作这个我理解不算是世界模型当然他其实一直没有公开就是他所说的世界模型然后具体是怎么样的方法来去做的

但是我理解这个应该还是不太属于世界模型但是比如说这个方法它展现的效果也是因为大家的目标大家的目标都是想说我给一个语言的一个 input 然后怎么招机器人就自动化的做各类事情了我刚才说的刚才我们讲到的这几个方法都是说 OK 怎么样结合语言模型怎么样结合世界语言模型怎么样结合它的 coding 能力再结合现有的机器人的

一些算法方法一些工具然后来共同完成这个目标但是我还认为就是说这样的方法的话比较难让我们达到最终真正的通用因为你没有去构建一个真正对机器人的单独的一个模型你还是说做的是语言模型

我们的模型它需要具备机前的巨声的各种能力就这个模型本身就该具备这个 Foundation Model 本身它就该具备我们的比如说机前执行任务的能力

但是之前你直接用语言模型其实没有的它本身只是在语言的模态或者在视觉的模态上面进行相应的一个训练只不过你把它跟机器的一些工具拼接了一下是一个间接的使用然后我认为这个是并不能帮助我们真正通向我们最终想要的这样的一个通用的机器人大模型的

这样的一个方法的当然就是说现在还是大量的工作其实是集中在这一块因为毕竟你有因为这一块会比较难对吧你要重构一个机器人的 foundation model 这块的话你有现成的比如 CHIGBT 可以直接调用所以第一种就是利用现有的一些 foundation model 去做机器人第二种是重新基于机器人然后再 pre-training 一个 foundation model 对 pre-training 和 fine tuninganyway 你需要进行很多模型架构层面训练数据的构建还有等等就是说你得

对总之目标就是说我重新搞对我重新做一个机器人的防灾性摩托它的架构就跟语言模型这些是不一样的这个很难对这个就会难一些当然很多程度也会借用语言模型或者其他的大模型的它的一些基础你会借用这样的很多的一些基础但是总之的话你整个的架构的设计肯定是跟一个单纯的语言模型会不一样的

对然后回到刚才提到的就是说几个重点一个是我们模型的架构然后完了之后就是它配合的算法然后这些定下之后它会决定我机器人比如说可以用哪些形态对吧然后我的数据是怎么样那么就会设下我数据怎么收集然后我本地区怎么去找

这里面会辐射到很多跟其他相关的技术你得配套好但是说架构模型本身的话是最核心的点然后去决定所有其他下游的各种事情但是其他各种下游事情也有非常多的一些不管科学上还是说工程上的难点去攻克对下面可能主要我们就进入到这一块我们配 train 一个 foundation model

For Robotics 直接是端到端的模型那么这就带到我这边所定义的 VLA 模型那么认为我们想要做的 VLA 模型它一定是一个端到端的模型 VLA 的话就是给了就是给这三个模态视觉然后语言的指令然后 OK 直接输出我对应的动作然后我们人其实是一个满智能的一个 VLA 这样的一个 agent

当然后面会讲到就是说会是不止这几种模态我们的输入可能不止这并不止这两种模态我们叫它通感我们的输出可能也不止是不止是动作对吧

因为你还可以想象你一个画面或者等等这个就会跟后面我们讲的世界模型会相关起来但是因为如果说我们就看单纯的 va 模型的话大概就是你可以理解为断道的模型包含这三种模型但它其实这个概念是可以去扩展到更广的一个概念对那么这套 va 模型虽然当然它很新

就是基本上在捷取出来之后才逐步开始的但是呢这个领域发展的也比较快所以可以看到我这儿列出来的也已经有蛮多 paper 大概接近 20 篇的这个论文然后其实这个也只是这里面的一小份但是我是截取的里面最经典的

一些工作然后进行了一个分类按照他的这个方法和发展的脉络进行了一个分类然后也有一些对未来方法的一个畅想那么下面我可能会逐一介绍一下对然后第一个呢就是说直接用 Transformer 直接基于 Transformer 来去构建因为 Transformer 我们原模型的基于 Transformer 它其实是一个非常

通用的这样的一个架构然后我们的语言通过语言的这个 text encodertokenizer 可以处理语言然后那么刚才说的我们的 AO 对吧 VLA 我们的 AO 可以处理然后本质上的话理论上你的这个 vision 也可以用这样的方式去处理输入到 transformer 里面对吧 action 也可以

对所以基于这样的思想大家就说 OK 那么直接我们构建一个 Transformer 的一个变体然后去构建这样的 VLA 模型那么我可能想先讲讲非常有名的 Aloha 虽然它并不是一个 VLA 模型

因为它没有 L 它没有 language 这个模态的处理但是因为它也是非常重要也是 G-Transformer 所以还讲一讲 Aloha 的第一片论文是 23 年的这一篇它最终火起来的是它 24 年的一篇然后 23 年它的第一代就出来了而这一代模型它叫 Fine-grained by manual manipulation with no-cost hardware 对

就是它实际本质上是构建了一个比较低成本的因为它想打的量点是首先我构建一个很低成本的这么一个机械币的系统双币的操作的系统但是呢却可以执行非常的这样的一个精细的操作一会我们看到大概能到多进行的一个程度然后所以我们看到其实原始的这个阿罗哈它其实币非常简单这是满满低价的一个然后并且他还把这个相应的

你哪买这个币然后这套系统怎么搭建整个去开源了包括它的算法也都开源了这里面我们可以看到就是说 Aloha 里面提出来一个比较重要的一个可以拿来做机器模型的架构叫 ACTAction Chunking Transformer 你看到它基本上是一个标准的 Encoder Decoder Transformer 的这样的一个架构然后但它比如它的输入的话它可以把机器的各种视角输入这里面的话机器它有 4 个摄像头

这个机器然后每一个通过一个 CNN 然后完了之后输入到 Transformer 里面然后再通过这样的 Decoder 输出 Action 的 Sequence 就是 OK 那么未来一段时间我该执行哪些 Action 的动作

然后它这 action chunking 是什么意思其实是一个因为你每一个时间点我们看这 time t 就比如说 time t 等于 0 的时候你要输出未来 4 个点当然它实际是会更多它这是一个示例对吧 t 等于 1 的时候又输出从这个一时刻的这 4 个动作对吧这样一次内推

然后之后他是做了这么一个事情就比如说这个 t.3 的时刻他是把他前面 t.210 这几个这几个这个 action sequence 里面对应的时刻点然后做了一个加权平均然后这样之所以这样做是因为他做了他们叫所谓 temporal ensemble 这样的形式就是说

虽然理论上我只需要找最新的规划出来的输出然后把这个点就给但是他把历史的几个时刻点的规划一起做了一个加权平均这样就达到了一个光滑 smoothness 的这么一个效果你可以让 trajectory 更加 smooth 更加顺滑

对是为了这个主要这是一个小改进是这样按时间是这样这个也涉及到一个叫模型预测控制的概念它本质上这个是一个模型预测控制的概念对就是模型预测控制什么就是说你每时每刻我会规划我未来的一段时间的 action 会采取什么样每一个时刻点这个时刻点可能会以很高的频率比如说 10 赫兹或者甚至 100 赫兹甚至更高的频率总之是你是一个 action 的一个 trajectory 从当前时刻点到未来

对然后一般就是说有标准的做法就是我只选择我这个 X 里面第一步因为我只需要执行当前这一步对吧执行完了之后我下一步我又重新做一个规划然后我再采取这第一步这个是模型游戏操控 NPC 的这个概念然后

当然就是说传统的 NPC 你是靠优化或者等等的方法计算出来这 action 是什么当然像 aloha 的话它是用模型用模仿学习然后直接学出来这样的一个 transformer 的模型然后直接去模型往神经网络来输出这样一个 action sequence

然后但他做了小的处理是什么比如说你第 0 时刻对吧第 0 时刻的你 plan 的 action 已经包含了第 4 个时刻的要第 3 个时刻 t=3 的时刻的对吧然后 t=1 时刻的时候他也会把他的第 3 个时刻其实就对应你的 t=3 的时刻

对吧然后一直到 7.3 所以说你当前这一步的爱行的话其实你可以在之前的几步的 planning 中然后都能够找到它对应的时刻点对稍微有点抽象但是说你可以认为就是说你把历史上的一系列规划的点然后把它 align 好的时刻点然后都找到最近的几十个点然后做了一个平均

做到一个加权平均然后这样可以让它更 smooth 是个小的处理但是其实 ACT 就是这么来的就是这个意思这个是 Aloha 这样一个然后可以看就是说它这个特点虽然它不是一个本质意义上的 VLA 我们需要的 VLA 它是我能直接 take language 作为输入然后

然后我可以通用的做各种各样的事情 Aloha 办不到虽然它很厉害但是它办不到它还是一个模型做基本上一个模型做一个任务但是它的特点是在于 OK 我用很低成本的这样的一个硬件就能做非常精细的工作比如说这儿这我们看到可以直接夹起这个电池然后把它放到这个电池盒里双臂一起配合这个其实挺难的蛮精细的

對非常厲害當時 23 年的時候做的然後這個是這是誰的工作來著就是 Chelsea 主力的這個工作斯坦福那邊它叫這個系統叫你好對在夏威夷

鱼里面不知道你去没有去过夏威夷在夏威夷的阿罗哈就是你好打招呼夏威夷人这边打招呼的语言所以美国人非常喜欢在美国的同学都很喜欢去夏威夷对所以应该是这个数字这样一个启发吧比较喜欢用一些拟人化的方法来命名机器人的各种系统包括这个

都是蛮精细的工作当时这个出来我看到还是非常觉得非常 impressive 的因为之前没有见过机器人做这样精细化的工作不过这一篇论这是他第一代 23 年的时候还没有只是在圈内引起一些关注但还没有真正出圈真正出圈是他的 Mobile24 年的时候做出来的

对他们做的就是他们继续的工作对对对对对然后这个工作呢就是他什么他叫 mobile 就之前刚才那个工作只是个双臂固定在桌面上的那这儿你会看到他带了一个移动的系统啊所以这里面他还是蛮有意思的就是说昨天上一篇论文他给了一种非常好的摇操作的方式就是一一映射我们看到有个主动臂有个有个有个从动臂

就是动图可能没找但大概就是说这个臂我们看到它手是它手握着的然后基本上你怎么去你这个怎么去动会一一映射到前面这个臂所以说这个臂是跟你的人手是做的同样的动作所以你通过这个方式通过这样摇操作的方式来去

让前面的机械臂来去做相应的一些任务然后并且把这个数据就能记录下来然后我可以进行模仿学习相当于是学人的动作然后这套方法是在上一篇论文他们提出来的然后这篇论文就是说它下面加了一个底盘然后人可以推着底盘推着车走这样你这个系统就可以移动了双臂就可以移动了你可以边走边坐或者走到一个地方再干一些工作

他这个也是给的比较有意思的就是说他是直接把人捆在这儿这样工作但这其实是蛮有好处的因为之前的很多摇操作的话它其实是间接的比如说你拿遥控器去控制或者等等其实都没有人直接推一个东西这样精准包括这个手臂也是你直接握着一个臂来去做对吧然后你就会有相应的一些感觉你可能是会比凭空的一些方法会更精准一些

对所以这块创新也是蛮重要蛮有意思的然后所以说这篇论文是他最终出圈的如果大家记得 24 年初的时候他发布一系列的这个视频最经典的这个炒虾然后可能了解的都能记得然后所以说这个当时后来就这篇工作出来之后就出圈了就感觉谁都知道这个阿罗哈对这是他们第二代的这个工作他 24 年 1 月这个是他是成本很低是吗做这个的对成本蛮低的

其实整个一套也有个加起来你看它这是 3 万多美金加起来有 20 多万人民币还可以更低如果只是这一套的话如果我们做可以做在低很多对然后是所以这一套是这样的一个就 aloha 的一系列工作当然就是我提到它很重要一点因为但它还是严格意义上它并不是一个 VOA

然後接下來想講這篇工作叫 Gato a Generous Agent 這是 DeepMind 做的所以我們看到現在 DeepMind 不是後面和 Google 都合併嗎這個是在 2022 年的時候很早的一篇工作但是我認為還是當時是非常有遠見的一個工作一個通用的 agent 對一個通用的 agent 它的思想就是一個統一的模型

然后它能做各种各样的任务这里面的任务包括了对视觉相应的一些任务包括了语言的对话包括了 VQA 然后也包括了机器人的行为控制对这个想法也是非常超前其实这就是我们最终想要的一个目标当然就是那个时候的模型或者是技术还不够成熟所以说它其实直接就是一个 Transformer

然后把各种各样模特全都加起来就这个 Transformer 各种模特加起来然后来去训练然后也有一定的效果就比如说也能做一些 VQA 它是搞了蛮多的数据和训练包括一些语言的对话然后包括机器人的相应的一些动作但是每一块性能都不是特别好

毕竟二年的时候其实 CHI GPT 都还没出现对当然说当时我看到这篇论文我也觉得这个有点扯因为那个时候 CHI GPT 都没出现我觉得你就应对一个 Transformer 一个模型正能对出一个 generalism 当时是这么想的但是后来 CHI GPT 的出现还是很大的改变了我的一个想法因为在那出现之前的话就还是会

不光说我们其实大部分人都会还是会怀疑你去怼这样一个模型深怼数据和这个残量就能怼出来吗当时坚证力还是很多人还是很怀疑的但恰比之后因为每个人都能感知到它

你感知之后其实觉得这个确实是很智能然后就开始相信这件事情可以去做但是这篇论文他们是做得非常早的应该说 20 年的时候在那个时候连切机都还没有原模型都还没有做通然后他直接搞这样的一个通用模型去上确实就是说只能搞很简单的 demo 虽然我们现在搞的事情也都是 demo 但是他搞的是很简单的 demo

所以是这样的一个工作但后面他们就开始专门往机器人上面把它做得更好了有了第一个 Robotics Transformer 叫 RT1

基本上它还是类似于 Gato 也还是继续穿索马来去训练但是它是比这个模型就比较专业在机器人上面专门做机器人行动刚才讲 Gato 的工作的话他把什么就全都视觉全部都放进来了然后

但是发现肯定发现这个效果不太好嘛技术还没到所以他们就回过来我再把基前这块再好好搞一个然后这块他们就是收集了很多的基前的数据当时一共 130K 的 episode 然后 700 个 task 一共 13 台基前搞数据搞了 17 个月对大概是这样一项就是 Google 和 DeepMind 他们一块来

最终的话问一个很基础的问题机器人的 transformer 和我们理解大元模型的 transformer 它的主要区别是什么底层架构差不多底层架都是 attention 的架构底层都没有太多的创新底层都是 attention

然后只不过这里面的话机器人像这个模型我们会看在这儿它比如说在前面就这个 transformer 基本就跟我们这个语言模型里面 transformer 是一样的但前面你会比如说对视觉图像做一些处理有个 CNN 或者等等有个处理然后我的输出的话也需要转换到 action 上面

因為我們剛才提到的我現在這一個 Branch 的工作就是講的記憶 Transformer 的所以這個 Transformer 就跟語言的 Transformer 是區別不大的它只是把 Transformer 用在 Robotics 這個行業對但是你的架構還是要改就是你整個網絡架構比如說你前後的輸出都要改然後因為 Transformer 也有很多種類雖然底層都是 Attention 這裡面的話也有一些不同

但是核心的底层的机制都会是 attention 这是最内核的这样一个这个没有太多新的东西对这个也是大家共识共认的虚拟 AI 模型因为巨神模型也是一种 AI 模型那么其实它底层的

架构的话也都是通用的对通用的跟很好的处理数据的这样一种方式对但是说你在网络上你会发现会有你需要加很多新的东西然后并且融入进来然后所以说基本上你可以看到把这个框内的话其实你可以当的就是一个端到端的模型是吧有一本传输码还有一本 CNN 这个做 encoder 等等的但整个是端到端去训练端到端去 inference 的

然后整个所以看到这个就是一个 VLA 的这样一个模型对吧有 Vision Language Action 输出算是一个标准的 VLA 模型了这是 VLA 的第一篇论文在哪里我觉得可以 Gato 其实也算它也有 Vision Language 如果说你的定义就是有 Vision Language Action Model 然后又是一个段道段来直接来去训练对吧 Gato 其实就算了然后这篇但是

对但他们团队很多都是服用的可以认为都差不多是那帮人对但是就是说 Gato 他就在机器人上面其实比较弱对这块就是专门针对机器人收集了很多数据针对机器人做了很多改进训练然后在这块的话性能也还是不错的当时就是说在比如说他见过的这些任务里面基本上是能达到接近 100%的 performance

就直接 overfit 到见过的任务上面当然其实 RT1 里面任务也不是很难基本上主要还是偏抓取为主但是说它确实能达到各种各样的多任务下面能达到非常高的一个成功率会比当时看到比如 Gat 或者其他的都会高很多然后同时的话也具备还不错的比如说 generalization 的能力比如说对于没见过的它也基本上达到 75%的成功率

然后这里面大家因为这是基本上算是第一篇 OK 通过相对大规模的极限数据局去训练的所以说他也给了一些 insight 对于数据上面比如说一个比较重要的就是说对我们讲解我会说 diversitys 就是说对数据来说它的 diversity 会比数据的 size 要重要很多对这个横轴的话就是说你用的数据的量相当于纵轴就是你的 success rate 相当于你的性能指标

然後看到這條線主要就展示我只是單純的增加量反正它是一個比較平化的方式去增加它的 sexy rate 但是呢回應看這條線就是說你把 diversity 去掉了會發現它的這個 performance 會下降的很厲害對就是更 diverse 的這個數據會幫助更多怎麼理解 diversity 怎麼理解多樣性

就比如说尽量做不同的任务对吧然后同一个任务下你尽量能展现出各种不同的物体对吧但不是说同一个任务同一个物体甚至同样的摆放的空间位置然后你重复很多遍这个其实很多工作是无用的

所以这里面这个问题也会困扰自动驾驶因为比如说自动驾驶里面的话经常 expert driver 你的人类司机基本上开的都是比较好的都在道路中间然后开的比较好那么在于所以你会发现大量的数据你如果没有对数据经过很好的执行和处理的话你会发现大量的数据都是趋同的

然后但是你比如说到一些危急情况或一些 corner case 的情况因为这部分数据非常少你看这些数据 diversity 如果不够的话你就很难去 generalize 所以这是 generalize 非常容易碰到的一个问题所以在数据收集方面其实数据模型刚才说模型当然是决定你的底座你最重达多少然后其实 practically 的讲的话数据的影响是非常大的

对收集收集好坏它的量是怎么样会很大程度影响你的 performance 对 OK 然后接下来想讲的一个工作叫 Arcto 这个也是跟 Google 里面然后包括 Burkin 那边

包括這個 Sergey Levine 包括剛才的 RT 系列工作的話像 Sergey Chesney 這些都參與的比較多然後他們其實後面如果了解也知道他們後來創立了 Pive 對總之這一套都是他們這一幫人 Google Berkeley 和 Pive 等等這一幫人當然也包括 Stanford 幾個然後這個 Chesney 其實也是 Sergey 的一個學生對之前的博士生 Pive 是那個創意公司是吧

現在美國那邊最有名的一個巨神智能公司但他不做本體他專門做巨神智能大佬所以他們都是發這篇論文的 researcher 然後出去討論一系列的論文他們做得很早包括我們最開始講的 SECAN 然後再到剛才 Agato RT1 後面一系列他們這一幫人是做 VIA 的領域應該是做得最早的然後積累最深厚的

做出的输出最多的派应该是美国人才密度最高的机器人公司对我认为是的估值现在多少多少来着也是几十亿美金了后面讲的 figure 更夸张但是 AI 如果是 AI 巨声模型的人才密度我觉得还是派那边包括 Google 那边他们整个大团队涉及到 Burkley StanfordGoogle 派 DeepMind 对

然后回到这边这边它是一个叫 Open Source Generalist Robo Policy 你可以认为它是某种程度就是开源版的 RT1 对但它在 RT1 上面也不是完全相同但基本上是一个开源版的 RT1 就是它本质的核心你看到它的架构然后也是 Transformer 的

也是传输门架构然后前面的话转语言和图像然后也会分别通过语言的 Encoder 和图像的 Encoder 然后来去输入进来然后它和 RT1 的一个不同是说它允许我在下游 Funtuning 的时候去加一些新的 Action SpaceAction Space 是什么就比如说你可能要控制不同的机器人

然后你可能有不同的控制方法这个在机器人 robotics 控制里面有两种比如说对于机械臂的话有两种就是典型的不同的控制方法一个是说直接的 OK 我输出我的 ND factor 就是我的夹爪该在哪该走到哪然后我有一个在底层的控制器去控制它还有一个就更直接一点就我网络直接输出我的每个关节的角度比如说直接控制这个关节

这都是两种不同的选择所以你可能还有别的一些定义的方式所以说他考虑了这种可能性比如说你在 Pretrain 的时候你可能是只是其中的某一个模态来去做的然后他可能考虑我在我可能要把它 Transfer 到另一种新的 Action Space 上面所以说我考虑在 Fintune 的时候他允许我加上这个

然后换成这样一个新的 Action Space 转换一下这样控制一个模态对所以这个是它跟 RT1 的核心的不同然后它把这个开源了然后还有一篇他们的续作就是价格非常类似叫做 Crossformer 这篇他们叫 Scanning Crossing Body 的 Learning 就是他是想用同一个模型来去 Crossing Body 就是跨本体形态

就是他希望同一个模型他能用到各种各样不同的机器人形态上面就比如说你可能有机械臂的你可能有四足的然后你的任务可能是有抓取的然后可能有行走的

甚至是飞行器的 Navigation 等等所以说我们可能有这样一个需求我们是希望能够通用的附用到各种不同形态上对然后 Transformer 它的一个架构的话前面部分也是类似跟前面 Arch 的基本类似然后有 Vision 和 Languages 相关的 EncoderEncoder 倒进去然后也是 Transformer 的一个架构

然后它的一个不同点是我们看到它的输出这儿它加了几种不同的 action head 对那比如说第一种第一个 action head 就是动作头

对直接翻译可以这么翻译就是说它是一个相对小的一网就前面这部分都是 share 的前面 transform 这块都是 share 的但是下面的机动的这块它从这块的输出就直接会通过是个不同的比如说或者更多不同的网络模型然后输出到不同的机器人的动作空间上面然后

然后因为这个确实是也比较难去统一但后面我们会介绍到还有别的统一这个动作空间的方式这是它其中一种方式就是把每种不同的极限本体都用一个不同的 head 你可以认为就是说对这个模型的话它依然不是说完全相同的一个模型直接用到各种不同的本体上面因为输出你可能都对不上

我的人形机器人的自由度和机械臂的自由度和车的自由度都不一样所以说那么它是什么它是比如说你可能小部分的这个模型是分别的一一跟机器人本体一一对应的然后共享大部分的参数

大概是这样的一个思想然后这样的话为什么要这样做这样做的话就是说各类的因为即使是不同的本体但比如说它的比如说单臂操作和双臂操作对吧它有很多共性比如说你小车的移动和四足的移动它也会有很多数据之间的共性在里面这样的话你可以中间这一部分就可以从这些共性的这个里面去学到

所以说他也是做了一些实验量化的一些指标可以看到蓝色是他的方法然后黄色就是说单一的本体任务在单一的上面去训练就蓝色是他们商店很多数据共享了一起来去训练然后黄色就是单一的一个本体单独训练一个网络我们可以发现的话在一些任务上面他的是会比单一训练在本体上面

对吧就是用起来会比单一纸在本体上面去训练要更好所以说这个就是证明一定程度证明说 OK 你更多各种跨形态的数据融合到一起训练之后对吧能让模型学得更好他可能找到了数据之间的模型联系对这是这片工作的对然后他展示的几个任务比如说单臂的一些抓取然后

还有一些动作还是比较卡它这个工作频率不是很高行这个时间关系就不多看了然后这个是双臂的做一些任务然后比如说 navigation 的移动的也可以小车的移动控制或者是四旋翼的移动控制或者是四足这样的行走

它其实就相当于希望通过一个大脑然后控制不同的肢体对一个大脑控制但是我觉得可以这么去理解就是共用一个大脑但是有不同的小脑可以这么理解不同小脑用到不同的肢体上这个 head 可以当做小脑对可以这么去理解

OK 然后刚才是整个这一类就是因为 Transformer 对吧原模型基于 TransformerTransformer 发展了几年然后相对成熟然后大家就 OK 那么我基于这个架构然后来去训练一系列的这样的一个 Robotics 的 VLA 的模型对吧然后 VisionLanguage 作为输入 Action 作为输出

然后下面有一类就是在这个就是上进行了一个扩展就是他的训练的目标不光是说我要输出这个时刻点我到底做什么动作我同时还要我同时再去学习我怎么去预测未来

对就加了这样的一个 supervision 这样的话这个 supervision 如果说还能不能理解的话它是一定程度能够帮助我们去更好的去理解咱们当前的一个状况就如果说你有能力能够相对来说预测未来发生了这样的一个事情的话

然后你其实是能帮助我们更好地去理解当成的一个状况然后这儿列了两个工作是一个系列的工作其实是字节这边做的就是字节也是在国内相对比较早开做 VLA 模型的单位之一对然后它叫 GR1 然后叫 General Robot 这样的一个意思它的架构是这样的

然后分了两个阶段就是第一个阶段是在一些视频数据上面然后做这样的 Pretraining 它也是一个直接的一个 Transformer 的模型然后但它的这个的输出它不是一个动作也不是一个语言所以它输出的是比如说未来的某个时刻点的图像

你的输入是当前的图像然后以及我们比如说你这个机器人或者你这个人在干什么事情的这样的语言然后我输出未来某一个时刻的图像

对然后这个可以直接在一些 video 数据上面去训练比如说你把当前帧作为输入然后把未来的某帧或者某几帧作为输出然后来帮助他去训练所以这个训练完了之后这个 transformer 它就具备一定程度的对物理世界的一定的理解然后完了之后它进一步的在机器人上面 fintune 的时候就加入了机器人的 action 的数据

因为这个视频里面是没有 action 的它比较可能是人的这些数据然后这个然后它就把激情的数据 action 的数据一起加进来继续训练然后使得它能够做激情的动作所以这里面是比刚才的那一系列 transformer 多了一环它的输出一就是它的输出可以输出 image 紫色这块就是输出的未来的图像二的话它可以先在 video 的 dataset 上面去进行一个预训练

其实我们人类每时每刻都在做预测你可以想象你开车的时候你开的时候你看到旁边站了一个小孩你时刻在紧绷着你在预测他会不会突然穿出来或者自行车会不会穿出来然后如果说你看到比如说一个陶瓷的杯或者碗到桌边了你就会担心它会被掉下来能做预测代表着你对物理世界的时序的关系你有一个理解

他未来可能会对对对你有这样的一个理解你会有一个反馈对然后他会反过来会帮助你去做更好的决策就是你相对你可以预见未来可能会发生什么样的一个情况这个会反过来帮助你做更好的决策和行为

再比如说像之前的这个纯 Transformer 就直接只是输出 Action 的话它就没有这一环所以这一环加上之后它是能有一定帮助的就是我后面会讲到我们的一系列更新的工作也是就是说是容纳这一块确实发现是有帮助

然后这里面就可以就除了它能像刚才的那些任务里面它能够输出动作里面我们可以看到它也可以比如说对于这个视频然后做一定的预测比如说我要干这个事情之后我的摄像头会看到这个会怎么去动但这里面可能看不出太大的一个区别它预测的时序比较短但是我们可以看到它大致是能做这样的一个预测的动作 OK

然后下面就是它的 GR2 更新的第二代第二代跟第一代模型架构训练方法没有本质区别但是 scale 起来它在更大的一个模型和更大的这样的一个数据集上面训练方式还是跟上面 GR1 基本上是一致的这里面列出来了它的各类

然后这里面有下面很多都是机器人的数据集这两个都是机器人包括刚才 RT1 的 Google 的数据集还有其他一些数据集然后也有一些人的操作的第一是叫这些数据集然后在这些数据上面然后进行了这样来训练模型然后他也看了一下他 scaling 的效果

然后就是这个几个不同的蓝色是这个参数最大的然后这一往上参数低减就看到比如说这前三个都是 loss 学习的更大的参数他能学到更小更低的 loss 然后 success rate 就是 performance 的话回想一下这个参数越大这 performance 也越高在他的整个

这个数据集上面就是秀出来这样一个结果就本质上你可以认为它 GR2 就在 GR1 的结束上面进行了一定的 scaling 所以这是这一类的工作 OK 那么上面看到不管是上面 Transformer 还是刚才的讲到的这些工作它这一类基础 Transformer 的工作它的一个特点都是说它内部其实没有一个预训良好的语言模型对它都是自己重新去训的

然后虽然刚才我们讲到说我们也不希望是说你直接用一个语言模型但是说那个是说 OK 你只是单纯的把语言模型作为一个 API 接口拿来去调用来用但是呢我们的模型架构件其实是可以用到人家已经预训练那一段时间的这个语言模型的

你用上之后你可以再继续 Fintune 进行训但是说你相对就不用说自己完全靠自己的数据自己的训练来去整功率因为我们知道语言模型发展的比较快比较好对吧然后也在很大量数据上面训练现在开源的也比较多所以说完全可以用到它其实大部分的 VLM 就是 Visible Language Action Model 也是在

依赖着依靠着预训良好的预言模型然后上面继续去加入世界模块再 Find2 这样去迅出来的我再问一个小白一点的问题自己他们没有做机器人为什么他们也在研究 VLA 他们做他们有个 Lab 他们那个是在 AI Lab 下面有机器人的小组机器人小组在 AI Lab 下面所以它是一个探索方向对是个实验是一个研究 OK 他们现在有机器人本体吗

他们搭了一个跟那个对这里面他们这个本体跟那个啥跟 Google 就 RT1 RT2 系列用的非常相像他们搭了一个这个本体就是有个移动底盘还有个机械臂哦理解所以机器人是一个研究方向对有意思国内的公司哪些还有机器人研究方向

做的比较前沿很多都在做了但是字节是在这里面 VLA 的这个方向在这些大公司的实验室里面做的最好的 OK 下面就到 VLM 然后 VLM 的重点在于说 OK 我有一个预训练好的 language model 然后其实很多 VLM 就是在预训练好的 preaching 好的 language model 上面继续去把视觉的部分迅进去了做成 VLM 然后

所以说那么这一系列的工作就是说我们怎么样利用好这个 VLM 的模型那么本质上的很重要的一个是说你能用到它里面的可以吹好的语言模型那么这个就肯定是会比说你上面的这个在他知道在语言理解或者等等这个层面的话就会比上面的这个方法一些方法就会好蛮多对然后这个最早工作也是这个 Google 这边进行了探索然后他有一个工作叫 Palmy

Embodied Multi Language Model 本质上我们看到这个 model 本质就是巨声的多模态的语言模型它还是一个其实本质上是一个 VLMVLM 其实本质上所以我们说了本身它有一个 Large Language Model 这是 POM 是 Google 里面的它的一个大语言模型然后完了之后前面的话有个 VIT 然后把视觉的部分能迅进来

所以整个的话其实这整个是一个 VLM 是一个 Visit Language Model 做的主要的事情它的输出主要还是 text 还是语言它主要比如说做一些 VQA 比如看到这个看图说话基本上是说这样的类似的一个事情 VLM 做的大部分的工作是类似看图说话的这样的一个工作

对然后所以他本质上是用了这样一个 VLM 但是他比如说他就不光是看头说话他还需要说能够规划一下比如说看到机器人摄像头看到图像然后我 input 你的相应的一个指令然后我能够去输出我对未来的规划 12345 该怎么做然后 POMMI 这篇工作就是一个是说有刚才这些他能做这样的对具体机器人的

看图说话和规划对吧当然他还能做其他的就 VLM 其他能做的各种事情他也都能做然后同时就是说他下游在给出一个 control 实际上这个 control 就是 RT1 因为 RT1 的话它相对它的语言能力比较弱对吧然后所以它对推理能力比较弱它只能 take 一个很短的语言指令作为输入然后就比如说把苹果拿起来

大概是这样一个数他能把这个动作做了但比如说你在更长的这样推你的话他做不了所以说他前面这一块他是靠泡咪世界语言模型然后能把他比如说第一步比如说把这个拿起来完了之后他可以告诉第二步怎么样然后比如说各位号第一步他就调用 RT1 做下层的一个控制当然这个框架你下面也可以换成是其他的 control 都是可以的

对对对所以这个是 Pumme 的工作对这是展示他的几类各种的不同的任务然后 Pumme 的话也是非常大的他这个 VLM 在当时谷歌这边有 562 币蛮大的一个

但是也是看到因为它模型参量比较大然后特别它对视觉对语言的这些理解其实是有比较好的这样泛化的一个性能所以这部分的一个功能也相对程度来说辐射到了机器人上面使得基于这块你做机器人的任务也有比较好的泛化的能力对然后这儿的话就是基本上说 OK 这个模型你给它一个

任务这个任务时序其实还相对长一点的比如说你从这个抽屉里面给拿个东西他能知道我先找到这个抽屉然后过去然后打开抽屉再拿起来然后再给过来等等就是一系列连贯的工作可以去做出来对对然后包括这个他带一些逻辑推理对那比如说这个是给了一个你怎么样把这个 how to sort the blocks by corners into the corners

因为这有几种不同的颜色然后有 4 种不同颜色你想把同样的颜色的放到这个同一个角上面所以这其实包含了一些复杂的推理的你要去理解怎么去颜色然后你还要知道什么是角然后你还要知道你怎么样去把它进行一个归类然后因为刚才提到我们这个模型它有比较好的一个 tree train 好的语言模型世界语言模型在里面所以说这类任务的话它就

相对来说就能做得比较好但比如说刚才的那种纯基于传说门的那一类的话可能这类代复杂推理的它就会比较困难了对行这儿时间关系就看多了然后但是刚才其实它还是一个分层的架构它的 VLM 本质上它还是分开的它下面接纳一个 RT1 作为 control 然后 VLM 是单独的 VLM 他们也没有串起来去单单来去训练

所以本身上其实有点背你刚才说的你得端到端一起训练这个角度就它的 VLM 本质上它输出还是没的 action 它还是输出的只是指令只不过它做了它帮助做了推理这个事情所以说 Google 接下来还是同样的一帮团队接下来又继续做了一个工作这个就算是我们当前意义上的最有名的一个 VLA 的开山的一个工作了叫 RT2 对吧虽然刚才说的 RT1 也是一个 VLA 也算是一个

VLA 但是说它没有比如说预训点和语言模型对然后所以说它的在能力上特别对推理能力上稍微欠缺一些然后或者说它的语言这块是很弱的但是对 RT2 的话这块语言能力就很强所以看它的题目直接叫做 Vision Language Action Models 然后其实 RT1 它其实没有给这样的一个题目所以一般标志性的认为 VLA 的

手篇工作的话很多是会认为是这篇 Google 的这篇对所以这篇大概是怎么了所以看到他做了一个小动图就是本来有一个 VLMVLM 在各种各样的数据上面训练看图说话等等这些任务然后本来 PAMI 是 VLM 和 RT1 来配合着做然后 RT2 就是一个 VLM 他刚才展示把 RT1 的这部分功能给合进来了

所以它整个是它的还是一个 VLM 模型但是它直接的去输出动作对我们直接看到网络的架构对看网络这个架构然后本身上看这其实还是一个 VLM 是吧这本是一个 language model 前面一个 vit 这一部分跟 POWME 是一致的

但是不同的是它的输出不是说 OK 我就输出第一步第二步第三步该怎么做的语言然后交给下面的有一个 RT1 控制器来去做而是它直接就输出了这个动作它的输出本身是 token 然后完了之后它把这个 token 直接映射到动作上面这个动作就比如说是机器人你的夹爪该移动到哪

然后这个就是一种 rober action 所以你可以认为他是直接拿一个 vm 来去直接的输出动作他的模型的价格就是 backbone 就是一个 vm

然后它的训练是什么因为 VLM 本身就此前的话就已经是这个 pre train 好的然后在各种 VQA 的各种这些任务上面 pre train 好的然后他怎么样把这个 action 这部分迅进去了然后就是他做了一个叫 co-fantune 就是说他的 fantune 的时候并不是仅仅在机器人的数据上面他其实训练他这个是在他机器人数据就是 RT1 的数据是吧

Arting One 就是说你的对吧这那个语言和视觉的输入然后动作的输出这部分数据有然后它这部分 FindTune 的同时呢也把这个前面训练 VOM 的一部分数据也拿过来一起去训练

主要的核心是想要去避免它在 fintune 的过程中太多的去 overfit 到 action 的这一部分而把之前学到的这些对视觉的理解 vm 的那些任务减弱了所以它做了一种这样的一个 co-fintune 这样的一个架构所以这个是 articulate 的一个架构

所以说我们可以看到它这个其实就是当时就比之前像阿里巴巴这些就更加强大然后是一个端到端的然后能做很多种任务然后关键是它的一个特点也是它对视觉包括对语言的理解就比较强对就比较正常比如说这举几个例子像这个把这个香蕉放到德国他能知道德国的国旗是哪一面然后把这个香蕉放上去

然后比如说这个 Move Coke can to Taylor Swift 就放了几张照片他能知道哪个照片上面是 Taylor Swift 然后直接把这个可乐放过去所以说就是有这类似的就是他能有比较好的视觉和语言理解的能力

尤其是常识而且这些都是包括热火队等等这些其实是因为 VLM 是在大量的互联网各种数据上训练所以他认识谁是谁什么国企这些有这些常识在里面了所以说他把这个训练之后那么我们的相对这个机器模型也具备了这些常识

对所以是这样的他当然也展示了这个是跟刚才展示泡米类似的这些任务对吧然后他能使他能很快的知道对吧什么是番茄酱然后什么是瓶子对吧然后

完了之后就展示了一系列的这个任务当然就是从量化来讲的话它也比比如说 RT1 等等的这些都明显要好特别是在 Unseen 如果是在这个见过的任务上面刚才讲 RT1 其实也已经蛮高的这个区别不大但是在没见过的基本上

它的优势就体现出来了因为刚才讲到它是在它相当于有 VLM 有 VLM 是在大量的互联网的 pre-trained 好的数据上面训练的比如说刚才展示的一些什么 tennis rift 或者等等这些任务它的数据几率它之前数据几率可是没见过的但是因为它有个 pre-trained 好的 VLM 它这部分泛化性就能用上对所以这是 artitude

这个大概是下面就到一个 RTX 你看这篇论比较多点是作者巨多对他这篇论做了什么事情他本质上是搞了一个 Data Set 这个也是去年的论文搞了一个 Data SetData Set 是怎么来的就是把各个实验室主要是在美国那边各个实验室他们的做之前收集的一些数据集

一些数据然后都给集成起来然后去训练了两个东西的 model 就是它一个是说提供了这些数据集然后另一个用 RT 刚才 RT1 和 RT2 的模型去训练在这些数据集上面训练做了这样的一个事情然后这个数据集是开源的然后现在做 VLA 的模型用的最多的就是这个数据集所以是对整个 community 是做了发展是做了比较好的贡献的

可以看到这个是各类的数据机器人的数据因为就是从这些 Nav 里面很多是本身这些 Nav 就收集过的然后也有一些是为了这个文章然后去新的收集的然后他也把 Google 内部自己做的 RT1 和 RT2 工作所用的数据也一起去开源出来了他为啥要开源

就是促进行业发展促进学术行业的这个发展对就是 AI 这块的话基本上还是比较开放的你会看到很多工作都是开源的有很多开源的数据集和 benchmark 而且这个影响力的话是会比较大的就是基本上我们都知道 RT 的这系列然后大家都会用 RTX 的这个数据集基本上成为我们的一个标配在机器人领域现在谁的技术口碑是最强的

这个也分领域了比如说 VLA 的领域的话可不可以肯定是刚才说这一把就是 Google 和包括派的他们那一帮人然后看到这个数据集的话有很多种各种 dataset 有大概 60 个数据集想定 60 个不同 lab 给出的数据集然后很多种 scale 然后又有多种不同的 embodiment

当然我们看到 emboliment 基本上都是一个机械币夹爪虽然都是不同的机械币然后这个是它的一个缺陷之一然后任务就有非常多然后还有一个问题是因为它这个数据采集是直接从各种 lab 实验室 lab 然后让他们直接给发过来的所以说质量其实不算很高

大部分的数据质量不是特别高但是高一些的是因为 Google 它也开源了自己用的它那部分是收集的是毕竟工程化团队去做的是比较好的但是很多 Lab 的数据质量其实一般但是也是蛮有用的对它做对数据的分布哪些本体然后做哪些任务都做了这样的统计你可以认为这边主要是数据集然后当然就在他们自己的 RT1 和 RT2 的

模型上面然后在这个新的数据集中心上训练当然他有一个发现就是发现在这样的一个 class embodiment 他叫 class embodiment 就是因为这些数据集都是来自于不同的机器人本体上的

然后发现了这个跟刚才讲的 Crossformer 发现了同样的这样的一个现象就是说对吧这个彩虹色的就是在各种各样的这些数据集上面训练的会比你在单一数据集上面在单一任务在单一数据集上面训练的要好这个也是像前就是更多的各类各样的数据完了之后形成到这样的一个通用模型比你在单一任务上训练一个专用模型要更好

对这也是就是我们想要达到的一个目标就是我们希望的不仅仅说有一个模型它能干多种事情我们还希望最终它因为数据多然后它能 scanningscanning 提升它的 performance 然后这篇论文是说初步的看到了确实有这样的现象 OK

所以这是更多的技术的一个指标然后包括跟 RT2 来比 RT2 的话只是在他们自己的一个数据上面 RT2x 就是在 x 组里面就更大的数据上训练发现它的 performance 是更好的对对然后这个是它里面做的这种任务当然就是说因为也是当时的实验室所以还不算这些任务都不算特别复杂

但是是大家写数据的标准用的这样的一个数据集但是如果说咱们能有更复杂的各种任务的数据集的话就会对咱们的训练就会更有帮助 OK 这个是 RTX 然后有一篇工作叫 OpenVLA 其实刚才的那几个工作 RT1 的模型和训练是开源的但是 RT2 没有开源 Google 没有开源

对然后你可以认为 OpenVue 就是一个算是一个开源版的 RT2 对就是一个开源版的 RT2 并且他把模型调优调优的比较好调的比 RT2 原始的要更好对这个也是这个就是还是他们那帮人看到然后当然是在学校里面这个是以学校为主在做的但还是他们那帮人 Google 这些都参与了对还是这帮人只是他的主体不是 Google

对对对对对对然后看到模型的话一样的就还是一个 VLM 然后直接输出机器人的动作然后玩家之后也在各种数据集上面去训练然后当然他把一些具体一点的模型参数或者等等的调的还是比较不错所以说可以看到他跟 RT1 RT2 都做了对比然后是达到了 SOTA 的 performance

然后整个是模型训练和这些都是开源的所以说这个也是对行业的一个 Community 的一个促进对就是之前的话是没有开源的 RT2 那次的工作的这个也是在去年的时候就工作出来的然后基本上做的任务因为也都是在 RTX 的数据集上面大概是这样一些任务

ok 然后下面刚才是讲的 VLM 然后在我们看到这一类的 VLM 它的核心的话就是说这部分工作它也是 VLA 核心就是它直接是用一个 VLM 拿来输出动作对吧然后它本来是它本来 VLM 就可以输出各种 token 然后完了之后它把它直接 deco token 来使成动作

然后但是因为我们之前也是出来之后我们复现了当然是在 OpenVLA 开源之前我们其实一直 L3M 我们一直就在复现 RT2 然后复现之后反正就觉得这种方式还是有它的一些局限因为它本质是它确实太缺少对于 Action 这一层面的一个处理就它的网络模型直接就是拿一个 VLM

然后你相对是靠输出因为我们的 action 你其实也可以用语言表示出来对吧因为你语言你也可以输出一些数字对吧那么我的坐标什么的你可能就能够去表示出来但是它确实缺乏专门的对动作的一个处理而且一般来说 VLM 的话运行是比较慢的

像 RT2 的话基本上就 1~3Hz 一秒钟动个一两就是触出一两次这个对机器人来说这个频率是非常低的对一些稍微动态点的任务去执行效果和精细点的都会有影响所以接下来这一类就是说相当于是在 VLM 基础之上然后把 Action 这部分增强对然后这个是我的颗粒组这边去年的时候做了一篇工作我把它叫做 Hire Rocket Core

Lobotransformer Hierarchical REO 然后但它其实本质上不是一个分层它只是分到两个网络但是本质上还是一个端到端的一个模型直接因为我们是端到端来去训练的就这样说一下我认为怎么去判断是否是端到端你应该看它的输入输出数据是不是直接给它端到端而没有给中间的量并且它的训练是不是直接端到端去训练的然后你的模块之间是不是直接 T2 可以回传的对吧如果是的话整个它就是一个端到端模型

对这个是我们这个图然后看左边相对于就 RT2 就标准的这样 RT2 的这一类的 VLA 的模型它是直接一个 VLM 直接输出 action 然后也是一个比较低的频率然后没有任何对 action 处理的模块对这个任务我们是加了一个 action policy

Action 模块这个我们当时说你可以用简单的 MLP 或者是用一个 Transformer 等等后面看到包括有包括 Diffusion 也都是可以的但是说这个就是专门做处理 Action 的模块然后你看是 VLM 的它的相应的信息就比如说它的 Latent 或者等等一些信息你要去能够很好的传到 Action Policy 去做然后我们做了一个分频的处理就是 VLM 是一个比较低的频率在运行

ActionPolicy 是一个比较高的频率在运行因为它的参数是比较小的大概几十个 MVLM 可能有几个 B 大概是这样的一个所以它能以比较高的频率去运行 ActionPolicy 也需要输入它的视觉的动作因为你的控制是要经过视觉的反馈的

对所以这样我们是达到了这样的一个效果你看到就是这个 Valina VLA 相对就是 VLT2 当然我们没有把它叫做 RT2 因为这个是我们自己附现的 RT2 然后因为它没开源然后 RT1 是开源的然后我们看到就从 performance 这个柱状图表示的是 performanceperformance 来讲的话就我们的方法和 RT2 是类似我们甚至稍微更好一点但是明显是比 RT1 要好

然后这个是 Inference Speed 就是你推你的速度当然 RT1 是最高的因为 RT1 很小你可以认为基本上 RT1 就跟我们这个模型一样小但是如果是 VLM 如果是 RT2 的话它推力速度就很低然后我们是能在保持很高的 Success Rate 的情况下保持一个比较高的推力速度

这个更好也是来源于我加了一个 performance 更好也是来源于我加了一个专门处理 action 的 policy 所以它的 performance 也会更好所以说你可以说就是相对于前面的 RT2 是一个改进一方面改进它的 performance 通过加 action policy 专门对动作的解码另一方面是说加了这个另一方面是说加了这个分频的分频率的一个处理所以说它的这个推理速度会更高

OK 这是具体一点的网络架构基本上这就是标准的这样 VLM 的这样一个架构然后我们的 latent 直接输出过来然后给到我们的小 Action 的 policyAction 也会处理相应的视觉因为提到刚才说的需要经过视觉的一个闭环的处理对然后整个是打的这样然后这里面比如显示出来如果能展示出来的

比较好除了刚才说了量化的数据比如说它特别在 Dynamic task 上面会有更好的效果因为它推力频率更高对 Action 的处理更精细那就比如说这个是让它去抓取然后我人在边动它边要去 track 我这个物体来去抓对这个的话就是说会明显我们这个会很快的速度很及时的能够去 track 但是说你用比如说 Attitude 这种因为它的频率很低动作不精细所以说就容易失败

这是你们去年的工作是吧对去年上半年就投了的一个工作大概去年中的时候开出来了这可以提一个 Figure 当然它没有发论文但是今年二三月的时候 Figure 它发布它的最新的这个架构 Helix 它把它叫做这样的系统一和系统二其实这个架构跟咱们的刚才的讲的那篇工作架构基本上是一个意思系统二其实它就是一个预训年的 VLM

然后下面是一个大概 80M 的一个 transformer 然后完了之后也是做了分频率的一个处理然后视觉也是都是同时给它中间给潜在 latent 的 vector 去作为一个传输对这是 Helix 但它没有相应的论文

然后就是类似的想法的话就是派灵是在去年 10 月还是 11 月的时候发布的就是派的他们的中榜的一个工作当时影响力也是非常大的对然后我们可以看到他也是那次他这有一个前面也是一个 Pretrained VLM

然后后面是一个 ActionExpert 其实作用跟刚才说的 ActionPolicy 是类似的但它的架构不太一样它是 DiffusionFlowMatching 的这样一个网络架构但是说它起的作用是一致的然后它没有做分频率的一个处理

他直接串过来的就是我们这做了一个分频率的处理然后我的微信的图像也会直接去输入到下面 actionpolicy 系统里面然后他这没有做分频率的处理然后相对微信就是从最开始 vm 这输出了然后直接就连到 action 那边了对然后当然就是说他整个因为毕竟是派的团队所以整个效果还是做得非常好的

对然后他展示了当时展示的一个任务就是这个叠衣服从洗衣机里面然后把这些衣服去夹出来对然后来去叠衣服叠裤子泰的这个精细化一直做的感觉是最好的

对对对你可以看到这个基本上这个就是阿罗哈的那个币的那个是就是阿罗哈基本上也是那个就是他们团队的对都是那一帮所以说他们对于这一盘就刚才说口碑或者包括他的这个影响力是非常大的他们这个进行化做的好复现吗也还行有的还行对然后因为他的其实很多开源了嘛就是比如包括他的阿罗哈的那篇也是开源了的

还有一个相关就是因为近期发就是 NVIDIA GROOT 就因为打它发布的这样一个模型然后它的模型也是类似这一盘就是前面有一个 VLM 然后后面有一个对 AXI 的一个处理然后它这是用的一个这个 Diffusion Transformer 的这样的一个价格作为这个 AXI Policy 然后并且加了一个 AXI 的 Encode Decoder

相对 Action 做更精细化的这样一个处理这个是一个它的一个处理相对是在 Action 这一块有更多精细化的处理然后同时它的训练也加了一些因为它做仿真也加了蛮多它仿真器里面自动生成的数据来去训练来去做数据增强

OK 然后这块是大概是这一条线就是 VLM 这条加 Action 这条下一条想讲一讲就是说关于 Diffusion 的这一条然后它是它跟 Transformer 有很多就 Transformer 是底层的架构 Diffusion 是一个训练的方式嗯

是一个训练的方式然后这条线我们其实我们会知道就是说很多我们会知道就很就 Diffusion Model 的话他比较擅长做视频或者是图像的生成现在我们看到很多 Postal 或者等等的这些高清的视频图像生成都是基于 Diffusion

然后它本质上是有一个加造加去造的这么一个过程就同一个图形它的训练方式就是最 high level 训练方式跟 VAE 非常像 Value Async Auto Encoder 非常像它学出一个 Encoder 然后再学出一个 Decoder

只不过完了之后它 encode 完了之后都是变成变到一个高线的一个 latent space 上面然后再解码出来只不过它的编码和解码的过程不太一样编码过程是中国多部的加造解码过程是通过多部的去造然后核心是学因为它核心是为了生成所以核心是学多部去造的网络

F 网络这一块然后它是经过了多步这样的网络然后当然就是具体的网络该怎么选择就有很多你可以是 CNN 相关 unit 或者也可以是 transformer

所以是 Diffusion 是这样的一种生成式的训练方式就是这种方式能帮助我们训练一个比较好的生成式的模型所以说后面大家因为有了 Diffusion 之后大家就想那么这个怎么样来做机器人因为你可以认为这机器人任务的话一个很重要就是你要生成它的动作对吧包括它的动作轨迹所以大家就想到 OK 我能不能用因为 Diffusion 生成能力很强能不能用它来去生成机器人的动作轨迹这会不会更好

所以说这个就做出来一篇工作叫 diffusion policy 是很有名的就一大类工作线在基前的领域里面然后它本质上就是跟刚才 diffusion model 是一样的就是用了 diffusion model 这样的游戏链方式当然就是说稍微区别一点就是说它的网络的话还需要 condition 你当前的一个状态输入因为你的比如说你开车你要基于当前的你的图像或者等等这样的一个输入

然后他把 action 部分进行刚才的加造和降造的这样的去造的这样的一个处理来学习怎么样去生成一个比较好的 action 的序列对这 Diffusion Policy 做的用的时候也是用类似于这样的用的时候也是用类似于这样的一个

这个我刚才提到 MPC 的这样一个方式因为 DMAP 是它是直接去生成一系列的这个 action 动作然后你当前的时刻你是采取当前帧或者是当前最近的这几帧来去执行然后下一个时刻它又会去生成出那么基于下一个时刻的一系列的动作

对然后这块在这提到像这边里面提到像刚才说这个 Diffusion Policy 是他的训练的方式然后他中间的网络因为他多部的去造的网络那么每一块网络对吧你可以是 CNN 的也可以是 Transformer 的都有不同的选择然后这个的话就 Diffusion 的话就是他对这种

一个相比较复杂带长时序的精细的任务还是比较擅长的你可以看到比如这个的话是把这个梯形的架子然后把它去把它放到这个里面你可以看到它可以多部的就这里面这个是一个很小的一个模型 DP 模型也没有任何的这个语言或者模型在里面但是它能够执行这样复杂的长时序的这样的一个任务而且也能做得比较精细

对然后包括这儿也是当时基本 policy 一个经典任务就是把酱然后均匀的去抹在小蛋糕上还有就是这个过程中你可以还可以进行各种干扰可以看到这个人在不断的把 pancake 然后进行移动这是一连续的动作他完了之后完了之后这个 b 还要去把抹开

对当然 Diffusion 这一块也是研究了一阵子然后我是记得几年前就开始研究然后后来终于是把这一套打通了因为 Diffusion 最开始是在生成图像但是后面大家是觉得有可能在机器人上面也搞定然后后来确实是现在效果还是蛮不错的用 Diffusion 的

然后这一个工作一个续作就是叫 RDT 也是业界还比较知名的一个工作是清华的朱军老师这边做的

然后它本质上是把 diffusing policy scale 到比较大的一个程度它到一个币这样的一个量级之前 diffusing policy 是蛮小的一个参数量然后它也是在各种很多的数据上面做了预训练和自己的数据上面做了 fine tuning 预训练量大概是一个 million 然后其实大量的用到了刚才提到 RTX 的数据

对对然后能做各种各样事情它的架构的话

也是这 image 的 input language 的 input 经过一些 encoder 进来然后这样是一个 diffusion transformer 的 block 就刚才说但是整个是 diffusion 这样有连续就这写了 else 的一个连续去造这么一个过程但是每一个去造网络是有一个 diffusion transformer 去构成的然后这里面可以提到一个它的有一个创新是叫 unified action space

刚才我们其实讲那个 Closformer 的时候讲过在 Action Space 的一个处理 Closformer 它是说不同的比如说本体的这架构然后它是有用了一个不同的一个 Action Head 然后但是对于这个 RTT 的这一片来说它是全部的本体都用了一个统一的一个向量但是它把这个向量比较长

然后它分配了一下就比如说对这个向量的中间的这一坨然后它分配给一个单币的系统然后这一块分配给一个双币的这块分配给一个轮式的大概是这样的方式来去统一但我个人其实还认为可能 action head 的方式会更好一些因为我们不好说未来会有多少种就是你很难去提供一个就是非常你可能需要准备一个非常长的一个向量或者你有可能会遇到训练完了之后

相当不够用了这样的一个情况出现所以说加小脑更好对所以可能不如直接分开因为你有共享了很大部分的一部分的大脑所以你小脑部分只需要比较少的相对比较少的数据去翻 Tune 我觉得这个也是值得去做的 OK 然后这个是纯 Diffusion 但是看到它这一块 Diffusion 就是说一样它本质上也是一个 VOA 因为它的也是语言和视觉输入 Action 直接输出

你可以就像最开始咱们用 Transformer 的架构来去做这个是他用 Diffusion 的方法去对当然就是刚才说到底应该用 Transformer 架构还是用 Diffusion 的架构我觉得这样说不准确因为这里面也用了 Diffusion 不是这里面也用了 Transformer 它 Diffusion 里面的去造网络就是一个 Transformer 的网络只不过是可以说 Diffusion 是一种新的一种训练方法

生成式的训练方法而上面的我们提到的这个 transformer 是一个很直接的一个 super-synodering 直接的这样一个方法然后 diffusion 对训练方法不同你可以认为这个上面的这一波都是直接的 super-synodering 的方法然后这个 diffusion 是一种生成式的训练方法

但是网络架构我们刚才看到 Diffusion RTTR 这些里面其实也用了 Transformer 也用的是 Transformer 所以说是这样的 OK 然后后面就可以讲到这块在 Diffusion 因为我们想 Diffusion 其实很重要的一个能力是生成时的能力

然后我们想其实刚才有讲过就是 Transformer 其实也有跟就是说刚才我们已经提到你如果说把 prediction 对未来 prediction 加进去的时候是有帮助的我们认为这个是对你具备对未来世界或者是未来一段时间物理现象的一个 prediction 的能力的话你具备这个能力是我认为这个能力是构建巨神智能很重要的一个能力之一

而这个能力是非常适合 diffusion 这种架架因为 diffusion 因为你要预测未来预测未来的视频现在最牛的视频生成或者整形都是基于 diffusion 的这样一个事情因为它生成能力很强

所以说这两块是我们做的工作做的新的工作相当于是说在 diffusion 的架构下面这种生成式的架构下面同时去生成 action 和对未来的预测这边工作我们叫 prediction with action 对吧然后所以这个也是来自于比如说 diffusion 的 generative model 然后你生成视频的模型然后是通过这样的 denoising 这样的 diffusion 这样的一个方式

然后刚才讲的 diffusion policy 那么也是同样这样 denoising 的方式但它生成的是 action 那么我们会想我们能不能搞一个 joint distributionjoint denoisingjoint diffusion 的这样一个架构就同时去生成动作和你对未来的各种预测

对所以这个是我们架构然后整个也是蛮简洁的一个架构中间就是这个是因为 diffusion 是有多步的去造过程中间每一块就是一个 transform ditdiffusion transformer 也是一个 transformer 的这样一个架构

我们看到我们的输出这变成一个多输入和多输出所以这是一个拓展化的拓展了的 VLA 的一个模型它不光是有你看这叫 language 是进来的然后你有 vision 对吧然后我输入还可以输入我的机器人的动机器人的状态

就比如说我的姿态或者等等我还可以输入机前一些特殊的一些模态其他的一些模态就比如说深度相机或者是触觉我都可以很灵活的去输入进来我的输出也可以很灵活我的生成也可以很灵活我可以生成首先我 action 肯定要生成对吧我这本身 VLA 最重要目的是做 action 同时就刚才说的我对未来的 prediction 要做一个生成训练它预测未来的能力

而且我还可以不光是生成对未来图像的预测我还可以对未来其他模态数据的预测比如说对我深度的预测甚至对未来我做触觉的预测我可以预测未来我能摸到什么

对所以这是一个比较扩展化的这么一个架构用了很简洁的 diffusion 加 transformer 的这样一个方式然后我们也做了一系列的实验然后也是在各类机器人的很多用 RTX 的各种开源数据等等这些来去训练然后我们也带了包括放针和针剂上面的各类的 benchmark 然后包括一些抓取还包括一些绕线或者是开抽屉等等

这样的工作然后我会发现它的这个泛化的能力还是不错的就比如说这边的话我们说它这有一个对这个抓取的任务对吧识别相应颜色的方块并且做抓取这样的一个任务我发现比如说我们的 Expert Data 我们给它的这个我们机器的这个数据的话我们只给了这样简单的几种颜色方块但测试的时候我们加了很多种新的这个

这个物体会发现就红色是我们的这个就是在越南的要求下的话我们其实优势会越明显所以这个也是因为刚才提到的时候我们能够有一个多种输出包括对于为了各种图像的一个预测的功能去帮助他更好的理解更繁华的理解这个世界对然后这个是

所以这个也是我称之为算是一种 world model 因为大家搜了出来之后大家就把它叫 world model 然后像因为打的 cosmos 出来然后也把叫做 world model 其实它本质上是在预测 ok 我 take action 之后那么未来

世界的 environment 会怎么转变它是以图像视频预测的方式来去显示的去表达了出来所以说你可以认为所以从这种角度来讲你可以认为我们刚才提的这个模型是把世界模型融入到了我们的 VLA 模型里面

对对对对所以然后这一块就是单独的看我们对 world model 对未来世界预测下面是我们的模型 predict 出来生成出来的上面是 ground truth 这是让它开一个冰箱门我们可以看到还是非常符合物理现象的包括它怎么样但你可以看到一些 AI 生成的痕迹但还是非常符合物理现象把这个门怎么打开包括里面它会脑补一下里面有什么东西

对然后这是另一个例子然后包括这边是让他去到右边去抓这个物品你看到怎么生成过去一步一步移动过去然后包括夹爪闭上把夹起来的细节还有包括这块最开始这块这本来有一个泥然后这块是挡住的然后他想象他走开之后这有个泥真实情况是有个香蕉

但是这个也是很符合对这个规律就是说它也有可能是你毕竟你也看不到它可能是什么它能猜一下这些可能什么然后这里面被挡住的这些遮挡的关系也能够还原的挺好对 ok 然后这个就是说那么除了刚才视觉的这个 prediction 我们也可以预测深度的

这个是 Ground Truth 深度图的下面是 Ground Truth 这个是我们预测的深度图也是能够比较准确的进行一个预测对然后我们也做了相应的 scanning 的这么一个探索那么看到就是说越大的模型参量然后基本上我们 Success Rate 也是能非常好的去增强

对然后这是这一篇然后后面这个是我们的一个续作叫 Video Prediction Policy 这个大概说明就是说由这一篇和上一篇的关系有一点像 VLM 和刚才提到 VLM 的一类和 Transformer 这一类的关系为什么就是说上一篇是纯粹在我们机器人的数据下面重新去训了整个网络

就像刚才提到我们 Transformer 的那一类方法就重新在整个基线的数据上面它是 from scratch 去运一个 Transformer 的网络我们这一片也是 from scratch 的运了这样一个网络

当然它也性能还是很不错的但是说我们就想到有没有一些互联网就是 pretrain 好的大规模的对吧那么对我们来说我们是比较重视对生成式的模型我们其实是有一些 pretrain 好的预训量好的生成式的模型就比如说有一些 video diffusion policy 那个是在非常大量的视频数据集上面去预训量好的我们能不能把它去用上

就像是刚刚提到 VLM 的那一系列它就是 OK 有预训练好的 Language model 和 VLM 能不能把它用上用到 GTX 上面所以这个也是我们的这篇工作的思想我们是在一些先比如它预训练好的开源的这个 video 的网络上面比如这个就是当时这个网络

然后我们做了几个步骤因为比如说这个模型的话它跟机器人并不相关然后它也很多时候它也只是做一个视觉的臆测就是它并不理解机器人的数据和机器人的相关的任务所以我们首先第一步我们是把视频生成的网络把它翻推到了机器人的 domain 下面

我们可以听听听懂机器人的这些指令然后以及预测我们把我们机器人的数据也给放进来了一起去翻听然后完了之后我们在网络和我们下面的像你 diffusion policy 的基本方式是处理 action 的生产 action 这部分然后做了一个网络层级的深度的融合

从这里面我们抽取了合适的它的 latent 然后通过 cross-attention 然后跟咱们的 diffusion policy 的模块进行了一个深度的融合然后一举的训练这样的话能把预测的视频的预测这部分的网络它的可以还能理解为它里面的知识或者是网络学到的知识能够很好的去嵌入到我们的动作行为这一块

整个来训练然后整个核心的话就是跟上一篇不同就是说我们能把这个在非常大规模的视频上面训练好的模型能很好的去用起来对所以说整个的话我们通常也会发现它有比较好的效果而且不管是真诚上还是动作上都比较好这是一个例子就比如说我们这个

这是一个 Zero Shot 的例子然后当时给了一个任务就比如说用顶枷手然后去把红色的液体然后咬到蓝色的碗里用勺子然后是这样的一句指令然后这个任务是完全没收集过任何数据的时候我们就做了一个实验就看他会怎么去做

我会发现他会知道什么是勺子虽然没有见过这个勺子没有见过任何这个数据他也知道我手大概怎么去抓他也知道要去咬这个汤我要先去抓这个勺子然后这个图是我们生成的就是我们的模型生成的对于他要怎么做的一个预测你可以认为就是他在执行这个任务之前的话他会先做一个预想可以做一个预想然后

当然实际执行的话会发现他虽然姿势差不多对但是因为毕竟没有任何数据这个任务的数据的训练所以他执行的成功率不是很高但是由于有很好的一个他本身已经有一个很好的大模型机座的底子了所以说我稍微收集一点这个任务的数据去翻听之后他很快就能学到一个很稳定的方式去很好的执行这个任务对

然后这个的话我们也是还用就是在除了刚才这个任务还有很多其他的更复杂的这个任务也都做过那就比如说这儿的话我们是用凝胶手拿起一个锤子去挑钉子然后比如说我拿起这个螺钉枪然后去打螺钉

这一类都是比较复杂的工具使用包括你看到拿着它要去按这个按钮把它按开然后再去对准然后再去打这个其实是非常困难的一个任务然后我们的模型可以某种程度可以支持这类任务的一个实现这类是已经完全超脱了就是说 Pick and Place 的这样的抓取涉及到一些工具使用了 OK

然后其实这类任务的话就模型的 scanning 的能力还是比较强的就是除了刚才的这几类任务的话其实大大小小上百种各种任务都可以在同一个模型架构下面去学会

OK 但是这样然后所以目前看到主流的几个方向的话总结下来是刚才这几类然后可能提两个新的我觉得是未来的这样的一个方向一个是叫我们称为 unified 的这样的一个方式因为我们最终的模型都是想要越统一越好还有更多的功能刚才我们已经提到

比如说 VLM 对吧然后它其实是有比较好的对图像的 understanding 能力对吧那条支线然后刚才我们提到有我们对未来预测的一个路线对吧当然你还必须要生成 action 那么能不能就把这些统一统一的话那么互相之间的这些功能它可能能互相的影响互相的去增强这是我们最开始的 insight 然后我们做了这篇工作叫

upvla 就是 unified understanding prediction model 在这个 vla 的基础之上把对这个 understanding 比如说 vqa 这些能力和比如说 video prediction 这些未来世界预测的能力然后都一起然后迅进来是一个统一的这样的一个模型然后其实这个想法呢也跟我们最开始讲的那个

还记得 Gato 其实比较像对吧然后 Gato 其实也是想把各类的东西都认同但是当前在 22 年还没有很好的模型架构只有很基础的 Transformer 的模型然后但现在我们已经有比较好的可以基于它上做的比如说预训练好的语言模型 VLM 模型或等等在上面继续去做所以就能实现更好的一些效果

这块我们也还在探索但比如说已经的时间还在一些 benchmark 上还不错的一些效果包括我们刚才讲的一些然后我们可以看到它不光是能做相应的动作同时的话它也能够去回答比如说你让它去描述这个图像它能很好的去描述出来这个图像发生了什么然后还能预测出来我干比如 pickup carrot 这个任务之后那么未来几秒会发生什么事情这样一个架构

还有一块就是强化学习你可以认为刚才讲的所有的全都是 Surprise Learning

全都是监督的学习或者是模仿学习这样的方式来去做的当然我们知道因为 DeepSync 出来之后我们知道强化学习其实是非常重要的一种方式对吧你某一时刻到未来某一时刻你的纯靠这种监督的学习你可能你的性能没法提上去了这个时候强化学习可能能帮助我们突破这个瓶颈

所以我们也是当时做的一个工作就是我们在想那么能不能用强化学习训练 VLA 的模型对这个是内笔当时 chatbot 最后你有对吧那个时候当时我们做的时候 DeepC 还没出来当时是但 chatgbt 已经有 RUHF 了

然后那么对应的机器人也是那么本身的话像刚才讲的所有的都是 SFT 相当于对吧都是 Supress 的一个 training 那么在技术之上我们能不能还继续做的强化学习继续去增强它然后我们是发现是可以的就是当然会经过一些特殊的一些处理那么右边这张图是一个总结哈

就是虚线的这个就是 SFT 就是纯模仿学习的这样的一个 policy 那么可能对于我们给的这些任务里面的话它只能达到不到 50 分然后蓝色呢是我们的这个方法就是说 ok 强化机器强化学习这一类方法然后完了之后可以进一步的去不断的增强它的性能甚至达到接近 100 分的这样一个能力当然这个方法是经过了特殊的处理它不是一个标准的 PPO 如果用标准 PPO 会发现它甚至会越迅越差对

然后具体处理大概是这样的就是左边是标准的 Surprise Learning 的方式就刚才之前讲的这个是基于 VLM 的这一类方法类似要求当然我们后面也加了一个 Action Head 做了一些 Action 的处理你可以认为类似于

我们的 Hierarchy RT 和包括 PyLin 的相似的这样一个架构的 VLA 然后我们在这个 back 上是做的 REO 训练方法的研究然后 Surprise Fire Training 就是 OK 你直接有相应的 Surprise 的这个 Learning 的 Data 然后你来直接做一个模范学习训练然后强化学习本质上你是可以直接比如说拿 PPO 直接去训练它

但是我们发现不太能 work 我们想了很多方法但是直接去训练整个网络没能 work 但是我们发现如果我训练强大学习的时候把 VLM 动住的话它能 work

我们只是训练下面 action 这部分强化学习的话它可以 work 但是当然我们是希望 VLM 也能训练到 T 度能传回去的但是我们会发现直接强化学习训练整个的话不行所以我们分了两个步骤第一步的话先动作 VLM 然后只训练 action 的 head 这部分 RU 可以把它训上去训上去之后我们把它成功的 tragicatory 去存下来然后这个时候放开 VLM 然后再用 superb 的能力放上去训

相当于是我们先 RO 先把每一个动作先训好然后存起来再用 super-high-end learning 方式去训练 VOM 这是我们的一个间接的解决这个方法的方式然后整体的效果其实还是相当于是 RO 能把它给训上去当然我们认为未来还是有更多提升的空间我们还是希望说真的强化学习能直接去

整个直接去训练它对然后这做了一些比较比如说绿色是 Super Sunderland 的方式然后蓝色和红色都是我们的方法红色是我们方法蓝色是一个稍微差一点的一个变体橘黄色是说强化学习之间去训练

我们可以发现的话基本上我们的方法是会比 super-x-learning 要更好在 j-learning 来说特别是在没见过的这些任务上面然后橘黄色就是 PPO 直接去训练可能会比 super-x-learning 刚才展示的那张图可能还会更差如果处理的不好 OK 可能整个的介绍大概是到这里陈老师你之前是施一工的学生吗不是

好像是说网上有一个奇怪的一个我不知道是谁写的那篇基本都是乱编的可能是 GPT 写的我不知道你本科是学什么呀我本科在清华的精密仪器写就是什么都写就是精密仪器我了解清华精密仪器就是就比较杂就各种东西所以这个机械的电子的然后控制的这些

都有我当时其实也捣鼓蛮多各种机器系统包括便衣硬件一些东西然后我本科毕社的时候是做这个就做的是双足的这个机器人控制所以你本科已经开始关注机器人了本科就关注了机器人然后前面几年可能关注机器人硬件多一些各种机器设计因为我们有很多的机器设计课然后还有包括这个

机电系统嵌入式这些搞单面机这些参加一些比赛然后毕社的时候就做的是双组机器人的舞台规划因为当时我们系的话是其实属于国内最早做双组机器人研究的单位之一 20 多年前就开始做了

所以有跟着相应的老师做这块的这个笔设本科大概是这样你后来去读博了呢机器人是你的方向吗对读博就主要做机器人方向然后跟着导师是一个日本导师

叫 Masayoshi Tomizuka 然后他也是机器人和控制领域非常有影响力的一个老师也是美国的一个院士他相当于是 Mechatronics 就机电一体化学科的一个开创者你可以认为机器人某种程度就是一种机电一体化的系统就是一种机电系统就是研究怎么样其实就是研究怎么样通过机器人机软件来去控制这种自动化的这样的一个机器的机电系统

然后我们的博士的这阶段 Lab 的名字就叫 Mechanic System Control 就是机械系统控制你可以认为所有的机器人包括自动化的很多系统都是一种机械系统你要去分析它分析它性质是什么你还知道你要知道怎么样用软件算法去控制它以及你的控制算法放在这样的一个硬件机械系统上面它会产生什么样的一个效果

所以整个会研究你可以认为就是研究软硬一体的这种机器人系统然后你怎么去设计然后另外我导师一个比较有名的工作就是 MPC 就是 model-based control 就是波动动力其实之前一直都是包括他最开始翻译的都是基于这一套方法来去做的刚才我们也大概提到了这样一套思想然后这套的理论的最早的基础其实就是导师这边去做出来的

我博士界的话前面两年主要是做 MPC 的那个时候因为 AlphaGo 刚才提到这个方法还没有出现所以说 Deeply Enforced Learning 学科还没有出现相对 AI 虽然已经进入到了 Computer Vision 里面但是还没有进入到真正进入到 Robotic 特别是机器人控制这一块

还不太能做当然就是控制之前有一些 adaptive control 等等有一些 machine learning 的思想但是 deep learning 这一块是没有进入过来的前面两年我主要做 NPC 的算法基于优化等等当时也写一些优化器然后来去做然后后面自从 AlphaGo 出来之后就开始关注强化学习用强化学习来做极前的控制所以后面几年的话都主要在 robot learning 和强化学习这一块

听起来你对机器人本体的控制是更擅长的对应该说是整个系统化吧就是说因为在当前的在此前的话这个 pipeline 是比较长的对吧我要分感知然后我要分上层决策我要分一个预测然后对吧感知和认知还有可能是还要分一下完了之后我再是这个决策再规划再控制

但现在的话逐步逐步都是端到端就是说要用更统一的方式来做这套系统所以这个其实对我们这种做我这种做 control 的来说是比较开心的因为你系统子系统越多它越难分析我如果是一套系统我是就一个端到端网络的话我反而这套系统是更简洁更我我是希望更简洁的一个

方法的你是现在要做主要做大脑吧我们简单理解我们都做大脑然后如果你认为比如说行走不太运控人行极浅的不太运控假如把它认为是小脑的话这块我们做的也很多然后我们本体也做本体主要是公司这边人行极浅的本体包括双足包括双手包括本体的

底层的很多核心部件其实也都是我们自己设计包括关节包括电机包括我们零敲手这些都是自己设计的因为现有的产业链也并不成熟就是我们市场上买不到令我们满意的

这样的东西所以我们其实一开始就是软硬件都在一体来去做因为机器人本身也是一个软硬一体的系统所以这样做也会带来我们很多的好处就是我们考虑怎么做这套因为机器人你最终用起来它一定是一个软硬一体配合起来用的系统所以说我们两者都同时做并且两块的能力都同时培养

这个的话使得我可以就是说以一个系统化的方式统一的来去设计整个软硬一体化的系统就我们软件和硬件是同步去迭代的而且设计的时候是会考虑他们的一些偶合

你考虑过比如说去无人车这个行业吗我博士的课题主题是无人车的因为当时 2015 年去读博士嘛然后那个时候就大概就是上一部无人车刚刚兴起的时间所以博士阶段去做满多无人车的然后我也是相当于最早去研究端到端无人车驾驶的就刚才说到 AlphaGo 出来之后我开始研究强大学习有会儿等等

那个时候出来我就在研究单道端的中间大概 1718 年的时候就直接用强化学习迅一个断道端的网络世界道输出的网络然后他直接来个当然当时的那些技术都还技术基础是比较当时比较落后的不足以真的让他断道端上单道端上车其实也是这两年的事情而且强化学习都还没太上也是先上了模仿学习

但当时是在也是基于仿真或者等等做了一些相应的工作和探索你后来为什么没有去无人车然后做了机器人当时我毕业已经 20 年了然后就思考后面主要方向因为那个时候无人车的很多格局特别产业的很多格局也差不多形成了实际在想机器人其实是更大的机会某种程度上第一方面机器人本身也包含了无人车

刚才提到之后的我们居身的模型它一定是一个通用的泛化的它同一个模型就能去控制无人车也能控制我们的机器人然后从因为之前学机器人控制然后我们是会对不同的机器人本体都做统一的建模的机器人本体是有统一的建模方式的车和在机器人动力学系统上面来讲的话车和一个机械臂

它建成公式之後都是同樣的形式沒有本質的差別然後所以說

當時也很快就這個考量然後就直接到機器人上面我覺得機器人涵蓋面更大更有挑戰然後產業格局更新所以說回來之後主體就逐漸的就在專注往機器人這塊然後後面包括逐步的像各種機械幣然後四足機器人這些都做了很多工作

为什么回国本来就对因为当时是拿到微博 offer 嘛其实差点都要过去了然后几个方面吧就是一方面是后来想还是想

还是不想去大厂还是想去做更自由的自己想做的事情然后就在考虑然后教职其实是能满足这样一个需求的这样一个方向所以首先是在看教职然后另外就是外部环境就那两年中美关系恶化的比较厉害我也还是比较就是说

所以在那边待着稍微那段时间不胜而爽就有回国的倾向然后同时那段时间刚好又是疫情 20 年的时候对然后那段时间就是疫情刚出来之后其实一段时间到国内其实控制蛮好的然后美国

感觉还是蛮吓人的当时所以大概这几个外部的因素吧当时就往国内看机会嘛然后后来拿到清华的这边的机会这个也是非常好的机会就直接就回来了你后来为什么又选择创业呢你在高校做的工作和创业做的工作有什么关系我认为就是说创业做一家公司特别做大之后它的 scope 其实是更大的

就是说它也需要包含技术然后我们这儿讲的很多的技术也都是会融入到咱们公司的产品里面但是比如说在学校里面的话其实你会是 focus 上技术但其实我发现我对其他很多我当然现在最感兴趣就是对技术还是最感兴趣的

我最喜欢做的一类事情但是我会发现我对产品或者对怎么样把这个产品应用起来商业化等等我也非常想去做这块事情因为我也上做机器人十好几年了从本科开始接触已经 15 基本上也 15 年了然后也是看这一行包括这一行的机器人这一行的历史机器人这一行历史也挺长时间了但是机器人一直没有很好的在咱们的世界中用起来

大部分还是停留在实验室我觉得不应该这样我觉得它该很好用起来

然后当你掌握了很多的机器人的构建机器人软硬件各种的能力之后我能想象出很多种它的应用的方式很多种都很有趣我也觉得都很有机会所以说但是如果是仅在高效实验室是搞不出来因为有大量的工程你还涉及到制造涉及到销售或者产品化等等的我也等不及说

某一个其他的大厂或者公司开始去做然后我在跟他学术合作这种对我也等不及我也想自己去做这个事情所以说基本创业是二年底的时候就决定好要去做大概是在我们在课题组里面在自己课题里面做了一段时间之后的时候然后决定得

需要扩大来去做起来然后当然另一部分原因也是一个刚才其他是决定要做这样时间另一个部分的话为什么这个时间点我们相对做的还是像比较早的一个时间为什么这时间点就开始做呢也是因为当时看到

像特斯拉和小米他们都二年都发布了他们的基金但是一方面就预判未来产业这块会起来这些公司都会入场开始陆续入场的

然后他们的资源是比较多的在学校的话虽然资源也很丰富但是到后面竞争起来的话如果我一个小实验室是很难跟一家大型的公司去竞争的或者赛跑吧我们刚才说的这些通用架构你是放在高校做还是放在创业做大致分一下就是说

比如说整个工程化的架构的话那主要是公司这边然后学生主要是做前沿的 AI 探索那可能会用一部分我们的这个工程化的一些架构比如说用我们的硬件平台用我们的一些 infra 包括一些数据或者等等比较前沿的这样的探索作为一个创业公司你们现在的产品是什么方向因为我理解其实人心机器还很早期

对就是这块我们 generally 会其实会分三个大的阶段我们把它叫做 2A 2B 和 2C2B 和 2C 可能大家了解比较多但 2A 是 A 是 academia 所以基本上来说因为现阶段是在一个机器人这种它是一个新的品类是在这种新的品类的导入的时期导入的时期最先去接触愿意去购买的就是做这些最前沿的

研究和技术以及极客技术开发等等的在这个阶段呢应用也需要一些探索相当于是在这个阶段的话那么我们会直接面向这些刚才说的这些创新者然后去售卖咱们产品最后我们已经在开始就我们的林桥手已经是在批量的在去销售各类客户国内外各大高校和这个公司的

客户也已经比较多了基本上商业闭环这块是转起来这个阶段用户主体是什么呢主体是比如说高校的研究者还有包括企业的研究者或者是对新的技术应用方向感兴趣的一些可能是专业公司然后可能是大厂考虑他自己的应用生态

所以这个阶段就大体讲一个是说大家会研究这种新的新品的机器人它的技术怎么继续去改进这是高效科研的用户比较喜欢去考虑的然后另一部分就是说会考虑这种新的产品它怎么去用起来比如说我们也有很多用户是制造类的这些企业用户

他们考虑比如说我们这种新品类的机器比如说您教授是不是能够用来帮助产线的效率的提升等等那么还有一些

巨声智能的公司他需要比如说跟相应的他们能力可能不是特别权占然后需要我们这边一些产品来去补足比如说基于我们这块的产品去做相应的一些应用等等逐步的我们就会比如说对技术技术也在不断的发展逐步的成熟然后同时的话我们对它的应用商业模式看得更加清楚了我们就可能就会知道那么这个

新的品类的机器人咱们商业模式怎么去做然后技术并且怎么把它去做到比较 ready 这个就会逐步的到我们 2B 的阶段但这个阶段我们已经自己已经开始在做了我们在跟一些

企业的一些合作方特别是场景合作方制造类的或者服务类的我们都有一些合作他们这边会提供一些场景包括可能一些数据然后以及对他们这个场景的一些和相应的商业化上面的一些认知然后我们和他共同的来去做这样的一个能满足他的这个商业化场景的要求的这样的一个机器人产品林乔手现在是成熟的吗这个工业

整个行业还不算是成熟肯定还有在改的空间但我们是推出了一版成熟的产品但还会再继续迭代可以认为不算收敛有的人觉得应该根据场景去定义机器人但你不这么认为对那个是上一代机器人做的事情也不算证明 fail 至少证明没法 scale 机器人领域的 skilling law 成立了吗

我们看到了这样的迹象包括刚才我们展示一些模型等等目前是在这个迹象上面有那个 Aha moment 吗这块还没到 Aha moment 还蛮前 Aha moment 到原模型都是在 DeepSeek 的时候才发现的所以这个机器人肯定是还没到这个时刻但是当然有一个点就是说我明显是找到了这样一种方式可以持续快速的提升机器人的能力

这个能力的提升可以会持续好几年意思就是接下来这几年每一年就每一个月基金的能力都会持续的提升每一次能力的提升它都会带来都可能会解锁新的这样的应用商业机会然后这个点在于就是我们不用等到它真的已经到 A-ha moment 所谓

然后才能开始去找应用机器人的话是不用的其实你想现在用起来的机器包括工业里面的工业机械币货等等它的智能几乎为零但是也有万台级别这些出货量也能用着很多也养活了一大帮上市的机器人公司现在这个新的技术它必然是会带来能力的提升的软硬件的能力的提升这是必然的现在就正在这个

血泊上正在生长我认为是在这个过程中就必然能沿途找到很多的落地的机会

所以你跟 AGI 信徒是一个 BAT 就是模型能力提升然后沿途下产品的蛋对是的然后相对来说的话我觉得机前这一块沿途解锁应用的可以更快一些可以比大模型更顺一些为什么因为大模型的话它对智能性要求很高的它要真的来用起来

就是你的语言的程度就比如说你几年前的那种语言的模型的能力的话你没法帮到你就是它一定要达到接近跟人的语言的水平类似的程度它可能才能产生作用所以基本上我们是看到在 711 之后才逐步的大家在考虑它真的一个比较好的一些应用但是这个对智能性要求就很高因为你要达到人类级别的智能就语言是最代表智能性的

但对机器人来说为什么现在那些即使没有任何 AI 模型的机器人都能用起来因为对机器人来说你只需要在某个动作上面去达到人类程度就行很多动作它不一定要求的智能性很高我直观感觉机器人应该比语言模型更难因为语言模型它不需要有动作但你这个已经接触物理世界了你要做到

完全跟人一样的泛化而且还包含人的这些对视觉对语言的处理的包括思维的各种能力就不光是动作所有这些能力你都要跟人对齐并且在任何的场景对吧任何的情况下都能跟人类去匹敌这个事情肯定是比语言要难的因为它是更广泛的一个事情对吧

但是你也可以认为就是为什么之前的机器能用进去就是说它特别是在制造类的这些器里面就是本身制造业它就是工序就分得就很细了对你一个工程就只需要做这一件事情所以说它对这个事情的要求对智能性的要求就降低了

所以为什么也是我们首先要选择到 2B 然后再到 2C 因为到家庭里面对繁华性要求就很高但是就是说言出下蛋的话在 B 端有很多很多的这样的一个我们认为这样的潜在的机会可以去做我理解你创业其实是你高校工作的一个延伸对吗就是像产业界的延伸

對可以這麼理解因為現在其實最重要的還是研發先這個技術出來是你能繼續做新的商業應用探索的前提

好了,这期节目就是这样,如果你喜欢我的节目,欢迎前往小宇宙,苹果 podcast,腾讯新闻,喜马拉雅,QQ 音乐,订阅张小俊商业访谈录。如果你有其他想邀请的嘉宾,想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。那我们下集再见,拜拜。

98. 逐篇解析机器人基座模型和VLA经典论文——“人就是最智能的VLA” 02:29:41 Share

张小珺Jùn｜商业访谈录

Deep Dive

Shownotes Transcript

98. 逐篇解析机器人基座模型和VLA经典论文——“人就是最智能的VLA”