大家好,欢迎来到 RaySpark 今天我们继续人型机器人通用控制器系列在前两期采访了彭学斌和李忠玉之后这一期播客我们又邀请到另外一位在这个领域非常有建树的年轻学者罗正义博士罗正义博士是这个领域非常知名的一篇工作,PhC 的作者他刚刚毕业于 CMU
加入英伟达他的学术生涯的几个关键转折点和人形机器人运动控制近几年的发展节点非常的合拍那么接下来让我们一起来听听罗征毅博士在人形机器人通用控制器方面的一些见解罗博士先做一个这个自我介绍尤其是在像您的这个重点的学术方向啊研究成果啊这些方面对
好的 没问题 感谢建宁的邀请我叫罗正宜今年刚从 CMU 的机器人的 PhD 项毕业
然后 PSC 期间我其实是在一个 computer vision 就是做机械人机视觉的一个组但是从一开始做了一些视觉之后就开始往就是巨神智能这个方面越来越发展然后做巨神智能大部分就是做人形其实我一开始非常早期的就开始在 20 年 20 年就开始做一些关于人形的东西但大部分是在 simulation 里面就是在放真里面
然后慢慢就在 23 年 24 年的时候开始做真机的机器人的控制然后就像静明您刚刚说的做了很多关我的可能注重最注重的我的 PhD 的这个 Thesis 的这个标题就是通用的人形机器人的控制包括在仿真里面和现实世界里面对然后我本科是在 upenn
呃在 CMU 先读了一个 master 然后又读了一个 PhD
对这个大概就是一个一个非常比较希望比较全面的呃生命吧好的对就是刚才也提到这个人型机器人的通用控制器啊就是嗯就这个概念可能呃怎么能够让大众更容易理解就是这个通用控制器它是个什么它需要具备什么样的功能然后它离我们现在看到的像现在人型机器人啊跳舞啊等等的区别是什么嗯啊通用
其实通用首先通用这个词它就有一点不是特别的明确它是一个更多的是我们想达到的一个水平
通用这个东西可以非常广门就像通用人工智能一样它不是说我们一个很多东西都可以说是通用当我在用这个通用的时候其实我的导师非常不喜欢通用这个词但是在我的脑海里面通用就是说它一个控制器可以做出非常多不同样的这种控制动作在我写第一篇就是带通用的这个文章的时候我指的就是说比如说
一个人能做到的动作就是一个人在这个这一个很空旷的一个场景中一个人能够做到的动作我希望我的人性机器人他都能做到就我们人能走能跳能够做一些基本的跑动做一些甚至跟这些做一些基本的物体交互就是我想希望通用通过一个控制器
来控制一个人形的机器人去把这些动作全部都做好而不是说这个人机这个控制只能比如说走动或者跳舞其实在现在在真机上面大部分我们能看到的人形机器人的控制器都是他只能做一件事情比如说他可以走得很好或者他说他可以跳一段舞然后或者说他可以跳跳多段舞
或者说他可以比如说他可以打一些拳击但是你说让他要让同一个控制器在做一些别的动作那么他就他就不行了对通用可能就是说他可以讲我在我想象就是说人能够做到的这些动作这个机器人也应该能够做到
我当时就觉得我们既然已经在做人型机器人了那么我们就不能限制人型机器人能做哪些动作我们希望我们的控制器能让他做到基本上我们想象中脑袋里想象出一个人能做到所有的东西然后其实我觉得硬件现在不能说我们已经到那但是我们可以从各个硬件厂商发的这些 demo 来看我觉得硬件可能基本上已经快到了可以支撑这个水平了
所以其实通用它的概念就是跟现在训练机器人的这个方法的一个区别就是现在我们看到的很多 demo 它可能就是说这个机器人他跳这段舞他训了一个 controller 他就是跳这个舞的然后他要跳下一个舞可能还要重新再训练一遍对吧
就是一个非常 specific 的一个训练的模式但是可能通用的概念就是希望说我把所有的这个训练的这个能力或结果放到一个 controller 里面然后让他可以做很多事情就是这两个方式中间的这个难度在哪里就是或者是说如何切换这个模式的其实
就是难度这个东西其实我们在做完了之后就是我在比如说我做了一段时间这个时候其实它的难度比我想象中的要简单一些但其实更多的这个难度更多的是在比如说 2019 2022 年的时候没有人知道这个东西做不做得出来
就是在当时在业界当时我其实 follow 就像您刚刚说的彭学斌老师的工作很多我 19 年就在 follow 他的工作然后当时就是有很多这种大概一项一项就是一个 controller 去做一个 motion 去干一件事情的这种东西已经很多已经做得非常的好然后但是怎么把让同一个 controller 去我们叫 generalize 就可以泛化到各种各样不同的动作这个事情
大家不知道能不能做大家不知道能不能做然后我当时在做这件事情的时候心里也没有底我就说哎这个不知道不知道能不能能不能做这些事情所以我的工作也就是一步一步的希望说我们 ok 找到好的训练方式找到这个呃
就是它的输入对于这个 control 这个输入怎么样去做到最更好能够让它泛化然后在训练的时候做哪些东西让它更好的去学到更多各种不一样的这个就是动作这些 type 这些范围所以在这上面就是做了不少工作然后就一步一步的让它能够泛化的更好让它能够就是变得更通用
像通用控制器这块有一些什么比较典型的工作吗我觉得通用控制器你说在人形的控制方面对人形的控制方面我可以从 animation 的角度其实人形现在很多都是从 animation 开始的其实人形像现在我们看到很多 demo 其实都是可以说就是 animation 在可能五年前做的一些效果
那如果说要通用的话可能我和我的工作叫 PHC 我叫 Perpetual Humanoid Controller 就是在往通用这个方向走然后在比我之前还有在 Meta 有一篇叫 Skydiver
也是在想说做这个通用的控制器然后之后还有在我之后又有一些比如说叫 mask mimic 好像彭学斌老师也提到过这个都是在往通用控制器上面走就是说我们 train 一个一个 controller 去做各种各样不同的事情其实现在有一个慢慢涌现的一个 concept 叫 behavior foundation model 就大家都知道这个这个这个基座模型的 foundation modelbehavior foundation model 基本上就是这个一个一个
对于通用的一个更好的一个词来来来来解释到吧这个 behavior foundation model 呢就是说你比如说你 train 这么一个 behavior foundation model 然后你有了它之后你就可以通过它去做更多的别的事情我可以举一个例子吧就比如说我当时在做 PHC 就是有这么一件事情我当时做 PHC 我就想着我一个一个一个一个控制器
当时已经有比如说 D-Mimic 这种东西然后它可以做一定的 motion tracking 就是说给你一段 reference 它可以学出来可以做这么一段动作但是就像你刚刚说的它对于每做一个动作的话它就需要新训练一个模型但是我的需求我当时会做一些人形的姿态估计 Post estimation 所以做姿态估计的时候它有一个需求就是不管你估计了什么姿态我都是希望我的人形跟它做一样的动作
那么这个就没有 constraint 了我就我就不是说我只去学一段动作了我就把所有动作都学出来或者说比如人类的 99%的动作我都要把它学出来那样的话就是达到了某种可以说是通用的刚才也提到这个 phc 哈它大概的一个方法可不可以稍微介绍一下好的没问题对啊
其实我刚刚已经开始提到一些就是 PAC 这个工作它是更多的是从一个 animation 和 character animation 这个角度来讲就是角色的控制我其实在做 PAC 的时候我在开始做这篇文章的时候我在脑子里面就有一个 ideal 的一个 demo 就是说我给我一个相机
给我一个相机你对着我然后我做什么我希望我的计算机里面的虚拟人就做什么比如我做这个动作机器人就做这个动作其实在如果像 2025 年其实是一种某种形式的 tel operation 但在当时其实是没有这么样一个 controller 可以说去 support 这件事情的就是说我在实时的我给你一个 camera
你人做什么然后你的机器人就做你的机器人做什么你如果想要做到这一点实时的控制的话那么就是你的 controller 可以在实时的反应说我现在给你一段 reference 就是我人的这个动作你的这个 tumanoid 你就得同时做一样的东西那么你对于你这个 controller 的这个泛化性的要求就非常高然后比如说
因为你是一个相机对着你,然后你用它来做 post-assumption 就是用一个相机来去给你做动作,通过视觉的方式去估计你人体的姿态。然后我就希望把这个人体的姿态作为输入,给我这个人型机器人,然后这个人型机器人就可以做一样的事情。
然后就像我刚刚提到的他这个时候他对于这个人形机器人控制器的要求就非常高了因为你如果是首先就是你可能会做不同的动作比如说你可能会跳你有可能会走你可能会跑第二就是你在做这些动作的时候因为你是通过一个相机来做动作而不是比如说有那个 motion capture studio 就是有很大很多相机的
然后你在就是那个做出来的人的姿态会的这个 quality 就是他的效果会好很多所以说如果你是只有一个相机你的你的这个人的姿态估计会变得非常的道声非常多非常 noisy
所以我 PAC 的一个工作就是希望他对于这种这种 noisy 的 input 就是非常非常不是很好的这种人的姿态会依然可以做到这些动作同时如果他太 noisy 了这个人倒掉了之后他也可能再重新站起来就是一个 humanoid 我的 input 比如说我做了一段动作他实在是做不出来比如说我做了一个回旋踢他做不出来但是他
他倒了之后还可以站起来所以其实叫 phc 就是 perpetual humanly controllerperpetual 就是说他倒了之后他还可以再站起来继续去完成他的任务所以这是一个 motivation 然后当时这是一个 demo 的一个效果然后从 academic academia 的角度来讲就是在当时有一个 data set
现在我觉得仍然是市面上最大的一个人的动物的动作数据叫 Amas 是 MPI Michael Black 老师做的然后这个数据集呢当时是有一万一万条就是高质量的这个 motion 它是很多其他的动物的数据集合在一起所以叫 Amas 然后当时就是
就是市面上最大的这么一个数据集然后我当时的目标就是这个数据集里面我想让每一条动作都能被我的 controller 就是被我的 controller 去学习的这个事情其实我 2020 年就开始做了
然后当时是在一个 simulator 叫 mujuko 里面做的反正这个东西做了两三年就断断续续的就是没过一段时间我就想我想去做这么一件事情但是一直就没能把这个东西做出来所以在 23 年是为什么忽然又想到去做这件事情了是因为在 22 年的暑假我去英伟达实习了我去英伟达实习了然后当时就接触到了 Isaac Jim
Isaac Jim 就是因为达当时的高效的在 GPU 上可以 paralyze 的一个 simulator 一个仿真所以说它对于像 MujikoMujiko 就是 single GPU 在 CPU 上面跑的就是多线程或者要么在 CPU 上多线程或者是在 GPU 上做并行 GPU 上做并行 Isaac Jim 就会变得快很多
结束了之后我就发现我用强化学习的速度变得非常快了所以就重燃了我说 OK 我要把 MS dataset 把它全部都学下来的这么一个又开始做这个事情了然后就开始当时的目标就是说我要把 MS dataset 用一个控制区把它全部学出来
然后 PAC 的宗旨其实就是这两点一我要做一个 demo 说我要有一个摄像机我做什么人做什么第二就是我在我想把 MSAS 全部都学出来这两个其实相辅相成的因为 MSAS 将近我感觉将近人类能做的东西他可能已经概括的八九不离十了你如果把这里面的动作都学会了之后你再去
你再去做比如说用 Monaco 的 camera 去做动捕其实大部分的动作都已经在 MS 里面学过了然后 PAC 就是奔着这个目标用 Isaac Jim 一顿操作然后就把这东西学出来了所以 MS dataset 它有比如说它有一万条的动捕的高精度的动捕数据
高进度动捕数据然后我当时做 PSC 就是说 PSC 的输入就是每一帧每一帧它是每一帧每一帧的动作输入给这么一个强化学习的 controller 因为我们用 simulator 所以所有东西都是用强化学习做的因为其实动捕呢动捕它是可以就是
给你一段我们叫 kinematic motion 就是用中文怎么讲就是 kinematic motion 它是有每一帧的人的动作的角度它是没有人的动作的 torque 它不会告诉你每一帧的动作要使多少力所以这个东西是需要通过强化学习让 network 自己去学出来的
然后对于 PS7 来说它的输入就是每一帧这个下一帧你需要做的动作然后它的 output 它的输出就是说我现在对于我现在这个这个 character 这个人型机器人我在每一个关节需要使多少力让我去 match 去追去模仿这个下一帧这个你输入这个人的动作基本上就是每一帧我给你说你这个
这个机器人要做成这样的动作然后这个控制器就说 ok 我每每每个关节需要输多少力去做到这个动作然后啊 pac 就是说我我任意在这个 data set 里面我挑一段动作或者在每一个动作的每一个点我说 ok 你要做这个知不知这一段动作 pac 的就是说我我可以啊
非常以高质量的控制这个人形机器人去做这么一段动作就把出的这段动作给它重现出来所以我们这个 task 就叫 motion tracking 就是说我每一帧我给你 input 然后你这个 controller 就是 output torx 输出每关节的力然后去做这么一段动作然后 Ph1 的可能的亮点就是
我在这一万个 sequence 中任意挑一段或者我任意挑一段中间的一部分它都可以把它模仿出来当你把这十万条动作基本上学会了之后你这个控制器的泛化性其实就已经很好了因为这个十万条 motion 一万条 motion 里面还是有非常多的多样性的
所以说把这个基本上把这个把这些动作学好了之后在我的经验里面基本上基本上大部分人人的动作你都学的差不多了当然因为 MSMS 是很高精的动物就是它质量非常高所以你如果给一些很 noisy 的 motion 它的你在你的控制器的这个这个效果可能就没有那么好了
就所以说到这个像 PHC 这个工作它会是后面像这个罗布什参与的很多工作类似像这个 HRO 还有那个 HOVER 还有 ASAP 这些可能就社交媒体上比较出圈的一些工作就我可能就能记得住名字但是我看就是后期也有很多这个其他的一些工作就这个 PHC 是后面的这些一些工作的一个奠基性工作吗
其实 UHC 跟 PNC 其实他们两个做的东西是一样的事情只是 PNC 就是说把这个东西 actually 做出来了然后它就变成了我的一个怎么说呢基座吧就是说 PNC 之后在模拟器里面我就做了 Pulse 和 OmniGrasp 然后还有 PDC 这个就是从动作控制到
学一些 control prior 就相当于学一个 behavior foundation model 然后再去做一些 manipulation 的动作 manipulation 然后一直到 visual manipulation 就是戴眼镜的 manipulation 这是一个系列然后这个就是一个系列就是怎么说呢就是想让人形机器人在虚拟世界里面做出更好的各种各样的动作然后可以去抓取物体然后做一些可以说 create value 就是做一些有意义的动作
然后同时这是一条线就是让人型机器人在虚拟世界里面变得越来越有用然后去更多的探索人型机器人的它在虚拟世界里面可以做到更多更有用的东西然后怎么样去做比如说 high level 的 brain function
然后同时呢因为我们有了 PHC 有了 Pulse 我们就说我们希望把这些动作也带到真实世界里面去但是真实世界里面去呢我们就做了 HTOO OmniHTOO ASAPHover 这些动物这些其实呢因为在真实世界的机器人中它就会难很多所以我们就是依然在就是说我们一开始就想把 PHC 的这些效果做到真实世界里面去
但是也还没有完全达到这个目标就是一步一步的再往这个方向走我一直很喜欢的一个道路就是先咱们在 sim 里面 simulation 里面把这个效果拉得很好然后把大致的方法探索出来
然后我们再把它 to real 然后一步一步的把它带到 real world 里面去这样的话我觉得我们在方法论上面至少在方法论上面大概可以通过做一些 animation 做一些 early 的探索然后我们把它再一步一步的转化到现实世界里面因为在现实世界里面会要难很多很多东西很多数值很多 assumption 都不成立了
所以我们在真实世界的进度当然会比在 simulation 里面会做得慢一些但是我觉得这两者都是非常有意义而且都是需要有更多的探索的对 其实刚刚您也提到从 UHC 可能提到了一个 universal 的人形的 controller 这样一个概念但是那个时间可能在比如说训练速度上面等等
的一些约束可能还没有达到那么好的效果到 phc 可能就用了这个英伟达的这个 gpu 包括这个 assetg 然后再到后面可能 24 年 25 年之后有很多人心机器人出来再把它 same to real 就是这这整个脉络我觉得非常的连贯啊而且他也非常好的就是感感觉就是非常紧凑的赶上了每一波的这个技术的突破点对吧就是啊所以就是像啊你的整个博士的
生涯我觉得就是刚刚好踩中了这几个时间点然后所以这个工作推出的这个都非常有影响力就是但是从最开始你是怎么坚定下来说就是沿着这个方向来去做的而不是说换到其他的一些方向上面就其实一开始我觉得我的博士生涯有几个比较重要的时间点吧
第一个其实在读博士之前我其实一直是一个做 ARVR 的我在本科的在 Upan 的时候做了在做很多关于 ARVR 相关的我 16 年就在用一些 HoloLens 这些东西然后当时就觉得我想去做研究我去我在 18 19 年在苹果的 Vision Pro Team 在实习
然后当时就觉得还是想做一些研究因为我觉得 AR VR 需要的其实是更好的智能就我一直想着比如说我如果看到某些东西我当时觉得 AR 眼镜我看到某些东西它可以告诉我这个东西怎么用我觉得这个是非常有用的一个事情所以我的接入点就是一个人工智能和计算机视觉然后在 19 年我觉得有一个非常重要的点就是 19 年我暑假在苹果实习
然后当时就是在 Vision Pro Team 然后我做的事情呢就是做其实是 follow 彭学斌的工作去做在物理引擎里面的这个 character animation
当时我们组的要求,想让我探索的就是给 VR 其实做一些 character 的动作然后去比如说在现实世界里面,然后你有一些场景然后有一个机器人,有一个人形的机器人,虚拟人机器人可以到处蹦跳然后当时其实就做了这么一个事情,当时是 follow 了彭学斌的 D-Mimic 和 MCPMulticollibative Control
然后这个可能就给我埋下了一堆对于人形和对于人的这个 embodyment 的一个种子吧然后我就开始读在 CMU 读机器人的硕士读机器人硕士更多的切入点是这个计算机视觉所以就做了一些动谱就是 monocular pulse estimation 这么一件事情然后慢慢的我就觉得我当时就一直觉得这个做 pulse estimation
我很想跟他把我跟在苹果实习做的东西结合起来我想做 post estimation 和 embodied AI 就是在 simulation 在仿真里面做的东西我想把它结合起来我觉得做
做动作 post estimation 的时候你就是你如果不给他一些 constraint 不给他一些限制你的动作会做的非常奇怪所以我当然就想引入仿真物理仿真给他加一些这个物理量给他加一些这个限制让他的动作变得更像人然后变得更 natural 变更当时有些叫 grounded 叫 physical grounding 所以当时就开始往这个方向走然后同时我的同门师兄我的一个 mentor 袁野
他在这方面也做了一些工作然后正好就机缘巧合他就开始带着我做一些就是计算机视觉和这个虚拟引擎结合性的动作对然后这是 19 年 20 年然后就开始做了这么一个 UHC 这么一个东西当时就是觉得就像我刚刚提到的因为当时同学兵的 DMMEC 这些东西已经出来了但是我想用
这个人这个有一个控制了可以去做这个 post estimation 但是 post estimation 这件事情又非常的就是对于泛化性要求就非常高你就需要说任何动作他都能做所以就做了这个这个 UHC 这么这么一篇工作我就想我我我当时就说我要把这个
一个 controller 所有的动作都做完我让他去把想把这个东西做出来然后呢 usc 就是怎么说呢从某种意义上确实做到这一点但是从某种意义上都又没有是因为当时 usc 用到了一个东西叫 residual horse control 就是当时就是
如果就是可以想象就是它是一个提线木我们在它的这个机器人的这个在仿根里面我在它的这个机器人的这个每一个关节点我就又加了一点力让它可以站让它可以相当于一个线把它提住了
这样的话其实就让这个控制器更简单去学习它因为你就相当于给了一些魔法的力让它可以飘起来如果更说的更夸张一点就这个机器人其实可以飞它有各种我们就叫 residual force control 然后通过就是给了一个拐杖的形式把
把这件事情做出来然后也可以用然后其实在这个上面我又在做了两篇文章一个叫 USC 就是当时叫 Kinematic Pulse 然后又后来又 follow up 了一个在 NewRibs2022 年叫 Embodied Pulse 也是做做人体姿态估计然后这是第三第一篇是第一人称人体姿态估计第二篇是啊第三人称的人体姿态估计啊然后这个两个都是在 Mujuko 这个 simulator 里面做在 CPU 上面
然后就像我刚刚提到了去二年去英伟达实习这是第二个转折点啊当时呃所以说在 19 年是跟着就是在还在用彭学斌的啊 work 然后 22 年就因为当时英伟达彭学斌也在英伟达然后就开始跟彭学斌一起 work 然后也是像像像 Jayson 老师学习然后啊就当时做了一篇 paper 叫啊 trace and pace
就是做了一个在 Isaac Gym 里面可以 travers 各种 terrain 的一个这么一个人形的机器人控制器就是各种各样的比如说阶梯或者 rough terrain 这么样一个控制器然后为什么说这是一个转折点就是因为首先用上了 Isaac 原来可能要训练一周的东西现在一天就可以训练出来了然后迭代速度就变得非常快我就可以试很多各种各样的这种不同的控制器
然后同时因为跟 Jason Work 也得到一些就是训练这些控制系的一些 insight 然后慢慢的就然后在我在二二年的秋季就去了 Meta 去 Meta 当时去 Meta 做 visiting researchervisiting researcher 然后 Meta 的这个
呃在 Meta 的项目就是做 character animation 和 Avatar 因为当时在 reality labreality lab 他们想做啊 AR VR 然后做一些啊 Avatar 就是这个虚拟角色的这么一个用用虚拟在物理引擎里面做一些虚拟角色的这就这样的一个 work 然后当时就说 OK 那我就再再试试这个 UAC 这个事情但我想把这个 magic force 这个拐杆给扔掉那我说 OK 我就
通过有 Izzy Jim 这个快速迭代可以快速迭代然后我就现在有 MS dataset 我看能不能把这个生意做出来然后一顿操作之后就把在 23 年的 3 月份把这个东西大概做出来了然后我就想哇 OK 那我既然能够做到这个动作之后我就我如果已经能够 control 这个一个 controller 我让我可以让一个 controller 可以把所有 MS dataset 全部学会了之后
我就觉得 OK 那我有什么不能做的呢我觉得这个对于我当时看到这个效果了之后我说那基本上所有的想让我做的动作我都可以通过我现在这个 motion tracking 这个 task 把它学出来当时我的脑海里就是觉得我的这个 basic 的 motor skills 都已经学会了我可以控制我这个人行机器人在虚拟引擎里面我可以做任何动作基本上做任何动作
那么我如果想让他去但是这个既然是就是在 motion tracking 就是在动作模仿这个方面那么我如果想让他做一些别的事情比如说我想让他跑以某种速度跑或者我想让他 traverse terrain 或者说我想让他抓取某些物体其实很多这个我们叫 motor primitive 或者叫 motor control 就是他的这个运动的能力其实我已经把它学会了
那么接下来一步就是说我怎么样可以重复利用这个人的动作然后所以这个就推升了 Pulse 我们叫这个 Motion RepresentationUniversal 的 Motion 就是泛化的 Motion Representation 或者用今天的角度来讲就是一个 Behavior Foundation Model 然后就是可以学一个这个 Latent Space 然后让我们可以附用已经学会的一些动作
其实这个 concept 其实在运动控制里面其实是就是挺多的了就是说人就比如说像我们人我们人不是每一步每一天都对于每一个 task 我们都要重新学一遍怎么控制我们的身体的我们人是 preloaded 我们可能一出生就有一部分的这个 motor skills 就已经我们已经在刻在基因里面了
我觉得我就是希望能够让我们的机器人也可以拥有这些能力我已经给他一部分可以让他动比如说跑跳这些能力然后对于每一个新来的任务我就只要让他去寻找如何去使用这些能力叫 motor skill reuse 这个在 character animation 里面也经常在被使用然后就做了 Pulse 这么一件事情
然后在同年也又做了一篇 Avatar 叫 SimXR 也是跟 PHD 是 third person 然后 SimXR 又是变又回到第一人称这些都是一些 character animation 然后就迎来了第三个转折点就是应该是 2023 年的时候还是 2023 年 2024 年就是 Elon Musk
宣布了他要做人性机器人然后忽然一下人性机器人就火了人性机器人火了当时其实我看到这个 news 就这个新闻之后我说啊人性机器人我自己也做人性机器人但是说虚拟的说啊真的吗这么快吗我当时觉得我我我当时觉得自己的 trajectory 会是啊再做几年人性机器人在虚拟世界里面啊再做几年然后啊把这个虚拟世界的真的做到极致就比如说我可以上一个三个 vision
然后我可以告诉我在虚拟世界我告诉他 ok 你要做什么事情你要把这个杯子拿到哪里去啊你要把这个屋子里收拾一下我可以在虚拟世界里面搭一套然后就让他去收拾然后在虚拟世界里面可以把这些事情都做到我觉得这也是非常有意义的因为你其实就是在虚拟世界里面有一个 embody 的 AI 然后因为是然后因为你在物理引擎嘛所以也是 grounded by physicsin some way 其实你可以做很多很多有意思的研究
然后我当时觉得我估计会先做这个然后去让他有一个 computer vision 的能力然后这个去反补比如说 AR VR computer vision 这些方面然后可能在 robotics 在赶上之后我可以去开始做一些更像上真机的事情但是忽然一下 Elon Musk 说我们要做人型机器人做人型机器人然后同年 23 年 Berkeley 有做了一篇叫 Humanoid Controls
Transformer, Humanoid TransformerControl 这么一篇文章当时就觉得
OK 这个虚拟到仿真好像可以做了然后同年 2323 年的时候何泰然我的一个呃长期的合作者很好的朋友他刚开始读他的 phd 然后他在 23 年底的时候找到我说他很喜欢 phc 然后因为他呃然后他是做机器人的然后他的导师是关亚老师啊
有一台买了当时语述的新的 H1Unity H1 他说咱们把这个 PHE 做到真实世界里面然后我们俩就一拍即合然后就也这个就引出了 H2O 这么一篇工作当时就是一月份机器人到然后就我们俩就没日没夜的干没日没夜的干然后干到三月份把第一把这个 H2O 做出来了然后 OMNI H2O 然后
然后 hover asap 这这都是都是从那开始的就是第一台 commercially 可以买到的人型机器人其实我刚刚提到 berkeley 那个机器人都买不到但是用的是 digit 我们买不到但是我们第一台我们可以买到的我们就基本上就是第一波就拿到了机器人然后就开始做我们叫我们要 phd to real
然后就做 HO Omni HO 但是说一个搞笑一点的我们当时觉得可能到现在觉得可能步子跨得有点太大了可能 phc to real 有点一步跨得太大了
所以在 ASL 就走三步退了一步就是说那 PSC 有点太难了咱们先把 D-Mimic to real 我觉得其实现在感觉业绩也都是在 D-Mimic AMP to realPSC to real 大家现在我相信很多人都在探索我自己也在探索因为就是想做说在真机上做到通用还是一件非常困难的事情所以我一直说的就是
真实机器人的人形机器人的这些方法可能 lag behind 就是落后于 animation 可能三到四年那样现在当然因为已经做过了所以 rapidly approach 依然还是有一定的差距的所以 pc to real still 我感觉接下来两三个月我觉得拭目以待我觉得很快就会有人把它做出来
了解对就我觉得刚才这一段也确实串的就是非常的这个精确啊就是从就是我我看了一下其实也涵盖了我本来想问的问题的方方面面包括 uhc phc 还有这个 pulse 但是后面也提到了像这个呃这个几个工作就可以从后面这几个工作先先来了解一下就是呃像 hro 和 omni hro 他其实我印象里面他好像也是带着一个嗯
嗯一个头显还是干嘛的反正他就是通过记录人体的动作然后映射到真实的机器人上面这个其实就有点像 phc 对吗就是他其实是嗯 phc 他是通过那个数据级的动作映射到你这个仿真器里面能够输出呃力的这种机器人的仿真的结果然后呃 hlo 他可能就是说我在真实的环境里面去采集人的
这个动作然后我映射到真实的机器人上面是这种感觉对吗对其实我刚刚我刚刚说了 TAC 的 demoIdeal demo 就是我给你一个相机对着一个人人做什么机器人做什么其实 HUO 就是做这件事情就是我给你一个相机
当时其实 HUO 用的就是 PAC 的同一套的这个单目相机的动谱自带估计然后就直接当时都没有时间吸血心了就直接拿过来用了然后就 OK 把这个东西拿过来然后人做什么机器人做什么当时其实就是做这么一件事情 HUO 其实是整个 HUO 当时还没有用头显
HUO 还是全身的模仿只是效果做的其实还有待改进但是其实我们想要的这么一套的 pipeline 这么一个 framework 其实已经搭起来就是比如从人的动作并收到机器人的动作 Monocular Camera
动动动姿态估计然后动作他做什么然后机器人做什么那么这一套其实是打通了的其实就是 baby version 的 PHC2.6 所以没有说到 PHC2.6 主要是因为各方面原因就是效果没有没有仿真领做那么好
当然这件事情也是十分困难有些动作我觉得可能当时的 H1 还做不了这件事情现在的 G1 可能可以做到一部分但当时的 H1 确实要做到这些很 agile 的这些很灵敏的动作还是比较困难一些到后面的 OmniHRO 它就是加上了头线对吧
OMNI H2O 跟 H2O 有什么区别呢 OMNI H2O 更多的是我们当时说我们想更好的做一些遥操作
更好做摇操作但是如果你如果是一个第三人生的相机的话其实做摇操作就是非常困难我这样的话我又不知道机器人在做什么然后我们就当时想 OK 我们想做机器人的摇操作我们想做就是 Ego centric 就是人看到机器人看到什么人也看到什么然后可以做各种各样的这个动作那么我们就需要去 support 这个
第三就是 VR 的这么一个 interface 然后其实 onlyHRO 跟后来的 hover 他的训练的就是训练基座模型的其实都是跟 Phd 是一样的我们训练一个非常好的 motion tracker
OmniHU 跟 Harvard 就又加了一段这个蒸馏就是说我这个 PHC 的这个这个这个机座模型我是可以做到我是需要全身的这些动作但是我如果做一道蒸馏的话我把我把他的我只给他比如说三个点我不给他全身的我只给他三个点然后我通过蒸馏的方式让他去学学学这么一个动作
其实他的就是他的 teacher 我们就知道叫什么学生跟老师就是他老师的模型其实是用跟 PHE 非常相似的当然有很多 SyntorialDomain Realization 这些东西但是他的训练的这个
就是他的一个 idea 和他的这个 framework 跟 PSC 其实非常像然后我们就是又做了一套征友让他可以 support 更多的不同的就是像比如说 VR 这种这样的输入而不是说就是全身的动补因为全身的动补比较比较难以拿到的一件事情嘛
对然后再到后面的 ASAP 可能就刚刚您说到的它可能是 DeepMimic 的一个 trial 对吧我们后来也觉得步子不能跨得太大硬件也没有到完全跟上然后方法论也没有完全做到我们当时是步子跨的是有一点大了但是我觉得效果其实就是首先证明了这个东西可以做就是
讲一个好玩的在 24 年的时候在 24 年的时候 24 年刚开始的时候其实很多人是觉得在当时在四足的这个 sim to real 是无法 transfer 到到人形的其实我当时跟一些教授聊大家都觉得哎呀这个人形肯定做不出来
其实跟当时做 phc 有点像就是通用的做出来做出来然后 24 你就是人形的你想把你这些训练这些在 simulator 里面人形的想做出来这个太难了你这个 domain randomizationsimpul gap 都很困难
然后我们当时可能也有一个我跟泰然就是有这种当时还有文力张冲我们一起这几个合作者反正就是兔生牛都不怕虎我们做肯定能做出来然后当时就说我们要 phttp 肯定能做肯定能做出来然后就把它可以说熬了很多夜然后在 hto 说就是第一步说 ok 这么一套东西可以把它做出来
然后在 OmniHTL 就进行 refine 但是在 OmniHTL 我们当然也觉得 OK 他已经做的不错了但是对于他的动作的 fluidityagility 他的敏捷性还是觉得还不够我们说退一步我们先不要做通用的因为通用的毕竟还是更难我们还是先做一些简单的我们还是把 DMimic 先把它做好
然后我们再去想这些同种的这件事情所以在现实世界里面当然就有
无数的各种各样的东西然后这些所有的都还是在一个 motion tracking 就是 reference motion tracking 模仿学习模仿人的动作这一方面然后我在仿真里面其实已经后来已经开始做 manipulation 就是做抓取然后现在也会做到视觉就带视觉的抓取这些事情都是我觉得要一步一步的把它从仿真里面
带到现实世界里面来这样的话人性继承才会有真正的用处甚至刚才说到 UHC PHC 还有 Pulse 可能还有几个问题也再稍微问一下刚提到的 UHC 它其实当时就是用到了一个叫残渣力控制 RED
residual voice control 就相当于是我们理解它就是一个木耳就是你有一个绳子在吊着它它可能相对来说就是简单一点然后到 PHC 它可能就把这个绳子去掉了但是也引入了一个叫惩罚控制策略了就是这个 progressive 反正一个 PMCP 对对对这个可能是 PHC 的一个主要的一个方法是吗就是这个方法可以稍微也介绍一下吗可以没问题
所以当时我做做 PhD 的时候我不是有 1 万条动谱的动作吗我说好 1 万条我们就应学我们去学我就把我们当时因为用 Izzy Gym 可以用
2000 个 environment 2000 个同时模拟的可以同时模拟 2000 个机器人在动然后我说 OK 我就把这 1 万条 motion sequence 随便 sample2000 条然后我就让他学然后我就去 evaluate 其实 PAC
最着重的一点 take away 最主要的就是我要保证每一条 motion sequence 每一条这个动作都被学到了这个其实是在原来很多 animation 的 paper 里面他们不重视这件事情因为 for animation 的话其实你能做到某些动作然后可以很好看这个 paper 就很好了但是对于我来说因为我想做当时想做姿态估计我想做 after 我想做 universal 我想做通用的那我就非常着重于
我要保证他每一条 sequence 都可以学会所以我当时就引入了好几个 metric 我当时引入了几个这个这个指标就比如说 success rate 就成功率
比如说我给你一个 sequence 你能不能成功的把它全部学出全部都做出来而不是说我跳了一半然后人倒了这个就不行我就引入了这个成功率就比如说你在学这段时间如果你在某一个时间点你的 reference 太远了的话那你就不成功你就 fail 了
所以说当时就引入了成功率这么一件事情这件事情其实很少有 prior work 就是之前的工作去狠狠的抓这件事情然后我还引入了当时其实在 post estimation 的一些 metric 比如说 MPGPE 叫 Meme Perjoint Position Error 就是每一个关节点跟 reference motion 差多远就是你模仿一段动作你模仿的好不好你每一个关节点离它有多远
就是这两个 metric 其实是我当时就是首次把它加入了进去然后就是在非常专注的想把这几个把这两个 metric 然后还有一个 acceleration 就是你的动作有没有太晃动就这三个 metric 其实就是我当时着重调的几个点然后当时我在调我就发现这个 success rate 就是这个成功率一直上不去它一直上不去就是它一直在 97%
97%左右晃动然后我当时就就就就就就我我当时当时就每一条一条的看当时啊百百百分之九七十一一万条的 97%那就是 3%那将近就有啊这个当时应该是 300 多条 390 条这个这个 sequence 就他就啊学不会
然后一条一条的看一条一条的看然后当时发现两个问题一个就是有一些 motion 是 corrupted 因为他就是在动谱的时候可能有些 artifacts 他就做的不好还有一部分那就是非常难的就是比如说他他他 card wheel 然后 back flip 就比如说他做一个大风车的这么一个动作或者他是后空翻前空翻这些就非常困难了这动作非常的困难然后我的这个 control 就学不会然后当时但当时我有一个 insight 当时我就发现
虽然我把这 2000 个 sequence 全部这里 1 万个 sequence 全部扔进去一起学他学不会但是如果我只让他学一个 sequence 他是学的会的就是我们可以 overfit 就是说他是他我就是我只让他学一个 sequence 他是可以学会的然后我发现如果他只学 10 个 sequence 他也是学的会然后我当时就想 OK 他如果是这样的话我为什么不我当时就做了这么一件事情我就我先学了一个动先学了先我把
这 1 万个 sequence 我就扔进去让他很明确学学学学学学学到了他比如说只剩下 300 条不会然后把这 300 条单独拎出来我继续学但是这个时候呢我就重新重新 initialize 一个 network 我不用先前的那个 network 我现在再抓我再再 initialize 一个 network 我去学单单学这 300 条然后这 300 条学会了可能学到一个地步可能是还剩 30 条
这 30 条又学不会了就是你不管怎么怎么训练都学不会然后再把这 30 条再拎出来再扔一个 network 我就叫 progressive networkprogressive network 是如果没有记错应该是 DeepMindGoogle 那边出的一篇 paper 他就是说我不是有不同的任务吗然后我对于每个任务我就可以新把 network 就是神经网络把它长得更大就是 progressively allocating new network
就是可以说有一种像像我们在脑子里面长新的粉筋突突就长得越来越多就是越来越难的东西我就长一些新的成熏图书去学他啊其实做的就有点有点类似于这样说我们不停的对我们我们有更更难的东西我们就长给新的 network capacity 去学他
然后我们就一直那么做一直到你没有数据了你全部都学完了然后你就会得到比如说三个到四个这样的 network 小的 network 然后你如果想的话如果我知道是哪一个 sequence 我要学
其实我就 switch,我就说这个 sequence 用这个 network 去学,其实跟 MOE 有一点像了但是我们这里要解决的就是一个 catastrophic forgetting 的问题就是你在学了一个新的技能之后会忘掉另一个技能所以 PAC 做的跟 MOE 不同的就是我把这些小的 network 都 freeze 掉
freeze 掉了然后再再学一个这个啊叫 composer 一个东西就是 dynamically 我可以在在 runtime 在在 inference 的时候可以选去用哪一个 network 去来做这个 inference 的 phc 然后这个 framework 同时也 support 另一件事情就是在最后我还可以学一个从地上倒下来再爬起来的这么一个任务所以啊
对,这个 framework 也 support 这么一件事情所以我到最后就可以学出来一个既可以 imitate 又可以去从倒到地上去爬起来这么一个动作这么一个 controller 然后它之所以好呢就是因为其实倒下去再爬起来这件事情跟 imitating reference motion 其实是差的很远的
它其实是两一件非常不同的事情然后我们知道 reinforcement learning 也有非常大的 forgetting 的问题就会忘记所以其实到后来其实更多的是在倒地然后再站起来这件事情上我觉得这个 framework 其实非常好
在 raw achieving high success rate 后来我又做了更好的工艺其实也不一定非要需要每一个学这么多 network 但是你如果想加别的 feature 我觉得这个 framework 还是挺好用的
对就刚刚提到就是这个可能他学一个技能的时候学不会了然后他就摔倒了摔倒了他得站起来然后自己再重新学就是一个这样的一个过程对像就是包括从 UAC 到 PC 就是都是用强化学习的方法来去学这套策略然后具体强化学习有很多就是这里面有不同的强化学习方法还是都用某一类都是用 VPU 嗯
都是用 PPO,因为怎么说呢其实在 character 的 mission 就是在动画动作基本上我觉得现在看的大部分还是在用 PPO 因为他很 robust 基本上从 Mujugo 到 Isaac Jim 不用换特别多的东西然后他很 scale,scalability 其实挺好的就是你可能有 2000 个 environment 他也可以学得很好你如果只有 32 个 environment 他也可以学得很好
所以这方面其实 PPO 的优势还是很明显的然后对然后他很通用所以也没有说再去去 explore 更新的我感觉需要 explore 更新的但是因为他太好用了然后现在其实很多 C2Rio 我可以说大部分也都是用 PPO
好的对那就再来到这个 pulse 它就是其实是一个通用的动作表示对吗对就是 amass 里面比如说它表示了一万条人的动作然后它有各种各样的人的动作我们叫 skills 就是它的这个技能吧然后 pulse 其实就是说我们学一个学一个这个动作表征就比如说
比如说这是所有人的啊就是呃呃人人类的这个身体上面的各种动作可以表征的动作然后这里面一个小圈一个一个大圈里面是啊人的所有动作然后但里面还有一个小圈就是类人的像人的一些动作
我就想把这个东西学出来,然后我就用 Amas,说我把 Amas 这个 dataset 把它里面所表示的就是里面含有的这些动作的这些 skills 做一个表征,让一个 latency 被这个影空间里面包含了去做 Amas dataset 里面所有动作的这些动作 skills
对其实 pose 最重要的是我想附用 PAC 里面学会的一些动作我想 PAC 我这些动作我已经全部学会了我为什么不能重新利用因为人就是这么做的那么我在解决新的问题的时候我想重新利用这些已经学会了的技能那么 pose 其实就是
可以说给人性机器人学一个很好用的技能库然后在有了这个技能库之后你有了新的任务我又可以用强奥学习让这个机器人说我就选这个用我要用这个技能我要用这个技能但是这个技能库我们又不能把它学成比如说像打游戏里面就是点按一个按钮它就可以动作做一个动作
我是希望它可以变得通用所以它要非常的 diverse 所以学了一个影空间就有点像现在 stable diffusionimage based model 里面他们都会用一个 vqvae 的影空间他们不是在 pixel space 做这个做这个生成他们在一个影空间里面然后这个影空间就包含了很多这个 natural image 的这个 statistics 那么其实在动作控制上面也是一样的我想学一个影空间就
包含了很多人类类人的动作的这些技能一个技能库我想把这个东西学会了然后如果把这个东西学会了之后我再学新的动作新的技能新的这些 task 的时候我就不需要重新学习了其实我觉得这个是一个可以说机器人控制一直到目前都还没有完全被解决的一个问题因为基本上就连我现在训练新的控制器也基本上都是从头开始
就是如何我已经学会的东西我重复利用这件事情依然没有完全被解决 Pulse 可以说是在这个方面想做出一些努力我觉得并不一定是非要用 Pulse 但我觉得这个 idea 就是要学一个影空间这件事情
其实 Mask Mimic 也是这一方面的当然 Mask Mimic 没有 To Real 但是学影空间这件事情我觉得是非常有必要这样可以做到技能复用然后在真实世界机器人里面我相信在接下来几个月现在已经开始陆陆续续的会有一些出来了因为我觉得它这个是非常有意义的一件事情和有意义的
可以可以可以让大家的生活啊大家呃大家各位博士硕士生们教育做科研的人生活变得更美好的一件事情因为有了他之后你就不需要每天去调这个去调这个 controller 你可以可以做一些 high level 的事情我
我觉得这就是 behavior foundation model 的意义吧就是你对于每一个动作每一个 task 再去从头开始学这件事情其实就是非常浪费时间浪费精力的一件事情我们真正想要解决的问题特别是做科研的话我们真正想要解决的是怎么样去跟大脑这些然后去做有意义的事情近一两年的一些工作比如说有一个这个 grasping diverse objects 就是
这可能就涉及到一些人型的一些操作的工作了对吧还有一些嗯更更新的一些工作就是刚才您也提到就是可能会往啊人型的操作这个方向上面去做一些探索但我其实觉得现在可能大多数人型机器人真机的工作还是更多的是全身运控对吧就是操作上面的还没有那么多那像现阶段就是这个呃研究方向的一些特色是什么样子的对啊
我觉得在仿真里面可以做很多了我也经常鼓励比我小一些小几个学生去如果没有真机的话多做一些仿真因为我觉得仿真里面其实可以做到很多很有意义的探索然后在仿真里面可以无限逼近真机的机器人
就像您刚刚提到 Omnigraph, Grasping Object 然后现在我最新做的 PDC 就是 Emergent Vision Perception 这两篇都是用的 Pulse 它都是用 Pulse 学的影空间然后有了影空间之后我就去学更难一些的这些工作一个难一些比如说抓取抓取了之后放下就是这些动作
然后这两篇工作的区别第一个就是 omni grasp 就是 grasp diverse object 就是去年的这篇工作呢是用的 simulation 里面 magic 就是 magic vision 就是我让这个控制器随时都知道这个物体在哪里就是在每一帧的时候我都告诉他这个物体的 3D 空间它在哪里因为我是在虚拟在物理引擎里面所以我随时都会知道这个物体在哪里
但是呢然后在这里面就是做到了基本上所有的物体都可以抓起来但是呢现实世界不是这样现实世界的机器人都是 computer vision 都是用 camera 所以我的 follow up 叫 PTCPerceptive Dexterous Control 就是说人
是用 vision 就是他是用眼睛看的那么我们就不希望给这个 paw 这个 controller 这个控制器这个物体在哪里我就希望他从从视觉的方式去啊去去去找到这个物体然后把它抓起来啊这个也也算做回老本行吧我毕竟是从一个啊计算机视觉实验室出来的啊就是在毕业之前最后做一篇文章综于又又做回来一点带一点视觉的东西啊
对,但是我就觉得这件事情在真实的人形机器人上面还比较困难因为我们这个也不是遥操作我们这个是 fully autonomous 然后也可以抓将近各种各样的物体然后都是通过纯视觉的方式去做这件事情这个可能先我觉得是需要在 simulation 里面先探索一下然后很快我猜就会有人把这个东西做 sim to real
对然后 to real 的话就是就是像刚刚说的 ho 可能更多的还是在全身运控然后这个就是带抓取的这个 sim to real 的抓取的人形通过 RL 去控制这个东西我觉得大家肯定都还在探索
因为 sim2real 还是比较困难的一些大部分我看到的 sim2real 用 RL 的方式去学的要么是基本上都是机械币或者如果完全不用 sim2real 那就是摇操作的方式摇操作的方式其实已经做了不少了所以其实刚刚也提到了这个一个话题就是用强化学习来做 sim2real 对吧就是这件事情嗯
尤其是像强化学习我觉得在现在的这个操作这个方向上面对吧也是可能过往的两三年很多人都是模仿学习和摇操的这个拥护者包括现在很多基础模型
所谓的这个 foundation model 比如说派呀比如说国内的很多的这个创业公司他们推出来的这些 demo 他们都是通过这个模仿学习的这个思路来去做那像强化学习大家可能说到的这个问题就是他 seem to real 的这个 gap 很大呀然后之类之类一些问题那像这个这个罗博士还在尝试做这个强化学习在人行操作上面就是肯定是看到了他有一些潜力吗和更长远的他可以解决一些问题
就这里面背后的一些思考是什么样子的我觉得我们肯定都会需要我觉得摇操做的这个优势就是他在真实世界里面收集数据那么你收集的数据就是机器人做的这些数据我觉得这些都是不可替代的我觉得就算是强化学习
就算是想要学习那么他学出来的东西可能我觉得最后在 symmetrial 最后一步可能还是是希望通过一些真实的数据去让他去 close 这个 symmetrial gap 其实 ASAP 我们就是有在往这个方向做了就是在真实世界里面也收集一定的数据然后让这个机器人可以通过这些数据去 close 这个 symmetrial gap
然后我觉得强化学习有强化学习的这个他的读客的优势吧就强化学习 is the only way 我们可以 go beyond human capability
然后 pilot operation 就是摇操作这件事情其实已经是我们在已经在一个 reduce the human motionhuman capability 的因为摇操作毕竟你的力反馈要少一些其实在很精细的这些动作上面其实摇操作其实并不是最好的一个 solution 然后我们可以看到很多摇操作的动作的数字都会慢一些这也是因为摇操作你其实是用视觉去代替了触觉
那么有些可能更多的要需要触觉的一些动作更精细的一些动作其实遥操作就很难做到就可能是需要 learning in real world 或者 real world RL 或者在仿真里面把它认真的去学这么一件事情就比如说 sim to real 可以做到一个机器人去拧一个螺丝其实遥操作我感觉这件事情就比较困难了因为你可能就是
精度可能不是很够然后因为没有力反馈但是这些东西其实是 similar to real 其实可以解决然后 RL 更多的是可以探索一些遥迁都做不了的事情让它的变得更 general 然后可能可以 go beyond human capability 的所以我觉得这是让我非常 excited 通过 RL 的这种强化学习的方式去探索
人遥操作机器人做不了然后让机器人自己去学习然后我觉得自主学习这个啊就是挺挺是一个非常美好的梦想其实我在我在我的 thesis 在答辩的时候我又我画了一个画了一个图画了一个三维的图上面就是说 ok 我们我们想要达到的效果可能在这里但是我们真正做的可能还差得很远
真正做到的还差得很远我是希望叫什么接下来在业界能够真正的无限的去逼近我们想要达到的这种各种通用的这种能力比如说 PHC to realPDC to real 这些事情我觉得大家都是觉得我希望能看到人型机器人可以去做的这么一件事情
对就是都做真正做到人性基因人的通用控制可能都不是 OmniGraph 这些东西可能 PHC2.0 是第一步当然这些东西都是要看怎么样怎么样做是最合理的就是说对硬件这块
比如说接下来的很多的这个不管是 pc2real 还是这个 ptc2real 他都要 2real 一下然后像硬件这个刚刚您也提到就是说觉得现在硬件的发展可能已经已经还差不多了但是就是他可能还是会有一些问题就是你觉得他现在这个做的好与不好的点或者是未来在硬件层面怎么能够
加速整个这个就是 2real 的这个过程就是对硬件有什么样的一些建议我觉得对于硬件的发展我觉得也是非常发展的快对于我们来说对于我们这个行业来说这样就可以让我们更多的去做 behavior
而不是说就是天天想着怎么运控因为我觉得运控其他 animation 这些方法基本上已经盖棺定论也不是盖棺定论就是差不多我们差不多都是可以用的但是在 behavior 和这个怎么比如说跟 foundation model 去结合起来
这个方面其实特别是对于人形可能还差的挺远的对我们还有非常非常多的需要要去探索的怎么用怎么做需不需要比如说需不需要是 VLA 呢还是 RL 呢比如说在我的眼里可能 VA 我们还没有做得明白就是 Vision Action Model 可能不是 Vision Language Action 去 Evolve Language 现在可能从某种角度上可能还早了
然后再去怎么样去把这个 video model 的能力去引入过来然后 vision center real 怎么做 RL 的 real world learning 这些东西我都觉得是就是现在我们有真机了都是希望尽快可以开始去探索的一件事情然后在仿真里面同时仿真里面可能都不需要真机这些东西我们可以去拿一个 G1 的 embodyment 我们就把它放到仿真里面去
那我们就已经可以开始做一些 high level learning vision language action model training 就是各种各样这些都是已经可以开展的一些事情了所以可以做的题目真的是非常多只是做不做得出来的问题了
所以其实现在大多数的这个 PhD 们还是在运控这块花了很多的时间尤其是在硬件的这个调试上面所以其实硬件的这个发展会加速整个行业的这个 PhD 们的精力迁移到更重要的这个事情上面其实有了好的硬件真的是事半功倍的一件事情
所以说其实我们现在看到的很多的新的方法可能更多的是要归功于这些硬件的题目上