We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP04 RL+Control 如何将机器人可靠性逼进99.9x%

2024/12/9

ReSpark

AI Deep Dive AI Chapters Transcript

People

卢

卢宗青

朱

朱秋国

石

石冠亚

罗

罗剑岚

Topics

石冠亚：我认为机器人是一个系统工程，它由多个模块构成，就像大脑、小脑和肌肉一样。机器人可以作为研究的载体，进行各种研究，例如打造敏捷机器人、软体机器人或算法研究。我坚持在真实环境中进行学习，并利用真实数据和结构。虽然现在很多人认为data is all you need，但我仍然坚持要在真实环境中进行学习，因为我认为simulator本身就是一个非常非常难的问题。

Deep Dive

Chapters

本期节目探讨了强化学习和传统控制在提高机器人可靠性方面的应用。嘉宾们分享了各自在该领域的经验和见解，包括在浪潮来临之前就选择这个方向的原因，以及最近一段时间风口来了后的感受。

嘉宾们介绍了各自的研究领域和背景，包括强化学习、基于模型的控制以及两者融合。
嘉宾们分享了在选择机器人方向的历程中遇到的挑战和坚持的感受。
讨论了AI和机器人结合带来的机遇和挑战。

Shownotes Transcript

大家好欢迎来到 RaceSpark 我们的播客从原来的名字 Sota 改为 RaceSpark 访谈者也从学界拓展到了产业界 RaceSpark 是一档专注于对话那些推动 AI 与物理世界融合的创业者学者和投资人的访谈栏目这个栏目也是由几个对 AI 和硬件感兴趣的投资人伙伴共创的栏目非常期待 RaceSpark 后面的一系列访谈

那今天这期栏目呢是一个线上学术 panel 的直播录音节目的主题是探讨强化学习和传统控制的结合嘉宾包括 UC Berkeley 的何建兰博士北大的卢宗清老师 CMU 的石冠亚老师和浙大的朱秋果老师他们分别是强化学习和传统控制以及两者融合非常有代表性的学者这期线上 panel 干货满满相信你会和我一样有很多收获

我觉得就先请各位这个嘉宾做一个自我介绍我们可以先从这个罗健兰博士开始然后罗博士您可以先做一个自我介绍好谢谢那个建伟教授我是那个罗健兰我目前在 Berkeley 做 Postal 然后我之前也是 Berkeley PhD 毕业然后在 Google 工作了两三年然后回到了 Berkeley

我大概从 1516 年开始,那个时候还不叫巨神者,那时候叫 Robot Learning 机器人学习,从那个时候开始做这方面的工作,然后我主要工作是在 Manipulation 这一方面。好的,对,关于罗博士的这个工作,我们等一下可以也有这个更具体的问题来交流一下,那石老师您也可以做一个这个简单的自我介绍,包括您的主要的研究领域。

大家好,我现在是 CMU,就是凯奈基美隆机器人研究所的助理教授我是去年入职的,2023 年入职的,所以还是比较 junior

我 PhD 博士是在加州理工学院读的我其实就在加州理工学院的那个控制系就是 Control Dynamic System 有很多做控制的大佬 Richard Murray, John Doyle 这些我是 2017 年开始做 Control 加 Learning 因为那个时候很多做控制的人就想能不能加一些 Learning 的东西进来所以我是从那个时候开始就做二维加 Control 这个 topic 一直到现在可能有七八年了

对然后 PhD 之后我在那个华盛顿大学就 UW 做了一个 postdoc 做了一个一年的 postdoc 那时候就是跟的是那个 Baron Boots 做了很多的 borderline 的工作对然后 PhD 之前的话我是在清华做的本科对所以我对今天的这个 topic 非常感兴趣因为我自己也想这个问题想了可能快有 10 年了嗯就是从从从本科的时候就开始想这个所以非常开心的跟大家讨论一下

可能我等会会有很多很多那个呃暴论期待这个石老师等一下的这个暴论然后对卢老师也请您做一个这个自我介绍我的爱好线上的观众的爱好啊我主要我是北大计算机学院的主要是做强学习算法就是

17 年回国一直在做长期学习算法的研究最近的话也在做一些这个跟机器人相关的工作吧然后同时的话我也在也做一些跟大模型相关的研究主要 focus 在这个 Vision Tokenizer 以及 Interactive Learning 其他的一些方面吧好的谢谢陆老师然后朱老师也请您做一个这个自我介绍

好的各位老师还有现场嘉宾大家好我叫朱秋果我是浙江大学控制学院的同时也是云层数科技的创始人因为我自己的研究一直做人形机器人为主的人形跟事主早期的时候一直还是寄作一些偏传统的控制理论方法

那也是从 19 年开始开始跟国外的一些学者合作开始做一些 RAL 相关的一些研究那主要是这一块工作主要还是带着我们自己研究生自己课题组里面做一些这方面的一些拓展对

好的那谢谢各位老师的这个自我介绍啊就是我们反正今天的这个整个讨论的话题就是围绕着这个 RL 和 control 但是这个作为一个热身的一个话题就是我我觉得可以先这个简单聊一聊啊就是像很多人说这个 AI 和机器人结合大概是近一段时间遇到的一个最大的一个机会和一个浪潮那

各位老师其实也是在浪潮来临之前的 10 年甚至更长的时间可能有老师是 15 年甚至更久就在选择这个方向可否介绍一下之前大家自己做这个方向的一个选择是为什么包括最近一段时间风口来了自己感受是什么

以及就是我觉得可能在过往的某一些时候你们做这个方向应该也会遇到过一些这个周围的人都没有在坚持这个方向然后你们才一直坚持可能会有过一些这个感受可以介绍一下你们当时的这个感受吗我觉得可以请这个石老师先开始不然

哦我就快速说一下就包装隐喻一下对我觉得这个问题挺好的因为我感觉机器人他跟别的领域有很大的不同就是说他其实是一个系统工程他是一个系统之女人就是他有很多模块构成就是我们现在都说有什么大脑小脑对吧还有什么肌肉就大脑就指一些就是哈莱沃的算法然后小脑可能就指一些比如说全身控制后把你肯做的算法等等然后包括哈多尔这些就是我觉得呃

我以前跟我们学校就是开泰国读国的时候那个有老师叫 joe burdick 啊他是做机器人很厉害的一个教授做其他人做了 50 年了

他一直跟我说他有一个机器人的这个 wave 理论就是波浪理论他说每一次呃机器人就是上风口的时候都会有很多浪往前推但是他们没法就是推到一个呃 AGI 的那个 level 但是他会留下一些东西那这留下东西的话对机器人就会有一个很大的贡献然后下一波浪的时候他会沿着这些留下的东西再推一波新的浪潮就是我其实非常认同这个观点的就我我就说就是会就直接回答你的问题就是说我觉得

机器人最爱的一个我为什么喜欢机器人为什么做机器人做了这么多年我觉得它是一个载体它可以做你任何想做的研究就比如说如果你是想推到极限你要去打造 agility 比如说你要做一个跑步机器人你完全可以做或者你可以完全从材料科学的角度做软体机器人或者你可以做算法就我觉得它是一个

对然后你说有没有那个呃跟别人意见不一样坚持不下来的时候呃对我来说可能最大的就是说我其实还一直挺坚持就是呃 knapp like 不

不是 n 2 learning 这个观点的可能现在跟很多人的观点可能不太一样啊但是我觉得这也不是一个呃非主流观点很多很多人都觉得其实其实我们这个领域最大的两个争论最大一个争论就是呃是不是 data is all you need

对这个其实在去年的这个考试的时候有有一个 workshop 大家进行过这个辩论然后有一个当场的投票当时是 50 比 50 所以说我也不能说这是一个非主流观点对就我是提其实挺一直坚持我们要在 real 里面然后去做一些 learning 然后有一些这个 real 的 data 有些 structure 我觉得不能称之为一个冷门对但这确实是一个我的一个观点吧对好我就我就全当抛砖引玉让你们下位老师讲一下

好的然后朱老师您也是这个可能刚才说到十几年您可能将近 20 年对吗就是 15 年至少在这个领域一直在耕耘从最开始的这个双足人情到后面的这个四足等等就是您可以介绍一下这个一路以来坚持的这些感受吧

我一直做人形,其實四足機器人對我們來說是一個衍生的方向因為我們最早的時候,包括跟青華一起那個時候打 Lobocon 的比賽,那個人形的比賽所以那個時候其實就有一個預言,就是到 2050 年的時候

2050 年的时候我们要组建一支人型机器人的队伍最后能够打败人类人类的足球队所以那个时候想象一下这个时间是跨度非常的大的所以对我们来说做控制来说人型机器人本身就是一个很好的研究的平台因为它本身就不具备一个稳定性的能力那么怎么去控制它就是一个很有挑战的话题

然後也沒有相關的理論不像控制理論一樣有一個穩定的判決它沒有判決那怎麼去讓機器人所以我們當初想的首先是讓機器人能夠走出實驗室面向真實的這個世界能不能讓他去適應這種複雜的這種場景走向這一步之後後面就要考慮你怎麼能夠真正走向應用所以我們

从我个人来说我觉得首先还是还是对机器人本身一种热爱吧然后第二个就是说它在实现最终

这个应用的这个过程中他肯定要经历不同的阶段理论的不断的这个升级然后机器人性能本身的提升等等所以怎么能够因为我我们当初有一个 2010 年之前吧我们实验室我们导师我们楚建老师就我们熊老师就提了一个要求就能不能把机器人走向 10 万

就是实验室外面有个坡能不能走一走能不能走一下操场这个非常容易现在看来非常容易的事情在那个时候简直是太难了很难很难所以光是走完这一步其实我现在发现都几乎走了十年的时间

所以它本身就是一个要长期坚持一个赛道或者一个方向所以要么放弃要么选择长期的坚持好的罗建兰博士您也可以介绍一下您在这个 RL 跟真机这一路以来对坚持下来的一些想法和感悟吧刚才关亚和朱老师都说的比较好接着就接着

其实我开始也是在 Berkeley 的 Controls 开始做控制,在上半我开始做 Robot 的时候,那个时候我第一个 project 就做的是 Multipleation,就是操控。因为 Berkeley 当时我们开始做的时候,15 16 年那个时候,出了第一篇这个 end to end 的这个 learning paper,guided policy search。

当时就看到了就是在就是说因为有控制就你得做 separation principle 你就是你首先有图像处理的话你这个你不太好你得首先估计状态然后但是当时那种方法就看起来这个比较新颖然后效果比较好

然后就开始试了上去然后到后面的话一路做下来因为 manipulation 就是说操控的话是很大的一个没有解决的在基人现在也没有完全解决的一个问题或者说我们做了很多努力但是效果都很有限的问题

然后从中也做了很多尝试,现在的话我是比较坚定的,就是说在真实世界里面做学习,做 learning 是解决 manipulation,最 general,最 scalable 的一种方法,然后这个我们等一下可以展开具体说一说。好的,对。

那我们等一下详细再聊一聊这个 RL 跟真机的这些故事那卢老师您之前是一直从事这个 RL 那也可以介绍一下现在跟这个机器人结合就是您的一些历程好我来说一下我这边的历程我可能跟其他三位老师不太一样的是我本人做强学习算法所以的话大部分停留在强学习

做实验大部分两块每个我们周口一个游戏比如说从最早的他水到各种游戏吧其实其实我们我们这边的话之前主要 focus 在游戏这一侧然后我们当然大模型出来之后做了很多的尝试就是把强化学习跟这个大模型结合在一起去做去年的话做了好多尝试包括通用计算机的控制等等一系列的工作吧其实是希望能看到一个

general agent 它能够控制各种各样的电脑上的 task 完成各种 task 后来发现的话其实尤其是大模型测吧还很难去完成这件事所以的话后面的我这边的观点应该是说 ok 即使是大模型它也需要跟环境的交互真实环境的交互

去跟真实的环境交互在这样得到的数据的情况下去更好的学习所以我跟刚才建然说的是意思是类似的就是我们真的需要跟物理环境交互在这样的数据下去学习可能才能 enable 更 general 的 intelligence 所以的话对于跟物理世界交互的一个载体的话自然而然的就是机器人

所以的话从今年开始我们会更多的 focus 在机器人测包括就是 local motion manipulation 以及在真实的数据下如何去学习更好的学习大模型尤其是对于视觉这个框因为对于现在大模型来讲的话就是对于视觉的理解的话还是非常差所以的话如何去更好的去理解这个物理世界通过视觉也好触觉也好是我们现在关心的点

好的那我接下来就进入一些更具体的一些问题和探讨吧就是我们可能先首先聊一聊这个 RL 和 control 对于这个 locomotion 因为目前感觉更多的话题其实还是在 locomotion 这个方面但是在其实在操作层面可能等一下罗伯是可以给我们展开 RL 对这个操作方面的一些目前最近的一些进展那

我想说在 RL 和 Control 对 locomotion 这一块其实很多也是分开的比如说有一些老师他们最开始就是用 Model-based control 在做 locomotion 现在可能很多的 RL 是做仿真然后在 Sim to Real 去做 locomotion 但石老师我其实前段时间有看您的一个 YouTube 的一个视频其实是介绍 RL 和 Control 的一个结合

包括在四足狗人形包括像有一个那个 any car 就是在车的这些控制上面其实都可以做一些结合包括您也提到了一些这个 learning dynamics from real world 包括像这个 enhancing MPC using learning 这些概念对这块可不可以给我们系统的介绍一下就是您过去的十年是如何把这个 RF control 做结合的

这个问题太大了,我可以先从一个小的角度切入一下首先我要说第一个我的观点就是一个暴乱我觉得 RO 它都不是一个方法,它是一个问题

就是就是 Rainfrozer 的定义就是我们有一个 MDP 然后还有 reward 有 dynamics 对吧然后你的目标是优化这个 reward 找到一个 policy 啊 control 其实是完全一样的

他的定义就是这样就是你有一个 dynamic system 然后你要设计一个 policy 去满足一些限制所以他们本来就是一个东西只不过呃你不能因为呃 Richard Bellman 发明了 SA S prime R 这套 language 然后那个呃 Pontryagin 发明了 XUC 这套 language 就是他们俩是不一样的对

对就因为他们俩是问题所以有很多算法你比如说二二二他非常非常短的他的算法就很不一样对吧你说就是刚才建明你提到的 sim2 real 二二二他是一种非常 specific 的方法就是我在我有一个 simulator 比如说 mojo 比如说 srgames 最主流的两个做 local motion 的然后我用 pp

对吧一种 on policy 的 policy gradient 的 method 去 train 一个 policy 然后我再把它将 real work 对吧这是一个非常非常 specific 的 2 o 的算法这跟建兰做的很多 real 2 o 是完全不一样的我觉得他们的差别比二欧可知差别还要大

对包括 control 也是这样就是 control 的话你不能说 NPC 对吧可能你可以做 NPC 对吧你可以做 PID 你可以做 Dapt Control 就他们的区别也很不一样对就是我的观点就是他们两个是两个问题就你可以说他们的视角不太一样这完全同意但是我觉得我们还是应该具体一下对吧你比如二的话我们到底是讨论的是 sim2real

model free reinforcement learning 还是说最近非常非常火的 learning world model 就是学一个世界模型对吧这种 model based reinforcement learning 对吧还是说在真实世界里面做 model free reinforcement learning 比如建兰最近很多很棒的工作就是在这个这个上面我觉得他们其实很不一样的包括还有 offline reinforcement 对吧你有很多就是 demonstration 你其实

不光可以做 invitational learning 你还可以做 offline RO 所以我觉得他们其实他们之间的区别比 RO 可能区别还要大这是我的第一个第一个观点第一个暴露就第二个呢我们就我们去讲 local motionlocal motion 最流行的 RO 是什么 sim-trial reinforcement learning 就是我再说一遍就是在 simulator 里面你用 PPO 或者其他的类似的算法去 train your policy 不是到 real world 里面我的第二个暴露就是我认为 sim-trial reinforcement learning 是一种 model based 的方法因为

你想一下他的他他他他还是怎么做首先你需要一个 model 你需要一个你比较信任的 model 比如 simulator 然后你在这个 simulator 里面出了一个 policy 然后你把它 boost 到 reward 里面但我就是我觉得他跟 model base control 有两个维度上是不一样就为什么他占有优势第一说第一点优势是二欧的优势最大优势在于在我在我在我认知里面就 simulator 二欧最大优势在于他离线的计算力是无穷的

就是他可以 offline 去从成百上千成万上千的就是 projecting 里面去学 policy 对吧你可以花很多时间去优化去找到这样一个 policy 那你想想 NPC 大部分 model based control 的方法原来是他所有的算力都是在线的对吧我要在线去知道这个机器人下一个月往哪走他没有离线的算力就我觉得这是第一个就是他俩主要的观点就是你这个计算的算力是发生在

offline 还是 online 就 offline 定义就是在机器人跑之前对吧然后 online 就是在机器人边跑边去算这个东西然后第二个我觉得 central 最大的优势相对于 control 就是他一定程度上绕开了 state estimation 的问题就传统 control 我们一般都是 separate principle 就你首先你比如说我要 npc 控制一个 humanoid 一个人性机器人

你首先大概率要去搞一个 state estimator 你要去估计这个机器人自身的速度然后脚速度等等这些物理量对这个一定程度上我其实觉得在 real world 里面 estimation 它也是一个跟 control 一样的稳定就说白了你要知道机器人的 state 你要知道机器人此时此刻在哪

在二二二他一定程度上把可以把东西绕开因为他其实学了一个他可以既学一个 policy 又学一个 aspects meter 比如说其实我们还要再 specific 一点 sim2ro 二二二最现在在 local 部分最成功最流行的一套逻辑叫什么叫 teacher student learning 就这个应该是从 eth2019 年那篇 sensor body paper 之后

大概有几千篇文章都是一样的逻辑一直到现在可能五年把这个推到顶峰这条逻辑就是 teacher student 什么意思呢首先你在 simulator 里面你 train 一个所谓的 teacher policy 这个 teacher policy 他是知道任何事情他知道这个 simulator 里面的所有信息你知道这个地面的各种情况你知道机器人的速度然后你知道就所有这些我们叫他 privileged state 然后这个 policy 当然也是没法直接 boost 到

征集上的因为在 river 里面你是没法去比如说你不知道地面的情况对吧你也不知道这个机器人的绝对的速度但是呢在 RO 的话你可以用了一个 policy 之后你可以把它蒸馏到就你可以把它 distill 到一个叫做 student policy 的东西里面

那 student policy 它的输入是你能观测到的信息的一个 history 就是一个过去的 n 部的一个 history 就这套方法现在已经非常成熟了就我认为二楼另外一个优势就是它因为有这种 teacher student 的这种框架它绕开了 did estimation 这个问题老远你不需要在 real world 里面有一个

有一个真实的 state 你可以直接用 history 的 proprioception 去做 control 对就是我觉得这两个是二维化的优势那 control 我认为也有两个这样的优势第一是根本是完全对我的

第一就是 control 我有 online computation 你想 simtural 它的问题是什么你在 sim 里面出了 policy online 你就固定住了就是你即便它再差它再蠢你也没办法去调整它除非你想你想你做 real you do real world 啊哦你基本上就是你会 suffer from simtural gap 就如果你有一个很差的 simulator 的话那么你可以你就会有一个很大的误差

但我觉得控制有一个很重要的思想就是你可以做一个类似于按 PC 的操作你可以边去运行这个机器人然后边去算对这是我觉得控制的第一个很大的优势然后第二个很大的优势就是我觉得它有很多很好的结构就它有很多很好的 structure 就大部分 RO 算法就是现在最流行的做的控制其实就一个就是 PPO 嘛所有人都用 PPO 因为它 unpolicy 对吧我们也不 care sample efficiency

他最后的 s m to performance 是比较好的并且他比较简单然后他没有任何的结构这就导致了他有的时候会可能会知道你不想要的状态对就比如说很很奇怪的步态对我觉得很出了一个好处就是你可以有这种很好的 structure 然后能够提高三盆 efficiency 对我差不多就说完了我总结一下首先我我给他就是二哦一定要 specify 我们指的是哪一种二哦

然后第二呢我就说一下 local motion 里面现在最流行的是一套特殊的 RO 的逻辑叫 Syntrural Model-free reinforcement learning 再具体一些就是 teacher-student 的框架然后 RO 的好处只有两个第一就是它 offline 有无穷的算力可以去算一个非常非常复杂的 policy

然后第二呢就是他可以绕开 sds mission 的问题然后 control 的好处我觉得对我的第一他有 online 的一个 computing 第二呢就是他有很好的一个 structure 然后我所有的 research 基本上很多 research 就是想要把这两个去做一个结合对就比如说

我用 control 的 safety 然后加到 ro 里面或者是我用 control 的好的 structure 去让他更 robust 就是类似的类似的逻辑就我我觉得我我跟刚才三位老师有一个点是我们好像所有人都是 on the same page 就是对最最有效的 learning 一定还是要在 real 的里面

我对现在 simulation 的进展其实没有那么 optimistic 因为我一直觉得 simulator 本身就是一个非常非常难的问题我们不能指望就是有一个 AGL level 的 simulator 去解决 physical 的问题一定要以某种方式在 real 里面去做 learning 对就是我只不过我的角度是 RO 加 control 去做 real 的 learning 可能接下来还有卢老师朱老师可能他的角度不一样

OK 我说的太多了但是大概就是我的可能一些观点吧好谢谢施老师我觉得可以推荐几个比如说像您在做 RL 跟 control 结合的一些工作因为我们其实今天的这个在线可能有很多学生就是可以让他们来去参考一下比如说有哪些工作可以让他们来看一下

好的,我觉得就两个吧,我就剩下两个第一个我做了很多,就是追求了很多人工智能的一些工作然后我觉得有一套逻辑我个人非常喜欢就是不要让 RO 去 N2N 的直接输出 Torque

就是我觉得我现在在我们我们现在是有很多 paper 其实就是用二维去输出比较高比如说比如说我要控制一个人对吧一个 cumanoid 我为什么要让二维去输出每个电机的扭矩呢对吧我可以让他输出一些更高层的信息比如说你可以让他输出这个 cum 就是 cum 就是几新的速度加速度等等

对这个我觉得是一个比较有意思的方向就是呃我有很多片可以搜一下那个可以搜这机器狗你其实可以其实可以直接用我实验室主页看一些视频的那个那个狗可以跳的那些其实都是这个逻辑做的第二个我我现在我可以给大家推荐的一系列我可就是有点有点 real to same 的味道就是我没有直接做 same to real 我是先做了一个 real to same 然后再 same to real

对我个人也比较看好这个方向就是我们不在一个 stationary 的 simulator 里面去做学习我去 real world 里面去拿个数据去提升这个 simulator 然后再去做学习啊

这个的话就是我觉得这个也比较好我们最近可能有一些这个 work 然后第三个最后就是 model based RL 就是如果翻译一些的话就是我们 learn 一个 word model 然后再用 MPC 去做控制对这个我们最近有好的文章比如说那个带 MPC 比较火现在大家都在玩因为它 code 比较简单就是我们做了很多这种 learn dynamics 就是在 real 里面把它动力学模型学出来然后用 sampling based MPC

去做 control 就是因为三分三三分的 B3PC 是一种最最灵活呃就是的 NPC 方法然后我们有就是安妮卡你刚才说到的也是这个逻辑就是我在 realreal 里面 learn 了一个很大的 dynast model 然后我用三分 B3PC 去做去做控制

对对对我觉得就三个吧就第一个就是 hierarchy code 的二欧和 control 就是 control low level 然后二欧是 high level 第二个就是 real to same 第三个就是这个一系列就是 learning world model 然后 sampling base npc 的工作

好的谢谢施老师那朱老师对我觉得您也是这个国内做控制也是非常强包括整个这个浙大的控制尤其是把控制用到关节机器人的这个领域经验非常丰富那我看到其实像朱老师的这个从这个产业化角度上云深处最近的一系列的工作包括四足狗那个马龙我觉得这个印象非常深刻还有像那个轮足机器人它的整个控制

可能很多现在也都是用 RL 那就是可否从朱老师的角度来去介绍一下比如说呃用呃传统的像 MPC 包括可能更早一些 ZMP 啊等等这些你们都用过到现在的 RL 这整个这个历程你自己感受是什么样子包括现在从产业到学术的结合你们是怎么去看这两个方法嗯对好因为我们早期的时候其实在机械口上也大量使用了基于 MPC 加 W 呃叫 WBC 的这样一些方法

这是早期做的很多工作但是从整个的效果来看确实还是采用 RIO 的方法会更好地能够展示出机器人全身的运动的这种能力

因为这里面当然是有不同的这个优点跟缺点了就是比如说你 NPC 为例我们在讲的这种 NPC 跟 WBC 我们认为是在 RIO 之前比较主流的两种方法那么因为它面向的这个机器人无论是人形还是四组机器人它的这个全身模型是非常复杂的

那么当你去求解它这种比较高维度的这样的一个追忧问题的时候呢它需要大量的计算同时要保证它再进行的那个实时性所以呢我们在用 NPC 的时候呢我们往往会把这个模型简化我们叫简化模型的常识域追忧化问题

那么在这里边的话呢你要建模比如说把它变成一个单钢体模型再复杂一点变成一个直线模型那么在这个基础上你通过预测来保证机器人的这个状态的那个轨迹的这个预测来保证机器人的这个稳定性但是做完这一步之后大家发现不行因为你这个

但这个简化的那个模型很难去真正反映出机器人本身的全身动力学的这样一种特点因此呢我们要进入第二阶段第二阶段叫做叫复杂模型的短时域的最优化问题那就是我们所谓的全身运动控制的那个 WBC

那么在这个地方的话呢我们就要建立机器人的全身动力学模型然后计算出他当前的一个最优控制来保证实行所以呢为什么叫 NPC 加 WBC 就是 WBC 用去补偿 NPC 原来这个简化模型的这个问题

那么这个工作其实也做了蛮多的工作做了蛮多的工作应该是也算是有比较好的效果但是整个的运动的这个灵活性其实还是蛮比较固定的蛮固定化这种灵活性其实我们做出来的效果很难跟波斯的动力那个阿特拉斯去对比

对对标就是这样的一种方法就阿特拉斯做的这种效果是其实表现出来是最好的那么但是他很好他好解释好编辑好解释所以像我们现在其实在很多的场景中使用的这个机器人的算法其实还是会基于这种传统 NPC 加 WPC 的这样一种方式因为他比较稳定可靠好解释好分析

好分析啊所以这是一种情况但是他也带来一些问题啊我们举一个例子啊比如说机器人是一个腿足机器人啊他是嗯离散呃落足点的这样一种离散运动的这样一种模式啊那么比如说他在跳跃过程中啊或者行走跑步过程中我们怎么能够保持他的这种连续跳跃的稳定性啊连续跳跃稳定性那么

如果是我们采用传统的方法的话呢它就会遇到几个问题比如说你怎么保证机器人在规定时间内能够接触到地面以及接触地面之后你怎么能够保证它的那个快速的响应等等这些问题那么如果说你还有传统的那种优化方法框架起坐的话呢比如说我们就把这个时间放到这个优化问题中去那么我们就会发现这个优化问题就会变得非常的复杂

而且现在绝大部分人在做这套方法的时候往往会忽略这个问题那么第二个问题就是说你的这种触觉的感知你怎么能够在 MPD 作用之前你能够发挥作用那有可能就是当你检测到这个信息之后你体现本身就已经摔倒了所以这些问题是我们在

用传统的模型控制方法的过程中会遇到的一些问题跟挑战一些东西你解决不了或者很难去解决那么 RAO 我觉得还是有它的最大的一个优势的刚才我们前面施老师也讲到的这些优点就不展开了我是觉得它本质问题它在控制领域里面似乎有点像镇定器我在跟环境交互接触的过程中我有这样一套

强化的一套模型能够保证机器人的一个稳定可靠所以我们在这个无论在现在发布的人形还是机器狗轮主三猫上其实我们使用的还是 Io 的这套方法那么在这里边的话呢无论是全身的动力学的这种全身的动力学的这种能力的发挥还是说全身的这种协调性其实都可以表现出非常的这种更高的灵活性

所以我们现在的一个主要的一个研究的一个重点其实事实上还是在这个 RAL 上但是是不是意味着就 model based 的就没有用了呢其实那也不是我在我们浙大这边做的研究我们带的研究生他们开始尝试采用在 RAL 的基础上采用一些 MPT 的一些思路或一些一些一些

设想然后再去做一些更有挑战的一些工作所以我是觉得有原来的 MPC 到这个 RL 现在又到了 MPC 加 RL 之间一种结合我是觉得这可能是在这个中间的一个摸索吧对对对我就讲这一点

不好意思对我后面有个问题是关于这个最终落地可靠性的这个问题就是后面我们也可以探讨一下像 RL control 最终他在机器人落地的时候对他的这个谁来兜底的问题那也请卢老师可能先介绍一下就是像您在这个强化学习领域是深耕很多年那现在把这个强化学习的这一套我印象上次您提到他有一套这个大学

大的这个框架用到人性机器人的控制上面就这个方面可不可以跟大家分享一下您目前的一些工作和一些这个经验积累这样好我先这个 echo 一下刚才冠亚说的说的问题吧首先就是 RL 的算法呢就是 I'm not afraid 的 RL 的话它其实跟 control 解决的问题是一样 s-math 是一样的问题只不过是不一样的解法

然后 OK 那么对于我来讲的话其实我一直在做 RL 然后对于机器人或者是人形机器人的这个解法的话我们可能更 focus 在一个跟大家不同的一个角度吧我们可能是希望能把这个尤其是从人的角度来看的话它可能更多的是一些

假设是一个分层的这样的框架的话在高层的话它可能更多的是一个姿态上面的一些控制或者是不能叫控制吧就是通过姿态然后下层比如说 low level 的这个策略然后去控制比如说对于人型机身的话就是控制电机或者是控制其他的一些控制量去完成这样的姿态所以的话我们更 focus 在跟

跟这个物理世界的交互上面那么交互的话其实我们都要有一些视觉的信息去融入那么人在控制的时候或者控制人在控制自己身体的时候可能是会融入很多的这个视觉的信息以及比如说触觉的信息等等各种从外部能感知到的这些信息吧

那么这块的话其实是我们比较 focus 的点就是对于一个人形机器人我怎么来跟物理世界来交互而且尤其是人形机器人的话我们就可以利用大量人的视频或者人的数据就是我说的数据指的是包括视频等等一些

互联网上我们能得到的数据那么如何基于这些数据去让机器人可以控制他自己的这个身体当然对于下层的这个策略的话其实不管是用比如说 PPO 在 Semulator 里面训练也好还说我用 MPC 的方法去解决或者是需要达到我上层给出的这样的一个目标那么我觉得这样的话

Sorry 这样的思路的话可能会更容易去形成一套系统更好的去解决这些问题对于你刚才提到的 locomotion 这块的话其实目前大部分的 locomotion 的话就光 locomotion 的话它其实就是

不管是从 RL 还是 MPC 的方法去解决它都是解决的同样的问题但是我觉得更重要的是如何去融入额外的模块去考虑这个物理世界中的一些信息另外的话就是真的对于物理世界中的一些信息的话 learning dynamics 可能是非常难的一件事包括比如说其他的学者说要构建这个 world model

那么真的在视觉层面以及触觉层面真的能构建一个完整的 simulator 或者 world model 的话我相信还是非常难的所以从我的角度来看的话还是 in the real world 去学习可能会更好一些对这是我的观点

好的谢谢罗老师对那呃刚才可能三个呃嘉宾的这个讨论更多局限聚聚焦在这个 locomotion 上面那我们接下来可能也想探讨一下这个在 manipulation 方面的 rl 和 control 那像罗杰兰博士就前一段时间就我们也交流了关于这个 rl 加真机然后呃

感觉在国内其实很多的这个学术圈包括产业圈也非常关注这个 hi sell 包括您的这一套这个 RL 加征记的一套方法对我们可以借这个机会也让这个罗建兰博士来介绍一下这七八年以来您的这一条这个路径对这个谢谢邀请然后大家刚才都说说 control 我也是 control 背景出身我现在不写 control paper 但是也受过这个完整的训练

我觉得控制是有效的,非常有效的,有效于它已经在我们生活的各个方面,汽车需要用控制,我们用 common filter 把人送上月球,就好像我们现在做商业职业不会再去引用牛顿三大定律一样,因为它已经在了,它确实是有效的。

然后我们具体把控制放到 robotic 的 contact 下来其实我们说的 multi-fault 是很多问题因为 robotic 对于亚根来说 robotic 是一个很大的一个系统你可以说车是一个 robotic 飞机是个 robotic 然后那个 robot 也是个 robotic 那 manipulation 也是 robotic 也是 robotic 所以它其实是一个很 multi-layered 的问题各个问题也不一样 model-based model-free 这些东西都是得扯开说的但总体来说我们说 robotic 大家可能具体来说三件事情第一个

一个是说在做 navigation 然后第二个在说 locomotion 跟在上面我们在做 locomotion 然后还有就是说 manipulation 然后我们讨论的方法论然后这些东西也好其实你要把它套在这三个不同的问题上这三个不同的 content 下其实 architect 它是真的在说不同的事情比如我们刚才关于提到就是

N2N,N2N 在这三个问题里面其实它的表述其实是不一样的比如说你要说 Navigation 做 N2N 的我不知道怎么做这个感觉是把整个地球 Map 一遍这个肯定不能这样做 Visual Foundation Model, 得到 Semantics 然后 Map its own, etc.Locomotion 这个是个很有意思的问题大家刚才一直在做 Simulator 然后 Etc 你说在 Simulator 里面做 N2N 大家 Actually means is Inverting the Physics

就是做物理把物理给给反过来因为你在 sample physics 然后其实在做 model based control 这个观点我其实这个很赞同只不过 simulator 给了你一个更好的计算功能那 simulator 没有给你 policy 你要 optimize the sitting on top of simulator 这个才会给你 policy 然后我们在说的 manipulation 这个其实又是一个

另外一个问题,什么是 manipulation 问题?Robotics 里面有一个很著名的悖论叫做 Moravei paradox,说的是什么?说的是 50 年的 AI 历史告诉我们对人简单的事情对人难的事情对机器很难,我们可以教会机器下围棋,

然后这个 reasoning 这个可能需要 little computation 就是 IBM 的生产 20 年前就可以下棋子把这个事情 AlphaGo 把技术给打白但对人看起来很简单的动作比如说把这个水杯拿起来把这个水瓶什么拿起来都这些很简单的动作对机器看起来却很难很难有很多解释有很多 argument 为什么这是

也说这是人类人类进化进化了几千亿年然后这个数字化之后的其他这些其实是我们有智能其实还是比较近的几千年还是比较近的一个事情所以你去得到这个 movement 会比你得到 reasoning 得到一个这个

reasoning intelligence 会难得多得多 anyway 这个就是 architecture 是 manipulation 要解决的核心的问题我们怎么样有一个机器有一个 robotics 有一个 robot 能够跟人一样去操控能够去和这个物理世界去交互并且可靠的然后去做的这些事情那在这个里面 end to end 也好或者怎么也好

他 actually 就是说和这前面两个有些不太同为什么 manipulationmanipulation 你说可能说的是经常的商品就是你有一个机器人前面有一个 workspace 有一个相对固定的一个 workspace 然后

不管是移动的机器人也好或者怎么样好我反正就是我肯定先把你 navigate 到一个什么地方通过 locomotion navigation 然后我有一个固定的 space 不管是在工厂里面好家庭也好什么也好你前面有一个比较 fine line size 的一个东西那在这里面做 N2Nyou really mean 就是说你在里面真实世界收集 data 也好什么也好 fit to this particular environmentbe robust to it

其实我不是特别容易进入这个 argument 到底是 N2N 还是 N2N 我可能比较关注到底这个问题怎么可以被解决是不是 N2N 其实我们可以想这样一件事情就 Jeffrey Clinton 在他 18 年的图灵奖 speak 上他说了这样一句话

他说最开始的语音系统你就想象一个 neural network 如果他进入了就是系统的一部分被一个 neural network 代替了他就像那个碳一感菌一样他慢慢的会把其他的子弹在进去然后开始 rotate 这个轮转起来接在对的他跟碳一感菌一样就会把系统其他的部分也都吃掉最后语文确定变得难

但尽管是这样的话我就说我的点在于就是说 manipulation 的话你 actually 是可以学到这样的一个 policy 就是 entrant 的好处是你没有中间这 intermediate 的 bias 然后你可以直接为你 optimize entrant 你这个 objective 而且 manipulation 其实提供了给你这样的一个环境这样一个 setup 去做在此你是 actually 被 offit 到比如说一个叫 relative fix 的这个这个 size 那么

我们再回来这个问题我们为什么要用 real world RL 就是我这个就抛开这些就是非常具体的 technique 这些 complexity 我们来想一个比较基本的问题刚好今天这个 offshore 的主题也是为什么要把机器人的我们怎么样把机器人的可靠性逼近到 99.9%100%那我们每一个问题我们可以想的是他为什么不是 100%

它不是 100%,那就表明我们依着我们的模型,我们的 mental model,我们 hand design 的东西,whatever 也好,和这个 environment 有一定的差距,有一定的 gap,那我只有把这个 gap 给它 mix 掉,我才可能到 100%,那怎么样?

在一个环境里面有 unknown 有不知道信息的时候我能去把这个 gap 给密切除了我去跟这个环境交互但具体的方法有很多种除了我要去跟这个环境去交互把我不知道的信息给拿回来然后上炮我再 optimize 除了这种方法之外没有任何其他的方法这是最 general 最 scalable 的方法

你可以说我可以 hand design,space matter,但是设计一些东西然后我有一些模型我就 fit 到一两个 particularly 的 task 我们今天有这种 specialized machine 它就专门做一件事情,它特别快然后它成功率是 100%但是如果我们有 1000 个任务,10000 个任务

一摔下来的话那你不可能每个都这样去做这样一件事情如果尤其是我们现在如果想要是一个 general purpose robotrobot with hand 去做这件事情的话那一定跟它具体细节不一样但它总体上基本逻辑是你 somehow 有一个就是一开始的一个设想一个 guess 然后再跟这个环境去交互把最后你不知道那一句 missing piece 给拿回来然后你 somehow 再说 open my question 那这个就是 reinforce learning precisely

definition of reinforcement learning 嗯,但具体怎么做我们我们有很多种做法的吧有人说有 model base RL 嗯有人说有 model 3 RL 这个我可能不会就是 particularly fail 1 or 2 他们有各有各的长处你一个 predict reward, you predict next step

有的 task 比如 predict next state dynamic state 是比较容易比较 feasible 你可以这样做但对有的 task 比如说一些很难模拟的物理 predict state 其实 predict next physical state 其实很难的一件事情很难 predict a record 那你可以 predict a reward 这些都是具体的比较具体的算法比较具体的这个做法我倒不会就是说

go inside 然后总结一下我所说的就是为什么要用 RIO 因为在真实世界里面去做这些 high performance manipulation 你要达到高考考询对每个环境所以 general scale 办法一定是 data driven learning 而且它不是一个被动的 data driven learning 就是说我去

收集一些离线的数据然后它自己的不是的就是我如果要到 100%那我一定要跟这个环境交互那么跟环境交互一定要用 R 这是一个比较基本的一个逻辑在这个里面然后还有一点为什么要用 R 我们没有用 control 在 manipulation 因为我们在今天这个其实一个很大的主题说 manipulation versus locomotion 这两个其实是一个比较 fundamentally different 的问题就是关于刚才一直在说 stay as measured

在 locomotion 里面 states measurement really means 就是说你自己的 states, your perceptive state 机器人的关节角度, any effect position, etc.把这个弄准了,我们 control 了,我们知道有 separation principle 然后我们有 Norminal model,我们做 NPC,做 planning, etc.做 online computation,我们有很多种数学工具来做这件事情就算是我们外界有这个不确定性比如说机器人踩到石子了

或者是路面打滑那更多的是 sensing 就是说这个不确定性对你机器人本体的相对于你机器人本体来说的话这个是相对是比较有限它是 bomb 我们有一个 whole subject 在 control 里面叫 lubang 控制 robust control 就是说如果我有我知道对我不确定有一个定量的这个建模那么我可以有一个 what's case bomb 然后只要我的不确定在这个里面我就我的设计出来控制机器对这个有效

但是这个问题就是说它不是你本体不确定,你本体一定是确定,本体是自己设计出来的,是 perfectly engineered deterministic system,让它往左往左,让它往右往右,100%,但是不确定性来自于外界的,外部世界的这个视觉也好,物理也好,触觉也好,这些东西没办法就是说 100%去建模,这个东西相对你的本体来说,这个是,

完全是 unbounded complexity 就是你可以去建模一部分你可以 go get some getting somewhere 就是有有 some mileage 但是 in the end i don't think we go far 所以这个也是我们为什么要用 rl 就是说在真实世界去交互的一个一个一个原因在这本质来说的话是这个是两个比较这个两个完全不同的问题然后我说的比较长我可能就先先停在这里

好的谢谢对就我其实也想说直接顺到下一个就是关于这个商用和这个机器人本身落地的可靠性的一个问题我们也其实可以从这个 manipulation 这个开始因为我觉得其实在 locomotion 上面其实虽然有不同的这个方法和路径但是它的共识程度还是比较高但是在 manipulation 这个方向上因为它的操作的任务的复杂度面临的环境的复杂度

到路线的选择上面其实是更多的所以其实也想再让这个罗健兰博士再跟我们来讲一讲比如说现在我自己脑子里面的这个路线一个是模仿学习家真机可能以这个为代表的比如说出来的一系列的比较好用的一些这个 policy 比如说 diffusion policy 或者是 aloha 这些

为代表的这个模仿学习的路线然后可能现在以这个像罗博士最近的一系列的工作 RL 加真机为代表的这个路线还有一个是可能之前我觉得一直来说我自己感受到的其实在学界还是比较低迷的一个是 RL 加上仿真在解决操作问题上面的一条路线可能还有一条就是说比如说他

把这个仿真去做一些优化比如说加一些可微的东西在里面可微分模拟可能通过这种方式来构建一个这个虚拟环境的一个世界模型那这可能又是另外一条路线就是可不可以让这个罗博士给我们整体介绍一下这几条路线就是从您的角度来说它有缺点然后为什么你会一直坚持 RL 加真机这条路线

好的我我也可以我也可以补充一下等会好的好的从一个不从一个不做卖的平身的角度对对我觉得那个分类非常准确非常专业我觉得差不多就是目前能 work 的所有的方法了对

对对对施老师您的这个关于这个 multiple 的补充是什么可以让这个萝卜式先稍微休息一下这样没有没有我不要直接将建兰先讲因为我不做 multiple 我是从旁观者的角度就是我

呃我就是就是我觉得呃我说实话我每次看美国是配我加的困惑就是呃我不知道他们跟别的方法区别是什么就是让妹妹给可以就像建兰说的麦拉皮尔是有一个这样的问题就是他其实我一直觉得我有个另外一个暴露我觉得彻底解决麦拉皮尔的事跟解决 AGI 没有区别因为

You want to manipulate anything 这个就等价于你理解的这个世界就是有时候我给大家举个简单的例子就是 open 这个词就开中文是开英文是 open 你说开瓶子开杯子开可乐开窗户开门它都是开但是它的动作是完全不一样的就是如果我有一个 policy 能解决 open anything 我觉得它跟 AGM 没有什么区别

首先我觉得看 metric-fittal 我个人很容易分不清楚到底是因为这个 task 他选的好还是因为这个方法本身有一些突破就是我建议了另外我觉得你刚才说的那几个分类我就非常赞同

就是我这里不会谈利弊,要建议来谈,但是我可以给大家讲一下,我觉得第一类是那个就是大力出奇迹的我 collect 很多 demonstration 然后我就上 limited learning,其实现在做 offline 都很少,大家一般都是直接 behind colony,这个代表的比如说你刚才说到的建民就 decision policy,LOHA 以及最近的 physical intelligence 他们的 PyZero 对吧

包括谷歌也在 skill mobile aloha 他们其实都是一个逻辑就是你 clic 很多 data 之后你直接 n2n 去做那个 emissional learning cloning 一般你会先去 pre train 一个 vrm 用一些就是没有 action 然后你再 fantuneblah blah blah 这些细节然后第二点就是 simtreealsimtreeal 其实还是有的

做的人确实少一些但是还是有我觉得还是挺有意思的最有名的应该是 2019 年 OpenAI 的 Syntrail 转模方你们应该记得那个东西那是 OpenAI 还曾经做了 Buzz 的时候的 demo 以及最近因为大家有新的项目叫

dextreme 他们就是在 XRGIM 里面做 large-scale simtrio 做了很多这个 trick 比如说你要改 simulator 你要做大量的 domination 等等我觉得还挺有意思的然后第三类就是有很多这种 fantune 的东西就是你在先 pre-tune 然后再 fantune 等等然后还有就是 real-world 的

这个我觉得我比较 impressive 的我就只知道那个建兰最近做了一些那个 work 可以挥鞭子那个反正一个那个就是比较难的还有第四个你没有提我可以加一下就是传统 control 就是传统 control 做 manipulation 其实还是有的虽然就是他加的问题是不太能泛化对吧就是你如果你如果设计一个转比的 policy 你可能只能转一种比

这个比的质量乘二长度乘二可能就转不了了但是还是有的比如说日本有个 lab 叫石川来的对吧他们在 15 年前呃就可以做到这个呃 delta robot 光速转比对吧这个这个石川这个

老爺爺一塊給大家講說你們這些鑽或者是丹麽鍋比一下還有就比如說 Chris Atkinson 就我們學校的一個很有名的機器人教授大白的那個機器人發明者他 35 年前也是 model based control 然後可以做機器人比如說 juggling 就是三個球然後這樣 juggling 中文 juggling 叫什麼呢?sorry 我忘了

就是就是玩三个球那个那个那个就是那种这个明白对对然后然后然后这是第四类然后第五类呢就是呃 model base 而我还是知道一些工作但觉得比较小众就是你 learn 一个

你那个 model 然后再去做 control 这个就像建兰说的难点是你不光要 predict 机器人的 stater 你还要 predict 这个 object 的 stater 然后就很难去做这个 modeling 对但是确实是有的工作虽然比较小众我知道可能呃像那个 caltech 有些组做这个然后 mit 有些人做这个他们特别喜欢用什么 particle dynamics 啊 blah blah blah 然后去去做这些东西就这五大类吧就是第一就是

就因为这是能能能上对他第二次的第三个就是处理是能控制没有能力第五就是猫的被撒肉你竟然可以脚下吹到我真的我是真的不知道吹到因为就像我说的我最大的困惑就是我不知道他们到底是因为他死个选的好还是因为

究竟是是个 ground breaking 对对好的压力给到了博士这边是这个我关于总结比较好他这个我也来发表一下这个暴露这个我觉得 lm 是 39 这个就跟他说的 manipulation 是十几万米里面可能七几万米的内这个毛贵发早这个 50 年前所有的东西就是说我们需要的这个 computation 就是如果我们要做 agi 的话我们要去 reverse engineer human intelligence 的话

这个要的 computation power 的话去做人类这些 movement 这个是 infinity 这个基本上 predict 正确因为可能从最近近 10 年的 deep learning 开始我们才慢慢开始知道我们可以 perceptive data 视觉信息人类是可以很高效的处理视觉信息的那没有视觉信息你机器人

看不见那做 manipulation 其实这个是不上谈密那我们就回到刚才关夏总结那个比如说他五个点里面 control 做 manipulation 他的问题是什么

我们其实一开始我们在 robotics 做成一个 discipline 的 emerging 的时候,我们是没有视觉的,我们基本上是 blind 的。那 control 它 by formulation 它的核心是 hjv equation,hjv equation 要求你的 input 是至少是 defensible,或 somehow smooth 的。

very large, smooth 但如果是 high dimensionalnon-smooth input perception 那这个为数在那然后一切全是有问题那这个 HAB 就会 break 那 control foundation 那就是任何任何场景下会有这个发生的情况那 control 的方法都几乎是比较比较失效那我们今天我们说的 manipulation 一定是有 perception 那他如果要用 perception

今天这个应该是没有任何争议了如果你要处理 perception 现在最好的方法是 learning 那如果有 perception 必须要用 learning 那么 manipulation 要用 perception 那 manipulation 必须要用 learning 但这并不是说 control 无效但你今天比如说你要问我这个场景 again robotic 是个很大的话题就是说在码头上面我有现在巨大的一个机器人我要搬箱搬货中里面四五个机器人一起协作把东西拿出来然后放上去又怎么样

我告诉你我们应该用 motion planning 这个我们不但要用最快最好的 motion 在线 motion planning 我们还要用 certificate 把这些所有的 motion 的 verify100%不然的话这个机器人撞到那个机器人这个机器人把人打到了这个是很那个事情但 again 在说 manipulation 的情况下我们说的是机器人然后有一个手前面有一个 work space 有些 object 需要 manipulate 它看起来 quasi-static 没有那么

那么那么好学的 dynamic 但如果问题是如果我们能够解决其中哪怕 5%或 10%的问题我们的机器人我们离我们机器人走进千家挖户的梦想都会往前跨很大一个机器人都会变得非常非常的这个这个有用然后第二点我们再说这个 simulation 的问题我觉得现在很大有一点就是说如果说我们做 learning based manipulation 这家的这个 sim 和 wisps 这这这这两块就是有一点就是

就是因为机器人现在没有被附属没有被附属就没有 Data 没有 Data 我们不能 Develop 更好的模型这个 Argument 在 Servere 所以谁也说服不了谁

那这里我想表达我的观点就是说在整个科学的历史上其实我们有很多种这样很多时候有这种情况比如说这个当然扯到哲学的稍微扯一点这个欧洲经历了一千年的这个教条主义宗教主义那笛卡站出来说的就是说我试过在那个结束了这一切然后打开了整个 modern science 就是我们要从一些最基本或者是

不说到公里吧就一直把这些东西从去捡到一些最本质的东西我们来来来来来思考这个来思考这个问题那大家说用 manipulation 核心的 argument 是我可以 manipulation 可以生成很多很多的 data 但它的困难的点在于就是你要如果是 simulation 说说你要用 simulation 的话就最困难的点就是说

他要去把 simulation 给做好做但我不是 simulation expert 我只能从这些比较基本的一些原理这些东西我来说这个事情做准那相当于去 simulate 整个宇宙你要把整个宇宙给仿生一点那我如果有 real data 的话我要去做的是做到一个机器人的大脑那宇宙是包含大脑的那一定建一个宇宙比建一个大脑难得多的多的多所以我们应该去建大脑这是我的

你要是可以给一个例子的话就比如说他一开始

一旦他的车跑起来之后现在特斯拉去年我看我昨天看这些数据他现在一年生产的这个数据真实数据是 500 亿里的一点他的问题不是说我有没有 data 他的问题是我这些 data 完全都存不下的他真的是这是真的就是他们现在没有没有硬盘没有 hard disk 去存这些 data500 亿英里各种 camera 上这个是每天是很大的一个数据量他的问题是 what do you do with this data

我们现在在想这些事情的时候总在想 simulator 能够生成 100 个 data 但是这个多数所以我们要 build better bettersimulator 这些多数 immediately cost 这不是问题本质是如果 5 年 10 年不说 10 年吧 5 年之后

我们真的机器人 learning based robot actually deploy in the world 二次层次传回来的 data 你完全都是那个是一个 whole new paradigm of science 我觉得你会更 excited 解决那个问题那个数据量你完全完全你都这个 handle 不了你可能不会再想 simulation 就是我觉得 simulation 非常有用

如果今天你要开一个自动价值公司然后你告诉我说我不去建 simulator 我觉得你应该 fuck it go home 为什么没有 simulator 你没有办法做 software integration 你整个这个这个 pipeline 什么你都没有你都没有办法用它也许作为一个 good initialization 对我们对我们其中有一些的这个比如说 pick and place 这些稍微简单一些 cause statickinematic 这些 manipulation 问题有用但是 manipulation 问题的核心在于

我第一我要处理视觉数第二我要处理非常复杂的物理比如说接触流体然后变形这些东西那与其去建构造一个宇宙你用真实的数据没有任何这样的概念

然后你再去考虑我怎么样用这些数据然后有更好的 policies 这个是比较我的一个比较核心的一个观点我可以稍微补充就是 30 秒就是我非常认同这个就是有另一个很常见的说法就是做 manipulation 包括人我们不需要 exact physics 我们只需要 intuitive physics

就就比如说你你你你你我们会叠衣服叠被子绝绝对不是因为你你会解那位 sox 方程或者会你会你会去解这个一个一个 fem 的问题就是有限人问题不是你端一杯水你也你也不会知道这个水的具体的动力学你有一个 intuitive physics

呃就就是这样的意思就是你 simulator 可能大部分时候都是个 overkill 就是你没有必要去 similarity 就是需要 similarity 就是这个 intuitive 的东西这也 back to local motion 为什么 local motion work 呢现在的框架 work 因为它基本上只只处理到了一类 simulation 就是钢体就是钢体动力学的问题就是多钢体动力学的问题它没有牵扯到特别多的呃就包括不限于就是流体啊就是 granular material 等等呃对

就是这是就是补充一下就对现在你可以继续对说到 intuitive physics 就是其实 manipulation 里面其实很难的问题你换个角度上来想的话它其实是在一个比较低的一个 manifold 存在就是我们不需要解这些物理方程比如说很多 dynamic manipulation 你就这这些东西就看起来

那是非常复杂的,比如说鞭子、灰金、金膜这些,完全没有办法解这个物理方程,因为这是什么,我不知道,非常复杂的 PDE,它们本身都很难解,然后你在 PDE 的外面还有一个路,去做 Operation,然后你再去 Computer,去算这些东西,这个不是人来去做这件事情,大脑里面肯定不解 PDE,这个 I'm sure,

人其实就是说是 intuitive 这个一定是和环境交互得到的就是说你你是 reactive 或者是 work with look 就是你看这个东西在哪里你手伸过去或者 picking hole 那个孔在哪洞在哪 move towards goals 就这么简单你不需要知道这么复杂的 contact 这么复杂的物理 etc.甚至非常低尺度然后我们再回到这个 imitation learning 和 IL learning 其实我觉得这两个

其实不是一个特别互斥的一个问题就是 Imitation Learning 可以给你一个很好的 start 但如果你说要到 100%的成功率的话那一定是要用 RL 就是去和这个环境交互把最后那一点点的 performance 比如说 Imitation Learning 给了你 80%还剩下的 20%一定是你通过去跟这个环境交互然后把这 20%给那 Imitation Learning

他理论上他就打不了这个 regret 应该是我我记得这都 10 年前了这个 flag 可能是 cultured 然后 dagger 是 linear 但他 regret 不是 0 你要 optimal policy 的话呢一定是一定是 RL 去去和这个呃去和这个呃环境这个交互得到而且我们现在这些工作也看到就是说

大家有一定的点就是说流过来还会需要很多很多 data 那现在我们这个最新的结果是他其实只需要一到两个小时跟这个政治职业交往而且我相信这个未来也不需要一到两个小时因为他很多时候是在 figure out 一些非常基本的 manipulation 一旦我们有 pre-training 之后可能会持续 20 分钟然后我最后补充一点还是今天这个论坛这个题目就是说为什么

我们为什么需要就是说把它逼近到 99.9%为什么我觉得一个 reasonable 的问题去问就是我们为什么需要 99.9%我不知道大家知不知道就是说今天部署在世界的机器人可能有五百万台他们其中的 95%都是 position control 他们都是瞎的就是不让你就是

也不读 sensor feedback 也没有 compliance 也没有 impedance 他们就是固定从点 A 到点 B 到点 C 就是今天我们的汽车厂里面从 1961 年通用汽车那个叫 George 什么的发明了这个第一条生产线以来到现在我们 optimized 的一些东西但是 fundamentally 我们根本没有太多的

在这个不属的 500 万台机器人里面,你 actually useful,in order to be actually useful,actually useful of success is 100%,它都不是 99%,99%太低了,如果是 99%的话是 99%后面有 20 个 9,因为你每一次失败你都有 cost,就是在如果是生产线的话,cost 就是你整个生产线停下来,

直接反映你的 dollar amount 在减少,就是在 recover cost。有人可能会说,那你说的是工业机器人,你说的是这些东西需要 100%,我的家庭机器人我不需要 100%,它只要 70%、80%就可以了。我也想过这个问题,我可以给一个很生动的例子,我昨天和一个机器人互动了一次,我去 Berkeley 的

体育馆打球他们有一个机器人是我叫他机器人他们就是自动售卖机卖水的卖水就是你信用卡他贴上去他把水平给你拿出来了我每次都去可能过去一个月每次都去但昨天去了那一次我把卡贴上去了他水平弄这样从这口出来吗他没有出来掉下去了然后但是

我也没办法把这个水拿出来所以那个 cost 明码标价就是那瓶水 2 块 7 毛 5 美元不是没有 cost 都是有 cost 的那你现在想象一下星巴克咖啡的机器人每 5 个小时把你的咖啡给倒地上一次还有你家的机器人每一个星期把你家的厨房杯子盘子什么东西往地上摔一次

都是有 cost,就是因为这是在这个物理世界和物理世界交互而不是 LM,这个 LM 可以不准确。所以我倒不是说我们不去做这个 home robot,我们就是去搞 industry robot 或者什么,这个我觉得是在一个 semi-constrained 或是 constrained environment 里面,

这个可以让我们 develop solution 这个我们可以 discover new science 然后一旦我们去搞这个之后我们可能再会 scale up 到比如说 home robot whatever 他们那里面的数据数据还有隐私的问题对吧你也不想你家里面有个机器人在你看你睡觉然后干什么的时候都盯着你把数据传回去让他去训他的什么训练他的什么对所以我这个我觉得就是

这是我的一些基本观点我觉得未来就是说我们不会被 real world 就是我们现在在站的这个点是一个比较关键的一点我们这真的是第一次开始系统的全面的去思考一个比较坚定的解决方案对 robot 的解决方案那我觉得我们未来不会太担心数据的问题数据上炮我们会让这个费用给赚起来但一旦有了我们一旦有这个东西之后

怎么样思考这个就是有点久的问题那他一定是稍微的 RL 稍微 imitation learning 的结合这两个不是一个特别不次的一个关系但他点在一个一定量跟这个环境一定跟这个环境要要交它是一个动态可能它不是一个静态

好的谢谢罗博士对那卢宗庆老师我也想跟您交流一下就是说像您一直搞这个 RL 那像现在对于这个人型机器人的这个 RL 包括您刚才也提到引入这个物理的交互引入视觉的这个交互可以详细介绍一下这套方法吗或者是说您觉得像 RL 对于这个人型机器人的控制在可靠性方面就是未来它会一个什么样的一个迭代速度

OK 我先我先讨论一下这个刚才说的这种 multiple 以上上面的事情其实我刚才想加几句话主要就是今年我们也做了很多 manipulation 上面的事儿就是首先我们是 RL 就是就是 simulator 编辑训练其实我发现就是如果你把一个问题定义清楚定义好的话其实 RL 很容易去解决这个问题

当然如果我指的是这个手加了触觉的信息之后就是在 simulator 里边的这个手是有触觉但是这个在 simulator 里边训练 RL 的策略的话它其实解决不了实际的问题就是我们发现就是训练完了因为 simulator 里边的话大概率基于点运但是点运的话基本上很难犯的话就是真机上踩的点运跟 simulator 里边看到的点运完全不一样

所以的话 SIM to real 这个 gap 在我看来比较很难解决对但是这个工作的话有个启示其实给我们得到的一个比较重要的信息是说机器人如果有了触觉的信息的话他会更容易去完成这个 manipulation 的任务我相信也是比较 intuitive 的一个

一个 insight 吧因为其实对于盲人来讲的话他也可以做各种各样的 manipulation 的 task 但是我觉得就是对于 manipulation 的话就像刚才怪呀讲

它本来就是一个很大的问题其实对于一个特定的问题的话我们不管 simulator, sim2real 还说我们真机的 RL 都可以比较好的去解决一个特定的问题那么最关键的是这个方块性的问题就是我如何来得到一个比如说测试它可以完成各种各样的 manipulation 的任务那么这个是

在我看来是非常难的一个问题就是我如何去得到一个策略像人一样两只手对吧可以完成各种各样的任务根据视觉的输入触觉的信息本体的感知那么这个是一件很难的事而且对于这件事情的话其实我们很难有数据目前来看的话很难有数据来驱动这样的一个模型的学习

这个是比较关键的事情所以的话对于我们你刚才问到的人形机器人这块的话其实就是人人形机器人肯定有两两胳膊两只手那么我们对于这个问题的解决的话还是把它分成两步因为我们现在没有这个断道断的数据就是没有机器人上面采下来的数据或者没那么多吧所以的话我们是两步走就是我们前期的话会利用人的数据去生成这个这个人的比如说

Post 当然这个输入的话就是视觉的信息输出的话就是 Post 那么我们把它这一步叫做 Portraining 就是用大量的互联网上数量质量不高的这样的数据去训练这样一个模型去输出手的手部的姿态

然后的话可以根据一些真机的数据包括摇操踩的数据去做 Pulse Training 从而实现泛滑性当然我觉得这个是刚才关亚提到的四条技术路线之外另外一条可行的可以去尝试的技术路线这条技术路线的话主要 focus 在它的泛滑性上而不仅仅是对于一个 manipulation 如何去完成它的这样一个思路这其实我想

提到的一点关于建民你刚才具体的问题是哪个来着对具体的问题是人行机器人用 RL 来训人行机器人的话他离就是

刚才提到的 99%以上的这个可靠性对吧其实我觉得就一个可靠性那个问题我们可以聚焦在比如说人性机器人的控制上面对包括像等一下也可以问一下这个石冠亚老师就是我看你们组有一个这个 agile but safe 对对于像人性机器人来说

agile but safe 大概还有多远就是我就可以先请卢老师来介绍一下您怎么看人型机器人达到 99%以上的可靠性这个问题然后以及它未来是怎么样一个发展路径和周期我个人的观点就是如果人型机器人基于强化学习的控制方法的话不太能可能达到 99%点多的这个可靠性就是就像人一样人的话抓个东西可能抓个一万次也能掉一次吧

对所以的话其实我觉得还是很难的因为它不是一个工业机器人里面那样固定的一个场景我希望看到巨声的巨声或者巨声的应用吧引发的 AI 的应用它肯定是一个开放场景中的应用就像刚才建兰说的它不需要 99%的成功它可能 70% 80%就已经够了对于不同的场景上产品的话

有不一样的需求另外的话对于我们的这套技术方案的话它其实二要的话主要是满主要是为了完成上上面的或者是上层的这个模块给出来的这个指令吧或者是 pose 也好指令也好那么它其实主要是为了控制比如说电机也好或者其他的一些控制量所以它的完成度的话它其实

在我看来没有特别的重要反而是更上层的这些 Headed Policy 也好还是其他的这样的做法比如说自派生成的母亲他们如何去达到一个比较高的可靠性对因为下层的策略的话如果 RL 训练的话

它就是那样一个结果最好的情况下我找到一个最优的 ultimate policy 但是它的上限就是你给定的这个问题本身对吧至于如何给出这个问题可能是我们需要进一步考虑的

嗯好的对那像关于可靠性这块我也挺想听听朱老师的这个想法就是像呃您的这个机器人原生出的机器人不包括四组包括这个刚推出的这个山猫他们目标就是解决行业应用在行业用上面其实客户最关心的是可靠性的这个问题那您怎么看目前四组和四轮组的可靠性的问题以及你们在行业用部署给客户的这机器人上面用的是嗯

control 就是传统的控制多一点还是 RL 多一点以及您怎么看人型机器人的这个像现在四足的这个收敛的速度比如说像四足你们也大概做了有六七年的时间那我们现在看到四足可能比之前看到四足好很多刚才您也提到人型机器人在十年前走出实验室这件事情就很难

我们现在期待人性机器人可以稳定的去完成一些任务大概您怎么看这两个问题对关于可靠性的问题即使从学术界来说你的一个方法你说它是不是能够达到 99%或者 90%我是觉得很难去把这样的一个实验的概念移植到一个产业的产品中来的

我想这一点其他老师应该也认同因为我们在实验里面做的那个数据跟在实际应用中的这个可靠性的这个还是不太一样的因为在这个一个产品的可靠性来说往往我自己认为会分几个阶段包括我们在内部也在探讨的一个就是这个机器人本身硬件的一个可靠性的问题

我们经常会有一个概念叫无故上运行时间这是一个很好来评判机器人是否稳定可靠的一个主要的一个实践的一个字比如说我的运行的时间是打个比方我们的机器人要求在某一个巡检的场景中比如说在三个月的时间里面你不能出一次问题这个是客户产业对我们提出的一个要求比如说我们的电力巡检

那么在这个里面的话我们怎么去评判它的这种稳定可靠一个呢刚才我们几位老师也讲到了主要是什么呢有几个方面一个是硬件本身的问题就是硬件本身也有它的稳定可靠性的对一个机器人来说你链接的不同的链接的各种各样的关节你只要链接的复杂度越高那么它可能出概率的这个出问题的概率它可能就会越大

所以我们怎么能够让这么复杂的人形或者是读机器口能够在一个行业中能够长期保持稳定对硬件本身的提出了极高的要求所以我们其实在提高可靠性的问题上更多的第一步要优先解决的是系统本身可靠性的问题系统本身的问题包括你的机械结构包括你的电控系统包括你底层的软件系统你是不是能够长期保持你的稳定可靠

所以这个是一个很大的一个挑战那么到了第二步的话呢其实我们会更多关注软件算法层面的问题啊软件算法因为像比如说记传统的比如说记 model based 这样的一些方法其实我觉得从理论上来说啊让它正常的运行你只要代码不写错这个基本上不会有什么问题的啊但是呢你要结合其他的算法比如说我们在应用的过程中比如说你在机器人要在完成一个制度导航的过程中你要让机器人实现一个准确的一个定位哎

这个里面就提出了一个挑战因为你这个算法本身它可能就是基于这个贝耶斯算法基于概率的所以它本身算法理论上

它就有概率的因素在这里边同时它又要解决一个可能这个环境有变化动态变化或者说随着季节改变它的环境发生变化的情况下你的适应性的一个问题所以 Diab 可能要更多的解决一个软件算法层面它对可靠性的这样的一个评估所以从产品或者产业界来说它的可靠性跟我们刚才讲到的还是有点不太一样所以

对这是目前我们遇到的一个主要的一个问题那么另外刚才你讲到的那个关于这个氏族机器人用 RIO 还是用 Control 的这个问题我们现在刚才提到了更多的还是用 Control 的那个方法来做一些实际的一些运行的操作但是呢目前我们已经开始逐渐的尝试的尤其是面对 Locomotion 的这样的一个这样的一些

能力的提升我们怎么能够把用 RIO 的方法结合无论是传统的 SAM 还是说新型的这种 Position 加 Navigation 的这样一些方法也在做一些部署我们在今年年底的时候我们会尝试着在相对比较固定的环境中采用 RIO 的方法去适应应用场景中的

不同的地形我觉得这一部分工作是可以做的但是我们面临的一个主要的一个关键的挑战是说在这种场景中如果机器人出现问题如果机器人翻倒或者说出现一些其他的一些问题那我怎么能够确保机器人不要去破坏原来的这个场景

或者原有的这个环境不要把边上的瓶瓶罐罐给它破坏掉了那么在这种情况下怎么办我们想着可能还是要引入一些模仿学习或者规则的一些东西进去让机器人如果出现这种状态的时候怎么能够保证它不会产生额外的风险来确保机器人在场景中的一个应用的安全性

主要是这么一个这个点所以从刚才讲到的这个世足机器人做了那么多年从应用的角度来说走到今天为止我觉得从应用角度来说已经没有任何问题了本质上已经没有任何问题了以及从它的那个运动能力上来说虽然我们有的时候会展现一些机器人的极限的运动能力比如说从几米高的这个地方跳下来之间也能保持它的稳定性这些都没有什么问题但是从应用的角度来说其实它并不需要这么酷炫的动作

所以现在的这个 locomotion 的这个能力从我个人的一个观点来看它已经能够满足很多场景中运动的这个能力而且这个是没有任何问题那么刚才另外还讲到人形人形的话刚才陆老师讲的很对的其实它的关节复杂度更高我们这个主机器人就 12 个关节那人形机器人有几十个关节那我们在这个应用的过程中怎么能够保证机器人本身的这个稳定性其实有个很大的一个挑战

所以人型机器人其实是还需要更长的时间包括我跟很多人在讲这个问题大家有时候会很迫切的希望看到人型机器人在一个现实生活中能够应用起来但是我觉得它是一个循序渐进的过程我们首先要看这个人型机器人在什么场景中用起来比如说我们现在给到高校的老师技术科研

平台这个事情肯定没问题让他做一个站在咖啡机前面给大家倒一杯咖啡可能问题不大但是你要让他走进家庭走向工业真正去应用我是觉得这个路还会很长会是一个不断的持续的迭代的过程无论是硬件层面还是说我们的这刚才讲到的那个算法层面尤其是 manipulation 层面我觉得还是要用更长远的眼光去看待这个人性机器人应用的一个问题对的

好的谢谢朱老师对好那石老师刚才也提到这个像你们组里面有这个对四组是 agile but safe 但对人形的话我觉得现在可能先让他 agile 那 safe 可能也是一个更长远的一个目标吧那您怎么看待现在的这个人形机器人的从控制因为我看到你们其实有很多的这个包括 HRO OmniHRO 的这种

呃工作对你怎么看人性机器人的控制的这个迭代的速度对我们呃就是我们这个我们做的可能有一年半的 humanized simtrio 然后 npc 也做了然后二维也做了然后我其实对于人性机器人 safety 还是挺有感受的啊就刚才我非常认同刚才周老师的观点就特别是他对于这个判断就是

那些 task 现在我们目前能够看得到那些 task 可能还得等个很多年我可能再加几个第一就是说其实 safe 跟我们二二一样嘛就是他其实也是很广的概念就是这个也不能一概而论就 safe 有很多不同的维度就是

对比如举个例子就是最最底层的其实是硬件的这可靠性硬件的伪定性这其实也很重要你像有的人有比较相对来说比较极端的观点比如说 chris arkinson 就我们学校的一个教授他是那个超能路战队里面那个大白的那个机器人的作者吗那个电影机器人就是他做的基本上他的观点就是呃

土碑搞大白这种机器人就可以让他 c 是不可能的就是你要 save 就是就我们现在唯一的方法就是说让这个硬件本身就是 save 就是他无论他怎么倒他他他他他他怎么倒怎么都不会伤害你呃就把这是硬件的一种 save 对吧这个就是跟算法没有关系就是有点像那种

你结构上你设计上怎么有一些 compliance 对吧怎么有一些这个然后第二个就是 Safe 很多人也在聊其实 Safe 本身可能可能是一方面另一方面就是 Recovery 你的兜底就是你 feel safe 就是他他就我觉得这些机器人其实我感觉现在 Recovery 就是兜底这个可能比 Safe 本身还要难

其实我觉得很多应用比如说你们可能也看到了比如说 Boston Dynamics 跟现在的合作 Hundra 的合作然后 Agility 是美国的一个救生机技术公司它最有名的产品是 Digit 它跟亚马逊的仓储在合作包括 Figure 跟宝马在合作

其实我觉得他们其实机器人摔倒这个事情他们可能对他们的影响远远大于机器人摔倒之后爬不起来的影响所以我觉得他们现在的痛点是这个兜底就没有兜底是机器人摔倒之后不太容易爬起来像现在四足现在我们都有相对比较成熟的方案就首先四足本身就很稳定第二是即便他

稍微有有个裂切对吧稍微稍微倒了他其实能够很快的能够爬起来然后可能人生之前这个这个兜底也比较困难对这都是不同的维度啊然后另外就我觉得这个安全性这个东西呢就有句话就是人们抛开剂量谈毒性就是就是不合理对吧这个我觉得是类似的就是抛开这个泛化性抛开

呃抛开这个成本谈安全其实也不太合理就是这个 99%到底有多少 9 呢我觉得一方面当然是看这个任务是不是 safety critical 就是你说你啊你说那个 space space x 他呃他火箭回收的 safety 要求肯定跟那个其他的机器人不一样对吧呃第二呢就是我觉得泛化也很重要就是我非常认同刚才朱老师的判断就是像一些比较简单的他他不需要特别强的泛化性呃

呃比如说在户外走一走对吧就是走一走只做 locomotion 或者只做重复性的 task 比如你就给不停的给客人去端咖啡 that's it 这个我觉得呃现在的技术是比较能够期望有一个很可靠的呃一个系统的然后中间那一层呢就我把它称之为 2b 就是机器人 to business 就不去 2c 对吧之前有两个 base 的一个 2b 一个 2c2b 的话就是这些把机器用在工厂里面就是造造车呀什么种

whatever 这些类似的然后这些呢就是他需要一定的泛滑线他不需要那种特别特别强的泛滑线对吧就是你比如说你你如果宝马跟那个飞格的合作比如说那个机器人只需要不不不断的去把电池安装电池对吧可能就安装电池有 5 个步骤

可能有一点点有些要设置让三人体可能是棒的住的就是控制住的然后你可能有有限多个的那个车型对吧你比如说你装宝马七个车型八个车型 whatever 就这个我觉得也是在未来在短期的未来可以追求的方法这个安全性但是第三层就是如果你要问我什么时候我们能有一个把人机器人放在

放在千家万户里面就是他给我做很多不同的 task 我让他给我扫地让他给我看孩子对吧或者做饭然后每个我都都要要求百分之九成九九九五我觉得我们现在技术还没有达到这个对我觉得我们还有两到三个没有解决的问题对你哪怕是人我觉得也不太能够做到这个

然后你如果要问我希望的就是路线的话我觉得就是已经我们要我觉得我我觉得我不太相信能够 one shot save 就说你把这东西部署了就就完全就是百分之百 save 了我觉得你要在 real world 里面做一些这种 error correction 你可能刚部署的时候还是还是会出一些问题

我这个这个我指的是呃第三层就是机器人在 open world 里面怎么实现 save 我我们不知道几句方案就是我畅想里面的几句方案就是可能一开始的时候还是有的时候不 save 然后可能他会有一些 human in the loop 或者说人去帮他去有一些这种 labeling 等等等然后他最后能够 asymptotic 了的越来越好这是我觉得我们呢你看即便是 language model 也这样对吧你要不停的给他给

给他 prompt,你要不停地迭代,我觉得这是一个可能是我们现在能够需求的最好的。最后就是说 Safe 还有另一层,其实很多做 Safe 的人,包括我们那个 Azure 8 Safe 的 paper,其实它的 Safe 这个是比较 specific 的,就是一个可以 verify 的类似于 collection wall-based 的 Safe。

就这个这种 safety 我觉得我们现在是有是有工具的就是比如说你就让机器人不能撞到这个物体包括建兰刚才主的那个码头机器人不能互相碰撞就这个 safety 是那种你有一个 well defined 的 safety 就这个时候机器人比如说我们那个 paper agile 把 safety 为什么能做出来就我的 safety 就是指碰撞对吧

机器人什么的物体不能碰撞对吧这个 safety 你其实很容易对付所以我就很多呃 control theory 的工具可以拿过来用对吧比如 richability 等等但是我们刚才就是你刚才问的问题见面就是 human safety 我觉得这个很多时候没有一个这种能够 define 的 safety 你比如说呃

我们刚才聊了很多 manipulation 的例子开门那什么叫不 safe 呢对吧什么叫不 safe 的开门呢对吧我可以写一万个不同的 failure case 对吧就我觉得这个很难很难对翻对所以总结一下就是我觉得首先硬件的 safe 也很重要第二就是 feel safe 很重要就是 save 就失败之后能不能 recover 可能有的时候可能上比 save 更重要第三呢就是

这个政府一定要结合就是这个场景需要多多少繁华性来谈它是完全不需要还是需要一些还是需要很强的繁华性最后就是我们实验室做的我们科技组做的很多工作包括很多做控制做的工作它其实是一个比较 specific 的能够 define 的能够 verify 的 safety 比如说 collision values

呃或者就是机器人的那个碰撞对但是很多这个 manipulation 的 safety 他其实没办法去去去这么对范对明白对

好呀那我觉得就是我们可能主要的这个核心的话题就讨论这些然后也差不多一个半小时的时间那我接下来可能会想要请教几位老师一些稍微轻松一点的但是对于现在的这个学生来说比较重要的一些话题那就是到目前为止可能刚才探讨一些话题看各位老师还有没有什么补充我能不能问一下别的老师一个问题对两个问题

可以机会难得对嗯对我其实有个问题我我一直在想很久就是说呃就就特别是建南还有中青就是我觉得现在二二二算法本身的更新其实基本上已经停滞了就就我想讨论一下为什么现在基本上 sim2 二二二 PPO 就是 it's a go to option 然后比如说你做些 real 二二二基本上就是 scc 或者他的 follow up 就是 all policy 就是二二二算法本身还有没有 resist 空间

就是我一直觉得现在这些 RO 算法它其实并不是 static robot 它其实太 general 对吧就为什么我们 PPoG 可以做 language model 的 ROHF 又可以做 robot learning 这东西本身不就有点不合理吗就是包括对学生就是我们还要不要去做一些 RO algorithm 的 fundamental research 找一个就是特别适合 robotics 的 RO 算法对这是我特别想问的一个问题

看看罗老师对这个问题看看你们的想法我先来回复一下现在其实就像关牙刚才说的二二算法层面的研究的话其实不多就是从 PPO 到现在就是 RCC 之后就没有什么特别大的进展从我个人来看的话其实

RL 它就是一个 MDP 然后我们怎么来想一个方法来解决数学问题所以的话它本身就是一个 general 的 general 的 math method formulation 那么如何去解决的话可能就是从数学的角度来看的话它就是有一个比较好或者 in practice 比较好的一个解决的方解决的算法就是比如说 PPO

它可能就是 in practice 比较好的一个方法其实就是对吧 positive gradient 再加上这个 radio function 这样一个 actor critic 的 framework 然后对于机器人的话

有没有一个特殊的方法或者我们能不能给机器人 robot learning 设计一个好的强化学习的方法我觉得是可以从机器人学习的一些 characteristic 的角度出发然后去做一些设计我个人是觉得是可以的因为机器人的话它其实一些

constrime 吧跟我们通常研究算法时候的这些做的这些实验的 constrime 是不一样的所以的话如果我们把这些 constrime 考虑到算法的设计中的话我相信肯定会有一些 difference 就包括建兰做的这种这个 real world 的这个 RL 的话它其实也是肯定跟

以我的方法不一样对吧它既结合了 offline 的方法又结合了 online 的方法去做这样的 robot learning

对我觉得总而总结一下的话其实就是从强化学习算法的角度来讲的话就是我如果要得到一个特别好的通用的算法的话我觉得还是比较难的那么针对 robot learning 来讲的话我们能不能更好地去 customize 一个针对机器人学习的强化学习算法的话我觉得还是有很多空间我们可以去探索的

OK 这跟我说的非常好我补充一下

我觉得我我理解关亚的问题是更多在于就是说我们怎么样 make our great again 从现在 1718 年那个 1 万个人到 Nerds 去对啊对啊对那个时候那个时候就是基本上你去用就是继续的顶会可能 40%的文章都有 RO 这个 keyword 现在这个变成了比如 generative 啊 diffusion 啊然后 LM 对 RO 现在更多变成一个工具了就是我就在想为什么然后对为什么没有 robotics 对建栏技术

我我我我我可能 178 年的那个时候我就在说我们不要去搞米旧口这些东西因为他没有解决实际的问题我们当时呃就是问题是为什么就是 ppo 和 ssc 之后没有新的奥克森出来呃那那可能就是看一看 ppo 和 ssc 到底是怎么应用问题当时其实 ppo 和 ssc 他们是为了解决一个比较根本的问题就米旧口里面小人他跑不起来嗯就可能你们都也站不起来

那这个问题解决了,你就把本期码给打爆了,当然也没有新的算法出来。所以我更多想说我们要在那样的话,就是说我们一定要放很多人想到我们的 core problem 去 solve 的时候。就我们下如果真的有下一个 RL bitmark recession 有一个 grand challenge 的时候,我们先想想我们要解决什么样大的问题,

之前说他比特类型也好或者说密切给也好就是不要不要再去走走走饭之前就是做过那个路那具体再到这个问题上来说嗯我觉得二一的那些上去的在哪里还是分开来说吧 locomotion 和 locomotion 和这个 manipulation 刚才我觉得朱老师总结的很好就是说 locomotion 我觉得你应该用控制就是控制肯定发动死路选原因很简单

因为 LocalMotion 很好,什么东西好,你是有模型的,没有模型你的狗也造不出来。因为你有模型,所以你要有 Model-based Control,因为你 exactly 知道你的模型是什么。有了你的模型,你可以做 Model-based Control 的时候,你怎么样和 I/O 比较好的结合起来,这个 specifically 你肯定是在想着一些,就是说你有一些 specific metric 在考虑。

如果有 simulator 的话你肯定不怎么考虑 3 分 1 次线是一个无线因为他现在这么想卖显卡他可能也更不会考虑这个问题那就是你比如说你的 performance 或者 safety 或者他们俩更好怎么样有机的结合这个可能是一个比较比较我觉得是一个比较有意思的问题去解决就我所知现在好像

就算是 PPO teacher student 的这样的话 Syntra real gap 还在呢这个 RL 上把去刚才光亚不是说吗 RL 是 flexible 它可以做这个 css 也可以学 policy 就是一起就是说你如果真的是 control 的话你要是去 move physics 这是很难的一件事情但在 simulation 里面你基本上 free power sample physics 就是 move control, move physics at the same time

你怎么样用好这个这个 machinery 这个 mechanism 做一些你自己想的事情 manipulation 我 specifically 说一遍就是 manipulation 和 locomotion 相比 locomotion 和它更多的 process 这个 statemanipulation 你要处理 RGB input 处理 pixel 处理图像我觉得所以我现在还是一到两个小时的确定它但我觉得它不应该是一到两个小时

它还可以更被 further reduce 那如果让它 further reduce 的话就是说怎么样能够有一些基于视觉一些 general 圈的一些 general manipulation capability 那这个就可能让我们去 actually 回过头来想想我们应该去怎么样构造数据集怎么样构造 task 然后怎么样去 url 这个整个的这个实际然后你要再稍微再远一点可能五年之后我们有 100 万台机器人部署在真实世界不断的传回

manipulation data 的时候那那个时候我们的问题是这些数据全都是一个的 cadgenus and broad 我们怎么样做 pre-training 因为 RL pre-training 和 BC pre-training 还不一样这也是为什么 BC 加上 RL 其实没那么看起来的没那么区别因为 BC 的 training objective 是和 dataset close 是 maximize dataset log likable 对吧

RL 的 Pretending Objective 是 Mass Mass QMass Mass Body Function 是 actually go beyond dataset discover new behavior 那在这个情况下如果我们真的有很多很多 Ego 的数据大量的数据怎么样做 Pretending 然后 Fast Artification 我说的是在真的那种 Mass Scale 下这个可能是一个比较那个的重点那我觉得我可能个人的未来五年的 Research agenda 里面一定有这个那为了做这个我也不可能

就是说大家开发算法 open source 的话,我真的就每个都是在一万台机器人上去试,那会对它会有一个 simulator,但可能不是 physics 学的 simulator,比如说 generation AI diffusion 生成的 simulator,帮你验证算法,benchmark 弄一个这种的,这个 benchmark 帮你来开发这个更 scalable 的这个 RIO.对,然后

我总结一下,PPO 和 SAC 之后没有什么内容,PPO 和 SAC 解决问题已经把问题解决了,我们现在就要进行论语。如果我们想要去理解这个世界的话,光是 observation 是不够的,一定要通过 action。

RIL Reinforced Learning 就是它原则上它提供了这样一种 Framework 这样一种算法 Framework 如果它就来通知处理你的 S to A 那如果它 fundamentally 是没有问题就是 fundamentally 这个是上的那我们不能因为它就是现在就是说 somewhat 有一些困难就是说直接你没得到什么我们就直接就彻底把它放弃我们应该去 make it incrementally better

这样的话我们才能够朝着更高更好的目标去签名因为你想着 imitational learning 只告诉你 copy 它告诉你怎么做 prediction 它告诉你怎么样从数据里面找到特征这是 neodata 但是你如果想 99.99100 这个是 optimization

这个不是光靠比方的那奥特曼是光有的想要买的这些是不行的是于修正的这个比例上那么奥特曼类型的就是二所以在未来 16 选里面一定会有好的那我接下来我我觉得就是因为呃四位嘉宾也都是老师就我昨天其实在呃

回我自己的学校下大有一个机器人的一个活动就是有一位这个深圳科创学院的一个老师他们提到了一个点说要向各位机器人教育从业者致敬因为他当时其实说的是很多机器人教育的从业者培养学生去打 Robocon 打 Robomaster 然后这些比赛其实是现在国内

消费电子或者是机器人消费级机器人甚至可能有些工业级机器人的这个储备军就包括像大疆像云晶我当时还听了一个就是这个云晶的创始人他从初中开始就没有考过试一路是打机器人比赛保送到后院

就我觉得像现在我们从产品端来看其实做硬件做这个打比赛的这些人在国内是非常丰富的然后为什么我其实从去年开始就非常关注在做 Global Learning 这个群体因为我觉得这个群体是目前从国内的人才供给的角度上是最稀缺的所以我觉得

就我们今天这次论坛我也希望说有更多的这个现在在选择转业方向包括可能现在已经选择了做这个 robot learning 的那些 phd 啊等等或者硕士从他们的角度来说问一些问题从这个各位老师的这个建议来说啊就是我刚才也搜集到了一个这个观众的一个问题说

在做科研的这个过程中对就是如果遇到了一些困难各位老师他迷茫或者是这个迷茫期是如何调剂和解决的对这各位老师可以给一些意见我觉得可以先从朱老师来开始就是看对现在在做科研的这些学生们就你们

如何建议他们去调调整自己的这个迷茫的心态等的当然我觉得这可能是要很多科研方向的一些选择对包括自己去科研成果可能这个熬了很长时间出不来对这个问题我觉得比较轻松各位老师可以简单的给一些意见

迷茫期啊对会遇到这样的一个情况我们的学生也会遇到迷茫迷茫有几个方面的原因一方面可能是你自己选择的那个方向导师给你的方向跟你选择的自己想要做的方向可能不太一致

你可能觉得会很迷茫然后觉得不知道什么时候才能轮到自己做点想做的事情第二个呢就是可能是在研究的过程中可能是没有成果产出类似于这样的这种我觉得这个有点迷茫我觉得也是很正常我们也是从迷茫中过来的所以什么建议啊

我觉得也给不出太好的建议我觉得吉他老师来讲吧我觉得像我现在我自己有几个学生也会遇到因为我们原来用 model-based 的方法来做我们有几个学生因为我们其实基于 model-based 的方法在人形上其实我们做的并没有做完并没有做彻底但是现在这个 RL 人领这套方法进来之后其实我是觉得

那些原来那些方法其实我从我的角度来说我是觉得应该让他们赶紧去转型了所以他们在遇到迷茫的时候其实我从我的角度来说我其实会快速的让他们赶紧去适应现在整个的发展的一个主流一个趋势

因为毕竟都是做算法嘛都是做方法类的嘛那你不用去抱财守圈为了原来的那个方法去做让他们赶紧去做一些现在一些主流的一些方法所以他们也会觉得他们也会迷茫这种情况下他们也会迷茫他们觉得我原来做的工作是不是浪费了

然后那怎么去确保他们那我会跟他们说没关系你原来做的那工作也是作为硕士论文的一个部分因为你后面后续的这个新的算法的延伸是对你原来方法中存在一些还存在一些不足的一个新的一个拓展

然后让他们赶紧去突破自己就是赶紧去网上啊课程上去学习新的 RAL 的一些理论的方法让他们拥抱要有这种勇气去拥抱新的这种改变化让他们尽快的去投入到新的这种研究的这个主流的这个领域中来然后帮助他们去渡过这个难关

其实这个难关其实并不难其实你只要花三个月的时间最多也不会超过六个月的时间去适应它去学习它去改变自我其实它就能够突破对所以这是我自己的一个在带我自己学生的时候我自己的一些跟学生在

帮助他们去度过迷茫期的一些一些一些一些经历吧对那个卢老师呢对您的这个建议好你前面你问问了这个问题一点都不轻松对对对于学生来讲的话其实还蛮重要的一个问题吧

在我族里的话民房同学比较少但是其实我觉得大家对于学生来讲的话首先要把自己的目标定好

同时呢要把自己的目标跟自己的研究兴趣安在一起这是最重要的如果有了这两点的话就是持续的做下去肯定就会有这个结果这个是肯定的而且另外的话如果真的有大家有迷茫或者是心理上面有些波动的话其实我给大家的建议是就是人生是一个长跑目前才过了一两年或者几个月

这个还远远没有到需要你迷茫的时候好我我大概就是这些好的石老师您的建议是什么样子对这个问题很大然后呃我觉得首先这很正常就如果你觉得迷茫的话我觉得这很正证明你在进步对吧如果如果你的就比如你在读博或者读书的时候你觉得一帆风顺那要么证明你做的问题没有意义

要么就证明对吧要么就说明你是个天才那后续的几率一般是比较小的对吧啊特别是对于保瓦雷克星他这个系统吗啊所以我觉得很正常就首先你不要觉得就是一个嗯

特别这是你的问题对吧这是很正常然后第二呢我我就几个小的建议吧就第一就是我就是我就电就是 robotic 就是他会 overfitting 对对别的领域并不适用就是就是如果你要做机器人的话我几个建议第一就是我觉得要打好打好理论基础打好打好基础就我觉得 robot 是

如果你不打好基础你就会沉浸在很多视频里面就你你只知道他们的结果并不知道是什么东西驱动了这种结果就是莫西德林包括报导师大家都很喜欢 reinventing everything 对吧就是把一个东西很呃其实本质上是 a 但我把它叫成 b 或者 c 对吧这怎么解决这个问题呢你要打好你的数学基础打好你的算法基础你要知道这个东西它的本质是什么

他的原理是什么他为什么能 work 对他实际上在做一些什么事情对吧不要迷惑于他的视频或者 acronyme 对吧呃就是这是第一个就打好基础

然后第二呢就是打好基础的同时呢你也要拥抱硬件这机器人你最后还是要落地对吧就是我们永远不要轻视让一个东西 work 的难度一定要脚踏实地的去 close the loop 我特别喜欢 close loop 这个这话跟我学生就一定要 close loop 你只有是你的东西能够 make some new capability 能够在真实世界里面有点新的东西敌人才会去接受你我记说说一个这个这个 corner 跟 jami humble

聊了一句话给大家共鸣,Jemi 是那个马尔霍德学生就是他在 2019 年的那几篇 ETH 的三组 Boltzberg 还是一座因为那个年代他们都没有 SXGEM 他们自己用 C++写的 simulation 然后做 RO 就他跟我说呃就是给 PhD 最大的建议就是

humanized robotics phd 你就花一两年做一个最好的 demo 那所有人都会记住你的记住你的 research 对就是就是在机器人这个领域我们还是要拥抱硬件你还是要有一个能够秒杀别人的能力那大家自然会去了解你的这个算法

所以这两个冲突,理论和最后我觉得两个都要有这是我两个建议当然能够同时做两个的人很少但我觉得大家都应该往这个方向去努力然后第三个建议就是我觉得要争取做一个全站机器人研究者就全站,机器人各方面你都要稍微了解一些比如说 percentage 你要稍微懂一点 planning 你要稍微懂一点 control 你要稍微懂一些硬件你要稍微懂一些我不是说你的 research

要都做但是你你别的方方面面你最好稍微知道一些因为因为这个我觉得非常重要就是这个跟别的领域可能不太一样比如说你你做你做大模型其实你可能不太需要懂对吧硬件你也不太需要懂什么 perception 但我觉得机器人的话你要真的想想做一个顶级的机器人就指我觉得最好要全站的能力然后跨领域交流也很重要就比如我们今天就是二楼家 control 对吧

就我觉得机器人这个领域吧 95%的最好的 paper 都是把别的领域的 idea 借过来用在 robotics 里面就 work 得很好我觉得 95%的都是这样的所以说一定要有这种跨领域交流的能力对不一定是把别的领域的方法用过来可能是思想对吧包括二维码很多时候你是把码的思想拿过来

比如说我们刚才聊的很多这个 internet 的东西什么 Pi Zero 对吧 Mobile Aloha 就是 Policit 他们其实都用了一种策略叫 Action Truncating 就是我的这个 Policit 不是输出一步的 Action 是输出未来 N 步的然后再那这个思想就是 MPC 来的呀因为 MPC 的话你会每一步都去预测未来的很多 Action 然后你做 Receiving Horizon 对吧

就是你不一定你懂一些别的领域不一定说你要把 MPC 用过来你把它的核心思想拿过来用我觉得这个也是非常非常好的对总结一下第一打好基础不要被名字和视频困惑要理解它的逻辑第二就是一定要拥抱硬件搞最好的 demo 第三就是要做全战机前人工程师第四就是要跨领域跨学科交流好的谢谢苏老师那罗杰兰博士您的这个建议呢

也轮到我给别人建议了我昨天还在问我的老师要权利要 career advice 这个问题很好啊这个啊就大家另外三位老师都说的比较具体的我就说你 highlight 我哲学上的这个我昨天在和我昨天在和 Stephan Chow 聊天这个我问他我这个

他是我老师然后这个我经常问他这种这种我问他你觉得我接下来五年该干嘛这个他是我我跟他说了 12345678910 他都没他就说了一句话说丢上真一个发现的呃我觉得这个真的是很很重要的一件事情就是

我当然也明白如果迷茫可能想想迷茫的根本原因什么迷茫根本原因是你觉得自己做的现在做的不够好二你觉得别人做的比你好三你对未来感到担忧然后具体怎么做刚才关亚说的比较好比较执行的程度

作为一个机器人好的机器人的研究者我们要怎么样怎么样那如果是碰到这些问题的话我觉得可能我们当然当我平时在在在美国赌的可能那个环境可能稍微宽松一点就是也就算是就是你可能什么东西不 work 啊或者是这个犯什么样的错误啊什么样的这样的话这个容忍度都会高一点就是说也不一定要非要怎么样怎么样国内可能稍微嗯如果这个听众大部分是国内的同学的话可能国内稍微

这个竞争压力稍微大一点大家的压力可能也相对大这个我也是非常了解的可能就想想就是说这个因为很多东西 present 到你面前之后已经是被的 rap 了很多遍了就想想他不要想了在这个上面提高 50%就好像我今天告诉你的话你也不一定要听或者说不一定要全听一样因为这个会带有我很多的这个这个 bias 如果你要

超过我或者是怎么样换的那我告诉你东西如果他根本就是错的那你在我上面提高吧所以我们就是回到最第一性原理最基本的东西上去思考问题我又说迪卡尔说我是故我在就是唯一不可以被怀疑就是怀疑本身唯一不可以被怀疑就是我在思考这件事为什么因为我在怀疑本身就是思考那思考一定是不可以被怀疑

其他人给你输出的观点你都会去怀疑不管他是诺贝尔奖得主图林奖得主多大教授什么资深的院士啊这些你一定要有自己最根本最最最最

所以那样的这个这个这个事高再一个就是如果呃对未来感到担忧的话这么想吧那可能这个可能根本矛盾是你你有一个 exploitation 然后你觉得你你现在的 predict 的 exploitation 达不到你想要的那个 exploitation 那就这样想吧如果你的 exploitation 是得图灵奖的话那其实你得不得图灵奖说你现在做什么没有任何这个其实大部分是开运气所以就 enjoy the process 就是就去享受这个过程就好了

做自己最宽分的事情然后享受这个过程即使失败了你也是你去试过的这也能一个事情而不是跟着别人如果成功了当然这个非常好你自己坚持出来到路然后最后成功了我觉得这个 return 是巨大的这个 Jeffrey 能坚持了 30 年当然我们不是说每个人要去到

到那个极端我觉得如果迷茫的话可能大家不妨停下来举止去追下一个贝勒拉发下一篇 paper 然后你又要怎么样 5% 10%提高着这些不想想 Foremental 就是说这些最基本的东西然后从最基本的原理出发来就解决你现在可能长远再来看的话会轻松很多

好的谢谢各位嘉宾然后我们这个意犹未尽但是时间已经过去了两个小时然后我最后做一个这个 ending 就是刚才其实石老师和周老师都提到了这个硬件我其实现在就是自己我在英诺天使基金看这个机器人方向也看了有六七年的时间那英诺也是专注在投科技早期我们我自己现在一个感受是我特别希望两拨人的融合一拨人呢是那些打 RoboMasterRoboCon 的

擅长工程擅长硬件擅长系统的这些人他们对硬件是有热爱的然后另外一拨人呢我是希望那些能够发 Core RSS Icarus 这些鼎会的搞 Robo Learning 的人

去打一打 RoboMaster 这个比赛然后或者是以 advisor 的形式在某一些团队里面去给他们做一些这个融合和指导另外一方面呢我也非常希望说打 RoboMaster 的这些本科生或者硕士生他们可以去参加一些类似这样的鼎会最终大家一起交交朋友两个群体最终融合我觉得可能才最终会推动

通用机器人这个产品化的一个过程因为我自己在看很多创业公司的时候我会发现其实它都是两拨人我会觉得这个公司它缺少什么样的人另外一个公司又缺少另外一拨人如果这两拨人再结合一下然后后面如果比如说大模型没有这么热的时候可能在做大模型的这个人才再外溢一下我觉得可能那个时间点是通用机器人产品化和产业化真正到来的一个非常

好的一个时间点然后我也非常感谢各位这个嘉宾以及这个雷锋网的提供的这个平台那虽然还有一些观众的问题但是我感觉我们也没有时间问了然后希望各位嘉宾能够这个 enjoy 今天的这个 talk 我们后面也会编辑成播客和文字然后分享给更多的观众好谢谢大家

那我们就先下线了拜拜好拜拜再见再见拜拜拜拜学到学到很多学到很多谢谢大家谢谢谢谢嗯好谢谢各位老师嗯谢谢再见

EP04 RL+Control 如何将机器人可靠性逼进99.9x% 01:58:48 Share

ReSpark

Deep Dive

Shownotes Transcript

EP04 RL+Control 如何将机器人可靠性逼进99.9x%