We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP03 对话汶川、吕峻两位国内具身智能顶尖博士

EP03 对话汶川、吕峻两位国内具身智能顶尖博士

2024/10/28
logo of podcast ReSpark

ReSpark

AI Deep Dive AI Chapters Transcript
People
吕峻
汶川
Topics
汶川:我认为国内具身智能领域高质量的学术人才非常稀缺,这比机器人数据更难获取。虽然华人学者在国际上引领着AI Robotics的发展,但国内有经验的学者仍然不足。我在2020年访问贝尔实验室时,就预见到具身智能在科研领域的爆发。选择困难的道路更有助于研究和个人能力的提升。Mobile Loja的Demo对具身智能浪潮起到了推动作用。目前中美在robot learning领域存在差距,美国有先发优势和科研方向的马太效应,但随着国内优秀教授回国和新博士生加入,差距正在缩小。 吕峻:我观察到国内具身智能领域,传统控制学者和用AI解决机器人问题的学者之间存在代际差异。北美回来的老师将先进的研究理念带回国内,一些实验室不会与北美有严重差异。具身智能的爆发是因为大家在AI领域已经取得了一些成功,对AI更有信心。大家对AI的信心更高,认为基本感知问题已解决,可以开始做具身智能。我的导师受北美影响转向具身智能,但国内在2022年之前仍觉得具身智能冷门。整体上,大家投入方向研究的时间和精力与北美有时间差,但差距正在缩小。

Deep Dive

Chapters
吕峻博士和汶川博士分别介绍了自己的求学经历和研究方向。吕峻博士专注于基于仿真的机器人智能学习,目标是开发能在现实世界执行任务的机器人;汶川博士则专注于端到端的模仿学习,目标是提升具身智能系统的性能和鲁棒性。
  • 吕峻博士就读于上海交通大学,导师是卢策吾教授。
  • 汶川博士就读于清华大学,导师是高阳教授。
  • 吕峻博士的研究方向是基于仿真学习机器人智能。
  • 汶川博士的研究方向是端到端的模仿学习。

Shownotes Transcript

大家好 欢迎来到搜塔大家都知道巨神智能缺数据但在我看来国内的巨神智能更缺人才 AI 机器人人才的话题也是一直以来我想探讨的一个问题借着这期节目我非常荣幸地邀请了两位本土培养的 AI 机器人领域天花板级博士生来探讨他们的研究方向中美学术代际差异以及巨神大模型路径等问题

那我话不多说先请两位博士做一个自我介绍吧大家好我叫吕俊然后我目前是在上海江峰大学这边读博士然后我的导师是卢错武老师然后也是跟着我的导师一起吧可能从 2019 年到 2020 年开始一直都在做巨神智能这方面的相关研究然后我具体研究的内容呢可能我觉得跟

每一位机身智能从业者可能大家也比较相像就是希望这样的机器人可以在真实的物理世界中能够去完成各式各样的任务去解决一些人类可能在生产生活中所面临的问题那具体技术实际上来讲呢我是可能更多依托于仿真去做一些类似于 real to seem to real 这样的框架去学习一些机身智能投资的策略当然我觉得后面也可以更多详细的去再做交流啊

然后成果方面的话我之前是有发表过一些比如说 IJR 呀 RSS 这样的论文然后比较值得一提的是去年比较荣幸能够在 RSS 上拿到最佳系统论文奖的提名对我先介绍这些好的那温川博士您也可以做一个简单的自我介绍

大家好我叫温川我现在是清华大学调查信息研究院的博士生目前是博物我也是从 2019 年开始跟着高杨老师在做一些

关于巨神智能方面的研究主要的研究方向主要是关注于巨神智能的我主要是做端到端模仿学习的然后是关注于怎么样把不同来源的数据然后一起融合进我们的巨神智能的系统然后来提升我们巨神智能的一个任务的性能和一个它的鲁邦性然后来实现一个它高效并且安全的一个巨神智能系统然后除了

对我主要发表一些论文主要集中在早些年的时候我主要是发一些机器学习的会比如说 NurbsSML 和 Aclear 然后在近两年的话我逐渐的转向了投一些机器人的会比如说 RSSCoro 和 Coro 之类的这些会然后

然后在除了在清华的这个经历之外我还有幸能够在宾纳的 Dinesh J. Araman 老师的指导下然后做了一些和高杨老师一起指导我们做了一些关于安全性和因果性的一些研究然后从去年的

2023 年的 9 月到今年的 4 月我非常荣幸能够前往加州大学伯克利分校的 Peter Abbeo 老师组在他们组做一些关于机器人的 Foundation Model 方面的一些研究然后也是中稿了一篇 RSS 今年的一篇论文

我接下来一个问题其实是关于两位博士在这几年之间关于 AI Robotics 这个方向的一些观察和思考吧其实两位都是在四五年前开始博士的研究当时的选题包括像选导师方面你们当时有一些什么样的考虑包括现在的聚智智能大火

对你们来说是不是一个意外还是意料中的事其实对我来说选导师和选方向其实是分开两件事情我其实很早就进入到卢筹老师组里面去做科研实习了就大概在我大二的时候 2017 年就进去了但其实我的导师其实卢老师最早也是做视觉方向开始

然后慢慢去转向巨神智能这方面的研究然后我其实也差不多也是在后面决定继续留在交大深造然后去读博士学位的时候其实才决定完全去转向巨神智能这样一个方向那其实实话说今天巨神智能大火对我来说就是如果回忆到自己四五年前当时的那个

认知水平来讲其实也是有点意外的因为坦诚地讲最开始做决定说想要去搞就是当时不会说巨神智能会说 Robo Learning 这个方向其实是有一点小焦虑焦虑的地方在于当时的那个中国整个工业界的环境看下来我会觉得说其实中国的工业界不是特别需要一个研究机器人加 AI 方向的这样一个博士嘛但是我觉得也很惊喜和意外就是在

最近的一两年突然机神智能有了一个非常大的飞跃吧就非常多的人也开始关注到这里了然后就是突然会感觉自己从事的不再是一个比如说偏小众偏冷门的研究了然后可能自己的就是怎么说有相同研究性质的人也在不停的增多吧所以还是挺高兴的对

我其实也一样就是我在四五年前当时在决定就是继续读博深造的时候当时我本科在从 2018 年开始也是在做一些关于计算机视觉方面的研究当时在做一些 generative model 的研究

当时我是觉得金丹丽视觉这个领域有点太卷了二是大家做的东西可能就是你训一个模型然后你去看一下它的生成的效果怎么样或者你看人脸识别的准确率怎么样然后这个东西其实它不是一个系统方面的研究

但是当时比较机缘巧合我注意到高杨老师他马上要入职清华察院所以说我当时就跟高杨老师联系了一下然后他跟我讲了很多关于人工智能下一代的技术

一个愿景就是说我们之所以要研究人工智能肯定不只是想它以一个软件的形式呈现给大家而是说它要以一个能够在真实物理世界中能动能够帮助人类的一个形态来呈现给大家包括比如说像现在的人形机器人

然后从那个时候我就觉得这个其实我倒是没有特别焦虑就是工业界做的人比较少我当时反而是希望是做一些这种 outlier 的一些研究然后当时我就比较义无反顾的选择就跟着高杨老师做机器人方面的研究

然后在 2020 年当时比较有幸的是能够当时高老师还在 Peter Wills 读博然后我当时是在 Travis Darius 能够去访问了一下然后当时整个贝尔其实已经完全转向了机器人方面的研究所以说在那个时候我应该算是比较早的已经能够预见到未来

几年后可能居神智能至少在科研领域它会是有一个就是一个爆发的一个潜兆的一个印象因为不管是 PW 组还是 Sargeant Arvin 组包括那个时候从

Towers 和 Jayson 抓阻已经开始很多人就觉得要开始做机器人方向了所以说从那个时候当然我没有想到他这个时间能够这么快在四年内就能够包括在全世界包括在国内已经达到了一个顶峰也不是顶峰就是突然一个爆发的一个状态这个我是没有想到的

但是我觉得在选方向和选导师的时候我觉得那个时候的选择是非常正确的去选一个当时大家可能觉得非常困难的一条路也是对然后但是事实上越困难的路可能对于做研究和提升个人能力会有更大的一个帮助对

对温莎博士这边我也想就是再请教一下像四五年前比如说像您刚说到这个 Berkeley Bear 他们已经全部转向了这个机器人学习这个方向就是你的观察是他们在那个时间点为什么他们会就是导师们都转向像 Peter Bell 他是比较早去做这个机器人领域的这个研究算是鼻祖吧但是像比如说其他的老师

刚才您提到像这个乔斯费尔等等就是这些人就大家是有什么共识吗在那个时间点那个时候可能大家是觉得计算机视觉那个时候呃的计算机视觉其实从现在的眼光来看可能并发展的并没有那么的强但是那个时候大家可能已经觉得比较自信了他做一些比如 resnet 之类的或者 detection 已经做的非常的好了然后大家可能就已经开始去畅想下一代的呃视觉系统该

应用于什么东西上然后那个时候大家可能觉得做机器人这件事然后把这个你的视觉系统映射到你的动作空间上这个东西是一个有趣而且需要做科研空间的事然后包括从那个时代那个时候突然强化学习的一个理论的进展那个呃比如说呃

迪普曼的他们做 alpha go 之类的然后后来 peter 组做了 trpo ppo icc 这些呃比较看现在看上去呃非常 work 的那个那些强化学习算法让大家又觉得可能呃巨生的时代是真的要来了所以说很多的博士生至少是博士生很多人都决定要转向这个方向嗯

对然后那像从去年开始的就是产业界的这个巨神智能的火爆啊那当然像我们从投资侧的角度就是会感觉很多的创业公司出现也很多的学界的人去做创业这个相关的事情不管是中国还是北美但是在学术层面的话你们觉得就是这一两年会有什么事件

或者什么样的工作加速了 AI Robotics 这个方向的一些进展呢也请我问川博士先回答一下因为可能你之前有跨中美两地的这种比较密切的一些学术交流经验然后等一下李俊博士也可以讲讲你的一些看法好的我不知道我和李俊同学的观点一不一样我个人觉得一个比较明显的一个标志是 Mobile Loja 的 Demo

因为那个时候我正好在美国那个时候他们的 demo 一放出来然后突然就是可以看到推特然后包括中国这边的朋友圈还有那个微信的视频号突然一下就爆火了然后各种地方都在转他们的 demo 觉得机械臂真的能够叠被子能够去做饭炒菜这种非常 fancy 的这种 demo 我觉得这个对于这一波的巨神智能的一个浪潮来说是一个推动的作用

李俊博士您的看法呢对其实刚刚也说到说就是精神智能大火之前可能有一个焦虑是就是关于说可能这个行业目前发展的并不是很理想但其实当时选这个也是看重它的长期价值但其实在精神智能大火之后我同样有一个焦虑就也是建民提到的问题就是我其实很多时候也会特别困惑说精神智能可能从一个相对发展比较缓慢

或者关注相对比较少的阶段突然到今天就至少在国内的这个工业界或者商业角度大爆发其实很多时候对我来说也是一件不是很明确的事情然后从我的角度来看我觉得就我现在跟很多人交流下来我会倾向于认为说之所以大家会慢慢的对巨星智能这个投入一些比较强的信心主要还是在于大家在 AI 领域上已经取得了一些成功

而可能并不是巨神智能本身的成功就可能我们已经在自然语言或者视觉这样的模态的上面验证过 Skidding Law 了就有点像汶川刚刚讲过的就是可能从学术界或者从工业界大家来看来讲一些比较基本的感知问题可能认为已经有一些相对比较收敛出来的解了那可能会认为在这个基础上是一个能够开始去做巨神智能的一个时间点当然巨神智能这些年其实也有一些

比较有代表性的工作比如说一些像模仿学习、Decision Policy 再包含一些用单元模型加入到机器人高层决策这方面的工作但我个人还是比较倾向于更大的推动力在源于是不是人们对 AI 的信心可能更高一点对 但这个我不知道我的观点是否正确

对那就是说到像国内和北美这边关于 robot learning 这个领域的一些呃代际差异的话就是从学术圈就是我自己平时聊到的一些学者我我自己的一个感觉是我觉得像去年比较早期去年上半年跟国内一些做传统机器人控制的一些人交流的时候其实大他们还是以这个控制的这一套来做

但是到今年我觉得其实国内的很多的做机器人 robotics 或者是做相对来说机器学习 AI 这边的很多人他也交叉到了做 robot learning 那

那我不知道这个会不会是跟国内在巨神智能领域的这个热门会有一些的关系就这可能会加速国内的这个学术圈去往这个机器人和 AI 融合的这个方向去转像两位博士也都是在这个国内比较

前沿的做机器人学习的老师的组里面那也那就是两位的老师也都是从北美回来就你们观察国内现在在 AI Robotics 这个方向的学术研究和北美之间会有什么样的不同吗

我个人觉得首先对于巨神智能这个方向的研究上来讲就是传统大家做控制这一群就是学者或者研究人员他们其实跟最新一批用 AI 去解决机器人问题的我是认为中间是有一个代际的差异的当然有很多其实很多优秀的学校他们也是跨了两代技术

一直在做这方面的研究嘛然后从我的角度来看我觉得像比如说我的导师也包括可能汶川体感会更明显一点在清北那边现在其实有一大批从北美各种各样好的实验室里面回来的老师其实这些老师他们回来之后我认为整体上是也把北美这种比较好的研究方向比较先进的一些研究理念也带回来了嘛所以我觉得在这些实验室里面我一直觉得不会跟北美有特别严重的那种啊

差异吧然后但是可能这个目前还都是一些就是点嘛个别实验室能够达到这样的阶段可能整体上来讲我相信中美之间还是会有一定小小差异的存在的然后另外一点来讲就是我觉得也会

国内这边其实很多时候研究也会相对比北美有一点滞后性吧就像问川光也提到了就可能 2020 年到北美的时候会发现大家都在做机器人那其实我相信我的导师其实也非常因为他其实也是从北美那边飞飞祖国后回来的嘛其实也非常受到那边的影响其实我的导师在回国之后的第一时间可能已经觉得说聚能智能是以后更为长远的一个方向所以他也是用了非常多的时间去转向那个方向

但实话说至少在 2019 年在 2020 年甚至一直到 2022 年的那个档口上我在国内的体感上来讲我都觉得巨神智能在国内是一个非常冷门或者小众的学科更多人还是把精力扑在了比如说集团制视觉的感知或者一些数字人专员处理这样的方向上所以我觉得整体上就是大家投入一个时间投入一个方向研究上可能跟北美来讲也会有一个

小小的时间差会存在吧但是我觉得整体上各方面的差距啊包括这个时间差可能都是在缩小的一个状态那问川博士关于刚才说到的这个中美在 robot learning 这个领域的一些学术研究的一些差异您的看法是什么样子的嗯我的想看法和吕俊是一样的就是确实在中美之间的差异还是不能忽视的呃

包括就是美国他们那边会有一个先发优势他们在更早的时间就开始做了这方面的知识的和人才的储备然后巨声

在国内的话从我自己的感觉来说确实在几年前尤其我博士刚入学的时候是完全不会像现在这么强的一个关注度的所以说不过我在插院会稍微好一点插院有好几个老师都在做这个但是从整个国内的一个生态来说是比较的我们的一个方向而且还有一个问题就是说美国相较于中国这边他们还有一个优势是说他们在前期

这个有点像科研方向的一个马太效应就是他们在前期已经积累了足够多的在这个领域里面的一些名声之类的所以说他们为什么大家都会在说为什么伯克利的博士生都在做就是最前沿的东西不是因为他们总能抓住前沿而是因为他们做什么就被当做是前沿就是主要有一个这样的一个问题在

而且极权方向是一个比较小的圈子所以说

在这些因素的加成下,中美还是有一定的差距在的。但是随着现在越来越多国内的非常优秀的教授回国任教,还有一些越来越多的新的博士生开始做这个方向,我个人觉得目前两个国家这方面的研究的差距是在越来越小的。

对好的对我其实有一个就关于这个顶会 paper 的一个小小的问题啊就是因为其实看近几年的这个 quora 或者是尤其是 quora 和 rss 这两个顶会其实国内能够发这两个顶会的

组可能也就是这个这个卢老师组插院的几个老师的组包括北大的几个老师的组就是这些老师他基本上也都是从北美的这些做 robot learning 比较核心的这些更资深的一些导师的组回来的这个是有些什么传承的关系吗当然像今年的 RSS 我发现也有一些这个像浙大的有些这个可能跟北美的圈子没有那么紧密的一些

老师也发到了这个 RSS 包括后面未来如果预期的话是不是像这一类型的这个 Robot Learning 的顶柜也会有更多的这个本土的一些老师的工作可以发进去我觉得是的就是包括其实国内的科研就是主要是

就是进入的有点晚就包括机器学习和计算机视觉可以看到其实我们那个时候本科的时候就是国内很多大学想要发一篇 news 或者一篇 cjpr 其实是一件很困难的事但是你从现在的视角来看那一篇 news 和一篇 cjpr 在国内的很多就是比较好的大学可能并不是一件非常困难的事可能每年也能中很多这样的论文所以说我觉得

这个东西就是随着人才的储备和这些就是比较优秀的教授就是教育资源的这些储备有一些提升了之后是很容易就可以追赶上来的所以说未来可能 Coro 和 RSS 可能会有很多高质量的国内的人就关于说到这个

这个研究方向这块也想请教问川博士可否详细介绍一下就是您 PhD 期间的这些研究方向好的对我在整个博士期间就是如果就是关注过我的论文的发表的话其实主要的一个研究的脉络就是模仿学习就是说在呃

对于机器人操作来说有很多种方式然后我个人觉得模仿学习是一个最快速最简便的一种方式然后也是最能够去做符合 Scalen Law 的一种方式但是其中就是我的几个系列的论文分别是从不同的角度对 Imitation Learning 去做了一些研究首先我在博一到博二期间我主要是在 Imitation Learning 的鲁邦性和安全性的问题上做了一些研究

因为那个时候我们发现在你使用模仿学习去训练一个控制机器人或者控制机器狗或者自动驾驶车辆这种

任务上我们发现就是说毕竟 Invitation Learning 是一个统计绩学习的算法然后你去建模的其实是整个数据集里面的各种相关性但是而不是因果性然后如果你一旦就是丢失了这种因果性的定义的话你会受到各种各样奇怪的因素的干扰比如说会

受到一些持续的一些无关的相关性的干扰比如说又像很多人开车的时候你一直都扶着方向盘不动然后包括一些自动驾驶一些机械臂操作的时候它大多数时候动作是非常 smooth 变化的

然后这种情况下你寻找的 invitation policy 可能就会有那种 over smooth 的问题然后他在一些比较关键的地方就会做错比如说导致一些撞车呀或者该合夹爪去夹东西的时候他不合然后那个时候我是从一些机器学习理论的方向对这个 invitation learning 的算法去做了一些研究当时是

前两就博士的前两年是主要做这方面研究然后后来随着自建都学习的发展然后我们发现其实

你有很多无标签的数据比如说 EvadeNet 这类的这些的就是图像的数据你可以用来做自监督的训练然后这部分数据你怎么样把它能够非常好的利用进你的机器人的系统里面呢我们当时觉得这方面就是你去做自监督训练的时候你会学习到很多空间和几何的关系

这方面的现实知识然后这个东西其实本质上对于你做机器人的 high level planning 来说有非常大的帮助其实你做 planning 无非就是说把一些东西的摆放从某种关系去应试就移动到另一种关系上然后在博三那一年呢我是对空间关系感知这个方面制作了一个比较系统的研究怎么样去从你的自建度与训练的模型里面去提取关于机器人操作这方面的

比较重要的显现知识然后呢也是发表了一篇 Akaliar 的论文然后再到后来我们发现就是还有一个对于机器人系统来说我们一直没有利用好的一个一部分的数据就是互联网的视频数据因为视频里面包含了非常多的人类的行为的显现知识然后我们怎么样把这种人类的行为去映射到机械笔机械笔

一些币的行为呢然后当时正好我也是在 Peterville 组做访问的时候去做了关于 ATM 的这个论文我们就是说显示的从这些视频中去提取这种 motion 的信息这一种点的轨迹的预测的这种形式去把

视频里面的这种 motion 的现象知识去存储下来然后再把它映射到机械币的一个运动上然后我当时也是发表了一篇 RSS 的论文所以说总体来说呢我个人觉得就是我主要做的博士期间主要做的研究就是说怎么样更加鲁邦的

然后能以小样本的数据去实现机器人的操作然后想要实现这个能力的话我们就需要去从各种不同的来源去借鉴各种现象的知识同时在借鉴各种现象之时候也要去掉我们那种不想要的非因果性的知识然后去正合进我们的整个的巨神智能系统然后来实现最终的一个稳定鲁邦而且安全的一个机器人系统嗯对这块差一个问题是就是像在呃

我我现在粗暴的理解就比如说像居身智能的这个呃学习路线上有一有一条是这个模仿学习有一条是这个可能强化学习强化学习可能跟仿真的结合有点就是比较多一点就是从问川博士的角度来说你怎么看另外一条路线是这样的就是我

个人觉得两个路线都是最终的巨神智能系统最终形态里面都必不可少的就必不可少的两个模块如果我个人选择做模仿学习主要的一个原因是因为模仿学习是呃能够快速的去得到一个比较好的一个 policy 的一个方式然后强化学习和就是仿真器的那条路的话呢它需要非常多的专家的知识来设计仿真器和设计呃

就是 reverse function 但是就是我最开始早期做其实我们组也做很多强化学习的方面的研究呃对于我个人而言我之所以没有选强化学习那条路的主要的原因还是因为我个人觉得我更信奉就是

这条路就是因为我觉得就是人类从开始去学很多东西的时候都是父母言传身教给孩子的然后当然也是要做一些在真实世界里面的探索这也是我没有完全拒绝强化学习的这条路

包括我现在目前可能在做的一些项目也和条款学习是相关的只不过是我个人在前期早期的时候对于一个初级的 PhD 来说我可能做的方向就比较局限在 Incash 的而已但是我觉得两个方向都是非常重要的方向

吕俊博士也想请你介绍一下就是你博士期间整体的这个研究就比如说像这个 RSS2003 的那个 best paper finalist 这个也涉及到一些这个可微分物理引擎就是是不是你的一些工作也都要聚焦在这个仿真器对可以做一个系统介绍

是的,我的大量的科研工作其实都是围绕着 RSS2023 这一篇或者其实整体之间,我个人认为连贯性还是存在的当然我们在这之中 highlight 了可维生仿真引擎这个技术但实际上从背后更抽象层面来讲其实这个技术只是它的实现方式一种

然后我的整个学术生涯其实到目前为止是构建了一个可以说是巨神智能操作策略的一个开发的方式或者说是一个开发的系统我希望通过一个类似于 Rule to Sim to Rule 的框架去让巨神智能在一个陌生环境里面能够快速的学会一些策略具体而言首先需要有一个 Rule to Sim 的环节当它到了一个陌生环境之后可以使用深度学习

然后我们也尝试过一些比如说可维生渲染的基础去对环境进行一个建模那基于这个环境的建模可以使用比如说以优化为基础的这种可维生仿真引擎的方式去搜索操作策略我相信也可以去执行一些类似于 reinforcement learning 的方法

强化学习的方法去计算很多的操作策略最终在仿真器里面学习到的操作策略会被 transfer 到真实环境中去然后去保证在真实世界中的执行其实刚刚听问川介绍其实我觉得我也很认同其实不管是做这种 PAN-N2N 的模仿学习还是去做这种像我这样可能围绕着

仿真器的,然后可能偏模块化设计的,其实大家的出发点很多时候是一样的,就是出发点都是在于说今天可能巨神智能需要思考的一个问题,就是到底需要从什么样的信息源里面去学习巨神智能所需要的知识吗?所以在我的系统设计里面,其实 real-to-sim 是一个感知的环节,那我希望这个感知的环节能够被使用一些比较廉价的,比如说

这种静态的视觉数据去构造它能够帮助我们的系统去提取一些学习操作所需要的知识所需要的一些对环境的理解那同时仿真器在这里面发挥的一个作用就是去提供一些比较基本的物理知识比如说简单的牛顿三定律我不需要再通过从大量的学习中去从大量的数据中去学习这个

牛顿三定律这样简单的物理过程同时其实我们在最后真正应用到现实里去因为会有一个 Sympathetic Rule Gap 的存在还是会需要使用一定的真实机器人数据去保障一定的真实性包括我们在后续的研究过程中其实我们也会发现不管在仿真器里面你是使用强化学系也好还是使用可维生仿真引擎也好

会需要使用一定的奖励函数那这个为什么会需要使用奖励函数其实是感知然后物理仿真这些里面之外其实它不包含的一个信息是对于任务目标和任务逻辑的理解所以其实可能跟汶川的这个今年在 RSS 发表上的工作可能出发点是比较一致的我们之前也尝试过利用这种人类演示数据或者是人类的自然语言的语料去提供一些指导在仿真环境中去

指导这个机器人去学习各种各样的任务吧当然除了这个系统搭建之外呢我其实也有一直在尝试说怎么能够为巨神智能系统去增添一些可能相比于一般的理生智能系统来讲不太一样的能力比如说交互感知的能力就是希望巨神智能系统能够在交互的过程中去增强自己的感知的过程那同时我也探索了比如说主动感知这样的技术就帮助巨神智能在操作的过程中实现一个手眼协调的能力就是呃

相机视角可以实时的去做调整去辅助整个系统更好的观察环境

其实做这一系列工作的一个初心都是在于说可能今天巨神智能系统整体而言是比较缺少数据的所以我希望通过这种模块化的设计去在各种各样的模块上能够引入一些相对廉价的数据去保障巨神智能更低成本的去开发一些新的操作技巧当然也像温川一样其实可能作为博士生最开始精力比较有限最开始是尝试了这样一个设计

其实我们最近在推进的很多工作也开始去慢慢转向比如说只利用就是这种收集到的要操作收集到的数据然后去进行一些类似于模仿学习的过程但我整体而言也是认为这两个流程其实是不相排斥的最后一个比较理想的军事智能系统它一定是能够就是尽它所能的去利用所有一切能够利用的信息一切能够利用的数据那只有这样才会让

整个精神智能系统它的学习和部署的成本是相对低点相对能够更早的去达到那个大家所期望它所具备能力的那个点吧对

对好的我其实自己感觉就是比如说像仿真或者是 RL 这种训练的范式它有点像是人的一种本能的一些训练比如说像人一出生他就有重力的这个作用他就有能够感受到这摩擦力就这个东西是不需要去外部来教他本身他就知道但是对机器来说他不知道这种东西但是就通过这种

rl 这种强化学习的这种暴力再加上纺织里面无限的数据让他构建自己的本能但人的后天的学习他其实看到比如小孩子他看到大人那么怎么样去做一些惊奇动作就模仿学习好一点

其实如果说到人的话它其实一定是本能加后天融合起来所以两条路线现在看下来就是大家都在融合那其实这个其实还有两个问题一个问题是就是在你们自己的领域里面比如说像模仿学习

和这个仿真加强化学习就是在这个两个细分的赛道领域他们现在面临的这些挑战和比较前沿的学术研究需要突破的一些方向都是什么那还是吕俊博士开始可以先说说现在仿真面临的一些这个比较大的挑战以及大家想攻克的一些点

我觉得从我的角度来讲可能还是以我过去做过的工作为出发去谈吧首先我觉得 Rule to Sim 的这个模块整体上来讲还是一个其实感知为主的模块可能跟其实操作的学习并不是直接发生在这个过程里的所以这个环节其实虽然今天我们看到很多的视觉的基础模型在出现但是实际上我认为这还远远不够可能后面还是需要有更强大的就是一个对环境去感知的一个系统

当然这里面可能也有非常多可能值得思考的颠覆性的问题比如说我们到底是不是要以仿真作为一个学习的介质因为像建民刚刚也描述这个过程可能仿真很多时候是提供给大家一些比如说基本的对这个重力的认知但是也许现行的这种物理仿真也许并不是一个

最为理想最为完美的一个表征嘛其实整个 Rule to Sim to Rule 的一个框架实际上就是把真实世界中这种 unstructured 的这种 data 这种 sensory input 转换成一种相对结构化的表征基于结构化的表征再去进行学习嘛

然后据说在仿真里头去其实像我之前长期有使用这种可维生仿真引擎包括一般的仿真它一直都无法避免的一个问题就是仿真永远是不够真的尤其是可维生仿真引擎在做了非常多可维生设计的时候

它其实是丢失了非常多的这个真实性那我觉得从整个学术就是更大的范畴上来讲怎么推动仿真器更加的理真我觉得是一个非常重要然后也是非常需要功课的一个问题当然我觉得在使用仿真器的过程中我觉得我一直都有一个这样的观念就是我们永远要认识到

就是仿真器的这个真实性是永远都没有办法接近现实的因为比如说甚至我们现实生活中去丢一个东西要考虑到这个物体表面的这个非常细微的空气动力我觉得都会影响这个过程的最终的结果我相信就即便这个仿真器我们再有更长时间的发展都很难把这种

现实生活中这样非常混乱非常无序的物理过程都模拟的非常真实所以说其实还是回到我最开始想要表述的就是我为什么要做这样一个模块化的设计其实它的初衷并不是想只依赖仿真器去学会什么而是希望仿真器能够去低成本的去提供一些它所能够提供的价值所以除了让仿真器越来越真也有另外一个我觉得比较值得探索的问题就是是不是能够利用这些仿真器

里面不太真的一些数据再加上一些可能从真实世界中获取的或者是机器人数据或者是人类数据二种就起床补短共同去完成这样一个可以叫它易勾学习或者是这样一个就是

就是学习的过程吧对我也非常期待就是可用物理引擎这块的一些突破那我自己观察是从去年开始很多关于 rebo learning 方向的一些突破都是在模仿学习相关的一些这个算法也好或者是框架也好比如说像 diffusion policy 包括像这刚才说到这个 Aloha Mobile Aloha

对那像这个温昌博士就是您一直是在做这个模仿学习那你观察到模仿学现在它的突破以及未来需要进一步突破的点都会有哪些呢对我主要在模仿学习这方面我个人的一个经验来说是模仿学习本质上和现在的大圆模型非常的相似因为它的模型

主要的算法是其实是本质上是一样的都是说你人类的专家去说出来的话或者人类专家收集的数据然后你去做对你的分布去做几大自然估计但是这个东西本质上 LM 现在遇到的这些问题我们在做模仿学习的未来都会遇到比如说首先现在的 LM 会遇到的问题是什么

是它的数据量已经到了一个瓶颈 LM 可能没有办法再去做进一步的 scale up 了而巨神智能可能比 LM 来说就更加困难如果去想要收集数据的话我们想要去以更低的成本然后来收集更多的数据和仿真不一样的话仿真比如说你用 SXim 你可以去并行一万个甚至更多你有更强的算力可以并行更多的环境去以非常高效的方式去收集数据但是

模仿学习的话你就只能去把人去做并行你十个人去收集数据不够你再招一百个再招一万个这样的方式去积累数据但是这样的成本就会跟你招的人数和工作的时间会先行的增长这是一个问题包括如果能即便能达到现在大圆模型的这种的数据量级我们可以看到大圆模型仍然会已经到了一个数据的瓶颈的一个阶段了

然后所以说模仿学习在未来数据还是一个重中之重最重要的一个问题然后另外一个方面来说就是从原理上我们通过统计学习去来建模数据集里面的各种相关性然后来去学这种我们所谓的这种逻辑和推理还有我们所谓的因果性但实际上这个东西从理论上是不太对的

它与强化学习不一样的点是强化学习我给定了 reward function 你的优化的目标和我最终测试你的那个目标是一致的所以说你可以在这个过程而且你可以在环境里面去做随机的探索可以学习非常丰富的知识然后最终你学出来的我们可以保证它是一个因果性是正确的一个事情但是方方学习它是一个我们在一个离线的一个固定

我们叫 close set 的一个数据集里面我们去学各种各样的相关性但实际上这些相关性可能都是会欺骗大家的所以说从理论上来说模仿学习可能能够在一些简单的任务或者一些第一要求的一些任务上达到一个比较好的一个性能但是如果你真的想让他学到真正

我们想要的那个解 solution 的话你可能还是需要最终还是需要一些强化学习的算法然后来告诉他这个任务究竟是怎么样定义的然后你真正要达到什么样的一个能力然后他才能符合人类的一个要求符合商业化落地的一个要求然后最终还有一些点就比如说模仿学习还有一个很大的问题就是方法性的问题和一个鲁邦性安全性的一个问题只有在这些问题呃

都被很好的解决了之后模仿学习这一整套拍破烂才能够在商业里面去应用去运出来一个能够真正的我们所称为 general purpose robot 然后来为人类去做一些服务

但我自己观察到其实像北美在尤其是上周国内也有发一个就是在数据融合这块的一些工作像这个月吧 MIT 的 HPT 然后清华的这个 RDT

他们都是做一些数据融合用不同的这种框架有的是基于这个 transformer 再加上一个 diffusion policy 的 head 有的是基于这个 diffusion model 然后可能上面再加上一些什么这个 transformer 的一些框架就是把各种各样的数据丢进去那像未来这种范式是不是一个趋势呢就是把各种各样的无论是仿真还真实的还是什么样子人类视频的数据都放到一起来去训

你们怎么看这条路径这个东西我也没有一个特别明确的答案但是我个人觉得在因为我目前也是在做这个方向的研究我个人觉得在短期内从的一些实验结果来看这个效果还是非常不错的因为巨神智能它最大的问题就是数据呃

量还不够如果我们能够真的对于某些任务我们能是真的收集到像 LM 一样那么非常大量级的数据我们也不需要去浪费时间去做这些方面的研究但问题就是现实摆在面前就是我们没有办法去做这样的事所以说目前的解决方案是一个我觉得是符合我们从经验上来说是符合一个 scaling law 的一个方式然后

当我们的数据如果能够真正的 scale up 到一定量的时候我觉得巨神智能的那种有限能力或许会真的出现对而这个数据不仅仅是依靠现实的这个机器人的数据对吗就是他还是对是的嗯

对因为 LM 的 Skeolin Law 他也没有说必须要是什么样他就是疯狂的在互联网上去爬取各种各样的数据其实各种不同的数据对于你最终学各种各样的知识的它是有都是有帮助的对 吕俊博士你怎么看这个问题就是关于把各种模态的 eGo 的这种数据融合到一起来去做巨声的算法这件事

我自己是非常相信这件事的所以我之前其实我做的研究某种意义上也是希望通过系统模块化的设计去达成这么一件事情嘛

然后我觉得我觉得问川博士刚才其实已经说了很多但是从另外一个角度来讲就是虽然说我们最后也有可能用真实机器人数据去达到一个我们想要的那种真正通用的精神证的系统但我相信真实机器人数据通过不管是通过 UMI 啊 Aloha 这样的设备去采集其实都是非常昂贵的那同样的这样的仿真数据或者是一些人类演示数据比如今天有媒体平台上有非常多的这种人类在

修修补补做一些什么东西的这样的视频但是这些数据一定都是相对廉价的再包含一些静态的视觉数据语言数据其实中间也包含了非常多对于学习任务有价值的信息比如说我们人类通过阅读说明书就可以学会怎么使用一个东西那这些如果我们最后一定能够掌握这种从异构数据中学习巨神智能的一个能力一定意味着说相比于只使用真实机器人数据我们可以使用一个机器人数据的组合

那这个机器人数据的总和很大概率上来讲它的成本不论是金钱的成本还是时间的成本上来讲是会低于那个只使用巨神智能数据的那种方案的只使用真实机器人数据的那种方案的所以我相信说选择就是不断去探索如何从异构数据中学习巨神智能操作策略这样一个方向它一定会就是推动着不管是一个公司还是一个实验室还是整个学术界来讲会

在金钱成本上和时间成本上都会更早的去到达一个大家想要的那个点对

但就目前看它其实整个算法的框架还没有统一就是我这块也比较好奇的一个点就是如果对应到类似像大圆模型的那个时间点的话那可能是出来一个这个 transformer 大家会把所有东西都丢进去那现在对应这个巨神智能的话那也是类似的嘛比如说我们有一个这样的一个

transformer 这种框架对吧就是是把所有的数据都丢进去然后

把他当成是一种多模态大模型的这种来处理还是说巨神智能他其实需要一些自己的一些新的创新的东西在里面真正的这个比如说在算法上面有一些什么样的突破才有可能真正的实现这些把数据丢到一个框架里面然后出现这种 scaling log 的这种范式就你们会觉得现在的时间点是等待那个新的算法

出现还是就按照大圆模型的这种方式来去丢数据我觉得智能最大的困难还是数据吧就是它可能跟语言模态不太一样就是语言模态从大家要研究这个问题的时候语言数据就已经准备好了但今天其实巨深智能的数据

我觉得可以说是约等于还不怎么有就是像前段时间那个应该叫 OpenX Embodiment 那个数据集其实综合起来大概也只有一百万条轨迹那这个一百万条轨迹放在自然语言数据面前甚至你放在今天的自动驾驶数据面前都是完全不够看的一个数据量然后我觉得我个人对于它未来一段时间这个数据的积攒我觉得也是

比较悲观的因为我觉得这是一个鸡生蛋诞生鸡的问题就是你没有大量的这种 householding robot 真正的走到人类的家庭里你没有一个路径能够把数据飞轮转起来能够把数据收回来所以我觉得我个人会觉得说在军事智能面对这么严重的数据困难的情况下并不是一个能够去讨论说是不是能够找到一个框架然后这个框架我们把数据一股脑地塞进去就能迅出来点什么的那个时间点

对,当然这个只是个人的看法,所以我本人可能也用了更多时间在一些比较模块化的系统上的这种研究,然后我觉得我的研究目标虽然说最终目标是希望做一个真正通用的巨神智能系统,但至少短期还是会放在说希望巨神智能能够在一些有限的任务集上,有限的物体上能够展开出一些面对这样的物体,面对这样的任务的繁华性,可能

就是会作为我短期的一个研究的目标吧对 问陈博士您怎么看这个关于数据的这个问题比如说像在模仿学习领域那很多也都是需要采集这个真实的机器人的这个数据那目前我知道的很多创业公司或者大厂也都在做一些这个数据工厂就是类似像这种纯人工的去采机器人的这个数据的这个量级真的足以让这个模仿学习在

机器人的性能或者成功率上面有那么好的提升吗就是你你怎么看这个问题就是我自己感觉上好像就是你不管多少人在踩它只要不是一个有商业闭环的数据分轮滚起来让全世界的人都可以参与进来的它数据量好像都没有办法达到大圆模型的数量级啊

对是的我也是这个看法就是对于网络学习尤其是摇操作数据数据的话它成本确实特别高最终从特斯拉的 FSD 的角度出发就是的经验来说我们觉得还是得要有真正的商业化落地然后真正机器人能够进入千家万户之后我们再去通过一些方式去把这个数据回收回来然后再做一些嗯

这样的话你的数据就不是一个线性增长而是一个类似于指数级增长的一个方式而这种情况下它才能是一个真正意义上符合 scaling out 的一种形式还有一个非常重要的一个问题就是现在硬件也是一个很大的问题就是不同公司包括不同实验室研究组他们在用的硬件还有他们的摄像头的架设方式之类的都不一样所以说得到的数据也确实

格式或者他们的各种标定方式都不一样所以说最终未来想要去做到真正的数据的 scale up 的形式的话可能要在这方面数据的格式或者一些方面硬件的一些标准上有一套行业标准这样的话才能会就是数据的积累的速度会更高效益

对关于像居身智能的这个技术路线来说的话我其实想总结一下就是现在主流的这种居身智能技术路线具体有哪些种包括其实涉及到分层我觉得不同的创业公司或者学术学者对于分层的层的概念也是不一样有的分层是比如说上层的任务的拆解然后到任务的规划然后还有甚至到这个动作执行层面它也会分层

可不可以请两位博士也稍微科普和整理一下就关于这个居身智能技术路线的这个框架上面的一些目前主流的一些方法对就是可以看看这个问川博士看您对这个问题是有什么样的思考对我觉得这个框架可能主要还是分成

我个人觉得是两个方向吧第一个就是说是真的端到端的大模型就有点像 Sargey Levine 还有 Chelsea Finn 他们在今年的时候发的一系列论文从 RT1 RT2 到 Octo 再到后面的还有什么 OpenVLA 等一系列的工作他们是真的完全的端到端输入就是我的摄像头和我的本体感知数据然后输出就是真的是 action 但是这个东西的话就要求你的那个

训练级里面你要真的有动作标签然后而且这个动作标签必须要保持一致也不一定一致吧反正比较符合他们那几个比如说是末端的迪卡尔空间的控制或者轴空间的控制当然他也肯定就是这个东西在目前来说我觉得还没有完全证明他是已经完全 work 了的一条技术路线还有一条技术路线就像您说的嗯

刚才你也提到 Covirant 其实 Covirant 在几年前就已经做了一条技术路线就是我先用视觉模型去估计抓取姿态然后去做然后 low level control 我就用传统的控制比如说 motion planning 之类的方式当然也符合现在国内的一些创业公司的一些技术路线这个技术路线的话就是

他们把整个任务分成一个 high level 和 low level 的两个层级然后 high level 可能用一些视觉的模型甚至一些自然语言或者视觉语言的大模型来做然后 low level 就是纯靠我们以前的控制算法来实现但是这个的话就是它的灵活性还是有一些问题的就是你的 motion planning 可能会写起来会比较复杂或者有一些任务它天然的就很难去做

我个人觉得这两个方面可能在未来会是一个比较融合的方式吧就是说完全依靠端到端去做的话你就势必要收集很多带动的标签的数据而且你也浪费了很多类似于互联网视频类似于以前的像 image.net 这种已经存在的图像数据和语言的数据

另外一方面只靠以前的底层控制算法的话可能能做的很有限而理论上我们神经网络确实是给你和任何的数据分布的它的上限是很高的所以说未来可能 low level 也是需要以某种方式去训练出来不论是强化学习还是模仿学习去训练出来 low level policy

对刚才说到这个端到端比如说像刚刚提到的什么 Octowa 等等这些工作他们的呃

整个范式是说我基于现在看到的这个图像然后直接输出我对应的这个动作但是如果对应到指令层面的话比如说以人的这个工作为例吧就是可能一个工厂或者是我家里面我的领导让我做一个什么事情他有一个指令然后像这种指令的拆解在类似刚才您说的这个 auto 这种端到多模型里面它是怎么体现的呢

它没有显示的体现出来就是让 transformer 自己去学习了

不过在未来的话因为现在也有一些用视觉源模型或者大源模型去做 task planning 的这些任务他做拆解应该也是可以的所以说未来可能还是会有一个这种任务级别的拆解的一个模块和一个底层的和真正来做每一个 skill 的这种不同的模块就是最终可能我觉得还是会一个分层的吧

刚才说到端到端模型其实是针对于 skill 这个层面的端到端还不是针对指令层面的目前来说是这样的好的 然后吕俊博士看你对这个问题有一些什么样的思考

我觉得大致就跟魏川博士说的差不多吧,其实现在可能一部分人他们希望去做一个全流程端到端的这样一件事情,然后另外一方面的另外一部分人可能在做的是说希望利用一些大圆模型或者是视觉圆模型这样去完成高层的任务规划,然后底层可能再去调用一些的就是原动作嘛,就是 primitive 的这种模型。

manipulation 的 policy 然后这样的 policy 可能有一些是端到端 learning 出来的然后也有一些可能是基于一些偏 rule based 或者偏底层控制方案出来的我觉得这个确实从我的感受来讲现在也是整体上是

两个这样的方向在做吧但我也想提一点我自己的观察就其实一直在讲这个框架它更多是一个运行态或者运行模式上的框架吧那怎么得到这个框架就是开发这个框架其实我觉得也是有另外一些技术路线的区分的就我也想在借这个点在

讲一下自己的研究嘛,其实我做的这个研究这个框架实际上是一个发生在开发态的一个过程,就实际上中间在轮廓 simulation 中发生的环节实际上是在仿真器里面生成大量的数据,最后再将这个数据蒸馏成一个模仿学习,那这个模仿学习的算法它其实可以作为一个分层的一个系统中的一个计算,

就是原动作中的一部分嘛那我相信这部分生成的数据其实也有可能去直接当做这种全流程端到端大模型的一个训练的数据嘛对我觉得其实可能除了运行态之外就是我觉得未来或者现在其实也有很多人在关注嘛就在开发态里面其实也会有很多框架上的区分嘛

当然有一种框架就很简单就是不停的收集数据我可能是比较相信另外一种框架的就是需要融合多种信息去提供进行的丰富的数据给后面运行派的模型去首先是怎么学习然后之后能够达到一个比较好的泛化性一个稳定度这样子

我们常说的这些模仿学习强化学习它如果放到分层模型或者端到端模型里面的话它们对应的是哪个环节先以分层模型举个例子好了就是比如说它有分这个 high level 分这个 low levelhigh level 可能它对应到的这个输出可能就是比如说一些动作的轨迹目标然后 low level 的话可能是这轨迹目标作为输入然后我输出的是一些机器人动作那

强化学习和模仿学习比如说它是在哪个环节起作用呢是在 low level 还是在 high level 还是在比如说中间层的是怎么个动作的呢可以先请这个温川博士讲一讲这个模仿学习这块的一些情况对我个人理解模仿学习还是在 low level 起作用

HIGHLIGHT LAW 的话或许可以通过类似于文化学习的算法通过监督学习学出来一些安定的方式但是我个人觉得因为现在的大语言模型和视觉语言模型已经非常强了可能不太需要我们再去收数据去训练这样的一个模型

而这种 low level of policy 具体到你怎么样加一个东西或者是怎么样去触碰某个物体去完成这件某个基本的技能的话这个东西是我们需要通过模仿学习来去学习的

那涉及到中间层的衔接呢比如说像基于这个世界语言模型或者是类似像这个人类视频比如说 ATM 对吧就是它其实输出的也是一些这个动作轨迹那这些轨迹呢作为目标的话可能给到下一层的这个播放学习让它去怎么样去输出这个动作就像中间层一般大家是怎么来衔接的

中间层就各有不同了像 ATM 的话它就有点像模棱学习它就是我去通过我们以某种方式去提取出来的标签然后来去做监督学习然后去做一个我们所谓的 word model 包括一些用视频预测模型也是一样的

他们本质上也是一个监督学习的方式然后来去训练一个 generative model 然后对未来去做一个 planning 然后至于另外一条路的话他们做

VLM 那一条路的话他们就不是模仿学习了就可能是一些通过一些 prompt 去调整 prompt 的方式然后来去调用不同的函数嗯他整个就可能不是一个学习的方式而是一些搜索或者一些什么样的一种方式嗯

对那李俊博是像就刚才也是刚才那个问题比如说像这个关于强化学家等等或者是仿真的数据就是它到底对应在这个分层里面或者端到端里面哪个环节或者哪个部分

对我觉得是这样就是呃是用仿真生成数据来训练还是直接用真实数据来训练亦或是说搞那种 simtree 在仿真里面训好了在真机里面去翻推其实这都是发生在呃开发态过程的一个一个事情尤其是最后这些东西结果产出的其实都是大概率是一个以神经网络为基础的这样一个可执行的模块嘛所以他一般来讲这个可执行的模块会对应到一个比如说是由呃更上层的 planner 调用的一个呃

或者是一个可能是一个相对通用的一个模块吧他可能能够接受一些

比如目标以图像为形式的这种目标或者以自然语言为形式的目标去输出一些动作对我个人看法是这样就是主要还是发生在开发态然后运行的时候是另外一个故事就是这个两位博士啊就是你们你们对于自己未来的这个规划是什么样子也都快毕业了就是接下来会考虑创业交职还是大厂的工作吗

是这样的我自己其实在甚至是在开始读博士的时候就已经想好了我是更希望去工业界里面发展有可能是大厂有可能是一些初创公司然后如果有机会的话我也期待着能有机会自己去做一些

对然后所以我最开始也说到在那个时间点上可能会有一个焦虑就是自己毕业之后工业界里面到底有没有自己的发挥空间然后我觉得也是再回应到最初的问题就为什么会选择也是因为当时会自己基于一个长期的判断认为说以自己 20 年或者 30 年职业生涯的长度来讲

我相信机器人会成为一个超越汽车超越手机的就是人类最重要的一个产品所以我的规划就是希望还是去到工业界里面去尝试用自己的力量去推动机器人的产品化它的落地化好的那温川博士呢

对于我而言,我个人觉得机器人领域还是有很多很值得研究的问题的。但是至于需要在哪里去研究这些问题,我觉得我个人是我都可以接受的。不管是去大厂的研究部门还是去找教职,我个人都会尝试,就是如果有机会的话。

我也没有说一个特别的偏好但是我个人觉得还是想要去一些偏研究的部门嗯嗯

对,最后一个问题涉及到机器人的安全问题因为目前整个机器人在研发的过程中我自己感觉其实还没有太考虑到安全的问题因为首先它现在性能都还不太好它可能从任务的成功率、完成度、繁华性等等这些都还是大家核心攻破的点

但机器人如果要投放到人类社会中的话它可能安全是首要要去考虑的尤其在跟这个人的交互那大人小孩然后老年人的这个交互就关于这个机器人的安全这块不管是从像你们在学书界你们目前的一些观察是什么样子的就是在机器人的安全领域对可以先讲对我

我今年 RSS2024 的时候,我曾经把他 RSS 上所有的 workshop 的 list 都过了一点,然后我就发现一件比较有意思的事情,就是在他开的 20 多个 workshop 里面可能有超过三分之一的内容其实是跟人或者跟安全跟人机交互是相关的一个话题,所以我觉得学术界很多时候它是在前瞻性的基础上又有一个,

更超前一个的前提性所以我觉得安全这个问题未来不管是在学术上还是在工业落地层面来讲它一定是非常关键然后非常需要功课的一个问题我也觉得只有它这个方面有一定的答案之后就是机器人才能真正去谈论一个更大规模或者说真正走到人家庭里的这样的一个

产品化和落地化那这里面其实要考虑的问题有非常多我觉得有最基本的就是保障人这种物理层面的安全就是你不要去撞到人不要去伤到人这样的那从技术端来讲就是可能需要去考虑有没有什么就是

失败检测的机制或者这种 failure save 的机制能够去挽救一些能够去意识到一些危险的情况并且去挽救这样的危险的情况那我觉得从可能更长远更展望一点来讲未来的机器人可能还要比如说对人的情感对人的社会规则对公系量素有一定的认识也要保障这个层面上的安全然后也包含于说如果一旦机器人发生一些

呃危险的事件呢如何去界定的责任当然我觉得就是除了这种特别技术上的安全其实呃还有一些比较比较值得去思考的问题就是机器人因为大家在讲这个故事的时候反复都会说机器人是希望替代人类去完成一些呃高重复性或者是高危险的工作吗但我觉得替代这个词就是很容易就可以变成剥夺就是有的时候如果呃

比如机器人大范围的应用导致的是剥夺了普通人劳动的权利或者付出体力劳动的权利那这个也会是一个就是非常严重的社会性的问题会是一个灾难然后我觉得这个其实也是这个就是机器人安全的另外一个层面吧也是另外一种挑战好的 问川博士对这个机器人安全问题的这个思考是什么样子

对我也非常认可李俊博士说的这个确实是商业落地机器人商业落地一个非常重要的一个标志

只有解决这个问题我们才能够真正的放心的让他进入到千家万户里面去为我们做一些事情而且我个人在博一博二的期间也是做了一些关于机器人方向的路况性和安全性的研究但是我个人的体验其实那个时候的体验不是特别好一点就是说你做那个时代那个时候你在做这个方面的研究的时候其实关注的人非常少因为可能大家会觉得在任何一个

任务性能没有达到一定一个预值的时候你做这种安全性的考虑是在在杞人忧天但是我一直觉得这种想法是不对的或许你我们需要一方面去探索怎么样把一个任务做到百分之百的一个成功率但是我们也需要在同时的时候要做好在安全性考量

这部分考量下的一些技术的积累我们如何保证他在知道自己快要失控的时候及时的去切断自己的电源

包括他也知道什么样的区域是危险的区域我在做轨迹规划的时候我要避开这些区域然后包括在做强化学习的时候什么样的区域我是能够去做自由探索什么样的区域我应该去避开的其实都是一些学术上是有很大价值的当然也是工业落地的最后一步你们期待自己的家里什么时候能够有一个

通用的机器人来帮忙解决一些家属的问题其实以前我是比较悲观的但是我但是我们发现在 2020 年 GPT3 刚出来的时候大家也没有想到一年半之后 ChatGPT 就会那么惊艳但是所以说我对这个的时间可能会要

提前一点可能在五年或者至少十年以内我们或许能看到第一代非常厉害的机器人能够为我们在家庭里面或者社会上去做一些为人类服务的事情嗯吕俊博是你你的想法呢

我比较希望他明天就可以但是客观情况来讲我觉得真正走到家庭里可能我认为会需要一个十年以上的时间就是从我的角度来讲我认为说机器人现在最先应该攻克的可能还是一些比如说半结构化的场景就有别于之前大家一直在就是反复去嗯

实践的这种工厂里面非常封闭的环境可能一切下过要做到的是慢慢走到一些比如酒店的前台或者是咖啡店奶茶店去做一些这种比较可控的这种任务然后我觉得可能再下一步才会是真的走到家庭里去变得无所不能帮助大家去解决各种各样的问题这期节目就到这里非常感谢吕俊和温川两位博士的精彩分享