We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP08 对话陈建宇:星动纪元的Robot Era

EP08 对话陈建宇:星动纪元的Robot Era

2025/2/13
logo of podcast ReSpark

ReSpark

AI Deep Dive AI Chapters Transcript
People
T
Tim
以深入的硬件评测和技术分析著称的播客和YouTube主播。
陈建宇
Topics
陈建宇:我目前在清华茶院担任助理教授,同时也是星动纪元的创始人。我在加州大学伯克利分校获得了博士学位,主要研究机器人相关领域。本科则是在清华大学的经营系就读。实际上,我已经从事机器人相关的研究和创业工作十多年了。这段经历让我对机器人领域有了深入的了解,也为我后来的创业打下了坚实的基础。我一直致力于将学术研究与实际应用相结合,希望能够推动机器人技术的发展,为社会带来更多的价值。 陈建宇:在伯克利期间,我师从Tomizuka教授,他是一位非常好的导师,给予我很大的自主权,并在研究方向上给予了精准的指导。他很早就预判了无人车的发展趋势,并开始布局相关研究。这段经历让我受益匪浅,不仅在学术上取得了进步,也在视野上得到了拓展。Tomizuka教授的教导也对我产生了深远的影响,他强调做机器人一定要实用,不能为了理论而做理论,这对我后来的研究和创业都起到了重要的指导作用。

Deep Dive

Chapters
本期节目邀请到清华大学助理教授陈建宇,星动纪元创始人,分享其创业故事和未来展望。节目首先介绍了陈建宇教授的学术背景和研究方向,以及星动纪元与英伟达的合作。
  • 陈建宇是清华大学跨学科信息科学研究院助理教授,星动纪元创始人
  • 星动纪元与英伟达在算力芯片、强化学习算法、开源项目等方面展开合作
  • 陈建宇在UC Berkeley获得博士学位,研究方向为人工智能与机器人学

Shownotes Transcript

大家好,欢迎收听 Risbark,我是本期的嘉宾主持 Tim 鹏在 2023 年掀起的巨声智能创业热潮中,不乏学术新秀的积极参与而清华插院助理教授陈建宇的星动纪元便是其中的典型代表星动纪元在众多巨声智能创业公司中独树一帜,以其全战能力给人留下了深刻印象

不仅自主研发双足人形机器人和灵巧手硬件还同时开发了巨声大模型本期节目我们非常荣幸地请到了陈建宇老师一起来聊一聊新东纪元的创业故事和未来展望

那我们首先还是请陈老师做一个简单的自我介绍吧我目前是在那个清华茶院这边做助理教授然后同时也是人形机器人和巨神智能公司新动机园的创始人对 然后我此前是在 UC Berkeley 那边读的博士然后主要做机器人相关的研究然后本科是在清华大学这个

经营系这边然后实际上一直从事机器人相关的研究工作和创业相关工作已经有十多年的一个时间了那陈老师首先就是想采访你一个问题是我们也看到这次 CES 开幕式上黄仁勋这边也官宣了跟

全球不同国家的一些代表型人型机器人的合作其中中国在里面占有很大的一席之地有很多家公司都有跟这个英伟达进行合作那其中我们就看到这个心动纪元的身影你能不能分享一下就是你们跟英伟达这边是怎么样的一个合作契机

其实跟他们合作之前比较早就开始了然后合作也是多个方面的然后可能互相也在为双方提供一些能够支撑的这个东西那比如说那当然知道我们在用英伟达的这个算力包括芯片嘛然后我们机器人上面其实搭载的就是英伟达的这个 NVIDIA ORIGIN 包括之后他们后续的所有等等芯片后续也都会成为我们的机器

上面的算力的主要的一个工业然后同时当然也知道因为我们做强化学习对吧然后那么 Symmetria RL 这个里面的 Symm 这个 Symmulation 呢主要是用了英伟达的仿生器英伟达的仿生器它的变形化加速啊等等这些都做的非常的好然后这块呢包括我们也有基于英伟达仿生器我们做了

一款开源的人型机器人的强化学训练的工程叫 Humanoid Gym 然后目前应该也是所有人型机器人的开源工程里面目前最火的一个基本 1000 个 star 然后这块英伟达也是正在想办法要纳入他们的官方的这个 report 之中同时我们也正在为就是英伟达他们在包括探讨和比如说我们

提供相应的我们机器人本体相关的一些这个设施这样作为他们的一些研究平台所以跟他们是有多方面的这样的一个合作关系然后这次也是就邀请我们

然后这边参与到这次 CES 他们的亮相之中非常期待有更多的一些进展一会我们在产品技术部分可以再详聊一下你们的这些进展那我们还是先从这个个人经历还有学术经历来了解您这边的情况

您之前是在 UC Berkeley 是从这个 MPC 算法电机人 Masa Yoshi Tomizuka 教授然后他也是美国工程院院士机电控制的一个先驱的人物就当时您跟他这边读书感觉是一个什么样的风格和体验我觉得就是 Tommy 老师是一位非常好的非常 nice 的老师一个非常和蔼的老爷爷对他基本上现在也基本 80 岁的

但是因为日本人很潮潮所以他一直还非常的健康

所以整体的话他给我们 research 有很大的自主权但是同时他不是说就完全不管他会给出非常准的这个方向而且他对大的态势的把握是很准的就比如说无人车我们知道是后面 1617 年后来开始起来后来他提前基本上两年一两年的时间就预判上这个并且就开始布局去做我的课题当时时候到这个 Burklin 那边也最开始主要是文正因为 15 年刚刚进去的

对然后同时包括从我读过期间的话 15 到 20 年之间的这个时间其实是经历了从机器人从这个传统的控制的机器计算的这类算法到 AI 的 Data Driven 的这类方法的一个转变我刚去的时候基本上这个 AI 还没有真正进入到 Robotics 的这个领域但是说

开始有这个苗头的时候我们就是托米老师其实就很快意识到了这一点然后也在有意的把我们往整个组的这个大的方向往这块吸引也非常的支持虽然他年底表达但是说对这种新的这些趋势的话把控也是非常准的这个也给我们带来很大好同时的话各方面对我们研究也非常的 supportive

对所以他也经常一些教导也是给我们带来很多的启发特别是他经常提到说我们做机器人的话

就是说不能太 theoretic 不能太理论就一定是实用一定是非常非常重要的你得做 work 机器人才能真的有意因为机器人它还是一个实用性的应用的一个学科那么它的相应理论的前沿的研究也需要围绕可能未来它一定能够去用到不能为了做理论去做理论这个是它的这个演化这个源于也是因为就是我们那不现在是做控制对吧

其实 control theory 还是非常 theoretical 的就是很多研究 control 的会容易掉落到为了研究理论而做理论的这么一个这么一个这个陷阱里面去所以他也是多次教导我们一定要这个考究实用而且他也很重视跟产业化的这么一个合作对对

明白所以其实你跟他一开始进去应该是在 NPC 算法上有很好的一些积累那是从什么时候开始可能开始更多的有一些 reinforcement learning 强化学习这些心理算法的走向的过渡对基本上去 15 16 年主要还是都集中在 NPC 的

这块算法上面然后我们当时呢就是因为我们 Lab 名字叫 Mechanical System Control 就是说

就是说其实就是研究怎么样用软件算法去控制复杂的机电系统其实机器人就是一类复杂的机电系统就是我们怎么研究怎么样用软件能控制复杂的硬件的系统的对所以说当时的话比较前沿的方法是 MPC 就是属于当时非常前沿的方法了如果了解包括当时在无人车里面用的很多规控的方法还是比较传统的偏 Raw based 的一个方法

然后后来呢是往 RL 转的主要的契机的话在这个行业内主要还是以 AlphaGo 为代表的这个代表的一个工作的出现 AlphaGo 是基于强化学习是基于深度强化学习的然后其实强化学习是存在了很长的一段时间基本半个多世纪了但是呢由于他之前没有深度神经网络啊

没有跟深度神经网络去结合所以说它并没法处理像机器人这样的连续的无穷的这样的

这个空间所以说之前都用在比如说片离散的一些简单的电脑的这个虚拟游戏里面但是后来有深度强化学出现解决了这样的一个连续空间的无限维度的这样的一个问题所以说大家看到了 OK 我们可能可以用这个方法来做这个机器而另一层面就是说强化学系它实际上它的

这个理论的 formulation 问题的 formulation 跟 NPC 是高度一致的甚至它跟 NPC 和优化控制是这个同根同源的最初到半个多世纪以前都来自于贝尔曼

对所以说看到了我们做很多做基础链做控制的这个学者一些然后其实看到了 AlphaGo 它背后代表真正强大学习的用在基础链上面的巨大的前景所以就是说那么就开始往这块去转那这块也是当时也是 Berkeley

这个好几个主要的老师包括现在这个比较活的派的手机科学家 Skidman 为主然后我们老师我们组也是其中很主要的这个这一波的一个开创的一些科技组然后所以说那个时候大概 17 年左右吧然后我也是就往这个 RAL 这块去做就是从本科开始就一直搞机器人相关的从最开始搞

本科的时候做比较多的硬件相关的然后到博士的时候做各种控制然后后面做 RL 做软硬体然后到现在做机器人的 AI 机器人的大模型其实一直是沿着这条路再去走然后这个坚持所带来的效益其实是

非常大的啊所以经常有的时候觉得这个做聚酸针这一行其实一直在做做着做着他好像就活起来了啊所以有的时候其实机会是还是给有长期准备的人的嗯

没错这点还挺认同的所以你是属于那种目标非常清晰目标导向性知道自己要什么就长期专注坚持做一个事情那不管这个行业是否有周期做自己感兴趣和人为对的事情总会有机会到来的时候对吧是的就像之前做只有比较早就做这个

当时比如说 17 年就开始往 RL 做然后就当时就坚信要做端到端的对吧 做起来心动纪元其实是这波巨神智能国内创业公司成立比较早的一个其实在 23 年 8 月份就已经成立了当时的一个创业的契机和想法是什么样的嗯

对其实是更早于 23 年 8 月我们就很早就开始做这个项目了然后因为当时 23 年 8 月是我们公司正式注册的这么一个时间因为我们后来是走的这个清华大学的成果转化然后这样其实花了一些时间实际上这个项目因为刚才说我是一直在做这个也不是说为了当时不是说为了想要创业

然后来去创业我其实也没有给自己定好说这个时候该创业了或者该去做了而是刚才说的因为一直在做机器人然后从包括回到参与之后也一直做机器人相关的研究博士期间我做无人车相关的比较多然后后来在回来之后也做过各种像机械臂然后四处机器人等等然后后来是在 22 年的时候

就是开始做人形的通用机器可能一部分原因也说 21 年的时候 21 年下半年 21 年底的时候这个马斯克宣布他要做人形机器

当时觉得这个也一定程度勾起我对这块的一个向往和憧憬因为人行机器人其实一直是做所有机器人的这个的梦想但之前没看没敢往这块想啊然后来看到马斯克提了这个事呢我就开始我就开始认真的去琢磨有没有可能真的自己去做人行机器人啊因为当时在学校这边我也有自己的一些学术团队然后等等有一些基础了然后

所以开始琢磨这个事我调研了一番也读了很多的包括硬件软件各种的这块相关的论文和一些资料然后跟一些人聊然后后来觉得可能是可以做的所以二年就是二年基本上二年初二年春天的时候我就开始在学校这边就开启这个项目就开始探索

探索怎么做人机机器人当时又要做硬件啊也要做软件然后后来是做到二年底的时候决定想把这个事情进一步的去啊做大啊然后因为觉得做机器人确实需要很是一个浩大的工程啊可能如果仅学校这边的话是很难支撑后续非常大的工程化和这个产品化的啊所以说就当时决定开始创立这个这个这个公司嗯

嗯那其实你在创业之前是没有一个在公司全职工作的经历当然你在美国其实读书期间是有其实在很多大厂包括一些核心零部件知名的公司都有实习过啊那美国这段时间对你走上巨深创业的路有没有什么影响嗯

对我觉得也是有的就是说相当于一方面是学术上的积累然后刚才也聊到了不少然后并且这段时间正式经历就是如果说像之前在那个比如说 RIO 做那一波之前的话像 NPC 可能不太称得上是巨神智能实际上你可以认为巨神智能

的真正意义上概念就是在我在美国这段时间幼的二年这之间逐步地开始进入到机器人行业才开始有这样的一个行业所以说一定程度是见证了

这个行业最初始在学术段最初始的一个兴起了这么一个阶段然后同时在后面几年就是说我主要也是从包括博三博四博五然后后面都做了几段实习也包括在微母啊包括等等然后其实在在那边实习的时候大家就已经在研究就是因为是在公司其实企业就已经在探索

怎么样把这些巨神智能的相关的技术去用到他们的产品上当然主要是无人车当然就在考虑怎么样把这些技术用到无人车上包括这些 RAO 包括这些 imitation learning 等等其实也是在那段时间开始然后当时也是在美国看到了比较多新的怎么样把这些最前线技术用到产品端以及包括这些不管是大厂我在当时有在大厂也有在一些这个创业公司啊

也有这个实习都工作过也见过他们是怎么样一个有非常正规的组织体系也有创业公司的这样冲进很猛的然后快速发展的这么一个阶段是怎么样去发展的其实这也是一个原因就是当时其实差点也接了就是公司工作那边的 offer 然后后来还是想要说

选择往学术其实也是想要说能够我能够比较自主的做自己的一些事情实际上创业也是属于比较自主的做自己真正热爱喜欢的一个事情明白那你一开始创业的这个 vision 愿景是什么然后现在有没有再一步一步往这边去达成嗯

是的就是当时创业的微信其实回想起来跟现在还是非常一致的前两天我又翻了一下我当时决定创业的时候我二年底的时候当时做的 BP 那个时候就定下来我们公司

想要做那个时候甚至我们新中介的名字还没完全定下来但是说但是定下来我们公司想要做的 Vision 想要做的事情主要是两 part 一个是做通用的机器人一个是做机器人的通用智能但是没有说没有做没有体育生智能这个词但是是一个意思要做机器人的通用智能

对所以但是为什么做这两个因为当然觉得现在其实机器人的领域已经发展了很长一个时间了半个多世纪了因为一直做这些历史也是比较了解那么现在主要

集中到通用的一些还是非常专用的一些机器人就我们生活上看到机器人还是量还是非常非常少的就整个世界机器人的总的出货量其实都还是很少的一部分你可能跟现在的一些通用的终端不管手机还是这个电动车这些都是没法比的但是我觉得从机器人他的属性来讲他能做的未来如果真正技术的实力这些一样全部释放完之后他能做的事情

它所带来的价值肯定会是更大的所以说它完全有可能成为我们下一代的通用的智能终端就是继咱们的 PC 手机电动的智能车的下一代的通用的正终端刚才说的三个都是一级的

都是一台级别的这样的一个产品那基金已经会比他们更多的那么刚才几个可能是千亿级别的或者双千亿级别的这样的一个市场那么基金可能是双万亿级别的市场所以这是非常大非常有价值的一个事情

对然后当然同时就是说刚才说那第二点就是说你光要通用的机器人那么人行是吧就是刚才说非常通用的这样一个机器人因为贴合完全我们整个的人类所见到的世界但是说你光要通用的机器人还不够你肯定还要通用的智能当然那个时候因为当时还在 22 年那个时候还没有 TIGPT

所以那个时候路径会模糊一些但是会知道目标一定要做这个但是也了解有大模型其实大模型和这些 Scanning Law 已经在大家都在说了但是就是说还没有像 Chad GBC 这样的一个标志性的东西出来证明了它能 work 所以说那个时候还是路径比较模糊但是也想了很多的方法通过 Metal Nernia 或者等等各种的但是会觉得路径模糊一些时间会

长久长久一些但是它一定会是我们我创业的这样的非常主要的这家公司主要的 vision 当然后面下级 GPT 出来了这个其实是带来给我们做这个通用的机器人带来很大的一个信心因为我们已经在相当于人们已经在其他的领域比如说语言的领域

对吧或者后来视觉的领域证明了这样的通用的智能是完全可能能够去做到的所以说这个其实给我们一定程度上指明了一条做极限通用智能的一个路所以基本上后来恰吉比特之后 23 年的时候我这边也比较确定 OK 一定要走类似的这样的极限的这样的就是大模型的路线明白这个想法的顺序还是非常的

有逻辑和严谨的那公司取名一开始为什么叫心动纪元对当时的话也是几个方面吧就是说从寓意上来讲的话

我们是想说因为做的事情很宏大像刚才我们讲的整个的 vision 所以就跟宇宙星球等等这些联系到一块就从这些字眼里面我们在找然后同时机器人它又是希望我们人型机器人我们希望就摆脱之前笨重的机器人这种这样的一个大家的一个体感或者这样的一个记忆对吧所以说希望我们机器人是比较灵动的动态的所以后来

然后再加上这个谐音对吧然后也刚好跟心动这个谐音所以说也是一个希望大家看到想到我们的公司那么就有这个心动的一个感觉所以说就取了心动的这个名字然后后面的纪元呢是意味着一个新的时代这个寓意说那么未来我们一定会迎来一个新的机器人的

我觉得这个一定会到了现在因为到现在机器人数量太少了但是未来一定会我们家在乎就像马斯克说的全球有可能会有会有这个几十亿台机器人的这样的一个量 OK 所以我们的英文名也叫 Robert Arrow 实际上就是寓意着机器人的时代对

对你们机器人最近也展示了很多这个运动的能力包括跑步啊这些的都是对得起这个心动机员的这个称号嗯对在算法层面来说其实刚才你也分享了从学习和工作的过程中就是从 NPC 的积累到开始用强化学习也是最早一批在把强化学习结合到机器人中使用的这个啊

那这个你们最近其实也推出了一个新的 ERA42 的机器人大模型那么这个机器人大模型的特点是什么可不可以跟我们简单分享一下好的好的

然后这个的话可能首先说说这个 ERROR-3 的来源因为其实当时也是想到 4.2 的话可能如果大家知道的话 ERROR 是我们 Robot ERROR 的后续对吧代表着开启新的纪元然后 4.2 的话其实

是来自于这个银河星漫游指南这部小说或者这个电影的里面的一个梗其实它是寓意着宇宙的终极答案所以这也是寓意我们想探索巨生智能的终极答案而我们认为巨生智能做到最终你真的把它做到底的时候它的意义是要比它应该包含我们现在的所有语言的通用智能可能它就意味着 AGI

然后它可能一定程度上也是帮我们解开宇宙终极答案的这个很重要的一步对所以是有这样的一个寓意和一个梗在这里面然后那么具体到基础上我们这个机器人大模型的最主要的几个特点一个是端到端

对我们认为这个之前需要是断绕端这个从我最开始包括 1718 年就开始做这个 RF Robotics 和 Robot Learning 的时候就比较艰辛的要做断绕端那么什么是断绕端呢其实主要是指感知到控制等等从感知到控制的一系列这条链条你完全端到端的用神经网络去闭环去训练

对我认为这个是非常非常非常重要的然后因为这样的话我们才能够靠 Data-driven 的方式去把它整个端到端闭环的去提升

然后另外呢就是我们也是是一个大模型而不是说大家常见的小模型小模型一个模型做一个任务去训练对我们是一个大模型是有几十亿的参数量然后目前已经能做到一个模型能够通用的执行上百种不同的任务你只需要去更换你语音的 problem 和指令而且这个这个数量还远没有达到我们模型能吃掉的这样的一个上限和极限我还在不断学习新的一些任务

还有几个就在技术上的亮点和不一样包括跟这个其他的一些类似派您等等的一些这个路线上我们还有还有其他的一些创新比如说我们融合了大规模的视频的预训链那么这些视频它可以不用是机器人的视频它可以是其他各种各样的网络上任意的视频都可以是人的或者是

其他的世界的其他的方面的一些视频都可以然后同时我们也是除了单纯的模仿我们也融合了世界模型的这个能力进来对而且值得注意的是我们不是说单独去做了一个额外的世界模型然后再把它拿来不管是用来去做方针或者是拿它输出一些什么再给到我们的模型而是说我们把世界模型这个功能完全融入了我们自己的极权大模型中所以我们的大模型拥有推理世界的能力

对所以说那么是这样的几个特点对明白然后你刚才提到这个端到端的模型那它其实我们行业现在也喜欢分成什么大小脑这样来看就有一些端到端它可能是小脑层级或者是大脑层级的所以其实你们的端到端具体是在大小脑哪些层级上会覆盖到嗯

就是 ERA42 主要是一个你可以认为是大脑模型对然后它是一个端到端的然后我们此前用 RAO 比如说训练各种上下楼梯各种运控那个是小脑的模型这两个模型都是端到端的对所以这里的端到端是指感知到整个最后控制的一个

一个这个的一个闭环那比如说我们的这个大脑模型的话这个 Terra-4 这个机器人大模型的话我们是直接感知摄像头感知的输入 RGB 是 RGB 的图像原始的这个输入然后神经网络直接会输出到比如说我们手上各个关节它的一个控制指令就直接输入到这个是这样的一个层级明白那从架构层面还有什么刚才没有提到的吗嗯

架构上面的话就是说我们其实也是参考了不同的一些架构然后包括跟之前像派 Zero 的话对吧然后它其实是偏基于这个视觉语言模型这样的一个架构然后我们这儿去容纳一些新的架构里面比如说基于世界模型和一些偏生成式的模型

在里面做了一些创新包括未来的话也在做一些更新的一些架构的一些尝试

所以你后面迭代的方向预期会是大概怎么样会是一个更统一的一个模型就是各方面功能更统一的一个模型其实你可以认为我们是一步一步找这样的方式因为如果一个真正的最终的终极的比较好距离模型你可以参考人人的话你各类事情都可以做

然后你可以去执行这个动作你又可以去做逻辑思考你也可以去做这个环境的一些识别推理你也可以做这个想象

其实都可以然后我们是想要把这些功能一步一步的都加到咱们这个模型里面那么像最开始的话那么我们只能做这个比如说主要是做动作那么这个是目前监控力大家最关注的就是端到端的话我们说的都是端到这条路线下面这样大模型下面那么最开始的话现在大家都集中在说我们要 OK 端到端的我看到一个这个现在的一个传感的输入那么我能知道我此刻我做什么动作

包括派一派零做这样的事情我们这条路线也有做然后当然我们也有在探索就刚才说朝着更多元化的这样的功能去加进来那刚才说的融合世界模型就是我们这一步那么未来我们会加更多的巨神智能的功能进去但是呢我们不是说加更多的模型去怼上那样没有意义而是我们把所有的功能都要怼到一个模型里面

这样的话会增强它的能力就像是我们发现我们把世界模型的能力加入之后它做动作行为操作的能力增强了它的 performance 增强了它的数据利用效率也增强了我们可以用更少的数据做更好的把事情做得更好因为我把它世界模型推你的能力赋予了我的这个模型那么还有一些类似的这样的能力我们都会不断地给它赋予进去

明白 非常有规划的一个思路那你们是否考虑在一定时间节点会去开源

会的就是我们会陆续的开源一些包括像我们之前的那个 Humanoid Gym 刚才提到的其实是对我们一部分我们的 RU 训练的一个一些框架做了一些开源然后我们关于大模型相关的后续也有一些逐步开源的一些计划明白

那因为你们也是做自己完整的机器人本体包括人形全身还有自己做的零巧手那你们的这个机器人大模型是否主要是啊针对人形还有就是零巧手的一个结合嗯呃实际上就是我们这个模型它是对于各类机器人形态都通用的嗯就是目前我们已经在我们自己的零巧手还有其他的这个机械臂上啊

机械臂夹爪上都跑通了就是同样的这个模型他们会共享一个比较大的这样的一个同样的一个 backbone 然后但同样的他能用在不同已经呢现在已经容易到我们的引操手和另外的机械臂夹爪上面了后续也会上咱们的人形对

你们软件能力的迭代速度怎么可以保持这么快未来是否可以持续因为主要也是就是你可以发现其实我们每次的宣传我们给自己的标准都是要一定程度突破行业的天花板

一定要做出别人做不到的这样的一个事情其实我们基本上才会拿出来宣传的比如说之前我们宣传像 23 年底我们就像我们的 RU 的各种不平路面血迹的行走后面都我们

在戈壁滩的快速的腾空奔跑还有包括像这个去年上半年发布的这个我们林翘首撸猫等等这些视频就是我们是基本上是确保我们做到了行业天花板的时候才继续去发布所以说那么近期的这个呢也不是说

不然以下就做出来了实际上比较早的时候我们任何做的这些都是比较早就规划上了然后直接的在做对就是说就即使再天才的话这些很复杂你真要做的行业天花板都需要时间的这个积累和突破结合比较正确的一个路线的一个判断所以实际上刚才你提到 24 年出的时候实际上

我们在 23 年其实就开始去做这个这个啊包括林翘首了啊然后之前的话因为我也一直做 robot learning 其实也在包括机械臂夹爪上面已经做了一些工作但那块当时没有去做过多的这样的一个宣传然后关于大模型这块其实也是比较早在规划了因为啊

像刚才提到其实最开始我就知道要做极权的通用的这个智能就在找这条路径实际上恰恰基于出来之后一定程度上就是说给了这样的一个提示该怎么去做所以我们其实二三年就开始往端到端的大模型这块去做当时就看到就非常关注现在当时派的主要核心人员的都是从 Google DeepMind 那边出来的

所以当时主要都是关注了他们的一排他们其实做得更早他们是二年的时候基本就开就夏季出现之前就在做断了断的巨神大模型了然后我的话这边主要是在这个

想看到 ChaiGPT 的这个证明之后然后开始往这块去所以我们后面也自己去复现 RT1RT2 然后后面包括这个复现的 RT2 之后呢也是这个有了很多自己的一些思考所以做了刚才的

刚才我们提到的一些我们的创新改进包括我们做的一些路线有跟派灵几乎一样的这样的一个架构比如说我们发表在去年的 Color 的影片中然后以及近期我们发表 Aero 4 这种进一步的去融合了世界模型视频运行链的这个大模型对

嗯明白了所以其实这些工作其实都在进行我们规划的非常的细致也很扎实对对对不是一蹴而就就到来的所有事情都是提前要规划出来包括我们去年因为要展示的是零敲手啊然后所以这个是我们要打不敲板的一个所以我们也是先把硬件做出来对吧硬件做出来摇操整个打破然后完之后我们我们是之前呃

OK 我们先发了包括我们林乔手非常柔顺的做各种工具使用撸猫等等这样的一个视频然后接着同步迭代硬件的同时我们也是上这大模型的这块的研究也是从夹爪这个研究起然后验证之后就上到我们林乔手后续的话对后续的规划相关也说了一些不管模型端不管是我们的机器人形态端目前也都在稳步的进行中嗯

那在我们做模型训练的过程中啊涉及到预训练我们用到的数据类型过去现在和未来会是怎么样一个路径

我们这块大模型的预训链的话比较多主要是用的视频的数据那么像之前的话其实在比如说我们没有加这个世界模型和视频训练这块的话之前很多是自己收集数据但是这会面临着说这个收集数据的

这个成本太高的一个问题然后后面也是一个点为什么我们要做视频的预训练就是希望降低这个数据的使用和收集的这个成本然后这个主要是用原始的视频的数据我们的学习解释也是直接让我们模型去预测原始的视频的数据而不是

经过处理的物体姿态关键点这些信息那么这样做的目的主要是为了想要保留最为全面的信息确保没有信息的遗漏对因为任何的你做了一些处理这些处理都包含了你人为定义的一些规则一些范式或者是这样的一些鲜艳知识在里面然后你就会摒弃掉一些东西但我们想做的是一个通用的模型

所以我们要确保信息是最全面的另一部分数据就是遥操作但是这块数据就是说增进上收集的数据目前我们主要用在后续链上面是在现阶段但后面的话随着

我们这个数据量阻断的增多特别是如果跟商业化长面化这个也打通了然后逐步的这个数据费能赚起来之后那么以后的世界机器人的数据会非常非常多就像是现在自动驾驶的数据

多得离谱甚至就是用不完的一个程度所以说我们最终进行也会到达那个程度当然到那个时候就是数据就不是我们的一个问题了我们也不需要说非得是视频数据或者等等就完全就直接用真迹的数据这些也是最高质量的所以说会逐步的加很多真迹的数据随着数据量的一个储备然后到预训练的一个阶段那么我们现阶段呢

其实加这个视频运行链一定程度也是想要为我们巨神智能的机器人的巨神智能的他的这个数据费能的赚起来给一个 warm up 对吧因为这个跟因为机器人这块跟自动驾驶还不太一样自动驾驶它本来它即使你没有任何的智能车也是可以卖的对吧人可以去开它可以直接硬件可以直接预买就给铺开但是机器人不行机器人你要产生价值你要卖出去你必须要有

你的算法软件也得要具备也得要能做这个事情所以你没法机器人没法提前就直接把硬件去预买出去然后收集数据再去提升它的智能机器人卖的东西你必须同时有硬件和智能所以说它比自动驾驶更需要这样的一个 one map 所以说我们现在的思路就是前期我们想办法

包括我们刚才提的加入时间模型等等的其实一定程度很大的一个作用是说我们想要能够去在这个数据费还没赚起来的时候这个初期给它一个更好的 one month 明白那你刚才也提到了就是你们预训练其实不需要去做数据标注其实市面上很多巨深的公司他们还是需要对数据在预训练阶段做大量的标注的

不管是人工还是它自动的一个标注的能力这些都是有一些鲜艳知识提炼的你们这个方面是怎么去实现的嗯 了解了解对 因为刚才就是之所以要这么做其实刚才也提到了原因是想要保留最全面的信息

然后做到这个原因的话也是跟刚才我们融入世界模型的这个方式有很大的一个关系因为此前的话就是说 GNRE 大家训练机器人的这个巨声模型你主要比如说通过模仿学习的方式来去做那这样的话就是说基本上像数据里做什么样的事情那么你相当于就会学成什么样的一个事情

那么这个的话就会如果你数据的质量不够高的话你 expert demonstration 的质量不够高的话你可能也会学的

这个行为也会不太好但是我们用世界模型的话实际上就是帮助我们那么他的原理的话他学习的不是说我该怎么样去做好一件事而是说 OK 我这样的一个行为动作这样的一个动作先操作那么后面会给世界产生什么样的一个结果对吧就就就给我手松开了杯子掉下来打碎了对吧那这肯定不是一个好的行为但是 OK 我我我的因为世界模型我可以从里面学到我手松开会会产生杯子打碎这个结果

对吧这个也对我们后续的这个去学习具体的这个行为都会产生很好的这样的一个帮助那么也是因为这样的原因我们可以说 OK 就用这样未经太多处理的这样的方式来去做那网络架构上呢我们比较偏深层式的一个网络架构然后去处理原始的这个视频的数据明白

那我们数据其实融合了多维度的多元的数据包括这个视觉语言触觉身体姿态等等那如果不去做标注是否对于这个算力还有就是预训练的这个能力都有很高的要求呢嗯目前还好因为其实维度最高的是就是那个视觉

的信息对然后机器人加的其他的维度相比于这个比如视觉图像的信息来说还是少非常多的

比如说我们的之前姿态的信息或者是触感方面的信息因为图像的话其实上面的这个信息量是很大的所以说相对来说这块没有造成太多的一个困扰然后我们刚才提到的主要是一些软件算法能力那如果回归到本体硬件本身我们为什么会选择从双足人形来切入呢

其实也回到我们的微信就是以中为始的这么一个态度确实有两个路就是说要么 OK 有的会他从一个简单一些形态开始做上去对吧然后但我们是说 OK 我们直接做中矩的形态然后来去做我们认为这样是有很多的这个好处的因为对人形来说有太多独特的好处是其他形态不具备的那就比如说这个数据的可得性

因为它能够更好的直接从人类的各种行为动作里面来去获取不管是你要操作的直接的这个动作映射还是说从视频里面各种人类行为来去做这样的数据的可得性都会高很多另外的话人形的能力边界从产品设计的角度来讲其实极大的拓展了机器人的能力的边界

比如说我们的灵巧手是能大大提高相比于甲爪提高我们操作的能力边界那么双足会相比于这个轮式小车提高我们移动的能力边界那这样的话能力边界的提升也会带来更多的这个产品和市场的一个涵盖的范围对还有另外的话包括一些场景片服务类的有这种情绪交互的这样的一个场景的话那么人形可能还是一个

刚许所以我们认为做人性有非常多非常多的好处然后当时也是调研一下我们认为

因为我也是比较乐观的一个人当时在二年还没有任何人真的自己去做这个事情我当时就相信自己可能能做出来当然也是经过了很多严谨的第一性原理的一个调研和推导然后也想清楚了路线该怎么去做包括硬件的路线我认为做好方组和方手做好人形完整的人形态度之后实际上其他都能做就是这是一个

降维的一个过程降维它是容易的不管是硬件还是软件就我能做十几二十个自由度的双手那么我做一个自由度夹爪不管硬件和软件控制都会简单很多那么我做这样十几个自由度的双腿和 OK 两个轮子相比两个轮子的这个底盘不管硬件还是软件都会容易很多所以

所以其实你看到我们在后面现在也快速我们在最新一代这个人机线就是像前期我们比较专注在双子上面然后最近的话我们也快速因为积累了很多硬件包括底层的这些积累我们快速也是分化可以搭出不同的相当于这个轮式底盘或者是纯双子双臂等等这样的一些形态它的控制也可以包括我们 Era 4 其实展示的是一个单臂加拧敲手同时也能用在夹爪上面

所以说我们认为做这个研究的话那么从人形这个形态直接切入其实是拔高了咱们的这个天花板对我们的后续的研发和产品定义都会带来很多的好处明白

那其实过去中国出现了一批这个机器人硬件做得很好的公司这也得益于中国整个产业链供应链的一些优势还有历史的一些积累那现在是否到了一个时间点是可以用软件来开始定义硬件了呢嗯

我觉得可能比如说对我们或者类似程度的做硬件的公司来说是已经到了因为我们的目前像人形机器人的整机器人的底层的核心零部件都已经实现完全的自己的掌控包括电机减速器驱动器编码器等等这些机器人的核心的

底层零部件然后以及他们的比如说工艺工艺链等等所以说有了这些之后我们实际上是具备了重构硬件架构的这样的一个能力我们也就能够根据咱们的软件来去适配的定义相应的硬件是相对容易的

明白那你们的硬件产品现在是能达到高的性能指标同时又能达到好的成本水平吗目前是可以的然后也是得益于我们做了比较创新的硬件架构的这样的设计然后因为我们知道机器人它其实是一个软硬一体的这样的一个系统那么像此前的话

就是比如说工业机器人传统的工业机器人那么它相应的这个软的层面算法层面智能性层面比较弱一些比较差一些所以说它就需要从硬件这边去找补需要用要添加很多高精度的传感器然后硬件本体本身要做的精密度非常高所以它的制造它的成本也会变得更高并且还会牺牲一些其他的性能但现在的话因为我们有更强的 AI 更强的巨神智能

那么所以达到同样的任务甚至更好的一个任务和效果的话我们能够有更多的这个空间去兼顾各种不同的硬件的这样的一个架构和硬件的一些选型所以说在配合我们能够重构底层重构硬件架构的能力实际上我们是创新的不同做出创新的这样硬件架构比如说我们其实省掉了很多的传感器

然后我们硬件本体的话然后一些架构也是比较创新的然后就比如说我们的手是直驱的包括我们的腿部各种关节也是准直驱的

所以说这样的一个方式的话使得我们可以去坚固那比如说力量和速度同时成本还能够去降低嗯好像你们也没用那个六维力传感器对目前没有用对甚至就是这些都没用包括我们之前走楼梯做直接你连视觉都不用啊

然后六维力各种足底传感器全部都不用他只知道自己身体到底歪没歪然后也可以判断这个是不是上楼梯还是下楼梯该怎么去走有的时候他能学出来比人可能更强的一个能力当然一定程度可能因为人没有去在很多程度上没去训练比如说我们是把这些传感器都去拆掉或者是用一个更差的一个硬件然后再迫使他去做很多次的这样的训练让他去习惯这样的一个

明白

希望你们这个思路对大家未来都有一些指导意义对吧对所以总体来看就是你创业两年多的时间应该是现在有一些什么样的感悟对创业这件事情的体验和认知怎么样那么你现在回想当时创业的时间点今天和当时两年前两年多前学的创业的时候会有一些什么样不一样的

感受我觉得可能重要的感受的话主要是增长了很多的见识和认知吧这里面包括对外界的认知比如创业之前主要在学术这一块可能主要关注的是这个学术圈和纯技术的这一块那么创业之后其实就会

需要也需要去了解很多整个经济社会企业发展运行的它的这样的一个规律什么是企业的组织对吧经济发展这个怎么样商业化是什么这样的一个逻辑然后以及怎么样把技术转化为产品然后同时不管对对视还对人

也有更多了解因为要接触很多人然后自己要做一些这个管理怎么跟别人去进行合作等等然后同时也是对内对自己也是

需要做很多的自我的剖析和迭代我们缺少的一些知识或者是缺的认知要快速去补上因为经常会说如果就是说其实创神的认知会决定企业的一个天花板所以说

也必须迫使自己不断的去迭代自己的一个认知甚至认识并且调整自己一些固有的认知和习惯以便能够快速的变化在这样快速变化的行业中去适应甚至去引领同时的话也是一个变化也是说像最开始其实做是一个个人的一个梦想

其实是我个人的一个梦想最开始做但是后来做到这个阶段虽然现在我们公司还不大但是说也明显觉得自己会觉得这个是身上承担着更大的责任这里面有对团队的责任有对主动的责任甚至是对行业一些的责任因为越来越多的人会期待你去做出一些他们希望的有意义有价值的这个事情来

对所以还是比较有感受那你觉得创业比较有挑战还是学术比较有挑战更喜欢哪种挑战我觉得各有各的挑战吧然后目标不同像学术的话是需要在一个点或几个点上去追求极致的创新和极致的这个让人出乎意料这样的一个效果因为我发 paper 都知道这个

reviewer 最常谈的就是 lobality 对所以这是最重要的这样的一个目标然后相对来说创业需要考虑的维度实际上需要还是需要多很多的

特别是机器人的相关的创业需要通盘去拉通从技术研发到软硬件产品的开发到生产制造再到市场的这个拓展等等而且每一项都必须要去做好那么这样的话整个商业化整个企业才能活好所以这个角度来讲的话创业面临的挑战的维度肯定是会更高的当然就是学术在它的创新等等这方面的挑战也是相当高的