We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 宇树机器人到底强不强?大白话理解机器人为什么还很傻?-Vol65

宇树机器人到底强不强?大白话理解机器人为什么还很傻?-Vol65

2025/2/25
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
R
Rex 陈正翔
托马斯白
Topics
@托马斯白 & @尼克森 : 我们对宇树机器人及其技术进行了全面的分析,发现其评价存在两极分化。公司风格朴素,与外界宣传的形象存在差异。其发展并非一开始就专注于AGI人形机器人,而是经历了从机器狗到人形机器人的转变过程。我们调研了十位用户和开发者,对宇树公司产品进行了全面评价,呈现了其正面和负面评价。 宇树机器人近年来通过春晚等方式成功出圈,市场表现良好,机器狗在京东销量排名靠前。春晚和企业家座谈会等事件使得宇树机器人声名鹊起,机器狗在全球科研单位中普及率高。 宇树机器狗的成功在于其低成本、高性能以及易于二次开发的特点。其产品分为消费版和教育版,消费版功能简单,教育版允许二次开发,但价格更高。宇树还销售机器人零部件,方便用户维修和改装。 宇树机器人的硬件性能出色,但软件质量有待提高,配件价格偏高,质量却一般。其客服服务质量较差,与消费级电子产品公司存在较大差距。 宇树公司目前的状况并非其成功的全部原因,需要进一步了解其公司历史和优势。 @Rex 陈正翔 : 我对宇树机器人的评价是:性能不错,但软件粗糙。其电机质量不错,但在软件方面表现粗糙,SDK缺乏注释。硬件性能出色,但软件质量有待提高,配件溢价高,但质量却未能达到预期。 宇树公司发展与早期航模配件的国产化和成本降低密切相关。其创始人王兴兴的研究生毕业设计是一只机器狗,这为公司发展奠定了基础。毕业设计机器狗在网络上获得广泛传播,为他创业积累了原始资金。 宇树公司于2016年推出首款量产机器狗,价格远低于波士顿动力,但性能也相对较低。早期融资不足,一度面临裁员困境。2022年推出过一款名为“健身蹦”的产品,这可能是由于公司经营压力导致的尝试。 2021年特斯拉和小米相继发布人形机器人和机器狗,对宇树公司造成一定影响。宇树公司于2023年发布了其首款人形机器人H1,紧随特斯拉之后。2024年发布了价格低廉的人形机器人,引发市场关注。 宇树公司拥有多种类型的机器人产品线,其产品线丰富,这与其创客公司属性相符。宇树公司擅长降低产品成本,同时保持较高的性能。 宇树机器人的购买群体包括教育、科研机构以及一些创意用户。一些科研机构使用宇树机器狗进行更深入的研究,例如环境建模和运动策略,并使用自己的算法进行更深入的研究。宇树公司类似于笔记本电脑制造商,提供硬件平台,而科研机构则负责软件开发。

Deep Dive

Chapters
本期节目深入探讨了宇树机器人公司的发展历程、产品特点、以及市场表现。节目揭示了这家公司“朴素粗犷”的经营风格,以及其产品在科研领域的垄断地位。同时,节目也探讨了宇树机器人的优缺点,以及其产品在消费者市场中的表现。
  • 宇树机器人公司发展历程
  • 宇树机器狗在科研领域的垄断地位
  • 宇树机器人的优缺点
  • 宇树机器人在消费者市场中的表现

Shownotes Transcript

大家好 欢迎来到脑放电波脑放电波是一档关注科技前沿品牌营销和个人成长的谈话类节目每期带给您一个有趣有据的话题帮您在信息严重过载的现代世界小幅自我迭代我是托马斯我是尼克森

大家好 欢迎来到脑放电波最近刚刚召开了一次非常重要的企业家座谈会在这个座谈会上我们可以看到科技圈的大佬云集但是我们也看到了一些陌生的脸孔不论从创始人的资历还是从公司的规模两家格格不入的公司一家叫 DeepSeek 创始人梁文峰到了现场当然这家公司现在已经近人皆知了另外一家公司就是语术 Unitree

他的创始人王欣欣他甚至坐在了 C 位今天我们要跟大家好好聊一聊的就是这家叫做 UniTree 的机器人公司那么在本期节目里我们会跟大家整体聊一聊语术是一家什么样的公司它到底强在哪里又弱在哪里听完我们这期节目你会对语术有一个更完整的了解

那么除了语速呢整个机器人行业现在进展到了什么样的阶段有什么样的技术流派在这块我们也想让大家有一个更完整的概念那么为了更好的聊机器人目前的进展今天我们请到了我们的返场嘉宾 Rex 因为他刚好在过去的半年里就在做机器人相关的学习和研究我们欢迎 Rex

大家好我是 Rex 然后很高兴又回来刚好过去几个月都在捯饬机器人然后过去一个月我更是在无锡的清华智能研究所这边在做一些双臂的居身机器人的一些模型训练刚好我也买过很多语术的东西这些可以跟大家一起聊一聊

是的,我们认识的人里面,Rex 应该是买语术机器人相关的零配件最多的一位朋友对,时间也比较悠久,所以说相信 Rex 的这种亲身经验吧,会给大家对这家公司带来非常多的这个不一样的感知尤其是 Rex 说准备今天教一教大家怎么样给所谓的 AGI 机器人打假,我非常期待这个部分啊

语述这家公司我们觉得之所以我们想讲的话是因为我们会发现当我们稍微跟身边的语述的一些前员工或者跟一些用过语述的一些用户接触过之后我发现这家公司其实还挺两面的现在外界主流媒体传播的叫做他们是杭州六小龙然后老板叫年轻有为但事实上我们了解了一些他们是怎么样去对待用户的然后老板出来分享讲自己的经历是一个什么样的一个风格总体来说就这家公司挺接地气或者挺朴素的

在所谓的 AI 时代今天大家看到的所有新闻都是什么大厂高管出来创业或者是很好学校的教授出来创业科学家对 这个老板的王兴兴这个人的背景可以说是截然不同甚至是体现在民企座谈会上我记得当时王兴兴是唯一一个穿着牛仔裤去的

还是一个非常年轻化的这样的一个状态对吧所以我觉得这是第一个点就是这个人和整个公司的这个风格非常的不一样和我们传统概念上的一些很精英的公司我们在了解语术这家公司的一些产品的一些过程当中我们会发现说语术这家公司并不是像很多媒体传播的那样一开始就想好了要去搞什么 AGI 人形机器人的这个终极形态对吧它其实不是一开始就想好的

他一开始也没有这么所谓的这么极致的专注去做一件事情所以我觉得这个是我作为一个产品经理这个是挺不落我脉的这次除了 REX 作为语述的资深用户的一些体会之外有限的时间内我们找到了 10 个买了语述的产品的一些普通消费者和开发者我们把这些信息都呈现出来我们完整的讲一讲语述这家公司的正面和反面分别是什么样子我们先把语述的最近的几个大新闻除了刚才讲的座谈会

其实语书在最近几年其实都挺出圈的 21 年的时候其实他的小狗当时被伪装成一个牛就上了春晚后来呢他的狗变成了这个轮式的就可以更好地适应所谓的全地形越野这样一个产品也是获得了很好的一个曝光那直到 25 年呢就是春晚就是牛秧歌嘛他的人形机器人总而言之是传播的是很好

这次也看了一下它的市场表现确实是非常不错我们看到两组数据是非常惊讶的一组数据是我朋友圈里的一位机器人行业的创始人他发了一个截图是京东的机器人销量排行榜京东的所谓机器人销量一般都是一些儿童机器人语数的机器狗大概售价 2 万不到它就排在第二然后语数的上面和下面全部都是儿童机器人对应该是百元级的吧

对对全部都是百元级的产品所以说当时这位这个创始人就在朋友圈里问说到底是谁在买这个机器狗对但这个时间点已经是雨树出圈爆红之后一个是春晚第二个是刚才我们提到的这个企业家座谈会对

这两件事情让语数今天是炙手可热比如说机器狗它在全球有 60%以上的市场占有率非常垄断级的一个数字包括它的人形其实也是卖最多的那我作为一个科技爱好者我基本上最近一到两年之内我参加的所有科技展会基本就是随处可见这个语数的机器狗了对上一次在深圳看一个创客的展会当时有 20 个小孩围着狗围了一下午也挺有意思的一个场面吧嗯

包括这个巨声智能那些讲座如果是涉及到狗形态或者人形形态的那基本上都会这个教授或者说这个 PhD 一般都会说曾经在语术的哪个哪个平台上做过什么样的开发对吧所以说基本上可以说国内外所有的跟机器人相关的实验室吧可能语术是一个标配产品这里我其实想问一下 Rex 就是为什么全球的科研单位他们都在买语术的机器狗它是有什么特别之处吗

我觉得几个原因一个是语数其实人行是去年和前年刚出的产品它之前很长一段时间其实都是一个所谓的卖狗的公司但其实整个你看全球的狗你能买的其实不多就基本上除了不顺的动力语数其实你第三个选项都很少

可能像 ETH 那边是有 Animal 但选项是很少的但语术可能它价格又不贵然后整体就也还行所以它一直以来是一个作为教育的供应商的存在而且因为它卖的就是一个特别底层的它不提供任何程序它就给你一个你自己可以在上面插一个 Linux 电脑去用任意的方式去写程序但是如果你买比如说波士顿动力这样的它还会给你一个他们专用的手柄什么这些东西你只能在技术上去做开发

所以语术的机器狗作为这种科研平台非常合适的一个载体对吧对对比如说像这个人型机器人那更是这样了就是如果你去买一个现在的这些人型机器人你买回来它肯定不可能让你去完全的自主开发它里面的内容甚至可能在今天这个阶段你拿钱也买不到一个人型机器人

那宇树可能是为数不多就是它是能够去买得到的对宇树的最新的这几款机器人现在都是在网上有卖的只不过最近卖断货了对吧对因为可能它以前一直做教育它一个是教育它的收货时间也比较长它很长一段时间也是预定制就不是现货你要先订了之后可能隔一两个月发给你它其实都打散了也卖电机也卖传感器也卖摄像头也卖

对就像刚才 Rex 讲的语术的这些机器人不管是狗还是机器人一个普通用户买回家几乎可以说是没法用的对吧它是不带系统的或者是一个简单的遥控程序对因为它的产品线无论是狗还是人都是分成两个版本就一个是消费的版本然后这个版本就是带一个遥控的程序但是你是没办法在上面再进行开发的然后另外一种版本就是这个教育版

当然它果材可能也出于这种教育的定价因为教育通常它销售成本也高一点所以它其实价格是要比普通版 143 翻一倍一般但好处就是你可以在上面去做二次开发反而它就完全不给你程序相当于你买了一台不带系统的电脑你要自己装系统有点像我们 PC DIY 早期的那种兼容机对吧你自己传了一台机器只不过语速可能提供了一个比较好的装机的服务

但是它没有带所谓正版系统对其实很多人选它也是因为主要它每个零件打散了也都能买所以你也用坏了你也可以方便修什么的所以语数还卖零件是吧它零件甚至它是它还挺重的一个业务就它的无论是电机激光雷达然后它这些零件都是可以拆散而买 Rex 其实是语数的老用户了对吧你买过什么样的语数的产品然后体验怎么样

它的电机然后激光雷达然后这东西都买过因为正好上次来参加节目是因为我做的电动轮椅对我电动轮椅就用的就是宇树它狗的肩关节做的轮子电机然后整个定位 SLAM 也是用的它的激光雷达感觉怎么样呢

不怎么好用他们的东西性能是不错的因为在关节电机这个领域里面因为关节电机其实是个新品类这个品类里面他们算质量做的还不错的然后相比很多淘宝的因为关节电机这个领域今天有很多玩家还是这种创客级产品的工业化程度还不高所以他们相对来说算用料比较足一点做的还不错的但是他们的软件又做的很糙

他们软件基本上就是拿开源的东西就直接扔给你自己回去捣鼓然后他们的很多 SDK 什么的也是完全没有注释就是随便写几行代码就放上去了听起来好像和大家的概念不一样因为大家看到说语述的狗能跑

能跑得很快然后机器人能站起来丢手帕在春晚上大家感觉就是说这个机器人至少在行动的这种算法上应该是很厉害的但是没有想到说它提供的零部件是一个非常 open 的出矿的一个状态对吧对 我举个例子就是他们的电机需要用一个转换板把 USB 转换成他们的 485 的信号但这个 485 转换板其实对于创客来说你家里总归是有好几块很常用的一个东西

但是我就发现为什么我自己的那台板子都用不了后来去问客服我就为什么这东西用不了他说不好意思就是一般的转换板用不了你得用我们特制的转换板我说那行吧就正常一个 485 的转换板可能也就 20 块钱 30 块钱但他说我们这个就是 100 多因为我们怎么怎么着我说那行吧就是你们专用的我就只能加点钱买然后结果转换板过来之后它就是一块 PCB 外面套了一个透明的热缩管 OK

就非常原始的一个东西然后它那些配套的线数它那个电机的连接线也很贵就 30 厘米吧一个很短的一根线是差不多卖五六十一根还挺贵的就是那根线我一开始也觉得 OK 那学苹果对吧就是你配件卖的贵一点

但那根线收到了之后它 4 根电线因为它的 4 根电线是松散的然后它就中间用热缩管把那 4 根电线给它扎了一下就这个完全就是那种大家打机器人比赛的那种学生会用的这种手法尤其相比它的售价如果你像苹果一样对吧收了一个很高的溢价你就应该给我提供一个很高品质的东西

对我觉得这可能是大家对于语述在新闻里面高大上的印象不同的第一个点实际上语述今天提供的产品它不是一个工业级的产品它更像是一个比创客级高那么一点点的主要面向开发者和玩家创客的人群的一些产品的水平这是第一个差异点对我觉得确实因为你的服务品质或者你的这种交付是跟你的产量有关的吗

如果你现在做的电动牙刷对吧这样一个大图 C 的产品品类你很难在细节上不做好因为你会被客服疯狂退货或者越常委的用户他越挑但可能以前的这种科研客户一个是他们也有一定的维修能力然后以及他们很多也出口出口了你退换货很麻烦的很多可能也就自己汗一汗修一修就凑合用了所以可能没有太多这种收获的问题

但我是因为在国内用习惯了国内有问题马上淘宝客服而且我还是在他们淘宝期间里买东西他们经常就跟我说你这个问题去官网提个供单然后等供单慢慢给你排队回复有一次特别离谱的是他有一次给我漏发东西了有一个零件我后来几天想起来我说我是过一天打比赛你能不能赶紧给我催一催给我寄了客服居然跟我说他现在去仓库路上他说去仓库看一下当时就给我惊了我理解中我是做电子消费的在

在淘宝上如果你开一个旗舰店你的客服体系什么应该是一个非常完整的你有 ERP 而且你的客服是客服仓管是仓管对吧售前售后都应该是有分工的这种回复让我觉得就是一个我如果买个腊肉对吧就是那个人说我去这个仓库看一看我那腊肉有没有货什么的所以它的产品不是工业级的它的服务也不是一个消费级的

它就是很明确的我相信其实语数在爆红之前它就是一个面向创客和科研机构开发者为主的这么一家公司因为这个品类它的销量也不是那么大在之前其实也客观反映了整个机器人行业的现状如果是这样的话其实大家肯定想要了解一下语数这家公司我们今天讲的不是特别好的一面也不是不好只是阶段是吧在这样的一个量级和这样的一个阶段

展现出来的能力其实就是这样子的但是这一定不是语术可以参加这么重要的会议能够在全球卖到这么好的主要的原因所以我觉得确实可以看看他的公司的历史以及他到底强在哪里我觉得我们可以往下再挖一挖

我觉得语术这个公司它其实有时代的必然性就是即使他不做这家公司也会有其他人做这家公司因为这公司确实比较早我觉得在早到这个故事来从这个村田的 ENC03 角速度传感器开始想起我相信很多玩这个四轴的就是

就是四周飞机的这些早期的人都知道这款传感器然后春田是一个日本的一个原器件厂家他们最早就是靠做角速度传感器出名他们最典型的有一个叫春田顽童就是一个骑自行车的小机器人

然后这个骑自行车小机器人他就是能够保持平衡让这个自行车不倒还能走钢丝啊什么的展现了他对于这个角速度也就是平衡的这么一个很强的传感器能力所以他最早是靠这个但在这个东西出现之前你得用那种很大的这种机械式的这个陀螺仪才能去处理平衡这种事无论是四轴飞机也好还有包括其实做狗最重要就是保持平衡嘛

这一切基础都是从这个地方开始做起点陀螺仪这东西可以变得小型化然后后来还有一个事是 PS3 手柄 PS3 手柄一度是对很多国家是禁运的就是因为 PS3 的手柄是有惯性传感器是

虽然很多游戏也发挥不出这个功能来但是他们那个手柄上刚好就有这么个芯片对但这个惯性传感器是可以做导弹的灌导的当时就是他们很害怕这个 PS3 手柄被买回去拆这个芯片去用因为这个春田的角速度传感器它一次只能采集一个轴的角速度

所以它其实要用三壳才能采集到三个方向的角速度然后它其实还要再配合加速的传感器然后融合成一个再加上螺盘融合成所谓的 IMU 也就是姿态传感器对这也是无论是做四轴还是做狗没有这个姿态传感器就都无从谈起

这个传感器其实在手机因为手机就是我们的横屏竖屏其实利用的就是这么一个传感器但在手机在大规模使用这个功能之前这个种传感器是比较昂贵和稀有的这是哪一年的事我猜可能是 0910 可能那会儿所以在 0910 年那会儿要搓一个四轴飞机出来是很不容易的

然后包括整个平衡的算法也是很难写的这个事又刚好是跟航模连在一起后面还有一家公司叫 Hobby King 然后它是一个专门做航模配件的如果你是玩飞机航模什么的你就一定会去买 Hobby King 的从无刷电机到无刷电机的控制器就是电条包括这些各种各样的一些飞机的配件什么的包括地上的就是遥控车的这些配件

之所以提这个是因为这些产品在开始大规模销售的时候他们逐渐开始在中国找代工因为中国代工这个东西的成本就更低然后当然后面中国还有一个叫好银的就 HobbyWin 的一个公司但其实后面也做的很大然后包括我后来创业我电动滑板它也是我们的供应商也给我们提供这些无刷电机的和控制器的这些东西

但这个东西直接催生了说作为一个普通玩家你能够去很方便的去买到高性能的无刷电机和它的控制器对但在这一波航模的国产化代工之前你如果没有这些东西你就做不出来

但狗这个东西很重要两个点就一个是它在能知道自己的姿态一个是它要在摔倒之前调整自己的姿态但没有无刷电机的话你是没有足够的响应度和加速度去完成既有很强的力量支撑自己又能够很快的去把腿放到该放的地方对所以这是我说他前面就聊的这个历史必然是因为只有这些条件到位了然后这样的产品才有可能诞生或者这样的产品它天然就会诞生

对也就是说有了这个脚速度的传感器然后再加上惯性的传感器之后他们到了中国代工有了生产这个大规模生产这些配件的能力对然后后面会产生一个什么故事呢这里我们的主角也可以出场了就是不电了好久黄星星应该是在 2010 还是 2011 年左右开始他的研究生学习嗯

他的研究设计段其实就得益于这些基础的供应链和元器件的进展

他那个时候其实就可以用 1~2 万人民币的成本做出一个能够稳定运行的机器狗原型这里就切到语术家公司的历史其实语术家公司的历史其实可以说是王兴兴的大学研究生阶段的毕业设计就是一只狗然后这只狗呢很巧就是他被当时的 YouTube 和 Youku 被这两个网站上面在视频有很好的传播他在毕业之前其实稍微已经有一点点出名了

包括他自己也说还当时他创业的第一笔钱其实是毕业项目拿了一个上海比赛的一个二等奖然后赚了七到八万人民币吧他说这是他的原始资金毕业之后呢王兴兴短暂的去了深圳的大江创新这家无人机公司

单的无人机其实最核心的电机也是无刷电机在大疆短暂的待了几个月之后很快因为机器狗的这个项目在外面传播的很成功所以受到时代的召唤吧他就说要说来创业所以说呢大概就是这样的一个过程这家公司真真正正开始有产品发出来呢其实是 2016 年

他自己对这个产品的描述是叫做能够量产的低成本和高性能的稳定行走的四足机器狗方案那个时候大家的脑子里都是什么呢其实 2016 年是波士顿动力发布了他自己机器狗大家有印象的话会记得那个时候其实很火有各种各样的视频比如把他踢倒有个人打他对吧然后他又会站起来等等然后看起来很强跳跃啊对那会波士顿动力的那个属于科技术上的最顶尖的

所以王兴兴的产品波斯顿动力是十分之一的价格但是唯有 30%到 40%的性能这样的一个定位那个时候波斯顿动力的产品要卖给美国的政府和军方所以就直接搞到了百万美元级别但王兴兴的产品 16000 美元这是他们第一款量产的产品

就直接整一个把科研这个地球就完全打开了对但是呢我在后来的这个材料里面能够看到就是说王星星后来自己在描述这段经历的时候可能机器狗只卖给科研单位这个市场确实有点太小了出现一个问题他 17 年左右的时候他的融资不太够只是融了小几千万人民币然后呢导致于 17 年的时候一度是发不出工资要去裁员的嗯

所以大概是这样的一个状态吧但是呢这家公司很快 17 年算是从这个低谷期过了之后呢又重新步入正轨所以我们就能看到后面比如说 21 年他的四足机器人第一次上春晚嘛迎来了一些标志性的一些事件但总体来说做狗的这个过程其实都不算特别的顺利

在产品的历史里面我还能够发现一些线索它是 21 年上了春晚但它 22 年 4 月这家公司还做了一个我觉得很奇妙的产品叫做健身蹦这个蹦是拿来干什么呢它相当于说这个蹦是可以左右两边连两根绳子然后它可以去模拟不同的重量然后你把那个蹦把它连在墙上然后你再配上一个小轨道你就可以在你家的墙边上模拟就划船机

如果你把那个泵用一个吸盘把它连在地板上它就可以给你制造类似于说那种台那个杠铃就是什么 8 公斤 10 公斤的这种配重你就可以随便上所以就那么一个产品我当时直观看到这个产品的印象就是说一定是有经营压力的硬科技公司

它因为自己原有的产品太过高端或者太过前沿无法快速的商业化它可能又有一些先进流畅的压力所以才需要做这样的一些产品总而言之这个产品今天还挂在语术的官网上但总体来说商业其实完全都是不成功的这么一个产品然后有另外一条时间线我觉得大家可以参考一下其实在 2021 年 8 月特斯拉发布了它的类人机器人叫 Optimus 也是同一年小米开始做它的第一款四足

机器狗所以在这个 21 年我相信语术一定是有考虑消费市场的在做四足机器人以及相关的一些配件主要还是在面向创客市场但这个市场显然不够大而 2C 他们又没有足够的实力这个也是王欣欣在一个采访里面她自己讲的

就他不是不想做 2C 而是在做 2C 的时候他需要更多的资源就造成了一个直接的结果就是 22 年 4 月不得不做一些奇奇怪怪的产品来养活他们的团队因为他同时面临了一个全新的大家注意力开始往这个类人型机器人转而且在这个四足上我们也看到了像小米这样的消费电子的巨头开始做这种东西了对所以这个可能是他也相对比较低迷的一段时间但是很快呢

他就看到了类人型机器人有可能成功的火花对而且他还挺直接的他就说好多朋友看了 Elon Musk 的 Optimus 之后会跟他讲说这个技术其实跟你们让四足的狗稳定走起来技术有很多相似性是的他们很多朋友就建议他去做所谓潜力更大的人型机器人对我觉得这漏了一条时间线是自动驾驶的时间线因为学术它是有周期的嘛

可能在他的小低谷之前的时候学术上是会希望买一些狗去做一些研究但是可能刚好在他的 21 年 22 年那会儿应该是学术的主流都去搞自动驾驶的研究去了也不太买狗了对那些人可能去买车买激光雷达去了但是可能在 23 年那会儿的时候可能学术界又发现好像车这东西又研究的差不多了因为剩下都是一些细节问题了

或者说自动驾驶所谓的能力高低很快从学术界转移到了厂商大家发现没有我们实验室什么事了厂商都能直接上真车了不需要再用狗来去做什么环境计划导航这些基础的研究已经不太需要了我们就看到的下一个时间节点 2023 年其实语数第一次发布了它的人形机器人叫做 H1 其实就是 2022 年 9 月伊罗马斯克展示了特斯拉的第一个人形机器人一年之后语数就很快的就跟上了

在 2024 年还会有一个时间节点他有一个人型机器人呢做到了超低成本多少钱呢 99000 然后呢他的核心的卖点呢是叫做这个超大关节的这个灵活自由度我记得当时出来的时候确实是挺震撼的因为之前大家都觉得是说买这个东西可能都是几十万上百万的一个产品

但没有想到说语数给你打了个标签叫 99000 然后还为消费者简单的一些操控使用给配套开发了一些软件和 APP 我记得我们之前聊过一期 Aloha 斯坦福的机器人对它是一个开源的方案当时是需要 30 万我们在节目里其实已经在说了 30 万是一个非常便宜的价格了 30

30 万是人民币单位但是已经是学术界很盛赞的一个价格了然后 2024 年的 5 月 13 号他卖的这个机器人只要 9.9 万他比阿罗海还多了个下半身还能走路对对对所以确实是很震撼的其实以上语述今天的产品线我们其实都已经过过了有四足能有走的也有四个都是轮子的这个都是狗形态的

然后呢有人除此之外呢还会有些零件或者是边缘的一些产品比如健身然后零件呢有激光雷达零条手机械臂这个就是大家能够在语术官网上看到的所有产品的这么一个形态吧我是挺受震撼的吧我其实挺想知道语术内部是怎么运作就是你能管理好这么多产品线同时有一点两条产品线是特别拔尖我们叫垄断式的这个领先的

因为这个跟我们产品经理一般认知的初创公司的能力不一样一般一家初创公司你能做好一个产品线能够靠这个东西活下来就非常不容易了但是我觉得如果你把它看作一家消费电子公司确实有一些不够专注但是如果你把它看作一家创客公司其实买符合逻辑的

因为我们看到的创科公司的特点都是这样子的首先它要做很多配件第二它可能在产品形态上也是一个不断因为所谓创科我们可以理解这个品类的原型机还没有诞生的一个阶段才叫所谓创科

在这个阶段它自然是会做很多的探索的其实我们知道很多的创作公司都是这样的就是这种给全世界的 maker 和科研机构提供零件的公司可能都是这个状态总结一下语述的整个发展时间线你会发现它非常擅长把一个东西的成本给它打下来而且还能保持在一个非常好的性能的一个线上

那接下来我们想要讲一讲就是说到底是什么样的人他今天会在买语术的机器人和机器狗我们做了一个简单的调研我们会发现一些很有惊喜的一些东西因为如果你只是把它当做一个给科研机构卖实验设备的一家公司我这次找了十个人就发朋友圈和这个社交网络就问说有谁在用或者说你身边有什么样的人在买最多的确实就是刚才提到的教育科研同行甚至拿来做表演的因为现在这个表演属性比较强

大家应该都在社交网络上有刷到过一些自媒体的博主用一只机器狗然后拍各种各样的这个机器狗好像无所不能的那种视频就是第一人称视角去买东西去遛狗去拿快递然后在家里面做各种各样的事情这个其实目前看应该不少就是语术的机器人

但这些呢我觉得可能跟大家的生活都没有太大关系我找到了一个很惊艳的一个用户他做摄影的然后呢他是把语术的这个机器狗呢做了非常多的二次加工和改装然后呢这个用户呢第一呢他就用语术的机器狗替代了他的摄影助理怎么替代呢拍人的时候有个补光板对他就让机器狗去带那个补光板去运动那这是白天到了晚上呢你晚上拍东西你要补光灯嗯

他把那个灯给架在机器狗上然后就直接能用手机去遥控传统影视制作里要实现这样的东西它得是一个小火车一样的一个小轨道然后你设定这个程序摄影机在上面自动走或者自动的给你补光那它现在变成了一个很便宜的两万块钱以内的一个机器狗就能去帮你解决这个问题

用户也跟我说了一些他生活里的用力他还会让这个机械狗去做一些其他事情他会给机械狗配一个机械臂然后那个机械臂上面呢是一个网络摄像头然后呢这个机械狗的背上呢就背了机械臂摄像头和这个电源然后他就可以通过手机的远程操控比如说家里来人啦或者设定个自动程序就让这个狗自动的在家里面巡检一圈这样的话呢就起到一个安全监控的一个作用

这个还是蛮惊艳的这个用户是找到了一点点在家里面怎么去让这个东西很有作用的一个感觉了这次其实也找到了一些其他用户他们是用其他的一些机器狗我就问他说你为什么现在嫌这个产品不好用他们一个是说其他的这个狗呢机动能力不太够主要是指能不能爬坡或者是说偶尔有个跳跃跌落之后它能不能自己恢复那这方面不太行包括我们看到市面上可能一些一万以内的一些机械狗吧

它的可能续航时长可能就只在两个小时之内但语数是在四个小时以上语数可以背 40 公斤的东西最重所以整个语数的机械狗这个机动能力确实是给这部分的用户带来了极大的惊喜以及就是说因为你机动能力你再加上有一个很宽的背你就可以在上面放各种各样的东西来去实现不同的用途也有用户跟我去说就是说其他的一些产品对二次开发不友好刚才我们其实觉得语数对开发者可能已经有点粗糙了对吧

但你会发现说语数在这个行业里其实已经上是拔尖的了就是它有一个非常 open 的系统只要你有一定的代码能力你想把它做成什么样子都可以所以对二次开发是非常友好的不过听起来这些用户买的应该是那种不是开发版的是一个遥控版的对遥控版语数对吧就是大家听到刚才听到的大部分的功能其实是通过遥控

的这种机制来完成的而不是说这个狗真的是一个摄影助理他自己说你到那打个光他就去了而是你要遥控把它挪到那个位置或者是说他们会在 APP 里面提供所谓的图形化编程你可以提前写一个程序在里面比如说 5 秒钟之后往前走

然后 5 秒钟之后再往右拐对吧就这种程序你是可以体验些好那这样的话当你的模特实际摆动作的时候摄影师就 focus 在自己的相机里面然后打光环绕光之类的这只狗就自动帮你完成了这个部分其实给我的一个启发呢语述的这个机器狗的产品其实今天很像早年间的金塔电脑或者是 Windows80486 这样的一些电脑

刚开始有一小拨人然后这小拨人呢有相对强的动手能力真正吸引这一小拨人的呢就是语述的非常强的机动能力和 RT 开发的这个能力对吧简单的说我听下来的感觉啊首先我觉得这个机器狗的性能确实很强因为刚才提到了机动性能比如说负重刚才听到是 40 公斤就意味着其实一个小孩坐上去都没有问题

它这个负载能力其实是蛮惊艳的然后呢它的速度也可能更快一些它能够适应复杂的地形就意味着它能够跟着我去户外的很多地方嗯

其实这些都是我觉得比较吸引我的地方但是为什么没有那么多人用我觉得价格是一方面 2 万块钱仍然是一个相对比较贵的消费品但是主要的原因还是它的用途是需要你有非常强的动手能力匹配它才会有一点用的其实刚才举的例子也是个摄影的例子它仍然是一个偏生产力的一个例子

大部分人要么就是为了拍个短视频要么就是买回去研究它都不是一个 2C 向的一个很好的一个产品我听下来的感觉就是性能很强但是仿佛没有什么软件的或者说它的 AI 的能力到现在为止我们其实没有听到太多的

这块我们会更详细的讲好那什么样的人在买机器狗解答了那什么样的人在买语术的机器人对这是我们要解答的下一个问题这次准备这些节目里面很惊喜的是我当时在问朋友说哪里可以体验语术的这个机器人就有人给我推荐了一个语术的员工可能做 sales 工作的或者行政偏接待工作的这么一个人吧

他加上我的第一句话我觉得特别有意思这个人把人行机器人的你对他的所有幻象误解却都打破了这个人一上来跟你打招呼是给你贴个 Q&A 但这个人的 Q&A 说了什么呢特别有意思他说我的这个人行机器人标准版 9.99 万你要注意我是不支持阿斯开发的嗯

他只是那种来展示和做一个玩具然后他说我的这个教育板呢价格在 20 到 40 万之间但接下来说到的话是更有意思的他说如果你是想要做这个物流和迎宾就是迎宾就是这个酒店大堂对吧工厂大堂最近半年我们接了 5000 多家的电话

你现在拿来做技术储备还可以但是呢做实用化呢还有好些年要走然后呢接下来的话就更有意思他直接跟我讲了说我个人认为人型机器人还有以下四大技术难点需要突破以及分辨他说稳定性可靠性的问题呢要等到 26 年 6 月精准导航的问题呢最迟 28 年然后呢手和机器人的手和眼睛怎么样去协调呢他说搞不好要到 2034 年嗯

到最后说了两个一个是说怎么样理解这个复杂的地形以及怎么样对物理世界有一个正确的认知有一个正确的动作他说要到 2030 年我截止目前我只跟他说了句女好他就把这五个点跟我说了所有的这个缺陷或者所有的大实话都很坦诚的说了最后给了一句话我们在这个阶段我们主要是给你基线的主体我们可以给你开发资料但是开发的事你不要找我了不是我们这公司的定位

我们当时看了兜子觉得非常惊讶第一次看到有一家公司接待的人一上来就跟你这么说的你肯定能感受到他肯定是被问了很多次这不就有很多误解他才会这么说你也能感觉到他的业务很火热就挺坦诚的这里面其实他讲到了蛮多关键点比如说我们主要提供机器人的本体这句话其实蛮有意思的

包括刚才我们讲了很多语术历史的发展它有哪些地方强对吧我们其实整体大家都过了一遍我们现在就发现了好像缺了哪一块它好像完全没有提到巨神智能这个词或者说它对外传播截止目前就很少讲到这个事对然后我们再看它给我们发的这些内容它会讲到其实它提供的就是一个本体就是一个空的机器或者是一个面向大众的遥控版的机器

其实这可能就是我们接下来要想要聊的一个话题就是语术的机器人刚才讲了很多强的地方它有哪些不够强或者是我们目前看不到的有疑问的地方对的确它是一个本体的公司消费者还是很容易把它跟巨声智能公司放在一起去类比

他看起来因为也是一个人嘛然后他而且他经常语术经常会发一些跳舞的视频无论是狗跳舞还是人还是人跳舞尤其是最近他发了一个除了春晚之外他还发了一个这个 J1 跳舞的一个视频是对 J1 是他们的一台人形机器人哈对稍微小一点

刚才提到 99000 那个对很容易让人去混淆会觉得跳舞是一个很应该是更复杂的事因为看起来他的手眼协调变得更复杂了但是事实上巨神智能公司他们的出发点什么是完全不同的

然后咱们可以展开来讲一讲比如说为什么讲跳舞这个东西很容易造成这种混淆它的整个跳舞的技术其实是从大概两年前的迪斯尼有一个 BD1 的一个小机器人长得像个鸭子然后他是在迪斯尼乐园里面跑来跑去然后他就是一个两足的一个机器人两条腿

星球大战里的一个角色但迪斯尼当时是发了一篇论文然后也去讲了他整个的原理其实他们整个这款机器人在研究一件事是什么呢因为在机器狗这一波里面大家是研究出了怎么让机器保持平衡但是这个保持平衡它只能保持平衡站着的时候它是不会乱动的但是迪斯尼它的第一优先级叫表演出角色性格和舞蹈

所以他是希望那些机器人平时要有呼吸感像迪斯尼动画一样然后这个角色他走着路或者打个喷嚏还要身体抖一抖他要表现出那种角色的像动画片一样的这种感觉来所以迪斯尼他们就做了一个研究就是我如何让他既在播放动画同时在播放动画的时候如果他的平衡受到了干扰他要去保持动画播放和身体平衡之间的一个融合

你说的播放动画指的是播放一个动作对不对对对因为迪斯尼他们会有这种动画师就像做游戏和做这个动画片的动画一样

他们会去给这个角色设计动画就比如说小鸭子走路左右的那个他要有那个憨态有可能他就是左右他有一个稍微的摇摆的动作你可以想象对所以最早这个东西的起点是从这个迪斯尼的 BD-1 的这个模仿学习开始的当然其实今天你在 B 站搜这个赛博鸭 B 站的 DIY 区有很多同学在去试着复刻这个东西

然后因为他也是有一些开源的项目可以去参考那其实语术无论是这个春节的还是他最近放出来这个舞蹈的视频他其实用的背后的技术都是这个和模仿学习通过强化学习来去让这个本体无论是狗还是人去尽量接近于他的这个动画的动作在此前提之下再去保持平衡所以他在跳舞的时候受到一些外力的干扰比如说扔个球啊或者拿棍子戳他一下他依然可以保持平衡

嗯,这也算是巨神智能的一种,对吧?它相当于在基础的能力之下做一些模仿性的动作。但其实巨神智能并不在研究这些方向,因为巨神智能现在主要的研究方向还是在于手部,就因为你既然不是一只狗而是一个人,那你的双手被解放了,其实是要解决双手的任务。

的确大家在关注的是怎么让它去释放生产力大家觉得保持平衡这件事就是能走路就够了走得好不好这件事现在大家是暂时且先放在那边了就没有继续去点这些技能点了它之所以给人很多错觉是很多人会以为这个跳舞的机器人是拥有了非常强的智能所以它能跳成这样但一个残酷的事是它在跳舞的过程中它的眼睛是看不见东西的它是完全闭着眼在跳

他只是背熟了一套动作对他背熟了一套动作然后他在播放一个动画然后他比起几年前因为几年前也有很多好几家机器人公司他们也有这种舞蹈的这种机器人对

也是播放动画但这两者的区别在于以前的那些波机器人他们没有办法保持平衡而现在的这个算法是在播放动画的基础之上再叠加了保持平衡就是说以前的机器人跳舞的时候如果你对他进行一些扰动他就会倒了对所以大概在 15 年 16 年左右我们看到一些机器人公司像春晚他们那个机型类似于是放在舞台的背后就是人类演员的背后然后可能单独搭个高台那个机器人是整个过程当中是不动的

嗯他就一直在那个背景里面他更多是上半身在做一些好像是这个动作但语术这一次呢就是机器人和人和人一起跳他给你的这个视觉感受确实就震撼了很多对但是根据 Rex 刚才的讲解呢他其实也只不过是叠加了一道保持平衡的这个算法嗯

可以这么理解吧对在这个过程中主要是他对于环境的感知实际上是非常少的他主要还是维持 IMU 的姿态传感就最早的村田传感器的这个故事 OK 他依然是维持这个陀螺仪姿态的一个稳定所以他就是在跳舞同时保持自己平衡不要摔跤对但你前面有没有人什么他其实是不知道的就他有没有打到那些人什么的

明白但实际上对于狗这些训练什么的像苏黎世的 ETH 还有腾讯的 RuboX 实验室就他们也会做一些狗的训练但这些实验室其实他们研究会更加深入一些

就他们在研究的很多是说它有激光雷达然后或者是这种深度相机去感知它前方的视觉这样它可以对环境进行一个建模他们可以表现出的效果是比方说前面有一个狗洞那个洞可能很矮的一个小洞那这个狗在跑过去的时候因为它知道前面的这个环境所以它会主动的去做出钻进那个狗洞的姿势

直接扑扑前进然后钻过去然后或者前面有一道沟那个沟是一个比较长的沟那它可以做出一个腾空跳跃的姿势跳过这个沟甚至急速往返跑就是它进行一个 180 度的急转身有很多实验室在做非常深入的这种就是狗的运动策略的一些研究我想问一下这些狗都还没有量产对吧

它还是更多的是在实验室里面但这些实验室他们很多语术的客户实验室他们反而不想去自己生产这些硬件所以他们其实有可能是用语术的狗来实现这些的但是用的是自己的算法语术就像卖笔记本电脑的一个制造商但他卖的是一台没有装操作系统的一个笔记本明白对 然后这些实验室他们是做软件的他们做的是电脑里面的软件

所以他们相对是完全不同的分工所以刚才你提到那这个舞蹈机器人他可能是盲的他是瞎的是吧那他狗也是瞎的吗这个是看他的配置对因为大家做的一个配置是那个狗的背上你可以去背一个激光雷达或者是背一个各种各样的传感器嗯

这个是语数机器狗几乎是最最常见的一个改装形态吧它可以同时背好多东西就能构成这些实验室去做研究的一些基础就是我默认买回家的狗是个瞎的可以这么讲我觉得这个其实是跟行业发展有关因为今天我们看到的是像语数这样的它就只做电脑然后软件呢它就给你一个遥控板的去演示一下就是最基础的功能实验室他们就只关心这个软件的这个上限是什么

但其实没有人去关心场景就比如说你如果是一个摄影师对吧你要的就是一个专门补光的一个狗其实没有人去做场景应用的未来还是会出现一些软硬件融合的很好的像苹果这样的厂家然后他能够把一个具体的场景和软硬件结合做的很好其实到目前相信大家对语述的产品有什么样的特点它实际至少出圈拿去上春晚的技术是什么样的特点相信大家要理解了

有一个问题还想聊一下,就是总结一下语术为什么强,以及语术为什么能上这个民企座谈会,对吧?其实任何一个学术界的产品,尤其刚才 Rex 提到很多实验室里的产品,原型机是相对简单的,但是把它原型机做成一个可量产的产品,这是非常难的。

这个也是王星星自己在对外做分享的时候非常强调的一个点就是任何一个上市的产品它中间可能都需要至少经过一年甚至两年的这个时间它才能够做出来所以说语术呢其实就是这个落地能力非常强它总是能够用一个相对比较好的成本和价格就实现一个完全在及格线以上的这样一个性能另外刚才提到就是说能够走稳其实是一些模仿学习再叠加一些强化学习做到一些姿态平衡的一些事情

但是如果你把时钟再往前拨十年你会发现这个事情也很麻烦因为十年前这个事情只有哪家公司能做好呢只有波顺动力在量产的项目上能做好而且还卖的非常贵所以从语数动力这个点上来说呢也算是提供了一个非常好的一个技术平台但是我们要强调说这里面的算法和今天的主流的巨声智能是不在一条路线上的但我们相信语数可能内部也在做这方面的研究但是还没有到释放出来的这样的一个程度

又或者说大家的侧重点是不一样的语数提供的其实更多的就是一个大家可以理解为硬件为主的这样的一个产品有点像跟他一起上桌的 DeepSeek 他更多的是在推理能力这一个单点上做到了世界领先的水平而且用很低的成本实现了这件事情所以才有了今天几乎所有的互联网公司跟科技公司都已经接入了 DeepSeek 因为它是一个开源的模型同样的就是在机器人这个领域里面

语术也提供了这样的一个低成本的大家几乎都可以用很低的成本接入的一个硬件平台在这个平台上你可以再去做自己的科研算法我觉得这就是为什么它能够在这样的一个会议中上台并且在一个很重要的位置的很重要的原因它是一个具备战略价值的一家公司它提供了新制生产力它

它是一个最高精尖的制造业的可能性提供了这种非常具有想象空间的机器人这个行业的一个能量产的想象的空间所以说其实我们能够看到给行业很好的带动作用 Rex 录之前跟我们分享说研究强化学习的一些群里就有人在出钱要求付现语数的这样的算法

产品好到一定程度上之后它反而刺激了一些需求另外一个点它还启发了一些开发者和一些早期用户有点类似于说 iPhone 第一代出来那个时候还没有应用商店

有些开发者他要越狱去用 iPhone 在上面开发一些应用类似于那种感觉他启发了一些早期的开发者同时这些人也是最最核心的一些用户这些人会把他探索出来一些带这个摄像头在你家里巡检带你做摄影助理之类的一些应用场景这些应用场景最后是会产生巨大的商业价值和社会价值的

OK 我们基本上把语数聊的差不多了我们从语数看到了机器人行业的一个切片今天的机器人行业恐怕还没有像大家想象的那么快进入千家万户即便是我们今天看到在硬件的承受度相对最高的可以量产的语数其实也不是家庭买回去就能直接用的接下来我们就要聊到一个脑方电波的听众很喜欢的方向就是 AI

为什么大家都开始做人形机器人恰恰是因为这两年 AI 技术的这种快速的迭代大家看到了人形机器人具有通用智能的可能性同时巨声智能其实我们也聊过很多期了它可以让人形机器人有机会去玩

完成更复杂的操作我们想引用一下何小鹏就是小鹏汽车的创始人他们也在做机器人他给机器人做了一个类似自动驾驶的智能等级的分类我觉得还蛮有意思的那我们其实也可以一起来看一下按照何小鹏的分类呢机器人他的智能程度也是从 L1 到 L5 档

L1 就是完全由人类操控就是像遥控赛车一样语述目前感觉上就是它卖给消费者的产品线就是在这个级别就是没有装插座系统只能遥控的那一版消费版就是 L1 级 L2 级它叫基础辅助智能加操控监督它的类比就是说机器人能够执行一些预编程的动作

并且保持稳定比如说现在的一些机械臂扫地机器人但仍需持续的人工监督如果说从编程动作并保持稳定是不是跳舞机器人就算 L2 了对吧 L3 就被定义为巨声智能加训练监督的能力这个就是说机器人在大量场景中不是所有场景大量场景中能够经过训练后独立运行但是有一些部分要人工监督就所谓的接管

如果类比到自动驾驶大家可能比较好理解就是现在我们已经无限接近 L3 如果今天你有一辆华为 ADS3.0 以上的自驾系统的车或者是理想的端到端的自动驾驶技术你就会发现即便在很复杂的路况下大部分时间车自己可以搞定一些复杂的驾驶这个过程中大部分时间不需要所谓的人工介入但是这个时候人必须要持续监督因为有可能他会下一步就无法处理了他只能处理大部分的场景而不是所有的场景

这个就是 L3 级类比我们现在自动驾驶汽车目前主要是在这个级别再往下叫 L4 就是所谓的自成长智能加轻微监督那就是机器人能够执行更广泛的任务并且更少的监督如果对应到自动驾驶 L4 是完全无监督的我觉得有点像中继形态的所谓的智能体 agent

那种能力而且还有协作能力它不仅一台机器能工作因为一个工厂里面它也不止一个工人因为有些任务比如两个人才能搬一个东西或者你要挑一个东西的时候得有个人帮你扶着

明白 OK 然后最后就是 L5 了这个很简单产生了通用型的智能达到甚至超过人类我觉得也是我们现在各位大佬们不管是学界还是人工智能领域大家的终极梦想就是 AGI 这个框架其实挺像自动驾驶的大家如果记不住细节大家就记住自动驾驶可以去回忆 L2 L3 L4 不少的听友应该是至少开过 L2 的车了如果是理想之类的车主或者是问届之类的车主可能开过 L3 的

然后 L4 可能在 2026 年到 27 年就会实现了所以是大概是这样的一个状态我刚才说了语数卖给消费者的是 L1 上传的是 L2 那 L3 的应该是什么样呢我们这天正好看到一个产品我觉得可以很具象的去解释这个产品应该是什么样而且这家公司正好也代表了巨声智能领域最高水平吧这家公司叫做 Figure AI 嗯

它之前有出名的主要是因为它是跟 OpenAI 有深度绑定的合作的对但它在前段时间呢它取消了跟 OpenAI 的合作大概两个月前吧它就在我们录制前一天它就发了一个视频这个视频非常亮眼就是说一个人抱着一袋购物袋然后呢到两个机器人面前说你们两个机器人协作把这个购物袋里的东西分别装进储物柜或者装进冰箱嗯就是需要冷藏的对

进冰箱对不需要冷藏的放储物柜对所以呢整个的他们这个演示视频他们虽然机器人移动的很慢但是呢机器人可以做好两件事情第一件事情呢是一个机器人可以把一个东西顺利的递到另外一个机器人手上嗯

这个点其实非常厉害大家记不记得我们之前有一期节目讲过 Aloha 的时候但是讲 Aloha 这个东西的一个突破性的成果就是叫做两个机械臂在碰撞的时候它这个碰撞模型其实是很难去处理好的所以它解决了这个点就是能手地手的去教东西

而且他那个视频就拍的两个机器人手递手的时候还要先对望一下类似在互相形成默契确认你是不是要松手了我是不是要捏住了但我几乎可以确定的是一个导演行为完全没有必要对吧

所以两个机器人就把大概一个购物袋里的七八样东西分得很好而且放到冰箱里它也是有次序的比如说鸡蛋可能就放鸡蛋内隔隔装的饮料可能就放外侧其他东西放内侧很有规律的这样的一个状态解读一下这家公司释放出来的技术报告开创性的做了一个叫做所谓的视觉语言和行动就 VLA 的模型它能够在家庭里面学习这种全新的任务

VLA 模型其实我们在理想那期提过自动驾驶未来也希望用这样的一个模型去解决它们复杂的问题 Figure AI 它把这个机器人叫做 HelixHelix 它说就是有一个统一的模型这个统一的模型是什么概念其实又回到自动驾驶就所谓的端到端模型的这个概念就原来是多个模型分别在做感知规划决策现在是统一一个模型

再去干这个事情但是这个模型里面呢有两个部分它叫做系统一和系统二熟悉这个思考快慢的这个人你会非常熟悉它的系统一呢它个只有八千万的参数的一个小模型感知和计算的这个频率呢是一秒要决策两百次嗯

但是这个模型呢就是能够很好的去把控这个机器人的动作让机器人的动作更顺滑然后它的系统二呢有气水参数的一个更大的模型然后呢这个模型呢它一秒钟它是运行七到九次然后这个模型的核心呢它是能够解释这个机器人到底遇到了什么听到了什么这其实是一个它是一个语言模型是视觉语言的一个多模态模型对

他把它看到的东西转化成语言然后来解释这个东西是什么来解决分类的问题我这包东西到底要放在哪里因为他有个基本的预训练的智能他知道这个要放冰箱这个不要通过那个方式他以一个大概 7~9 赫兹的速度去我的理解是识别这个画面然后给出反馈这个要放这所以他就可以再通过系统 1 来完成操作

系统一系统二其实也蛮像我们现在看到 R1 的推理就有点像系统二它相对更费 token 思考更复杂的思维链来解决更复杂的问题一些简单直接的问题其实就有点像不通过推理模型的我们之前用的比较多的所以思考快买这本书还挺直击本质的因为我们发现所有的巨声智能也好人工智能也好它在模仿人所以它都用这两种系统来

模拟人的思考方式结果发现还真有效最后说一下就飞格艾这家公司其实它和语述我们觉得就是距离我们还相对远一些语述是有消费级产品的飞格艾呢目前看到的商业化进展呢还是在汽车的工厂里主要是卖大客户基本上是我们目前看到最最前沿的一个成果了最厉害就是这样了还能接触到什么样的机器人呢我自己曾经是一个机器人从业者但是最近几年

我其实对机器人是这个事是变得挺迷茫的因为你去看任何关于机器人的研报他就会把这个上下游的这个链条链的特别长然后各种公司的数量就特别多久而久之呢其实有点把人搞晕了的感觉对但是今天呢我们有 REX 这样专业的从业人士在希望今天呢换一个方法来去讲

这个事情就是说我们希望今天给大家讲一讲这个行业里面我们觉得最值得你去了解的几家公司它代表了一个特殊的一个生态位按照这样的标准来去做的一个选取 OK 那我觉得那接下来我再介绍几家 2C 的公司吧从机器狗这个维度来讲因为它已经相对成熟了有几家比较值得讲的一个叫做蔚蓝机器人它是一个 2C 做的蛮极致的一个品牌

它实际上是一个机器狗做了两个耳朵然后在前面有一块屏幕用屏幕来模拟这个狗的表情价格相比语术也会更便宜一些因为它是纯纯 2C 而且提供一些基础的能力对 一万以内的价格只要我说一下具体的使用场景你就能很好地去理解它的智能到底在什么水平比如说它的智能水平是说你家里有小孩长期地跟它对话它能够有一些记忆在里面其实接入的是一个在线的

大模型除此之外的话就是说能够简单的做一些比如讲故事小狗的眼睛上会配合着所谓的这个 AIGC 生成一些这个图片类似于一个小狗实时生成这个绘本的这种感觉剩下的功能跟具体证明太大关系比如说移动的相机还可以用一个小戒指去操纵它前后左右移动就是类似这样的所以总体来说我觉得一说 Use Case 你就很明确知道它所谓的这个大模型能力还没有到说我们说能够帮你去完成生活里的一些事情

我蛮喜欢这个产品的我觉得你把它定义成一个大号的智能音箱或者是一个点读机而且它整个外观设计什么的也是比较圆润整体还是一个在安全性上比较有保障的一个产品我觉得对于买给孩子来说是个很好的产品

然后除此之外可能更多人知道的就是小米的机器狗小米在 2021 年发布了它的第一只机器狗它的机器狗已经叠过一代了已经有第二代的机器狗了同时它也在机器狗的发布会上发布了它的关节电机价格是非常低的对 500 块像语速智源这些差不多都是在 2000 块钱这一档

将来他直接把价格打到了二五折的样子对就是四分之一的价格你就能买到一个性能还相当不错的电机对所以小米其实我觉得看起来好像是在布了一颗弦子啊

但实际上既然他电机都有了我觉得接下来我们可能可以期待小米在机器人或者机器狗这个领域会有更多的产品但是他之前的产品确实是偏这种他叫探索版一般来讲探索版核心意思就是上发布会上发布会然后卖个几千台给一些核心的粉丝和真的想做他这个生态链的这些人

但我觉得雷总这个布局还是挺好的而且当时我记得他发布的时候也很明确地表示说这个电机它肯定是不赚钱只要这个单品还能销售只要有这些爱好者去买它的产线就可以保得住它的研发就可以继续持续这个还是很关键的因为你有没有关节电机的自研能力我觉得对于一个机器人公司来说还是非常重要的一个板块

电机成本降低是很有帮助的就是我们说我们常见的消费电子类似手机之类的主要是芯片贵但是机器人这个东西是芯片和电机都很贵所以说电机一旦成本下来了其实它会是一个非常巨大的一个优势非常大的一个面向消费市场的一个动力以上可能就是消费领域大家可能会接触到的一些公司还有一些不是那么消费的但是在生态位里面有值得一讲的请 Rez 帮我们介绍

介绍一下有一个叫派灵的一个团队这个团队开发者会比较了解派灵一直是在 VLA 领域里面走得很前我们可以类比它就是 Lama 就它不仅会开源它整个模型的权重文件然后它也会经常更新它的 blog 去讲它的很多一些原理而且这家公司它不做本体它其实反而是买一些国内的这些机械币厂家回去自己传一个而且它做的是像这个 Mobile 一样它并不是做成一个机器人的形状有的是做成一个车的形状

然后他其实在完全把精力集中在整个模型和软件的算法上去研究说这个模型而且他是跟 Hagin face 有很多合作所以他的模型在开源的时候就直接放到了 Hagin face 上让大家去下载

所以这是最多人在用的开源的机械币的模型对吧它应该开源了也就两周就春节后回来才开源的其实国内只要跟 VLA 这个方向有关的每天大家晚上都在微调这个模型然后它从实际表现来看确实也比过去的 OpenVLA 有非常明显的提升那这里我插一句刚才提到说只做机械币这些东西我们尽量都会在 show notes 里面附图片或者是链接包括刚才我们提到的一些机器人厂商

方便大家如果是有探索的欲望的话可以去点开胸道词去做具体的查看可以去看一下派灵他们的一些演示他们最著名的演示就是可以自主的去打开空干机然后把里面的衣服拿出来并且在一个桌子上把所有的衣服叠起来这个听起来还是蛮诱人的这是一个家务机器人的原型啊

且非常流畅他是在一个 50 帧的帧率下去完成这些工作其他的几家公司还有包括像青龙机器人国家队的一个开源项目他既不算民营企业也没有特别强的销售业绩的这种他们就是去做研发然后并且把研发的这些成果开源出来所以如果你是个机器人爱好者的话也非常值得关注这个势力除此之外还有像银河通用应该是 24 年融资最多的一家机器人公司他们好像去年就融了两笔一共加起来可能有超过 12 亿人民币

银河通用这家公司整个思路其实有一点点类似 figure 的系统一系统二它的意思就是说我要一个基座模型这个基座模型就是一个基础的 vll 的模型解决一些基本的通识之类的出此转移它会有一个所谓的三维小模型

这个三维小模型的核心点呢意思就是说我能够通过一到两个上头就能去快速的去识别我这个机械臂面前它这个东西的三维这个状态到底是什么样的那他们会认为说三维的这个概念是能够帮助机械更好的去做这个动作的所以这是他们提出非常明确的一个价值主张吧对这个还是蛮重要的一个思路

还有像智源机器人它是由 B 站的网红智智慧军参与的一个公司然后他们产品线还是蛮多的他们从这种商业清洁机器人到带腿的不带腿的并且他们也大张旗鼓的在建数字采集中心去采集数据然后做了很多样板房

然后前几天还有一个视频是他们在一个工厂里面有非常多机器人在排着队有人去给他们采集数据这个采集数据其实很有意思给大家一个视觉化的概念它是让一帮人带了 VR 或者叫所有的 MR 然后这个人带着 MR 去做很多的动作然后机器人去学习了这个人针对这个任务做的动作因为 VR 上它是有完整的感知能力的它知道你的手是怎么运动的是怎么样把这个东西拿起来的

然后同时智源也是一个在开源上有很多贡献的公司除了他们这些比较旗舰的产品之外他们也有一个开源的版本有非常完整的资料完整到甚至会直接放入一个 Excel 把淘宝链接都告诉你就是每一个零件你应该去淘宝链接哪个地方去买下单然后还有像足迹动力其实足迹动力跟语数更像一些它最早是做一个两足的机器人

就两条腿但是他能在山上越野所以他有非常强的这种越野跑的能力然后后面他们也出了自己的狗而且他们除了狗之外他们也是有轮足的狗表现上是跟语术非常接近的但这家公司很特别的是他因为也是教授创业并且这个教授也是偏强要学习这条路线的

所以其实在整个潜伏学习路径上他们在很短时间内就把两足点足轮足这些都给搞了一遍他们也在进军人性机器人我觉得他们在技术的后劲上应该还是有很强的动能的很值得期待的一个公司他们两周以内发布了一个新的工作类似 Sora 这样的一个视频生成的一个方法相当于我是用 Sora 去生成接下来 5 秒钟我的手如果要去拿杯子我会做什么

这个时候他生成了一段视频这段视频其实是被想象出来的这个时候因为他这个模型经过足够多的微调他就能够生成一个我的手去把这个杯子拿过来这样一个视频然后他再让这个机器人去照着这个视频做一遍很独特的一种思路对蛮有意思的

对我发现一个特点就是我们今天聊到的不管是公司产品技术还是开源的项目它都几乎发生在最近两年内甚至是最近两个月内就是我们现在好像在进入一个机器人的韩武技大爆发的时代尤其是人型机器人这个领域

我们在今年的年初 CES 上也看到英伟达的创始人黄仁勋在讲到机器人相关内容的环节的时候有 14 个人形机器人从他身后升起在现场排成一排非常的震撼那张照片在那段时间基本上是 CES 最热的几张照片之一这里面就有我们刚才提到的很多机器人它都在位列其中

聊了这么多接下来我们就请 Rex 讲一讲过去的几个月里面一线接触最新的机器人技术一些体会其实我最想知道的就是现在的机器人在 AI 训练这一块到底是一个什么样的状态到底有哪些训练的方法因为记得上一次你来脑方电波的时候

你就有聊到机器人训练最大的痛点其实是数据级不足的这个问题因为如果我们把自动驾驶比作最简单的固定规则的机器人把自动驾驶的汽车当做最简单的机器人的话它是有大量的训练数据的所谓人类司机驾驶数据有一点几亿公里的数据

是可以被用做端到端的模型的训练的但是在机器人领域这个事情很困难我记得之前你也讲过这件事情现在有变化吗它有哪些主要的流派它是怎么做的请你给我们系统的当然是最好深入浅出的给大家讲一下

正式展开讲之前咱们现在讲一下市面上这些机器人到底是什么水平尤其国内现在也在一个百花齐放的状态就隔三差五就有一家宣布做人型机器人然后我们在参加一些比如说 WIC 这种大会的时候也能看到去年 18 罗汉这么多机器人但是没有能下地干活的大家的技术参差不齐先教大家一些打假的技巧怎么去判断一个机器人的程度第一个是

线下摆不摆摊我觉得这是一道硬门槛大家记忆中还是看过非常多很酷炫的演示视频这个视频无论是在家里照顾你还是怎么着的还是照顾老人什么的但很多可能只是一些概念视频它不一定是纯恶意但它就有可能只是为了畅想未来他们能做到的

对所以能不能去线下展会去展示真机我觉得这是第一道坎因为说明你这个技术是真正能工作的并且在线下展会你还是会面临到很多无论是成功率的这种鲁邦性问题还是你能不能适应线下的环境因为它跟你的实验室毕竟背景多了很多人然后多了非常多干扰的一些视觉因素能不能去承受这样的一些干扰我觉得这都是会带来很大的一些挑战然后第二道坎是摆摊的时候拉不拉警戒线我觉得这又是一道坎

还真是因为我参加很多过去的展会 CES 甚至 NWC 我确实看到很多机器人就是拿警戒线挡住的大家只能隔着警戒线去看

那些机器人拿警戒线拉着然后平时待着不动然后到了那个时间点就会放音乐然后开始跳舞这是一种还有一些机器人他就是在那边可能跟你交流什么但是确实是有一条警戒线挡着的这些我觉得还好就像跳舞这种有可能只是为了保护观众的安全因为他看不见所以他怕打到你但是比方说像去年 WSA 这个

他们在展示抓取的时候他在伸手的时候被抓取物是不能移动的因为他是在伸手之前就计算好坐标这个时候一旦他在伸手的过程中你去移动了这个东西他还是会抓原来那个位置对他这里面就是有很多这些干扰问题他就在他隔壁的展位就是这个

主机动力它这个就是完全没有任何保护在场地中间跑来跑去但它难度不一样因为它做的不是抓取它做的是双足但我们可以用此来评估说一个技术的成熟程度就当这个产品可以完全没有保护的就是走进人群中说明这个厂家对这个技术是非常放心的因为它既不怕伤到你它也不怕你对它实施一些干扰我在那些展会上看到的机器人往往都要配两个保安一左一右

不够有足够好的乳棒性去应对这种人潮汹涌的展会环境接下来大家如果去各种科技展会的话可以注意比如说一个是足迹动力的双足还有他们的狗然后一个是加速进化有一个团队他们做了一个比较矮的一个机器人但他们也是一个人型机器人这两个团队他们就特别喜欢在展会把这个机器人在人群中跑来跑去

他工作人员甚至会鼓励你去踹他对他们对自己的产品的这个鲁邦性非常有信心对四足或者是轮足整个的成熟度确实是要高一些从这个角度我还想起来我看过有的那个人形机器人他是要吊一个链子的他是要在上面好像是防止这个人形机器人摘倒摔倒也很奇怪对但我们刚才说的这些其实依然只是对于平衡这样的简单的任务我们所说的下肢任务

腿的这些工作但实际上今天最大的挑战依然来自于上半身就是 mopulation 就是操控这部分接下来咱们可以稍微展开讲一讲几个主流的学派或者技术的一些方法最近这个冬天也在清华智能研究所在这边参加一个冬令营是分成几个组然后我所在的组是家庭服务的这个方向

然后我们其实是每个组会去立项大家会去用各种方法去实现你想做的这个方向然后这个过程中就会适当一些技术选情因为我们得大概去选一下我们用什么样的方式去实现我们的一些目标这个过程因为我们前期的培训阶段也是把

现在比较常见的像 aloha 的这些算法然后 act 然后 diffusion policy 然后包括强化计计都会去捋一遍我们先从最常用或者最代表稳定的方法就是视觉加传统控制然后这个流派我们可以理解成这个机器人他要先对于他看到的这些物品先进行精确的计算比如说货架上有一盒牛奶然后他是通过视觉就是传统的这种 CV 算法去当然也会有这种空间的一些算法比如像这个

然后他们会先算出牛奶在房间的坐标这个时候他再算出他的手去抓牛奶的轨迹然后这个时候非常精准的到那把牛奶抓起来有点像是工业机器人是思路其实跟工业机器人非常像优点就是它的效果其实是相对稳定的因为它这个技术已经发展很多年而且视觉的精度现在并不差基本上都是毫米级别的所以它基本上大差不差是能把这个东西给它抓过来了过程是相对比较精准的

但它的缺点就是说第一个是由于它的这种精准识别就导致它在这个过程中的抗干扰性其实并不好如果它抓的这个东西是一个跑来跑去的猫那就很难去抓了因为这个猫它能一直在跑然后它的形状一直在变然后任务的泛滑性差因为你得先把你抓的这瓶牛奶这是个数据先灌进训练到视觉识别上然后它只能抓自己见过的东西

但是你不能说这个技术它所谓的高和低因为它其实反而很适合比如仓库什么药房你晚上 12 点之后你去买药现在的药房都是要有个纸包的人去给你抓药对但是药房就是一个很小空间里面但是 SQ 特别多的一个地方对他要从上百个里面去精准的找出这个药来像这样的工作就很适合一个机器人去干因为如果是买零食你可能自己弄个无人便利店你就自己进去挑了但是像药这样的它其实需要有一个人帮你拿出来

所以这是第一个技术流派就是通过视觉定位然后高精度的控制来执行它更适合一个类似工厂这样的一个工业环境下的精准的专用的任务的执行但听起来不是我们在生活中能用到的这种通用场景主流的方案因为家庭的场景里的东西特别多有很多东西是你自己 DIY 或者你自己画的一个东西他根本就没有见过独一无二的东西

那它就没法去操控这东西并且它需要一个蛮长的时间去编程去处理这些数据什么的另外一条技术路线就是这个端到端也就是去年特别多人讨论的这个 AlohaAloha 有一个配套的算法就是 ACT 其实目前这个算是主流方向但这个概念其实是由汽车带起来的马斯克开始了端到端之后然后这几年其实国内的这些电车阵营也开始转型端到端了

这个 ACT 能不能展开解释一下这三个字母分别代表什么意思它的名字叫做基于 Transformer 开发的一个动作分块算法因为阿罗哈还有一个特点知道这个动作的起点和终点然后它中间它能够去构建就是说怎么样让这个机械臂过去的过程当中是尽可能的顺滑因为阿罗哈后续的这个研究它是能够做到说很精细的动作比如说电视的遥控器的那个扭扣电池嗯

它能把你抠开或者把你装上那这种动作呢它就会有那个力道的这个要求所以说阿罗哈很依赖这样的一个动作它来实现一些相对柔和的动作就不那么刚性它在过程当中是能够随时动态调整而且相对柔和它主要想解决一些 use case 呢一个是刚才提到的装断扣电池还有一个是系鞋带这两个 use case 是很亮眼的

但 Aloha 在我们这边是属于标配技能因为我们经营的前三天培训的就是 ACT 然后而且我们这边有非常多的无论是桌面的还是这种移动式的 Aloha 然后可以随便去用我们这边有些巨声的这种双臂机型也可以随便去用但我们实际用下来之后几乎大家全部都放弃了这条线就是因为 Aloha 在实际使用的时候会发现有很多的上限它上限很低很低

它的任务的泛化能力其实是很差的就它只能学一个做一个但是你很难让它学十个然后让它做出 15 个动作来而且它还有一个很致命的问题是视角的泛化能力很差它很多工作都是放在一个桌子上面然后去干活而这个镜头本身是不太能动的一旦你的任务是在地面上的但你的镜头还是在原始的位置它就不太行了我能这么理解吗它对整个画面的变化的敏感度特别高

你原本训练的这个数据可能挺好的但是你只要在背景里面站了一个人或者你背景里面多放了一个东西在旁边它整个就会乱掉我听懂了所以也就是说不光是镜头的角度不能动我镜头的画面里的主体也不能有过多的变化所以它就是一个字面意义上的断道端就是什么情况进去什么情况出来但会不会是因为样本量的原因他说他没有产生那个没有 scale enough

是有这方面因素但是目前大家测下来就是表现还是不怎么好他这个 case 是很好的解答了为什么端到端反而是适用于自动驾驶的开过端到端的自动驾驶的车我发现他还挺依赖那个路上的线的道路上的线就是一个很明确的一个标志物对吧自始至终都是确定的一辆汽车上你的摄像头的那个视角是不会变的距离地面的距离永远都是恒定的

它有一定程度的变化但不大为什么端到端在自动驾驶上成功了我觉得这里面可能跟数据量有很大的关系它有巨量的驾驶数据今天汽车行业的数据量已经多到没地方放但是 ACT 还有一些上线其实是非常致命的是关于数据闭环的问题因为我们这儿用的端到端有几种采集方式一种是我们是在仿真器里面手写一些规则我们手写一个机器人的动作

然后让他去记录下来这个动作然后还有一个说我们用 ps 的手柄去用手柄控制机械臂去完成一个动作然后并且把路径记录下来还有一个我们用穿戴式的外骨骼通过外骨骼然后你去真人去控制它把这个动作记录下来然后还有像 VR 这种操作去摇操作它

对我们有这几种方式但是我们发现一个很大的问题是这种端到端它在语义上是没有闭环的我举个例子比如说你要去拧一个瓶盖看一个人拧瓶盖你这个时候让我去拧我是没有办法根据刚才你的动作比如说我看到你的动作你的手拧了三下对吧你确实手就是拧了摆动了三下我这时候我去拿着瓶盖我也摆动三下它不代表瓶子拧紧了因为拧紧的过程是靠阻力对吧

靠一些很细节的一些或者甚至有的是有声音比如咔嚓一下来确认说这个东西拧紧了而不是表演出手臂波动三下这件事这是目前一个很大的挑战然后当然 ACT 也可以去增加数据维度但就目前来看主要还是集中在摄像头加关节角的这些数据上这是一个流派对因为听起来这些数据源不管是用 VR 外谷格写进去还是用手柄

它都不是一个能够特别巨大的数据量的这么一个采集方式因为你都需要人作为一个主体去完成这件事情但人力的成本我觉得是相当巨大的对因为我们采下来最熟练的人一个小时能采 100 条然后我们就称它为数据采集就数采圣体一个小时能采 100 条这个 100 条一般指的是一个什么样的动作就是一个单一的抓取把一个东西拿起来或者把一个东西放下抓 100 条

就需要一个小时但这时候我们遇到了一个非常致病的问题因为我们一开始定的课题是从一个盒子里拿巧克力在展会上去分发给别人但是我们发现了这个巧克力它有一定的概率是分布在这个盒子的边缘因为一个盒子它总共有四个角一旦它在这个角上的时候你是没有办法用爪子直接夹住它的这个时候其实你需要有一些预抓取的一些行为就是你要去挠它一下

Code 一下前面说的这些方式我都是真人去表演因为数据如果我去连续表演一样的动作那这个数据会过拟合它没有用其实我是要表演这个数据的多样性但是随时我表演了 100 种不重样的动作的时候你再让我洗想 101 种这个时候我的智力消耗是指数级增长的

我根本想不出一种不重样的方式去挠它了所以这个数据采集是越采越难然后后面我们就发现这条路走不通我们就开始走向另外一条路就是前滑学习其实端到端是一个热门话题在我们现在看到的很多不管自动驾驶还是多模态的模型

它有点像是模拟一个人的学习过程端到端可以让一个模型具备了像人一样同时学习多种模态比如增加时的数据来涌现出一个很好的效果但是唯独在机器人行业我们从这个 REX 的实操的结果看到了这种问题核心问题就是这个数据从哪里来的问题包括刚才提到的人能想到的就这么几招吗对 但是现实生活可能总是有你没想到的甚至 200 种 300 种

因为汽车是一个被动的行为就是你开着开着车不小心看到一只羊然后你躲开了但是你要去在一个实验室里去模拟出这种特殊情况就很困难所以起码在现在我觉得如果在解决不了数据采集问题之前看起来端到端都不会是机器人巨声智能的一个主流的方案

端端端这里其实我们在上一次和 REX 对谈的时候其实当时提到几个明星的研究方案他在尝试解决这个问题比如说纽约大学的 DOBBE 和斯坦福一个叫 UMI 的项目他们大概的逻辑就是说你现在用很完整的机械币去做数据采集成本太高了所以他们在火前上面架了个 iPhone 然后他的研究就是说他就想把数据采集的成本变得特别低就是说如果今天你是在一个实验室里去想象所有的场景你很难想象

那干脆我就把数据采集的那个终端变成每个人都可以拿到的一个火钱你只需要在这个火钱上架一个运动相机或者架一个 iPhone 然后你就可以重包就可以把这个数据采集包给不同的人他就只需要老老实实把那个数据录下来就行了你就不需要去想那种 101 种情况到底在哪里对所以这个也是目前行业在解决的一个方向

还没有来到工业界还只在论文上对而且听起来仍然是一个很高成本的方案我为什么要带一个货钱到处走它跟这种自动驾驶被动带来的这种巨量数据还是无法相提并论的所以确实我觉得在物理世界里找数据采集的数据集去训练端端模型在机器人领域目前看来我觉得是机会不大的听下来是这样也许有虚拟的办法我们一会儿再聊一聊

对我们还有很多流派一个一个在继续展开当然我这个顺序是我们探索的顺序因为我们确实在真实的要去解决这个课题所以我们就开始尝试别的办法我们就想到了强化学习因为强化学习的好处就是其实强化学习你不用管这些任务怎么完成的其实你是给的是奖励和惩罚条件你只告诉他我需要你去把巧克力给我从里面拿出来然后或者我需要你去把抽屉给我拉起来但是怎么完成我完全不管然后他是通过设定好这些奖励和惩罚条件之后然后大力出奇迹

因为现在 GPU 是可以进行非常大的并行的计算像我们就在一个这种个人的笔记本上就能够以 8000 个环境定性的去做无穷的多的尝试所以这里讲的强化学习是指在虚拟的计算机里面做的对吗对会先建一个仿真的一个环境在这个仿真器里面我们比如说前面有个抽屉那我现在希望你去把抽屉打开这个时候那我就告诉你几个条件第一个叫抽屉打开了那我就奖励你因为

因为这个事他可能要等很久才会出现第一次打开那我再给一个别的就是如果你的手靠近这个把手那我就给你一点点奖励这样的话来加速他的这个训练过程基本上就像这样两个简单的条件就能够让他自己进化出一个各种形式打开抽屉的这样一些能力我记得 Rex 在小红书上有一段视频

你那个计算机的屏幕里面可能同时有至少有三四十个机械臂同时去抓那个抽屉是吧这个应该就是你自己电脑上拍的一个视频对对我觉得那个还是挺直观的那是用什么平台做的用那个 NVIDIA 的 IzakSIM

是它 Omniverse 对 Omniverse 是一个通用的产品主要是做通用的渲染 Omniverse 其实不算一个产品了 Omniverse 它其实是一个系列名真正的软件产品是叫 IsaacSing 就它这方面铺垫还是比较久的尤其是因为它能够非常好的发挥 GPU 的并行效率问题所以用它渲染效率会很高对 你可不可以比喻一下比如说你

一个笔记本跑多久能跑出多少次的这种尝试的这种数据量呢像我们比较常用的就是小训练一般我们都争取在一个小时以内然后差不多是训练 1500 轮 8000 个现成那就是 1500 乘以 8000 也就是一个小时之内有 1200 万个抽屉被打开或者没打开 anyway 它有结果了对因为这个动作比较短差不多也就两三秒钟一个小时差不多就能跑出来

但是刚才其实你提到如果是一个采集圣手他做这样的一个数据量他需要一个小时只能说 100 次对吧对所以他是一个多少个量级

12 万倍就这种基础训练是在自己的笔记本上比如像晚上我们回去的时候我们是有 8 卡 A100 的算力的可以用对所以如果是这个算法已经确认是不错了然后我们只是想把数据给它收得更夸张一点我们就直接扔到服务器上那个算力就很猛了一个人和一个笔记本就是 12 万倍的在数据级的这种生成上

所以我们可以看到在强化学习高下立判在数据级的生成上显然这是一个更有效的方式对 但是还是要泼个冷水就是一开始我们的想法是说因为有强化学习我只要是告诉你你要只要把这个东西从盒子里拿出来就行我不管你怎么拿所以像把它挠一挠拿这个事它自己就能训练出来一开始想法是这个动作我们就可以把它输出出来输出出来之后我再用端到端的形式训练到一个 VLA 的这样一个模型里面然后就可以去用这个数据了

但后来我们发现强化学习的这个奖励函数其实设计难度也很大就对于一些比如说简单的拿放开门什么这些动作因为它的动作很单一而且你操作的这个物体相对来说比较钢体比如一个抽屉开多少这件事我通过那个抽屉的坐标我就能够去衡量它的 0%到 100%那这个事就很容易计算比方说我现在要去拉一个衣服的拉链那一个是这个衣服本身的拉链它就是一个肘体我怎么去衡量它拉了百分之多少

衡量这件事本身却变成了一个写代码很困难的事我可能一个下午都写不出来怎么去衡量拉链的百分比这个东西所以抽屉是比较简单的比较适合强化学习的一个场景抽屉然后像铰链就是冰箱门就属于铰链门这些都比较容易计算但稍微复杂一点的东西就不好算就是强化学习比较适合相对简单的动作但稍微复杂一点的柔性一点的但生活当中有大量柔性的任务炸菜

洗菜对反而这个东西我目前阶段性的结论就是阶段性的结论是它可能非常适合下肢就是无论你是几个腿几个轮子比方说今天一个四足的机器狗如果你不追求这个狗走得多么优雅就是它只是能走差不多训练时间是 60 秒对一台电脑然后你开 8 线个线程就是只需要 60 秒就能让这个狗走起来就已经夸张到这个程度了以往大家想象中一个机器狗好歹比如说要训练个一两个月

而且用的是这种服务器级别的算力这里又是一个很强的反差在一般人的理解下大家因为在商场里看过那种会拉花的泡咖啡的机器人看过吗它看起来是一个很精致的需要精确控制力度来拉花的这样的一个操作

听起来或者说看起来是一个应该更难的事情因为你知道我们人类要学拉花其实要学一阵子才能学会但是在机器人这个领域反而是反过来的拉花是简单的因为它有明确的指令明确的动作我只需要做精确就好了这个是机器人擅长的

但是拉拉链这件事情其实比咖啡的拉花要难得多其实真的是一个很大的跟常识相反的一个例证我觉得对我再举个例子就是洗碗什么时候算是那个洗洁精彻底的被冲掉了冲干净了一个方法是视觉的去看但视觉去看呢有的时候就发现视觉上可能没什么泡泡了对但你那个洗碗不摸上去它还是滑溜的对滑溜是靠阻尼嗯

但这个阻尼定到多少你不同的碗木碗和瓷碗不同的盘子它那个阻尼又不一样不同的花纹它背后那个阻尼也不一样你要想日常生活当中太多这种强化学习你建模都建不清楚的问题所以就是越精确

越明晰的需求对人是越难的但是对机器是越容易的那反过来就是越柔性的越没有那么确定的这些需求就变成了一个对人相对简单但是对机器极其困难的一个需求了对但一段时间之内我觉得下肢的控制前奥学家是一个非常好的解决方案尤其是像有一个例子就是那个阿凡达里面的那个外骨骼其实它的整个上肢是没有智能的因为它就是跟你的里面人的动作一比一绑定就好了

你做一个更大的电机什么这个事在工业领域上其实不难但是其实阿凡达一直做不出来是因为你没法在里面走路对因为阿凡达那个机器人他的走路并不是人在里面跑他不像那个环太平洋但这个反而就是很好做的就是你把整个下肢的腿用强化血气做了这个时候你只要里面有个摇杆你往前推他就会一切地形都自动适应嗯

这里说的阿凡达外骨骼就是在阿凡达电影里面人类的入侵军的军人穿的外骨骼对吧对所以就像这样的场景就是很适合前方学习做在跳舞也好还有下肢的这些动作都是非常适合前方学习然后接下来可以再提一下监督的模仿学习

然后这个模款学习是我个人也很看好的一个方向也是最近我们在情况学习碰壁了之后也开始转型去尝试这个方向看起来跟端到端很像因为也是示范就是你先人去示范一下这个动作但它有些区别在于就前面这个监督这个字在端到端里面比方说我现在要去垒积木我要把三个积木垒起来或者我要把两个积木垒起来

这件事我当然是可以通过断断断断去学对吧但如果积木它每一次初始条件是随机的每一次坐标是完全随机的这个时候难道我要把每一种坐标的可能性都做一遍吗对吧这个事在断断断断就很难去做了因为你无法演示上百万种可能性这个先动模仿学习虽然你只给了少量样本比如说我只给它演示了十几次摆放的动作这个时候它其实会加入一个条件这个条件叫什么样子算是两个东西摆起来了

其实跟强化学习就很像他会用这个条件去判断说这个事是不是完成了那个 Rex 能不能先简单介绍什么叫监督模仿学习就是如果你这个事有答案那他就是监督学习如果没有答案他就是无监督学习

就是他做完之后会对答案来判断得不得分是吧对像大模型就属于比较典型的监督学习因为你是有一个数据去训练它然后你还有一个数据去检查它但强化学习就属于你没有答案对你只有目标但是你没有答案去检查什么叫走的好不好但监督的模仿学习就是他虽然是模仿学习但是他有一个答案去判断说这个东西做没做对他的魅力其实是在于说虽然你只给了少量的这 10 个样本

但是它可以基于这 10 个样本再去产生比如说 1 万个随机的样本但这 1 万个随机的样本里面它需要经过这个答案的检查才能筛出合格的但它筛出来的可能只有比如说 1 万个里面只筛出来 1000 个但这不重要因为整个过程没有人参与那你就可以大力数其计再拿这个数据再进行增值你可以再从 1 万个变成 10 万个它也是类似强化学习的方式给它一些随机的这些变化然后在这个过程中数据得到了增值

因为只要你大力数奇迹它就会产生非常多经过答案验证的有效的数据那就可以实现说比方说像一个累方块这样的任务就以往你的训练至少得放到比如说几千个数据相本才有可能做甚至如果这些方块的位置是随机的那你可能百万的数据你也覆盖不了这种可能性对但是在这种有监督的模仿学习里面甚至只要十次正确演示它就能做到这个事情

就是既结合了强化学习的这样的一些条件但是又不像强化学习那么复杂我拿拉拉链举例子在强化学习里面我这个拉拉链我得设计的很细致但是在这种监督模仿学习里面我只要模仿一个拉拉链的动作给你我只要检测这个拉链是不是最后那一下拉到头了就行明白

这个就很简单因为我只要检测这两个就是拉链和拉链头有没有碰在一起就足以判断这个结果对所以它就是结合了两边的结合了人类的演示因为这样人类演示是很省事的又能够去自己增值这个数据因为人类演示十几次是很轻松的但它能够增值出上万条有效数据来并且训练过程也是时间也很不错所以是我现在还挺看好的一个然后包括 NVIDIA 他们自己也在很看好这条路线

像 Figure 它没有透露太多的信息但因为我在看他们的招聘信息他们的招聘信息在大量的招聘摇操作的这种甚至是两班岛就是有白班和晚班那它会不会真的就只在端到端呢不确定不确定

对 那这么说它至少是部分用到了端到端 对吧我总结一下就是端到端是人通过外骨骼也好 VR 也好去给机器演一遍然后呢 演尽可能的多然后让大模型去学习这个其实就是所谓现在端到端的这个技术路线但是问题就是数据成本太高了这是小事 大事是它不为结果负责

就是他不知道哪个是对的对吧对他不管成不成他只是照葫芦花瓢然后强化学习就是我告诉你最后的目标是什么我给你一个答案然后你可以通过 NVIDIA 的虚拟平台去同时跑几千万次可能的路径然后最后我只检查你的答案对不对通过巨大的样本量大力出奇迹来完成一些简单动作的学习这个是强化学习

它主要消耗人力因为它需要大量的有很强的编程能力的人不仅编程能力好你还得能设计这些奖励函数因为奖励函数通常是一些公式对一个是它很难批量稿另外一个就是有一些确实就没法做奖励函数我举这个机器狗的例子就机器狗里面比方说它有一个奖励值是叫角的腾空时间就它要尽量让这个角的腾空时间保持更长它就会奖励它

然后还有一条奖励是如果这个角接触了地面但是出现了侧滑这个时候就要惩罚它像这种很技巧性的东西一般人确实想不到和能写出公式去计算这个奖励值对感觉是很 top 的工程师才能把

用很简短的代码或者公式把这事给显明白是的就 Figure 他的那个 blog 里面其实就讽刺他说你这个东西是需要上千小时的 PhD 的工作时间才能做一方面很难一方面有些就确实没法写这就是强化学习目前遇到的问题所以监督模仿学习能有点像两个的合体是吧

也是人来演示但是我只需要演示很少量的成功样本可以这么说吗然后这些成功样本再通过泛化的方式让它去产生更多的样本最重要是检查它的从样本里面再去检查一遍对不对所以这个就是我们讲的监督模仿学习对那还有其他的方式吗

对 还有像在线强化学习然后也有教法叫持续学习然后像 Berkeley 的罗建兰老师他们的 SEIL 还有 HIL SEIL 都是这方面的一些比较结束的工作但这个是一个非常新的领域现在还没有太多实际的一些落地但他大概的思想是说我的强化学习是在机器人本体上完成相当于机器人后天自己去学习他把强化学习的过程放到了机器人运行的时候

所以就所谓的在线强化对然后他们大概思路就是人类你先去演示什么叫对的什么叫错的然后你演示完了之后他把你的演示的过程训练成一个小模型对这是个非常小的模型他只判断这东西对和不对而这个非常小的模型它就成为了 reward model 它成为奖励的模型之后他让机器人就真的在现实中就开工了然后他在现实中他就是不停的去随机尝试他尝试的时候很小的模型就会给他打分你做的对和不对做的对和不对

然后它在现实中因为你只要这个机器开在那然后时间足够久它就能够去收敛成正确完成动作奖励函数是人类演示后获得的一个小模型然后它不断的尝试是用这个奖励函数来验证它成功了没有现实世界中的强化学习是吧所以叫在线强化

对然后我觉得它非常有潜力的一个点是其实我们无论用什么样的方式训练拿人类举例子无论你怎么看我理论上去拉小汽行也好还是骑自行车也好还是烹饪也好无论你观察我多少次你都没有办法做

因为你的手的长度跟我也不一样你的力量跟我也不一样那就你不可能百分之百的还原这个任务这个时候有很多的所谓的手感的部分你就是要亲自去做了然后亲自去做微调这个比喻特别好就好像你不管看多少次关于骑自行车或者游泳的理论你都不可能学会的必须得自己上手对但强化学习的它的特点反而是说它的前 99%

是需要花超长时间去因为你第一步要往左还是往右这件事它就是巨大的挑战对但是它在这个任务的最后的 1%却收敛特别快对所以反而它是很适合这种最后 1%的任务做一些非常微观的修正也就是说它适合前面都学完了最后那个阶段用来做这个在线强化的

这个学习我举个例子比如说像如果是咱们家里的灯开灯的开关对吧其实这个灯的开关它是一个纯白色的从视觉上来看它按下去还没按下去看起来差不多但是你的灯开关可能是有一个明确的变化对这个时候他就会去不停的尝试然后因为灯开还没开你是一开始演示里面他是能看得见光线的变化的他就会认为说这房间亮着的就叫成功了然后房间没亮就叫失败如果你的模仿学习是一个很粗糙的模仿

如果我的手比你短一半我通过你刚才的演示我是没有办法照着去做出这个事了对但是在这样在线强化学习中最后这一点点我就会自己去尝试又有很多随机性然后直到这个东西成功为止你们实际的效果怎么样这个我们还没有成功复现

对但是这个是一个很持续的工作然后他们有连续发过很多很精彩的一些 paper 然后我个人是非常看重这个东西的发展这个目前是一个非常早期无论是比如说时间效率或者这些我觉得都还没到那个程度就它还是一个偏理论的一个研究

聊完了在线强化还有其他的方式吗有没有更好的方式咱们就到最后一排就是 VLA 然后我觉得这也是整个行业现在非常兴奋的一个方向其实 VLA 它就是三个非常显得粗暴的 V 就是视觉然后 L 就是 language 语言然后 A 就是 action 行动 V2M 就是视觉语言模型也就是咱们人工智能领域的所谓多模态模型

其实刚才我们讲到的 Figure AI 它用的模型对吧对然后包括派灵也是 VLA 领域里面的比较活跃的催动者刚才提到的两周前刚刚开源的机械币的算法

对对然后 LVLA 它的它有很大的特点是在于它是把语言然后视觉和动作然后全部放在一起训练它比 Aloha 相比其实是多了语言这层因为比如像 Aloha 这种段道端它只有视觉和动作

这种情况下会有一个问题是如果我现在从这个一个位置然后训练了拿桃子拿苹果拿香蕉我训练三个动作但这三个动作起点是在同一个地方出发的这个时候他怎么知道我当下要去做哪个动作呢这个数据会换味对然后如果这个动作非常多比如说他有几千个动作的时候那就完全乱套了但是在有了语言模型的加持之下你就可以用自然语言去用 Prom 来去召唤回这些技能

对因为你可以把这 1000 个技能全部塞进这个大模型里面你的 prom 叫帮我把香蕉拿过来那它就会去收敛到当初录制香蕉这个动作的时候把这个动作再给你召唤回来

也就是说我们刚才讨论的所有方式里面其实是没有用到语言模型这件事情的所以我们最开始的想法是说我们通过一个大语言模型多模态的这种对吧带视觉的然后我们先来理解你的意思比如说你跟他说帮我拿个桃子然后这个时候我再把语言模型输出成一个像 Jason 这样的一个标准格式然后这个时候再用代码去把它路由到抓桃子的动画然后去抓桃子但是我就只能去抓桃子

但这个 VLA 它真正的这个能力其实是它有涌现能力那一个是它可以通过自然语言进行一些更抽象的任务比如说像 Figure 它的演示中它跟它说帮我拿一个沙漠中的东西那它就会去理解仙人掌是跟沙漠有关系那它就会去把这个仙人掌给你拿起来不需要一个很精确的指令

这个确实就是靠语言模型在背后起的作用了对但更重要的是在大模型这样的一个架构里面它是有非常多的中间层神经网络的这种概念空间所谓的概念空间就是比如说上藏语里面的苹果和英语里面的苹果和中文里面的苹果和苹果的画面它们中间是有非常多的概念空间的神经节点

这些节点并不具象成一个语言或者具象成一个图像但它却指向了苹果这个东西这其实也是向量数据库带来的结果对但这些中间层在足够大的数据量的时候它就会产生涌现效果因为它会跟一些更抽象的概念进行关联

这个时候就会出现当你训练了足够多的拿苹果和拿桃子和拿梨子的时候然后你再给他一个他没见过的但是跟水果是水果品类的东西然后他依然可以去做出这样的动作然后把这东西拿起来对这个就跟大模型的涌现非常像对所以这个是整个 VLA 大家很兴奋的点就是一个是自然语言的理解能力一个是他具备语言能力相同的这种涌现能力和泛化能力

它的训练过程是怎么样的?相比你之前上面说到的几种方式,它的数据局是怎么获得的?也是要人为去做,人为去做对齐。比如说我们的图像语言模型,它可能就只是一个橘子的照片,然后加上橘子这两个字,然后争取去训练。但是在机器人这边的话,这个数据量会变得多很多和复杂很多,因为你要先表演一个把橘子拿过来的这样一个动作。

这个动作它是包含每个关节的角度信息然后还得包含整个拿橘子整个过程中你的画面的视觉信息

这个视觉信息通常可能是有三个摄像头就是你的主观视角一个然后你的每一只手的手腕还有个摄像头对所以它是它既看到了你的手伸过去拿到了橘子然后它也得到了整个过程中每一秒每一个画面帧里面你的关节的角度的变化然后还知道了这一切数据跟给我拿个橘子这句话有关系这三个数据要一起放进去训练所以它本身也是一个多模态的一个模型了

是所以它的训练难度确实很大需要的数据量也很大它需要很大的数据量而这个数据量的获取难度听起来比刚才说的更复杂了它其实需要的就只是一段视频一些关节角度的一个编码数据和一句话但是这个只构成一个数据你还需要更多的数据量数据量要如何获得呢所以我们前面讨论的无论是比如说强化学习也好还是模仿学习也好它都可以大规模的批量的去产生嗯

所以像比如说一个开柜子这样的动作其实我是写好脚本我强化学习里面我训练好模型之后我就让它去开始推理推理的时候可能它有几百个并行的现成然后这些并行的现成就不断地把自己的成功的动作把它们输出成序列帧把它们的动作和画面的序列帧都保存下来并且给它配上一句话叫开抽屉所以它的生成也是通过虚拟平台

是真机也可以就真机的话你依然是人去表演这个动作然后表演的时候因为你人头上也会带着摄像机然后或者人是通过摇操作你是摇操作本体然后去操作你是有主观的画面然后手腕的摄像头的画面然后还有每个关节角的数据然后我这样演示几遍之后它也能被泛化成更多的数据量吗

但这个所谓的几遍至少可能比如说是 500 条起为什么呢为什么之前的模仿监督学习只需要十几条到这里就要几百条因为它十几条是泛化成了一万条实际用的时候还是用了一万条那你刚才说的这几百条不能被泛化吗不能因为人工采的数据它就是没有泛化性的所以其实 VLA 它现在挑战就是说它需要的数据量比这个训练语言模型和比训练多模态模型要夸张多得多

因为训练多模态的视觉模型只需要一张图片和一段文字但这个东西需要的是比如说 5 秒钟的动作它可能就是一个上百帧到 1000 帧的这么一个画面数据确实我再多问一句这里面的机座模型或者说它语言模型的预训练是单独做的吗还是没有是拿现在的大模型

是用基座模型对吗对对大家之所以并不看好其他路线也是因为我用其他路线的时候我会天然缺少世界知识对但是语言模型它天然有一个非常好的世界知识的基座或者说叫通识吧 Universal knowledge 是吧对对然后这些通识能力它会带来一些可能我们现在还想象不到的一些比方说对于空间的理解

对于距离的一些理解然后对于接下来会发生的弹性然后等等这些东西这些理解我觉得这个还真是蛮有启发的一件事情你想我们不管用什么其他的任何的训练方法如果你把模型想象成一个机器人的大脑

他就是从一个诱饵状态空白的状态下你只是给他告诉他一个动作然后给他奖励特别像训练狗训练宠物的感觉就是你想我跟狗之间是没有语言的交互能力的所谓听得懂人话其实也不过是通过你的语调从一些条件反射里面知道这个词的意思

它实际上就是一个我觉得是偏有点像端到端模型的感觉我给你演示一次你巴普洛夫对巴普洛夫的狗包括我可以给你奖励这个时候狗就能学会一些基础的动作了但是狗很难学会复杂的柔性动作的原因其实恰恰是因为他的大脑没有基础的所谓的 universal knowledge 就是基础的通识

而人类为什么会学会这些东西恰恰是因为他有这个东西所以我感觉在这个 VLA 模型里面这个 language 它扮演的就是这种通识的角色它好像就是一个赋予了这个机器人最基础的智能它忽然一下就像刚才

Rex 讲的它其实就好像通了一样明明只是一些文字的预训链它甚至对空间的感知也产生了一些智能的表现它甚至涌现出来一些它没有见过的东西它能够把它做得很好如果一定要说这有点像想象力对吧

我举个特别夸张的例子就是接下来机器一定会涌现出感情这些东西这里面我说的感情倒不是陪伴什么那一挂的而是说我举个例子比如说这个机器人它的一些基础的设定叫不要让你的主人伤心甚至说不要让人类伤心什么会让人类伤心呢这个其实语言的影空间里面是有非常多的关联性的是的

那这时候比如他在去搬运一个玻璃制品那这个玻璃制品它的隐空间里面的一些词汇比如叫贵重比如叫易碎然后这里面就会有如果这个东西碎了主人会伤心就是它有非常多这种抽象的概念的一些牵连他虽然没有学过怎么搬运这个玻璃物品但是他却学过如何搬运一个贵重物品

你从来没有教过他应该怎么搬这个东西但你会发现他突然就变得很慢很小心翼翼的去搬而这个东西的根源可能是不想让你伤心我觉得这确实是一个非常让人兴奋的一个方向相当于这其实就是一个加入了机器人的姿态的多模态模型对就是除了视觉

声音文字以外他加入了一些动作就是所谓的 action 加入这些姿态之后他其实就变成了一个世界模型的感觉就是他能够理解真实的物理世界了因为过去我们讲的多模态模型他其实还是在虚拟世界里面跟我们做交互即便我跟他做

视频通话它也是隔着屏幕看到这个世界然后跟你做交互对吧但是到了机器人的 VLA 模型它不但具备了我们讲的这种通用智能

或者说叫通用的知识然后理解了画面因为我们这个是多么太久已经有的能力然后又能够做执行真的是这个可能就是我觉得是 AGI 的终极形态这个技术它甚至是一个通用技术比方说咱们上期节目其实我记得聊到了关于手机的

这个叫 auto glm 对吧就是通过语言对吧去自动操控手机这个事它其实也是一个 vla 对只是它的 a 不是操控机械电机而是操控手机屏幕或者手机的这些东西今天的 vla 可能还比较弱但是如果这个机座稍微大一点的时候你跟手机说我这个地方不太方便充电它可能就是直接给你开省电模式去了这个其实也是我们今年一个主线的话题就是叫智能体元件 agentic era

这其实就是一个 agent 的一个标准的定义你能做到执行能做到 get things done 相当于 next step of AI era 我们就从生成式的 AI 到了一个下一个阶段代理型的或者叫这种智能体的 AI 时代了而且我觉得它也会带来一个语言级 SaaS

因为前几天我们刚好去参观了一个机器人企业然后他们是做 AGV 的就是那种智能插车但那个插车就是他现场还教我们怎么去用什么的然后我们就发现整个头炸了就是因为他那个插车配了一个套 SAS 系统

然后你考 SaaS 系统要先你们肯定也用过很多 SaaS 对整个过程你让一个没有接触过这些东西的人去学习你可能培训就在搞到一个礼拜对但结合了 VLE 的这样的东西我觉得第一波的居神智能它有可能并不是一定要人行

它可能就是一台叉车但是它具备了整个 VLA 的架构也就是说你只这台叉车可能不是你的但是你临时获得了它的指挥权你就跟他说你现在去 A 仓库帮我把蓝色的那盒香蕉给我插过来就结束对你没有一个复杂的 SaaS 网页然后你也不需要去培训你就跟他说了他就干了

我觉得今年不是开始有扫地机厂家在扫地机上加小的机械臂吗对然后什么丢在地上的袜子能帮你丢起来能帮你捡起来拾到赞议楼里去嗯

这种事我觉得特别适合初级的一个 VLA 来干所以它会带来非常多变化尤其像刚才说的这种语言机 SaaS 我觉得它会让整个消费门槛降到非常低 OK 我觉得如此令人兴奋的 VLA 模型它的现状是怎么样的我们已经成功的通过它实现智能了吗

它现状就是它特别小它现在我觉得类比语言模型的话它大概就 0.01 币为什么会这么小呢因为它需要的数据还是太多了然后比如说我们到 0.01 币的模型的时候或者不那么夸张就是 0.5 币的模型你会发现它其实也是有基础的语言能力但基本上你得教它什么它才会什么

但是当他到 10 币的时候他才开始涌现这些能力比如说推理能力什么的这种然后跨知识之间的这种联合的这种涌现能力都是在 10 币这个规模才开始出现

我还是不太理解它制约它规模变大的原因是什么一个是今天比如说机器人的本体它就是每一家的机器人它的胳膊长度也不一样对吧然后它的颜色也不一样所以导致这个本体的数据它本身就是不一样的就不通用是吧对不通用然后加上机器人厂家之间也不会互相分享这个因为数据成为最值钱的部分

而且你去采集比如说你雇了一堆人然后去采集这个成本极其高你可能要投入非常多的钱在这种采集数据的收集上所以你当然不可能免费共享给行业在你的数据很有限的情况下你去做参数量大的模型是没有用的因为你在训练的过程当中如果你数据量很小你会直接过拟核我这么理解对吗然后你这个模型就整个失效了

今天其实国内有的地方已经开始兴建 VR 素材中心能看到好多人脖子上挂个 VR 头盔然后再去摇操作机器人去做一些任务对刚才我们提到的智辉君的智源机器人就是他建了一个 4000 平的素材中心然后雇了几百个人在里面就这 4000 平里面有

便利店医院就是让这些人在模拟这些场景去做各种各样的动作其实各地也在模仿这个事因为他的确带来了很多临时工就业然后还占了场地还带动了施工对所以继人工标注员之后可能接下来机器人行业会诞生这种

人肉数据达标远对可能会成为一个地方政府很喜欢这个东西因为它你这个许多反正相当于装修了一遍花好多钱买好多东西然后但是我觉得还在泼一盆冷水是因为今天的机器人本体的设计还尚没有一些定论今天市面上大量的机器人是没有触觉的还有包括听觉然后其实人类对于这些数据都是非常敏感的举个例子比如说我自己观装啤酒因为我是酿酒

我在灌装啤酒的时候我基本上是眼是不用看的我眼一般是旁边放个 iPad 在那看视频因为这个动作要持续很久其实啤酒在灌装的过程中一个是我可以通过仅仅通过声音我就知道瓶子灌了多满因为它靠近瓶口的时候会这样收起来对然后以及因为我是一拉罐酒是冷的酒它的水位到不同的高度的时候我的手只能感受到凉

这有比热熔的这种变化对然后以及它快靠近顶端的时候它的泡沫会产生震动就是有非常多的细节去让我去确认这个东西快灌满了它的重量的变化包括其实这个过程我没有视觉参与我也可以搞定

但是机器人不行他不是说做不到而是说这些传感器既没有被设计在机器人的硬件上面也没有被采集的时候考虑到是对然后还有第三个问题就是每一家设计用的方式可能都不一样对所以从这个角度来看其实我们讲一个产品都有一个产品原型我说今天我们看巨神智能行业可能目前只有一个算是产品原型就是四足机器狗或者是

或者四轮足机器狗这个算是一个大家都有共识基本的形态不会差太多的一个产品原型对但是如果一旦涉及到上肢和机械臂你就发现真的是千奇百怪是所以其实机器人这个行业即带有一家

头部的企业跑出来提供这样的一个标准化的机器人的形态也就是所谓的原型机或者说某一种原型机的标准就像我们今天所有的手机都在用 type-c 的充电的头这件事情其实花了非常多年有 iPhone 就最后死扛了好多年现在也屈服了我们终于获得了一个统一的 type-c 的接口我觉得其实在这个事情上

机器人行业急需这样的一个统一的标准否则的话我不管搞多少间这种多少平米的这种所谓的数据采集屋其实意义都很小它采取到的意义这数据都是不管是维度还是效果都是各有不同它不是在同一个标准下的他们可能都很难拟合到一个大模型里面去我觉得这个因为听下来我其实从刚才这应该是最后一种目前

大家最看好的一个技术方向了对吧对我想说的是这么多种流派我们会发现其实样本都是一个严重的问题然后到最后到了 VLA 我们还是要面临训练级的不足的最巨大的挑战也许没有我们没有办法通过所谓虚拟的方式完全解决的时候我们就是要通过人工大力出击机的方式把训练级堆大的时候

如果有一家能跑出来的头部企业提供这样的一个原型提供这样的标准大家再按照这个标准去

先弄出第一个这样的就像全球的第一个模型一样把它弄出来我觉得这个可能是一个非常重要的一个进步对有可能我们离答案很远对记得之前你跟我提到过关于为什么他不能看视频这个方向现在研究的人比较少但我猜未来是有可能可以像模仿学习一样就他因为今天的模仿学习他是要主观模仿就是你必须第一人称带着他去做这件事对但是

比如人类他是可以通过客观模仿就是我通过第三人称视角看你做这个事然后去领悟你就去模仿对但机器人现在是没有的是吗对没有因为需要的涌现能力要求很高因为他其实第三人称去观看你他得能更从语义层面上去理解你在干嘛然后你的姿态然后而且他不可能一次模仿对然后这个时候也需要在线学习去修正这一点

理解有很多架构可能是我们今天还没有被完全提出的但如果这样的架构开始出现的时候它会引发一个特别重要的东西叫搜索能力当这个机器人他要学习做一件事的时候他直接打开网络然后去搜索视频来学会这个东西的时候我们就不用追求一定要先预训练很多数据给他了这个太厉害了全世界的监控摄像头那个时候都能成为数据员对但目前这个算法还没有对吧

是但我觉得这些方向都是可能就会比我们想象的是更涌现就是可能我们原本以为这事五年之内没戏但是有可能就一夜之间这事就过去了我觉得还是非常值得令我们期待的不一定是个辛苦活是因为听起来就是在这个机器人智能涌现的方向还没有一个很明确的方向还没有突破对吧所以我整个听下来的感觉就是

因为之前其实大家都在说可能机器人行业也迎来了他的 chad GPT 时代我觉得我听完了刚才 Rex 完整的介绍我觉得应该是还没有整个行业在智能这块的整体的状态还是一个探索的状态尽管在硬件上我们看到语速其实已经做出了很多有原型意义的产品但是这些产品

几乎都还是在 L2 的这个级别在徘徊 L3 我们只看到一个 demo 对吧它也不是一个落地的产品相比这个送驾驶其实还有比较远的距离当然其实我们刚才也解释过了

自动驾驶看起来很难其实是一个相对规则清晰简单的场景而看起来很容易的所谓的家务机器人就是我们所谓的这种家政阿姨做的活其实却是整个机器人难度的巅峰应该说 Rex 可以总结一下吧这部分我觉得 Rex 这部分是非常做了非常精致的准备我觉得 Rex 真的是想真的是想教大家

真的想教大家怎么训练机器人的模型耳朵好像已经会了对我觉得一个就是今天来看就数据依然是最大的障碍和壁垒然后制造绝对不是是的我也是这个感觉因为我觉得就所谓的会上的这些人里面比如雷总对吧然后包括比亚迪包括华为每一个人我相信制造出同样品质甚至更高品质的电机都不是问题

然后甚至所有的车企就可能一个汽车的座椅的复杂程度都比一个人型机器人要复杂对因为它的品质要求太高了你只要稍微有一点问题售后就会出问题对

对然后所以制造业绝对不是核心竞争力然后算法甚至也不是因为今天来看算法在学术界上都是一个半开源状态即使你有什么特别领先的最多就 2~3 个月不会超过 6 个月对所以而数据为恰恰是学术界做不了的因为你是不可能向学校申请经费去雇 5000 个人采数据

所以通常学校或者院科研只能去做一个小样但真正能去放样采数据形成壁垒的恰恰只有企业能做然后另外理想中的这些数据有可能是 10%的人类的演示数据加 80%的这种合成数据无论是强化学习还是模仿学习等等

然后再加 10%的持续学习就是他这个机器人在真实世界中然后通过动作反馈得到的一些一些经验嗯然后最后这些数据呢全部都是灌进一个 VLA 里面然后你能用任何的自然语言去让他执行他学过的东西嗯

明白那我觉得讲的非常清楚了对我们好像也忽然理解了对巨神智能是怎么回事之前讲了这么久对我觉得这期确实是干货蛮的很难得的把就是这么多年看巨神智能相关的这些东西就是梳理的很清楚的一个部分对

其实 Rex 还有一个关于到底什么时候这个机器人产品会以什么样的成本和什么样的价格进入我们生活里的一个暴论我觉得想要请 Rex 跟大家分享一下对我觉得就是人型机器人未来的成本应该会降到一万人民币以内

对今天可能大家觉得应该是个几十万的东西因为其实简单的初级版本可能要 20 万对吧但因为我自己过去是做电动滑板创业的我们这个行业曾经把扭扭车扭扭车就是一个平衡车

那可是两个无刷电机带着电池带着平衡算法这么一个东西 FOB 装船的价格曾经达到了 50 美金一台因为电动代步航行曾经达到了极致的内卷对就卷到一个无刷电机的轮子因为那可是一个能带着成年人跑的一个交通工具一个轮毂带着轮胎带着电机的一个完整的轮毂差不多

70 多人民币一个人行机器人只是在这上面再叠加一点但不会叠加非常多一旦产业形成集群和形成竞争之后其实就会

包括形成一个在统一的一个产品原型上去迭代但我觉得就是比较合适的售价应该是在 20 万到 30 万因为我今天其实好多人在讨论成本讨论价格我觉得这绝对不是重点因为我们在讨论机器人什么时候能降到 1 万块钱以内的时候我们的假设是这东西只会跳舞只会娱乐对我们没有去把它当成一个有价值的东西去看待但是我觉得今天预申机器人公司他们在追求的还是这东西回来之后能成为生产力对

你给他安排一个活他就帮你干了然后这个过程他还能帮你赚钱你一个人就能够经营一家餐厅经营一个奶茶店经营一个咖啡馆然后几乎所有的体力工作都可以交给他们去干而这个时候它的生产力是大于一台汽车的生产力的其实你的定价就应该是一个你愿意去贷款去买的这么一个东西而不是它不应该是一个消费品买回来玩的一个东西产品价值会更高

对所以一味的卷价格我觉得不是重点而是他能够去完成的事情尤其是自主完成的事情这件事才是最重要的锚点未来可能也是分白牌和一线白牌可能就像 Rex 说的电动拧轮车一样大家卷极致的成本

但是一线品牌一定会用各种各样的技术创新把它做到可能就是我觉得 REX 设定了一个锚点就是像你买一辆中高端中端汽车一样这个价格大家才会愿意去投入更多的好的东西去做出好的产品对中国的汽车市场 20 万以上就是高端市场那我觉得 20 到 30 万买到一个

真的有生产力的家务机器人可能是接下来大部分普通人我觉得起码是我的一个非常大的一个愿望因为它真的可以把我们从繁重的家务劳动中解放出来这件事情其实是非常有意义的对今天来看尤其像派灵的开源我觉得是非常让我惊讶的派灵的开源非常像拉玛的开源

然后未来也会有像欧拉曼这样的东西就是你是一个小白你也可以很轻松的下载一个欧拉曼来部署你自己的大模型那今天我觉得组装一台四轴飞机也超级简单对吧你买几个电机回来然后买一个飞控板这东西就传起来了马上就能飞了所以我觉得在五年之后就是拼一台人性机器人应该跟今天拼四轴是一模一样的

你只需要去买一堆电机然后把它给按照自己的喜欢把它给拼起来然后最后装一个开源的这种机器人模型它就能够开始就能跑起来了虽然它可能不一定像直接商业公司推出的这种产品这么精致但至少是一个爱好者级别也能做的一个东西所以我觉得这个技术完全不会垄断而且你自己传的这台东西可以收集你自己的数据比如它是在农场里干活对吧或者它是在一个非常特殊的场景里干活

我觉得这个蛮有意思的这可能描绘了另外一种我们达成这件事情的路径因为刚才我们其实聊了硬件对吧然后又聊了算法或者说 AI 的训练的过程其实听下来最大的问题就是刚才讲的我们缺乏足够的数据来获得一个真正能用的具有通用智能的 AI 模型

那一旦我们有了这个东西确实它就是一个可以组装的东西了就像今天 DeepSeek 的哪怕是它所谓满血版 671B 参数的那个版本你也可以在家里用七台 Mac mini 串在一起来实现一个你自己的模型或者是刚才像 Rex 说的欧拉玛装一个 7B 的在 MacBook 上是非常轻松的事情

也许到那个时候我们如果有了这样的开源的这种机器人模型是可以用的那种现在其实还没有我们看到那一天到来的时候也许我们就可以自己组装一台家里的这种人型机器人哪怕有一点跌跌撞撞它能够真的执行一些东西的时候那个才是我觉得机器人的确的 GPT 时刻对今天可能它只是一个新闻对我们为它喝彩但是

我们真正迎来确认 GPT 的机器人的确认 GPT 的时刻的时候我们应该是在家里面为一个在我们家里正在

工作的家务机器人喝彩那个才是我们的机器人的确立 GPD 时刻最后稍微讲一下因为可能之前我是挺想做世老化这个场景然后但我觉得经过经过这段时间的训练模型训练之后我信仰就崩塌了因为我觉得人居混合场景就是因为人是一个非常动变量的一个东西我觉得这个场景可能是要 5 年之后才有可能才有可能会谈落地这件事

对我觉得这个对我的人生观还是产生挺大的一些变化然后我觉得可能是要等很长一段时间所以我现在对于创意的想法不再那么强烈了我甚至觉得没准比如说两到三年的时间空间里面我是愿意加入其他团队来等这个东西明白我们还见证着 Rex 的算是思想转变的一个成长上一期节目还信誓旦旦对对对

现在就开始我觉得我们节目其实有蛮多行业相关的朋友在听的大家可以伸出橄榄枝了解越多反正我觉得越敬畏了好的明白 OK 最后简单总结一下这期节目其实三个部分一个部分是讲语术这家公司为什么火对吧从历史从技术流派

从战略地位都给做了分析第二部分呢是机器人行业我们选了一些很有代表性的生态位公司对吧分别是在这个不同级别的这个巨声智能里面代表什么样的角色希望大家未来看到这些公司的名字的时候是能够对应上他们对应的生态位的

最后一个部分其实是 Rex 非常认真的给我们科普了一下应该算是当下巨神智能的所有的主要流派以及它的利与弊但我觉得最让人感受深刻的还是 Rex 实践的经历把每个流派的利弊其实说的非常的清楚然后但是也给我们展示了一个非常有意思的一些未来和一些可能性好吧本期节目就到这里 OK 感谢大家好谢谢大家拜拜本期节目信息量比较大非常的精彩

我们会尽可能的把这些项目和图片的链接都贴到我们的这个 show notes 中可以点击节目的详情去进行更多的查看和探索如果大家想要跟 REX 直接交流或者是想要了解更多的机器人相关的话题或参与讨论也可以加入我们的小助手加入我们的听友群参与讨论

感谢收听脑放电波欢迎在苹果播客小宇宙喜马拉雅等播客客户端搜索脑放电波找到并关注我们如果你觉得这期内容对你有所帮助欢迎你在评论区留下反馈这对我们非常重要

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Export Podcast Subscriptions