We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

2025/4/29
logo of podcast 晚点聊 LateTalk

晚点聊 LateTalk

AI Deep Dive Transcript
People
高阳
Topics
高阳:我从伯克利回国后,在清华任教期间,逐渐意识到科研领域可探索的方向越来越少,而机器人领域,特别是具身智能,有巨大的发展空间。大模型的出现,为具身智能提供了新的技术基础,也让我下定决心创业。 我与韩峰涛共同创立了千寻智能,致力于推动具身智能技术发展。我们认为端到端(VLA)是具身智能的必然趋势,虽然分层方法在工程上更容易实现,但长期来看,端到端才能实现真正的通用性。 我们的技术方案是将互联网数据、真机遥操作数据和强化学习相结合,以提高模型的泛化能力和成功率。叠衣服是一个很好的例子,它体现了具身智能在理解物体状态和制定操作策略方面的挑战。 我们发现具身智能也存在数据规模定律(Scaling Laws),数据量越大,性能越好。要达到GPT-3.5水平,需要海量数据。但仿真数据并不能完全替代真实数据,因为仿真的多样性是有限的。 我们认为具身智能需要大脑和本体的结合,只做大脑或只做本体都难以成功。未来机器人产业链将类似于汽车产业链,需要本体、大脑和各种零部件的协同发展。 目前具身智能行业仍处于技术突破期,商业化应放在技术成熟之后。我们相信,只要一步一步地做好每一个环节,就能最终实现具身智能的L2、L3甚至更高水平的目标。 我个人崇尚规律的生活方式,这有助于提高效率和保持清晰的思维。我相信,具身智能领域最终会形成共识,并迎来产业化的爆发。

Deep Dive

Shownotes Transcript

大家好 欢迎收听本期晚点聊这期的主播是关注巨神智能的宇童今天我们非常荣幸地邀请到了高杨老师他是清华大学交叉信息研究院的助理教授同时也是巨神智能公司千寻的联合创始人和首席科学家高杨老师在巨神智能领域深耕多年他是清华计算机系的本科和 UC Berkeley 的博士那 UC Berkeley 现在已经成为近期巨神智能热潮的重要发源地这得益于 Trivo、Peter、Sergey 这几位教授在机器人学习领域的卓越成就

那高洋老师在博士和博士后期间师从国际计算机视觉大师 Triwo 和 Peter 和 Sergey 也有深入的合作 2020 年从伯克利回国后高洋加入清华大学并在 2024 年和韩风涛共同创立了千寻智能致力于推动巨神智能的技术摸高成立至今千寻已经获得了来自阿美风险投资旗下 Perspirity 7 Ventures

博瑞资本和鸿辉基金等机构的三轮融资也发布了自研的 VLA Spirit V1 抢先版让机器人可以实现叠衣服全流程的顺畅操作我们认为巨神智能是个非共识行业但在高洋看来这已经是贪搜

收敛后的结果在今天的对话中高杨将与我们分享他对巨神智能的认知比如为什么大家都在做人形为什么端到端的 VLA 是巨神智能共识为什么叠衣服这样的操作会成为巨神智能领域的智商测试巨神智能的 scaling law 从何而来等技术议题高老师先自我介绍一下让我的听众朋友打个招呼

大家好,我是高杨,我现在是清华大学交叉信息研究院的助理教授,然后也是千云智能,巨神机显示公司的联合创始人。对,你是什么时候从伯克利回国,然后到清华任职的?我是 2020 年 8 月份从伯克利回中国,然后就直接入职清华,然后交叉信息学院当助理教授。

然后是在 2024 年开始和韩老师一起创业做农业智能你当时就是决定创业的时刻是什么时候我觉得应该是有一个 moment 就是突然意识到就是说我现在就是要做这件事情了

因为我之前一直在做教授所以我大多数时间我都在想说研究里面我下一个研究课题怎么去选这是我在 KM 里面大多数时候想的这个问题然后在某一些瞬间我会觉得这个研究好像没有那么多可做了因为你能看到这个范式的变化然后这个范式可能就是会终结掉这个研究的领域这怎么理解

就比如说有很多很多科研领域大家经常会说这个论文出来之后这个领域就不用继续做了因为基本的问题都已经解决完了就没有什么问题需要去解决了然后剩下的问题只是说把这些解决的做法在工程上

去做得更好就像现在大模型一样其实大家在学校做自然人员处理的老师可能除了 AI safety 还有比较多的问题可以做其他的这个角度尤其是就是可能解我们日常这些任务的角度你已经很难

有什么东西可以去做因为 GBD4 已经把这个东西做得非常非常好了所以 SampleHall 就是大圆模型它已经进入到这样一个阶段这个阶段是说做科研的人他仍然有东西做但没有那么多更加需要去探索的方向去做了嗯

然后我大概在 2023 年有一些瞬间开始感觉到这样对然后我就觉得其实就是机器人的在科学的这个角度发展也会逐渐的去往大圆模型这个成熟的阶段上去走嗯

那么其实对于科学家来讲你会有越来越少的事情要去做因为这个东西越来越成熟了但是从工程和社会的角度来讲是一个很好的一个事情因为我们真的去可以开始享受到这个技术所以带来给我们的一些福利嗯对所以从那个时刻是看到是我下决心的一个时间点嗯

所以从那个时间点我就想去做一个创业公司然后当时知乎上有一篇文章就是去讲最新智能是什么然后为什么这个东西很重要那个东西并不是我写的并不是任何科学家写的而是韩鹏涛写的那篇我也看过我之前其实也是听说过落实但是我没有听说过韩老师我也是当时看了那篇文章然后我就觉得虽然那篇文章在我看来可能写的水平也就那样吧

但是怎么说呢就是大思路是对的大思路是非常非常正确的他刚才讲的大思路是大思路就是说原来的机器人的这个应用的方式是一个人给他手写程序我们通过手写程序来把这个东西让他能在现实中做一些事情但是它局限性很大很多东西你没有办法

手写一个程序上去做所以我们需要人工智能让机器人能做更多的事情并且这一波大模型的这个变化的过程之中赋予了机器人能够做通用的事情的技术基础这篇文章主要讲的是这个观点在当时是有给大家科普的这样的一个性质对

但它其实比我总结的更加细致一些啊,然后我自己因为我做这个行业很多年了,所以我认为对于我来讲是非常 take for granted 这样的一个事情,但我觉得有一个人他原来是一个比较传统的这种产业方的人,然后这么 open minded,并且这么愿意相信这些事情,我觉得是一个非常非常难得的一个东西,对。

你当时还有见其他的一些产业方的人吗因为我理解其实像科学家确实会我觉得对产业对商业的理解会少一些我觉得确实是一个产业老炮然后加上一个年轻科学家我觉得这个配置确实还蛮好的我相信也是很多投资人愿意相信你们的同样的原因其实市面上这些就是已经有的这个公司我基本上都聊过一遍了另一个也是因为他有过创业的这个经历

并且落实是一个做得还蛮不错的一个公司对并且我们在做的其实本质上是一个机器人的一个生意就是它虽然和传统的机器人的这个逻辑很不一样因为传统机器人逻辑它尤其中国的这个机器人逻辑是一个国产平替所以它是有一点打价格战那种但我们现在做的是一个更加像可能 OpenAI 在做的一个东西嗯

但无论如何这个东西它还是一个机器人一个行业的这样的一个生意我去问了你们的投资人当时他跟我的说法是说他当时聊的市面上所有的局限智能公司他选了一家均分最高的就是你们他对你们两个的评价都是觉得你们两个非常的务实

然后觉得首先你们俩的配置就是顶配并且两个人都很务实然后说在问到一些你们的问题的时候场景啊商业的事情说你们虽然没有给出非常具体的一些答案但是你们把你们自己的推导过程告诉他了他觉得这个还是非常非常重要的

这是很多投资人对你们的共同评价吗对我觉得基本上大家都是这么评价的但三炮我觉得就是融资这件事情可能也不能太朴实可能还是得说一些比较宏大的一些理想可能才会做得比较好然后这个是就是我和韩总在改进的一些方面

就是你现在应该还跟你的导师什么的已经你还在美国同学应该交流的比较多吧对你觉得现在是做最深智能这角度美国最近有什么就是最新的一些观点或者趋势或者是一些路径吗可以跟我们分享一下吗

我觉得可能其实我不知道公众有没有知道但是比如说包括 Figure 他们 release 了他们的 Figure02 我觉得是一个看起来很炫酷的一个机器人以及他做了一些很炫酷的一些事情你可以跟我们的听众先简单科普一下 Figure02 他大概做了一些什么

对 Figure02 是有两个全人型的机器人然后站在那次厨房的一个场景里面然后人类给他一袋从商店买回来的购物的一个袋然后倒在了桌面上然后跟这两个机器人说你们帮我把这个东西收一下

然后这两个机器人就看到这些东西说这个是一个牛奶所以我应该放冰箱所以这个机器人就会自己把门拉开把牛奶放到冰箱里然后那个东西是一个水果他会把这个水果放到水果篮里面并且这两个机器人就他们俩之间会说话会合作并且他们自己会有很多常识知道把哪个东西该放到哪然后这是

就最近的一个就我觉得做的看起来非常炫酷的一个 case 我觉得这个是相当于展现了可能美国现在去深圳里面做的比较好的这个实例吧你觉得就是比如说有一哪些具体的方式方法是有可能是我们可以借鉴的吗其实 Figure 他们是比较显示讲他们用了快慢系统包括他们的机械人工业设计也做得很好看然后包括机械人的柔顺度也做得很好看

我觉得这些都是我们可以去学习的快慢思考我们国内其实大部分公司也都在做这件事情觉得他们更优秀的地方在什么地方然后是哪些细节去导致就是从细节上你可以看到他们动作很丝滑国内我还没有听说哪家就是把快慢系统真的去做出来并且用到他们的 VLA 里面快慢系统这件事情做起来真正的难的地方在于什么

我觉得还是工程上吧工程上把它做得比较好然后优化的你的动作比较丝滑想的比较快这一点就是是有很多工程上的一些活要做嗯就是工程上的活就是得不断地试不断地试是这个意思是吧对明白然后你觉得中国有哪些下来的一些发展是在你的观察里可能会比美国做得更领先一些的

我觉得就是中国我感觉在基础的硬件的 manufacture 就是基础硬件这个制造的方面上还是比美国要领先很多的就是

本体因为对本体的本身因为我有些美国的朋友他们说他们在公司里我说你们买什么机器人啊他说他们买了一些中国的机器人然后我说你们不担心坏吗坏了怎么修啊他说好像很难修修不了啊然后

对他们也买了语术然后也买了就很多其他公司的机器人哦然后我说我也觉得很难修因为我在清华也买了语术哦然后因为我们做实验做的比较狠嘛所以这个机器人每一周换一次嗯我每一周把机器人又回杭州一次然后语术就可能修个一周半又给我们又回来了嗯

对但在美国你完全没有办法这样嗯那他们坏了怎么解决自己啊对所以我问你们坏了怎么办他说这个对我觉得你这个问题问的特别好就是一个因为我问不出来的问题你必须得是真的在这个行业里面问到的一个很实际的问题对然后他们说就让这些比如说语书给他们寄一些背件然后他们自己去修对但是这个东西就对于他们的人力还是消耗蛮大的然后

可能你也要背很多背架对还是挺麻烦的所以语书会专门有一个部门专门来修用回来的机器吗应该是吧对一般都会出现什么问题因为我们做实验就是有很多动作会做得很快所以比如说他的手突然甩出去了然后撞到了对就是他的手腕就不好使了哦

或者他我们在做一些高动态的一些东西的时候嗯他的脚踝可能会裂然后嗯对那这对你们自己做本体会有什么激发吗其实我们公司也自己做本体也会遇到很多很多硬件的问题然后因为我们自己有很多就是 inhouse 的工程师嘛嗯所以他们基本上可能一两天就能把大多数问题都解决掉嗯

对所以我觉得这点还是中国相对于美国有很大的优势的一点就是修机器快嘛对真的是这点因为像 Bizcon Intentions 他们买了 100 套机器人但是按照这个机器人坏的速度可能就是你修的速度很难能赶得上嗯

对还能够赶上你做实验的速度那你觉得你会怎么给巨声智能的行业发展阶段去划分阶段就是有的人比如说像我们采访一些支架的人他们会用 L 来划分比如说像什么机器人巨声的这个通用是什么 L3 级别现在我们处在什么 L0 级别大模型的人就会喜欢用什么 JPT30 克 JPT3.5 十克这样来定义你会怎么来定义它

其实这个问题我跟韩总这周一还在讨论但是是我们自己的定义啊就是我们认为首先 L0 就是工业机器人就是它没有什么智能那么 L1 呢是你可以在一个单一的任务上有一个智能比如说这个任务是我就在工厂的一个位置打螺丝如果机器人有这个能力我们就叫它是有 L1 的一个智能

那么 L2 的智能我们定义为它可以在比如说办公室里面完成少数几件事情比如说它可以在办公室里面给我打一杯咖啡给我把桌子给收拾了等等等等就是可能有那么五六七八件事就我们把这个东西叫 L2 那么 L2 呢相当于它就是可以移动起来了然后可以有一些多任务的这些能力

然后 L3 是什么 L3 我们认为是在一个屋里的场景里面比如说一个办公室的场景里面你能够达到 70%到 80%人类能做的事情那么其实 L3 是一个我觉得相对来讲是这里面一个比较大的一个跨越因为 L2 是少数件事情 L3 呢它是七八十的事情那么它的这个能力范围扩大很多嗯

然后 L4 呢就是比如说就是在单一场景之内可以做到所有的人类能做到所有的事情这个东西就比较像 VMall 说我在三藩我就可以开车了你在三藩你想去任何地方都可以去这个就我们定义为 L4 那么 L5 呢就是说你不局限于单一场景你可以在任意场景

不仅是我的写字楼我可以在我的家里面我可以在便利店我可以在工厂里面都可以做到任何的事情对所以这是就像我们拍脑袋自己去定义的一个 level 对那你觉得现在在什么阶段我们现在其实已经过了 L1 的阶段但是我们在 approach L2 这个阶段你是指的是千寻还是说整个行业

整个行业的最好的水平也是这样对我们也是这样明白在接近 L2 的过程当中对对明白问一个大家都会比较关心的问题就是巨神智能一定是等于人型机器人吗为什么现在大部分做巨神智能的公司都还是在做人型这个品类就一定是要人型吗

不一定要人行其实它完全不一定要人行比如说其实 L1 这个事情你完全可以是一个工业的单个的一个积极币就可以去做但是就比如说如果你要去做 L2 的话可能大部分时间你需要一个双币因为很多时候你需要两个手一起配合去完成一件事情并且你需要移动的一个装置因为你需要到各种各样的地方最简单的方式就是一个移动的一个底盘

所以就是你为了完成 L2 的任务你最少需要两个手和一个地盘那这也是就我们的这个物理的形态但我觉得角就双足它是一个没有那么刚需但是你可以去更多地形的这样的一个形态但是我觉得它尤其是双足短期之内是一个非必须的一个东西双足可能会在 L 级里面成为一个必须的东西

如果仅仅是在办公室场景的话可能到 L4 和 L4 之前都不是必须的对但是如果你选这个场景是一个比如说操场上那可能比 L2 就要做这个事情明白所以还是要看选择切入的首先突破的这个方向是什么刚才你也提到的就是说

可能再到 L4 比如说室内场景在 L4 之前可能都不需要做双足的这个能力可能有那么的努力但是就是确实团队里面也有一些可能更擅长做双足做运控的这样的人认为说你先做上半身就是等于当时先施力先做增重车嘛那你最后还是要补上你的该需要的这个能力你是怎么看这件事我同意啊觉得这个事之后补就可以了

你觉得这个是简单吗我逻辑是这样我逻辑是说现在底盘这个东西已经非常成熟了但是我们其实见到的这种基于底盘的说法是底盘对 螺丝底盘但我现在见到的基于螺丝底盘的机器人其实非常少

比如说可能只有酒店松鼓机器人对吧它是一个基于地盘的在线中被弹幕部署的一个机器人但其他的比如说办公室场地里面并没有这样的东西那为什么呢其实主要并不是说地盘它不够好而是说我光有一个地盘我没有手

就我没有用我只能是在一个地方我需要人去给我装东西另一个地方再用一个人去给我卸东西那么这里面的核心就是说如果你没有操作能力你只有移动能力它的价值是非常小的因为我们现在已经有很好的一些移动能力的一个硬件但是我们在日常生活里面

并没有见到它具备使用所以我们解决一个问题肯定要就是挑它的主要矛盾去解决所以我认为现在的主要矛盾是你的手上的操作能力而非你的底盘能力或者你的 locomotion 就是双足的这个能力

然后我同样也认可未来我们需要补足双足的这个能力但是现实的情况是可能我们在相当长的一段时间之内我们的这个或者出货量最大的机器人的形态都是轮式底盘加双臂因为这已经可以去解决那些 80%的场景能被机器人解决的场景那么在未来当然你为了解决剩下 20%的场景你需要双足

比如你要上下楼梯对吧这个机器人这个轮式底牌不能上下楼梯或者你要去操场上你要去什么野外那你肯定需要双足的这个能力但是它是剩下 20%的场景因为大家一定会倾向于用更简单的解决方案先解决那些能解决的场景

所以我觉得这个东西是我们未来需要去做的你是从场景的角度上出发觉得是说现在去做双足不是一个性价比很高的事情对那你觉得双足的难度是怎么样的其实之前我也听其他的一些做军事智能的人提过有人的想法是双足是好补的

因为像您刚才的逻辑可以等到其他做双足的人把科研给突破之后我们去补齐其实好补的那同样也有人跟我提过其实双足是比操作更难做的因为双足涉及到很多稳定性的事情比如说我们小孩在很小的时候他的手就会去操作很多东西但是他要学会走学会跑要到很大的年纪

对这个技术上你是怎么看的我个人亲爱的双组的技术还是比较简单的对因为首先我在切瓦实验室也做双组和四组对然后我们最近刚好做了一个项目就是关于平衡性的当然我们做平衡性之前也做了双组的行走对然后实际上它没有那么难就是以现在的科研的这个领域的水平来讲就是把一个双组的一个策略当然不是说它走得非常好去能让它在物理世界里走

没有那么困难这个东西就是我们实验室能做我相信可能很多其他实验室也能做当然可能你为了把它做到工业级的这个稳定你还有一些功夫要做但是这里面没有本质的卡点对甚至在我们实验室我们也在做一些高度平衡性的东西比如说有一个我们做的叫验试平衡

就一个腿站着然后你的双手冲前然后另一条腿冲后然后这个动作我们都能做出来是瑜伽那个对对对然后还有一些像这个李小龙那种

什么一条腿站在那条腿踢起来对就类似这种所以我觉得这个东西从技术难度上它其实没有那么难对一定要双腿吗有没有可能是没有开始对四条腿然后上面两只手像那个人形马那种半人马是吧对啊腾讯他们之前就做了类似的形态的一个东西我觉得是可以的四足的稳定性会比双足更好对吧对

对好非常多对就是 again 可能它的应用场景会有一些局限性因为相当于你四足要占领更多的空间嘛嗯它可能用的场合

会稍微有一些局限性但是我觉得可能未来会有一个机器人品类是这样的卖点是张宇哥对卖点是我站得更稳不可能也是有可能的对那比如说像你刚才提到的就是说双臂啊移动能力是双臂这样的形态它一定是需要一个人的上半身了

对因为大家都会在说其实好像只要操作能力强就可以但是还是会忍不住做一个上半身就是有一个躯干然后加上一个脑袋对那一定是要这样的形态吗我明白你的问题你问题是说能不能我脑袋长在下面或者说它一定要脑袋吗就是能不能就是只是两个机械臂如果真的就是比如说双手的这个操作是最重要的话是这样因为你需要就是有一相机去观察这种场景

所以非常自然的你需要一个相机装在比较高的一个位置上它可以不是一个脑袋但它需要在上面有一个东西能去俯视这个全图那这个高度也一定是要像特斯拉的 Optimus 是 1 米 73 不一定你可以稍微高一些可以稍微矮一些但是现实的情况是说

我们的物理世界是为人设计的就是室内场景是为人设计的对尤其是室内场景是为人设计的所以就你可以设计一些奇怪的一些机器人的一些构型但是你会发现如果你仿料人去做它物理上一定是可行的因为所有的场景都是为人设计的如果这个东西人的物理是不可行的嗯那么

那么这个场景也不会存在所以比如说这个桌子基本上都是 75 厘米高如果你做了一个机前它只有一米二它可能这个桌子里面的东西就够不太着它如果它的手有两米长它可以五折叠它可以不用是收起来它用的时候它折叠出两米它也可以勾到这个桌子

我觉得是可行的就如果你有一个胳膊像登山杖一样它是可以一直长长长长久节鞭然后去抓一下然后再收回来我觉得应该也是可以的对只是说大多数场景你不太需要那么长的胳膊

背后的一个问题是说大家现在都在扎堆做这样人的形态到底是从一个需求的角度出发还是说从技术眼镜来说这个人的形态可能是比如说最省力的就是从客源成本的角度出发还是说是一个从众的心理出发就是所有人都在这么做我觉得是需求的出发

还是需求主观对就是本质原因是因为世界是为人设计的所以人形从物理形态上你可以确保它可以解基本上所有的问题嗯明白

所以说如果等到真的就是机器人统治世界那一天然后他们可以设计出符合自己产品的最形态的那些东西之后也不一定是人形的形态就是从亨利福特时代的流水线开始工业生产逻辑就是分工细化为什么现在我们却希望用一个机器人来解决大量通用的问题

因为我们现在有很多很多问题就是如果你为每一个问题专门设计一套解决方案它需要付出一定的固定成本但是如果你有一个同用的机器人的话像你附用了这个机器人的硬件设计人工智能系统然后你只需要赋予这个机器人做不同任务的这个 AI 的能力你就可以去做到各种各样不同的事情

所以它并不违反就是工业革命或者工业生产降低成本这个事情那为什么以前是追求精细化的本质也是为了追求更低的成本所以更通用也是为了追求更低的成本对就它们俩是不矛盾的因为其实我们有了比如说通用人形机器我们也不会用它来比如生产塑料杯因为塑料杯就是用模具去生产的最快的

所以未来有可能会存在通用的机器人和精细的这种比如说机械币就是一起用一起的场景是的这样并不冲突对那他们会比如说在工业场景里面解决哪些问题吗

对其实我们现在就在做一些工业场景然后这些场景里面是很难被这些专用的机器人做解决好的所以这些问题就是仍然是需要有没有说那些肯定不是减电池不是减电池就是比如说汽车厂里面这个装配的总装线它上面比如说安一个大灯安一个座椅这些仍然是要人手工去做的所以比如说这些活儿

它是没有办法被传统的 GDP 所解决的它仍然是需要通用形态的机器人去解决有人会认为现在就是做这件事情的人的成本会比机器人的成本更低从成本的角度上来说这个会更划算对

现在的确是这样的所以但我只是举几个例子就是说为什么工厂里仍然有人因为现在还解决不了这些事情当然就有一些人会比较便宜有一些人会比较贵有一些人的量会比较大那么在工业里面就肯定会优先去做那些量比较大的一些事情就是这个前期才能算得过来照嗯

到后期是不是说比如说一个人型机器人如果能用很久它是足够 cover 比如说某一个人几年的成本的话那这个账也是能算过来的对的对的

然后下面可能还是会讨论一些就是共识和非共识的这样一些情况因为我觉得巨神智能发展到现在确实会有一些我觉得大家都在各说各话的感觉然后我觉得谁也证明不了别人是错的然后自己证明自己是对的倒是也比较有套路然后我觉得您是中国既有产业背景然后又有海外留学经历然后其实是对这个技术最

并且您在伯克利手其实是在两个实验室就是视觉和强化学习其实都待过我觉得您应该对这件事情有更全面的思考所以我接下来可能会抛给您一些这个行业里面大家都在讨论的一些非共识的一些情况首先一个就是关于现在就比如说走向巨神智能是端到端的这个路线会更容易走向巨神智能还是说现在当然有一些人在做分层你是怎么看的我觉得这个肯定是端到端这个基本上

我觉得行业内可能只有少数人不这么认同但大多数人都会认同一定是短短短的其实这个背后逻辑已经在自动驾驶经过自动驾驶这么十多年的发展已经基本上所有的自动驾驶的人都在开始去做短短短因为大家发现手动去做分层这个事情不靠谱

对这里我跟读者们介绍一下端到端端到端其实就是相当于我们收集到的信息然后我们直接可以给出动作而不是说就是中间要比如说我们要先接受信息然后给它转换成什么什么什么然后再转换成我们的这个具体操作分层是这样的对吧对

那还想问一下您就是端到端等于 VLA 吗现在大家都在提 VLA 等于端到端等于 VLA 对因为你的输入输出就是视觉加语言你输出动作嘛所以就是 VLA 就是等加于端到端 VLA 就是 Vision Language Action 对明白 VLA 不能解决什么问题

我觉得只要是操作类的应该都可以其实从理论上来讲对操作类应该都可以但实际上呢我们可能会遇到实际上可能我们会遇到传染器可能没有那么好使所以我们需要更好使的传染器等等等等这些我说一下就是现在还是有人选择分层的这个原因是因为分层在现阶段还是一个

可能怎么说更容易实现的这样的一个路径对吧工程要更容易实现对但是可能就是在您看来未来一定大家都会走向断道断分层直线现阶段的一个选择对然后聊到操作这个地方其实我觉得是你先前更擅长的这个地方然后这个地方要不您先简单的讲一下我们现在的一个思路然后我们现在能大概做到一个什么程度

对其实我们操作这个角度其实我刚才简单讲就是端到端的 VLA 这样的一个模型这个模型就是你跟他说任何一句话比如说给我倒杯水或者给我做杯咖啡他就会通过他这个 VLA 的理解把视觉的这个场景理解和动作去结合起来去生成一串动作来完成这个任务然后我们在做的技术方案其实是把

海量的这种互联网级的数据包括互联网级的图文的数据和互联网级的人类的这种操作的视频结合摇操作这种精细的微调再加上最后的强化学习微调这一套这个链路综合的去把所有我们能用上的数据都用起来

这样的一个策略然后我们现在能做到的东西其实我们前一段时间也 release 了一个 demo 的一个 video 就是我们连续去点很多件衣服这样的一个能力其实对于普通人来讲大家会觉得这是一个很急促平常的事情但其实对于机器人来讲点衣服这件事情是一个尤其难的一个问题

因为我们日常在操作很多东西的时候比如说杯子啊什么的它都是一个钢体那么你就很容易去理解这个物体的状态比方我这个杯子放在哪就是哪然后我倒水它就是比方就是固定的一个行为嗯

但叠衣服它不一样,叠衣服这个衣服我从这个洗衣楼里面拿出来,它可能就是折得乱七八糟的,所以你很难把它归属于某一个状态,你需要去理解这个衣服的褶皱是什么样的,你才能理解我到底应该以一个什么样的策略把这个衣服给叠好,所以其实叠衣服对于人类的小孩也是很困难的一个事情啊,

是吗对有一天我跟我一个朋友讲说我们机器人能叠衣服了他说哇真的吗因为他的好像两岁还是三岁的小孩叠不明白衣服为什么呀

就是因为他的脑子还没有发所以其实这个是难在就是你得明白这个衣服这么乱了你要怎么去称它所以他是不能理解乱对 他是不能理解他是怎么乱的然后对于这个乱的你要怎么去处理它所以并不是跟他柔软的材质有关系

我以为是比如说它的力度怎么难不是力度只是说它这个状态要理解它的状态然后把它还原到一个设定的状态因为它有可能出现各种各样独在思考计算范围内的这个状态对其实对我们成年人而言就是我们不会觉得叠衣服是一个比倒杯水或者扔个垃圾更难的事情但实际上对于小孩而言对于机器人而言难点同样都是

就无法识别状态对我觉得这个就相当于一个巨神智能的智商测试可能已经是四岁或者五岁小孩的一个智商明白就是为什么是比如说我理解其实在操作这个过程当中以及大脑识别的这个过程还有一些别的难事这些难点就应该它是有一个顺序比如说什么更难什么更简单更靠后还有什么可以大家一起探讨去解决的下一步难题

我觉得我们现在在解的问题是说我们怎么让这个模型能够

同时拥有很多很多能力包括比如说我告诉他叠衣服我说这个衣服我不想这么叠我想那么叠或者我叠着衣服叠一半的时候我说你给我这衣服里面比如包一个信我想把这个信藏在这个衣服里等等等等相当于我们现在解的问题是说其实就是朝着 L2 去走 L2 就是说多任务我们到底怎么能把多任务做得很好我们做多任务的这些

其实对于单个人而言叠衣服已经是一个相对来讲非常非常难的一个事情了单个任务还要比叠衣服更难的吗

还有一些是比较偏精细操作类的但这些是就如果你有相应的传感器还是比较容易去做的明白那些就是跟大脑无关了对吧对可能跟大脑就关系比较弱就比如说可能我想把一个针插到这个缝里面那它就主要是关乎于你的触觉传感器有多精确但跟大脑相关的基本上第一步就是最难的事情了

叠衣服这件事情竟然这么难对因为我今天在来的路上还在跟我一个朋友讨论就说为什么大家最近都放了一些跟叠衣服相关 demoHugging Face 在去年也开源了叠衣服的项目美国的 Fiscal Intention 的派灵也能完成叠衣服的操作

那李飞飞的研究团队的论文也已经公开代码了开源也是能让机器人学会刀叉叠衣服等操作因为它是单人物里面最难的一个东西明白并不是从场景出发并不是而是一个技术追求更高更快更强的过程当中必须要做的一件事情是的

下一步就是你们要多线程操作是吗对比如说是什么叠衣服的同时我要去比如说就是相当于你在叠衣服的时候我要你做一些稀奇古怪的一些事情然后你能不能也一起完成掉所以这个其实还是得靠他的这个大脑的思考能力这个是跟什么快系统慢系统有关吗还是他是有什么决定的这个难题主要还是慢系统来写的快系统其实是比较

第一层比如说我抓一个东西我有没有抓稳找不稳再重新抓一下等等等等这些这些主要还是在它的慢系统这个方面就怎么实现呢就是机器人的这个操作模型它是分为快系统和慢系统你可以理解为快系统它

是一个反馈很高频大概是 50 赫兹到 100 赫兹这样的一个频率很快速的一个反应这个反应里面主要是对于触觉和一些很底层的视觉的一些反馈比如说我抓一东西有没有抓到没抓到我就快速调整一下我就能抓到了这是快系统慢系统是指就是说比如说我叠了个衣服你突然说要把信封放在左袖子下面嗯

可能我的慢系统要想,这个信封在哪呢?我现在看一看,对吧?然后我拿到信封之后,我又得去看哪边是左,哪边是右,然后我把它放在左边下面,然后这个就是相当于通过慢系统,那这里面主要是视觉的理解,语言的理解,然后通过视觉和语言的理解去产生你的意图,

泛化这件事情它的难度大概是在一个什么阶段其实我刚才讲的就是 L2 的 L3 的提升其实就是一个主要的挑战就是一个泛化性的一个挑战因为你很难能把所有的任务都踩一遍所以你需要泛化性来支撑你能够举一反三比如说我学会抓 ABCD 四个物体

但我也能一下子抓另外一个你随便给我一个新买的一个东西那这就是体现这个泛滑性我觉得当前对机器人的主要挑战其实就是泛滑性就是我建了一个新的物体我能不能知道该如何去处理它这是其实当前的主要挑战

是在叠衣服之后的叠衣服本身它也有繁华性的挑战比如说不同颜色的衣服不同的类型的衣服它可能有细微的叠的策略的一些区别所以叠衣服本身既是一个操作本身又很难同时又具备一定繁华性的这样的一个难度

对好的你们的数据是怎么调的从哪里来的然后再怎么调整对我们数据主要是分为三个来源一个是互联网级的文文加图像数据和互联网级的视频数据那么这些数据就是量非常非常大它可以让我们模型学会很多常识但是这些数据它可能没有那么精确所以我们后面会用真机的摇操数据对这个模型进行微调

也就是说所谓的 SFT 微调然后在 SFT 微调之后呢我们会继续用强化学习对这个模型进行进一步的微调强化学习的作用就是让这个模型的成功率变得更高

啊明白就是互联网的视频数据这些他们的质量大概是怎么样的然后你们有哪些筛选的标准吗对他们的质量其实是比较参差不齐的以及来源啊就我们基本上就是从一些视频的网站上去排一些素材比如说 YouTube 这些他们的就是说实话他们能用的数据量的比例也就大概 1%左右因为大部分的视频是和人类的这个操作没有什么关系的嗯

所以能用的比例很少所以我们其实基本上会删除了这些跟人类操作强相关的这些视频其他就完全不去处理了对然后跟人类操作强相关的是比如说就是第一人称视角这样的一些操作这样一些视频第一人称视角是最好的这个就是我之前的理解是互联网视频给机器人训练的主要意图是在于比如说帮助他去识别这个是什么这个是什么是这样吗还是说也会让他去学习怎么去操作

对也是会学习怎么去操作就一方面他会学习什么东西是什么另一方面他也会学习怎么去操作对因为学习什么是什么这个东西在视觉语言模型里面其实已经基本学到了然后我们更多在做的就是说让他从视频里面去学每个物品到底该怎么去操作

这个怎么学这个就像用到我之前的一些学术上的一些论文比如说我们去预测这个视频里面每一个物体未来的这个轨迹预测人的手的未来的轨迹通过这样的方法让他去学到人是怎么去操作这些物品的嗯

对我问一个很小白的问题因为我前段时间其实也看到志愿他们也说了类似的当然我知道这个问题的是比他们要早很多的他们也在说当时他们公布说他们也在从互联网视频数据当中就是去学习训练的时候我一个自然而然的疑问就是从作为我们人来说比如说我们看了很多操作的视频

可能看了很多很多遍然后我们也还是不会操作金线看完他也不会操作他只是大概明白这个操作大概是这么做的但他仍然是要去所以一样也是一个对和不对的这样的一个认知是吗就是也是认识什么是什么只不过他的这个什么是动作对 是的就是他大概知道这么做是对的

但他可能做的不够精确所以他也不能说只看互联网视频他就能够直接去做事明白所以他还是需要您刚才说到其他的比如说什么 SFTV 跳然后加上跳法学习对对对 OK 那您可以再讲一下后面的这半截的旅程他们具体是比如说是怎么去调整的然后分别会发挥什么样的作用嗯嗯就是模仿学习它就相当于让这个动作变得更精准就像你看视频嗯

你看了之后你也不知道具体这个零件怎么装你也自己装了先才知道所以模仿学习微调就像做这个事那么强大学习的这个微调呢其实和单元模型是一样的就是因为如果你一直是握着机器人的手去做这件事不让机器人自己去用他自己的想法去做那么他总会有那么 5%到 10%的情况他会失败嗯

好哲学怎么理解我想一下他的手作他就会聊手作

对对对就是我举个例子怎么理解就像比如说让你看你的妈妈做菜但是不允许你上手你看了她做了十年然后突然有一天你自己要在你的家里面做然后你就不知道这个盐我要放多少对吧这个菜炒到什么火候我要出锅因为你从来没有自己去做过这事

所以强化学习的哲学就是说你为了把这个事做好你必须得自己去但同学所有的运动都一样就是有点像但人类物理解释有一些肌肉记忆在去做这件事情对 机器人也是有的也有肌肉他们的他们的他们的经济他们的电子记忆是吧你们这个词叫什么就是人的肌肉记忆他们叫什么

你好发明了一个新的就是这个我们没有这个专门的术语但是的确是类似的机制

就是你看的越多它确实是会给你的大脑一些刺激让你不自觉地去模仿但这个最后还是要靠你自己不断地 practice 然后去形成肌肉记忆对就是这样所以它机器人和人是一样问题生物感觉生物也差不多感觉是一样的只不过它们是另外一种这个记忆是存在于它们的大脑当中吗对那和人还是不太一样我也不知道人是可能人有脊髓可能会存一些东西这我也不知道我瞎说的

对我其实最近在想就是这还蛮哲学的就是肌肉记忆到底是什么确实因为我觉得就之前滑雪的时候不会换刃就一直很久很久就是突破不了自己我突然有一次换好了之后我每次都可以换刃你可以把你肌肉想象成你的脑子的一部分就是你那个模型一瞬间那个神经元搭上了然后就灰了对

那就是到机器人这里它怎么去实现呢其实机器人也是只是说人类的这个控制系统它可能是分布式的一个控制系统就是你的脑子是一部分可能你的每个肌肉也有一些记忆所以它是一个分布式的只不过机器人的这个对它现在是中心化的但不排除未来它也会变成人是外星人

我觉得这个点还蛮好的这还很给我启发其实机器人也是一样就是机器人在做强化的时候它也是很长时间它都不会然后突然某一次它会了然后它未来就一直会比如说在你们实验的过程当中有遇到过什么类似的情况吗

非常非常多案比如说叠衣服也是之前一直怎么都学不会突然会的就就在一些特别难的情况比如说你去插把 USB 的一个接口那确实非常精细了对然后这种时候你可能就是插了半天你都插不进去但是突然有一下你插进去了

然后之后你每次删都会越来越容易并且这个学习的曲线是刚开始很难很难然后突然某一下你会了然后你未来就非常容易的能去复现这个成功那比如说像插 USB 接口这件事情你这一次成功了也会提高它去做类似的比如说插入了这种事情的成功率

我们管它叫跨任务泛化对就是相当于一般的泛化是对吧我倒这个水那个水就我都是不同的瓶子不同的杯子我都在做同样的事但跨任务泛化就是像我一会儿倒水另一会儿浇花我的这个动作都是比较接近的但是又有一些不同但是它们有一些相似性或者说对吧我今天拧这个螺丝明天我专门扒手然后后天我又拧个灯泡哦哦

然后他们之间都是动作是一致的只不过是不同的任务对他们动作也不是完全一致但有很大的相似性那这个你们的训练比如说会有什么规律可言吧还是说会很玄学就是你们也不知道他哪一次会成功还是说会有一个比如说会有什么阶段比如说他在 100 后到 150 次我瞎说的就是在这个阶段说会更容易做成这件事情

强化学习的话它比较取决于任务的难度就如果任务就是它不见得是非得 100 到 150 它就是取决于它什么时候能试出来一个东西它就会一下子什么东西决定它就是这个东西取决于我们之前的基模的训练和这个 SFT 的做得多好如果这两个都做得比较好的话它强化学习就会

比较快的能耗时这个数据这一块我还想问一下就是说其实我觉得现在对于数据的采集和训练方式其实大家也都还有不同意见你们现在其实是属于各种你们都会用然后并且用在不同的阶段然后有的人可能会更偏向于相信

某一个方式会带来更大的价值然后其他的作为辅助比如说有的人会觉得就是仿真的这个环境仿真的数据可能会更好然后像特斯拉他们其实做药操作的非常非常多你是怎么看待就是整个行业去选择不同的这样的方式对我觉得本质其实是大家认知的不同吧以及擅长的对以及擅长的东西的不同其实大家比如说做仿人系的这个公司他们

就有比较多的这种访问器的一些积累所以这是他们所擅长的然后也是他们所相信的所以他们会这么去做但看到是这个是大家没有能达成共识的一个点了所以大家现在的这个做法也是非常非常不一样的那你们最主要的是视频学习吗我们最主要的其实是

就是我们最大的数据量肯定是互联网上的图文加上视频因为这个东西在大圆模型里面已经被证明过无数次如果你的基模是足够好的那么你就可以让你的模型变得非常非常强嗯所有的大模型它们最重要的一步就是预训练那么预训练你就是要爬非常非常多的数据然后把你的基模做得非常非常好嗯

之前我看你的资料已经提到说你带领团队发现了 data scaling 到就是巨神智能的这个数据不知道 scaling out 怎么翻译成中文好像没有人翻译这个确实是在巨神智能领域也有 scaling out 的存在对是这样就我们发现巨神智能里面的这个 scaling 的性质就和大模型是一模一样的对

数据越大相当于数据和你的性能的我们叫 optimality gap 就是和最优的差距是 log linear 的一个关系就是你的数据取 log 之后和你的性能的这个就和你的 optimality gap 是一个线性的一个关系换句话说嗯

我多采十倍的数据我的性能就会多一个九就是 99.9 到 99.99 这样的东西就粗糙来讲是这意思这个你觉得是一个多大范围的公式就是你认为只能有 scaling log 这件事情在论文里验证的是规模没有那么大因为我们也没有采那么多数据

大概是一个十到几十万这样的一个量级的一个区间对这个规律都是成立的你觉得像要做出居身诊的 GPT-3 大概数据量会要占什么我们其实用 Google 做到 3.5 的话按照我们的技术路线按照大概会需要 100 亿条互联网的视频

这 100 亿条是有效的还是有效的那就是你说的质量是 1%那就是我们至少要去学习 100 亿的 100 倍的数据就是我们从 100 亿的 100 倍的数据里面筛到 100 亿然后加上一亿条的这个摇操作的数据再加上大概小几千万的强化学习的数据

那这个现在我们互联网已有的这些数据你测算大概是在一个什么样的范围内现在其实我们测算下来互联网上已有的视频就是能够用的视频大概也就 110 条

所以就是要学完所有的对那这个事情会是一个时间很久的事情我们预计可能大概需要我们四到五年四到五年对明白就是你说的这个是在视频数据的角度成立的如果是比如说我这家公司当然我觉得姚操可能是不太可能实现去搞到一百亿的数据这太累人了比如说他仿真他有可能仿到一百亿那这样如果是他仿到的数据的话这个也成立了

是这样仿德的数据其实不成立因为就是仿真的数据它的我们叫 diversity 是有限的就是对于仿真来讲你其实不太能数你的数据的条数是数的那个什么点是数那个 diversity 有多大点但这个东西就很难去量化了 OK 因为一个仿真器如果我放在那儿

就是让它一直跑它可以产生无穷多的数据但是我并不能说它能解决无穷多的问题因为它的数据的 diversity 是有限的所以对于仿真器的话就是说这东西就很难数就是你可能得数我的仿真器能够比较真实的去 cover

我现实世界的多少种任务这个任务可能就包括比如说透明的玻璃杯你能不能放衣服能不能放然后比如说我的椅子是一个上面有一点软下面很硬的这样的一个结构能不能放

明白所以其实对于仿真数据他们是有另外一套要求的可能不是按照数据量来定的对所以其实 Scalling Law 那对这样的数据其实确实是不生效的对明白那你觉得摇操的数据会也存在 Scalling Law 吗摇操也是存在的就只要你摇操的这个 diversity 足够大它也是存在的只不过这个是成本更高对只不过这个成本更高明白千玄也是做大脑加本体

对吧对所以你们也是你们有自己的大脑大模型然后去和自己的身体去做配合对因为那个像 Figure 他们也是有这种观点所以他们之前是跟 OpenAI 合作后面有决定自己做了吗对你们从一开始就是选择这个路线对是的就是如果说是只做大模型就只做大脑你觉得会有机会吗他可能会面临什么问题我觉得就是只做大脑这个事儿其实

就是你做 methodology 是可以做的但是因为其实像我们每一个人我们就是人其实并不是一个说我们叫 cross embodiment 就是跨巨生的一个能力人不是跨巨生的能力就是人不拥有很强的跨巨生的能力我

我想表达就是说一个只做大脑的公司它可能很难就像我们所说的这个人有肌肉记忆如果你只做大脑你的这个模型对于任何的机器人本体都没有肌肉记忆所以你很难对于任何一个机器人本体做到对吧我很快的什么挥一下球拍或者很快的一个任务完成

你可能都需要很慢慢的去把这个东西做好因为你的这个巨神模型它没有针对你这个本体的一些特点进行一些肌肉记忆明白那只做本体不做大脑呢只做本体不做大脑它的问题在于说就最大的价值是在大脑端

这个是一个共识吗就对大家是在大脑的我觉得是一个共识因为我们也看到了比如说像语述这样的公司他们确实不做大脑对他们本体能力很强对而且他们还有很多投资的人抢着要投他们 OK 就是首先就是说我们其实做本体的能力和十年前二十年前没有太本质的区别你的我们是指的我们所有人世界上所有人对嗯

但是为什么大家突然在做本体了是因为就是大脑端是有这个变化所以以前的机器人的行业它的总体的这个能为人类产生的价值可能并没有那么大是因为我们局限在大脑这一端能力比较弱但是因为现在我们有了大脑这个能力还有可能在未来把这个东西做成一个千万亿级别的这样的一个市场所以我是觉得这个共识是存在的就是

大脑本身才是最大的价值的一环那你怎么看比如说去做这种零巧手就你刚才说到的比如说我们要去做一个什么插一个什么针那其实可以依靠非常细这种触觉的这种传感器这个行业里的这些零部件或者说关节啊这样的这些厂商他们会处在一个什么样的位置然后已经比如说你们做本体的话你们会自己做到什么程度然后哪些东西是你们觉得可以和外界聚合做的

我觉得最后巨神机器人比较像一个汽车的一个产业链就是说相当于你需要生产一个本体然后加一个大脑它能去为大家去做事情然后在这个本体之中也有很多零部件是很困难的比如说触觉比如说你的零交手

再比如说可能芯片也是一个比较难的一个事情其实我们的态度是我们是很开放的去想和整个的产业链一起去把这个本体去做好但是呢可能现在有很多事情还没有做得特别好所以不得不产业链上还没有做得特别好所以我们不得不自己去做对但是其实我们更希望的是这个产业链

能走得特别成熟使得我们有尽量多的东西能够和产业链上的所有的人一起来把这个东西做好因为最后这个东西就肯定是分工越精细我们会把这事情做得越好就像现在的这个汽车行业一样其实整车厂它最后只是去把这个车的 spec 设计的比较好那么基本上所有的零部件都是外采的或者共同研发的嗯

我可以这样理解吗前段时间我不知道你看没看就是朱孝虎说的那个什么人心机器人的事情我没有仔细看就他的 argument 是啥对他其实最重要的核心论点就是我给你复述一下就是说觉得人心机器人高度共识但又没有商业化路径

然后他说他问了几个 CEO 你们的商业化的客户在哪里朱孝虎觉得这些 CEO 说的话都是自己想象出来的客户谁会花十几万买一个机器人去干这些活但是我对这个事情我自己有两个理解一个是就是现在是在技术卡破期

就是我们确实现在是在一个原型到一个技术原理的这样一个过程我觉得可能你在这个阶段要求人家商业化我觉得确实有点太早了对但是我觉得我确实还是比较想跟你聊一下你们是怎么看待就是强劲这个问题对我们认为其实就是正如你所说就是这个商业化的这个事情是一个如果你不能要求 GD1 在他 GD1 的时候就

有商业化的能力对但是我们现在到了 gain law 的时期了对所以就是我认为现在

你最应该做的是把技术做到 GPT-4.0 而并不是说去盯着这个商业化到底以我现在的水平该怎么去做嗯这个东西不是最重要的事情嗯对但是呢我们当然也会在这个过程之中去做一些商业化嗯这个东西主要是为了让我们的公司的这个抗风险能力更强一些那我们怎么做商业化呢其实就是沿着我们说的 L1L2 嗯

L3 L4 这个我们到达每个阶段就去做 L1 所能做的事情嗯比如现在 L1 我觉得最能做的就是在工厂里面有一些事情其实是可以完成的并且他们愿意花十几万去买一个机器嗯对只是说在 L1 阶段你能找到的商业场景可能没有那么多嗯因为你的能力是受限的嗯

但如果你有 L2 的话你就可能多了十倍甚至几十倍的场景可以去做场景和倍数这样的对我对他这句话另外一个理解是现在学生智能行业最大的问题就是我们刚才聊到其实我觉得是非共识太多了就是大家都在用各自的这个路径去跑

然后每一个路径好像现在目前来看都会有一些成绩都能还做出一个比较不错的一个 LE 的一个状态我觉得其实这个问题是想跟您探讨一下您觉得我们不说什么路线是对的因为我们现在其实是没有办法去验证这件事情的你觉得到什么阶段会是去收敛就是我们开始出现比如说像大模型一样我们大家现在就是觉得去做规模这样的去做用 transformer 架构这个是对的你觉得大家什么时候会有这种收敛的状态

我觉得当某个公司能跑出来 L2 甚至跑出来 L3 应该自然会有共识你觉得它背后所需要的这些要素有哪些就是让哪些东西都同时存在它才可能出现还是说这个可能就是一个比如说历史是由个人决定的就是当某一家公司突然想到了做到了它就做到了

OK 我个人认为现在要素是齐备的只是说需要一些时间把它做到对你刚才的逻辑就是一步一步的这个链条做完它就总会到达那个地方之前看咱们的稿子形容就是你发现这个 data scaling law 说是最甚至能拆 GPT 时刻你觉得这个算是拆 GPT 时刻吗

我觉得它是 Chad GPT 的 theory foundation 的时刻就是它理论的基础的时刻它肯定不是说真的 Chad GPT 那是 Transformer 提出的

时刻吗就是如果真的要比的话那最恰当的比喻就是 OpenAI 提了它的 skin 然后可能在两三年之后 OpenAI 做出来 GBT4 但是因为机器人的数据更难搞一些所以我期待这个时间会比那个稍微久一些

是的以及我觉得机器人本来他的这个链条也要比纯软件要更长一些对就算我们真的有一个非常非常牛大脑我们还要去让大脑驯化它的躯体其实也是比较难的是的然后包括还有我们刚才聊到的这个产业链上的一些配合是的因为我觉得确实让

一家公司把整个身上 body 上的所有的东西都做到非常精细确实我觉得是不太可能的对我觉得很困难所以其实新生智能如果要等到它的 JHV 时刻其实是一个非常非常综合的各种要素都要具备的要等行业一起成熟我觉得其实现在的瓶颈还是在 AI 方面还是在 AI 对硬件的现在不是短板还是 AI 是最短的板最短的板对

就像它是一个木桶吧就相当于你的虽然别的也不长虽然别的也不长但如果能把 AI 补齐的话它就对它是一个木盆嗯

所以其实现在大家会更关注 AI 能力强的追寻智能的团队对这提到了就是你们的这个归国几字是吧因为你们其实都是我觉得算是根正苗红的名门正派几位其实都是比较擅长做大脑大模型对对是的你怎么界定这归国四字

我想都有谁许化哲就是和 XO 一样你们是从同一个单位许化哲 吴亦还有谁陈静云对对对今天的那个罗罗建兰对对对他也是我的同学那其实算无责了这里给听众朋友们介绍一下

对其实我们本来在不是

Berkeley 的时候我们就很熟你们五个吗但我们不是说五个人一起我知道不是小团体各自都很熟我当时和许华哲和吴易就我们都在一层楼然后我们经常一起什么去吃火锅啊去打牌什么的你们这么忙学家也打牌对

我们读国的时候还是挺有时间的为什么你是同时在那两个实验室没有没有我读国的时候主要还是在 Trevor 的实验室我读国的时候跟 Sergey 也有一些合作然后我国后就像那两个实验室都有一些合作对就是跟 Trevor 和 Peter 嗯

应该挺神奇的对其实我们读过的时候并没有想象的那么难对生活还是比较丰富的吴易现在应该补做巨圣对吧

对吴亦老师现在主要在做大模型的 alignment 就是 RL alignment 所以你和许华哲是同一个实验室吗对你们同一个实验室还有谁就是还有名人贾阳清是我们实验室的他比较有名的是就深度学习他是有很多软件的框架比如现在大家最常用叫 PyTorch 但其实就是最开始的第一个深度学习框架就用的人比较多的叫 Cafe 就是贾阳清写的

他是你们大很多届的师兄吗还是他比我应该大四届

还是五阶我记不清了对比我大四阶左右他当时写了一个框架叫 cafe 然后基本上是当时用的最多的深度学习框架他也非常深度的参与了后来几个比较有名的深度学习框架包括比如说 Tesla Flow 然后和 PyTorch 嗯你没有同期过吗我没有同期过就是我刚去他刚毕业哦

然后我们实验室还有一些外国人啊就是跟贾文清一起开发咖啡的有个叫 Evan Schellhammer 他是一个美国人啊然后他当时比较有名的一个工作就是做了叫 FCN 是第一个语音语分割的一个神经网络

语音分割就是说给你一张图你把每个物体的边缘都圈出来这都是 Travel 实验室对 都是 Travel 实验室的你最开始的时候其实是不是在另外一个实验室对 我最开始最开始是在一个做基带生物的一个实验室然后我还在一个做理论集体学习的实验室也听过一段时间组会反正刚开始就是 rotation 了一下哦

嗯对你后来是怎么选择就是去跟着 Travel 去做然后选择了这个方向的因为看起来鸡蛋鸡视觉就挺酷的嗯所以就做了对 15 16 年那会儿确实就是鸡蛋鸡视觉还是比较火的对对对哦

你那会儿就是已经在做就是计算机视觉加巨声机器人的这样的研究了吗其实最开始并没有可能是我做到大概博二博三的时候就开始做然后最开始做的项目是自动驾驶就我跟许华哲一起做的自动驾驶这个项目然后也是许华哲建 Triper 组做的第一个项目他是你学弟对他比我小两年

所以你是哪一年的我是 91 年的他应该是 93 吧那个项目大概是什么情况你可以介绍一下那个项目是我们做了一个端到端的一个增加式模型是哪一年我想想大概是 16 年

对 16 年然后到了现在现在 25 年过了 9 年就是自动驾驶的工业界当时没有人相信端到端然后我们但就我们从那个年代就已经开始相信端到端然后一直认为端到端会是未来当然那篇论文在现在的视角来看这个技术肯定早已经过时了但是我

我觉得这个就是 philosophical 的这个思想其实是就是早在那个年代就是我们已经这么去想当时学界研究端到端自动驾驶的多吗我们那篇应该是属于比较早的其实当时还并不是很多当时应该有一篇是英伟达做的端到端自动驾驶然后我们那篇相当于用了比英伟达可能

可能大了一百倍的数据去训练一个纵架式的一个模型然后就是泛化性啊什么的都比当时英伟达做的好很多所以就是相当于我们做机器人也是从纵架式这个角度开始做的然后后来呢怎么又开始去做一些跟机器人交叉的这样一些研究后来其实我们做纵架式越做越深然后我发现其实这里面就纵架式的本质问题和机器人的本质问题就是一样的嗯

因为增加式也是一个你看这个场景你去控制你一个本体的这样的一个任务所以从学术角度来讲就是做机器人是一个更加通用的一个控制形态所以后来我就开始研究这个机器人是怎么去做的为什么从学术角度机器人是更加通用的形态

因为纵驾式车它就你只能往前开和转弯别的事你都干不了所以相当于你的这个动作的能做的事比较少对但是机械人你能做的事非常非常多它是一个更难的一个问题然后也是一个就像研究起来自由度更高的一个问题然后所以就决定开始去做对你做的第一个课题是什么

在自动驾驶之后我们做的第一个课题其实就是把模仿学习和强化学习结合起来就在当时我们就做了一个因为强化学习这个事它是一个挺难的一个事就像我们刚才讨论的

你得有第一次成功摊下来比较容易有未来的成功所以我们当时就开始研究这个问题但是后来我们研究的东西就越来越多就包括比如说一些更好的强化学习算法呀然后跟物理的机器人的一些结合呀等等等等你觉得做学术是需要灵感的吗

需要灵光乍现时刻吗我觉得不需要你觉得就是靠不断的去就是我觉得是 COT 的一些过程 COT 的过程推力的过程对就要一步一步每一个链条都做好自然会导向这个结果对所以你会对于技术的判断会比较乐观吗因为你会觉得只要这样做下去它其实是达到你所说的比如说到 L3 L4 这种 GB 它其实是没有问题的对我倾向于是怎么觉得

然后你会有一个时间线吗比如说你觉得到什么时候可以到达一个 L2 的级别然后到什么时候可以到一个 L3 的级别我预期可能我们大概明年六月份会达到 L2 级别就是单场景的多任务对

然后 L3 我觉得可能会再需要额外的一年半到两年的时间所以你当时你是怎么去管理你的时间的就是同时做这些课题然后你还会去参加其他组的组会不断地去在学习然后同时还要刚好同学关系去跟同学们去打牌吃火锅其实我觉得就是在读国的时候相对来讲还没有那么多事因为一般我们同一个时间就做一个项目虽然我们可能会参加

对吧这个老师的组会那个老师的组会然后去听一些 Seminar 啊什么但是相对来讲时间是非常自由的你的典型的一天会怎么度过度过

典型的周一到周五还是会主要在实验室里面然后周一到周五的某一天比如说晚上六点什么的这个我们组就有组会然后组会就大家一起边吃饭边讨论一些学术问题有时候呢晚上尤其是周五晚上就一起吃火锅或者下牌

我导师是一个很喜欢滑雪的一个人每年我们组里面都会一起去组织滑雪对组织滑雪在美国吗对就是 Berkeley 旁边有一个山叫 Lake Tahoe 然后那个山是当然有个

两三千米的海拔然后所以就一到冬天大概会有四五个月的雪季所以就我们经常冬天去那边滑雪然后那边还有一个湖景色也还是挺不错的你当时就是从伯克利国后结束之后为什么会选择回国因为当时就是其实我有蛮多选择的然后我觉得在清华做这个事情我觉得是非常非常有意思的一个事儿就是

当时我几个其他选择是一个是就是在美国去 VIMO 就是一个自动驾驶的公司对然后但是我觉得这个事情好像没有那么有挑战

然后比较一眼望得到头一些就是成为一个大厂的 engineer 对我觉得就是他相当于因为我也在 vivo 实习过然后我就觉得我的脑子进去就坏掉了就是我在 vivo 实习过三个月然后我出来的时候我感觉这个为什么老师讲的什么东西我都理解不了就真的是这样为什么会这样

因为在 vmo 它是一个非常非常大的一个厂所以每个人的事情都非常非常小就我只需要把这样一个极其小的事情做好然后它不需要太多智力对所以就是员工在那里的 engineer 起到是操作的一个过程然后大脑其实并不是我们自己的大脑而是公司的决策层的大脑对所以你更想去做成为大脑的事情对所以你当时就想创业吗还是说

其实当时我也考虑过创业但是当时的确没有什么好的机会吧我们博士的时候我在 Berkeley 参加了一个叫 Berkeley ACE 一个创业的一个协会然后其实我博士期间也考虑过要不要毕业之后创业啊之类的当时的确没有什么特别好的机会你说说行业上产业上的机会对吧对那 ACE 里面还有谁

你们几位归国基础他们好像都不在有一个人在他叫许卓然后他好像要回清华的 AI College 当助理教授伯克利还是给清华输送了很多人来嗯

非常多人才我今天还在极客上发嘛我说以前都是清华培养美国人大家都开玩笑说清华培养美国人嘛就说清华给这个海外高校输送很多人才大家就留在那里了我觉得你们这几位的出现就是

会引领一种趋势美国刚刚给中国输送人才是你们几个有交流过为什么大家都会回清华回国这样我觉得就是原因都差不多吧其实都是觉得是一个非常有挑战并且非常有意思的一个事情就是回国做科研这件事情对对对

你们聊过这件事情吗就大家都回来其实我回来是吴亦老师拉我的对就是吴亦老师最开始面试了然后姚先生给他了一个 offer 然后吴亦就决定要回来了然后跟我讲要不要一起回来对然后我就开始考虑这事然后曲华哲也是我和吴亦拉他回来然后陈建宇其实三胞也是我和曲华哲对等一下陈建宇可能是我和吴亦对因为陈建宇比曲华哲早回来一年

蛮有意思的对所以就是我们也兼职 HR 我觉得你们还挺有一种就是互帮互助的那种感觉的对所以你们都是会觉得回国去做科研这件事情更有挑战性其实你们当时面临选择应该都差不多吧加入美国的某一家超级大厂

其实我 somehow 觉得在美国我的文化上其实很难能完全的对完全去适应当地的这个文化因为其实美国人喜欢的东西就中国人普遍都觉得很无聊而且美国还有一些比较也不能说反智就是大家比较喜欢那些 chair leader style 的人

就是在学校里面大家不会觉得你学习很好是一个比较值得去崇尚的一些事情那你和学校平常会交流一些创业心得吗对我们也会聊一些你们现在算是竞评吗我觉得有一些性能关系但是因为我们在做的应用也蛮不一样的所以还好他们是什么方向我理解他们在跟一些家电厂有一些合作

其实可能都是工业角度的落地但是可能很不一样的企业吧因为其实你们俩之前都是比较纯粹的搞科研的这样的人你们会进入商业世界创业之后你们会有什么共同的一些感悟吗人们会交流这些吗共同感悟就是忙了好多其实也会交流比如说他们公司的管理的风格然后我们公司怎么管理

对然后一些觉得什么方面可以改进你们最近讨论的技术上的话题是什么

我想一想我记得我们有一次聊到说现在好像巨神之脑科研的 idea 已经进入到比较平静的一个时期就我们在讨论说在这个 regime 下到底有什么新的东西可以做之类的然后我们当时觉得可能零销售还是有蛮多可以去做的对这个科研的平静这个问题我还想在回过头来问一下你因为其实我们刚开始的时候就聊到了这个问题我还是有点没有 guess 到就是

为什么在你们看来会觉得这件事情是到了一个平静期就你刚才当然提到的很重要的一个原因是你觉得可能某一个技术出来就抹平之前的技术嘛那这件事情难道不是在更久之前也同时存在的吗 OK

是这样就是说其实在学术的思想上大家在逐渐趋同可能以前有人会研究很多很多话题然后大家的话题可能你可以理解为无碍一个话题但是现在这个话题就收敛了很多为什么呢因为大家相当于在学术上有一定的公式就是某一些路径已经被证伪师不可能实现所以大家就再也不去碰了

也不是说被完全证伪而是说大家觉得好像这些没有那么有前途可能做的人就会变少一些虽然不是说现在的学术的话题就完全摊塑成一个了但是呢它可能从 500 个摊塑成了 100 个所以现在

相当于在每一个话题之下就都可能有人探索过了所以你要在这些话题之下再探索出来新的东西现在来讲会更难一些这是我们讲的这个美的做的具体的一个表述就不是说真的美的做了而是说真的 ground breaking 并且就是很有影响力的东西因为大家的思想越来越趋同之后

它变得越来越难一些你指的思想趋同是指就大家认为巨神智能的实现路径越来越近基本大家都是认同 VLA 这一套明白所以即使在我们外行人看起来巨神智能行业有这么多的非共识其实在你们眼里它已经是一个共识收敛过的一个状态了对 但是没有完全收敛但是它已经收敛已经在收敛的过程中为什么清华的助理教授这么多出来创业的

因为我觉得恰好是这个行业它进入到了一个产业化阶段吧就是像大模型和巨神智能恰好就是清华有很多这些方面的老师然后以及这些方面正好进入了一个产业化阶段所以刚好你们这些有这样背景的人可以出来去做一些事业是吧对

下来就是大家会有一个比较大的担心是说很多年轻的大学教授出来创业还有一个风险就是过段时间拍拍屁股走人了就如果做得不好大家对这件事情本质担心是说你同时身边的教职和这个你在企业做事情是不是决心不够一方面是担心时间成本另外一方面是担心这个决心的问题你是怎么看待这件事情

我觉得本质上就是我就是在做同一件事情只是说这件事情它的是有一个 transition 它的 transition 在于技术的逐渐成熟和工程化落地的 transition 所以我并没有觉得我在做两件事情对其实我就在做一件事情所以我觉得我

不可能拍拍屁股做人因为这就是我想做的事那比如说会存在一个可能就是当这个企业发展得越来越好然后你的时间精力越来越不够用你会有考虑比如说放弃清华那边的教职吗因为我知道比如说像杨志林嗯

应该也是你们插院的助理教授他应该是已经辞去在学校的职务了是吧就专注于去做他的那个行业对我觉得这个东西就不排除这种可能性我觉得就是人生它就是一个 journey 就没有一个标准答案对就是只要你想受这个过程我觉得就是最好的嗯

那你现在日常的 routine 会是一个什么样的我现在一般每天可能早上会大概七点半起床然后大概九点半到十点第一个会然后可能我每天开会会开到晚上九点然后我日常一个议题就是我怎么能在这会的时间压缩一下这怎么压缩有思考出什么办法吗

我觉得可能也是一个难以避免可能到这个阶段大家都会需要去面对的一个事情然后可能很多会就是想开的比较高效一些以及比如说从包括公司的这个组织架构上怎么去让整个组织更有效率然后让我参与的更有效率一些

所以你一般比如说会一个周时间里面大概多少会放在公司上多长时间会放到学校这边大概一半一半吧就动态平衡一下吧对就也没有什么特别好的就是燃烧生命吗就是说当你的事情太多的时候你就减少自己的睡眠时间然后去把它解决我倾向不是这样的就我每天都是 12 点睡觉包括比如我上清华包括

我读过我从来不熬夜因为我觉得就是说你做一件事情它的方法论要比你的每天多投入一个小时两个小时时间要远远重要的多所以我更倾向于从方法论的角度

去把这个事情做好要不是说从时间的对时间这个角度去做好那你还算是就我认识的清华人民睡眠时间还算比较长的了很多人是选择不睡的就是如果事情非常多的话他可以极度压缩自己的睡眠时间我觉得是这样就是说如果我不睡的话我第二天的脑子没有那么清醒如果我脑子没有那么清醒可能我会做很多错误的决策然后一个错误的决策可能会让

跟我一起 work 的人多花两倍的时间想给这事情做好所以我觉得这反倒是降低了效率 Doris 说你每天骑车上下班对你骑什么车小黄车

没错就是安安的单车真的吗对啊有人以为是什么小步这样的并没有就是我骑车主要目的是为了锻炼身体我知道我猜你肯定是为了锻炼身体我没有想到你答案是骑共享单车是从经济成本的角度考虑吗还是并不是因为有时候比如说我白天会出去那么如果骑了一个我自己的车到公司之后第二天我没车可骑了因为可能我打车去了一个很远的一个地方

另外就是一般过程单车都比较难骑所以它锻炼效果会更好我真的听到过一个类似的这样的一个说法就是你保持身材的一个工作人员吗所以你不健身我也健身每周两次就很固定周二是下午四到五周五一般是中午的一点半到两点半哦

你像有人给你写好的程序然后你到了这个时间点就去做这个事情是对我是一个 MBTH ISTJ 就我的 schedule 是比较固定的基本上就是包括骑车上下班你会控制时间吗就是必须要在多少时间内到

一般都是 31 到 33 分钟之间但是因为那个贡献单车的缓车的时候他会告诉我然后就可能每天的时间都比较相似吧你并不会觉得很枯燥我

我觉得很好我觉得很好对就是我觉得是我比较喜欢在就是 routine 的 content 里面去 enjoy 这个事情嗯而不是说改变我的 routine 其实有很多投资人就说什么 AI 这个科学家创业不靠谱然后我深刻表示同意啊

作为科学家本家对因为其实我觉得每个人都有他自己的局限性虽然这个技术我是懂的但是比如说这个技术如何去做工程化如何把工程化团队的分工做好然后如何把工程化团队带好如何

和英文逻辑的节奏配合就是很多很多东西其实它没有那么简单它是需要很多很多经验去做的然后我觉得这也是我这一年之中我自己深刻体会到的一些东西