所以这个事呢是我们现在特别强调的不要去搞一些砸我们行业招牌的事情了比如承诺别人你踩了就能训出来你建厂你就能够有技能我卖机器人你来踩你踩你来训明天他就是你的员工这些模式是很可怕的这些模式是在砸这个行业的饭碗第一件事公开展示
而且不允许药槽国内的现在有些人胆特别大他现在敢不告诉别人我是药槽但实际是药槽五年如果我们都不能形成万台机的规模化生产力我们这里又被正伪了泡沫全是泡沫
去年不是你跟黄仁勋坐在一起吗你们聊了啥他也能吃一点辣的我原来以为他吃不了辣的水煮肉片我看他吃着也挺好的变脸的演员的表演他给了非常热情的反馈而且他本人也是劳模除了我们这一桌以外他所有桌都挨个过去敬了酒然后还拍了照
Hello 大家好,欢迎收听张小俊商业访谈录,我是小俊这是一档提供一手高密度信息的商业访谈节目今年继续商业访谈录的机器人专场嘉宾是北京大学助理教授,银河通用的创始人兼 CTO 王赫
王赫毕业于清华和斯坦福大学他给我们从巨神智能的学术缘起开始聊起这是一个学术流派从一个学科中萌芽到边缘再向主流渗透的全过程而随着 XGBT 的诞生巨神智能这个小众的概念在过去两年成了新的资本的宠儿但一时间也带来了新的乱象我们探讨了一些巨神智能产业界的关键问题比如说一巨神智能的
巨神智能起源于计算机视觉的学术流派那么视觉语言智能的关系是什么为什么 VLM 语言视觉模型的表现显著弱于 LLM 大语言模型呢二 巨神智能的最大困境之一是数据采集那合成数据是正解吗 具体应该怎么做三 如果大模型提倡的是智能级产品那巨神智能呢 网贺给出的回答是生产力级产品
就在去年底英伟达创始人黄仁勋来华访问在答谢宴上王赫不仅和黄仁勋同桌而且就坐在老黄的旁边是挨着坐的我们在节目的最后也聊了聊这个有趣的插曲他提到那晚黄仁勋吃了不少的水煮肉片好了 2025 我们和 AI 共同进步
Hello 王赫老师先给听众朋友们打个招呼并且做一个简单的自我介绍大家好小宇宙播客的听众们大家好我是银河通用的创始人也是北京大学的助理教授志愿学者王赫那么很高兴今天能跟大家通过小宇宙播客的方式聊一聊巨神智能人形机器人好像老师啊
先开始几个快问快答公司名字银河通用公司创立时间 23 年 5 月融资轮次我们现在应该算是战略轮正在 close 目前的估值
已经达到了超过了 10 亿美金你的年龄我的年龄是 33 岁你的 MBTI 应该是 ENTJ 从外界可以看到这两年的巨神智能机器人实在是特别的火你身处其中是一种什么样的感受
只能说是这个领域大家对这个领域的从业者开始有一些认知了其实我感觉呢从我开始做人工智能主要是从三维视觉切入机器人这个领域来看的话呢确实处在了一个前期慢热然后呢在这个美国啊
21 年以后呢其实已经成为了应当说 20 年吧巨神智能已经成为了非常主流的年轻学者的一个研究方向那么 21 年呢这个我回到北大
其实本质是 20 年底拿到了这个北大的 offer 当时我就非常的就是等于说是 all in embodied AI 把我们实验室的名字取作了 embodied perception and interaction lab 那么这也是咱们大陆我知道的第一个把自己的实验室命名为巨深的这样的一个实验室那么在 21 年我
回到中国的时候确实没有什么人做当时你搜巨神智能这个词都搜不到那么大约呢二二年向北京职员研究院开始意识到这个在国外非常的重要邀请我去论证巨神智能是不是一个重要的人工智能前沿方向那么我们开了一个座谈会
我作为主持人最终论证的结论就是呢智源研究院应该发展这个巨神智能所以我作为创始的主任在智源创办了巨神智能研究中心也是全中国第一个以巨神智能命名的研究中心你们当时的推理过程推导过程是什么样的大家的一个核心思维就是在数字领域里头的智能本质呢是从互联网等
这个已存在的数据当中挖掘知识然后呢推动他们在没有实体的这样的虚拟的数字的环境里去这个形成智能但是呢物理世界里的智能呢一定需要身体而这部分呢目前数据的互联网上没有但是呢在真实世界中需要物理交互就说白了动手干活的所有应用都需要这样的智能
也需要这样的数据所以就应该立即开始干你们当时对于巨神智能的定义是什么呀这是一个公认的定义吗应当说就是 embody 的 AI 这个词它的兴起在美国大约是 19 年以后开始有人去谈论或者这个词慢慢的成为一个大家
会被使用凝聚这个共识的一个词很晚啊是 19 年才开始就是挺晚的因为那个我有记忆当中第一次把 embody 这个词这个说出来大约应该是在应当是在这个
这个 19 年的计算机视觉的鼎会的这个 workshop 上这个我也在想一想是 18 年还是 19 年当时的名字叫 embody agentblah blah blahembody agent 对对对所以在那个时候呢那个时间点还没有形成 embody AI 的概念
那么在这个 20 年的时候呢我非常的这个清晰互联网上在美国的学术圈里头大家呢已经不开始开始不叫 embody 的 agent 因为 agent 呢他呢在我们今天来看是非常偏向于数字世界里头的一些自动干活的这样的那个 bot 但是呢那个啊
跟它区别在物理世界里头呢我们就直接用 robot 这个词了
那么那个 20 年的时候互联网上开始有一些 slides 去谈 internet AI versus embodied AI 这是在美国学术圈里头他讲核心的区别就是 internet AI 就是数据知识来源于互联网 embodied AI 呢是来源于身体与环境的交互这种身体例行那么他 either 是在 simulator 里头
跟环境的这种在仿真器里头遵循仿真器里的物理规律交互出来的数据或者是在真实世界交互出来的各种数据产生的智能所以在 20 年的时候其实美国这个词就慢慢形成了甚至在 20 年我非常有印象 20 年的时候呢线上举办了第一次在
CVPR 我作为 organizer 跟苏浩、易力等人一起举办了第一届 ICCV 的 workshop 叫 simulation technology for embodied AI 就是怎么用合成仿真来推动巨神智能的发展
所以这个基本上到 21 年这个词在美国已经非常非常的普及了但是在国内呢才刚刚露出水面是这么一个历史的情况当说巨神智能而不说机器人的时候其实想突出它的什么呢对对这个是一个好问题啊这个跟那个巨神智能它衍生的领域相关
其实我们看到巨深智能这个领域在美国主要是由计算机视觉领域的一些学者推动的这也就是为什么大家会讲 Internet AI versus Embodied AI
因为计算机视觉里从 image net 人脸识别就是包括这个就是叫这个 semantic segmentation 这些东西呢都是依赖于互联网数据在人标注
那么大家在这个领域卷卷卷到就觉得哎呀这个范式也定了后续都是工程问题了以后呢那么就开始想下一步是什么有人就提出要把视觉用视觉赋能机器人
那么在计算机视觉里他看来的是从这种数字世界走向物理世界但仍然是基于视觉的智能所以这就是为什么呢从计算机视觉的角度上讲呢他会认为我现在做的是 Internet AIOK 下一步是 Embodied AI
所以它根本不是跟机器人怎么比或者把那个计算机视觉做的事叫做机器人它是说我下一步要做的你可以认为我现在做的是数字的视觉下一步我做的是机器人的视觉哦 所以是两拨学者对吧那机器人是哪拨学者呢对 机器人这拨学者其实反而一开始是没有
参与到 embody 的 AI 里头的甚至可以说在今天这个在国内还有一定的割裂就是在国外相对仍然有一定割裂但是正在融合国内也在融合这是哪一拨人就是做传统控制和机械的
就是陈建宇老师他以前的那个专业叫精密仪器还是什么的这个倒不一定是精密仪器就是说一般来说我们因为国内吧我也是清华毕业的嘛所以本科所以清华他的很多院系实话实说他叫什么名字跟他主要学的就是方向是什么清华有一句话是 A 系是做 B 的
B 系是做 C 的 C 系是做 D 的我不具名反正呢在国外叫的比较清楚就是 Mechanical Engineering 和呢 Control
这两块基本上是传统 robotics 的主阵地那么 mechanical engineering 主要是负责设计整个机械的这样的一个系统但里头肯定设计这个机械的系统从硬件到控制都得做像 CS 和 WE 里头都有一 Stanford 为例 computer science 和 electrical engineering 里头都有
偏 robotics 的这个方向但是呢大家各自的侧重点不同那么这个 CS 里头呢其实有很多像什么路径规划呀这些传统的基于 search base 的一些机器人算法
那么 WEE 里头呢对 Robotics 这一块呢也有从信号出发的一些这个基于滤波的方法呀包括呢基于它底层电子电器架构啊嵌入式怎么去这个托举机器人的整套这个系统啊
的一些东西但是过去呢机器人实话实说它的这个本身就是一个无所不包的东西有一句话叫机器人没有自己独立的科学问题就它把所有学科的东西都往里放所以在斯坦福尔就没有机器人系
它没有机器人系那么实际上 WEE CS Mechanical Engineering AA 航空航天都有 professor 做机器人然后从历史上来看做机器人的主体是怎么去做控制怎么设计好的硬件再结合控制把它给完成
这也是跟过去几十年机器人主要落地的一些场景是紧密相连的我举几个场景比如工业机器人对吧他的机械造的非常的这个他要让自己的这个重复精度非常高同时呢这个重复精度呢不只是一个纯硬件的问题
还有呢就是它的整套控制算法要做到非常稳定避免一些就是控制上的不稳定的点等等这些都是非常偏控制的一些很数学的东西包括呢像比如在这个空间站上用这个大
对
对那么相对来说呢今天做的东西也不是说之前的人完全没有做就在控制里头也有一些人呢是用强化学习来做控制的比如说呢就是
从这个日本的东京大学这个 ETH 都有用强化学习来做四足机器人的一些工作但这些工作呢它呢一定程度上是数据驱动的或者它是数据驱动和传统的 MPC 的一种某种混合的控制但是呢他们没叫出巨神智能这个词
为什么呢因为在他们看来用神经网络做控制还是用传统的数学建模做控制还是基于更加简单的 PID 这个控制都是控制所以说呢他们的控制信号呢就是什么
关节角啊就是关节编码器能给予你的那些变量然后还有呢就是传感器的一些就是什么 IMU 啊这些这个传感器能给你的这些信号所以他们做不论是之前做 MPC 还是后来做这个强化学习他们其实并没有觉得这个事情产生了什么不同是在计算机视觉这个领域里
大家说这个视觉要这个变得主动就是我不是被动的从互联网上接收一些那个图片然后你问我这是猫还是狗我给你分类对吧不是你给我一个人脸我去讲啊这个人脸是这个这个人还是那个人的而是呢我有主动观测的能力且呢我还有跟环境交互影响环境的能力嗯
那么这个事呢在计算机视觉里他看来这是他跟在 internet 时代或者是偏 passive 的 perception 的时代最大的一个新的空间所以在计算机视觉这个领域里大家把 embody 的 AI 这个概念呢率先的交了出来
我有一个疑问计算机视觉的生成不产生智能语言即智能就是语言是一个更本质的一种模态这一点我不是很认同因为就是说很多生物都有智能但它不一定有语言
你哪怕是就是大家觉得没有什么智能的一些东西小虫子它也会各种飞来飞去你想打它还不容易对吧然后呢很多低级智能的东西它都有对食物的觅食都有对天敌的一个规避它对身体的掌控能力导航能力我们今天很牛的 VLA 还不一定达到了
那你不能说他没有智能视觉也是智能 visual intelligence 只不过他呢如果是纯视觉的智能呢他的这种可解释性更差一点好
它是端到端的也就是说这个一般的生物呢它不能说话的时候呢它是一个纯 VA 模型它不是 VLA 它不能够解释自己在干什么它也不能跟别人通过 language 这种抽象层面的一维的这个序列数据进行交流
所以人类是我们智能很高了我们压缩出了把我们的交流压缩成了一个一维的语音然后实现了一个更高效的更低维的大家都能够 somehow 认同的这样的一种交流方式但它并不是智能的本质甚至它是极高级智能才演化出来的一种智能所以不能说
视觉没有智能对也不能说没有语言就没有智能甚至一些学者都在想语言到底是不是智能的本质对啊智能的本质是什么呢视觉语言和智能的关系是什么呢我觉得智能的本质啊它其实就是一种依情况做相应这个 reaction 的这样的一种能力
当你在环境当中遇到了各种各样不同的事情不同的挑战不同的需求的时候你有办法用你的方式来做出反应并且达成你的目标这个就是智能
对那么比较低的这种反应就比如说有一个小飞虫他发现你用手去扇他的时候他会跑躲一下对吧那比较高的像我们比如说遇到职业生涯上的挑战我们会静下来思考到底怎么面对怎么去拆解那么本质也是跟环境的交互里头我应对的方式
所以他有短线的有长线的有维度很低的就是他的翅膀扇的快扇的慢对吧也有我们维度很高的我们人全身的自由度很高同时我又不只是纯物理的方式去改变这个环境我还可以通过语言去跟别人沟通去影响别人在互联网上发帖去影响更多的人
所以只能是说大家都是对环境的某一种交互能力只不过有低维的也有相当综合高维的我觉得这个是智能所以语言是智能的拐杖我觉得语言是人类能发展出这么高智能的一个应当说是一个很重要的一次越变
对你像其实我们知道像狗啊像编木啊什么就是那个包括大象啊包括海豚啊都有些研究说他们达到了几岁几岁小孩四五岁以上的智能
但他们的语言可能就比人类的语言薄弱很多比较初级那么人类之所以能够达到 next level 的这个就是智能我个人的
总结它就是这个直立行走解放双手然后呢双手劳动啊去这个用我们的这个灵巧灵巧操作极大的丰富了我们的这个对啊各种这个就是劳动啊和使用工具啊这些的这个相关的经验然后呢语言啊确实是这里头非常重要的就我们啊这个
通过语言让知识更好的传播同时交流的过程也是对大脑怎么样进一步的演化提出了很高的需求我们要能形成很清晰的思维这些事情呢
就这种思维其实呢就是我能把一件很长程的事情拆解成好几步该怎么样去做做更长程的规划这个呢其实在一般的就是小孩四五岁里头你发现他的 reactive 的这种智能已经很强了但是呢他很难把一件复杂的事情
的每一步骤想清楚再去非常有序的去执行这个呢可能是跟我们语言我们能够把思维更好的 organize 能够进行更长生的思考是有关的嗯
但是生物它有智能都有视觉不一定有高阶语言这个就是说我也得说就是不是所有生物都是依赖视觉去对周围进行传感的视觉本质上是一种 sensor 我们的视觉是一种 sensory 的 data 或者 sensory 的 modality
有一些低阶的生物它没有进化出眼睛但是呢它仍然可以通过温觉啊甚至一些非常 subtle 的方式去感知周围有没有什么海水冷热变化然后有没有那个就是一些其他的生物靠近等等等等的啊
所以我只能说视觉它是绝大多数高级动物演化出来的一种非常强的这个就是传感器然后目前看这个视觉这个传感器在智能的演化上肯定是比声音或者比语言更前置的
我想还是重新把我想说的观点再说一下就等于说是计算机视觉这个领域大家一直做 Internet Data 所以说大家说这是 Internet AI 或者 Internet Vision 但是大家说这个 Internet 我们就是有点够了我们
我们现在要能够主动的掌控自己的身体我要选择看什么我看完了这个东西以后呢我还能选择怎么改变它走向外部世界那么这里头举的一个例子就是 embody 的 AI 最早兴起的一个 task 就是导航
什么叫导航呢就是我在我给你了一个仿真环境然后这个仿真环境呢你没见过它跟传统的 SLAM 的那些技术是不一样的它不建图它也没有预先建好的图
这个时候呢在这样的一个这个就是环境里头呢他要求这个就是一个轮式的小鸡血儿也好一只小狗也好说你去帮我这个找到比如一把椅子这个就叫 object goal navigation 那么这件事呢当时在计算机视觉里迅速的形成了一些共识
就是说为什么它是巨生的一个非常好的视觉的第一步的一个任务因为一呢它跟世界有交互怎么交互呢就是
我一走我在世界里的坐标就变了然后呢这样的一个 action 呢会导致我头上的相机看到的画面呢变化那么这个呢就是人类的这种巨生里面很重要的一个行为模式叫 perception action loop
就是我先通过感知决定我 take 什么样的 action 我 take action 以后呢环境就会发生改变这里头最简单的改变就是环境本质没变但是你的位置变了 update 了你的 perception 信号然后呢你可以进一步的去 take action 所以说本质上呢这个在 internet AI 时代呢就是 vision 去而发现我们只有 perception
但我们没有 action 我们如果 take 了 action 以后呢环境必须得发生变化更新我的 perception 否则如果不更新比如说你给我一张图我告诉你这是猫那
没有后文了是猫所以呢环境对你认知到它是猫给出了什么反馈能够怎么样更新你的这个问题和视觉的输入都没有了所以 internet AI 你分类就结束了但是所以说计算机视觉当时找寻的研究目标就是我得能 take action 然后 take action 以后呢这环境还得有变化
那操作显然是有变化的对吧我抓了这个瓶子这瓶子在我手里头了我下一步把它移动到哪这个显然是你一做任何物理操作你都能够带来就是这个呃就是立即的对环境的影响但是呢那个呢呃
大家还觉得是比较难的还涉及到物理的交互所以最早广泛吸引大家眼球计算机视觉觉得最 comfortable 的就是我是一个观测者
我移动我自己我不改变环境里头物体的位置我的 action 一旦移动就导致我的相机位置变了我就会看到新的东西这样我就构成了最简单意义下的 perception action loop 我就可以研究这种巨神智能体它该怎么样在感知和行动之间构成闭环所以说
这个套我的这个整个叙事呢都是从计算机视觉这个领域的研究者他当年是怎么一步步走到这儿的这个过程中也存在着很多并行的其他的事情比如说这个 19 年 18 年再往更前都有人做抓取
没错那这些东西呢当时没有管它叫巨神智能为什么呢是因为一定程度上呢大家觉得它就我讲的这个 embody 的 AI 的核心呢是形成了 perception action loop 那么当初呢做抓取的很多呢它也都是单步抓取就是你给我看一下这个物体的点云我预测怎么抓它然后我就去抓
它也是把它变成了一个模式识别的问题抓完了以后再干什么就是另外一个问题了所以应当说计算机视觉里头呢它沿着自己的研究思路一步步要从这个这种 passive perception 到 perception action loop 进行这样的一个转化那么它把 embolded AI 的这个词打出来了以后呢发现很多
这个做机器人的做智能机器人的做什么就是这个各种各样的一些事的人的逻辑包括做这个四足狗的控制人形机器人控制的他呢
都可以这个吸纳进来然后呢无非就是比如说做这个四足狗或者人形的这个强化学习的它的 input 不是 vision 他们一般都是基于关节角这些叫本体这个信息 proprioceptive informationstate
去做 input 的不用视觉然后呢做抓取的这帮人呢可能他呢是比较偏传统方法是比较偏优化的然后后来有一些用 learning 的方法但他不够闭环那么这些人一下都吸纳进来了您去共识了吗
这个实话实说没有共识只是说 OK 我们一同都觉得现在用视觉 equip 到这个机器人上让他用可以是闭环的可以是开环的可以是大模型的可以不是大模型的各种方法让这个数据驱动机器人
这个事变成了这个 embody 的 AI 里头大家共同认同的东西给它的标志性事件是什么我觉得从这个词出来就是李飞飞讲巨神智能是计算机视觉未来的三颗那个北极星之一
黄仁勋在 NVIDIA 的大会上说我们将这个我们 on the verge of next generation of AIwhich is embodied AI
就这几件事基本上是学界和这个产业界共同为 embody 的 AI 这个词确定了它的重要性但是呢之前也有一些各种各样细碎的一些事情其实跟它也都是有很强的联系的比如 Coral 这个会议的成立
Conference on Robot Learning 这个会议的第一届其实办的时候还 embody 的 AI 这个词我印象中还没什么名气就是因为它应该是一几年是 17 年 Robot Learning 这样的一个 Conference 它是 17 年但它当时并没有打出 embody 的 AI 这个词为什么呢是因为
robot learning 里头吧它不一定是要视觉所有用 learning 的方式来驱动机器人的哪怕是做控制也是 robot learning 那么所以这个应当说呢就是意识到 learning 对 robot 对 robotics 很重要其实呢这件事呢它是有更长的一个历史的但是呢把视觉这个模态加入进来
强调这个 perception action loop 成为了 embody 的 AI 在视觉圈里头这个站出来的最核心的一个叙事那么这件事呢后来又把 robot learning 都吸纳起来了
学界很有意思啊经常出现一批人的心情西纳利一批人就感觉总有一些学术的力量在相互的吸引吧或者说是博弈吧就我只能说呢这里头还是跟声量有一定的关系你明白吗啊
像这个 Coral 这个会呢它其实最早的一些参与者主要是 Berkeley 啊还有 Stanford 啊其实大约在 17 年的时候大家也都认知到了机器人加人工智能是一个就是好的方式但是具体
要解决一个什么问题那个做什么东西能做出区别这个大家是摸索了的像 grasping 其实就是 17 年那会儿就有不少工作了用神经网络用计算机视觉用点云做 grasping 你去往 17 18 年的时候看都有相关的工作但是大家做的为什么没有把这个事感觉到那么的殆尽呢
如果你是用计算机视觉观测点云然后直接预测抓取的方法感觉它就是换了一个视觉问题抓完了以后你不管了它是一个开环的就是你观测预测抓取位置
一动过去一抓然后呢这个事就完事了他认为这是一个三维的推理问题就哪个几何局部是让我适合抓的嗯他变成了一个三维几何推理问题那大家就觉得虽然是机器人啊
虽然做的是机器人的事但它没有超出我们过去计算机视觉在 passive AI 时代的这些经验的范畴所以这个事就 17 年的时候做这些东西也没提出 involved AI
就是大家认识的 perception-action loop 这个事非常重要以后说做导航它非常体现这种视角变化这个一步换节然后呢要再次去做它甚至做的这个任务有的时候它都是传统意义下方法能解决的比如告诉你一个坐标让你过去在一个环境里头
叫 Point Go Navigation 然后下一个呢才是稍微难一点的叫 Object Go Navigation 给你个词让你去找其实这里头都能通过传统方法和一些非闭环的方法去做一些我们叫模块化的方式去做但大家并没有说要一定走这些模块化的方法而且它还是想围绕着一个闭环的 Perception Action Loop 去探索的
所以这个领域里头像李飞飞像 Meta 他们站出来像 Gitindra Malik 站出来去搞比如说 Facebook 搞的这个 challenge 这个词在嘴边有几年没做这个 challenge 了就是那个 habitathabitat 搞了这个大型的仿真器
导航仿真器又在上面一步步的迭代任务的难度不断的上升然后就变成了导航是巨神智能的第一任务大家一先为这个东西做就是 research 彻底在里头把 perception action 搞成一个闭环的模型然后后面自然又回头开始做 manipulation 了也是怎么能做一个闭环的 manipulation
这个现在在导航加上 manipulation 一起做然后再跟着大模型打开任务随便说一个任务它就能做这个就慢慢形成了巨神智能现在最主流的方向大模型是来保障它通用性的方式对其实大模型这个东西出来之前
巨深智能在中国资本界也没那么火是为什么呢就这两年你是 20 年底决定回国 21 年初回国 20 年底我拿到北大的 offer 那个时候这个状态是什么样的在国内那个时候其实是看不清的当时美国的学术界觉得这个就是巨深这个方向非常的好基本上马上要加入做教职的
一些人都把精力投入到这个方向举几个例子比如说今天这个在国内其实应该也是还是有不少人知道 SkilledS-K-I-L-DSkilled 他的创始人是 Deepak 和 Abhinav Gupta 两个 CMU 的学者
其实呢这个 D.Park 他在 19 年的时候在 Facebook AI Research 我们叫 Fair
做博后他当时已经拿到了 CMU 的教职但是呢他呢中间 gap 一年在 Fair 做博后那一年同一时间我在这个 Fair 做 research intern 而且是 Fair 的 robotics team 所以我们俩其实在当时就打个交道他之前也没做过 robotics 他之前是做视觉强化学习的
做什么世界强化学习呢打那些什么他最有名的一个工作是叫 curiosity driven exploration 就是讲你打那个玛里奥这个游戏怎么样能通关呢如果用强化学习要给一个 reward 就太难了就是你除非给那种你自己写特别复杂的那个 reward 否则的话如果是吸输的基本上就是通关了这个旗子升起来是 1
过程中你死了就是负一没有其他 reward 了这种你根本乔瓦学习探索不到他最后一的那一块你打好几分钟你才能探索到一的那个 reward 那你中间都是零你不可能学得出来所以他们当时呢就是说有一个好奇心的一个内在的这个奖励函数让这个就是马里奥能够不断的去探索自己意想不到的地儿
跟他自己的这个预测偏差大的地儿这是那个 D-PAC 当年在加入 Fair 之前他 PhD 毕业的 CISIS 就是这个他就在那开始研究 Robotics 我到 Fair Robotics Team 的时候我当时也是研究在里头开始做这个闭环的 Manipulation 但那个工作没有发出来会呀
因为我在 Fair 实习的时间太短了三个月我们做的东西构成了一定的学术成果但是呢我离开 Fair 以后就不能继续 work on 这件事情了所以说呢我当时把那个就作为一个 intern project 就 wrap up
当时做的也是用强化学习去做桌面物体的 manipulation 当时也用了 A3C 这个 off policy 的强化学习的方法在这个防震环境里跟这个物块怎么去相互 interact 等等那么其实在 19 年那会儿你会发现
之前不论是做乔化学习的做计算机视觉的大家都开始想这个问题就我如果做教职我得
往巨深这个方向靠所以你看 D-PAC 一进入 CMU 以后他开始做什么四足狗做人形其实 D-PAC 他们那个公司估值也挺高的也几十亿美金如果不了解 Skilled AI 这个公司也可以去了解一下所以我 20 年底拿到 offer 的时候我非常清晰虽然我是回中国
但是呢我非常的能感觉到美国的这个 trend 同时我自身的研究呢实际上一直是沿着这条线只不过不叫 emotive AI 你在斯坦福的时候是对 16 年我的第一篇做的第一个项目的工作就是叫 learning a generative modelof multi-step human object interaction from videos 嗯
翻译过来从人类视频里学多步的人与物体交互过程的生成这个大家就会觉得哇你 16 年的时候竟然做从人类视频里学人跟物体的手务交互还是多步对吧但当时没有机器人所以我们最后做的东西当时没有机械臂所以我们做的东西有两个成果就把这套系统放到
这个动画里头去生成人手做一个过程就是你比如说你跟他说生成一个人对桌子上物体的重摆放他就把这个东西摆在这儿把这个东西摆在这儿在动画 3D 动画里去那么摆
然后你给他一个杯子这杯子空的你说给他倒水他呢就先把那个壶拿过来然后呢再倒完水再把壶放下再把杯子拿到你面前就像这样的动画这个在 internet AI 的范畴这个呢其实不是的这个的这个数据你要说数据呢确实是因它不完全是 internet 的 AI 的原因是这个数据当时在 internet 上不好收集其实我们拍的
我们去拍人做这些桌面的物体操作的视频然后标注了它从哪针到哪针是什么一个动作然后呢动作之间呢用一个 LSTM 去学它的因果性先做哪个后做哪个做哪件事情会改变物体的状态让物体你比如说一个空的
瓶子它就不能给别人倒水但是如果它满了就能给别人倒水我们觉得这个 LSTM 背后其实是去 model 了它人类做什么动作环境的状态怎么改变改变了以后下一步允许人类做什么进一步的动作这样的因果关系这就 exactly 就是 perception action look
但是当时没有真机所以没有真实的机械臂帮我们干这个事所以当时就两个解决方案一个是用这个把它放在 3D 动画里头那里头你想干什么干什么对吧所以这个会投的是图形学这文章中了欧洲图形学的最佳论文的提名
然后但是呢当时呢也可以做一个简单的机器人系统但没有机械臂所以说呢干脆把那个杯子搞成一个机器人加工了一个这个这么大的一个口径的一个类似于一个大杯子底下装了一个电机这个这个杯子能在桌面上自动驾驶
然后你往那一坐然后你手一抬那个杯子如果你是去抓瓶子他就知道了那个瓶子里如果有水他根据模型他就能感觉到大概率是要给他倒水他就开到你面前如果那个瓶子里没水他就不会开过来然后如果你手里是拿着一本书去往那个杯子面前移那肯定不是你要跟那个杯子要干什么他也不会 react 就是有一些
用这样的模型实现了这个自动驾驶的杯子的一些功能 intelligent 叫什么 smart cup 还叫什么的啊
就这么的一个 demo 那实际上你也可以完全用规则写但我们不是用规则写的我们是通过这个人类的视频学出的这些背后的因果关系怎么样能够智能的响应你人类的这些行为人工的标了数据对我们标注了一句
它没有标注 A 完了就应该是 B 它本质是告诉你持续上 A 之后 follow 的是 B 你用一个模型来学习如果在 A 的条件下杯子是空的是满的人手是张开的里头没东西人手张开里头有东西然后等等等这些不同条件下下一个可能的这个状态是什么你当时为什么会选择这个方向这是你读博第一年对吧这是我读博的第一个 project
就很简单吧就是我其实更早就了解我的人知道我其实清华电子系或者是微电子系毕业的然后我在本科的时候其实主要学的是比较偏物理学具体是半导体物理和气间物理
在之前我是物理竞赛保送的清华所以我其实本人是很喜欢研究这个跟 physics 相关的东西更加这个就是本质的是我喜欢理解就是一个事物变化过后的动力学或者是说它的因果所以我去实验室的时候呢这个时候
如果这个知道我的学术经历的人就知道我其实刚去 Stanford 的时候是在 WE 底下做这个半导体的一个印度老师的主理的然后呢我做的事情呢不是我擅长的是做那个 Clear Room 里头的这个 Nano Fabrication
就是光刻呀那个抽真空用粒子数刻石啊做褶材料的晶体管这是我读博士的时候刚开始做的这个研究这是哪一年这是 15 年对
那么但我后来就立即发现了我不适合或者我不喜欢这件事为什么呢因为我之前做器件物理的时候也是做以那个先用数学和物理进行建模得到模型以后呢从实验数据里头去
这个你和我们的这个模型看我们的模型能不能解释数据如果能解释数据呢根据我的模型呢对这个器件的性能和下一步给一个改进的方向所以其实呢你翻译过来就是你人手建一个数学模型
instead of 用一个通用的拟合器实际网络第二步有一些实验数据就是我们的 trading data 然后用我自己手写的数学模型拟合这个 trading data 其实就是 fitting
然后呢 fit 完了以后呢看 fit 上 fit 不上 fit 上了以后呢就用它来预测它一些新的 test case 的 behavior 其实我本科做这个器件物理的这个事呢跟今天的人工智能的方式是一样的只不过里头设掉大量的数学物理推导还有自己手写一个模型用 meta lab
那我去 Stanford 以后呢 Stanford EE 呢他们不太就是信这些这个可能也是跟这个就是这种半导体物理器件里头太脏了它的那个理论模型的解释性有限就跟今天太脏了
这个就是我们做这个物理的会这么说因为呢就是你像那个粒子物理它都是研究这个 particle 级别的一些这个就是交互它是没有任何杂质没有屏蔽了外界的影响但半导体物理里头那些杂质啊缺线态啊
一块材料里头什么都有在物理学来看呢就这样的东西你用一个非常纯粹的理论是无法完全描述它的换句话说就跟今天大模型或神经网络一样你想用一套完美的数学理论解释它的 behavior 你做不到是黑盒就是它是某一种这个黑盒所以就得靠做实验嘛所以我去 Stanford 以后呢 Stanford WE 就是让我进这个超境间
你也不要再建立数学模型了你就是那这个跟我的个人的思维习惯就有很大的差别基本上你想一个 idea 你需要用一个月的时间才能把这片子完全的完成整个加工的全过程最后呢再测它的电学属性所以就想的很快但是呢
干的很慢验证时间超级长而且控制不了对而且我呢手比较笨经常出现什么把这个芯片掉在氢氟酸里头哎呀他就要克时就要克时 15 秒你那个镊子那个三分的你们不知道是多么原始就大家觉得半导体厂里头应该是全自动的非常高级其实呢对于我们博尔生呢就包括
这氢氟酸如果进了身体是会死的是无药可救的就是到了一定剂量我们是穿着隔酸手套拿那个镊子去加那种一厘米比它更小的芯片站在氢氟酸里头泡泡到 15 秒就可以拿出来那拿出来的过程中你的那个镊子一提的一块那个东西就泡在水里头了
然后你又捡不起来你这一片就克施过了你克施过了氧化硅都没了那你就废了就重新做所以那一年我是非常非常的挣扎的所以我后来就决定不做了这个方向虽然说我物理从高中学物理竞赛一直到宝宋清华做物理那个气箭物理中间长达
应该是七八年吧这么样的一个时间但是我决定就不做了那么换到 AI 这个方向换到 AI 这个方向换系吗换组我们我的导师呢他在 WE 算是一个兼职教授所以他也能招 WE 的 PhD 进他的组那么当时去找这个 Leo 的时候呢他们刚好
利尔呢他就是组里头有一个博后想研究这个 physical interaction 这个方向因为这个 physical interaction 在动画里头还是挺就是做这个物理动画其实在动画里头是有这个东西的 ok
但是呢想把它变得 AI 化因为你也知道物理动画那都是怎么做的都是穿洞补然后呢怎么着手 K 一针一针的去修复那些过程对吧就想把它做得更智能
所以是这么一个契机我一个学物理的人跟一个做动画的一个伯后然后呢我们一起去研究怎么能用智能还是从人类的视频里头的数据学怎么能生成手务交互的多步动画还做了一个机器人的简单 demo
所以这个就 16 年我第一个转行到 AI 这个领域里头做的 project 当时的难度非常大因为没有人知道要做什么
怎么 formulate 这个问题怎么样去确定这个方向那么不是抢别人的 credit 这我实话实说跟我合作的博后他在图形学领域是有经验的但他当年至少就是说当年他对 AI 真的不是很了解
那么我在丹佛也上了一些课我就选了 AI 的包括李飞飞老师的 CS231 这些课所以我其实对 AI 的反而比他更了解你觉得找到了真爱吗
当时也刚开始做的时候也苦恼实话实说就是觉得这个没有那么 work 然后呢想做一件事呢也很费劲当时我第一个项目还是用 cafe
你们可能都不知道叫 PyTorch 之前是 TensorFlowTensorFlow 之前是有那个甲烟星甲烟星他们开发的一套第一个开源的深度学习框架叫 Cafe 然后那个东西可难用了去搭的这些这个我这么一套复杂系统里的每个模块而且当年的那个情况就属于没有人知道这个东西
你要用数据来驱动动画的生成这个东西到底是该怎么去 formulate 这个问题所以其实是这个机会才让我进入了 AI 这个领域为什么呢因为当年 AI16 年的时候 AI 已经是很热了 deep learning 已经很热了你就想 resnet 都要发了所以在那个时间点
很多人想做 AI 都从不同的方向转到 AI 当时 Stanford CS 系是一个什么状况呢就每个老师能够 host 的学生环境承载量很有限但是一堆学生想进组
然后呢那个 Stanford 呢他又是一个非常非常自由的一个双向自由流动市场什么意思呢就是你不需要你的导师签字你就可以换到下一个组那么只要下一个组不是只要下一个组的老师说他愿意所以你可以随时辞职同时呢导师可以随时把你开除
这不像国内你说这个学生我录取进来了以后我要想开除他其实是这国内你必须得有原因为什么这个学生不能读了三分不是而且应该是需要一个非常过分的理由反正这个实操起来在国内其实很困难基本上是学生必须得他主动提出来他或者他预期了
他才能够这个博士就不读了就比如他读到八年了还没有成果那他就博士就必须得清除但是在三份呢双向选择你可以随时提你老板你老板可以随时提你在这么一个非常动态的情况下当时出现了多大的多搞笑一个情况呢就是我老板六组里头九个
全是中国人吗以中国人为主也有
我记得也有一个伊朗人还有一个有没有白人有点记不住了还有 ABC 之类的你怎么赢呢就是啊如果我是做一个非常清楚的数据摆在你面前你去给我把这个点给我调上来
如果做这样的一个 research 那么我在当时马力肯定是我实话实说啊今天我也说写马的马力不如这个计算机科班出身的
我作为这个现在我的主要是看实验去告诉你下一步的这个迭代的方向或者更重要的是告诉你这个领域该怎么发展该做该研究哪一个技术路线探索哪个方向这是我现在的这个角色但是我读博士的时候我实际上刚一进组的时候就是很难
就是当时那个 cafe 为什么你能留下就为什么我能留下就是因为我这个项目它最难的难点就是你怎么 formulate 这样的一个 research problem 该用什么样的数据
用什么样的模型去学习后面的什么知识然后呢怎么搭建一个系统我这个系统里我跟你讲非常复杂它的每个物体都有一个 object detector 类别级的 detector 还要给每个类别再 train 一个 object state classifier
就是他这个杯子是空的是满的盖是关上的还是开着的人手是空的还是抓着的就是你得把这些咱们今天有端端端图大模型了啊啊所以说这些东西都说一个大模型全都给你看明白了当年可都没有啊你要想知道这件事人用手跟物体接触背后的因果逻辑你就得把这些关键的 state 全部都提取出来是的啊那么他里头既有这个
还有对原始数据处理的一个视频分割理解模型我这一个工作里就 N 个模型都是我自己去找数据把它给训出一定水平不敢说真不敢说说训的很 work 就在自己模型错的一些对数据处理还自己手标了一些就说像这么复杂的一个 project 实话实说呢就是要做的想做的一件事是博后提的
里头跟 animation 相关的一些怎么我们把这个模型输出了以后他用一个动画给 visualize 是他做的但中间这个数据的需要哪些模型特别是哪些物理量哪些变化量应该穿起来用一个实序的网络去学因果全是我一个人想的
这就体现了我一个学物理出身的人我把握得住这些很复杂的关系之间应该怎么样对他进行数学建模和物理建模英国关系所以当时呢利友其实我的导师他因为是一个非常非常资深的人他看人也很准就是他呢
不跟底下的带我们的这些博士生资深博士生博士后商量谁能留足谁不能留足他只靠观察就是他看这九个人他觉得这九个人里头谁真的有做研究的天赋以后能做得好啥是研究的天赋
这个就是他的判断了我的导师之前说过他主要就是看你的思维我给他讲这个项目这个系统到底是背后的什么思想我在里头甚至在当年我不知道 perception action loop 的情况下给他画了一个 diagram 就是 state
Action 然后 Change World 的 Fight.State 然后呢跟他讲这个背后的动力学这个就是我们项目要从这个视频数据里挖掘出来的挖掘出这个整个动力学的过程就可以用它来生成动画他当时听了以后觉得非常好
就是说你能把这个事从一个大家一开始想哎呀怎么看人的视频能够生成动画呢对吧人怎么干活能不能我们就是让动画片也就是 3D 的动画照着人的那个视频就干这些活做这些事
能不能有这么一个东西这样大家就不用手 k 什么动捕然后去造动画了对吧那非常虚的一个这样的一个需求听起来就是那种科幻小说式的这样的一个项目的 idea 我进来的时候大家什么想法都没有
然后我作为一个第一年进入 AI 的学生能把它通过其实也不短的时间这项目哩哩啦啦的做就做了一年多然后投又投了一年一开始都没人接受原因是啥我觉得你这东西一开始可能就太超前动画的领域的人先说
你这个东西是不实用还是说什么不那个就是跟传你这个东西你看看我们传统上一些用 learning 做动画的方式都是怎么做都写一些 grammar
Grammar 就是叫动作语法先做什么再做什么搞成一个有限状态机一样的东西都是靠规则你能解决人家规则解决不了的问题吗我在当时那个技术的一个能实现的一个结果下确实我也是他们用这种 Action Grammar 的方式也能实现
毕竟也没多难嘛做的这几个事啊他也不是随便所有人做的桌面上做的事他都能做他实际上是限定了一些物体类别动作类别在里头啊这个排列组合出来的这些事能可穷尽的说到底头两次 Cgraph 就是图形学的顶会都没中然后呢后来呃
改进改进投了 Your Graphics 然后 Your Graphics 不知道为什么当时我一度很绝望就觉得这辈子这个文章中不了了我第一篇文章就中不了就是心理压力很大后来呢中了而且呢还非常意外就是最佳论文提名它是一篇最佳论文两篇最佳论文提名然后但是你可以看得了多长时间中间 16 年开始做然后呢 19 年
五月份还是暑假的时候开的会这么久对对所以这个领域我是好漫长我 21 年才毕业嘛所以后面就特别快了从 19 年之后就进入快车道了咔嚓咔嚓的发那就第一篇文章就编了这么久而且呢过程中呢
就是我也是对就是他肯定是很痛苦所以说你对这个事情到底重不重要该怎么做背后的本质是什么你才有机会去深入的思考作为你的第一个 project 你后来能抽象出来几点关键的思考是什么呀对其实他还可能对今天都有用如果你这么讲的话呢我倒觉得还挺有意思的
就今天我们做事的方法跟我第一个 project 还是不太一样的就是第一个 project 里头呢我们就是这个的很多我用到的技术今天呢仍然不处于一个可以落地的一个技术比如说完全从视频中学习然后比如说呢
我们学习了这个人类做事情下一步他有可能做什么的这样的一个模型这本质就是 world model 嗯
对是从视频中学习还学一个 world model 然后最后呢怎么样能够让它能够用于生成一些新的交互的序列或者呢就是这个跟机器人怎么能互动就这个技术路线呢
我不是说从理论上反对它而是从现实可以做到一个 work 的水平今天这两个技术目前还没有或者是在现阶段还没有成为我们认为在当下最能够推进巨神智能当下发展的最关键的技术
我的第二个项目做的事就跟我今天的手段是最一致的就是用合成数据
第二个项目是啥就是做这个类别级的物体位置估计第一个项目里头我们做的这些物体状态估计呢当时就觉得这个状态就是说瓶子是开的是有没有盖开的还是关的就这些呢太粗糙了能不能对物体的状态有一个更精细的描述所以精细描述是什么呢是它的三维位置和三维旋转
那么这个东西就在机器人视觉里头叫物体的六维姿态叫六维位姿这个 60 pose 那么当时就说上一个工作里头这个物体的状态估计搞得很粗糙那么搞精细的话 60 pose 的话就会发现别人搞的 60 pose 都是一个物体
这个物体我给你定义它的坐标原点在哪它的 X 轴 Y 轴 Z 轴在哪好了现在我对这个物体它的零点和它的标准朝向给了一个定义现在这个物体躺在这请你告诉我它相对于它原始的坐标系它们两个之间的相对旋转和相对平移是什么
这个就是我们过去在我这个工作之前叫这个实例级的物体位置估计就你一定要给我这个物体的实例原始定义我才能告诉你它相对于你原始定义的状态旋转了多少这个移动了多少
这听起来也是合理的但是呢我们当时讲的就是那个你看我在前一个工作里我讲拿水杯的时候其实我也不管是什么水杯那你现在就说的好像为了知道这个位置估计我每一个水杯都要给你建一个它的这个数字模型给它标它的原点在哪给它标它的上方向在哪但人类肯定不是这么去理解物体的状态
我们实际对于同类物体我可以非常清晰的说这些杯子不管他们上面印的是什么花纹什么图案这些马克杯好他们现在排成一排杯口都是冲上的而且呢他们的这个杯柄都是冲右的
我可以完全不需要你给我定义一个坐标系我就能描述它们的状态这为什么呢是因为我们人类呢对这个类别的物体都能够想象出一个它最正常的一个状态把这个状态当作基准状态基于这个基准状态呢去讲它当前的状态是什么样的这就是我当年第二个项目要做类别级的物体位置估计每一个类别都有一个大小
大家都能认同的一个原始最正常的方位然后这样的话我不用你给我这个物体它的原点和 X 轴的标注我就能直接谈论一个没见过的但是在这个物体类别里头的一个实例它的位置是什么这个项目为什么是说跟我现在做的事情有很大的关系呢就是因为它没有数据
我们当时就比如说一个马克杯那么传统方法是每一个马克杯去扫描一个物体模型然后对这个物体模型去把这个物体放在环境里拍大量的照片你就构成了一张照片标注一个物体的六维位子然后你就可以根据这个图片去预测这个物体的六维位子给一张新的图片
那现在好了 我现在是类别级的 我有多少个马克杯我可能有无穷个马克杯不可能我对每一个马克杯都拍图片标注它的六维位子构成一个训练集 覆盖所有的马克杯然后呢我在上面学习以后泛化到这个一个新的你给我的一个随便的马克杯上
那真实数据不存在首先这个数据在互联网上你想把互联网上所有马克杯都给爬下来以后标注他 6 月位资这个事你也做不到同时我作为一个 PRD 这个项目就我一个人这是我一个 single first author 的 paper 我也没有办法哪怕自己拍一些自己标我都做不到标的足够大所以当年我们就想到了要用图形学的方法
用大量的数字资产马克杯渲染到一个真实的环境里头然后构成一个混合现实的数据集具体怎么做呢我们还是强调的是桌面场景所以我就带着相机跑到了当时在湾区的宜家到宜家里头我就问他们
我是做 research 的我需要一些桌面场景能不能让我拍一些他说随便拍随便拍没有版权然后呢我就拿那个 RGBD 相机去一家里头有大量的桌子什么床啊什么什么的各种各种各种不同的平面嘛拍拍他的 RGB 和他对应的深度再从深度里的提取出来他的桌面
这样的话呢我就可以把一个数字的马克杯放到这个桌面上让它刚好放在上面然后呢我再用图形学的方法把这个马克杯渲染到这个宜家背景的前景上这样就生生出现了一个马克杯这背景是真的前景是假的看起来从远处看还觉得挺真的然后呢因为你是渲染的嘛所以你怎么摆放的在那个图形学的界面里头你都是知道它的位姿的
光触子就自动标了就这个方法产生了一个几十万张图的一个数据集训练我这个类别集的物体维持估计所以这个就是当时
属于我开创了一个方向要可泛化的预测已知类别的物体的位置但是没有数据所以说是用真实的背景混合上虚拟的前景然后构成了一个我们叫 mixed reality 的 data 训练完了以后的 seem to real 或者叫 mixed to real 在真实世界里测试
对当然今天用的技术跟当年的技术里头已经有非常多的迭代了但是这个思想的来源就是我当年的第二个 project 大约是 18 年初开始做 19 年的 CVPL Herald
然后这个领域呢我做了第一篇文章以后到 21 年的时候就是 CVPR 的投稿自领域我自己做出了一个领域这个很有意思对然后我的那篇文章也被很多人不停地刷这个榜就我最开始原始的数据集包括它的核数数据都是大家后来不停地去刷的一个数据集它是一个机器人视觉里头的一个经典问题的一个推广
就是因为未知估计在机器人视觉里头是一个挺有历史的问题但大家一般都是研究已知物体的没有做到给我一个物体我只知道它的类别我就能够对它进行未知估计所以这是概念上的一个推广然后技术上呢就是我们用合成数据搞了这个
任务没有大规模的采真数据但是呢最后在真实世界里也有一定的效果说回到你回国第一年期差事变没出来对这个我们回到这儿就我当时回国的时候你看我在博士期间做东西呢其实是跟机器人是相关的但是呢技术手段呢还是图形学和三维视觉的手段我回国的时候呢是可以做更传统的
就回归到图形学和三维视觉里我也可以呢更加激进强调一切围绕着巨神智能或闭环啊什么这些操作啊去做还有一些别的选择比如在这个 20 年疫情之前特别近的时候大概是 20 年 1 月份
当时开复老师到湾区组织了一个 branch 在利斯卡尔顿把我们一堆在 mid career 的 PhD 和一些比较 active 的就是中国籍的华人的 researcher 叫过来就问你们要不要创业嗯
那他跟我聊就说哎呀你看你做三维视觉这些手段你都很熟悉你就应该做纵驾式 Lighter 点云做纵驾式因为我们做物体位置估计其实那个类别级的物体位置估计技术的一大应用的地方就是车的位置估计是的
这是一个很明确的场景对 这是我们 NOX 这个工作叫 Normalize Object Coordinated Space 它的一个场景应用就是车然后他们就说你就应该坐车然后我当时跟开复老师我就说我对这种
驾驶就是因为它就是纸币账嘛说到底我对这种交互呢我觉得还不够我希望的是更丰富的人和物体手跟物体机器人跟物体之间的交互所以我的观点就是我要做家用机器人 Home robot 我跟开复老师这么一说开复老师当场零点一秒就说那你别谈了
家用机器人还有 50 年我们现在不投资无法实现的东西我说这我也理解我们现在做的东西跟 20 年初的时候跟他说的话我们现在做的东西离能够在家用里头做机器人确实还很远没关系我可以在学术界里头先慢慢的研究等到时机成熟的一天我再出来
开复就不理我了然后呢也不是不理我了就是开复就说那好吧但你要明白你这个这东西都是时间长短都说不定的反正呢后来呢我也非常的是那你那个时候去做自动驾驶又干嘛呀是啊我就跟他这么说我的意思就是说一我不是说我做的研究全都围绕着自动驾驶啊
二呢对我来说我要看的是 next wave 我当时也没有说你给我钱我就创业这么着急的想法所以说我就回到国内的时候呢我仍然坚定了这个就是还是以 home robot 作为最终目标去推进我的 research 这一点在北大里头资深的老师都也不认同
他们虽然给了我 offer 看我是一个思维清晰技术工作过硬而且交流能力谈吐还不错的一个年轻人但大家就说你一想做这个事在国内根本就没有那么多的空间也没有人做这个当时我
打的我在北大的战略会上讲过 all in robotics 大家什么反应他说不行啊你得留至少得留一半吧在三维视觉里他们看中你还是因为三维视觉对啊我当时肯定也没表态但实质就是没听那要听了就没有后来了嘛对吧我回国以后就开始
去到处讲我的这些类别级的物体维持估计的工作它对机器人其实它的另外一个应用就是应用到机器人的抓取里头这个物体类别你怎么去抓它包括巨神智能这个词在美国其实已经变成一个大家都知道词了国内还没有什么声音然后我也写文章介绍巨神智能
这都是在我北大入职以后我写的在燕园探索巨神智能大家可以在微信上搜这应该是中国互联网上最早的几篇介绍巨神智能概念和他的回头把你链接放上来要做什么的文章当然今天看很多观点只是一个雏形但是就是在那个时间点是没有什么联军就是在国内当时唯一认同这个事的就是卢测武老师
因为他跟我都是六的学生他是六的伯后我是六的学生所以中国最早提这个词然后一起去写文章推这个概念其实就是测无带着我为什么是他带着我呢是因为他在国内已经好几年了他是 16 年回的国所以我 21 年回国的时候他在国内已经五年了他在国内待了五年国内都没有学者响应
说做巨神智能这个方向然后我一回来我说我 all ininvolved in AI 测谷说那行那你既然 all in 我们就一起推这个概念包括后来 CCF 要定义这个巨神智能的这个词条本身是邀请测谷写后来测谷说只有我一个人写这个好像就是我一个人的观点
这样可能有事偏颇所以这样是我我们两个人写对所以其实最开始在国内做巨神智能喊巨神智能这个词南方就是卢测武北方就是我真没有其他人喊你是什么时候对巨神智能这个事情这么热忱的呢巨神智能的最核心就是 perception action loop 就是你要主动
然后你看我第一个工作就是你要预判人下一步干什么让这个机器人去主动的迎合你
动起来从人类的数据里去学怎么做 interaction 第二个工作就是讲我们 interaction 里头最重要的视觉问题就是怎么去对物体的精确的运动状态进行一个感知和追踪这些呢都是巨神智能里到今天仍然是巨神智能里头的一些关键的核心问题甚至我在啊
20 年初的时候投资人找到我问我你的 career 的一个目标是什么我说就是发展家用机器人
所以这个事应当是从我做了前两个项目一个从人类视频理学交互第二个做泛化的机器人视觉之后我内心就已经形成的对对我未来要 achieve 怎么样的一个 goal 已经有了这样的一个看法只不过当时还不说这个东西叫不叫巨神智能嗯
它叫什么无所谓就是最后要实现的是一个能够在物理世界交互的一个通用智能体为什么一定要是家用的机器人因为它空间最大那你自动驾驶是在外头解决开车的问题那你说下一步解决家里头的问题那肯定就是要有一个做家务伺候你的家用机器人我呢也不能说全世界那个时间点就我一个人想这个事这么说都是不对的当时也有人有这个 vision
就是 Google 的 Everyday Robots 当时我给别人看我想做的东西我都是用 Google 的 Everyday Robots 它的截图我说 Google 现在在做的事情这个事我也想做为什么你没有去 Google 这种实验室我就觉得一在美国的这些 Research Institute 里头做研究
你就是一个螺丝丁我首先在 Google 当过 9 个月的 research intern 然后我也在 Facebook AI research 当过 3 个多月的 research intern 我的同实验室的师兄伊利老师就在 Google 当时我要毕业的时候他就在 Google 里做复探
就是我们所有的感受都是 consistent 的就在大公司里头你就是个螺丝丁这个事对这个事呢你没有能力决定他要做什么做什么你在里头就是写代码的我是觉得呢这么搞呢太慢了而且呢我呢个人的这个一直的这个感觉就是在美国
发展的这样的一个空间对于我们亚裔男性来说呢不是一个非常友好的这样的一个空间外加上呢我其实北京就是我的这个家乡出生在这里成长在这里那么回国以后呢做事情我感觉是更有主人翁的感觉理解啊
那么在 Google 当一个螺丝丁还是回北大能够立即成立一个属于我的研究团队我想都没想我在美国都没有做过各种面试任何一个公司因为我觉得像 Google 这样的公司我去面拿下应该是没问题的但是我试了我不去对我没有意义
所以我根本连事务都不是我直接就面国内的教职那么当时呢其实像那个毅力他去清华面我去北大面我们两个就岔开了我
我就面了北大的两个不同的单位然后最后推进的时候选择了在这个前研计算研究中心就这么简单然后回到国内以后我的想法一点变化都没有虽然说感觉到国内没有
但是呢就感觉我来这儿就是因为我能 fully control 我做什么如果我要是来这儿以后还是不能够控制做什么的话没有意义所以我就是专心的搞这个机器人而且我还更激进就原先我们是主要是三级视觉初做这个为主的我过来我就把三维视觉和强化学习结合在一起搞哦
就拿了那个 iClear 这个第一届 Many Skills Challenge 的全球的这个冠军那你回国是 21 年初到了 22 年底 XGB 就出来了对吧你觉得后面强化学习也引发大家更多关注通过 O1 这之后对于你做的这个赛道它的影响和变量是什么智能机器人或者我们叫 Embodied AI 一开始呢大家对它的想象力虽然存在想象力但是呢为什么没有那么火呢就感觉
你做一件事你也是需要数据的然后这个数据学完了以后就只能解决你这一件事的能力干活的能力那么听起来它好像不存在一个一下实现通用 potential 或者说你具深智能做这个事你每个物理任务你都是你要采集数据然后才能做这一个东西那么你的编辑成本没有降
那么所以最后呢它是一种方法但它无法形成一个革命性的一个技术但是这个 Google 的 Polme 它自称自己是一个 embody 的多模态 multimodel large model 它实际上按今天的严格的标准来说它都不算 embody 的
因为他根本都不输出 action 他只调用 他是基本上是一个 agent 调用一些小模型来执行动作所以那个工作出来以后大家就觉得 哇原来那个大语言模型当做脑图文大模型当做脑在指挥一些干活的小模型去干然后他能够实现 open instruction 随便说什么就干
这听起来像是一个通用机器人的一个范式如果要是能通用了那机器人的这个空间太大了对吧家用就是一种需要通用的这个环境但是呢如果你能做家用那你比我们叫一个机器人是车的这个比车还贵的价值但是呢量是手机还大的量比车贵比手机量大
你说这种东西它要是做起来它不是世界第一产业了吗所以一下子大家就觉得得做得投然后呢 R2 年底 Chad GP 出来然后呢 R3 年初其实那个 Palmy 才出来 Palmy 出来
很多投资人就但是二年底差 GPT 还没出来我们就建立了聚神智能中心所以我们建立聚神智能中心跟差 GPT 也没有关系
是我们认同即使没有走向通用那么巨神智能这种在物理世界做交互的智能它也是一个重要的智能的部分必须要研究只不过呢 TRACKGP 出来以后大家觉得哇这个语言一下子这个很通用了随便问答了然后呢 Paul V 出来又讲了一个故事视觉跟他一起做然后呢还能调度机器人嗯
什么都能做所以 23 年这个就是出 POWBEE 出来就中国敏锐的投资人就开始找了谁做 embody 的那个 POWBEE 的那个-e 是 embody 的对吧谁做 embody 的 AI 就找到你了就找到我了好多人就找到我了多少人找你了反正其实当时找我聊的人还是有一些的但是当时属于最最最早
抛弥刚一出来然后呢有人就劝我创业嘛然后我就说我创不了我没创业而且呢我也在我现在还要做研究的时候呢去把公司所有事管起来我觉得这个事对我来说没有这么大的 bundle 位子小好啊就是而且呢我最大的一个问题我就这告诉他了
如果是这两个我都还觉得有解决方案最大问题是什么呢我之前自己不做硬件然后现在市场上的我用过的当时我在智源研究院搞了聚神智能中心以后我们就立即用了一些硬件用了一些家的我不提名字了有的家都已经现在都倒闭了硬件都不行我们想做给他做智能发现硬件特别垃圾
都不要说智能了执行都执行不了就是轮式的这样的或者是这个足式的这种在真实世界里到处跑还能够干活的有那个有手的这样的
搞不了我说你让我创业然后我们现在市面上所有硬件都是垃圾然后呢我自己又不做硬件那这公司以后是依托什么东西做硬件本体呢所以一开始我都拒绝了他们但是他们还是愿意来像 23 年初的时候 IDG 的管理合伙人李肖军就来我北大靖园我们这个小四合院的办公室里我们就聊了
虽然他们当时呢倒也不是说就是劝我创业其实也是想聊一聊这东西靠不靠谱能干什么那个时间点呢我就的想法是必须得有人把我刚刚说的这些都能弥补上我们才能一起创业后来就跟我们银河的团队走到一起了谁促使你们走到一起的对这个其实之前大家就认识
腾州有非常多年的硬件的经验它在 ABB 就负责机器人的量产
又在一家机器人的初创公司里头做过长年的这种娱乐化桌面机器人的量产所以跟腾州的团队碰了以后我才看到这个把我们硬件的重要的问题给解决了所以一个软件一个硬件然后一个 CEO 大概是这样的一个轮廓说真的巨神智能要解决的问题到底是硬件更难还是软件更难
它俩呢是一个就是螺旋上升的问题啊今天我们银河通用落地的人形机器人我们看我们是轮式的底盘对对吧啊用的两只臂啊七自由度的臂里头呢都是谐波的这个减速器啊也没有用到特斯拉啊的那种腿还有那种啊就非常 fancy 的什么啊行星滚珠思考
本质是什么意思呢就是我们用到的机器人的这些从底盘到手臂都是上一个十年被已经证明可以工作工作的比较稳定的一些机器人零部件那么
在此之上主要是如何把这个原则上可以做到稳定的一个本体的智能发展出来所以如果你比如说你去看那些用行星滚珠四杠的企业它的问题就同时出现在硬件零部件的量产包括比如说有人用绳区作弊那么绳区现在到今天为止世界上没有大规模量产
就是量产了以后到粮率够不够 移植性够不够然后它的可靠性 它的耐用性这些都是问题那么我们选择的是用目前你像这个地盘都是商清
这么多年验证的没有问题的解决方案然后上面的这个币 协作币对吧也是这么多年虽然说没有达到特别大的规模但是呢就是也是存在了很久量产过的版本的这样的一个技术方案在硬件上选择了相对保守的方案对 为什么呢因为这个方案本质现在它就已经可以解决很多场景的问题了它的卡点是智能对
然后如果我们在这样的一个本体上把它的能力基本全发挥出来了那么像我们的商超工业里头的搬箱子 抱箱子 马箱子那个上料 sorting 分解这里头至少能看到百万台级的这样的甚至全球千万台级的一个规模就用我们现在的硬件
也不需要有腿也不需要是完全的人形对就是为什么呢因为你这个轮盘它做不了就是比这个盘的直径更小的空间它过不了了这轮盘直径就 60 厘米对吧什么空间过不了它不可能从椅子下面去爬过去它不可能在那个我们讲的那个家里头有些地方床跟那个过道都很窄人在侧身过那些都过不了但是你说工厂里头哪是那样的
所以我们今天看到的巨山机器人市场大家要知道它做到什么规模就已经在机器人里是现象级了所有的工业机械币在去年的全球总产值才 1000 亿人民币跟理想一家车的全球的整个的产值是相当的
那么它本质上如果是几十万一根币那么它也就是几十万这样的一个量级如果张青这种机器人他算是不是在一个固定环境里头他是到处什么万达广场大厦一层跑这样机器人现在头部的像高线普渡
也就是一年卖上万台小几万台一两万台所以今天我们对巨声它作为一个机器人我们要意识到其实你的智能很牛了你也得先卖过这个千台万台十万台的这样的一个数量级
你才可能能够实现长期的规模化量产稳定运行就是说你们要先做一个理想万吗就是本质上你必须得有第一步所以在第一步你就挑战非常非常不成熟的硬件技术都没量产过那么实际上它对你的智能是一种拖累成熟的相对成熟的其实今天没有完全成熟的机械技术我可以告诉你因为一个东西只要它没有到达
几十万最好是上百万的这样的一个就是产量它都不叫经过了大规模量产
车我们知道这个工业已经上百年了上百年的东西它今天我们看新推出一款车其实还有各种各样的大家看到的一些问题良率包括可靠性还有大家感觉到不是那么满意的地方那机器人特别是人型机器人这东西在历史上
就没有曾经任何时刻量产过包括我们的很多上游的供应链它都没量产那在这种情况下呢你选择相对来说经售过万台以上这个量产的零部件你算是这个中小规模量产了你相对来说还会可靠一点
因为你要知道这么大一个机器人本体 N 个零部件任何一个坏了你机器人就坏了如果你现在选择一个激进的一个这个方案的话呢那意味着你将会在不短的时间内你会遇到出货以后不 work 然后呢迭代周期偏长最后呢整个这个拖拖累你的这个商业化的节奏而且呢我们干活就是非必要不增加
这个不靠谱和不需要的零部件那不应该是这么一个逻辑吗你交付的客户他跟你交付 C 端应用还是不一样 2B 的话他只关心这个东西干没干活能不能像人一样可靠的干活能不能比人干的活的时间更长干的更好他不关心你是腿还是轮作为外观上他没有需求
所以从我们的角度上讲硬件我们当前选的你如果说它是保守你这个词我觉得更好更精准的讲是务实的一个选择一个要在客户的环境里比如我们现在的无人药店一天要干满 20 多个小时的机器人跟在一个现场演示 5 分钟
遥控 5 分钟就下场的机器人他们对可靠性和续航各方面的要求都是完全不一样的
在这种情况下你跟我说你上来就沿着最有挑战的方式去搭一套机器人系统还要把它落进去那就是既要又要所以我们现在的硬件不是说我很务实的讲现在的硬件我们银河通用的俄罗斯机器人是摸索的迭代的相对来说最充分的为什么因为我们已经赶在一个店里 20 小时这样强度一天 20 小时这样强度运行了嗯
如果大家买过一些轮式的人机机器人做科研就知道它可能出各种问题大家都觉得这个东西都很简单把这些电机放一起怎么会有问题呢实验室买过的在实验室用过的都知道到底这里头可能有多少问题所以我们的硬件现阶段就是要进一步收敛
这款硬件如果能收敛我觉得出货到百万至少十万我觉得没有任何问题现在多少今年我们是千台级的量产在这个硬件基础上他们智能水平现在提高到什么程度了这个是你的工作在这个硬件基础上它仍然有相对专用的智能和越来越通用的智能这个事也是我们落地的时候比较务实的一点就是
很多工作呢在非常激进的讲我们要做巨深的这个大模型的目标就是一步向语言模型那样那么的通用什么话什么问题知无不言言无不尽对吧但实际上呢你会发现呢从语言模型到加入视觉的 VLMVLM 你给他看什么图片他可不是都看得懂为什么呢
因为视觉数据对人类地球上目前以数字化方式记录下来的视觉数据对所有可能的人眼睛看到的视觉观测来说的覆盖远远小于互联网上所有文字对人类所有可能说的话的覆盖
也就是说 LLM 为什么那么强是因为数据把你可能够分布的这个各种语言都基本盖住了你在上面学完了以后呢你学出来的模型呢你问他什么他都可以说但是你想象一下我们人每天带着这双眼睛到世界到各种地方看全世界 70 亿人如果我们的眼睛的数据全部都记录下来它是多大的一个量
图片就在那里大自然就是这样的它没有人的理解不是我的意思就是说虽然说互联网上有很多图片也有很多视频但它跟我们人眼能看到的所有图片和我们看过的所有视频相比它只覆盖了一丁点 OK 我理解你的意思但语言互联网上的文字对人类可能说的所有语言来说覆盖的比例确实很高的嗯
所以说 VLM 它之所以训练的水平不如那个 LLM 强本质还是数据不够所以今天我们讲一个 VLM 什么都能做目前做的还很好还没做到 VLA 呢 Action 的数据更是这两年大家才开始收集的所以这件事呢在今天来看呢我们切记
就是把目标一步定的过高说一两年内我们要做出一个完全通用的 VLA 这个事儿呢至少从学术界和从我个人的认知来说是不可能的那么我们现在做巨神智能的核心也是找到可批量复制的商业化模式让这个东西成为一个产品落进去
通过现有的智能水平和硬件水平就是到不一定是通过现有的智能水平就是你要围绕着一个可批量复制的
去发展智能让智能能够 cover 这个 application 需要的所有能干的事情它就形成了一个完整的 solution 那么这个 solution 如果它又具有很好的方法性就比如我们现在做的无人的药店无人的零售工厂里头的分解本质上说
它的技能相对来说就是移动抓取放置相对来说从技能的角度上讲它是几种 atomic action 原子技能它没有在这些层面上比如说还有什么钻孔什么玩魔方什么使用剪刀对吧这些技能它都没有它就是移动抓取放置
但是它已经能够形成一个 solution 了而且我要求我这个技术在技能层面虽然说只有这几个技能但我要求它对物体它对环境充分泛化就本身上你给我一瓶这个气泡水还是这个咖啡还是这个饮料我全都能给你拿来全都能给你上上去对吧你是在这家 7-11 还是 Family Mart 还是 Lawson
我全干能理解你在什么药店我全干跨店跨品牌我全干一定程度的方法对就是在行业内
的这个应用的场景内泛滑简单理解就是可能这一代机器人成立的公司比上一代机器人公司更聪明一些这个聪明一些这个事呢这个从智能角度它绝对不止一些我们可以讲完全基于轨迹重放的机器人没有智能它根本没有 reaction 那是一个机械性的工作是吧这个反正它的那个控制你要说控制 PD control 也是一种 reaction 那我也
很难反驳但是就是至少它不是基于数据驱动的然后呢它是基于一些方程然后那个去对它的一种闭环的控制嘛对吧然后呢那个数据驱动的话呢过去跟工业机械币主要是结合一些三维视觉做一些定位
定位完了以后还是就等于这个物体往那边偏了一厘米然后你把你原来的轨迹 offset 一厘米去抓它这是在稍微加入了一些我们叫工业视觉或者叫工业三维视觉的解决方案里头会用到的那么现在我们做的它已经是一个闭环的完全闭环的系统了
他从语言层面 VLM 层面他已经能看得懂我前面的货架都是什么东西如果有东西放倒了放歪了掉了他其实从模型层面上他理解只不过他的动作
是比较的有限的我就只能解决从地面上捡从货架上捡拿下来放上去重新摆放这些能力你比如说这袋什么软糖你能不能给我撕开我没训练过这个技能我看得懂我能给你拿下来但我不会撕所以你可以认为它是行为受限的一个物理制成体
为什么受限呢是因为我们的物理操作的数据太有限了我要优先开发几个最关键的技能让它形成解决方案不关键的一些 optional 的技能我可以先不开发或者先让人去做嗯
但是我的技能库肯定会扩展的我不可能永远就只有一顿抓取放置这几个技能但是这几个技能你都做不到泛化和通用你不构成一个可批量复制的商业解决方案你这个公司就会出现两个情况第一个情况我也不举例中国美国都有长期漂浮就是讲人型机器人的故事讲几十年
没有任何商业应用的案例这个呢是就是你说我有很多技能但每个技能呢其实都是需要背后人编排什么的都本质上是就是为了拍摄而去做的一些事情这个呢是绝对不行的第二种呢就是说我算不过来一账
就是我现在在这个场景里我全部你要的所有技能我挨个都给你用各种方式不管数据驱动还是用轨迹视角拖拽重放总之我都给你搞定了但就这一个场景的解决方案它到下一个场景全从头重做编辑成本一点不降这些就是咱们在工业视觉
这个里头很常见的一个情况就是不同商家的料不一样我对这个不同的料呢形状我要重新建模形成模板等等等等它每做一个项目呢它都需要投入一个 constant 的这个人力研发和交付周期这样的话呢你就没有找到一个它是
你只要有无限人他也可批量但他不可复制我拿到一个解决方案了以后这个厂家做了一个方案以后我换另外一个厂家我发现我重新开发一遍那这个的话你的规模呢就只能做到这个你能做到小几亿收入就很了不起了因为你这个公司说完了不挣钱都是苦力活这个也是被证明的一个商业模式
这两个商业模式对于我们这一代巨深智能公司来说我们如果陷入了任何一个那么最终我们发展的天花板都不可能超越他们因为你不可能有美国那样资本支持一个公司几十年不盈利还存在你也不可能你看现在工业视觉的公司它大约现在的一个
估值和它的产值是什么规模这个大家自己一查都知道都发展了有十年了基本上那这个水平都看得清清楚楚的
所以对于我们来说这两种情况都是我们要从技术和商业模式上都要规避的我们一定是用一套可泛化的东西我比如我做一个货架解决方案所有店都打进去你每天上新品我都照样 handle 一个场景的泛化对这个的话就我刚刚说的
你货架这件事说大你可能觉得也不够大但说小做几万台轻轻松松的一下子就超过了已经做 10 年的商清
如果你把所有的上货下货工厂里的这个马货班货分解全放一起千斤数数做到几十万台这个就超过了任何一个目前工业机器人的规模了而且它的产值将超过头部新能源车厂的产值几十万台但是你不能全部覆盖这一个场景你肯定有金融对手也做这个场景这个点就在于
还是你能够做到多好你不能垄断在这场地这个呢你还真不要这么讲机器人这个领域呢今天来看其实呢头部效应是很重的我们机械币叫四大机械币家族商清你看看里头有几个真正能够到万台的玩家高仙普渡后面规模就小很多了嗯
对吧就为什么呢因为大家没有意识到的就这也是我的一个看法机器人这个系统太复杂在他没有技术完全成熟之前你能做那点事基本上就被头部的玩家全吃掉了然后你后面的人要像他那样迭代这么复杂的一个机器人系统你从钱从人从各个方面你都做不到嗯
大家不要觉得机器人这个东西听起来好像觉得没什么一台车有多少个零部件它是通过那么高非常紧密的组织形成的产线并且这个模式被验证了上百年才搞成的这样的一个工业机器人如果只有一万台一万台商清就是十亿的产值就这么大的一个盘子
你就只能容纳下很少同步玩家你看然后呢你们也不要低估就一个商青机器人他的整个的复杂度像我们公司的这个工程总监施雪松博士他之前在高仙
就这个机器人在什么万达广场什么地儿到处跑有的时候水箱会不会出问题会不会走着走着丢掉了定位然后不小心就走到什么电梯顺着电梯下去了它倒了 都摔了 水流了人家店门口唯一一个横条告诉他在装修机器人不理解进去了还被那个线绊倒了然后又流了一地水
这非常现实的做好这样的一件事其实他们高峰期的时候公司将近 2000 人围绕着这个商情去做所以像这种规模他才只能拿到 10 亿的这样的一个产值他只能容纳下前两名
如果我们做工业的分解做工业的零售大家千万不要觉得这件事特别简单你可是把它当员工用的它坏了你就得有人上门来把这个事给解决了想把它做好这根本不存在那么多玩家头部砸重金
修复它所有的硬件软件一体化的所有功能把这个事做到产品级这个就是只能容纳这么多了为什么车能容纳这么多厂家首先今天我们也看出来了这个市场中国 3000 万台的市场它也没有大家想象的能容纳这么多家不停的在死对吧它是个激烈的淘汰第二这是个成熟品很多人现在都说车是手机
你有想法就能造对吧他都这么成熟了他才能够说大家靠的是流量靠的是 PR 靠的是设计靠什么品牌品牌对吧去卖他那巨神机器人从量产到技术都高度的不成熟那这里头其实头部跟中腰部之间的差距是无法弥合的
所以我讲说几十万台的这个市场握全池都是有可能的你的采集数据上有什么陈述方案了没有这件事也是我觉得为什么我们走得快就是因为如果今天所有家都有一百万台人形机器人都花得起钱让这一百万台人形机器人每天采数据那今天聚身我们讲的这些场景全动作本质上自动驾驶为什么追得那么快
就是因为你只要卖出个几万台车这几万台车每天有一万台在路上开然后你收回来的数据你囤一囤筛一筛洗一洗然后这个数据就够你蠢猪模型了但今年没有机器人厂商今年能实现万台级而且万台级也不可能一万台你付费全部让他们在那摇操这个成本很高的
有多高现在的这个机器人首先啊一台基本上就是这个十万最少是十万的一个制造成本 OKfull size 人形那你一万台你全部把它买下来用于助力采集就意味着十亿
你要砸在机器人的制造上那这个制造出来以后你还得有一万人其实不是一万人每台至少两班档甚至呢是两班每班两人四个人去摇操它那这个一个月这一台机器人上这个摇操的这个人你的支出就是小几万你还得有人标注嗯
还进行那个质检所以这一套全部下来以后呢基本上你每个月维护你这个一万就是台机器人的成本就在数亿到十亿这样的一个规模能不要一万这么多吗不要一万如果今天我们全靠合成数据全靠真实数据一万我觉得是一个比较合理的问卡 OK
所以只有美国公司这么干没有全世界没有人能这么干对所以现在美国的那些公司都不 work 嘛你看他们有落什么商业吗他们本质就是说他们也知道是数据要的这么多所以说呢大家现在呢能做一个 demo 都是拍成视频给你看嗯
无法邀请你现场看无法做公开展示这车很好司机帮你收集的数据对就是这个他数据是免费的付成本的其实是因为你卖车你还收钱的是对吧就反正我的意思就是说这个事现在也是非常 tricky 就是你能不能把一个没有功能的机器人卖给别人当然不能那反正在短期里头这也成为了一种商业模式就是把没有功能的机器人卖给别人但是呢这个肯定是不可持久的
所以我们今天为什么说我们能够率先的跑出来包括我们实现了 24 小时药店小规模啊这个商业化应用包括我们在智能大会上敢直播 VLA 去做货架我们敢在会场展厅不间断的做这个 VLA 的这个货架演示是因为我们不完全依赖真实数据 OK
真实数据在我们的训练数据的比重也就是 1%甚至更小我们自研的合成数据管线挑起了大量
这个多少人团队来做这个合成数据反正这个团队规模这个不方便去讲具体多少人但是呢这个合成数据这件事它并不是靠规模能够解决的是靠什么因为你想嘛我从 17 年做这个 NOX 这个工作我就开始研究合成数据
那么到今年按照合成数据我开始用合成数据做模型然后解决 sim to real 的问题到今年也有 8 个年头所以 worldwide 你如果要讲说 believe in synthetic data 到处讲 synthetic data 是有用的你看中国就是我
对你在哪都不到核证数据因为你看很多人你去听这些军事论的场子都跟你讲什么仿真不够有 sim to real gap 解决不了问题都要用真实数据真实数据怎么用呢你先买我机器然后去摇
对吧它是一个能够讲的闭环就是我不信核数数据我告诉你核数数据没用你呢不要信你呢就给我买我的机器然后呢你就去摇摇够了自然这个技能就出来了这种商业模式这现在是一种商业模式
那这个商业模式我们不论是从学术上进行估算还是从类比自动驾驶你要买非常非常多的机器全世界还没有人存购了机器然后呢同时呢其实大家的机器呢都在跌打不要觉得这个机器呢现在就是说我出货给你你把它想象成是一个就是这是一台车你回去开十年
这可能是大家现在对这个事打想哎呀你买机器我起码我能用多少时间吧这个事你问任何一个买过非传统机器人的实验室你就问这个机器人它返修的频率大约是多少它每一个机器人公司一年迭代几百所以就是现在呢你还不能把它当做一个静态产品说我就存一万台
它每个月都跌单过几个月它连动力学结构都不一样那你这呼吁大家都不要买了呀不是不要买是不能全押宝真实机器人至少在今天不能全押宝真实机器人就是真实机器人采集数据 OK 因为你押宝这个你呢就得你这个方案不是说不成立它成立的前提有几个一
机器人硬件相对趋于稳定且大规模量产然后呢这个制造成本被全面的平摊第三呢就是你采集的整个的这个流水线和采集成本都通过比如说转移到第三世界现在有人说去马来西亚采
等方式把这个成本和运营规模运营的这个效率都搞得很好实际今天你在中国采这个东西没有大家想的那么便宜很贵啊你刚才说了是所以这个事呢我预判它在未来会成为一个数据采集的很重要的支撑的模式
当且仅当巨深智能实现了大规模商业落地大家愿意砸这么多钱去搞如果你没有出现任何一家能够有 100 亿以上收入的巨深智能机器人企业你绝对不可能一年花几十亿去做数字采集数据采集这不可能的
所以合成数据有没有什么 know how 就合成数据这件事呢就是有几个大家的误区第一个误区呢就是合成数据它的由于物理跟真实世界完全不同
所以不能说完全不同就不完全相同确实因为物理仿真里头都只能用一些数值的手段去近似或者它从公式上就不完全跟真实世界最精确的物理是一致的来近似真实世界的物理现象所以大家就说 simtrial 是不可能的
这件事首先已经被完全证伪了为什么今天的人行机器人的所有的行走跳跃跑步的技能都是通过 sim to real 都是在仿真器里经过大规模强化学习的好所以说 sim to real 这个不 work 的人那么你就要回答为什么语述 sim to real 是 work
那现在为什么大家还说 symmetrial work 呢因为语术人家的 symmetrial 里头它又只有这个本体腿脚跟地面接触它没有视觉它是基于这些运动学动力学的状态量做的 symmetrial 那么你现在有视觉了呀
视觉这个东西你渲染出来的这个画面你看到的东西跟真实世界里不一样嘛加入这个视觉模态你就不能 sim to real 了那么这个话呢其实你仔细的想它也是完全错误的为什么呢因为首先这个
我们的这个小模型阶段就通过一系列物理渲染和物理仿真证明了就是我们证明了像透明碎玻璃片这种东西你完全用合成数据学它该怎么抓在真实世界里都是可以 sim to real 的这个是我们二三年就在全球推出的第一个完全泛化对材质完全泛化的抓取的方法
小模型时代我都可以把视觉的这个 simtorial gap 关上到大模型 VLA 时代这个事情就变得更加的确信了为什么呢因为 VLA 它的基础是 VLMVLM 的训练数据可不只有真实数据它有大量的动画数据电影数据那些里头都是这个真假混杂的一个能看懂
真实世界的 VLM 他看唐老鸭米老鼠他就看不懂那个剧情嘛看得懂对啊那所以说现在我的操作数据是用物理渲染出来的他跟真实世界让你一眼看到这东西应该不是用相机实拍的它是物理渲染出来的但那个过程它的抓放过程都是对的但你说 VLM 看不懂吗
这个差距总比米老鼠唐老鸭和真人世界的差距小了所以视觉的 gap 对于 VRM 基于 VRM 的 VRA 来说更不是一个 gap 它有很强的就是说纹理不同光照不同那没关系我理解的是背后的本质
他把因果关系搞通就可以了对他把背后就是怎么操作这个物体的可能产生的这些动力学是什么就是物理过程是什么搞清楚他的那个纹理材质那些东西对 VLM 来说他对基于 VLM 图文大模型的 VLA 来说他其实不是一个他不能迁移的东西因为在大模型时代这个 visual gap 更不是 gap 无非呢就是物理 gap
为什么人型机器人走路它这个问题现在能解的比较好的就是因为它踏地把地变成钢的地变成沙子什么的它相对来说这个物理过程它就是脚跟地踏地受一个支持力这样的一个过程
但是呢操作里头呢它就涉及到比如说你要穿针引线啊你要那个叠衣服啊抓软的东西啊抓碎的东西啊有各种各样的东西那么这里头呢有些物理过程呢目前是仿真做的 gap 是不大的有些呢还存在着一定 gap
那么我们的看法就是 move, pick and place 这三件事里头实际上我们可以把这个 gap 做的足够小
用现有的仿真技术就可以做到所以我们就展示了从抓取到灵巧手的操作再到柔性物体 叠衣服 挂衣服我们都用物理合成仿真的方式产生了大量的合成数据在真实世界都可以 transfer 那么你说我现在做不了的事我也承认我有些事做不了比如说系鞋带
这个仿真过程现在由于它是一个多点多面的柔性的可压缩的这样的一个接触确实仿不了很真 sim to real 不了但它对于我来说是我能够解就我用我现有技术形成的一个解决方案里头它是不需要的毕竟我做商超我不需要解决解鞋带是对吧你要说
断裂我们也有工作去做纸的撕裂剪纸对吧那做的好不好那我就先不剪我作为一个交给快递员的人我不去撕这个什么软糖包我不去解决这个东西裂了怎么办这个也正常所以我觉得首先是从观念上为什么这么多人反对合成数据核心原因就是很简单他要卖机器
他自己用不用呢他也用只不过呢他用的不好他为什么用的不好呢就是这个我们从 visual gap 到 physics gap 到 content gap 里头包括机器人自身的硬件上的一些控制和他的一些模组产生的一些 sim 和 real 之间的 gap
需要一个非常系统的 examination 而且呢把它里头会出现问题的东西全 fix 了你这个 pipeline is simple rule 这个是你的优势对这是我们长期积累出来的当他没做对的时候他会轻易的说你看假的我做了但不 workok 那你们有一些出货量了以后这个数据回流能让你更 work 吗当然能
这个就是我讲的这有数据非论形成吗有啊就是你不论是用合成数据还是在用少浮移少量的真实摇操数据你可能能达到 98 对吧的成功率那还有两个点怎么办实际上呢就是用真实世界回流的这部分数据再结合强化学习去这个 fix 你出现的这些 error 哦
我理解现在你们的产品是第一代产品那实现在现有的一些场景那以后呢以后你们有什么几步走战略最终走向一个 home robot 呢对首先呢我觉得银河通用它的名字就注定了我们的 mission 就是最终实现通用但是实现通用的这个过程需要沿途下蛋而且呢需要在硬件和技能上一步一个脚印
otherwise 我们就变成了一个学术研究机构或者我们变成了一个无法落地的无法规模化的一个产值很有限的一个小公司大模型说智能级产品你们这个行业是什么级产品然后引土下单我觉得从我的角度机器人有不同的产品那么就是卖科研平台肯定是一种产品
就是把你的机器人它没有什么功能但我卖给你作为开发它绝对是一种产品但是我认为现阶段人型机器人健康发展就是的关键就是这个生产立体产品
生产力及产品就你的机器人能够干活有生产力它就是产品就它 combine 智能水平和硬件水平对它一定要能形成生产力形成解决方案但它不一定是完整解决方案
因为为什么呢在现在阶段也可以存在把一个比如一个屋子里的活机器人能做的画一个区机器人不能做的画一个区人来都抵所以说完整的解决方案是未必的虽然我们现在的 24 小时药店是想提供一个完整解决方案但更难我们也可以退一步就是人机配合
所以我讲生产力是一个方案什么叫生产力呢就是你在单位时间你干的活必须得跟人相当如果你比人慢太多或者你干的不够人久你就不是优质生产力引入你只让效率下降了那你是落后生产力今天你产生的优质的新制的生产力是这个行业真正的产品
如果你没有产生生产力我觉得呢它不是巨神智能这个时代真正的产品我们一开始就说这个行业这两天火你有遇到见过什么乱象我觉得其实现在最大的一个问题呢就是什么人能有生产生出生产力什么人没有而只是讲故事这里头呢是最乱的这个源自美国
美国对创新有更强的一个容忍所以说你不挣钱没关系你没有产品没关系你只还能卖掉大家觉得这个东西都是可接受的所以说其实巨深现在最多泡沫讲故事讲得最大的
其实就是美国的一众巨深智能公司那么我只能说呢对 Figure 的估值有正反两个逻辑第一个逻辑就是这个人型机器人像 Figure 这样的公司如果他做的是真的的话就他真的能在产线上开始干活这个公司的机器人
对应的这个公司未来的长期价值应该在数万亿美元所以他今天比如说才这个 300 亿 400 亿美元的估值他还有 100 倍的增长空间这是正逻辑法逻辑是什么呢就是 figure 到底有没有干活能力他没有干活能力他现在只出货了这个 10 台还是 20 台还没有
变成一个常态化的运营干的活还不是靠他 claim 的方法干那么他到底值不值几百亿美金对吧那么这一点就是国外起了一些不好的作用就是说实际没有干活能力但是把自己说的是完全拥有干活能力
那么国内呢其实呢就是大家由于看到国外也是这么讲的所以说呢也是经常会去讲就是说去夸大就是自己的硬件和软件的能力这一点呢就是我觉得是银河在一系列场合告诉大家这个事应该怎么做就第一件事公开展示
对吧 志愿大会几万个观众围着你看 现场看而且呢不允许摇操现在有人胆子特别大这种场合是摇操的当然这个事呢在美国它是常态化就是他告诉你我就是摇操的我在那蹲那个拿个吸尘器蹲我就是摇操的只不过我那个人在后面藏着呢我也不告诉你我这是主动的那国内的现在有些人胆子特别大他现在敢告诉别人
不告诉别人我是要操但实际是要操但是如果你是完全无要操的你在公众面前展示这应该是第一关第二关就是你真的进了厂子你的那个厂子到底每天干多少那个量的活有没有长期的一个报告是可以让投资人包括公众了解的
像我们开的店一天几百单都是得到平台方认证的常态化运营了那这些事呢都是真正你在不在应用有没有生产力的一个实证如果是 video 里头讲的包括签了一些战略协议说已经怎么着怎么着了这个现在越来越没有说服力了你看自动驾驶领域有 vmall 和特斯拉一直有路线之争啊那你觉得七旋领域有这种吗
你们是想特撒路线还是微博路线我觉得这里头肯定有路线之争而且是长期的有些公司的基因就是真实数据基因他对合成数据他没有自建合成数据的管线他长期就是短板大家也不要觉得这个事不可思议怎么可能呢你问问今天自动驾驶公司里头这个合成仿真平台做的好的有几个公司
有谁啊我只能说你看比如国外的 NVIDIA 他们就发布了基于自己 NERV 的全套车载的这个仿真的环境仿真渲染的这样的平台有一些车厂他对仿真这个事情是很重视的但是呢我因为我不是自动驾驶这个行业的我只能说我听说的一些中小厂基本内部的合成仿真管线都如同儿戏
就是研发做了一些 POC 以后产品就真正的落地团队都不用这个事对于巨深也是相同的就是要把整个的仿真这套数据管线完全搭起来进入一个高效运营的话是要投入不小的成本的所以现在有些公司说我们完全不做那么它长期以后这个可能也是它的弱项
你觉得巨神智能这两年融了这么多的钱未来五年十年会发生什么样子呀就你看到的未来的世界是什么样子五年中国和美国的我们这些同行一定要有万台以上的应用头部一定得有万台至少是当年有一万台这样规模的自主机器人的应用
如果五年都做不到这个这个行业呢很有可能像工业视觉一样讲的是刚开始他们没我们胆子那么大讲几百亿的故事最后呢发现只有几亿的这个营收小几亿的营收这个行业靠胆子大如果五年我们做不到一万台那么基本上呢就是这件事情时间周期就会
大大拉长了而且呢受到就是信心啊包括技术这个周期的一些这个影响大家也可能会对这个事情失去了热情所以我觉得为什么银河现在在这件事情里头非常持一个一定要生产力因为五年如果我们都不能形成万台机的规模化生产力我们这里又被正伪了
泡沫全是泡沫对然后呢这件事就可能会被搁置但实际上今天我们看的这个事对中国来说是非常重要的是啊为什么呢因为中国的老龄化少子化使得我们每一个五年都意味着我们的劳动率可用的劳动力成了一个零点零点几啊啊十年以后二十年以后我们的劳动力可能不到今天的一半嗯
但我们的老龄人口呢又是比今年多很多在这种情况下如果我们不快速的推动这个人型机器人的生产力发展的话中国的制造业都会出现极大的劳动力缺口服务业都是一样你像日本
作为一个原先是不接纳非日本国籍的人的一个非移民国家到现在基本上因为劳动力缺口太大了什么东西都照单全收就这样的劳动力缺口还是特别大我去日本考察 日本跟我说现在年轻人一毕业所有人都有工作而且福利都特别好只要你要让他加班直接撤
直接就辞职立马能找到别的工作什么行业都缺人而且跟我说的是所有年龄段都缺人这就是日本进入深度老龄化以后它的一个社会现状但中国日本它的人口的基数周围这些国家中国 越南 柬埔寨补一补他们这个社会还处在一个可以运行的阶段中国咋办
如果我们缺一亿劳动力世界上谁给我们补一亿劳动力所以这个事呢就我能看到的是银河的责任就这件事千万不能做成泡沫
一旦他被证伪的话呢就是或者被人们认为不及预期的话呢可能会影响到整个行业是走入这个就是冰河时代然后呢但是呢对中国后面的这个发展来说呢等于说就无法提出一条解决路线了那么我们可以预见到未来的老龄化社会里头中国会面对变化
面临比日本更加困难的这个窘境所以这个事呢是我们现在特别强调的不要去搞一些砸我们行业招牌的事情了比如承诺别人你踩了就能训出来你建厂你就能够有技能我卖机器人你来踩你踩你来训明天他就是你的员工这些模式是很可怕的
这些模式是在砸这个行业的饭碗如果有人这么砸的话呢我是担心就是这个行业会不会出现一些负面的比较负面的消息影响到整个我们这种想做事的有目标感的真的是有责任的头部的企业的这样的一个状况通用机器人什么时候能实践呢多少年以后
这个问题就很简单不要把它想得太快因为这个通用呢到底是通用到什么程度比如说 home robothome robot 也它到底是在家里头以娱乐为主
还是他就是把扫地机器人做不了的从冰箱里拿饮料从柜子里拿饮料这些问题给做了还是说他能跪下来去给你洗马桶能给你掏下水道
那这也是完全不一样的对吧我只能说 Home Robot 它会有一个我会认为一开始是轻干活可能重陪伴和娱乐再慢慢的到这个干越来越多的活的过程这个事呢这个商业模式呢目前已经有一些雏形了可能在未来的三到五年出现小批量
有一些 pilot 的这些产品我最后一个问题好去年不是你跟黄仁勋坐在一起吗你们聊了啥其实呢为什么黄仁勋这个就是邀请我呢
我理解也是因为就是黄仁勋是 NVIDIA 是全球除了银河通用以外非常占合成数据的这样的一个技术路线的大厂他们的道理就更简单就是他觉得有卡就应该解决一切问题如果除了卡还需要别的问题那么他就没那么快推动
那么合成数据就是拿 GPU 做渲染做仿真然后再用更高级的 GPU 做运算所以说这是 NVIDIA 它很认同如果能把合成数据这个事情走通了那么靠 NVIDIA 就能撑起巨神智能的半边天那么所以黄仁勋邀请我的也是想听
我们用合成数据做的怎么样我也给他打开那个我的手机把我们完全用合成数据做的一系列的这个工作做到了什么水平给他进行展示在此之前呢 NVIDIA 的就是机器人的副总裁包括他们的一些专员他儿子
也都多次来银河同友参观考察对都已经亲眼见过了才把我叫去跟黄仁鑫一起吃饭坐在旁边是安排的吗是他们安排的就是
这一点也体现了 NVIDIA 对银河通用在全世界范围内包括在中国范围内我们的技术地位的他们的一个理解你有对话吗有啊我们俩就坐旁边黄仁勋
除了这些技术的事黄尘钧是一个非常 nice 的人他呢就是对美食他也能吃一点辣的我原来以为他吃不了辣的我
我看他那个那个叫什么那个水煮肉片我看他吃的也挺挺好的啊而且呢呃看表演呢他也非常的就是他这个人是一个这么大的大佬但是呢他你比如说那些变脸的演员他都很配合我我不相信这是他第一次看
但是呢他变脸的演员的表演他给了非常热情的反馈而且呢他本人实话实说呢也是老模当场呢除了我们这一桌以外呢他所有桌都挨个过去敬了酒
然后还拍了照就是这个我也是很敬佩黄仁勋一个企业都做到这么大了他作为 CEO 还能够这么的亲和最后 9 块块答一个全球范围内你最喜欢的食物如果说非常实在的我作为一个北京人我的这个北京人的胃已经觉醒了以后我觉得我最喜欢的就是这个瘦羊肉和烤鸭一个全球范围内你最喜欢的地点
如果是度假的话我喜欢去欧洲我觉得文化的这种浓度让我很强的沉浸感一个少有人知道但是必须了解的知识点我们对中枢控制神经的理解
整个人型机器人领域呢对这种仿生仿人类的中枢运动控制神经的理解呢还是很出级的很多知识呢跟我们的这个第一反应呢都是相反的比如说呢小脑其实比大脑有更多的神经元
比如说呢其实动作的这个生成是靠大脑小脑呢做的是一系列的控制我只能说呢在人类的这种巨身操作全身控制上呢
人类的仿生的就是仿人类的啊人类的这个中枢控制神经里头还有非常非常多的秘密是我们现在呢不论是用 VLA 也好啊还是用大模型套小模型等等啊都目前呢没有完全方法达到所以我整体对巨神智能的看法呢它还是有未来啊
几十年可以不断探索的一个空间的而不是一两年我们讲出现了它的一个大成熟大圆满时刻是不可能所以大家不要预期过高但是呢过快就是这我要补一点人型机器人它呢虽然说对我们叫 LM 这种 LM 它一步就达到了很通用啊
只不过他可能不够精确他有些说的东西不一定是对的但是 LLM 他可能还不是那么纯粹的生产力你说今天包括 OpenAI 在内他的这个 LLM 他到底造成了就是这个他的整个产值到底有多大就是他的产生的价值到底有多大
这个事其实至少我说国内的一些头部的非大厂的大模型厂商他一年的收入其实是不高的但是人型机器人的生产力你不要说我们不如他通用但我能干一个活这个人全年的工资就是我产生的对应的价值我按一个人 20 万一年的这样的一个薪水
那么如果我干一万个人的活二十万一年实际上是他一班倒其实你可能还要几班倒你就能迅速的产生接近一百亿的这样的一个规模经济价值
所以说我们现在的人性机器人大家不要把它说它不通用所以这个东西的经济价值就不高因为它实际上填补的是我们社会的劳动力空缺
他每能干一个人的活他就产生了每年就产生了小几十万的这样的一个经济价值他其实呢是很容易做到非常实在的一个产值的今年的人性机器人我们都有极异的一个这个产值基于所有读过的书推荐两本必读书
第一本我会推荐《时间简史》这是我在初中看的一本书但是我到高中到大学我能再反复的读大自然和物理学背后的规律实在是太奇妙了今天我们也没有穷尽到底物质世界最本源的规律全部都是什么那么
那么我觉得在不断的读这本书去理解这些时空背后的这个规律的时候呢我萌生了对就是事物发展规律本质探寻的这样的一种思维方式
所以我们今天讲的很多词包括商业力讲我们用第一性原理来思考第一性原理哪来呢在物理学里头这个叫 ab initio computation 第一性原理计算
所以学好物理学是能够理解物理学最本质的思维是能够让一个人的思维水平和思考能力有大幅提升的一个方式但学好物理学呢光靠时间减时不够那么时间减时只是一本让人很迷人的
一个物理学的科普甚至他又没有讲的那么清楚只是让你理解到了他是多么的玄妙的这样的一本书第二本书也是我小学的时候最爱看的一本书就是《三国演义》
这本书我也是翻来覆去读了好多遍当然了今天我们看三国演义的文学水平并没有那么高但之所以我读了这么多遍的话我会觉得就是这个策略在一个群雄纷乱的乱世里头
究竟应该怎么样去拥有一个策略那么不同的这些人他们背后他的性格他做事的风格他带团队的风格他的思维方式跟他后面
这个人这个国家这个势力发展的结局趋势之间是怎么一个关系看到这些聪明的人在这样的乱世当中去经营自己的势力做了一些正确的错误的事情今天我们该怎么反思怎么去应对竞争我们想当谁三国里我肯定是最佩服我从人的就是这种
思维和看事情的角度我肯定是最佩服曹操的但是从这个理想主义一定要为了一个梦想做到底我是最佩服诸葛亮的你现在跟向谁我们要维持理想主义的光辉啊
但是解决问题的手段要向曹操一边要结合一下要结合一下他们各自有各自的一些不完美的地方像曹操坐着坐着他的初心到底为的是不是汉室其实他的初心最后就有所变化了但是他仍然是非常克制的他宁可当周文王他也不会在他活着的时候篡位
诸葛亮最大的问题就是在他的这个理想主义坚持到底了但是他能够调度的资源和他能够改变的东西实在是太有限了应该如果能够像曹操一样的在战略上有更好的布局能够更早的把资源拢在手里同时像诸葛亮一样的有
维持自己的本心刘备不在了他也绝对不会去觊觎刘善的这个位置那这两点结合起来更 match 我们今天人行机器人的做这件事的一个梦想就这个事最终一定是为人类带来福音的嗯
这个事做成了以后呢它一定是一个国家级别的这样的一个支柱它是奉献给民族奉献给世界的
这个是我为什么讲就是曹操和这个诸葛亮这两个人是缺一不可的因为像生产力这种事情如果他最终是纯纯的变成一个跟我们竞争工作岗位把大家的工作给抢了的话呢这个事情是做不长久的而且呢全世界都要反对的所以呢
我们的初心是服务人民即使这个事做大了以后最后也是要保证社会能够健康的发展王老师听过博客没有我其实听过一点点但因为我实在是时间太有限了基本上只听过一些比较精彩的一些小的片段没有从头到尾听过比较长的像你们现在这么忙科研的时间够用吗
其实我觉得这个反而是我们要做的就是抓住真正重要的技术而不做一些小发明小创造或者是明知道它不 work 明知道它不对
去把它包装成一个对的东西当你把你所有的精力就关注到真正要突破的一两件事情的时候呢反而是聚焦的如果你是一个纯学者你想的就是今年你要发几十篇 CVPR 几十篇这个 SCCV 反而呢你永远觉得你时间是不够的
好了这期节目就是这样如果你喜欢我的节目欢迎前往小宇宙苹果 podcast 腾讯新闻喜马拉雅 QQ 音乐订阅张小俊商业访谈录如果你有其他想邀请的嘉宾想听的内容或者你有任何想探讨的话题都欢迎各位听众朋友们在评论区里留言那我们下集再见拜拜
we send the seeds out in the east