元旦模型其實很多時候一上來它的數據格式應該長什麼樣子大家都清楚了
什么样的数据对模型有用大家心里有数所以原模型它上来就是直接是看谁的钱多烧钱拼资源但是资源智能的话其实这个阶段是拼认知你自己内部要建立什么数据什么样的数据对模型有用什么样的模型对场景有用最后的话你采的数据一定是正常一个数据飞轮然后撬动模型飞轮模型飞轮在撬动场景飞轮然后它得能够转起来
好 你現在比如說我可以標很多很多數據現在有一個問題就是大家的防標數據那我就問一個問題這些數據有用嗎你怎麼證明它有用我們像去七天七星一樣我們是有這樣的一個大的目標我們帶領這樣的一個團隊當這個團隊有各種各樣的問題中間可能會有各種的妖怪但我們為什麼說心態還能夠形象這個沒事因為我們有很強的實名感
很清晰的目标这目标肢写下来有非常清晰的步骤以及会清晰的认识到这步骤上有什么艰难险阻所以说这是能心平静
大家好,欢迎来到 RaceSparkRaceSpark 是一档记录那些推动 AI 与物理世界融合的学者和创业者故事的访谈类节目我们今天访谈的嘉宾是穷筹智能的创始人兼 CEO 上海交通大学计算机科学与工程系教授卢策武老师卢老师也是国内最早一批用 AI 来做机器人学习的代表学者
那这次我非常荣幸的邀请到了穷车智能的投资人 Tim 作为 RaySpark 的嘉宾主持来给大家一起揭秘独策五和他的穷车智能
很高兴邀请到卢老师和 Tim 来我们这个节目来做一次交流和分享那我来介绍一下两位的这个关系吧就是 Tim 呢是卢老师的这个创业公司穷彻的投资人那对卢老师的很多的这个发展和穷彻的发展也比较了解那我们这次邀请 Tim 来做这个 co-host 那接下来可以交给 Tim 来展开这次的访谈
好的那一开始做个简单自我介绍啊我是听在啊投资机构啊任职大概差不多有快 9 年的时间
然后我其实本科和研究生学的都是工程专业然后研究生是在香港科技大学读的机械工程那毕业之后开始是在产业界里做全球供应链的采购工程师那接下来后来也是去到外资银行读了 MBA 金融然后再进入投资圈主要看科技领域那么机器人行业是我贯穿整个投资生涯的一个主要的方向
之前也有投资一些 AGV 服务机器人机械币这一波巨神智能很高兴也是能够来参加主持这一期的节目大家好我是卢策武我是长期研究从事巨神智能研究
然后的话我们应该是在去年应该是一年前成立了穷测智能是利于做聚酸智能大脑然后同时我也是一个很长时间的聚酸智能的研究者
应该贯穿了我从博士后甚至早期的博士期间然后就一直都是在这方面的做很长时间的科研然后同时也是在上海中文大学任教授国导好 谢谢 Tim 我又讲这么多好的 很荣幸请到卢老师因为平时你也很低调很少介绍这样的采访和公开对外的宣传
您其实是 2002 年读的本科然后我是 2003 年我们其实差不多大都是这个 84 85 后啊但是坊间就是我觉得很多人对您都有误传总说哎你是个老教授所以我觉得都是属于不太了解实际情况的人啊不过您确实年纪轻轻就取得了很多人看起来是老教授才能取得的一些非常好的成绩所以也希望今天能够很好地为大家解读您取得的这些成绩啊
那您一开始本科学的是这个通信与信息系统后来去了中科院读电磁场和微波技术的硕士然后博士是在香港中文大学学习计算机科学与工程是不是从博士这段时间才真正意义上是跟现在的巨神智能工作产生了关联对的 是 确实的
是这么看的哈就是那个其实巨神智能它的本质也是人工智能所以说它这些早期的人工智能的训练其实对后面的巨神智能也带来非常大的帮助然后我在网上延展一点就更怎么说吧就是说人工智能它也是会积一种信息学科它其实它是说信息学科演变过来之前
很多的这种信息学科的训练让我得到了非常好的比如说非常好的这种全局观和科学的思维你要知道那些通信电视厂它其实是非常严密的思维然后的话也是非常好的这样的一个整体的理论到工程的这种什么
怎么说理论到工程这种这种这种这种训练你看起来有些事情似乎可能没关系但他你你回过头来看他都会对你会产生潜移默化的那种支撑
明白 明白然后您后来 2013 年去到香港科技大学做博士后的研究当然很荣幸我们就成为了香港科技大学的校友我是 2007 到 2009 在港科大读硕士不过我们就把你错开了这段时间那您博士后在港科大研究的是什么
其实那时候研究的已经开始跟巨声智能有慢慢相关了就是当时候我自制力在做三维视觉但是我是觉得说当时是从图像世界我一直都想走向物理世界那我想到的第一个就是三维视觉
所以你看我的论文有些是已经是在研究三维世界的世界那可能发表之后最后他的发表的时间可能是在离开像科大后但是你可以查看这个时间有很多的工作是关于三维世界的理解明白明白那在那之后其实你
就到斯坦福大学 AI 实验室从事博士后的研究了然后那个时候你就在这个 Liu NidasJay Gubas 还有李飞飞的组里面了对吧
是的然后之前雷锋王我看也做了一个专题的文章就是专门对你们斯坦福斯坦福的这个机器视觉的这个还有这个仿真的流派做了一个当时背景的故事的梳理然后那个故事呢对你们当时的学习生活状态介绍的还非常的立体啊您觉得那个时候有没有一些有意思的事情和体会可以跟我们再分享的
其实我在那边找首先我先矩阵一点说什么仿真什么流派其实我觉得没有流派
为什么呢那时候大家都是说要做居然智能其实在我去的时候呢大家已经是摩擦擦掌想要做居然智能因为这个东西是很显然是下一步嘛这个事情是显然那至于刘派没有只是说大家觉得可能什么所以试一试大家都在很前期的这种思考还有那种尝试那时候没有什么说一定就怎么样只要能成就行没有什么刘派就说然后呢有趣的故事我觉得
其实非常多了我觉得觉得就是我们那段时候是我觉得那是个很有趣的一个时间点就是觉得你觉得大家都觉得这个东西是个未来
然后就一群人一群非常但是一群年轻人聚到一起然后就海阔天空的去想去做实验但当时实验肯定很多时候是不 work 的然后的话呢当时其实就超出我们这个小群体所有人都在谈什么无人驾驶谈什么智能医疗大概是那个时间点所以说就是你可能会发现走出这个小圈子呃待着不知道你在干嘛
而且也觉得这东西太超前了也没人看也不是说不看好吧至少说是看不懂吧然后我记得
我们都回国就在 Stanford 那段时间你很多时候就是说觉得说发一个跟机器人有相关的论文都有时候都挺难做的所以 robot AI 相关的都挺难做的所以说很有意思的是那段时间就一群人在那里
去非常有激情的觉得但是就认好认准这是未来然后再一起去去思考就像早期的我有点像他就是早期那个那个早期的那些哲学思考一样的就是然后还真的去动手做了然后包括我当时也是找到了那个
黄世权他是机械系的他也是想做这件事情然后我们就开始做了非常多的尝试那种感觉什么就是说可能外面人不知道你在干嘛但是你自己干得很开心然后也很多的畅想然后我们的一群人在那里畅想其实今天已经有部分实现了相信将来也会越来越多的能够实现可以听
对我相信那段在斯坦福的时光确实是你这个生活包括职业生涯中非常浪漫的一段时光在早期启蒙一些想法和展望一些愿景的时候是一个很重要的时间点
所以离开 Stanford 之后呢你就在交大一直任教然后一边任教跟王世权就一起创立了飞机科技因为我一直这么多年也从事机器人领域的投资当时我在看协作机械币的时候也是特别留意到你们家的这个利控技术和能力
力控能力可以拓宽普通写作品的一些应用的领域然后这段飞机的经历对于您在出发创立穷策有哪些方面的帮助呢那是非常大了因为其实你也可能知道从科研到产业化它其实是有非常多的对一个人的素质是有非常多的要求的
那么这事情其实我很多时候觉得它不是书本看得到的就是你想有一个非常好的原始的 ID 到你科研有所突破到这一段还可能是教授可以做的但到后面的话你要变成一个非常扎实有效的产品
就开始已经是要非常强的产品化思维接着你还要让这个产品产生真正价值做直接的大家愿意买你的然后产生一个价值而且价值是一种跳跃式的价值而不是那种已经是存量价值是个增量价值就是就决绝从无到有的这样的增量那这种事情呢其实就会三叶思维然后这个时候呢其实这两个已经是需要有一定的
那个企业家能力了或者科创家能力然后再往上的话当然还有那个管理了其实管理到每个阶段
他都有非常复杂的问题要解决虽然说之前也看了一些书但是其实你后面发现自己动手做的德廷·罕动手做的时候就是从原始科研到最终的价值这个闭环
这是非常多的环节你自己去实践之后你会很多时候你会会他的成长认知的迭代
然后会更加的就是这是一个脱胎放骨的一个过程这个东西其实我也很难说用语言描述但我也是看过一些书然后这些书你再反头来看其实你没有自己去也不是说那些书写的不对他写的也对的但你自己没有做过
你对他写的很多东西都是会误解的理解都是不全面的当你真的做过反抗联书的时候你会觉得他想说的这个意思我理解了所以现在来说在做穷策他整个的从科研产品管理到最终的商业落地他整个的每一个阶段的他的节奏他的关键点
它的让这件事情成功的概率会高很多因为一个科创型公司它总是有相似的它就是一个内生的规律就是说不可能它每个公司 case 不一样但是做一个高科技公司或者说 AI 驱动型的公司它总是会有些内生的相似性以及每个阶段的它的该处理问题的
关键点和主要矛盾那么有了这个事情的话有了这样的经验的话它其实
我就会就像打游戏你的地图是全黑的我基本是现在感觉是开了该有的怪打的怪还是有打的怪但是好像地图只要在很长一段时间都是对我来说都是大概知道在什么地方会有什么怪
明白了所以其实飞戏这段创业经历对于你来说就是从科研走向产业走向商业化落地然后你通过理论还有实践其实慢慢自己就把握到了一些脉络并且形成了自己的一套体系了对对是的是的而且这里面毕竟是八年然后这八年来它肯定是有很多的成功的地方也有很多的曲折的地方
那么这些事情的话既有经验又有教训这个只能是用
用这个时间和成本的代价就是这种来获取这种的内容经验对确实我们从实际结果也看到说从去年穷车也产生了一些商业化收入这在国内巨深智能领域的同行中是非常领先的因为大多数公司现在还没什么收入那我们就说一下穷车本身那公司怎么想到取名叫穷车的
这个很有意思的这个事情是这样子的这些是一种我们创始人团队的一个追求就是两件事情就是技术科学科学技术前沿没有止境就是穷就是无限前沿就是穷然后
第二,策是要 fundamental,要有彻底,我怎么说 fundamental 就是要非常的有深刻,同时另一个意义就是要落实,落地,最落地,你可以这么说顶天立地,顶天立地,ok。
我当时一看穷,我说什么陡坡苍穹,这个非常高瞻远瞩。那要不要讲一下你历史上比较难受或者境遇不好的时候,你怎么走出来?我先说我的感受,这个感受其实是你得靠时间磨练出来,就是我先说难受这件事情,
如果你要是做一个创业者那么你如果是一开始你天天都有难受因为就无穷无尽的问题就是那这时候你一旦这个心境磨练到一种程度的时候他就会很多时候会心如止水的去解决问题因为就是说你的内心的稳定性是靠磨练出来的其实我们遇到一些问题我们关键是解决问题
难受是没用的难受只会让这件事情的解决的效率和它的解决的效率打折而且难受这个事情只会是让这件事情的它可能会有时候不理性不理智
那么其实呢在这个过程中呢它是最后的话呢就是会这种心会心态的平静心如止水的去就心如止水为什么很重要因为它能够看透就是你只有水平静下来你能看到那个底层的本质
就是有时候你会如果你的心是不平静你可能会被干扰可能会违背本质那你做错了决策你可能是被受情绪控制的你可能是不达本质的那这个事情是怎么做到呢我不敢说我现在就能做到说什么事情都不难受但是接受事情的那个承受程度和这个
和怎么说周期会越来越短我觉得这是一个时间这个东西我没办法读书我觉得这种修行或者说是创业这种修行换句话说就是说你随着你的时间的推移你确实是会慢慢追这种所谓你面到的困难挑战的感受这种会以一种更加平静的心态去解决问题
因为你平静你看问题就会更加本质你会少一点情绪会让你的效率会更高但其实这个事情这个道理我很早就懂
但是你懂完道理之后就是要知行合一王阳明讲的知行合一就是说你知道了其实你的自己的修为不到你很难去做到但是其实我能明显感觉到这八年来是越来越一个曲线是越来越往收敛但是现在还做得不说是完美但是它确实是有这种趋势过去所以你问到我难受的事情是
我觉得就是每天都在出现问题不只是技术的非技术的都是在出现问题解决问题所以我其实要挤要列举有一些困难存在的困难的问题太多了但是慢慢的话你会不会觉得这是一个困难而是说一道题来了把题怎么解就像我们做高考一样好一道题来了我就好我怎么解最优的解法是什么样子的
而不是一来先难受一下对对对对这点我觉得我个人也有体会就是年轻的时候可能会
心态更加的焦躁更加的浮那随着阅历增多然后你慢慢知道自己想要什么目标明确心中有数你知道朝什么方向走的时候其实你心里是很稳定旁边有很多杂音噪音环境的干扰但这个时候一个稳定的心态能支撑你去沉下心来专注做好自己觉得对的事情这个也是
我这里要补充一点就是说这种心态配合上很强的使命感它就是一个非常好的这两个药在一起它是一个非常的组合如果你要说有一个很强的一个心态很好的一个心态相当于一个非常好的底盘但是你要知道你的方向
你将来总想就是带领这家公司始向何求就是你有非常强的使命感那么其实这是一个项目像你为什么内心能够稳定啊
它其实你有很强的使命感你知道你的目标在哪里那你的目标会肢解出你的每个步骤在哪里你知道这个步骤必然就是你的取经会或者说我们像去西天取经一样我们是有这样的一个大的目标我们带领这样的一个团队当这个团队有各种各样的问题中间可能会有各种的妖怪但我们为什么说心态还能够这个也是因为我们有很强的使命感
很清晰的目标这目标肢写下来有非常清晰的步骤以及会清晰的认识到这步骤上有什么艰难险阻所以说这是能心平静如果我会看到说很多人就是我会看到如果有些公司它历史上他们可能历史上他们就是说没有一个明晰的目标那么它就会永远属于一种摇摆混乱的状态
那时候的话这个事情就挺难办的所以说从配比的角度讲你会有慢慢成熟收敛平静的内心加上一个强实敏感清晰的路线
和对于未来困难的预见性这两个要配在一起我相信是就能走得更远不一定会走得最快但是是能走得最远的
我觉得有一些偏见的认知就认为我们主要做的是仿真数据在这里要不要简单澄清一下我们都用一些什么类型的数据然后什么时候用什么样的数据好问题我们看问题应该从他的问题的问题出发我们需要什么的数据而不是说我要什么样的数据
对吧那么机身智能需要什么样数据呢这个事情是随着机身智能的信息论就是它机身智能需要的信息出发接下来它的成本问题这个你要的那样信息它的成本是否能够承担所以我们都是朝着两个坐标系去考虑我们的数据布局就是它提供的信息量和它的成本和它的可规模化我们说白了可规模化
那么在这样的一个情况下呢是这才是说你要去考虑你的数据而不是说你就拍个脑袋我说这样子所以在我们的整个的体系下面我们是各种数据都是有的
而且这个数据的话我们会考虑数据中之间的相辅相成和数据间的信息量的信息量的这样的一个每一个哪个数据提供了什么样的信息量哪个数据它又带来什么样的不确定性和噪声你是要有一个非常科学的方法去研究它的然后的话它的目标最后的目标都是让这个
效果最好而不是说你认为这个你认为不重要效果好最重要所以说你来看这个问题我们刚才讲我们肯定说仿生数据但仿生数据它带来什么坏处呢它仿生数据有两个一个是它其实最关键是解决数字资产
就是说你仿真了一堆但是你没有数据资产的支撑那你的仿真其实你只是解决一个物体从一个状态 A 到状态 B 那你的物体的数据资产怎么来我们最近也提出了数据基因的方法论去解决这个数据资产问题然后当然是要仿真它的真实度又越来越接近这肯定是但是说我们也清晰地认识到这个建议一旦会涉及到
高强度是持续联系接触的时候那么他就可能是有很大的问题了那么怎么办呢那这时候他必须得上真机数据所以后面的我们还就是推出了一套那个真机数据的采集那么真机数据遇到的问题就不可规模化你要是要操作的话他会遇到一个很困难的问题就是你
你在操作的过程中你会毕竟你得让一个人全职没事来帮你操作这个本来就是成本很高也很难对吧然后你会带着而且要操作还有一定损失因为必须是隔靴搔痒你并不是实际去接触的
那么像这种事情上我们是觉得征集是非常必要的它是各自提炼各自的信息那么接着下来呢那么我们就提出了为此我们提出了一个可以窗戴式的类似外骨骼那种的去采集它就是能够使到你的
收据可规模化因为它是跟机器人是完全对应的然后它是穿在人身上的然后呢就是不影响你工作的是生产伴随式的所以说呢你来看一下就是这个过程我们从更高的层面来看这个问题其实就是看
需要什么信息巨神智能需要什么信息巨神智能需要什么样的啊 sorry 需要什么样的信息然后每一种信息它都会带来什么样的误差然后他们怎么克服之间的误差所以我们会看到的就是说那个仿真
我们提供数字资产之后反正他提供的更多的是世界的运行就是这些大概的运行规则但是说你得到行为他要跟物理世界他毕竟和物理世界他是没有物理世界的真实信息他总是有缺失的这些事就要真机来去普查对当然说还有一块
就是你需要整个的世界的基本常识那么你有可能去看视频包括你也知道我们通过视频分析这种人手操作这样的物体我们也是做得非常的领先那么它是几个是组合在一起就像个火箭一样你要知道它哪一个的信息量哪一个的噪声用前面的信息量刻掉后面的噪声就像提权到最后最好用然后你保证这套数据系统都是
可规模化的就是整个过程的成本都是可规模化的这是才是去然后这套数据系统它肯定是要不停的完善
不停的完善而且这里面你可能会问我那这个比例怎么样几比几比几其实很明确告诉你现在已经不是我们 commercial 拍到最后的靠模型去自己选比例的因为我们会有一个最优化的结果所以这个比例也是由机器自己用去选的虽然我不敢说现在选的是版本对的但是最后要什么的数据
用什么样格式的数据从长远来说不是我们人定的是机器定的是它的 performance 最好定的这是一个从长远但是我慢慢已经在引进这样的一个思想
然后刚才也提到了说公司新推出了一套日常随身携带的这个便捷的外骨骼数据采集设备这个我了解到其实它的价格是挺便宜的然后今年上半年可能也会大规模的去铺设这个你能简单再说一下市面上跟市面上其他的一些这种数据采集设备相比它的简单的特点和优势它对数据采集和分析能有什么迭代吗
我们来分析现在市面上有的各种各样的那个采取设备嗯
各有各的好处但是我们觉得我们当然我们推出东西从我们个人的感觉是它是最优的了这个最优解了当然这个东西各家各家看法我们就讨论来看问题首先我们来看到第一个是摇操作就是摇操机械臂它的我说它的缺点是我们不能忍的地方就是你要去影响人类的生活你看历史上所有的通用智能都是在
影响人类生活的情况下去采数据比如说你每天去发博客每天去做美食评论其实你没想着给云大模型贡献余料你都是顺便你主要是想干你的活你只想你发一个博客然后你就帮着去训练包括无人车也是无人车它也是边开车边采集它不会让一个人脱产的所有让人脱产去标注的它都很难标大
而摇操作这个事情就非常难受他就得人到实验室去摇操作这是其一其二他的弱点就是说他是隔靴搔痒我刚才讲了就是说你毕竟是不是不是说你没有一个没有人没有反馈的这个事情很多时候是没有反馈的然后你其实人都是靠着眼睛和手去协调你比如经常会碰到一个墙
手已经停下来你的机械臂已经停下来但是你手还是停不下来因为你没有感受到这个真实的反馈第二第三的话就是往往它现在还是没办法到真实场景还是实验室里面踩像这些都是一些弊端其实最大的弊端就是还是说你规模化成本太贵了毕竟你要做一次要操作那你就得买一台机器来它得一个人全职在那里踩而且还有一个是不是真实场景
这是一个那么这是他的问题所以我们对比来说我们伴随社的这种外骨骼的方式那么它的一个好处就是说它是怎么说呢第一点它是可规模化的最重要的是说它是伴随人类的生产的就是说你在生产的过程中你穿的这个穿戴式设备我们是做的很轻量级
非常的轻量级然后呢你就拿着它到处去去说你不影响你的工作所以说这个事情的后来成本就大大降低我们从整个社会的运行成本我帮你采数据可以那你别影响我的生产生活啊
或者不能大量影响我们不能说我们这个就完全没影响但它的影响就很小那这个是一个非常的关键的能够我们做数据一定要考虑这个社会就是考虑社会问题考虑经济问题考虑成本问题
所以说为什么创业和做学问不一样的地方就是说这个时候如果是做一个学者那完全考虑就是不考虑社会问题和成本问题那么我们考虑我觉得数据问题本身就是社会与成本的问题和技术问题的平衡点
这是我们有考量的然后还有一个好处就是说它是真实场景它能够在正常里面采地震就非常的便宜对 非常的就是价格会很便宜那现在是我们遇到的苦恼是订单太多了
我们现在是全国各地都给我们下订单而且我们那个多个政府也是希望我们快速把这个数据把它给往上去所以我们其实现在是要面临一个一个
大量大规模量产的问题但这个也是没问题这个也是快速能解决的问题就是马上就能解决问题只是说这一两个月可能是一个比较平静的过年前后这段时间量产是很排得很紧就是在过年前后量产排得很紧然后好那么就是接下来的话呢就是我们还看一种你可能会说动补动补就是
动捕就是说你拿这个操作这个里面跟摇操作是一回事情的为什么呢因为你人不是真实的去接触这个世界因为你如果戴上外骨盒的话其实你的操作就就是人真实操作它的整个反馈是完全是一模一样的但是你动捕呢它其实就是比如说你要抓一个苹果你动捕的话会有一个问题就是你的动捕会有一个问题就是你抓了苹果其实你抓住了
你没有反馈,往往你会穿膜我不知道听您理解穿膜的意思吧就是这个苹果往往会穿膜掉然后一旦是你不做接触还可以一旦做接触这种就是人是没有反馈的然后他只能在这里像那个我们就皇帝的心意皇帝心意的意思就是说你假装在那里做衣服其实你没有真的衣服在那里那么这事情就会非常的难受
那么还有呢就是那个手持式其实手持式我觉得也挺好的手持式是便宜它是非常的也是便宜也是也是便宜也是能现场但它有几个问题一共两个
第一个就是它的它因为外部格式跟这个或者说我们的同构我们是跟机器人在数学上保证反反同构的所以它的迁移是不存在问题的直接迁移过去因为它的机械结构是一模一样的那么 MU 的话呢就是那个手持式的话呢它还得去它还得去那个怎么办呢
手持制的话它还得去回算它的骨骼回算它的机械参数那这样的回算的话它就是很多时候比如说超出了人类的它的机械的操作范围它人类是不知道的因为你别看你带的这样的外骨骼是个限制其实它是个好处是你保证你的数据没有 outlier 一点 outlier 都没有
就是你不会当机但是如果是 MU 那种手持式的话它可能会有一些超出了机器人的性能人不知道觉得做的都很嗨那些数据其实是很 dangerous 的就是它会去损害你的事情当然现在有很多虚拟的方法去滤掉但这个就间接了然后还有就是说它等于说我们数据的质量会更高
更是跟真实的情况是符合的但是还有一点就是其实 IMU 就是那种手持式的操作和数据采集和这种外国式在成本上几乎没什么差别几乎没什么差别这是第二点
第三点的话呢就是他现在还有一个技术问题就是他的定位精度就是因为他没有相连的话他现在都是用 SLAM 和那个还那个贯导就是他都是他那个去定位他的位置这定位现在还不是很准但我觉得这个问题可能
finally 也许能被解决我觉得这是个技术问题我们现在看到美国当红的巨声智能公司派他有大量用到 openx embodiment 数据集那这个是目前全球最大的公开数据集而我们穷彻团队是这个公开数据集非常重要的贡献者我们是不是也会用到这个数据集那么这个开源数据集您觉得对于行业从业者来说价值有多大
因为它是 Google 产业联合各个高校学术机构来做的一个数据集这个科研数据它的价值对于我们的这个行业的从业者来说有多大因为不同的机构不同的公司它其实提供数据集的维度质量格式都有差别的就这个你怎么看啊
我首先讲数据最重要的是质量其实不是数量这点我反复强调但是我估计大家也会认可就是数据的质量确实目前开案的数据有些质量其实就是为了凑个数他觉得数量很多其实质量是不行的所以它最终的影响的是你有多少高质量数据甚至我们做过实验把一些低质量数据扔掉只留高质量数据它的性能反而是增加的
就是你带来数据量的同时也带来噪声带来信息的时候也带来噪声所以这个事情的话就是我们要非常去辩证的看这个问题
明白然后接下来就是你问我这些开源数据有什么用今天开源数据的话肯定是有用的它至少是第一在学术界大家能够跑一下这能试一下情况但从产业来说我们来算笔账有一定的数据规模会更大一定数据规模会更大所以我们为什么一直推动可规模化的能够生产伴随的
但外骨骼是一种方法也许将来会有更多方式但是目前肯定是我们看到的一种方式就是你一定要生产慢水你的数据量能够制裁可能是将来可规模化的增长如果你要是说用摇操做的话它参与人数太少了
所以说从产业的角度讲我们还需要更多的数据那么需要多少的数据呢这里面我们会给一个大概的一个不是说测算我们一个大概的理性的分析就是你看一下无人车你看无人车它的数据无人车它的数据是很需要多少数据无人车它是一个特殊的机器人它只有两个维度的决策等而且相位比较大一它都有那么多数据
所以我们在数据上必须得有一种可规模化的就是伴随式的让全国人民就是让全世界那些那些就是真正的一线生产劳动生活的都能够愿意帮我们踩这是一个大前提你踩了那么多所以我愿意不够而且你会发觉你对标无人车它的空间会更大它的空间会比机器人更小
那么我们还得想尽办法要把这个空间压缩所以说你会看到我们做了非常多的工作像我们要到内供去一个物理世界大模型那也是为了压缩空间你的数据也是两头一头是你又扩大你的数据一头是要让你的解空间又减小这两头你才能做成那我可以很清晰的讲现在的开运的数据一定是
解决不了产业上的那个就是说你真正要变成一个你做别的是个学术 demo 没问题但你真正要是很稳定很鲁棒的在产业可用的那是远远不够的或者是说远远不够的话我们就两条路径我再重复一条让数据用重新的方法从社会经济成本科技的角度联合考虑一套可规模化的
这是一手另一手是从模型层面降低它的复杂度引进更多的先进信息比如像我们在做的操作世界物理模型操作世界模型像这些把它的两头压缩这样才有希望把它真正的产业化
对我觉得确实你的这个回答也体现了你刚才讲的很多你化繁制简的一些想法抓住主要的矛盾点啊这个大思路上的指导方向确实对于工作的开展和实施应该也是会有很大的这个提效的嗯
然后就是现在你怎么看这个这件事情啊就是大厂自己在做数据集它一部分可能开源然后也有产学员一起做的数据集比如说刚刚提到的 Google lead 的这个 openx embodiment 还有就是 meta 牵头做的什么 ego4d 然后现在很多初创公司它自己也在做数据集的采集包括开源
你觉得未来的竞争格局会是怎么样哪一方领先的数据集会脱颖而出或更有优势其实数据集这个问题我这样说数据集是不是不像上个时代大模型就是说谁有钱谁就赢这个事情应该是这样子的或者说有一个阶段它其实是个科研
科研就是说模型研究评估系统和数据必须得一体化就是它不是孤立的好你现在比如说我可以标很多数据现在有一个问题就是大家在狂标数据那我就问一个问题这些数据有用吗你怎么证明它有用对吧那你如果没办法证明它有用那你标那么多之后就是量
和信息就是你的数据量和信息量是两件事情所以我认为在这样的在未来一段阶段可能在未来一段时期我会分成两段时期就是说非收敛期和收敛期就是非收敛期其实拼的是认知就是说认知是需要你是产业
产业价值或者产业评估或者是那个场景就是这种价值评估吧这种价值评估模型数据三个飞轮一起
一起赚然后的话呢你能反馈回来什么的数据是最好的这里面包括它的信息量它的组合它的成本的可控这件事情三个东西你都能够找那个费用号的平衡点然后的话呢
你的你马上的数据的增长能变成模型的增长模型的增长能变成价值的增长或者落地的增长然后反过来去指导这个数据该怎么去 build 还有这个模型应该怎么 build 所以说我应该这样说总结下来是这个事情的话很多人都孤立了看数据说我踩了多少条就是说
这个事情的话这段时间拼的还是认知但是可能也是有一定的资源我觉得像我们头部的创业公司都已经具备了资源了对就是当认知收敛之后
那么我觉得那时候才是拼资源的阶段那是下一个阶段不像是元旦模型元旦模型其实很多时候一上来它的数据格式应该长什么样子大家都清楚了什么样的数据对这个模型有用大家心里有数所以元旦模型它上来就是直接是看谁的钱多烧钱拼资源但是资源智能的话其实这个阶段是拼认知就是你
你自己内部要建立什么数据什么样的数据对这个模型有用什么样的模型对这个场景有用最后的话呢你采的数据一定是呃 建成一个数据飞轮然后撬动模型飞轮模型飞轮在撬动那个那个场景飞轮然后它得能够转起来
能转起来然后你只是一个数据在那里空转那也没用而且那一定是假的那一定是虚假的好要讲那么多所以我这里讲一下我们是内部是建立了数据模型到评估的整套联动体系我们每踩份数据都会证明它是或者它能被证明是有效或者无效然后反过来迭代这个数据
该往哪踩因为有些数据他已经踩到饱和了你已经踩了几千个开门了那其实你别再告诉了你别再踩开门了我告诉你你饱和了不用再踩了我举个例子明白明白对从事实上我们也是看出这个公司其实确实在运作的过程中非常高效和高质量的去思考一些问题
包括就是从这个花钱的角度也非常的高效率而不是在大量烧钱就这个我们也是印象非常深对
就是在公司在利控方面其实之前有非常多的积累其实在这波巨盛公司中穷彻在这方面的积累是最早其实也是算是最多的一批了那我们看到最近你们发布了可规模化的力决数据及采集系统然后精准捕捉记录操作过程中的利益姿态以及运动轨迹等多维数据
然后去用模仿学习的算法通过这些数据进行学习利用扩散模型然后从三维视觉中直接预测全空间的立即位置操作这些比如说在这个削水果蔬菜上面都可以做得很好了
那这个对于我们拓展机器人的操作能力是否会有比较大的想象空间现在是做到一个什么程度方便跟大家分享一下吗是这样的我们先跳出来看这个力的事情就是说我们做这件事情不是说我们说我们认为力很重要而是反过来看巨神智能要完成的任务需要什么我们可以把它分成两类任务
一类就是空间的那种自由移动这个东西跟力没关系所以说这个东西 OK 但是你会发现人类的绝大多数高价值的操作都是带有接触的对吧如果一旦带有接触
力是一个跑不掉的一个维度这个维度不显性的它是跑不掉它会决定了你能不能做还有决定的它完成度怎么样就比如说我举个例子我们最简单的开瓶盖这太简单了这个事情你会跟我说我不用力也能做我慢慢的移动我每毫秒移动也能做但是你会看到不用力的完成度就不高
对就完成度就不高或者说你也能插桌子 OK 没问题没用力你就去检测它轨迹但是你轨迹始终始终是会有偏差你就会插完之后就很多的那种完成度不高但用力的话它完成度就非常的高因为它就是有一个按压力然后就气象力这个跟人的插东西是一样一样的所以说我们讲的一个问题就是说没有力的参与
他很多事情是做不了比如像刮胡子这种然后很多事情它的完成度是达不了因为它是走向另一种模式它是另一种计算模式因为我们走进去之后它非常通用就是为什么向我们去看
开瓶盖我们开一个矿泉水开一个药瓶甚至开一个煤气炉开一个水龙头都是一样的因为它的力的模式是很相似的只要你大概知道它的位置你的力模式会非常地放缓非常地鲁棒
好 我先讲它的重要性那么接下来呢我们其实在历史上把力的这个模型是做了非常长的时间的研究因为我们有这样的大规模的数据然后呢这里面展开时间可能比较多因为如果是你去训练一个力的有带力的模型和不带力的模型它的难度完全差很多的它不是简单的把这个模像模仿学习一样
一个 pattern 一个 pattern 进去就是一个就是说你是一个就是立这个事情你不能按轨迹这种的你输入轨迹输入视觉然后输出轨迹它不是这样子的它是要
去结合它的构建一个力空间模型这个我就不展开了那么第二的话我们当时有事要说我们如何去数据规模化所以我们就提出了这种的手持式的这种方法但是下一步我们把它变成外谷格就是手持加外谷格它整个的力全面的去手持那么这东西就能够采集到大量的那种
其实我们已经涨了非常多的利率数据但是我们是我们发现我们还要再把它上一个量级有通过这种方式第二点那第三点的话你刚问的是有什么进展的是有什么价值是吧
对于拓展机器人操作能力刚才你已经回答了一部分对我觉得非常必要的我们可以想象一件事情你可以想象说没有力之后我们是其实想象东西重要性你想象有还是没有你就纯靠轨迹你行不行其实你可以做这样的一个事情其实你怎么做的实验你用摇操作就纯靠轨迹摇操作
你能干成什么事情你会干的完成度非常糟糕比如说你能不能用摇操作去刮胡子这是不行的你没有立反馈是绝对不行你会把人伤到或者刮不清楚然后你用摇操作比我们现在做的一些几些已经是落地的产品还在农业上的比如说我们帮刮果肉削皮你可以试一试就是你用摇操作削皮削完之后一定是
像狗啃一样的或者你效率非常低你像做手术一样一点一点消这个事情就是你不可能说很快速的去做或者说我们现在有些业务比如开生蚝这农业上非常多你开生蚝你试试看你其实就很难或者说你要操作开钥匙试试看开个门这些事情你可以试一试你要不就是
所以这些东西都不用我去用理论来表达你自己可以试一试就是大家可以试试要不就是说你基本就很难完成要不你就像做手术一样毫米级别的就是每一毫秒都一点一点一点一点的那你可能搞几个小时能搞出来这也许可以就很精细的而且你这个事情还是人手厚我觉得智能达到那种程度还要很长时间所以说
你可以造一些高接触的事情然后用摇操作试试看就只有位置还没有立法会的摇操作其实你就能感受到这个事情没有这个事情它就是少了个维度我打个比方
就是说当时解方程的时候很多人发现是没有解解不出来但是你引进了一个复数对吧这个方程就突然有解了就这个逻辑它有了力之后很多的事情瞬间就能解了这是一个必经之路它是逃不过去的好明白了解然后就是在过去操作的过程中就是我们主要关注的是
呃行业里主要关注的是物体还有场景的种类但现在的趋势我们看到是更多维度的一些信息输入进来联系起来物体和场景有一些因果关系在里面这样可以给到操作更好的逻辑推理指导就比如说物体的一些属性 attribute 和可供性 of affordance
那属性就是比如说某说物体的材质特点等等可供性就是说物体的功能比如说它可不可以吃可不可以烧可不可以剪切等等那这样物体的信息颗粒度就更细了可以赋予机器人更多的这个理解和推理逻辑的能力所以在这一块我们穷车其实现在也走在前列积累了大量的知识库能否介绍一下我们这方面的进展
其实这里面会涉及到一个就是说那个军事的思维链就是一件事情你这么干是为什么人是知道这个思维链如果说他拆解成为各种各样的那个细节的时候然后这里面有几个事情就是属性就是这三个要素
这个是对于这个世界的感知就是我们看那个问题的时候比如说哪怕我们看到一个鞋子你都知道它是个锤子因为我们看到它的 functionality 的可能性然后你看到可供性就是你要当你做一件事情的时候它又会有看到它的可供性然后它有些事情比如说那是一匹刀但是你看到把刀伸锈了你就别想用它了像这件事情的话都是一个 attribute 所以我们在这块做了非常多的工作
可以说我们是最早做这件事情的,如果从有记可查的论文角度讲,做这一块的就是说,但是我说最主要用于机器人的这块,当然 HBY,Fundus 是之前在视觉上要理解,我们用记,这里面还有一个 correl,就是一个推理,你最后有了这些基本的事件理解之后,你怎么推理去完成个事情,对。
那这个事情的话呢这里也可以做广告的 1 月 16 号我们团队的李永璐老师就会专门做一个居身智能的推理这个事情他就会把这些事情整个再一起讲对那这个事情的话呢我们
我们其实是一个完整的一套系统这套系统就是你可以把所有的这些可供性都做了一个很长时间检测这个我们发现了我们现在在很多的情况下是比 GPT 系列的更强的因为它不是当然它的原因它不是专门对巨生来做的这个从数据的表明像从统计数据表明
像是这样子的我们能够去把这些行为的这三要素以及他们之间的推理来去做就比如说你这个事情就把刀一伤锈了我们就不能用了然后这水满了你就别再倒了
这是一个更加的智能的一个情况所以大家都讲说端端端大模型但我觉得这个也是就是都端端肯定是对的然后你用大量的数据对但是这里面要加入 COT 要加入思维链那聚焰智能思维链这一块的话我们从数据到模型到理论都做了非常多的工作可能在
可能在未来一段时间的一些发布上面就会发布这样的一些能力明白我看我们其实这个工作也涵盖了非常多市面上的物体然后把它连成一个英国联系的一些知识库那预计我们是否也会开源一部分来造福一下这个整个从业者会的我觉得每一家创业公司都应该有开放的去共享这个土壤
这突然好了大家都会一起成长了所以就很多的观点我也愿意分享其实我也觉得分享完之后大家对其他的创业公司有所帮助的我们一起共同促进这个行业连这是将来是个非常大非常大的行业就是它是需要非常多的
公司来做所以我觉得我们是比较 winning to 就是会有这样的一个想法是说这个部分开源就是一直其实历史上你会看到历史上你看到我们做了非常多的开源工作无论是数据还是代码对也是本着这种的心态那挺好的我觉得然后我看最近公司也发布了一个叫做 rise 加 cage 的巨声机座模型架构
说是现在测出来的各项指标其实会超过我们很流行使用的这个 diffusion policy 扩散模型是啊是啊是啊泛化性说也会更强啊包括操作物体背景机器人操作空间还有相机的一些视角的变化都可以去泛化然后也可以跨机器人做这个通用模型就是这个它能具体你来描述一下就是你们做的这个工作可能带来的贡献会是在哪些方面
就是说这个放话里面呢它有几个就是说你能够对物体变化然后对背景变化对于镜头变化等等等等都能够很稳定那么这个是一个很关键的一个事情那么其实 diffusion policy 之后呢
就是我们是各项指标都是超过了现在主流的方法而且我们是开源的听得到吗
可以听到,没问题。对,其实这些东西都可以验证的,我相信后面应该会有很多人给这个领域带来很大的一个好处,就是这种派这种所谓的端对端的这种轨迹进去,我们也在做,然后的话呢,
这个事情的话我们更多是研究它的泛化性它的泛化性然后呢因为从学术上我们可以开源一个学术模型但是说中国产那个产品的模型我们虽然不开源但是我们的学术模型已经能够证明从
底层激励上面我们达到了比 deficient policy 以及后市的衍生版本更好而且我们是能够支持 3D 的这点是非常不一样的就是现在支持三维视觉它的就是它的点云成本太高了就是它的计算量太大我们是能完全做好点云支持的对
明白那我们也期待未来产业会很快来大规模用你这个 Rise 加 Cage 的这个巨神机做模型对我觉得有可能未来一段时间会用我们这种思想当然说我们这是因为是学术版本是小妈妈我们自己是内部的
内部是用大的模型但我觉得会这种思想然后去各家公司都有可能有一些公司会把我们的这种思想把它变大然后就把它这种 idea 把它变成一个训诚的大模型明白因为它放画在源头上证明了源头上证明了它的放画性好的希望你这边的思路确实给行业带来更多的一些指导性
然后也可以谈谈您这边穷彻大脑现在进展如何啊因为
大脑是我们非常关注的一个层面然后我也看到说其实我们现在大脑在部署的时候其实非常快了学习单任务其实仅需可能十几次二十几次示范就无需引入这个预训练模型那刚刚也提到了相机视角环境背景这些都可以泛化性特别强所以就是请您介绍一下穷车大脑的进展如何因为我们刚刚对
这个我觉得分为三个层面第一个是基础模型层因为这个是一个非常关键的你的模型我们已经建立起了这样的一个我该讲的就是世界理解还有对于利益混合这样的模型这个其实是一个大脑的一个核心引擎
另外第二个事情就是整个的数据飞轮这是非常关键的就是你的数据其实你用采什么数据格式第一你采取什么数据格式然后这数据格式跟你的大脑必须是连着然后迅速能够证明你的数据有用反过去去指导你的数据的采集
那你往上就是一个通用的模式然后最后是一个易用的接口这个易用的接口就如你所说你只要做简单的示范就能够把事情做了那这个示范的简单程度可能跟你的任务的复杂度有关系我们也不敢说所有的任务只有简单的示范行了那么这里面我们会一个概念就是 lobopon 就是机器人的提示器提示词就是说嗯
这个这个是说如果你要用到比较好的其实这其实可能会有通过语言通过示范通过谣操作也好 whatever 就是人人心声示范也好或者是谣操作也好或者语言好总之就像人的成本去降到最低像人去教人一样就像你师父教徒一样你会你的成本会降到最低那么在这样的一个情况下那么呃那么我们把这一层也是慢慢的去去完成了呃那
那总之说呢其实最关键的点就是说你能够落地到一个项目落地到落地到真实场景中你的速度会够你整个的那个落地速度够快这落地速度够快的意思就是说像人一样比如说你一个新来的人那你也得教他
那这个人够聪明他就学得很快是吧比如说你在一个厨房找一个帮厨这个人够聪明他就学得够快不过说你的或者他天生是一个有智商缺陷他就得教了很久所以说呢其实我们的我们的任务是两点第一就是让他足够聪明第二的话呢就是让他
他的交互足够的 friendly 就是他的交互足够的就是他的沟通成本足够的低因为有些人很聪明那他的沟通成本太高了也不好对这是我们需要去去解决的近期会有发展比较快的一些成果是严谨应该把大脑各个方面层级的进展都简单说了一下
对各方面因为它现在没办法量化但是我只能说因为它现在是缺乏一个标准级就是没办法量化不像元大模型我们刷了
但是我可以大概很清晰的看到了基础的能力够不够聪明另外就是他的数据能力就是他吃数据的能力就是他的学习能力聪明能力和学习能力学习能力获取数据的能力然后接下来是他的沟通能力其实就是你用 AI 你以后的沟通成本够低是吧
沟通成本低也是一个事情然后能够快速的推然后这里面会有两个我讲的成本问题除了这个是这个有两个成本第一就是说你的落地成本低还要是你帮助他落地的人相对来说
不用占用太多的工程师和科学家你知道最可怕的地方是说你落的一个项目你一个要投入大量的工程师和科学家那的带宽公共事业的带宽是有限我们是希望所有的普通人和所有的生产者都能够成为机器人的教师就是 teacher or labor
不一定是科学家 Everybody should be a teacher robot 就是说你任何人都可以去教机器人 And now 你就是买个机器人的看看我们的说明书你就能交钱了这个整个的成本才能可能扩张所以我们刚才讲为什么一定要 Fendly 的原因在这里
好的明白啊就是我们其实看到很多穷策在实际真机不管是 demo 还是现场的一些展示啊长程任务方面其实做的是非常好比如说就是之前去 WAIC 去年的那个世界人工智能大会现场去看在这个开放环境下部署这些长程全任务真机演示的能力比如说这个小黄瓜比如说
连衣服比如说现场把这个家里头的杂物放在不同的地方垃圾放在垃圾桶里书放到桌上玩具收起来衣服放到沙发上这个都是一些相对长程的一些任务当然我们现在其实能做到一些更多的一些动作和任务了
我们是如何做好这些长程任务的然后我看到对应的来说我们近期也推出了基于可规模世界模型构建的长程操作概念学习新框架所以其实也可以顺便分享一下
很好长城概念它分为两个非常关键的我说的应该是三个关键的问题第一个是说对你的目标的理解还有对于肢解这个我觉得从学术上做的还可以就是说你一个目标肢解成步骤这个大模型做的还可以特别是在产品里面的话它可能是很多的大的步骤都是确定的
这个是第一层但我不多讲那么第二层的话就是对于技能这个中间状态的监控和判断其实在聚焰智能里面有一个非常困难的问题就是你怎么知道你这件事情做成了为什么呢因为你在这个过程中其实你失败了很多时候机器人都不知道自己失败了
这里面而且你也不知道你现在走向了哪一步所以我们在这个过程中我们会提出一个 COT 就是聚身的思维链这个思维链就是我刚才讲的这个因果就是那个就是那个这个功能性和共性还有这个 attribute 你会知道你这个事情已经是
都是一个什么状态不然他就会傻傻做我比如倒水这样我们可能最近就会推出一些 demo 让大家看很有意思就是说最简单的问题就是说你倒水了然后你知道水满了
就是你就不知道谁买了你就会不停的到对吧这个是一个不难你专门训练它不难你专门训练它不难但是难的是说对于所有的通用的情况你都是这样做的就是说你要知道它到了一个什么状态你应该是进入下一个阶段就是它是技能和技能的组合但是每个技能它的中间它的施展又到一个恰到好处的一个状态
这东西就需要很多中间的因果链来去做了如果光用这个
这个大模型或者不是大模型或者是光用那个那个完全黑盒的训练的话呃那他其实很多的状态他是学不出来的因为为什么因为他得做他堆海量数据才能整个总结出来啊就就比如说啊你你现在开个门就是你开到什么程度这个门就要开好呢啊但你可以用海量的数据不停看说呃他就会总结说哎这里可能要开好那效率太低了呃
但是我们很多的因果我会告诉你这个已经开好了这个状态已经开好了你够了你别再玩了你再拉可能把门都拉断了但这里面很重要的是我们有力觉力觉会使到我们的中间过程状态会更加恰到好处最简单的话就是说比如你插一个东西你怎么知道它插好的你视觉看不出来但你力觉做一个左右的稍微的一个 data 的一个力的变化你看
你也知道它的差好了所以说我们有去检验这个过程的因果有了力觉有了因果网络这个东西就强大的非常多它会是对一个像派那种那种就是黑盒子一个非常好的补充它也很有用它做一个基座我们在上面可以做一个非常好的补充这个事情将会是一个巨大
大的会不一样的所以说我们能做成长城这是第一点第二点的话呢是它的底层技能的稳定性我会反复讲的技能能做和鲁棒的做那是两回事情就是说很多做 demo 为什么我们一定要在世界人工大会上面连续三天
境外人来检验我们是 work 的呢这里面很大的问题就是说他有一个长程的任务有可能有十几个技能或十几个技能的模块那么其实你想想这是一个数据的关系你每个模块的乳断性
比如说它的稳定性只有 90%你看起来 90 很高对吧那你一集联下来它崩溃的概率就很高了如果你有 10 个假如说你也产生有 10 个技能模块 10 个技能阶段或 10 个步骤每个魔兽的主放性是 90%你一连接起来就是个灾难所以说呢这里面我们能做到的就是所以说很多时候如果你是展示个 5 分钟视频没问题但是你连续几天
大规模去测就会出问题而且这个动态都很动态的所以说呢我们这里面是它所在的技能做到非常软绷所以说我们串联在一起我们记得比如说我们叠衣服消防锅我们是统计了一下我们是整个天里面是几十个小时然后是几千次是上万次的演示都很少出现故障这东西就是极高鲁邦性所以说我们其实是想大家展示就是说
号称能做和超级鲁邦的一个缝钩不知道讲明白没有我觉得讲得非常清楚挺好的然后我们其实也看到现在穷车的大脑它可以适配不同的硬件单臂的双臂的结合这个 agb amr 的移动式的那我们下一步这个林乔手的适配进展如何然后我们怎么做好不同硬件的一个适配
好问题是这样的首先我回答一个硬件设配问题硬件设配问题可能之前的讨论但是我觉得慢慢从学术界会有一个共识就是硬件适配不会是一个大的问题
或者说我们的实验已经表明了硬件适配已经不是个问题我们最近有篇论文现在是在一个 Nature 大字刊上在审的就是说我们做了很有趣的事情就是我们有用一个二指的模型二指的然后我们去 tuning 到五指的抓取然后我们做了这少量的校正就能做到很好
这里面其实一个根本原因是什么呢因为其实我们做操作很多时候我们来分析一下一个操作它的信息量分布它的信息量分布很多是在对这个世界的理解以及对这个任务的理解
然后这里面你可以认为机械参数的差别是占的比例是就是它的信息量的占的比例是比较小的所以我们如果是做一个这样的方法我们其实在在在牵引是不是那么难我开始举个例子就是说一个如果是一个人他的灵魂出窍
不小心他去比如说就是他灵魂进入一个黑猩猩的一个躯体他其实很快能做非常多复杂的工作为什么他关键是智能智能这个是最关键智能是他最大的那个信息量在里面的所以我们从从三个角度从 intuition 的角度从哲学的角度从道理的角度那个哲学的角度 intuition 的角度
这个不是个大问题这我很早说了第二的话从实验的角度也证明了这也不是个大问题然后从产品的角度那更不是一个未来不是一个大问题因为我们这里面开放的有用的机械本体有那几种对我们专门去做一个知识影的话从产业角度讲也没花太多的成本我从三个层面给你回答接下来是林乔首问题
灵巧手问题我觉得是一个非常好的科研方向我们也做了非常多的灵巧手的工作这也可以看我们的论文包括我们还做了一些触觉和视觉联合的这些事情那么我觉得是这样子的我们分两个我看一个是学术一个是产业我会从学术的角度讲我们很有必要去研究灵巧手但是我觉得学术角度现在来说有一个问题就是大家都没有去
到林乔首研究的本质很多人就林乔首的本质其实是 in-hand motivation 就是在在是说手上的操作就是说我们有一个原则就是我们看一个林乔首他的研究的价值怎么样或者他的研究的深度我们会看他这件事情二指能不能做如果这件事情二指能做的话我的就这个研究的意义可能很打折扣就比如说你就是抓一个东西你用林乔首抓
这个时候二子也能抓它其实用二子牵一过去也是能做的那么林桥手我们更希望看到是 in-hand manipulation 就比如说我们拿一个铁锤然后一开始拿的不好我们可以在手上调整它的位置
或者我们拿个剪刀你能够拿起来这个剪刀可能拿起来是不准然后手上的所以说我更想看到这样的研究但这种研究其实很少我们的实验室在做这样的研究也可能近期会先发表当然说呢就是这样的研究我觉得会比较好这才是林乔首他该有的价值那不然的话呢我们大家都用二指就就可以了所以我就比如讲你能不能够
拿起一个筷子然后这个筷子能变成一个对的位置拿起一个剪刀能不能把剪刀对的位置那你这东西从一个地方拿到的地方比如开个门那么二子也能做它的研究价值又会大大折扣这是从科研的角度讲 Tim 没问题我下面讲产业的看法好没问题好那我讲产业的看法
人的看法是说你科研这个没问题我们可以做前沿无尽前向我在在我的实验室里面也是做无尽前沿不考虑产业的再说只是做最前沿的东西但到产业上他就会细的考量了有几点稳定性成本还有必要性这三点考虑其实
现在的话就是说我们先第一个是鲁邦性就是说能够面向高强的高强度复合的这种稳定的能够几个月能够稳定的连续去做而且是达到这种性能就是工业级别性能的要求的现在的
林小手有没有这是第一个问题但我不对这个问题进行评价只是我把问题提出来大家可以自己去判断一下有没有第一第二或者是第二就是说它的成本能够到算得过 ROI 的就算得过人工成本因为我们在做产业的时候都会考虑说你这里面比人是性价比怎么样如果你一个林小手比如说你家就卖个几万块
那么直接是把成本做到不可以妥协然后第三个就必要性就是说你也能做我也能做成本也差不多我们更希望做一个简单稳定的在产业上面就是说比如这件事情
如果是稳定性成本差不多的话但二子能做的话除非要去宣传 PR 我们不讲它就从更产业的本质讲我们会更喜欢用二子因为它更加的简单然后甚至它的更多的生态的支持会更好所以就必要性
这三个元你交叉完了就是未来林乔首他的可能的产业空间就他可能的产业空间以及他产业时间点所以说林乔什么时候是一个产业的时间点这里面会有三个要应该是我在多加四个要素其实第一
第一个是说你足够的稳定第二足够的便宜便宜到是能够算 ROI 就算人效产出比能算得过来第三个你的
你的这个事情就是说非你不可其实有人说过说也讨论过说人类的绝大多数可能百分之七八十的工作二指就能够做或者犯二指就能做其实很简单你会做实验你把你的五根手指用一个橡皮筋绑住只有大拇指和五根手指
然后你去做日常工作你看多少能做多少不能做其实很快就能测验出来你自己可以试试但是说这个是 70%的 80%这个不知道这个东西都是讨论我不知道所以说这是第二个事情就是说你什么时候应该能够做到它的必要性然后另外就是 AI 的灵巧性因为它的五根手指它的关节会多它的 AI 的难度会大大的提高所以 AI 什么时候能跟上
然后你就把这个事情列一个表格他这些条件都达到就是他可以产业化的先节点当然这里面会有一个要素就是说我觉得不管产业怎么样我都鼓励学术界也包括鼓励我的学生去做林教授的研究他确实是一个还是蛮有意思的一个研究问题
而且我都鼓励说那你就是要真正做你的二指像我对我学生说你二指能做的事情咱们就别做了你要告诉我这个事情是二指不能做的咱们才来做这个研究好
好的 卢老师思维非常清楚啊 刚才你也提到了你们这个相关的一些文章也准备在这个 Nature 自然杂志上去发表那么近期这个自然杂志上我看子刊也发表了一个文章就是刚才你也有提到是基于视觉触觉的联合学习框架那这个就包括视觉系统和一套可伸缩的触觉手套
它解决了刚性物体和可变形物体高精度重建的问题那现在视觉和触觉联动很多公司都在做这也是一个热的话题然后你们的这个东西我看也介绍说有望未来被深度集成到机器人的电子皮肤之中这样就赋予机器人本身与周围环境一个无缝互动的能力你能不能在这个方向上也展开简单介绍一下
明白这属于是我们的长期的研究储备吧我个人认为短期的产品上面会呃
不一定用到这么前沿的技术当然说我们是一个产品备储备我认为触觉和视觉联合学习它肯定会对这个世界的建模会更好它的稳定性各种东西肯定会更高那么其实我们这个事情是从底层的硬件到 AI
其实这里面会有一个很大的问题是不是你是联合的去就是原生的去研究还是你是一种组合的我们这里是和做传感器的专家一起很早好几年就打磨这样的事情就是说包括你的传感器设计都会根据 AI 的特点来设计
这里是很不一样的我们是一体化去设计算法和硬件这种是性能是会高很多然后它得到什么时候会有用呢我觉得可能到过还有一段时间吧现在的很多的产品确实还真用不上这么一些事情到了需要非常精密的建模的一些东西上面它就可能会展现它的好处
特别是未来跟林乔手合在一起的 in-hand manipulation 就是手上操作比如说我还讲的说你能不能拿个剪刀把东西剪了但这个产业价值有多大怎么在讨论但是说从科学的角度讲你能不能林乔手能不能拿把剪刀的东西剪了那就是真的需要出去对感谢卢老师反正每次跟卢老师交流我觉得卢老师给我的印象就是一个
小叮当的百宝袋就是层出不穷各种的技术储备且很多这个东西都已经做了很久然后还发了鼎会或者在过程中所以就是我每次都是感觉到卢老师这边的这个科研储备是非常庞大非常强大的
那如果我们说回来看到公司的一个商业模式就是公司怎么想到去定位做这个纯软件的模式因为看过去美国市场纯软件的企业服务模式是有很好的数据增长而相对在中国市场里纯软件企业服务的这个客户付费效果可能就没有那么好那据这波巨生智能公司国内很多创业公司主要讲的是这个软硬结合的故事
那您这边从测试比较少数做纯软件这个模式的企业你怎么看这个模式的发展我问一下他问题因为我们有特殊性我也同意就是说我们先来从中局和看那个短期中局来说最后软件形成生态
肯定是一个从最经济的角度讲是这样子的对吧咱们从经济就是从最经济性的原理来说就是说有一个大脑然后去大家都可以赋能到各种的硬件上面各司其职这个东西是一个最因为它的最灵活最有经济性的过程的话我也很认可就是说做
纯软件在中国是有一定的挑战的所以我们其实更多的是有软件能力的一个应该是 AI 软件为核心的有硬件很强硬件能力的这样的一个
一个团队因为我们是脱胎于悲惜所以我们就天生就有非常强的硬件所以说这个事情中我们会从我需求角度讲比如说
有些人他就需要一个非常好的软硬件我们都一起包了我们能迅速的去组装出一个硬件出来这个事情是因为我们的基因决定了能干这件事情这个其实难度很大的就我举个例子某大世界 500 强的公司因为这里我就不讲名字要脱名然后他说要做一件事情瞬间希望我们把硬件都给它装起来
那没问题那我们就瞬间就是去把各种分析各种软硬件它的机械臂哪家是最好的移动提案哪家最好了然后迅速就去把它给做出来这样的那个样机以及后面的量产的话也能够有非常多的我们知道哪一个怎么去量产它
但是量产是不是我们来做这都没关系对所以说呢我们是有这样的一个软件然后我们迅速的话会根据你的需求你要是说你已经很成熟的硬件那么我们把软件加在上面也可以如果你要是说没有硬件方案我们来马上做马上去直接去去去去去那个集成一个也挺也挺挺容易的嗯
所以说就是说很简单讲就是说看每家每家那个需求方他的他的他需求的需求到哪个层面
你要软硬件一体交货也可以要是说我们出一个硬件方案加一个软件然后你去量产也可以你要是说加载一个软件那也可以所以这是因为我们有特殊的这种能力能做成这样的一个事情
我不知道我讲清楚没有讲得挺清楚的就是说你们其实这也给你们更便捷的一些模式对更便捷的合作然后更便捷的商业变现的模式其实都更灵活这样的模式对对那是因为我们积累了大量的硬件的人才还有朋友圈对我就看到
行业有好些硬件的厂商也主动找你们合作因为他们硬件做的好软件不行嘛那就是其实大家这样反而也是更好的一个生态对对对我觉得这是一个生态因为硬件是会有个问题哈就是呃你从经济效率我不说是这个咱们咱们因为这个东西每条商业路线都是在在在在摸索但是我们从我总喜欢从那个经济最优的角度就人民群众最省钱的角度
那么你想想就是说我对于将来的硬件的一个终局的一个看法就是说你如果是一定有某一个硬件形式那么它并不是所有场景都适合这个适合不仅是有效性还有成本性
我认为某一类场景可能需要它最合适的机器人这个最合适的机器人就是什么呢就是考虑有效性和成本性就举个例子有些清理场景它真的是单臂加一个轮式又可你为什么一定要用双臂呢
会更贵吗 这东西会更贵吗然后一大类场景就可能就是一个种类的类型的机器人它的配置就可以解决就有点像你要去装电脑咱们那个年代的可能读书我读书的时候我们配电脑我们都是你有多少预算我配什么样的 CPU 显卡 GPU 等等然后再装一个 Windows 电脑 对吧
然后你要是说整机卖给我们其实这个市场又小了对吧所以这个事情就是很简单讲就是但纯软件我就必须有硬的能力硬的能力的话就是说当你的需求方需要你去传出一个硬的能力的时候
你必须迅速的能传出来而且这个事情大家都会跟你做朋友因为我们这边可能买别我们也不做铁币我们跟这边买一个铁币那边买一个移动平台迅速能够传出一个很稳定的接口因为我们跟这间公司关系都很熟然后也知道他们的他们在哪些地方是最强的哪些地方是不强的然后我们可以说
接口也很清晰了就是客户需要我们是要什么我们迅速就可以给他做一个机器人因为我们有很多的模板他的模板就能够生成各种各样的各种各组合各种本体然后我们跟各种硬件厂商都是种朋友关系大家也不用担心说你突然间就去做什么但是大家是把各个模块组合起来对但是这个东西其实说起来容易但做起来挺难的为什么因为你需要的有这种硬件的 know how 你
你怎么把它传起来把它组起来都不是那么简单的你能理解能理解对很多人是没这个能力的就是你不知道我们是清晰的知道所有硬件它的技术边界它的各种各样的技术的 know-how 就是它的技术边界它的鲁棒性
包括它的量产能力我们都非常清楚你其中哪一个东西你不清楚你都会踩一个很大的坑比如性能挺好他这家不能量产也会崩溃掉然后有一些事情他跑的他可能前 30 天跑得很好过了 30 天后他就会发热会崩掉这些都是一些我们莫巴温达 78 年下来积累的经验和
朋友圈那么这波巨神智能可能大家觉得说都是在早期阶段也可能是第一波那现在从软件层面还没有一个标准通用的东西那么也许就是我们穷彻这边做软件模式的一个潜在的机会那同时我们也看到很多人会觉得这波巨神智能可能商业落地普遍会比较久你怎么看这个落地的时间点和时间周期这个事情
其实是这样的
这东西看能力我觉得聚氨智能就是什么样的说它是一个技术驱动市场的一个行业而不是市场就是说我这个讲讲你可能就明白了咱们来先看需求我们列一个需求可以海量无限的需求甚至我们都想不到的需求那些需求为什么不被满足呢那是技能没到因为份上
对吧所以只要技能到那个份上他会迅速的把这个需求为甜品所以这个事情的关键是科研或者说整个的技术的进展这是关键所以说这个场景的落地强相关于你科技的发展我举个例子就是我们组有一个 any grasping 你应该知道哈
通用抓取应该是这个就是鼎鼎有名整个行业开始起步的阶段很多公司都在用你们做 Gamma 对对对现在其实已经有些落地了不止我们别人也有些落地就是说我们这个东西没提出来之前在做很多的场景就是做不了它就是卖不了钱但是我们这个出来之后它就能变得有一部分就能做了
所以说这个根本还是技术的突破我先讲这个事情的本质然后技术的突破我们是有一个从我们的自己内部讲的东西是有一个时间列表的这个时间列表是说你可能在什么时间段会有什么技能
会相对比较成熟然后就像刮丝饼一样通用刮丝饼或者说部分成熟也行部分成熟再加上一些工程的支持比如说你有 90%的成熟度你有 90%的产业化方法你可以再加一些定制当你问 100%你会有 100%的做法但我们肯定是希望它有大规模的 100%
所以说其实你可以认为就是说我们内部会对一个技术成熟的一个基本的一个预判然后这个预判事先去再去想这个技术是在哪些场景上面它就能够落下来
是这样子的一个情况当然说很具体的话我这里可能不太方便透露它主要是商业化的问题还有就是我们希望我们对公众说到还是希望能做到就是两层原因一个是保密一个是对公众希望我们这样讲了我们希望将来还是能够言行一致那么但是我可以讲基本定性的讲就是说
他可能会逐步的有一批技能出来就是能够达到百分之百然后一批可能百分之九十几再配合一点现场的工程然后这个事情就会解锁一批场景所以说大家可能会问就是说军事正在 checkgpt 时刻什么时候到来
这里面是这样子的它是这么庞大和复杂它比语言模型复杂的多了它应该是一批又一批你会发现说今年会解锁一批场景明年又一批场景后年又一批场景它是一个阶段性的就是我们就说就是说分段式的 check gp 时刻或者场景行业式的 check gp 时刻到来那背后其实是一批一批的技能
像我们的 Annie Gossip 一样达到了非常高的主放性是这样的一个过程我们就了解一下您个人更多一些其他的东西吧就是卢老师您是哪里人因为坊间就是也都很多人不知道你是哪里人有说你重庆人潮汕人上海人我是潮汕人你潮汕人
那个是全是老乡嗯哦怪不得啊明白然后你听说你读书期间有有有参加一些田径项目是是什么运动项目现在还在坚持吗对百米和 200 米四百米应该是短跑项目啊对那那我真的是看不出来你现在体型稍微稍微是比以前有一些不一啊变化了啊所以最近还在坚持短跑或者是跑步吗对
现在是没办法了,当年是可以的现在也跑不动了,不能说跑不动了,肯定打不到当年那么好的成绩了
然后卢老师你也逃离遍天下呀其实我们在看中国和美国一些这个巨声领域的一些学者啊或者是创业团队其实都有你学生的踪影我们是中国我应该我是中国第一批因为我从 16 年回国就开始做这个事情第一批培养巨声智能人才的所以说现在的很多的就是说因为巨声智能的话它其实很我们是从
16 17 年又开始去培养所以我们可以说是第一批巨生智能的博士中国第一批巨生智能的博士呃或者说应该说更准确一点第一批以 AI 为驱动的巨生智能就是说大物 AI 驱动的巨生智能博士就是从我们这里毕业这是我觉得应该大家也是会会认可的因为我们很早就做这个视频像呃非常出名的方号数他的 any glass pink 啊这样子的然后呢我们现在的话也是呃
学生也是觉得都出路都就是毕业后都是非常的优秀吧不只是他们的去处非常的好还有是他们有一种心怀改变世界的心我觉得这个事情或者一种很强的使命感