We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP02 具身智能超级对话：人工智能如何引领机器人革命

2024/1/22

ReSpark

AI Deep Dive AI Chapters Transcript

People

朱

朱秋国

王

王小龙

许

许华哲

陈

陈曦（Peter Chen）

Topics

陈曦（Peter Chen）：我认为硬件方面没有核心突破，更多是模型和智能的突破。大型语言模型可以理解抽象任务描述并转化为可执行的任务。机器人领域热度增加，是因为AI热度高涨，机器人是AI的直观应用场景。许华哲：我认为具身智能火热是必然，因为AI技术成熟度提高，使智能机器人成为可能。大模型展示了Transformer结构的潜力，让我们幻想机器人也能通过大量数据实现质变。硬件价格降低也是一个变量，使得实验室敢于用真机进行强化学习。王小龙：我认为机器人领域火热是因为人们希望将AI的成功复制到机器人上，且AI工具连接性增强。机器人本质上需要感知到行动，AI的成熟度将很多东西连接在一起。硬件普及和仿真开发使得机器人研究可以进行更多对比，知识共享促进发展。朱秋国：我认为演示效果好，投资机构怕错过风口是具身智能火热的原因之一。特斯拉机器人引发关注，ChatGPT出现使人们思考AI与机器人结合的可能性。从演示到产业化需要时间，但路线可行，小模型技术发展迅速。

Deep Dive

Chapters

本期节目讨论了具身智能领域的热门话题，邀请了四位来自学术界和产业界的专家，探讨了具身智能的起源、发展动力以及未来趋势。嘉宾们分享了各自的观察和见解，并对具身智能在 2023 年的火热进行了深入分析。

人工智能和机器人的发展方向
具身智能领域的产业和学术动态
2023年具身智能领域创投的火热

Shownotes Transcript

大家好欢迎来到 SOTA 这是一档分享 AI 机器人领域最前沿的产业和学术动态的播客我是 Jamie 这期节目我们非常荣幸地邀请到了四位巨神智能领域优秀的企业家和学者探讨巨神智能热门话题四位嘉宾包括 Covariant 联合创始人兼 CEO 陈希 UCSD 助理教授王小龙清华大学交叉信息研究院助理教授许华哲和云深处创始人朱秋果

请四位嘉宾做一个简单自我介绍那我先开始吧我的名字叫 Peter Chen 然后也可以叫我的中文名陈希然后我是 Co-Founder 和 CEO 在 Co-Founder 之前我是在 Berkeley 的 PhD 跟华泽其实有一段时间的 overlap 所以我们其实之前就认识然后在

我 PhD 的期间我主要关注的领域是 reinforcement learning for robotics,就是这种强化学习在机器人方面的应用,另外一个部分是 generative models,其实跟听起来下面的一个视频生成的这个 topic 也非常有联系。

然后在我的 PhD 之后我在 OpenAI 的比较早期加入了 OpenAI 在 OpenAI 可能 16 年左右可能还只有 10 个人的时候加入 OpenAI 吧然后也伴随 OpenAI 成长了一段时间然后在 17 年底跟我的 PhD 导师 Peter Bill 还有我的另外两个 Co-Founder 一起离开 OpenAI 创立了 Co-Variant

那我们创立 Covariant 的原因其实非常简单就是我们在当时在 OpenAI 其实已经能够看到很多现在

大模型 Large Foundation Models 的一个趋势那我们认为这样的一个趋势在 Robotics 的这个领域下面也必定是以后的未来发展的一个必然性但我们的思考是你要把 Robotics Foundation Model 做好你必须要有自己的数据你要有自己的数据你必须要能够有做出可用的机器人的

就实际可用的机械应用它必定不可能是一个纯粹在实验室里面发展出来的一个技术那我们就在 17 年的时候创立了 Covariant 那到现在也六年多的一个时间我觉得跟我们当时的很多预测很相像吧就是这种 Foundation Model 的开发 AI 的一个方法确实得到了非常大的影响

然后甚至可以说是在 language 特别是 languageimage 这些 domain 下面他们的发展速度甚至可以说是比想象中要快的非常多那然后确实也带来了非常多的在机器人方面的一个机会然后也很感谢这个活动的主办方请了其他一些非常好的 panelist 我也非常感谢

look forward to 跟他们的对这些 AI 跟机器人接下来的发展的一些讨论非常感谢好

我也来介绍一下自己对我没想到我这个姓是还能排在前面这个一般 X 都要放得很厚但是感谢王老师和朱老师姓这个 W 和 Z 然后我是这个交叉系研究院的这个助理教授学法者然后在此前是在这个斯坦福大学读博后

然后再往前是在这个加州大学我可以分享就 UC Berkeley 读博士然后跟 Peter 和小龙都有一些 overlap 就早年是这个 Peter 是我的师兄嘛后来 Peter 创业去了然后我们 PhD 到后期这个小龙来 Berkeley 读国后然后我们也在经常一起合作对

然后自己的研究方向主要就是我们今天这个主题巨神智能然后更具体的来说可能是包含里面的灵巧操作触觉感知然后以及强化学习算法强化学习和模仿学习算法来提高巨神智能的泛化性和学习效率对然后我这里的话其实

更多的还是想跟大家一起聊一聊就是说巨神智能未来的发展是怎么样的以及就是说从学界和业界的这个角度我们一起来看一看是否有可能一起让这个巨神智能让它真的 work 对吧就我觉得到现在这样的一个时间节点是我们所有人都希望能够看到巨神智能真的落地的一个这个时间节点当然我们

这个有的老师或者有的这个几位 CEO 可能都会都已经在在这个这个工业界上面做了非常多的努力对然后我作为一个后辈对也跟大家多多学习

可能到我了大家好我是王小龙现在是 UCSD 的老师然后可能许娃姐已经帮我介绍一下背景了我之前在 CMU 读 PhD 然后后来去 Berkeley 做博后其实读 PhD 期间的话是做 Vision 比较多吧

然后在 Berkeley 开始做一些 RL 和一些机器人相关的东西然后在 UCSC 的时候开始建立自己的团队就收了很多学生在做 Robotics 这个方向然后我们实验室一直也会做很多两方面的结合就是 Robotics Vision

然后做很多这方面的交叉方面的东西然后到现在我们学生是还是有一半的学生在做非常 co-vision 的东西然后有一半学生就做了非常 robotics 然后 robotics 这边我可能做了更多是 focus 在 low level

就是学习跟随级的控制做手或脚的双动这些也就是之前就是我觉得这方面的东西现在就是很多很重要的项目其实是很依赖于硬件的发展所以就是对国内语速还有这个

还有这个云生处这些公司都觉得他们做得很不错然后感觉我们这些都是依赖在他们这些 Bio-develop 的硬件上面然后其实我比较希望就是未来看到更多不仅仅是硬件上的发展还有这个硬件和软件之间的 co-development 然后相信在这个东西在其实在国内是有非常大的一个优势好

好,谢谢。好,各位专家好,我是浙江大学的朱秀国,很高兴今天和各位行业内的知名学者们在这里进行交流。我一直是在浙江大学完成了本硕博的研究,我的硕士跟博士的课题主要是围绕人形机器人,我做的方向主要是 locomotion,就是运动控制方面的研究。

那么从近些年我博士毕业之后呢其实我的博士的课题也是就基于模型控制这样的一个人形机器人的一些控制那么在我博士毕业之后其实发现整个的这个这个领域里面发生了很大的变化所以我

开始带学生的话呢我就开始让学生做这个基于一些 reforcement learning 的强化学习方面的研究所以在这个方面的话呢最近呢我们学生在基于强化学习方面也做了一些新的进展后面有机会呢可以跟大家进一步交流那么在 2017 年的时候的话呢我成立了云生图科技当初呢主要是这个波斯顿中立发展非常的蓄门我相信在美国的各位朋友们应该

当初在国内的话呢其实要让这个机器人走向室外都是一件还比较难的一件事所以当初呢我们正好我一个学生博士毕业之后呢我们开始就想着能不能在国内也搞一个公司能够把这个基础积累起来所以就成立了云生路科技所以到现在为止的话呢主要是在围绕

行业级的应用来做产品的直接开发当然也有一部分是做一些教育科研口的平台也是目前正在这么一个情况那么现在的话也面临一个问题就是说未来基于学习的这样的一些方法在面向行业应用中我们怎么能够把这个方法就像后面讲到的要稳定的可靠的应用上去

怎么来解决这个问题所以今天也是想借这个机会跟各位专家们来进行学习提教好的谢谢四位嘉宾的自我介绍那我准备前两个问题其实是关于巨神智能从哪来到哪去的问题其实从哪来这个问题主要是在 2023 年我们观察到就是中国的整个创投行业最火的一个赛道其实就是巨神智能可能也包括比如说像这种双足移动的这种人形机器人

那但我其实观察到比如说像这个各位的在学术界的这对于这个巨神智能研究已经很多年了那为什么 2023 年在创投领域会突然间这么火就是大家能不能介绍一下比如说你们观察到的无论是从这个硬件技术或者是从这个底层的一些算法技术上面在 2023 年发生了什么就是它这个背后的一个驱动力是什么有没有一些什么确定性的一些技术突破

我可以讲一下对于这个问题我们这边的一些思考就是首先我觉得是这样子的就是人工智能跟机器人是非常非常大的一个话题然后它其实这个话题你可以把它按照应用场景来分对吧你可以按照这种基于机械比这种是做机器人 manipulation 的像我们做的相关的一个事情

你也可以是这种 local motion 这种会移动的这种机器人是另外一种应用场景那其实这种不同的应用场景之间它

有很多相似的地方但它也有很多不同的的一个地方然后这是一个你按照应用场景来去拆分然后你也可以把这个你要人工智能在机器人上面解决了很多问题它其实有一些比较 low level 的问题就像这种运动控制这种比较 low level 的问题它也有比较 high level 的问题就是你怎么可以给机器人一个

抽象的一个任务的一个描述然后他就可以自己去完成这个事情那他其实他整个涵盖的这个面是比较广的然后我觉得我们也我也不可能说全部把这个面全部回答掉吧那我只能说是以机械币为以 manipulation 为中心的这样的一个视角来去回答然后我也比较好奇其他嘉宾就对于这个问题会去怎么去看

然后从我们这边来看的话其实我们并不会觉得在硬件方面在过去的几年里面有什么核心突破就特别是 manipulation 方面就其实硬件还是基本上还是一样的一个硬件可能更多的突破是来自于

模型和智能方面的一个突破说模型和智能方面突破的话它你可以理解成是来自于两部分吧其中一部分是对于这种相对更底层控制的一些难以解决的问题以前可能通过基于 model based 的方法比较难以去解决的东西你现在可以用 learning based 的一个方法去解决然后一些比较上层思维的东西那这个东西其实就跟嗯

这种其他的 large language model 啊这种 large foundation model 就比较有相关性了就是你现在这种像 gpt4 之类的这样的一些 large language model 你可以给他比较啊抽象的一个任务描述然后甚至是一个不完整的一个任务描述他其实可以对他去进行拆解理解并且去啊转化成基线可以去执行的一个任务那其实这样的一个能力之前是完全不存在的那我觉得对于

这种 high level reasoning 来讲在过去的一年是有一个非常大的一个突破那这是一个从技术或者说学术的方法来去分析这个事情但我觉得其实如果说回到对这个问题最质面的一个理解就是为什么热度突然大了很多其中我觉得热度大了很多仅仅是因为 A

AI 的热度大了很多然后机器人是一个 AI 的一个非常直观的应用场景所以这个是为什么很多相关赛道变火的一个原因它底层技术是有很多突破的地方但我不觉得这个是它其实真的变火的一个原因嗯

OK 对我这边也来说说我的看法就是为什么其实就是说为什么巨人智能非常火是吧我觉得这个火是算是一个必然的因为其实人工智能的追求或者终极追求之一就是做智能机器人只不过离得远的时候没人提它因为当我来一张图片都还没有办法像终结者里面把图片抠出来把摩托车都抠出来的时候

大家都不提智能机器人因为太远了但是我们现在我觉得最主要的一个变量是我们现在 AI 的各方面的技术都有了一个非常高的成熟度就比如说

以前 ai 都是拆成一块的对吧像我们读博士的时候都是啊每个组做做不同的事情这个组做 vision 还要只做这个什么图形物体分割或者另一个组甚至只做什么视视视视频这个分类对吧然后另一个组做 nlp 只只做这个语言交互但是现在啊

基本上根据我的实际经验比如说我们组里一位博士的同学甚至本科同学给他一周的时间这些模块他都能玩转他都能这个很快的就以前可能要一个 phd 花这个九个月的时间是一年的时间啊能够把一个物体分割到什么 80%的这个这个

这个程度但是呢现在我让一个本科同学他基本上三天然后用这个 segment anything model 就能分割的好 NLP 就够不用说了随便调一个 GPT API 就可以了那当 AI 达到了这样的成熟度的时候我们的终极追求智能机器人肯定自然就变得很火热了我觉得这是从体系上来说

另外一个就是大模型给我们带来的一个信仰和一个可以看到的未来就是大模型虽然它是对语言做处理但是让我们看到了 Transformer 这种结构它是有可能吸收大量数据并且给我们带来一个质变的它有这个 Scaling Law 有一个质变的这种

这个这个结果也就是说我们大家都开始幻想那如果我有足够的机器人数据是不是这样的大模型也给我带来了这样也能给我带来这样质变那他就像解决 lp 一样是不是也解决了机器人当然目前的答案是还不能解决对吧无论是 rt1 rt2 还是 rtx 啊都没有完全解决但是至少给我们这样一个信仰嗯

然后第三个我跟这 Peter 有一点点啊小小的呃这个不同的想法就是关于硬件这块我觉得硬件这块可能技术上确实我认同没有什么本质突破但这个价格确实是呃

这个美丽了很多对吧就是我们我记得这个实验室里面用的最开始 Franca 这个机械币可能要十几万一个对吧但是现在国内的一些厂商这个再重两公斤的机械币已经能卖到八九千当然了它精度啊什么各方面力反馈都不如 Franca 这种更适合就更高级对吧但是一个八千块钱的机械币我甚至敢用它做这个真机的强化学习对吧

就 online reinforcement learning 我觉得这个其实是一个蛮大的变量对吧 15 万的东西我肯定不舍得在实验室里干这个让他自己随机探索的事但 8000 块钱也许可以如果一年他换一个我好像还付得起对这是我看到的几个点吧我也不不把全说了好的

对,我也挺同意前面两位嘉宾说的。然后我觉得活起来确实是因为可能有一大部分的成分是因为

我们在视线和语言上面看到这个 AI 上面有很多成功然后就会让大家非常有热情的想把这种成功呃 reproduce 在这个机器人上面因为这个机器人本质上也是需要 perception 然后从 perception 到 action

这是一个非常直观的看起来非常 make sense 的一个东西而且确实我们很多 AI tools 的这个

所有东西都变得非常连接在一起我记得前几个月我问 Peter,Peter Field 他问他说为什么你现在在搞 MLP 然后他说 everything is the same 就是 vision,language,robotics,they are all the same 就是都是 AI 所以搞 MLP 也挺有趣的

所以 AI 的成熟度确实是把很多东西连接在了一起但是同时机器人本身作为一个非常复杂的,integrate 很多东西,有硬件和软件很复杂的系统

其实还是有真正做 work 的一个东西还是有很多暗坑然后使得直接把这些 AI technique transfer 到非常 work 的 robot 其实还是一个非常困难的一个事情然后甚至其实 robotics 从

其实几十年前,就是五六十年前一直做到现在,一直来说它没有像就 compared to computer vision,它没有像那么一样的那么大的发展,也可能是因为它是一个非常强 demo driven 的一个学科,就是说很多人做了一个 paper

paper 或者做一个 project 就是为了 show 出来一个很好看的 demo 然后这个很好看的 demo 最后是不是能用可能也非常不好说然后我感觉 somehow

现在在这种 AI 非常横行的这个年代,这种 demo driven 的味道会更加重,就是很多东西可能我们没有看到背后到底发生了什么事情,但是我们能挑出来很好看的 video,然后就使得这个 AI 很火,然后到机器人这个,

这个 video editing 技术越来越火然后对机器人 demo 的 video editing 技术越来越成熟对吧我们说我们发一个好的 paper

这个可能实际上 work 不 work 不重要但是你一定要把 blender 用的熟那么你可以把这个 simulation render 的很漂亮然后你的 shaper 就很容易就会达到很多的分数但实际上怎么 work 可能也不是很重要所以不能排除这里面其实它有很多

很多很多东西它可能只是听起来 make sense 但是实际上它有没有真的达到这个程度可能还是需要很多工作但是 in principle 它还是一个我觉得是一个 make sense 的 approach 其实从头到尾用 AI 去帮助学习更多 high level 和 low level 的决策那么说回来这个确实有点 negative 我可能但是说到 positive 的话我觉得

我觉得其实起码我们在底层控制上面确实看到很多 learning based approach 把这些东西做得越来越好就是传统的 control 没能做到的东西 learning based 现在能做到了其实不管是 simulationsimulation 的开发还有这个硬件的这种普及都使得我们有这个很很很这个就是

很多 positive signal 吧因为像云生处还有宇树这些公司把例如说在机器口方面把这硬件价格造得很低然后大家都能来买同样的硬件平台然后做同样的差不多的实验那使得这个机器人这个 research 也能做很多 Apple to Apple 的 comparison 我觉得这

相对其实这方面本质上就是为什么 Computer Vision 能够发展因为我们以前一直在刷 Coco 刷 ImageNet 一直在做很多 incremental effort 因为 incremental effort 本质上就是 Vision 发展的原因因为虽然每次都只有一个点但是每年几个点然后十年以后就几十个点所以我觉得其实硬件方面的普及和突破

成本的降低,使得我们能够更多的 share 这种 knowledge 然后就可以做很多更多的 incremental effort 然后这是我觉得比较让人比较 exciting 的一个地方就大概是这么多,谢谢

对,前面三位嘉宾其实都已经讲得非常好了,主要我讲讲我的一个观点,我是觉得就像刚才王老师讲的,因为 demo 都太好了,因此给了别人,给了我们很多想象的一个空间,所以对于投资机构来说,大家生怕错过了这么一个风口,所以大家真心恐吓的想要去拥抱这个未来,我觉得这个可能是主要一个原因。

那么我想的就是说有几方面促成吧第一个方面比如说从产业的这个角度来说像特斯拉机器人是吧他做人形机器人其实大家都全球都非常的关注所以大家会设想这个人形机器人未来到底能干些什么事啊

他怎么能做到他的智能怎么体现这个时候大家都在思考那么紧接着从技术角度来说比如说像 ChatGPT 出来大家觉得这个事情 ChatGPT 跟这个机器人这个 AI 跟机器人结合起来是不是这个问题就能解决了所以在这个里面的话给了大家我觉得是一个比较大的一个想象的一个空间我是觉得技术上虽然说有很多的 demo 但是我是

我是觉得有这个 demo 到最后的产业化应该首先需要时间但是它还是一个可行的一个路线我是觉得这个是一个大家可能比较关注的一个问题那么另外的话在这个技术层面的话还有一个小模型就是我们讲的本身 action 的一个来做那个强化学习怎么去提升细能能力的这样的一个技术的发展我大家能看到很快的一个迭代

我们自己在做这一块工作就能深刻的体会到就是对一个非常复杂的

这样一个机器人的系统通过这样的一些讲话学习确实它能做到很多传统的控制方法无法完成的一些工作尤其像行走这样的一个人物来说它不需要精确它跟手臂不太一样手臂我可能要做一些精确的抓取行走没关系我只要能躺过去我这个人物就完成了所以它大大拓展了这个机器人可以适用的这样的一个范围

所以我是觉得从产业的角度以及从大模型加上小模型这样的一些角度这几个的一个融合我是觉得给了大家更大的一个想象的空间所以这个也是比较火的一个原因这是我个人的一个观点

我想对其他几位嘉宾讲的几个点我觉得稍微稍微回应一下然后就我觉得其实刚刚里面讲了有几个点就挺有意思的就像像华泽讲到的这点就是以前可能解决一个相对简单的 AI 问题它要花的时间就已经会很多我就做一个分割问题可能就已经要花的时间要很多然后我要做一个简单的语义分析它要花的时间也会很多但现在你都可以例如用 Sam 你可以来解决这个分割的问题你可以用一个

Lama 也好,Mistro 也好,什么这种开源的大,语言大模型也好,都可以很容易的解决这个问题。那其实我觉得这些其实也是 Foundation Model 的能力所在,就因为不管是这种 Large Language Model 还是像 SAM 这种 Segment Anything 的这种 Model,它本身已经是在

这么大的一个数据集和这么多种不同 multiple tasks 的情况下已经被训练过那就使得他你再去解决新的问题相对比较容易那这个东西就其中一部分肯定是像

各位老师说过的就是一个整个 AI 的一个进步但它其实我会 argue 的是它对于机器人来讲它有特别大的一个意义它对于机器人来讲特别大的一个意义是就其实你有很多时候机器人要去解决的问题是一些比较琐碎的 AI 问题就我如果说我假如说我是一个这个

像这种四足机器人然后我要在外面走然后我要认某个路标然后我要去绕过这个东西或者说我要走到这个东西上面那其实这个就是一个小的一个智能问题那可能就是我要认某个路标那你可能传统来讲你要去训练一个视觉模型去做这个事情你可能是

要专门找一大堆数据集然后你可能要有几个 PhD 去专门做这样的一个模型但现在因为已经有这么多这种其他的 Foundation Model 不管是像 Sam 还是一些其他的 Visual Language Model 你使得你去做这解决这一小个智能问题的

overhead 变得小了非常多那我觉得这个是一个非常大的一个一个 difference 就我觉得它不一定是说你 unlock 了之前你不能做到的东西只是说你之前可以做到的东西你现在做达成它变得容易了非常多那这个其实对于极限来讲是一个非常非常大的一个 improvement 我我也来补充几句就是

作为一个 computer vision background 的人,不得不说一下 SAN 这个东西。我表示这个东西,你要说它是一个 vision foundation model,我觉得其实它还是挺多误区的。首先,

我觉得他其实是说了一个 opposite 的 problem 就是说 SAM data 标了很多 mask 然后你发现你用 10%的 data 去 trade, performance 是差不多了所以 SAM 的 data 我觉得印证了一个问题就是说 localization segmentation 其实不需要大数据就是其实它是一个非常简单的一个问题所以他可能

可能更反过来它不是说明这个基础模式而且很多人不知道就是 SAN 这个东西它对 Semantic,Semantation 还有 Instance 这种 Semantation 其实是非常不有用的所以我觉得它可能是提供了一种新的思路去看问题但是它本质上是不是真的解决了很多问题但是我觉得

他做的好的一点就是他能方便大家使用,大家都 import,直接就可以用,然后大家就去用它。但他肯定不是解决很多问题的最好的方法。所以这边也提到。我同意你的 technical 点,但我觉得我会想 push on 这个 idea 一点的一个地方是,

我首先 agree with 你的几个点就首先一个是就 SAM 它其实不是一个完整的 foundation model 就它不能解决所有 vision 的所有问题就你没有就例如像你说的 incent segmentation 它其实解决这个的能力是相对较弱的

然后你要把它跟其他 modality 合在一起的能力也是相对较弱的起码在原来的 paper 里面它这个跟 clip 就跟 text 基于 text space 或者 segmentation 其实做的不是非常好但我想说的是它这个东西

他是一个很有延展性的一个 formulation 就例如像后面的一些像 Lisa 这种把 large language model 跟 Sam 去融合在一起然后你就会发现其实可以把他这一个一些局限性就可以解决的非常好就所以我觉得我会 agree 他不是一个 ultimate

vision foundation model 但我觉得他能够给人的一个思路是 ok 如果我不只是 train on single task 因为他这种 localization 加 segmentation 确实是一个很这不是一个完整的一个 formulation 但他也还是很 flexible 的就是如果你看像一些把这种 large language model 跟 sam 合在一起的工

的工作你就会发现他通过很少很少的 training 就能够把 samefine tune 成有一些其他的更 general 的这种能力那其实他本身的这个 dataset diversity 还是给了他足够多的 flexibility 对我可能不能我们

可能这个...我们可以继续,我觉得我们不应该专注在这个调整,但我可能不是非常同意这个事情,因为这个自动推广,我们做这个开放文化核心调整也做了很多工作,我们其实实际在用语言和目标模式的时候会发现,

你在信 Vision 的时候加 Semantic 再接 Language 其实还是会比用 SAN 强很多只是我觉得 SAN 做的比较好一点确实把软件做好了然后就是大家方便使用然后接口很简单我觉得这是非常重要我就是给这个 Engineering 和问题定义一个 Big Plus 并不是说它不好但是它可能

就还是有其他我觉得可能我们只是我可能在讲的 SAM 并不是指 SAM 这个 model 本身而是说这一个做这个事情的一个思路对于它 specific 的 model choice

所以它的至于这些跟 language 的 connectivity 这个我非常 agree 就是它本身是没有能够做到这种 general 的可用性的是是是 ok 我们可能都有共同 agree 的地方我觉得可以 move on 这个然后另外一个就是关于这个

Manipulation,刚刚朱老师提到这个 Manipulation 抓取需要精确其实 Manipulation 抓取不需要很精确这也是为什么我们最喜欢做 Hand 的意思就是我们发现 Multi-Fingered Hand 抓东西不需要很精确也能抓起来其实用 Hand 的话比起 Gripper 感觉就会把问题

变得简单很多然后当你有很多 contact 的时候使得把原来很复杂的问题可以变得很简单就抓个大概也能把东西抓起来甚至说我们看到很多酷的这种 soft object manipulation 抓毛巾什么的其实就是用 hand 来抓毛巾这太简单了就是随便一抓都能抓起来所以其实抓取这方面我觉得其实跟 local motion 其实有非常共同的

共同的地方就是它可以通过学习把这个东西就把这个 work model 或者把这个 model 学好然后也很能 generalize 因为它其实在我们硬件上面有足够好的设计之后很多东西对是否需要精确的控制也不是那么高的要求对

但是对于手臂来说他必定还要去做作业的那抓取这个事情是容易的但是比如说你要去在工业现场去做个装配之类的那这个对他的这个精度会提出要求吗那在这种情况下是不是对这个网络对训练来说会更有挑战性的

对,这肯定是根据应用的例如说我们想把两个东西拼装在一起我们也有做这方面类似的这些工作然后这里面肯定是需要强化学习的就是为什么

最后 RL 还是会到处都会有点用就是你单纯学 behavior cloning 可能很多时候就是学个大概但是你可以用这种 RL fine tune 一下就可以把很多精确的事情给解决所以我觉得我刚刚说确实就是 focus on 抓取这个事情可能就是比较简单的学习可以学到抓取但是后边

比较精确的一些东西可能可以用 RL 反映一下这也是我们可能现在做蛮多东西的一个思路对

对另外一个就是那我们就下一个话题就是就我有一个观察是感觉就是从 23 年开始就有两拨人在互相碰撞就是一拨人呢是可能做这个模型控制的然后另外一拨人是做 AI 的有可能这两拨人比如说在美国可能融合比较早但是在国内其实还是两个比较就是分开的一个学术团体

那呃当然像王老师在前段时间这个 core 上面有一个这个呃 workshop 其实也也有一个辩论其实呃辩论的核心的点也是说 learning base 和 model base 的这两种方式来去做这个机器人呃哪一种方式可能会更

更 work 所以我也想说今天我们就是从嘉宾的背景来说可能呃一比三啊朱老师是这个 model base 的然后另外三位嘉宾可能 learning base 的可能朱老师有点势单力薄但我不知道你们本身信仰的路线是什么所以我们也把这个话题抛出来来探讨一下因为王老师呃当时是在这个 workshop 上面的这个呃主持人所以

也请您先表达一下您的一些观点包括可能当时的那个 workshop 我觉得可能国内也很多不管投资人产业方的人都有看过当时有一些什么样的这个观点我觉得当时 workshop 确实感觉 debate 的内容也有点 bias 因为站在 learning base 或者支持 scaling data 那一边

主要是 Charles 也说给嘛然后他们最近在 work on RTX 所以 somehow 我觉得那个 debate 其实变成我们应该要做 RTX 还是不要做 RTX 其实不是说要要 scaling 还是不 scaling 所以其实可能会那个 debate 方向会有点偏到就是我们要不要做 behavior cloning 就是 imitation learning goal 还是说要做这个这个

其他的这个方法对所以我相信其实 real world large scale data 肯定是会非常有用的但是还有一点的话我一直还是比较想 push 的就是这个 simulation data 然后 sim2real 上面做很多事情然后我觉得 simulationscale simulation 在 simulation 上面做 large scale 也是一种 large scale data 这个可能是一个

感觉 Community 里面比较大的 missing piece 就是大家可能普遍觉得 Sim2R 太难了做 simulation 再做 real 这个事情就很难解决现实世界复杂问题然后困难太多所以远远不如直接在 real 上面 collect data 在 real 上面训练但我觉得我们可以渐渐的花很多 effort 去改善这个事情对这个其实是

我可能是一点体会吧就是 outside 这个 discussion 里面本身的一些一些内容对好的那就是我不然那个朱老师为了捍卫一下这个 model base 的我们让朱老师最后一个发言所以就还是请那个许华许华刘老师也讲讲您的一个看法然后等一下呃

如果是让我的话我肯定这个如果让我比如赌 10 块钱的话我肯定会赌在 learning base 这个因为

这非常这个人工智能发展让我们看到了这个数据永远都这个战胜了人类智慧对吧或者说用数据的智慧永远是大于直接解决问题的智慧从从早期的无法解决下棋然后到用搜索的方法然后能下国际象棋然后再到后面这个围棋又变成了我记得我本科时候学数据结构课大家还说这个围棋是一个

不可战胜的这个不可不可挑战的领域但后面这个强化学习就像刚刚王老师说的对吧这个在 simulation 里面跑这个 large scale 也是 large scale 对吧也是然后他就通过 RL 的方式加上这个 MCTS 对吧也是通过堆数据然后来解决这样的之前不可挑战的问题那现在新的不可挑战的问题就是机器人对吧就是这个巨神智能那

我相信他最终的解决方案一定是 learning based 当然我觉得 model based 啊这个地方应该是一个指的是狭义的 model based 对吧就是说啊这个 model

通常指的是我们通过人的这个物理知识或者这个机械的知识等等啊对这个机器人有一个建模啊但其实在更广义的 model base 里面这个 model 也可以是 learning based 对吧就是我以前搞过一个领域叫 model base rl 然后那个 model base rl 里面那个 model 就是一个神经网络然后来学这个世界的运转规律然后在这个神经网络上再跑一个神经网络对吧那

就是说我觉得这个 learning based 和 model based 并不是一个完全分裂开来的就是说 model based 大家都知道它数据效率很高那我们为什么不能去学这个去学这个 model 呢对吧

然后另一方面 Multibase 肯定因为它可能落地快然后效率我们很快就能看到它的一些结果就在没有 scaling 起来的时候我觉得是非常适合于采数据的就是说

因为我们不可能就是这个数据不可能凭空出来对吧无论是真机还是怎么样就所以那我肯定需要通过 model base 的方式让他先一定程度的解决问题一定程度的运转起来当他一定程度运转起来之后啊我们就可以去啊用他采到的这些数据去来 improve 那个 learning base 的啊最开始这个 learning base 就像他的 baby 一样就对了像他的这个小朋友小阿姨

孩子一样跟着他学学到一定程度对吧我们可以去 RO 翻听他或者是这个他自己可能可以自标签做一些东西他可能很快就超过了他的老师超过了他的父母对这样子

我我认为就是如果强行走这个纯传统 model base 的话啊可能会啊走向一个啊对人类人力有太多需求的一个这样啊就是一下这个节奏会会慢下来对不像 learning base 可能呃这个 scaling 这个这个 scaling law 会比较明显对这是我的一个看法嗯好的谢谢是我先讲然后再到朱老师对 peter 先讲然后最后朱老师捍卫一下 model base 对嘿嘿

首先我其实不是很认同这一个对立其实在我看来其实并没有一个 model base 跟 learning base 的一个对立其实在这个方面我的看法是跟所有领域的 AI 一样其实对立是只有 data driven 还是 programming driven 就是你任何传统的 control 基于优化的算法这些东西其实你都说你都可以把它们理解成是一个 programming base 的一个方法就是你

你人对于这个世界有某个认知这个认知可以是模型的认知或者可以是这个控制器的这个认知然后你通过 programming 的方法来实现某种智能然后另外一种方法是 database 的智能所以就我觉得 model 与否就我觉得并不是它这个中间的一个核心的一个所在那至于说是是

Database 的智能还是 Programming based 的智能在是 Future 的 Robotics 那我觉得我会跟华哲一样吧我会 Bet on database 的一个智能然后 I'm willing to bet a lot more than 10 块钱吧就是我觉得这个这应该是这个 Willing to bet infinite amount of moneyon it 这特别是如果你把这个 Time horizon 放在越来越远的这个 Time horizon

至于说嗯在这两者中间然后然后第二个观点是这两者其实并不是对立的就你其实任何的啊

嗯你真的可以商用的基线系统你是可以有这两者的一个融合你并不是说你整个基线系统里面就一定要是全部 data driven 或者说是全是 programming driven 你完全是可以有一个融合然后这个的话其实我对于这个问题的看法它更多是一个产品和工程的问题因为啊华泽讲到了一部分啊

基于数据来学习的的缺陷是在于你要有足够大的数据集但其实不只是数据集你包括你如果你用一个大的神经网络来去做一些决策那它的响应时间是多少你这个东西是否可以直接的跑在一个机器人上面它的功耗是它的能耗是怎么样子就其实它有非常多嗯工程方面的 constraints 那其实嗯在我们看来嗯

最好的方法就是基于实际的产品需求和基于实际的这个工程的 constraints 来决定你哪些部分应该是用 data driven 的智能哪些部分是用 programming based 的智能

但可能一个比较 smart 的方法就是你怎么可以 make sure 你有一个很好的一个 roll map 使得 over time 就随着算力变得越来越多随着数据局变得越来越多你可以把你整个机器人的 stack 越来越多的 move 往 database 的智能这样它就会变得更 flexible 变得更 higher performancemore reliable 但我觉得这个并不是一个哲学上对立的一个关系

我觉得陈老师讲的特别好因为他不是一个对立的我也是认为他不是一个对立他可能是一个能力或者算法延续的一个过程那么我觉得皮特陈刚才讲到一点就是说他要从产品的角度去看这个问题这个我非常认同我这里想的是要去看用哪一种方法其实要去看他的对象跟他应用的场景

我举个简单例子来说,在 AI 没有出现之前,在 AI 没有出现之前,learning based 没有出现之前,那我们现在世界上运行的,可能在工业领域,我这里写到包括在火箭领域,你用的是什么东西,你用的还是 model based 的。

你像马斯克发射的火箭它用的还是我猜测啊肯定还是一个 model based 的这样一个模型来进行的这样一个控制是的我跟这个做他们降落的控制算法的人聊过他们是一个跟这种 model based 的对对对所以可以说这个方法它应用的普遍性或者说它本身的这个

我们叫 model-based 这样的一个智能性它还是能呈现得非常好那么第二个像我们浙大在做流程工业控制这一块里面也有很多的这种大量的这种 control 的这种算法在做那么流程工业里面就带来一个问题比如说我们要做故障诊断它不可能说让你在工业现场去采集一些故障的一些信息回来然后让你在那里做大量的训练这个做不到的

做不大的,那怎么办呢?那我们用的方法其实还是基于传统的这样的方法来做。当然,我可以采集更多的这样的一些诊断部长的数据,为未来做一些预判,做一些诊断来做一些储备,这个是可以的。那么也就是说到现在为止,我们可能就是说在

机器人领域里边我们去 learning based 这样的一种方法可能是去比较有好的一个 work 的这样的一个趋势所以我们这里要区分看来它的这个产品或者这个对象那么从机器人的这个角度来说我是觉得不对励这个王总我要声明一下其实我现在已经是

主动拥抱加入到这个 Running Bet 的这个大潮流中了因为我们已经在这个里面感受到了就是说原来 Gmodel Bet 它存在的这个问题或者它的本身的局限通过 Running Bet 它会带来的一些好的一些效果所以我是觉得前面几位老师其实都讲得已经非常好我是觉得要区分开来应用的对象应用的产品然后再去评判采用怎么样的方法那么机器人领域里边我觉得未来的趋势

我觉得一定是 AI 一定是能力配置这是我个人的观点

对但呃 learning based 的这个其实还有一个问题就是在于说机器人在实际的应用的时候他有一个可靠性的问题吗就是那像朱老师的原生处包括呃 Peter 的这个 covariant 就是你们的产品都有交付到客户的手上就是他要持续的稳定的不出错的去完成一些任务这个事情从 learning based 的角度来说怎么去保证呃

那就我先来,对对对,learning bit 的这个问题怎么保证,待会可以请我们陈老师来讲讲,但是从一个产品的角度来说,他交付给客户的时候要保证他的稳定可靠性,这个是一定要做的一件事,但是即便我们去做了,那是不是能够做到 99.99%,这个也是不一定的。

即便是基于 model based 这样的一种方法去做因为对一个产品来说皮特城我相信我们可能有共同的一些想法因为你在做一个产品的时候它本身有一些规范的一些流程有个规范的流程你包括对硬件的测试对软件的测试出厂的测试长时间寿命可靠的测试它有一整套规范的流程那么这个流程是怎么来的是我们工业革命以来

我们所积累的一系列的流程一系列的规范一系列的标准所形成积累下来的这个经验我们到着这个规范去做我们可以做出一个好的一个产品来我觉得这个是可以的这是可以的但是刚才也提到了怎么去保证 99.99%这个是追求的一个目标是不是能够达到这个是不好说的一个事儿

但是这个是有据可循的但是学习最好的方式现在刚才我们王小龙老师提到了里面可能会还有一些暗箱的东西有些坑的东西那这个事情怎么来解决它

那我想着这个可能会有些新的挑战,那待会请其他的几位嘉宾们讲讲他们的想法,我是觉得这一块至少目前为止可能有,从应用的角度来说可能还没有那么的成熟,可能在一些小的范围领域里面可能会有些应用。要不我直接回答一下,还是徐老师。

这个问题其实你提到稳定性和 reliability 这点特别好因为其实这个也就是落地最难的一个问题就一个你怎么从一个很酷的一个 demo 到一个真的是给客户带来价值的

这个中间所你要跨过的这个非常大的一个 gap 其实就是你的 reliability 就是你怎么能够做到 99.99

然后对于这个问题上面来讲的话它是非常非常难的一个问题然后它这个问题并不是说是用 learning based 的方法引入的问题就相反其实有很多时候是你必须要用 learning based 的方法就你用这种不管说是 model based control 还是这种更 traditional 的 programming 的一个方法你甚至那些问题你根本都做不到

90%以上的 reliability 就是你在现实世界里面的多样性实在太多了如果你的智能没有足够多的适应性你只是一个 model based control 或者说其他的一些简单的 vision model 那他可能完全就是做不到甚至 90%以上所以就说 learning base 其实并不是

并不是一个让我们去 achievehigh reliabilityhigh success rate 的一个 bottleneck 它其实是我们的最有效的一个工具那至于说怎么真的去做到这个事情其实这个就没有一个很简单的一个方法我可以讲几个我们所发现的比较好的一些思路其中一个比较好的一个思路是

依赖 transfer learning 就是说你对单一的一个客户你可能的数据集有限但是如果你能够把不同的客户之间的数据集合在一起那你就能够做出更大的一个数据集在做 machine learning 做 AI 的人都会知道你的数据集更大你的 generalization 就会更好那你就能够做到更高的一个 reliability

另外一个比较重要的一个思路就是不能把这个产品当做是一个这种你血鼻刺就完事的一个产品它不应该是一个静态的一个产品就你这种

AI based 的这种 robotics 它其实必定是一个不断更新不断学习的这样的一个系统那基于它在实际生产环境中遇到的问题你收集回来的数据你怎么可以让你的模型再继续去进行训练你其实应该是把它看作是一个会在时间维度上会不断自我进步和学习的这样的一个系统那把这两点做到的话在我们的

当然你还是需要有非常多技术上面的突破了但如果能够把这两点大方向做好的话在我们的经验里面你是可以做到通过 learning based approach 做到非常非常 reliable 的实际可用的产品

好的谢谢那像许老师和王老师就是你们虽然目前还是在这个学术界啊就是但是可能做机器人的这个学术界的人可能很多也会想说把自己的产品真正的交付到客户的手上去解决一些现实问题那你们目前是怎么来回应比如说这个机器人在解决问题的过程中的这个可靠性的问题

我可以先说一下我这边我觉得可靠性对 learning based 肯定是一个很大的挑战但是就像刚刚 Peter 说的

我们想解决的问题可能没有没有别的任何方法能够解决得了所以我们必须要忍受这个不可靠的这个风险点对吧啊比如说我我如果我想做一个家居的机器人啊这件事情就没有任何的 model base 的手段或者叫做这个 programming base 的手段可以解决得了这件事那我只能去拿这个呃

learning based 那我的一个想法是如果这件事情足够的呃

怎么说足够规规则或者叫足够的简单吧我们可以去做 Programming 比如就是拧螺丝我们那就是如果每天都拧一样的螺丝那那就把这个机器人的这个就像一个数控机床一样把它写好让他很快的去用一些 Control 算法然后让他去拧好这个螺丝然后下一个然后这个过程中既然他又可以解决然后我们又可以这么 low cost 去解决那我们为什么不用呢

但是我们要考虑这个要解决的场景或者这个任务圈的大小对吧

我们真正要解决是一个大圈然后呃 programming base 的方法可以解决的是一个小圈对吧那小圈里的我们就让他去做用用这个这个经典的控制方法啊去做然后当然了我这个过程中我们不停的采数据我的一个思路是能够用经典方法做好的事情只要有足量的数据 learning base 的一定是可以的只不过他有一些 cost 对吧啊

然后大圈里面的事情那既然没有没有别的方法能够解决那我们只能去忍受这个 learning base 而且直到现在我觉得那些 vision 比如计算机视觉发展这么多年他们也并没有尝试去说这个这个就说我有一个 guarantee 对吧我这个东西大家一般都是 report 一个 accuracy 或者 IOU 就是给一个数字并不会说我 100%能达到 99%的这个成功率对吧那么这样子

其实是这个 learning 的一个因为它是一个黑盒子毕竟神经网络还是倾向于一个黑盒子所以我们只能说给它越来越多的数据然后当发现它有不 work 的地方的时候我们去着重的踩那的数据无论我是从 sim 里面去踩还是在 real 里面去踩然后当那有了数据以后这个窟窿就补上了然后让它在这个迭代的过程中可以变得越来越好对

这个这个就像我们容忍人类一样吧我觉得我们可以把这个 learning base robot 看成是人类就是你让你的啊伴侣或者是这个这个子女父母去帮你做一件事的时候朋友呃就是你说哎帮我去做一顿饭他也很很可能把这个事情做砸了对吧他很可能把排骨烤烤糊了对吧呃那 learning base robot 你可以认为是一个比较奔手奔脚的啊 robot 我们一点点教他啊对

对,黄老师。对,我觉得,我挺同意 Peter 说,就是这个可靠性它不是一个学习独特,就是其实是一个对什么来说都有这种

可靠性的问题吧就是而且其实 learning 并不是没有手段去衡量它的可靠性说回 computer vision 的话其实有很多做 classification 的时候大家也会 study 一个叫 uncertainty 嘛就是大家会估计就是你的这个 confidence 或者你的估计的可信度这个在 machine learning 里面其实也是一个比较大的一个方向就是基本上是一个方向然后

我觉得包括 AI for safety 然后 RL 里面叫 safety constraint 然后这个现在做 LMLM 也要做这个 safety 就是很大的一个问题就是可能有无数的 grant 在写 LM 怎么去做 concern 这个 safety 我觉得对其实这种

关于这种 robustness 还有这种风险这种估计本来也是 learning 里面的一个非常大的 topic 现在在 RL 里面做很多在 language and vision 里面其实已经有很多然后我觉得在 robotics 上面方面渐渐也会其实也有很多像这种 HRI 可能但是那方面的东西可能会暂时会比较

小型一点去做这方面的一些估计但我觉得当我们把这个相对的准确性还有东西慢慢开始做了真的实用真的做得很实用之后在这上面做的这种不确定的估计还有这种风险估计的技术也会越来越成熟就像这个 LM 的这个这个安全也是因为 LM 做的

这个非常有用然后它确实也出现了很多很很很重要的问题在大家管放行的时候然后这给了这个 Safety 这边很多机会去赶上它那当我们的机器人真的是

我们真的在用了然后他真的出现了很多 safety 的问题然后就也会 learning based 的 robot 真的在用真的出现很多 safety 的问题那也提供了我们很多 opportunity 和 samples 去学习怎么去改善这个可靠性我觉得好谢谢这个地方我想再插一句就是虽然刚刚小龙刚提到了各个领域都有很多做 safety 的 work

但是这些 work 都没有成为一个 standard 就比如说当我们要用 vision model 的时候我可能会去 detection 里面去扣一个 model 出来或者用 sam 然后当我用这个想要各种各样 model 的时候几乎我们看不到一个 by default 我会去用的这个神经网络它是带着刚刚那个 uncertainty estimation 然后

而且这个 uncertainty estimation 第一它要不能 hurt performance 对它不能让这个 model 本身变弱然后其次它的这个 estimation 要真的非常可信就是我觉得就神经网络有另外一个问题是我们如何来衡量它自己估计出来的 uncertainty 是否是是 certain 的对吧就它有的时候是 uncertain about my uncertainty

当然了肯定有很多论文或者很多 project 在解决这些事情但至少我没有看到就是说我没有看到一个神经网络就是说我们非常常用但是呢它也能给我一个非常非常靠谱的这个 uncertainty 然后第二个就是我对整个做这个 safety 这件事呢我跟这个小龙是持一个比较相似的观点就是说我觉得

还是得先把这个事做成了然后再回过头来去把它丢到这个 uncertainty 的丢到这个 safety 的里面去让他说哦那你别做坏事的吧你别出出什么毛病啊因为 RL 里面有一个领域做这个 safeRL 嘛

然后他是从另一个角度去做是说我在学习 RL 的时候就要有一系列的 constraint 让他不能搞破坏不能把东西弄坏了但是这是一个很有趣的领域但是我觉得他其实在某种程度上是在这个东西还不 work 的时候这东西还没有做出来的时候就先给他带上了一层枷锁我觉得这样是对他的发展速度来说是

不是最有利的方式吧我个人的倾向是我们先先做成先加速然后加速到感觉要要要有危险了我们说好怎么样悬崖勒马对就刚才说到 safety 的问题其实我也很好奇请教一下这个 Peter Chen 就是 Covariant 因为在这个物流的领域里面有很多的这个应用嘛就是你们可能要确实解决这个抓取了 safety 的问题就你们在这个事情上是大概是一个什么样的处理方式

我觉得这里面其实有好几个不同的维度吧就是有这种你解决一个问题中间它的这个 reliability 然后有 safety 是这个机器人会不会伤害自己会不会伤害周围的东西然后也有这种 large language model 的 safety 是 alignment problem 你怎么可以 make sure 这种可以是非常 general 的 AI 不会有自己的 agenda 然后然后 I don't knowdestroy humanity or something like that

对于我们我可以这几个维度都讲一下吧对于 covariant 来讲这个问题其实就比较简单了这个问题来讲其实就是你还是可以用非常多 classical 的方法来 make sure 你的机器人是 save 的就你像这种做碰撞的检测这些东西你其实是可以做到你在

不管是你 AI 做什么决策你可以决定它最终跟物理世界的交互是 save 的那其实这些其实就是一个很典型的这种 programming based intelligence 就是我们人为的这样的一个碰撞检测的这样的一个机构是可以 guarantee safety 的那跟它内核在做决策的这个 learning based 的一个方法的一个融合至于这个更广大的一个问题就是刚刚徐老师王老师讲到的这个观点就是啊

嗯就对于机器人来讲还没有太多必要去嗯看 safety 的这个问题我我非常同意这个观点就我觉得在机器人来讲就你要能够把 reliability 和 flexibility 做好已经非常非常不容易了就是你先把这两个东西做到非常非常好就是我给你一个新的任务你可以嗯非常高的 reliability 非常高的稳定性解决这个问题那那先做到那一步我们就再去考虑就以后的

就一些更 high level 的一些 safety 就这种 AGI singularity 之类的 safety 的事情好的那其实我后面还准备了好多我感兴趣的问题我想很多这个观众也会比较感兴趣比如说像这个在操作方面的两种路径比如说这个模拟器加 RL 然后另外像

模仿学习这样的一个路向路径比如说前段时间比较火是没照媒体上比较火的这个某宝老哈但包括像机器人的话题但是我们时间有限就可能还剩 10 分钟所以这些话题我觉得看后面如果有机会的话就我们可以再再再探讨一下但我想说就是呃有一个问题可以提出来作为这次 pano 的一个 ending 啊就是关于这个

巨神智能这一波的机会到哪去的问题我也想听听就是比如说几位嘉宾如何看待这个技术的落地它究竟在两三年内我们作为老百姓可以体验到一个什么样的产品或者是更长期的五到十年它给人类的社会会增加一些什么样的一些变量

对那呃这是最最后一个问题所以就是看看谁可以先来回答就我就也不不去这个指定了对就是看这个问题就可以开麦就是讲一讲这样就在思考对不然徐老师华智你先你先讲一下因为正好对

可以啊可以啊嗯就是呃我觉得最新智能在在哪落地能给我们生活大家什么改变我觉得短期的话呃我

我我认为巨神智能应该是在复杂的场景里面啊会给我们带来一个率先就是在给我们带来一个最最大的变量吧这个复杂场景啊可能就是跟我刚刚描述的那种比如顶多斯的这种啊场景不同啊他需要要面对的物体足够复杂啊然后面对的这个这个这个这个环境本身足够复杂比如说啊这个呃

像像这个超市里面啊或者是这个园区的这个物流里面啊或者是这个流工厂流水线但是比如说我要我要叠衣服对吧啊我要去啊这个这个做各种各样的复杂的啊物体的操作啊这这些地方我觉得是啊巨山智能能够发挥啊

它的能力的点吧就是说但这个地方可能要区分一下就是说巨神智能可能跟机器人学这个地方我做了一个细致的区分就是说机器人可能可以在更多的地方有一个用处但是我们什么地方需要用到这个智能的能力那肯定是当这个场景足够复杂的那短期肯定这种弱家居然后这种物流工厂

然后但是长期来看我觉得可以更往家里面去走或者往这个房间里面去走因为我们知道这个房间里面其实是这个最难的对吧然后房间里面的厨房部分可能是这个又是房间里房间里面最难的那如果中长期我们希望能看到的是可以在这种比如酒店的房间里面然后再往后可能是家里面的房间最后是真正到厨房里面帮我们做

做一道松鼠桂鱼吧我觉得我们不如把这个松鼠桂鱼当做一个十年的 benchmark 如果有一天这机器人能帮我做一道松鼠桂鱼他把那个鱼切的一个一个小格子对吧然后而且还不把鱼皮切断啊还能把鱼鳞都刮了然后还能炸对吧啊然后最后淋汤啊如果能把这件事做了啊我想我们想看到那边那个未来就已经到了嗯

我可以 go next 吧就我大概的这个想法跟徐老师差不多就是会先在比较工业的这个场景先有应用然后就越来越到这种场景更多样化但是使用评测越来越低的这样就是从高评测相对低复杂度到

复杂度越来越高使用评测越来越低的这样的一个场景去走然后这里面其实还有一个很重要的一个地方就是这个巨神智能你就算有了这个智能你还是得要有它这个对应的身体对吧那很多其实像这种要做一个要炸一条鱼那其实中间还有很多问题是你有没有这样的一个硬件的平台特别是你在家里的这种使用评测下面的

硬件的成本你可以承受有多少就这里面是有非常多这种硬件本身需要去考量的这个问题所在但我可能我的猜测的的 time scale 可能会稍微短一点就如果要 10 年才能够到达我觉得我会有点失望我觉得我可能想象的更多是一个 3 到 5 年的一个 time scale 那这就意味着其实在接下来的

两到三年里面就在工业场景里面就这种高频次的场景里面其实我会 expect 绝大多数可以用现在硬件解决的问题只是说还缺少智能的问题都会被解决

对我看大家刚才也那个徐老师包括陈老师都讲到了关于这个复杂场景上的一些作业能力那我其实我自己会更关心的是在复杂地形这个能力因为大家关心的这个手我怎么去操作那么复杂地形的这个能力的话呢我是觉得未来在这个尤其像我们做这个腿重机器人

可以有更好的一个通行能力这个非常重要那我像我们现在的话比如说你平整的路面台阶路面复杂的地形我们可能要去切换不同的行走的步态那到后面的话加上聚层智能之后我就不关心这个问题了你只操控它可以在各种地形下可以自己有很好的一个适应能力所以这个呢我是觉得对于这个机器人本身的这个通行的这个能力会

会有一个大的一个提升比如说我们要带着这个机器人去冲到一个房间里面去做一个什么景物上的一个突破那这个时候你可能在远端你只要遥控着机器人

给它一个指令的方向它就可以完成那它就可以做到非常的灵活快速高效的一个响应所以这样一来的话呢比如说在这种应急的消防在室内外的一些巡逻甚至在野外的这种山地的这种巡视巡逻方面我是觉得它就会有很强的一种适应的能力我觉得这一块的话呢应该会在接下去的一到两年内应该会有很大的一个突破

我是觉得这个应该会比较的直观的会带来一些改进对我觉得走路这个事情确实比较重要因为我们其实现在没人看到在街上有机器人跑是吧因为这个很容易就摔了很容易就门都开不了确实就很多这些楼来果的问题带我们去解决我觉得前面几位嘉宾都说的很好我可能说一个

因为可能身在加州,我们说一个比较左一点的社会层面上的事情就是其实我觉得还有一点就是还有这种社会的接受程度我觉得还有一个意思的现象是说,例如说刚刚提到酒店如果你在国内住酒店,现在都有这种送饭的机器人就是大家都已经很普遍,但你在美国就没有那种东西为什么会这样子?因为

其实做那个送饭机器人你需要把那个电梯改一下然后改一下这个电梯其实是有安全隐患但是国内好像就可以随便无所谓但是在美国你就不能有这个电梯的安全隐患就是本质上为什么美国不能装这个在酒店里面装这个送饭机器人所以就是有很多这种社会上的 constraint 使得就是只要与人相关只要与人交流

这种事情的话就会变得非常复杂从法律层面上也是这个责任归咎谁万一出事了这也是有很多东西做这种 constraint 所以我觉得短期以内可能还是在这种没有人的情况下就是我们可以得到更多发展但是一旦有人

进来了那这个事情可能就会变得非常非常困难这个可能是一个所以可能这个与人交互这个做人的 companion 这个事情

还是会有一段比较长的距离有些公司例如 Solver Next 他们 focus on 这种 high compliance 的 motor 对吧就是用拳打你你也不痛这种 motor 他们也是一种解决方案但长期来看我觉得

如何做好与人的交互这是一个还是一个非常大的确认当所有的技术都解决以后这还是有这个与人交互会产生的各种各样的问题还有社会成员上我们楼下还有一个老师其实做了个编剧然后他说要我们这个人心机器人跟他

跟他们那个演员合作跳舞做一个 demo 然后我说你为什么要搞这种 art 他说这个在这个社会层面上大家对这个 AI 普遍是很恐惧的就是如果看到人型机器人就会觉得他会吹回世界但是

如果你能通过这种方式宣传出去把这个以艺术的形式表演的形式宣传出去那么社会逐渐就会能接受你这个人生这些人的存在然后大家就会更舒适所以

他们要做这样子的一个 project 我觉得有很多很有意思的这些问题如果你在老百姓或者说甚至这种 DOD 你去 NSF 或者 DOD 的会议那些比较 high level 的 PM 他们老在担心 AI 怎么摧毁世界所以其实就是说你要提人性机器人他们就会觉得你会摧毁世界所以怎么样大概会更容易接受

机器人存在可能就是在人上面还有一种非常大的心理障碍对好的谢谢各位嘉宾的这个精彩的分享对就是意犹未尽啊但时间已经到了因为我们第二部分的嘉宾也上线了非常感谢各位

EP02 具身智能超级对话：人工智能如何引领机器人革命 01:13:45 Share

ReSpark

Deep Dive

Shownotes Transcript

EP02 具身智能超级对话：人工智能如何引领机器人革命