We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 人形≠通用≠落地:人形机器人的真问题| S9E15

人形≠通用≠落地:人形机器人的真问题| S9E15

2025/5/15
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
D
Diane
刘鹏琦
胡迪
雅贤
Topics
刘鹏琦:我认为这波人形机器人热潮的起点是特斯拉在2021年官宣机器人计划,以及Figure AI的跟进。它们的目标是将机器人送进工厂,与之前的研究重点不同,这标志着具身智能产业化的新开端。同时,硬件如新能源汽车和工业自动化的发展,以及软件如大模型的出现,都为人形机器人的发展提供了支持。 胡迪:我认同刘总的观点,特斯拉的战略布局是从商业和市场的角度出发,将智能电动车视为机器人的一种形式。大模型在增强机器人对外部环境的感知、理解和推理能力方面发挥了重要作用,弥补了过去机器人“脑”方面的不足。然而,从电动车到智能机器人之间仍然存在巨大的差距,包含了硬件和软件的挑战。

Deep Dive

Chapters
本期节目探讨了近年来人形机器人领域的火爆,从特斯拉Optimus的发布到国内巨额投资,分析了这一现象背后的原因,包括硬件和软件技术的成熟以及政策的推动。
  • 特斯拉Optimus的发布是人形机器人热潮的起点
  • 2025年前两个月中国人工智能投资额接近2024年全年总额
  • 硬件和软件技术进步降低了人形机器人研发门槛
  • 大模型技术提升了机器人的感知和决策能力

Shownotes Transcript

大家好

欢迎大家来到 What's Next 科技早知道我是雅贤那最近两年我们明显感觉到人型机器人离我们的生活是越来越近了从在春晚舞台上扭秧歌到参加机器人半程马拉松再到视频中既能在工厂打螺丝又能干家务的好帮手大量的资本涌入也助推了这波巨深智能的热潮根据统计仅 2025 年前两个月中国人的生产量

中国巨深智能领域的投融资交易额就已经达到了接近 2024 年全年的投资总额市场热度可见一斑所以我们今天就想来聊聊巨深智能相关的话题刚刚这段开场大家听出什么不同吗这是我用 minimax 最新的语音模型 speech02 实现的效果 minimax speech02 语音模型拥有出色的泛化能力能够轻轻松松驾驭 32 语种不同口音不同情绪的声音让 AI 声音听起来宛如真人

实地说话,在两项权威榜单 Artificial Analysis 和 Hugging Face 的语音模型竞技场中,Speech02 已经超越 11 Labs 和 OpenAI 位列全球双榜第一,而价格仅为 11 Labs 的四分之一。如果你对模型的技术实现感兴趣,或者想用 MiniMax Speech 来打造属于自己的声音,请在 Show Notes 中查看技术报告和指南。好了,感谢大家收听广告,节目正式开始。

那巨神智能为什么近两年如此火爆人形机器人在硬件和软件上又还面临着哪些挑战那机器人离走近千家万户还有多远的距离我们今天的节目就想来讨论这些问题那一起参与讨论的呢还有我们的主播 DianeHello Diane

Hello Hello 大家好丰瑞资本执行董事刘鹏奇 刘总好大家好 我是来自丰瑞资本的投资人刘鹏奇然后我平时也比较关注泛科技领域的投资包括像软件 硬件 AI 等等巨神智能确实也是我过去两年特别重点关注的一个领域这个方向确实最近非常的热然后我们基金也有不少的布局也很开心今天能够在这里跟大家一起做一些讨论和交流

还有中国人民大学高岭人工智能学院副教授胡迪老师胡迪老师好

大家好,我是来自高雷雍中学院的胡迪我自己主要研究方向偏向于多模态的感知交互和学习这里面我们所谈的交互就是围绕着如何让机器人以视听触等多个感官模态和环境进行感知和学习然后提升它自己的操纵能力尤其是在面向双臂端的操纵能力

这方面我觉得也希望和大家多多讨论和学习

好的希望我们今天能有两个视角看能不能碰撞出一些火花我的第一个问题就是你记不记得我开场的时候说到我没有看到机器人马拉松过 100 天时间我们又会有一个机器人的运动会所以我第一个问题就想问问刘总这波巨星智能为什么这么火爆它有什么原因呢首先我觉得确实这次一桩的人行马拉松还是挺出圈的因为我平常也跑步除了投资圈的小伙伴我在很多跑步的群里也看到很多人在讨论人行机器人

就他们很关注他们到底能不能完成比赛从结果来看我觉得大概有 30%的完赛率我们看到然后甚至第一名比很多选手都还要快那其实还是挺了不起的所以也确实是人型机器人第一次能够走出实验室环境然后能够在现实的环境中去完成这么长时间的一个挑战我觉得回到这个问题本身我认为这一波的热潮的一个很标志性的起点其实是特斯拉在 21 年

官宣了他们的一个机器人的计划然后在 22 年的下半年也正式发布了他们的这个 optimus 系列的机器人的原型

当然 20 年同年 Figure AI 也跟进成立了那么我觉得它们不同于我们之前看到的比如说像波尔顿动力以及国内早年间成立的像游碧选甚至语术那么 Optimus 和 Figure 它们的成立的目标是非常明确的它们不仅仅是想在技术上做出一个能完成复杂炫酷动作的机器人

而是他们真的是想把这个机器人能够送进工厂比如说特斯拉自己的造车的工厂还是说 Figure AI 跟宝马的合作的工厂所以我觉得这是一个完全不同的出发点是这波浪潮的一个起点那么从 23 年初开始我觉得跟随着这种海外的包括 Tesla 这样的脚步国内很多的团队

也开始 follow 这个方向比如说相继也成立了一批类似定位的公司比如说我们熟悉的像智源机器人银河通用这些当然过去两年还有相当多数量的公司在相继成立来加入这一波的浪潮那么为什么比如说 2023 年这个时间点大家都开始下场做这件事

可能是从转件和硬件这两个方面其实都还是有贡献的首先在硬件层面我觉得是过去比如说十年新能源产业然后工业自动化包括消费电子这些行业的这种产业化和规模化其实是带动了整个硬件包括它的零部件的这种上下游体系的一个成熟比如说像电机比如像一些传感器比如像电池其实让我们能搭出一个机器人的门槛

明显变低了然后另外就是从软件层面的毫无疑问肯定是 22 年底开始出现的这个大模型看起来能够去显著提升机器人的这种算法模型能力尤其是感知决策这方面能力这也给了行业很大的一个我们是不是能够未来做出通用机器人的想象空间对我觉得这个大概是这两年这件事这么火的一个主要原因当然在国内可能还有一些政策层面的推动力吧对

从一个角度来看其实第一点我觉得像刚才刘讲的这一波浪潮的起点在于马斯克其实你再回首去看它的整个逻辑的话早期推动了自动电动车我们可以讲它在自动电动车上尤其是在自动驾驶方面其实已经有了显著的成功它至少是头破腕的梯队它的 FSD 的系统做得也是非常的路过春青

在这样的背景下我们来看特斯拉首先它不是一个按他的言语语言来说不是一个汽车公司而是一个机器人公司智能电动车只是机器人的一个代表形式但它不是最终形态

那么在这个角度而言当我们把这种电动车这件事走完之后从它的视角来看确实走的下一步我们要去看的是给大家更多想象力的空间的包括去推动它有更大市值的空间的是智能机器人这是从商业的或者说市场的角度而言它在做这样的一个布局但是从第二个角度就是说现在机器人为什么火刚才刘勇都讲到了其实另一方面就是在大摩天这个角度

它跟人形其实关系不大而在于在机器人在做操作过程中我们发现有了大模型之后能够很好的增强机器人对外部环境的感知与理解能力

以及我们最近所经常会聊的推理能力那在这两个方面其实是机器人在脑这个方面过去所欠缺的那这方面能力有了巨大飞跃之后我们其实可以看到的是这两方面共同作用就会带来现在这个火爆的一个主要原因推动力吧其实就是有硬件和软件两方面的原因从软件方面的话机器人就是有了大模型以后就相当于有了脑它能够对环境进行更多的感知

对可以这样说但是其实也不一定因为应该说硬件方面其实大家只是觉得直升电动车是机器人的一种简化版本但对于这种简化版本中间到底 gap 有多大从直升电动车到直升机器人里面包含了硬件包含了软件但是这里面是否有巨大的差距我觉得这是一个悬而未决的问题

当然大家有非常多的期待觉得我们既然能做好自动驾驶那我相信我们也能很快的做好自动机器人但这一点其实每个人的观点是不一样其实一几年的时候语述那个轮式四足机器人我觉得就已经做的挺 fancy 的了

然后它已经能完成很多任务了那为什么我们一定要把这个机器人做成人形然后甚至一定要通用呢你看那个工厂里头的机械臂我觉得操作那些组装汽车呀甚至一些相对精细的操作我觉得也挺熟练的为什么一定要把机器人做成人形然后它为什么一定要所谓的通用我们首先总是聊人形人形但什么是人形我想

好像这个事情好像大家这个是模糊的当然我觉得人是一个非常非常我们不是说他是到底进化论来的还是怎么来的这样的一个生物他其实如果从硬性来去看他分为上直和下直我们更多就是聊马拉松聊这些很多时候在聊的是下直双足

包括看这条不真动力不论动力早期也做 big dog 也做大狗还有就是上肢我们为什么需要人形首先我们思考第一点刚才你讲的人形它不局限于一定要双足你要有两只手两只手如果都是零小手两个臂我可以说它是上肢仿人的也可以叫人形也必定有两条腿

就是人性与否来自于说像刚才讲的需求在哪里如果说是工厂化需求那么我们来需要的是我们需要的机器人他是否在操作中因为很多零件或者是什么样的部件他必须要零教授来去操纵吗如果说零教授可以 cover 解决多种各种各样的零件的形态给他做装配分解

那确实手这个事情很强那我们需要去做手那这是我们才要做人性那如果说 OK 我在其他环境里面我在做各种环境地形的时候我要做 B 站或者做这种通过那这个时候我们要考虑双足是最好的吗还是说四轮是最好的所以从这个角度而言我们就要思考说如果从需求段落去讲

可能我们可以把人的某些进化出来的还是怎么做具备的某些特性优势移植到机器人身上某些组件不管是上的还是下之的而最终如果我们真的想做一个刚才说的是一些具象的需求场景而如果这个场景非常非常的烦

犯到了我们的日常生活犯到了我们的朋友机器人朋友但那个时候可能我们能够接受的形态是上下之都是你人的那个时候他所操控场景就不是那些特定的场景是非常通常而那些通常的可能确实是按照人的形态来设计的比如说椅子比如说桌子比如说楼梯每一个间距那都是根据人的形态来做的对吧

那从这个角度而言可能那个时候我们需要人形完全你人的形在非常非常通用的场景下是这样子的那个电影叫什么呢那科幻电影就是太空旅客他们其实是去在其他的这个星球的路上面他们突然醒了但是还有好多年才到几百年才到然后里面能跟两个主角交流的就只有一个给大家的做酒师然后他就是上面是人的这个形状然后下面是一个那个球形的滚来滚去可以走路的那个人对对对

对我也可以补充一下我觉得人形其实确实也某种程度上反映了就是我们人类内心深处普世的就是对于未来的这种通用机器人的这种幻想的终极形态是什么样的然后它的体现形式那可能就是通过这种大量的这种科幻的电影也好电视剧也好去呈现比如说可能想到的还有比如说像超能陆战队里边大白比如说还有像这个终结者反正这些其实很多这样的一些形态

当然另外可能人行确实也在某种技术的这种层面上也许能体现出来看起来更高阶的这种技术和通用的能力所以可能也是成为很多这公司去追求的目标

所以我觉得去做人形我觉得其实还有另一个原因在于人这个生物我觉得欲望是无限的这也是推动我们不断进步的一个源泉之一也不知道为什么老天爷给了我们这么个欲望这样一个组件人要一直满足自己的欲望但人类其实在这个视角上人类的欲望可能在于去造一个一模一样的自己也想当造物主人想成为神对吧

对是这个可以这么说所以他想造出像自己这样的不管你最后那个人有没有把我自己干死但反过来我就要造出一个像我这样的就是对吧你造核弹也是造安静位造什么都是都是这样一个道理我觉得这可能是那一方面的原因吧我挺好奇就是胡老师如果你在研究过程中你会希望就是说你造出来机器人比自己更强大吗还是希望你能完全控制这个机器人在你的控制范围之内

我这个问题特别好我在读书的时候我在从保研的时候就是在 13 年大三然后我去找我老板

我很开心但是那个时候我要想我要做人物指标技术那我人物技术要好还是坏他是把双人剑我能不能把这个事情往好的方便避免换另一方面我当时就是非常非常的想不清楚这个问题我就跟我的老板去聊聊完之后他说我也不知道那我当时就说我可能我不想读博士了对

对,也真是,那时候我把自己困在宿舍大概困了一周没有出去就是每天都在宿舍躺着想这些问题然后那时候我还记得我还专门去国土,比如说回家回国土然后每天都要去国土读那些中国古典的东西想找一些 solution

反正我觉得这件事情到那个时候我走过来其实像刚才现在说就是我觉得一方面是如果能因为我的存在能让那事情往有益的地方偏一点点那可能就是我存在的价值吧我可能用这样的非常大家觉得很无法理解的这样的理由就是很很 simple 的理由但我用这样的理由来努力来束缚我自己来走了这样一条路所以当然说啊

我假如做了一个 report 我希望这件事情能不能超过自己这件事情从我过去的观点来看下我更希望它是伙伴可能打开这期听了这个朋友们没预计到今天是一个哲学话题开头我们先聊了很多哲学话题对其实我们刚才一直聊通用机器人那其实我就想问一问就是说咱们现在所说的这些通用机器人它需要具备哪些的能力才能被称为通用呢

其实这里面我们讨论机器人是不是通用其实跟我们刚才讨论人形包括其实在跟我们在大模型领域讨论 AGI 其实我觉得是一样的我觉得通用毫无疑问都是我们追求的一个终极目标但挑战就在于说我们的世界的资源是有限所以我们在追求通用的同时我们也需要平衡好比如说效率

成功率成本这些都很重要当然比如说在工业或者制造业这些领域显然成功率和效率和成本肯定是更加重要的我们可能只需要在有限的这种环境和场景下去实现一定的通用性就可以了但如果我们真的说未来需要一个能够进家庭服务的这样一个机器人的话那我们可能会允许他

比如说牺牲一定的这种成功率和效率对吧他可以犯一定的错误就像我们人其实在家也会犯错误或者在外面也会犯错误一样但我们可能希望他能干更多的事那么在这种定义下那可能通用就会显得更加重要一点那么就回到说刚才的问题那比如说通用机器人到底需要什么样的能力我觉得这个其实目前反正业界也好学术界也好我觉得应该也都还没有共识吧应该就是我觉得当然我觉得可以类比自动驾驶比如大家也会说

我们分个级对吧我们从 L1 到 L5 来我们分个阶段来定义他们的能力大体来说无非也就是说他到底能覆盖多少场景以及说在不同场景下能覆盖多少任务可能大概就是这样的一些要求和规则

我感觉是不是现在机器人的领域其实它更多的需要收敛而不是泛化起码是在不管是研究阶段还是现在在一些的应用场景上面从我们角度来看来就是可能偏比如说学院派或者学术派的创始人当然也不绝对可能更加认可这种直接追求

就是全场景泛化的路线会多一点那么可能一些原来偏产业背景的这样的一些创始人或者说也有一些做过总驾驶的创始人他可能会在这个方向上会选择做一些减法因为他可能走过一些弯路对吧踩过一些坑所以他可能说那我不如先在一个垂直场景把问题解决好然后未来再去做会有这样的一些观察吧

胡老师这边是有类似的感知吗从您自己的研究领域来看的话从我的角度而言去讲掉通用其实通用这个事情刚才其实跟通用另一个词就是泛化

犯法这个词是所有做人物之中学者都在努力追求的一个东西从早期的时候经典的这种所谓的派克学习理论而言到后面很多的方法都是在强调我如果对于未见的数据或者未见的形态能不能把我过去学习能力能够很好的步骤上面解决这些问题我们这个孩子们高考就是在考虑考察犯法能力因为你不可能高考上的卷子你平时练过

所以从这个角度而言泛化是我们的终极追求目标也是一直以来追求的目标那么在这个角度而言通用跟泛化区别又在于什么呢过去的泛化实际是狭义的泛化是可能有些见过的类别没见过的物体我能够在他们做好一个但通用就变成了更

广泛的泛化意义非常广泛的泛化意义说我其实在没有见过的数据甚至没有见过类别我也能够带来很好的质量所以现在我们举一个例子就是现在在大模型的角度上其实这种能力就非常的很好去体现比如大家经常会提到一些大模型的很多在做题或者说你怎么写题词很多时候可以解决很多自由少词的问题

但是我想讲这样一观点就是说大家在追求从泛化到通用这个能力上在整个研究学界不局限在机器人身上大家发现只要我能够提炼出通用的一些模式

那么我就能够去达到比较好的范围但问题是我如何抽取出来这些通用的模式呢在过去的方法论里面其实大多是以这个模型变化很多但大多都是发现我们直接从数据中去提炼这样的方式能获得相对比较高质量的准则

早期人去涉及这些准则的时候会发现局限性很大慢慢的我们从数据中去学习的规律发现增加了尤其是配以非常强大的模型就会出现像 ImageNet 这样的框架这就是数据带来的很大的优势它有很好的繁华性

那再近而言 Nimad 在后面就变成了莫斯说的 GPT 这样的系列它也是巨大的数据驱动了见过这么多数据并且这模型也能够提炼出非常好的这些 principle 这些准则或者规律后也能够很好泛化那现在到了机器人我们也需要有很好的泛化与通用能力这个时候我们也希望能够从数据中去提炼规律

但问题就在于说机器人它的空间和传统语言视觉的空间它规模上到底有多大的跃升有几个数量级的我们不知道因为在这个不知道情况下我们就不知道我们到底需要多少数据也不知道该配以什么样的模型所以刚才像刘总说的学界是有这样的一个趋势这个趋势它是带来惯性这惯性来自于过去我们既然视觉和语言都做好了

为什么我在机器人用这段方式不能做好我应该也能做好但问题是惯性有多大能不能惯性一直推动我选择生存实现可能这是个很大的问题但反而言之从起

企业界的角度而言它更务实所以因为务实才能让自己活下去所以才面向一些非常具象的需求从点到面所以从这两个角度而言通用我总的下来说都是我们最终的目标但大家可能实施的路径比较大的区别

那胡老师我有一个追问啊刚才你也提到了科研的惯性哈那既然大模型在语言和视觉上都能跑通那包括端到端模型在特斯拉的 FSD 上也能跑通是什么让你怀疑在通用机器人上大模型可能就跑不通呢或者说机器人它复杂的地方究竟在哪里呢

这也是我一直在思考的问题因为这个问题在于我的整个的探索空间有多大就是我的 Exploring Space 到底有多大因为在语言里面会看到一点

语言是人对客观世界的描述以及人与人之间知识的灌输就是这样的一个非常 high level 非常抽象的一个东西但是如果这样的模型让我们具备非常好的通用能力反而会需要全世界的预料但孩子具备这样的语言理解能力他肯定不需要全世界的预料但这不需要这是另一个问题但是从世界角度而言

我们即使有 ImageR 的数据这样的模型它也没有达到我们所说的非常强的办法能力或者通用能力后面像谁会具备慢慢具备了一些一点点像早期的 Clip 模型像后面所说的 SIM 这样的模型就是分割的图像分割就是说那时候会发现我真的给了大量的数据能做到这一点但是问题在于说

视觉语言它们都是我们观察世界的很小的一个窗户尤其是比如说我们看视觉视觉输入信息的时候刚才所聊的大部分的都是二维信息而机器人与环境交互的时候都是三维信息这些时候我们发现三维与二维多的信息可不是一点点这个时候如何对这些质量信息这是一个探索物件巨大的增大

而这个时候我还没有去聊之前另外的其他的模态呢触觉

人在做所有的操作都是要依赖于触觉的反馈的还有力的反馈这些数据我们能从何而来呢这些都给我们带来很大的未知这些是数据层面而对于我们想去做的第二个层面是 Vida 就是我们的决策层面机器人的决策层面来自于我要去决定我当下的策略 policy 里面包括我这个币赚多少度我这个家爪怎么去做而

视觉只需要告诉我这个是什么图片这个就几个类别分一下或者说我给他把这个物体把他整个区域给他画出来

这个问题跟刚才的问题它的整个的决策空间是不一样所以这也带来非常大的问题所以我觉得这些问题需要在我们不断摸索过程中慢慢把这些东西给想清楚对我也非常认可古迪老师的说法我觉得就是看起来可能多么态的大模型可能可以在比如说感知和决策这两个方面上

相对好的解决所谓机器人大脑的问题因为它看起来都是一个基于视觉语言也许再加上别的传感器但可能确实对于机器人来说还有非常多不同的挑战因为它涉及到要和刚才胡教授也讲到了需要和物理世界交互尤其需要感知环境的 3D 信息还需要感知到环境的物理性质其实也不是说比如说之前其他的比如说偏宗驾驶的团队也可以直接过来因为他们

一方面车并不需要跟环境有那么多的交互对吧它都是去避免所有的接触和碰撞对我觉得这是一个重要的角度那么另外就是从规划和控制这个操作层面这个可能是一个跟所谓目前我们看到的多模态大模型

差别更大的地方因为可能就是操作和控制这个层面它需要的准确度和响应速度是目前大模型远远不能满足的比如说机器人的末端控制可能需要几百甚至上千赫兹的这种信号的更新频率那么对于像 Transformer 这样的架构可能确实比较难实现这样的一个事情当然

以及说你在具体去跟物理世界交互的时候可能还需要一些不同的这种末端的执行的单元对吧比如说像刚才我们也谈到的零销售这样的单元所以这里面也还是有很多的这种 gap 需要去解决明白我们可能大模型这一会再深聊一下我们现在可以先 backup 下聊聊硬件因为胡老师这边是主要研究上职不知道从您的角度来讲就是是怎么看硬件分类的以及它不同的分类现在发展到一个什么样的阶段

我确实跟一些专业人聊我但我不是专家我只能聊我自己的一些非常粗浅的认识机器人里面重要的是电机和减速器如果说硬件本体的话这里面我没有去谈的是非驱动这个单元比如说感知单元对于电机和减速器而言我们可以看到的一点参加马拉松了那

这一点我们从一定程度上可以看到的是我们取得了巨大的成本的缩减以及可以把它因为大家可以买了二三十万虽然大家觉得很贵但其实已经很便宜了上之下之很多时候电梯的问题其实大部分解决但是有一些精密的比如说我要做非常精密的操控尤其是像比林桥操纵里面尤其是手这个地方因为手这个地方它是非常难的在于哪呢手小

手小就要把非常小的电机和剪辑机都要安在手里面那里面当然不同的构造形式我们就不去讲细讲了但是过程中就需要有手非常灵巧的操纵这些是在机械层面当我把机械认识搞定之后我们就要在上面叠加的是什么叠加的是我们的传感单元就是感

就是感知单元我们的看到的不管是马拉松还是看到的其他一些人性基因大部分的时候他们是没有外界的感知信息的他只能知道的是我的人体的姿态长什么样也就是本体感觉

但它对外界的感知是很匮乏的不管是大家春晚上看的还是马拉松看的大部分都是这样子但外界单元感知什么呢那些都要放到基因身上就像人的五感一样机器人能有五感吗除了本体感之外大部分的时候机器人是缺乏的是是

但是像人的操作中的触觉利益这些其实很重要所以刚才说硬件上的阻碍在哪里我们举个例子上至在早期的时候在我当时在买机械币的时候在早期比如说 20 年 5 年前我们买机械币的时候会发现机械币市场上机械币有几个可选的

像面向科研型的像房卡像国产的 XR 上 UR 这些大家报价多少呢便宜的 6 万贵一点的 30 万然后再跟大家说最近的这些清闲币大概什么价格呢 1 万多所以从这个角度大家在重复定位精度上结币结果考量的角度上它其实没有差多少所以在这个程度上成本是降下来的但是

对于这些 GAB 它可能还存在一些大的问题就像 GAB 很重要的是你拿一个东西你得知道东西你需要使用多大的力而把它拿起而不是直接把它拿起你就知道一个力反馈然后你知道跟你去操作模样中我所谓的六维力这个东西你得知道但是现在没有这个反馈性即使我加这样反馈性这个 GAB 的成本

一下就报上去了直接报到二三十万去了这个时候就变成这个问题所以从硬件的角度而言如果我们真的想具备这些感官能力力也是一种感官数据这些对利反馈对利都是一种感官性我们想把人的感官性也赋予到我们所说的上职包括下职身上我们还需要努力的是成本

以及它的所谓的可靠性这份可靠性其实现在也很差所以从这个角度而言我觉得硬件方面这些地方还是需要去努力去做到的零巧手这个方面其实问题会更大只是刚才把说的问题其实可以难度可以放大好几倍零巧手还是非常慢的一件事情所以从这个角度而言我觉得硬件这个角度我们

相对而言我们迈过了第一个门槛但第二门槛会更难想把极压的感官模态叠到我们的硬件构造的硬件上面我觉得第二门槛会需要更大更多人力物力的投入所以特斯拉的 optimus robot 在他们发布会上只是跳跳舞就差不多了然后给大家也没有办法做干个详细的东西

但是马斯克好像当时我经常说这么一句话马斯克说其实我们有很大的一部分的研发经历放在了林乔手上我经常他原来说过这样一句话就是

比如说虽然你看人很大手很小但是大部分研发的人力物力都放在他的手上所以我想再追问一下您刚刚讲的其实在电机上面他们可能就是一个工程问题我们不断地把它变小不同的电机它这个组合起来这个其实就是一个不断地尝试然后不断地在做就跟原来我们的机械臂然后慢慢从 6 万变成了 1 万的这样子的一个过程它需要时间但是从力的这个角度我不知道能不能给我们再讲一讲现在是什么样的一个阶段是

力的基本很简单,就是大家想一想压敏电阻,就是我给一个电阻压多大的一个力,然后它就会有电阻着的变化,对吧?就产生电压,现在我们说力反馈就是这么一个元器件,就是一个电阻丝放在一个非常精密的元器件上,元器件的时候产生不同角度的压力和是力矩之类的,扭矩之类的,它就会产生阻着的变化。

我们来看这个事情就是说它的难点在于一是要做小做轻二是要把精准度提升这两个方面现在而言我们发现第一点是做小做轻这一点其实比较的困难第二方面就是说它在做的

的所谓的精度方面先说力力能做到 1.0.1 牛我们国家是可以做 0.1 牛的比如举个例子一个机械轻刚才讲了一个七星协作币机械币它的可以做到 2 万块钱但如果你想配一个非常不错的力矩传六维力传感器它的价格是人民币 8 万元光一个那么在这个时候如果你想把各个关节都配上的话那个机械币的造价就非常的高啊

哎 胡老师我不知道现在有哪一些操作是我们现在感受器已经能够做到的比如说我们已经看到可以拿鸡蛋啊那比如说切豆腐然后比如说切肉然后这些东西我不知道现在我已经到了哪种程度了呢

一是我们去看刚才你说的这些任务它其实都涉及到排除零销售这个操作单元执行器而言只去看它需要什么样的模态其实它需要的是力和触觉比如说拿机器弹这些事我们也需要知道我得用多大力否则一拿碎了因为没有力反馈不就碎了吗然后你也知道这个过程一拿起来的时候你拿多大力拿起来所以这种东西它其实围绕的是触觉大部分是触觉和力在这个点其实在触觉的发展上

现在我可以和您说的是可以做到但它就是没有泛化性我需要针对拿鸡蛋切豆腐我都可以做到没有问题我可以向你保证我也可以做谁都可以做到只要把这个原型拿过来但关键是它没有泛化性我拿了鸡蛋比如我拿了另一个蛋比如这个鸡蛋比如说把鸡蛋壳包了还剩鸡蛋膜咱们看看那种情况剩鸡蛋吗

那个是非常非常精彩那一碰就破了你说他没见过他敢拿吗但人就可以但是说精巧的做一些操纵可以利用触觉这样的信息来去做没有问题因为我们的触觉传感器上最近一年它的发展是巨大无比的尤其是基于视觉的光学的触觉它发展巨大无比的所以它可以在硬件软件的配合下完成一些特定的任务就没有问题了对

原来 Google 在做的强化学习嘛然后让你拿不同东西你怎么拿但这个是不是还是数据不够多还是他的 training 不够多还是什么样的原因我刚没有好问题好问题所以我们最近都做一些工作这个问题很好就是我们做一些工作说我如何把数据规模增大能让它具备很好的方法性能够感知用触觉收集很多很多的触觉性就我们拿一个电子触觉去摸世界上各样各样的东西然后呢

去摸各种物体就小朋友的那种 sensory 的学习就让你摸各种东西给他赶紧把这个认知建立起来其实机器人是一模一样的对所以我觉得刚才聊的模型需要具备两个能力好奇心的能力一定要具备第二个我们未来构建人物智能模型也一定要具备有欲望的能力

对我觉得其实我就是刚才胡迪老师从技术角度我觉得其实讲了非常多关于硬件本身发展阶段的一个情况但就是从我们投资角度来讲我觉得也可以提供一个不同的维度但结论可能是类似的我觉得看不同模块比如说刚才谈到的电机对吧或者说零销售它发展的现状肯定是完全在一个

就在一个不同阶段那主要的原因其实是在于说我们先看成熟的部分它其实主要是得益于比如像新能源车工业自动化包括消费电子这些成熟产业的规模化发展它带来了很多这种外溢的成果其实给我们今天的机器人的这种成熟的这些硬件的模块有了很多的贡献比如说刚才胡迪老师也谈到的这种关节减速器其实它是目前机器人当中用到最多的这种一体化关节的一个重要的组成部分嘛

那么这些模块其实在之前的新能源车包括工业自动化这些行业中其实已经发展的比较成熟了所以它的成本也在不断的降低所以对于目前的机器人来说基本上稍微定制就可以拿来用比如说对于传感器来说也是一样的比如像视觉或者一些激光雷达毫米波雷达这样的一些感知模块其实也是得益于之前的像自动驾驶或者说家庭的这种比如扫地机器人这些行业的发展其实也基本上成本打得很低了也是拿来机用的一个状态

但反过来我们去看那些不太成熟的硬件单元刚才惠教授也谈到比如像灵巧手包括像灵巧手上面的这些触觉 力觉 传感器其实它主要的挑战就在于过去这些核心零部件在其他的产业方向上其实是没有什么产业化和规模化的积累的就是我们现在它需要单独去为巨神智能去做这种设计和研发

因为我记得大概在 24 年之前其实林乔手比如说我们举例的林乔手他其实主要还是做一些演示或者说科研场景可能也就是这两年巨声热了之后才把他也带起来变得特别的热然后更多的资金人才进来做这件事然后推进他的发展其实这里面我觉得有一个特别有意思的例子就是因为我们早期其实投过一家公司叫殷实他其实目前应该算是行业里出货量最大的林乔手公司

但当时我们投它的时候大概是四五年前吧当时它其实就有了一个零教授的产品但也就是 Demo 看一看我主要还是看中的是它背后的核心的一个零部件叫微型四幅电缸这么一个模块当时这个模块它主要的应用其实是已经在一些比如说新能源行业或者一些医美行业有了一些订单和出货

那么零巧手其实在那个阶段对它来说完全就是一个副产物但也正是因为它核心零部件已经能够慢慢靠着一些其他的规模化产业的带动能够成本逐渐降低所以才能让它现在看起来在零巧手的赛道上走的会

相对靠前一点所以我们的判断是说我们看不同零部件和模块的这种成熟度其实它非常依赖说它早期是不是有其他的一些成熟产业做支撑如果仅靠这个产业自己去做比如说我们去设想说零教授一年能出货多少这个还是会比较慢和比较难一点对我觉得这个是目前的主要的一个挑战吧对

包括之前我们其实也聊过像是这个乐森机器人他之前其实就是在做私服电机的后来没有办法他转做玩具了然后反而可能在商业上获得了挺大的成功的对就是他在另外一个产业上积累或者卷出来的这个能力其实拿出来去做一些新兴市场的事情反而可能更符合一个逻辑对

嗯明白那我们硬件大概聊了一下我们还是主要想再多聊一聊软件这块其实我昨天跟胡理老师聊的时候其实胡理老师大概给我介绍了一下就是所谓的机器人大模型其实或者说是机器人的控制系统吧它

它的发展其实经历了几个阶段胡老师能不能大概给我们再介绍一下首先我做机器人是在大学二年级开始那个时候做的就是轮式的单臂那个时候是这个机器人是要从零开始打造的就是说我们是从淘宝买各种元器件然后自己从开始打然后目的这个机器人是要去

做一个什么任务呢你在房间跟他说一个指令他可以自主导航到另一个房间帮你取一样东西给你拿过来跟现在咱们聊的是差不多一个事情但是那个时候我看到的时候公司有谁呢眼睛能看到公司只有一个公司就是波士顿动力你是 12 年的时候那个时候波士顿动力做的还是 big dog 还是大狗那个时候阿特拉斯才刚开始

没有,那个时候还有另一家公司是足球机器人一个叫做 Node 机器人很小大概高度有 30 公分是很可爱的一个机器人是法国一个公司做的那个时候的机器人是什么样子那个时候是昨天也跟杨先生说的说那个时候做机器人研究的是做自动控制的老师

然后在很多时候是做传统做控制理论的老师来去做的然后学界的老师也是偏向于有机器人学是这样一帮人来去做的随着现在很多 AI 领域的人热度高了会有很多的人涉足到巨深领域然后这个时候大家会把这种热度或者大家发生的这种所谓的机会更多表达出来让大家知道

这帮人涉足到了机器人这个行业然后他们以他的这种所谓的方式与方法或者说他的研究范式来去做机器人研究所以这是出现了第二波人那么在过去过程中也可以看到很多理工学院不管是美国的中国的还是其他国家的它都是分成了这是不同的 departments 就是不同的学院在做

有的是 4S 的 WE 的有的地方是做自动控制的甚至做机械的做机械的我都是机械的

所以它是不同的人所以它有不同的帮派所以你会发现现在资本追逐的刘总应该比较说资本偏向于追逐的这种这个机器人所谓的大脑效力是在跟做人工智能的人在做打交道大部分的时候但这个时候其实传统那些做控制的做机器人的人我不是说做硬件的那些人其实他的发声的声量是比较少的而不是他们不发声是因为现在人工智能比较火这个视角

但是这只是现在的一个历史趋势历史趋势不代表真理所以人这个机器人后面到底以哪个学派为主还是会出现第三个新出来的学派这是我们需要去可能需要去观望以及甚至我们去我们作为研究的人需要去思考的但是再换一个角度就是说我们观察现在做软件这个方面它

其实有一部分的交融虽然过去有两个人存在不同的方法范式但有些人已经开始尝试去融会贯通传统控制与机器人尤其人物主义相关的一些学科的交叉了已经有这样的人才存在了但是这样的人还是偏少的所以我们可以期待的是未来会有不同的见解不同的理论甚至不同的宣扬不同观点的人的出现

但我觉得不应该去抨击任何一方,因为大家都会有自己的一种范式和一种合理性的存在。

我想试图总结一下刚才胡老师给我们介绍的发展路线就是说可能从机器人大模型的角度现在可能有两个比较主流路线一个就是上次刘总也跟我们说的就是端到端的模型或者说我们叫 VLA 的模型然后这一部分可能现在是一个比较主流你像特斯拉汽车 FSD 他们也是走这种端到端的模型然后如果我们在机器人领域可能会看到叫 VLA 就是 Vision Language Action 就是从语言视觉然后一直到

投射到行动这一套端到端的然后可能还有一个是胡小师刚才也提到就是传统做传统控制的他们可能会把机器人的各个运动组件可能分成模块包括感知然后决策然后包括控制把他们的这些模块再跟 AI 大模型再结合一下这个是另外一条路线但这两条路线实际上是还没有收敛的

现在怎么来说呢其实现在有一些工作开始尝试说去分析 AA 大模型能给机器人带来什么样的能力传统控制比如 MPC 这些能给机器人带来什么样的能力这些能力之间有没有交集有没有互补会从这个角度来去做一些相关的研究 VLA 这个路线呢其实更偏向于的是我能不能做端到端的优化

模型的学习而并不是说它一定是个黑箱一定是不管里面是个啥东西就是等等的也可能里面是分成不同的层级和体系的只是说它优化角度可能是一起去训练的但里面可能也会有不同的模块对但是这样的情况

我特别特别认可胡迪老师的说法我觉得这里面它不是一个就是非零即一的一个状态就是它其实这里面有非常多这种互相借鉴的这种折中的方案在里面比如说分模块和分层的模型它其实也可能把其中的比如一个或者两个模块拿出来去实现部分的这种端到端对吧

当然也像刚才胡老师讲的它 VLA 的内部它其实也不是一个纯黑箱它可能也是会变成一个分层比如说现在大家比较认可的一种形态比如说就分成系统一和系统二这种快慢系统的这样的一个搭配的结构所以我觉得确实也不能无断地把大家分成不同的派系比如说就拿我们过去十年看增加时的发展路线也是一样的对吧

我们也有说一上来就去做中级的 L4 的方案当然也有说我就先做 L2 的这种方案的公司以及说我是不是要先把足够多的车推向市场然后去采集数据回来然后我再去训练我的模型比如 Tesla 的 FSD 也不是 Day1 就是一个端到端的模型它可能也是先做了一个分层的模型然后能用起来

当他有了足够多的数据之后他再反过头来去推一个他的这种端到端的这样的一个思路当然端到端的是不是终局呢我觉得也不一定对吧比如说像 pony 他们其实也在提说他们还是希望能够就他觉得端到端最多就是起到一个模仿学习的作用吧大概就是说最多就是能

差不多跟一个好的司机差不多但他并不足够好所以他是不是还需要有更多别的方法更多别的数据加进来去训练这样一个模型其实还是有不同的见解和看法的对我觉得这个要主要去看大家不同的这种定位和想法端到端的优势是什么

多能的优势其实最简单来讲就是看起来这个模型结构更加的简单干净我直接用数据的看起来可能我直接用足够多的数据算力它是不是有可能发挥 Skilling Law 的这样的一个优势直接把这样的一个模型跑出来

但问题就在于它最终实现的结果的成功率比如说它准确度是不是能够达到行业的目标比如说我们就拿增价史而言你到底需要多少公里接管一次比如说你端到端是不是能够实现百公里左右接管一次但百公里是不是足够好呢它是不是一个 L4 系统那可能不一定是但你想如果你想实现一个真的 L4 系统那可能还需要一些别的方法加在里面

我觉得另外一点是从优化角度而言,它避免了阶段化处理也就是说它可以寻求更好的 solution 同时一点就是说它比较的能够找到比较好的解从另一个角度,从成本的角度去思考我找很多不同方向的人,让他们干一件事我找几个人就干一件事我觉得肯定后面的成本优势会更高因为那个时候更多的问题交给了数据

所以那个时候我觉得这样的话会有更大的收益对问题可能就是说这个数据的噪声可能会很大是不是能够是不是数据越多它效果越好对这是一个问题对

增加只能做好的原因就在于人人都需要车至少是必需品相当一大部分人的必需品不说所有人的但机器人不是机器人只是能够增加我们人生幸福指数的东西但它不是必需品所以那个时候我们可以铺货铺车但你铺不了机器人所以车可以增大很多大部分的数据尤其是有老司机但机器人很多时候没有办法获得大部分的数据

这也是摆在所有人面前的一道大难题刚刚胡老师不是说嘛人人都需要车但人不一定需要一个机器人在家里我就突然联想到了今年在 CS 然后我还做了一些节目跟雅仙还嘲笑了一个装着机械手臂的扫地机器人突然想到他们是不是又在下一步大起哈哈哈哈

他们开始有机械手臂然后捡不同的东西起来他慢慢的增加了数据的体量之后他慢慢的可以在家庭的场景里面可以做更多的事情我不知道这个是不是一个思路石头那个挺好玩的我当时看了很吃惊我就觉得对吧他捡拖鞋是那个是吧捡拖鞋捡什么毛巾捡袜子但是

当然他们自己也说这只是一个概念产品虽然说扑克丹就是想尝鲜的人去买的但我觉得这不失为一种尝试至少石头他不去尝试谁去尝试他至少是最了解家庭环境的是的我们肯定看到过很多

这么来讲故事的这个创始人了对 但是我觉得其实现在这个行业里面比如刚才也谈到到底是 VLA 还是分层的路线之争但是我们可能更多看到的是就是创业公司的这个维度我觉得大家现在他可能两个路线他也不会说我就完全 batt 在一条路线上我觉得很多的公司其实也都是两条腿都在走

比如 VLA 可能更好融资我们可能一定会做一些 VLA 的成果出来对吧但可能反过来在落地的过程中我也许需要用一些分层的模型去更好的落地要不然客户是不买账的对很多时候可能是这样的情况 VLA 现在几乎落不了地对的为什么落不了地因为 VLA 在实验室场景就没有成功就不要谈落地了对

我们就讲一个点只要 VLA 还在发学术论文刷所谓的成功率它就永远落不了地如果你还在刷成功率那这个事情肯定不靠谱你就这样想就可以了对吧我还在比你是比如说你是 90 我是 92 那例如说你落地你敢靠它吗你是不敢靠它吧里面万一出事就没有办法想的事情而且这还是在实验室场景下可以发论文但是如果论文还是以这种所谓的成功率为去看的话就有问题

明白那我们刚才其实已经说到了数据和训练的问题那我们接下来就说说机器人这个数据吧就机器人现在他在训练数据怎么生成就是怎么样获取数据这方面都是一般怎么样处理的呢

这可能就是业界有很多方案其实大家都能够想到第一个方面就是说从仿照宗教史去这种所谓的模仿学习用一种你可以叫做摇操踩也可以叫做司机去踩真实的样本人怎么做的机怎么做所以第一个视角就是说模仿人

人在互联网上有很多去操纵的视频那把互联网的视频学一学人怎么操纵的这是第一类数据但这种数据造成非常大第二个是人的构型和机器的构型差距很大但是可以有一些 pair knowledge 鲜艳的信息

第二个是可以去采用的是现在很多厂商在做的摇操系统了里面涉及到不管是用 VR 的摇操或者 AR 的摇操还是后面说的是像这种主从臂的摇操就是我控制一个臂另一臂跟着我动或者带一个外骨骼这样都有可能还有比如说还是基于动谱的去摇操都是摇操不同形式的然后这是真的去遥控一个机器人去采数据这是很真实的

第三个就变刚才咱们之前没有聊到的是说在仿真场下去做仿真场将与我像英伟达他们做了非常多的仿真环境的基础性的工作在这个关系下我们也可以在里面做非常低成本的去尝试不同的场景不同的动作这里面可以做工程是没有什么问题尤其是这里面可以跟 RL 相结合所以在这个角度下仿真场又是一个不错的数据

这是几类大型的数据但是这几个数据其实给机器人学习带来的影响是不一样的早期像用观察人的视频它更多的是想有一个不错的像举个例子像不错的那种知道大概是怎么回事但是你看它构型不一样人怎么去拿东西跟进行构型完全不一样的但是

把不管这类型的数据包括很多互联网其他数据它可以提高我们的 reasoning 的能力宏观方面这个概念上的这个推理能力这是这方面的能力第二方面说这种所谓的仿真场景下虚拟的场景下它可以提高我们的试错校正的能力你不敢在真经上下去做试错

你在真相你可以做但这时候它的成本比较高尤其你算法没有部署好的时候早期的时候咱们出现过一些视频包括我的朋友们在做人形调整的时候那个币比如说语数的币就直接大的 HR 就直接挥起来了

然后如果学生就在旁边真的就直接能把学生搞残废了所以真机场下有很多危险不管是对人还是对机械本身你作为老师也不像我花了 50 万买个机器人学生做一下调试 坏了这是仿真场下带来的好处第三个对于真机场下其实它就没有所谓的虚拟到场景之间的这种所谓的差异

所以可以很好的去做这个所谓的真实数据的学习也可以提高它未来的发挥的质量所以它们不同的数据有不同的功能那从数据的量上来讲呢现在就是机器人数据的这个训练数据的量离需求还差多远这

之前现在数据世界上有很多的机构,尤其是基本都是公司在做一些数据方面的构建,采数据,这里面采数据是真机采,就是刚才说的那种摇刷的形式,那得有几十万条上百条是有的,但这个规模和我们所理解的去驱动语言模型的规模,那差了几个数量级的问题。

然后关键是语言模型具备这个能力所需要数据规模是这么多但机器人所具备的能力所需要数据规模你并不知道到底要多少但我们知道肯定要比语言多很多但就不是几个数量级的问题了所以真迹数据这个事情可能它是一个成本它成本很高一般而言踩一条数据大概好几块钱一条数据比如说我要把鼠标从左面拿起来放到这个桌子上这是需要几块钱的踩一条数据的然后

那真机这件事情就是说它有用但它永远是很少的一部分那你需要其他数据弥补互联网数据是一部分但更多的是仿真厂家的数据能不能更好地利用起来它这个事情是规模化可以做规模化但仿真也有它的问题你不能够很好去模仿现在这当下不可能模仿各种模态的信息这个事情又是一个任重道远的事情不是说解决不了而是说我们一直在努力

我们最后还是想在商业化这个问题上再聊一聊因为刘总是投资视角比较多可能也比较关注商业化的问题所以我不知道现在人型机器人在商业化这个场景上现在落地怎么样

整体来而言我觉得先从技术角度来看刚才胡迪老师也讲了其实包括像 VLA 很多都还在发 paper 的阶段所以它其实无论是在学校里还是说很多公司其实它也还在做很多偏科研的事情只不过可能是因为假设是在公司的环境下它需要更多的数据算力的时候它的资源比较多所以它通过外部融资也许能够演进得更快一点所以

看起来目前商业化可能并不是很多公司目前所核心要考虑的问题大家目前的战略重点可能还是在于说怎么能够获取更多的资源然后再反过来去推进一些更前沿的技术研发这样的一个循环当中所以从这个

从这角度来看肯定是一个明显过热的这么一个状态如果大家用我们大家都熟悉的这种 Gartner 曲线来表示的话那应该就是在第一波的高点位置了这个毫无疑问那好处肯定是说它在这个过程中对吧它肯定是可以

加快推进相关的技术和产业的成熟比如刚才像我们刚才谈到的零销售对吧它可能别的产业也没有支撑但我这么多钱砸进去了可能确实也能做出来一个还不错的机械结构和部件尤其是在像中国这样的一个政策影响比较大的市场

即便说后面可能会进入一个比如资本的低潮和冷静期但还是会产生很多这样的一些沿途下蛋的机会比如说这里面大家研发出来的一些模型和算法或者一些核心零部件也可能会外溢到一些别的行业比如说把现有的这种服务机器人的能力变得更强比如像刚才谈到的石头长出个机械臂可能原来不足不到但可能现在就能做到了

或者说一些工业机器人对吧原来可能只能做非常固定的工业的这样场景那现在但现在可能可以做一些多任务泛化一点的场景我觉得这个是可能这一波热潮过去之后会会带来的一些落地的机会但现在可能确实不是大家第一优先级去考虑的问题当然如果说

我们一定要去讨论说人行未来如何落地的话那我觉得这里边就不得不去平衡需要去平衡好很多人都谈到的这个不可能三角比如说成功率通用性和成本这些问题那我们的结论可能是说比如在中国的市场

我觉得它就需要说你比过去人操作有更高的成功率这是个前提但它同时可能需要在一个垂直的场景下提供一个泛化性就可以了以及需要反而需要一个相对更高附加值的产业这可能跟大家的认知会不太一样就比如说我们看无人驾驶就是说其实可能在海外也许替代人比在国内会更容易一些

那么基于这样的一个判断比如说我们猜测哪些行业可能符合这个特点呢我们也想过很多的方向也听很多创始人跟我们批出过不同的方向但我们比如举个例子我觉得也许在像比如生物医药的这种人工实验就这个环节可能符合我们刚才说的一些条件比如说首先人对实验就是我们人去做实验的时候我们去控制实验条件包括我们的操作的规范程度本身可能也不是那么精准

机器人可能也许比我们会做得更好然后其次实验室它可能就是一个相对有限的场景以及说做实验的人他至少比如在国内也需要是一个本科甚至是一个博士以上的这种比如化学或者生物这样的背景那么替代他们去做一些这种体力劳动它的附加值也是相对更高的所以我觉得这只是举一个例子那么相比之下比如说工业场景或者仓储物流

如果就不是说技术外溢的情况下说我们只是拿当前大家真的是拿人型机器人去做这些工业或者说仓储物流的时候因为这些场景对于成功率的要求实在是太高了要不然就是它的附加值不够大对吧就是我们现在招人工还是相对比较便宜的相比海外所以它确实反而不容易落地

那现在我们看到的一些所谓进汽车环节的这种公司它更多可能也都是在一些比较简单的场景下做一些 POC 但其实真正离进入核心生产环节还是有比较长的路要走的对但反而这些场景也许可能对于有些公司去做出海可能会有市场因为海外人工比较贵

对,相对来说是那是不是家庭场景就需要更长的时间了对,家庭肯定是会更远我们谈到的这种不可能三角以外比如说成功率、通用性这些问题以外也有很多我们刚才最早讨论的比如说像伦理问题这些哲学问题需要去解决和克服你真的说有一个机器人在家里跟你共处会不会带来一些别的层面的问题这是我们不知道的像刘总我也跟几位投资人员聊过

我朋友创业的很多但

我们来说死了的也多因为那时候学生创业虽然有的工资也估值也很高它后面各种原因所以我是觉得在我的朋友创业的时候他们的创业的环境还都是非常所谓的方向还是比较成熟的方向而对于这些现在不成熟的这种所谓他甚至没有闭环他都没有删闭环都不考虑营收那么这个时候大家都只是说看大家的有多宽容对这个领域

然后有多少有一个多好的长期主义能相信这些事能做成所以昨天跟亚纤聊说我觉得走进家庭其实这件事情为什么呢因为我们不可能人这件事情我自己的认识是热度不可能一直持续它肯定会有冷静期

但这个冷静期到的时候当下这件事情能做成吗我大概率认为是做不成的那么这时候冷静期之后钱肯定会变少那这个时候投入变少可能涌入这个圈子的人就会变少那这个事没做成他又需要第二波风潮第二波热浪他需要几波热潮最后这个才能做事而这可能就是几十年的时间人就是我们对这个领域的认识他不会一直投下钱大家一直都感兴趣这件事情所以我觉得从

把它落地这个视角而言我反而支持最开始怎么聊的第二种观点就是说应该是从点到面不是从面到点的方式我们应该在一些细分的方向上把一些东西垂类的方向相对通用的事情目分的时候去把它做的 work 一些能让你

从这里面去不管是长经验还是把某些关键环节打通一步步去来我觉得应该是这样去做然后你才能撑住这几十年的热潮在最后你才能涌现出来我觉得是第二个人会更好一点

但也希望每一波的资本推动的公司它能够迎来一个技术的突破的节点不一定是大的突破但是肯定也往前再推动推动我觉得这个应该是可以达到的对因为如果只靠一波就推到了一个最终的高度那这一定不是一个大的事如果真的是一个大的事的话一定是需要几波的这样的一个浪潮去把它推动到最终的终点对

对 而且机器人我觉得都不比什么可控核聚变量子芯片要远这可能是更近最后一个问题想问两位你们觉得现在机器人已经到了拆 GPT 时刻了吗我觉得还没到 远远还没到再 rephrase 一下亚贤这个问题大家觉得是不是刚刚我说的比量子计算和量子芯片和可控核聚变要近一些

跟这两个相比但我没法比我自己没法比因为我并不知道我并不是两个专家我也不知道他们到底的什么进程那如果跟 TryGPT 比呢

那拆地肯定没有到肯定没有到拆地只是我们到了 GBT 几的问题是一二还是几还是 3.5 对学界现在就是觉得在二左右吧二左右但是我觉得这件事情它是带有指数的什么意思在 GBT 那边可能二到三是线性的在机器那里二到三可能是指数的我

我大概我因为它的难度是不一样的所以我觉得这么去对比你说它二到三就快了吗不是人家二到三一年但其实二到三可能不是一年对 我觉得是这么一个意思对我也尝试回答一下前面那个问题这个问题我也没想过但是我刚才想了一下我感觉还是挺有意思的我觉得它未来的结果可能是它人工机器人会晚于量子计算和可能核聚变原因可能是说这个

因为可能这个人行机器人需要就像钢铁侠一样对吧他可能需要带一个可控核聚变作为他的能源的装置以及他需要量子计算作为他的计算单元可能才能真正实现这种通用的这种人行机器我觉得很有意思我也觉得这样说很有道理确实是因为现在我最近看到从数据的就是人物智能发展阶段而言计算的需求是指数级爆炸的

而用现有的芯片而言这件事情是不可实现的现有的计算的方式那可能真的是如果想这个人真的走进千家万户这件事情确实 power 和 computing resource 这件事情可能真的是需要这样的事情做好的另外还有什么想要补充的吗但我觉得我经常可能跟学生说的一些是说

使命这件事情可能是不会发生在我这一代但我可能是奠基的那个人我觉得对于学生们而言他们可能对而且是作为而且做人行这一点上我觉得更重要的是一定要是深入产业的不要在实验室门头干活因为意识方面刚才刘总没资源但对于学生的成长而言他们更多的也是需要去下工厂需要下工厂的

而是要去心理一线针的需求这样的研究才有价值机器人研究必然是跟现实最接近的它才会有研究上的价值行我们今天聊的差不多了今天咱们聊的还挺多的不管是从基础科学角度软件硬件以及最后的商业化我们都大概涉及了一下也欢迎大家在评论区评论我们今天就这样拜拜谢谢大家谢谢好嘞再见好拜拜

请查看本期节目的收纳那我们下期再见