We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象

106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象

2025/6/22
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive AI Chapters Transcript
People
张小珺
活跃在人工intelligence和大模型领域的播客主持人和专家,通过《全球大模型季报》和《商业访谈录》分享行业深入分析和预测。
王鹤
Topics
王鹤:我认为当前行业内存在一些不良现象,例如夸大技术能力、虚假承诺,这些行为会损害整个行业的声誉。我呼吁从业者要规范自身行为,避免为了短期利益而损害行业长远发展。我们应该公开展示真实的技术能力,而不是通过炒作来吸引眼球。只有踏实做好技术,才能真正推动具身智能的发展。同时,我也强调了规模化生产的重要性,如果不能在五年内实现万台以上的规模化生产力,那么这个领域就会被证伪,最终沦为泡沫。

Deep Dive

Chapters
本节探讨了具身智能的起源和发展历程,从计算机视觉领域兴起,到如今成为主流研究方向。嘉宾王鹤详细解释了视觉、语言、智能三者之间的关系,以及VLM弱于LLM的原因。
  • 具身智能起源于计算机视觉学术流派
  • 视觉并非智能的本质,但它是重要的传感器
  • 语言是人类智能跃迁的关键

Shownotes Transcript

今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。

王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。

而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。

我们探讨了一些具身智能产业界关键问题:

1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?

2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?

3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。

去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。

2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发),大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 03:00 开始的自问自答 05:58 语言不是智能的本质,而是“一次跃变” “具身智能”和“机器人”是不同学术流派

“具身智能”起源于“计算机视觉”的研究流派

视觉有智能吗?纯视觉智能的可解释性差,是端到端的

语言不是智能的本质,不能说没有语言就没有智能

智能的本质是什么?“一种视情况对环境做出反应的能力”

语言是人类能产生这么高智能的“一次跃变”

视觉的本质是一种非常强的sensor(传感器) 25:08 具身智能的学术边缘史 具身智能最早兴起的task(任务)是,导航

加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事

标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)

我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道 41:15 我的学术之路 2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)

在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向

Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你

第一篇论文憋了很久,很绝望

完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术

我的第二个项目:位姿估计和合成数据相关

2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧

回国坚定以家庭机器人为目标推进research,根本没有allies(盟军) 01:25:08 具身智能的软件和硬件是螺旋上升的问题 ChatGPT火了以后,很多人开始找我创业,我说创不了

所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当

如果采取不成熟的激进的硬件方案,对智能会是一种拖累

在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能

**VLM为什么显著弱于LLM?**互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的) 01:44:34 我们要避免陷入以下泥潭 这一代具身智能公司相比此前机器人公司,差异在哪?

在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:

1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降

我们要做一个应用场景内的泛化(现在选择的是货架场景)

在我看来,机器人领域的头部效应很重 01:55:17 具身智能是,“生产力即产品” 雇人摇操采真实数据的成本到底有多高?一笔经济账

真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁

行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)

关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区

有出货量后的数据回流和数据飞轮

如果大模型是“智能即产品”,那么具身智能就是“生产力即产品” 02:13:51 资本轰炸后的人为乱象 谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国

对Figure的估值400亿美元的两种逻辑

有的人胆子很大,不告诉别人我是摇操,但实际摇操

呼吁:真实展示!不要摇操!

5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!

不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗

通用机器人的到来不要想得那么快 02:25:25 一个插曲 去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?

黄仁勋能吃辣,吃了很多水煮肉片

02:28:26 最后的快问快答 【机器人专场】

逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”)

【更多信息】

联络我们:微博@张小珺-Benita)

更多信息欢迎关注公众号:张小珺