We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

2025/4/29
logo of podcast 晚点聊 LateTalk

晚点聊 LateTalk

AI Deep Dive Transcript
People
高阳
Topics
高阳:我从伯克利回国后,在清华任教期间,逐渐意识到科研领域可探索的方向越来越少,而机器人领域,特别是具身智能,有巨大的发展空间。大模型的出现,为具身智能提供了新的技术基础,也让我下定决心创业。 我与韩峰涛共同创立了千寻智能,致力于推动具身智能技术发展。我们认为端到端(VLA)是具身智能的必然趋势,虽然分层方法在工程上更容易实现,但长期来看,端到端才能实现真正的通用性。 我们的技术方案是将互联网数据、真机遥操作数据和强化学习相结合,以提高模型的泛化能力和成功率。叠衣服是一个很好的例子,它体现了具身智能在理解物体状态和制定操作策略方面的挑战。 我们发现具身智能也存在数据规模定律(Scaling Laws),数据量越大,性能越好。要达到GPT-3.5水平,需要海量数据。但仿真数据并不能完全替代真实数据,因为仿真的多样性是有限的。 我们认为具身智能需要大脑和本体的结合,只做大脑或只做本体都难以成功。未来机器人产业链将类似于汽车产业链,需要本体、大脑和各种零部件的协同发展。 目前具身智能行业仍处于技术突破期,商业化应放在技术成熟之后。我们相信,只要一步一步地做好每一个环节,就能最终实现具身智能的L2、L3甚至更高水平的目标。 我个人崇尚规律的生活方式,这有助于提高效率和保持清晰的思维。我相信,具身智能领域最终会形成共识,并迎来产业化的爆发。

Deep Dive

Shownotes Transcript

「伯克利 BAIR 博士、清华叉院助理教授,跳进具身创业。」

高阳是清华大学交叉信息研究院的助理教授,同时也是具身智能公司千寻的联合创始人和首席科学家。

高阳在具身智能领域深耕多年,他是清华计算机系本科,UC Berkeley 博士,师从国际计算机视觉大师 Trevor Darrell。在 2016 年时,他就和许华哲一起做了端到端自动驾驶的课题,这在当时是个小众的方向,但如今已经成为自动驾驶行业的共识。

这几年在具身智能领域崭露头角的早期公司,多多少少有 UC Berkeley 学子的身影——刚才提到的许华哲是星海图的首席科学家,星动纪元的创始人陈建宇、最近刚刚加入估值最高的智元机器人的罗建兰,都曾在 UC Berkeley 深造过;创立边塞科技的吴翼也是毕业于 UC Berkeley。

在 2024 年,高阳与有产业经历的韩峰涛共同创立了千寻,千寻在非共识中找到的切入点是端到端+具身大脑+机器人本体+互联网视频预训练、模仿学习、强化学习。成立至今,千寻已经获得了三轮融资。最近他们也发布了VLA Spirit v1 的 demo,机器人可以叠衣服了。

这次我们不仅聊到了高阳的技术理解,也聊到了他的思维方式和过往经历。

创业者们都在尝试怎么把机器人做得更像人,而高阳像一个融入人类世界的机器人:他从不熬夜,早晨七点半“开机”,每天骑 31-33 分钟的共享单车前往工作地点,在每周固定时间健身;他相信 COT(Chain-of-Thought,思维链),认为所有事情都可以按照 COT 一步一步走向结果,不仅是生活,也包括学术研究和创业,甚至“一步一步,每一个链条都做好,自然会导向具身智能的 L2、L3 的实现”。

这位 91 年出生的具身研究者和创业者,不倾向输出斩钉截铁的结论,但他相信他推理出的一切,不管和别人的声音是否一致。

本期嘉宾: 高阳,千寻智能首席科学家,清华叉院助理教授,个人主页(内有邮箱联系方式))

时间线跳转:

-“中国速度”在具身智能的体现:修机器 02:02 创业 moment:科学家能做的探索越来越少,这在大语言模型领域已经发生 04:09 团队搭建:产业老炮+年轻科学家 07:18 Figure 02 的 demo 很好,展示了快慢系统 09:38 中国相对美国优势在于修机器人快,不然修机器人的速度赶不上做实验的速度 12:12 具身智能的阶段划分 14:23 现在中国具身智能在从 L1 到 L2 的路上

-机器人必须得是“人”形吗? 14:41 机器人不一定是人形,但 L2 以后可能需要双臂+轮式底盘 15:31 没有操作、只有移动,不能解决主要矛盾 18:52 双足不难,没有本质的卡点 21:31 虽然操作重要,但一定得有上半身吗?其实是从成本角度考虑的,像“人”一定可行 23:53 人形机器人,到底是更精细分工,还是更泛化?

-“端到端是走向具身智能的共识,分层只是短期工程选择” 27:00 端到端(VLA,Vision-Language-Action)是现在具身智能的共识吗? 28:53 训练过程:互联网视频预训练、模仿学习、强化学习 29:51 为什么叠衣服这样的操作会成为具身智能领域的“智商测试”? 34:14 快慢系统在叠衣服这件事里怎么配合的? 35:35 当前机器人的主要挑战是泛化性

-“人是分布式,机器人是中心式” 36:28 视频数据的可用量只有 1%,机器人学习怎么操作、预测轨迹 38:44 人类的肌肉记忆,机器人也有 43:33 跨任务泛化:强化学习成功率取决于基模的训练和 SFT(监督微调 Supervised Fine-Tun-ing) 45:00 具身智能也有 Scaling Laws 吗?做到 GPT3.5,可能需要 100 亿条有效数据、1 亿遥操数据、几千万强化学习数据 49:05 Scaling Laws 在仿真数据不成立

-“具身智能做到 GPT-4 那种程度还得5年” 50:32 为什么只做大脑不行?驯化新的躯体很难的 51:55 为什么只做本体不行?价值在大脑端,现在有了大脑能力才引起的风潮 53:06 机器人未来会像汽车产业链 55:10 关于朱啸虎说的没有商业化,高阳觉得现在最重要的还是把技术做好 56:41 行业何时收敛?当具身智能走向 L2 时 57:57 现在具身智能的瓶颈还是在 AI,要补齐才能成为“木盆”

-个人成长:一位信奉 COT 的“小天才” 59:35 伯克利“归国几子”的介绍 01:01:27 同一个实验室的,还有许华哲、贾扬清等 01:03:22 2016 年博士最开始做自动驾驶,那时端到端自动驾驶还不被相信 01:06:41 学术不需要灵光乍现,个人的思考方式就是 COT 01:07:11 所以在明年 6 月具身智能会到 L2,再过一年半到两年 L3 01:07:34 读书时在 waymo 实习三个月:感觉脑子要坏掉了 01:10:15 读博想创业,但没好机会;毕业后回国做科研,伯克利“归国几子”兼职“HR” 01:12:43 跟许华哲最近讨论:看起来具身智能是个非共识行业,但这已经是坍缩、收敛后的结果 01:15:54 大学教授出来创业,会拍拍屁股走人吗? 01:17:37 一个崇尚规律的 ISTJ:不熬夜、骑共享单车上下班、规律健身

相关链接: 晚点聊 86:We,Robot-2,清华叉院/星海图许华哲看“Optimus”的门道) 晚点聊 65:信仰充值的威力,与逐际谌华聊 GTC 和人形机器人新进展) 晚点聊 40:与梅卡邵天兰聊通用机器人,AI 的下一个浪潮?)

剪辑制作:甜食

**本期主播:**即刻 @王与桐)

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: