We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E101 Figure的Helix模型 - 人形机器人最硬核最好懂最全面的解析

E101 Figure的Helix模型 - 人形机器人最硬核最好懂最全面的解析

2025/2/22
logo of podcast 揭秘科技

揭秘科技

AI Deep Dive AI Chapters Transcript
People
主播
以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。
Topics
我作为播主,认为人形机器人时代已经到来,其突破性发展将深刻改变未来生活,Figure公司最新发布的Helix人形机器人模型是这一领域的重要突破。该模型涵盖技术、方法、术语和实际应用等方面,是机器人领域通用视觉、语言、动作(VLA)模型的创新实践,应用于人形机器人。 Helix模型的核心是通过机器学习算法实现机器的自我学习和控制,而非传统的手工编程。它实现了多项技术突破,例如完整的上半身控制,能够控制35个自由度,这是机器人控制领域的一个巨大挑战。此外,它首次实现了多机器人自主协调工作,能够让多个机器人协同完成复杂任务。 Helix模型使用单一神经网络学习所有行为,不同于以往的多个模型方法。它是第一个完全在嵌入式低功耗GPU上运行的VLA模型,实现了商业化部署。Figure AI公司在Helix论文中定义了人形机器人的新的scaling law,认为家庭环境是机器人技术面临的最大挑战,因为其环境复杂且难以预测。 要让机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为,尤其对于从未见过的物体。人工智能在其他领域已经具备了即时泛化的能力,而Helix模型的关键在于将视觉语言模型中的知识转化为机器人的动作。Helix模型的关键问题是如何从VLA模型中提取常识性知识,并将其转化为可泛化的机器人控制。 Helix模型通过设计两个互补模型(系统一和系统二)来解决机器人控制中速度和泛化能力之间的权衡问题。系统二(S2)是一个在机器人本地运行的VLA模型,以7-9赫兹的频率进行场景和语言理解;系统一(S1)是一个快速反应的视觉运动策略系统,以200赫兹的频率将S2生成的语义转换为精准的连续机器人动作。 Helix模型的架构允许系统一和系统二在各自最佳的时间尺度上运行,从而实现高效协作。Helix模型的关键优势在于速度、泛化能力和可扩展性,避免了传统VLA模型中将连续动作转换为离散控制选项的简化方法,从而能够处理高维度的动作空间。 Helix模型实现了关注点分离,使得可以分别优化系统一和系统二,而不受统一观测空间或动作表示的约束。通过解耦系统一和系统二,避免了传统方法中寻找统一表示方式的限制,从而提高了系统的灵活性。 Helix模型的训练使用了高质量的多机器人多操作员数据集,包含了多样化的远程操作行为,使用了自动标注的视觉语言模型,避免了对人工标注数据的依赖。Helix模型是端到端训练的,使用了标准回归损失方法,其优势在于通用性,无需为每个任务单独训练模型或微调参数。 在训练过程中加入了时间偏移,以匹配系统一和系统二在部署推理延迟之间的间隔。Helix模型的优化流式推理将S2和S1分别部署在专用的CPU上,实现高效并行处理。 Helix模型在人形机器人系统中头部和躯干的控制带来了新的挑战,因为它改变了机器人的可达范围和视野。Helix模型通过协调躯干和头部运动来解决这个问题,保持精确的手指控制。它实现了零样本多机器人协调,能够在没有见过特定任务或样本的情况下成功执行任务。 Helix模型能够通过简单的捡起命令拾取各种小型家庭物品,无需先前演示或自定义编程,弥补了互联网规模的语言理解与精确机器人控制之间的差距,能够在非结构化环境中部署。 Helix模型在训练效率方面非常高效,使用的数据量相对较少,但仍然能够扩展到更复杂的动作空间。它使用单一模型和权重,在各种任务中都表现出强大的性能,无需特定任务的示范或手工编程,具有强大的泛化能力。 虽然Helix模型取得了令人兴奋的成果,但这仅仅是所有可能性的冰山一角。随着技术的不断进步,人形机器人将很快成为我们日常生活的一部分,带来革命性的变化。

Deep Dive

Chapters
本期节目深入剖析Figure公司最新发布的Helix人形机器人模型,涵盖技术、方法、术语及实际应用。Helix模型在人形机器人领域实现了多项突破,例如完整的上半身控制、多机器人协同工作以及在嵌入式低功耗GPU上运行的能力。
  • Figure AI在人形机器人领域的领先地位,如同OpenAI在大模型领域和英伟达在AI芯片领域
  • Helix模型是Figure公司对通用视觉、语言、动作(VLA)模型在人形机器人上的创新实践
  • Helix实现了完整的上半身控制(35个自由度),多机器人协同工作,以及在嵌入式低功耗GPU上运行

Shownotes Transcript

全球人型机器人公司里的当红炸子鸡,Figure AI在2月20号发布了最新的Helix人型机器人研究成果(完整视频在这里)),Figure AI这家公司在人型机器人领域,在全球的地位相当于大模型领域的OpenAI、人工智能芯片里的英伟达,我的第12期)和第21期)播客,对这家公司、及其创始人有详细介绍,感兴趣的听友可以去了解更多细节。

​本期节目,我将深入剖析Figure的Helix模型,全面覆盖从技术到方法、从术语到实际应用的各个方面。无论你对人型机器人感兴趣但了解不深,还是希望掌握该领域的基本概念和前沿知识,都会在这里找到清晰易懂的解读。

02:02 Helix是Figure这家公司把人形,把机器人领域里面通用的视觉、语言、动作的VLA模型,在人形机器人中,进行了一次完整的创新和实践。

03:12 "自我学习和控制" - “learned control", 是指通过机器学习的算法,来让机器自动去学习如何控制自己的行为。

03:44 Helix实现了人类历史上的一系列的首次。

03:48首先是一个完整的上半身的控制。

04:35 ”自由度“就是关节能让你动几种不同的方式,人类的上半身大概有五、六十个自由度

05:28 其次,Helix还实现了多机器人自主协调工作

06:05 与以往传统的方法不同,Helix使用一组神经元网络的权重、来学习所有的行为。

07:23 Helix模型是跑在机器人本地的、嵌入式的、低功耗的GPU上,而不是云端的集群GPU上,这意味着它自带大脑,能够独立的看、听和动

07:40 在Figure格的这个Helix模型的paper当中,也定义了"人形机器人的新的scaling law".

09:35 要让机器人在家庭当中发挥作用,他们需要能够按需生成智能的新的行为。

10:32 "泛化",就是机器或者是AI在学会一件事情之后,能把这件事用在没有见过的新的情况上。

11:59 如何从VLA模型当中提取所有的、常识的知识,并将其转化为可以泛化的机器人的控制?

12:31 在Helix之前的人型机器人的方法,面临了一个根本性的一个权衡。

15:01 Helix两个互补模型这的设计,相比于现有的方法,提供了几个关键的优势。

15:52 传统的VLA模型实现方法,将连续的动作转换为离散的、有限的控制选项,来简化控制。

16:44 高维度的控制需要更加精准和灵活的控制策略,而传统VLA方法在这类任务上基本上是无法实现的。

17:24 Helix"关注点分离“的做法,不受寻找统一的“观测空间”或者是“动作表示”的约束。“观测空间”,指的是机器人如何看待外部世界;“动作表示”指的是机器人如何表达自己的动作。

18:53 关于Helixd模型的训练数据、和训练方法,Figure也做了详细介绍。

20:15 这里我再解释一下传统机器人训练的数据,作为对比。

25:21 Helix是全程端端到端训练的

25:42 “标准回归损失”,就是衡量模型输出与期望之间的差距

26:12 Helix的优势,在于它的这种通用性,不需要为每个任务专门去训练不同的模型,或者是微调这个系统的特定的参数。

27:08 “时间偏移”是Figure在训练Helix时,加的非常聪明的一招

27:59 说完了训练,再说一下Helix的优化流式推理。

30:31 随着头部和躯干的动作,一方面改变了机器人能够到达的地方,另外一方面,也改变了机器人能够看到的东西,这带来了一个新的挑战。

32:09 “零样本”,zero shot,是机器学习和人工智能当中的一个术语,指的是模型在没有见过某个特定任务或者是样本的情况之下,仍然能够成功的进行推理和执行任务。

33:42 Helix还弥补了互联网规模的语言理解、与精确的机器人控制之间的差距。

34:12 “非结构化的环境”,指的是那些没有明确规定或者是标准化布局的环境。

35:25 “监督数据”,在人工智能领域是指。。。监督数据是用来指导模型去学习正确的输出。

36:07 “非监督数据”没有预先定义的正确答案,模型需要自己从这些数据当中去发现结构模式或者是特征,而不是学习具体的答案或者是目标输出。

37:12 Helix通过单一的、统一的模型,在各种的任务当中都表现出来了强大的性能,无需任何特定任务的示范,或者是针对每一个不同的场景去进行大量的手工编程。