We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E101 Figure的Helix大模型 - 人形机器人最硬核最好懂最全面的解析

E101 Figure的Helix大模型 - 人形机器人最硬核最好懂最全面的解析

2025/2/22
logo of podcast 揭秘科技

揭秘科技

AI Deep Dive Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
我深入剖析了Figure AI最新发布的Helix人形机器人模型。它将视觉(Visual)、语言(Language)、动作(Action)三个模型整合,实现了在人形机器人上的创新性实践。 Helix模型的核心在于它利用机器学习算法,让机器人自主学习如何控制自身行为,摆脱了传统手工编程的束缚。这使得它能够实现一系列前所未有的突破,例如完整的上半身控制(协调35个自由度,每秒200次调整)以及多机器人间的自主协调工作。 与以往使用多个模型或步骤的方法不同,Helix模型采用单一神经元网络学习所有行为,并能够在机器人本地低功耗GPU上运行,无需依赖云端集群GPU,极大提升了商业化部署的可能性。 Figure AI的研究论文指出,家庭环境是机器人技术面临的最大挑战。Helix模型尝试将AI在其他领域已掌握的即时泛化能力应用于机器人控制,其关键在于如何从VLA模型中提取常识性知识,并将其转化为可泛化的机器人控制。 为了解决机器人控制中速度与泛化能力的权衡问题,Helix模型设计了两个互补的模型:系统一(S1)和系统二(S2)。S2是一个基于互联网大数据训练的VLA模型,负责高级目标的理解;S1是一个快速反应的视觉运动策略系统,负责精准的实时动作执行。通过“关注点分离”,Helix模型能够分别优化这两个系统,不受统一观测空间或动作表示的约束,提高了系统的灵活性。 Helix模型采用端到端训练,使用标准回归损失方法,并巧妙地加入了时间偏移来匹配S1和S2系统在部署推理延迟之间的间隔,确保了机器人在执行任务时的流畅性和准确性。 Helix模型的优势在于其通用性,无需为每个任务单独训练模型或微调参数。它在零样本学习和多机器人协调方面也展现出强大的能力,能够处理各种非结构化环境中的任务,并通过简单的自然语言指令完成复杂的动作。 总而言之,Helix模型代表了人形机器人技术的一次革命性突破,它在实时控制、泛化能力、多机器人协作等方面都取得了显著进展,为人形机器人在家庭和工业环境中的应用开辟了新的可能性。

Deep Dive

Shownotes Transcript

科技不应该是少数人的专利每个人都应该能够理解和享受科技带来的好处在这个快速发展的科技世界中理解和跟上科技的步伐并不容易能够穿透表象看到本质更为困难

我的目标是用通俗易懂的语言将复杂的科技概念和商业话题讲得明明白白欢迎来到本期的揭秘科技今天我们要来深度探索聚焦人工智能领域最火最直接改变我们生活的领域人型机器人人型机器人的时代已经到来了而这一领域的突破将会在未来几年里给我们的生活带来翻天覆地的变化这期节目我们

要一起解读一下当前全球人形机器人公司里面的当红炸子机 Figure AI 刚刚发布了最新的 Helix 人形机器人的研究成果从技术到方法从术语到实际应用我将为大家逐一剖析帮助你掌握人形机器人领域里面所有的基本概念

听完这一期节目之后,你将不仅能够理解 Helix 的最新前沿的技术,更能轻松地应对任何关于人形机器人的新闻和报道。不管是未来的技术发展,还是市场上的最新动态,你都能够跟得上,甚至是站在最前沿的知识点上。PigraEye 这家公司在人形机器人领域,在全球的地位相当于是大模型领域里面的 OpenAI,或者是人工智能芯片里面的英伟达。

我的第 12 期和第 21 期节目对这家公司及其创始人有详细的介绍感兴趣的听友可以去那里去了解更多的细节 Helix 是 Figure Eye 这家公司把机器人领域里面通用的视觉、语言、动作 VLA 的模型在人形机器人当中进行了一次完整的创新和实践 VLA 中的 V 是 visual 是视觉的意思

L 是 language 指的是人类的自然的语言 A 是 action 动作的意思 VLA 模型的起源是计算机视觉自然语言处理机器学习和强化学习等多个领域的技术融合的结果它不仅要求机器人具备理解视觉和语言的能力还要求机器人能够基于这些输入执行复杂的物理行为 VLA 模型是现代智能机器人领域里面最核心的技术

VLA 模型它融合了感知,感知主要是指视觉感知,visual 的部分,以及对人类自然语言的理解,也就是 natural language understanding,大家熟知的 NLP,这个就是 L 的这一部分,和自我学习以及控制,也就是 action 这一部分。自我学习和控制呢,英文里面叫做 learned control,它是人工智能领域里面非常重要的一个术语。

是指通过机器学习的算法特别是深度学习来让机器自动去学习如何控制自己的行为而不是依赖于传统的手工编程或者是硬编码的这种规则的控制通过对 V、L 和 A 这三者的结合来克服机器人领域里面长期存在的多个的挑战 Pelix 实现了人类历史上的一系列的手次首先是一个完整的上半身的控制

黑丽丝是首个能够对整个人型机器人的上半身进行高频率连续控制的 VLA 模型完整的上半身控制指的是让机器人实时灵活地控制上半身的所有部分包括肩膀、胳膊、手腕、躯干、头部等等就像人一样能够自然地动起来这听起来简单但对机器人来说确实非常的难

是因为自由度太多,控制复杂什么是自由度呢?自由度叫做 Degrees of Freedom,指的是一个系统能够独立运动的方向或者是方式简单说就是,关节能让你动几种不同的方式人类的上半身大概有五六十个自由度比方说肩膀的转,手肘的弯,指头的抓

D-Lix 能够控制 35 个自由度这意味着机器人每秒要决定 35 个部位的动作方向角度和力度那为什么难呢传统的机器人最多能够控制几个自由度假如工厂里的机械必须抓东西可能就 5 到 66 到 10 个自由度而 35 个自由度就像是同时指挥一个乐队每个人的节奏不同还得完美的协调不然就乱套了

Helix 要做到高频率连续控制这意味着它现在每秒是要调整 200 次整个的计算量是爆炸机的其次呢 Helix 还实现了多机器人协调它是目前人类历史上首个能够同时操作两台机器人的 VLA 模型使得这两个机器人能够协同完成一项他们从来没有见过物体的长时间的操作任务

Helix 能够拿起任何东西搭载了 Helix 的 Figure 机器人现在几乎可以拿起任何家里面的小物件包括数千种他们从未接触过的东西第四是 Helix 机器人实现了单一的神经元网络与传统以往的方法不同 Helix 是使用一组神经元网络的权重来学习所有的行为

两轮拿起和放置物体使用抽屉和冰箱以及跨机器人的互动而无需针对特定的任务进行训练和喂调神经元网络的权重权重这个概念就是指大模型的参数感兴趣细节的听友可以去我的第 97 集节目里面了解细节在 Helix 之前机器人控制通常不是用一个神经元网络来搞定所有的事儿

而是分成了多个步骤或者是多个专门的模型以往的方法就是分头干活视觉语言和动作各一个模型或者是一个任务一个神经元网络费时费力并且非常的死板 Killix 用单一的一个神经元网络把这些全包了去学会所有的行为还能够举一反三

同时呢这个 Helix VLA 大模型呢它也完全具备了商业化的能力它是首个完全在嵌入式的低功耗的 GPU 上运行的 VLA 模型使得呢它可以立即投入商业部署

这意味着 Helix 模型是跑在机器人本地的嵌入式的低功耗的 GPU 上而不是云端的集群 GPU 上这意味着它自带大脑能够独立的看听和动不需要靠外源在 Figure 的 Helix 的 paper 当中它也定义了人型机器人的新的 scaling law 在读到 Figure 的这一段人型机器人新的 scaling law 之前呢

我个人一直觉得人型机器人应该是比完全自动驾驶更难实现否则那些既做自动驾驶又做机器人的公司应该先把机器人做出来了我记得有一位从华为加入地平线的业内人士也是类似的观点如今在我们看到展示的这些个人型机器人能够完成的动作和它能够真正带来价值的动作差距还非常大

比方说如果要在家庭或者医院里面实现护理或者是作为羽毛球和教练和培练大家可以去微博上找一位叫做后米的视频那简直就是灵丹附体但是我相信那个视频是由 AI 来做的如果一个人型机器人的羽毛球培练真的能够到那里的水平的话这个价值是非常大了

这也非常容易理解,因为自动驾驶再难,其实只要解决好机动车道和停车场,这两个场景就够了。机动车道虽然复杂,但是也是有规则和模式的,只不过是由于车道上时常会出现各种意外情况增加了不确定性。而停车场虽然相对简单,但直到现在为止似乎也没有哪家公司能够完全信任自动泊车的系统。

Figure 公司呢这个 paper 让我看到了他们也是同样的一个观点 Figure 的 Helix paper 当中说家庭是机器人技术面临的最大的挑战与受控的工业环境还不一样家里面到处都是各种物体比方说易碎的玻璃器皿皱巴巴的衣服散落的玩具每件东西的形状大小颜色和质地都难以预测要让机器人在家庭当中发挥作用

他们需要能够按需生成智能的新的行为尤其对于从这些机器人从来没见过的物体来说这就非常的难了所以当前的机器人技术的状态是无法扩展到家庭当中的除非出现一次变革性的突破

教会机器人哪怕只是一个新的行为现在都需要投入巨大的人力物力要么是专家级的工程师去花费数小时来手动编程要么是进行数千次的演示让机器人去学会这些东西那考虑到家庭问题的庞大的规模呢这两种方法都是基本上是不可行的

但人工智能领域在其他的场景当中已经掌握了这种即时泛化的能力泛化我解释一下泛化的英文是 generalization 简单来说泛化就是机器或者是 AI 在学会一件事情之后能把这件事用在没有见过的新的情况上而不只是会按照规则去死经备它有点像人类的举一反三学过一样东西就能够灵活应对类似的

在 AI 领域里面人工智能领域里面泛化是这个模型从训练数据中学到规律然后用这些规律去处理新数据的能力假如你叫一个 AI 去认识猫给它看一百张猫的照片如果它以后能够认出来没有见过的猫这就是泛化做的比较好了如果这个猫如果这个 AI 只会认那一百张照片中的猫认不出新猫那就是没有泛化

Figure 的 paper 当中说了既然 AI 在其他的领域已经掌握了这种即时泛化的能力那如果我们能直接将视觉语言模型 VLA 模型当中捕捉到的丰富的视觉和语义的知识转化为机器人的动作那将会怎样呢这种新的能力将从根本上改变机器人技术的扩展轨迹

曾经需要数百次演示才能学会的新技能现在只要需要通过人类的自然语言跟机器人对话就能够立刻获得了让机器人获得这样的能力了所以现在关键的问题就变成了我们如何从 VLM 这个模型当中提取所有的这些常识的知识并将其转化为可以泛化的机器人的控制

因此 Figure 公司开发了 Helix 来验证这样的一种新的方法 Helix 的做法是它首创了系统一和系统二两个视觉语言动作模型用于对整个人形机器人的上半身进行高频率灵巧的控制在 Helix 之前的人形机器人的方法面临了一个根本性的一个权衡

也就是说这个视觉语言模型 VRM 它的骨干网络具有强大的泛化能力但因为这个骨干网络这个模型太大它的反应速度慢无法满足机器人这种对实时反应速度有要求的场景虽然常用的机器人的视觉运动策略有反应的速度非常快但是呢它又缺乏泛化能力

Helix 通过设计了两个互补的模型来解决了这一矛盾并且这两个互补的模型系统都经过了端到端的信任可以相互协作这两个模型分别是系统 2S2 叫做

S2 是一台在机器人本地运行经过互联网大数据运训练的 VRL 模型它以 7-9 赫兹的频率进行场景和语言的理解 7-9 赫兹的频率就是说它每秒能够完成的推理或者是理解的次数是 7-9 次

在高维度的机器人控制系统当中这个频率有助于维持系统的实时响应同时避免过高的计算负荷做一个对比据说人类的眼球的反应大概是十几个赫兹也就是 10 到 15 个赫兹也就是每秒能够反应 10 到 15 次

除了系统二,Helix 还设计了系统一,S1。S1 是一个快速反应的视觉运动策略系统,它以 200Hz 的频率将 S2 生成的潜在语义转换为精准的连续机器人动作。200Hz 的频率表示,S1 系统是以每秒钟处理 200 次动作指令的频率进行了快速精准的控制。

这样结有的系统架构允许 S1 和 S2 每个系统在各自的最佳的时间尺度上运行 S2 可以进行慢思考高级目标 S1 进行快思考以实时执行和调整动作比如在协作的行为当中 S1 能够快速适合快速的适应合作机器人

不断变化的动作同时保持去完成 S2 定义的余裕的目标 Kelix 这样的设计相比于现有的方法提供了几个关键的优势首先就是速度与泛化的能力 Kelix 在执行任务的时候它的速度能够与那些专门针对单一任务进行优化的行为的克隆策略相比例

Helix 无需针对每一个新的物体进行单独的训练能够在没有事先训练的情况之下去灵活地处理各种未知的任务和物体这也就展示出了它出色的通用性和智能其次呢 Helix 还具有非常好的这种可扩展性因为 Helix 能够直接输出高维度动作空间的连续控制

而不需要像过去的 VLA 模型那样的方法那样去使用复杂的动作标记化方案传统的这个 VLA 的方法这种动作标记化方案呢通常是通过对动作进行标记化来简化控制也就是说将连续的动作转换为离散的有限的控制选项

这种传统的方法在某些低维度的控制任务当中很管用比如涉及到简单的动作控制像工厂里面的机械臂还有我们常见的固定的舞姿来跳舞等等然而当任务变得更为复杂尤其是在高维度的人形机器人当中它这种控制任务当中这些传统的标记化的方法就变得不可行了

人型机器人控制涉及到更多这种高维度的动作空间比如同时控制多个关节肩膀手肘和肘部的活动以及更加细致的操作比如用手指去拿非常微小的物体这种高维度的控制需要更加精准和灵活的控制策略而传统的这种标记方法在这类任务上基本上是无法实现的 Kelix 还实现了架构的简单性它使用了这种标准的架构系统二采用了开源的

开放权重的视觉语言模型 VLM 模型而系统一采用了简单的基于大模型的 transformer 的这种视觉运动的策略 Kelix 它的设计还有一个特别聪明的地方实现了关注点的分离它把 S1 和 S2 结偶使得 figure 可以去分别迭代和优化每个系统而不受寻找统一的观测空间或者是动作来表示的约束这个是个非常有意思的点

观测空间指的是机器人如何看待万物外部世界动作表示指的是机器人如何表达自己的动作

在 Helix 的设计当中 S1 和 S2 被解偶了这样做的好处是 Figure 可以分别对这两个系统进行优化而不需要强行寻找一个统一的观测空间也就是机器人如何看待外部世界或者是统一的动作表示也就是说机器人如何表达自己的动作

传统的方法需要在感知、理解和控制之间找到一个统一的方式来表示信息比如使用相同的坐标系、动作格式或者是输入数据这种做法会限制系统的优化空间因为不同的子系统可能有不同的最佳的表示方式

Helix 方式将这两个系统分开使得每个系统可以独立优化不受这些统一表示的限制比如感知系统可以采用最适合图像和语言的处理的方法而控制系统可以采用最适合机器人动作生成的方法而不必为了兼容彼此而做妥协这样让整个的系统在优化的构成当中更加灵活并提升最终的信仰

关于模型的 VLFIGURES 的这个 HELIX 模型与训练的细节 FIGURES 也做了很详细的介绍在训练数据方面 FIGURES 收集了一个高质量的多机器人多操作员的数据机包含了多样化的远程操作行为训练的数据总时长大概 500 个小时 FIGURES 说这个训练的数据量呢也只是 FIGURES 收集到的数据的 5%

为了生成自然语言条件下的训练队,Figure 使用了自动标注的视觉语言模型 VLM,在机器人完成动作之后,去生成回顾性的描述任务步骤的指令。比如,如果机器人已经成功地抓取了一个物品,VLM 就可以生成类似的请让机器人抓住这个物品这样的一个自然语言指令,来为未来的训练提供指导。

这种方法就可以帮助机器人在不依赖于人工标注数据的情况之下快速积累大量的高质量的训练数据此外所有在训练期间处理过的物品都不会再出现在未来的测试和评估阶段这就是为了避免测试和评估的时候机器人已经见过这些物品因此无法真实地反映出它对未知物品的适应能力和泛化的能力

这里我再多解释一下传统机器人训练的数据作为对比传统机器人的训练数据通常是基于单一的机器人且多为离线数据离线数据的意思是这些数据通常来自于预先设定的环境、任务和操作这些数据不依赖于实时的反馈或者是在线的互动而是经过提前规划和收集的

比如单一机器人是一个机器人在固定的环境中去执行某个任务数据会记录机器人的位置、动作、图像、传感器、信息等等有限的操作员互动数据集当中的操作员通常只有一个且只是单向指令或者是简单的交互这种方式通常侧重于单一机器人的控制和任务执行数据量相对固定并且外部环境的变化少或者是没有

这样导致训练出来的结果的适用性非常有限而多机器人多操作员的数据集涉及到了多个机器人在同一环境下协同工作并且有多个操作员同时进行控制或者是交互这样的数据训练数据集的特点包括多个机器人同时去执行任务不同的机器人在同一任务当中分工合作

并且互相有交互数据会记录下来的动作是由多个机器人共同完成的而不仅仅是有一个机器人的动作其次多个操作员的交互不仅仅是一个操作员在操作机器人可能有多个操作员同时远程控制或者是协作来操作不同的机器人

这些操作员之间可能需要沟通甚至是处理一些冲突或者是任务重叠等等也可能不需要预先沟通其次还包括动态的复杂的环境与任务这些数据集记录下来的是复杂多变的环境机器人与机器人之间操作员与机器人之间的互动

可能是预先设定好了也可能是预先没有设定好临时发挥的这样的互动呢就比单一机器人的情况更加复杂这样生成的任务可能是长时间的跨多个场景多个步骤的任务那训练当中使用多机器人多操作员的数据集的好处是什么呢首先是训练更加接近于实际应用

因为在现实世界当中,机器人并不是孤立存在的,它们往往需要与其他的机器人协同工作,尤其是在仓储、救援、制造等领域。同时,也有可能多个操作员参与任务的执行,因此使用多机器人、多操作员的数据集能够更好地模拟实际的场景,协助机器人系统在复杂和多变的环境中进行有效的学习。

而传统的数据级训练往往只能应对单一机器人和单一操作员的任务训练出来的机器人无法在复杂的环境下高效的工作通过多机器人的协作和多操作员的互动机器人能够更好地应对实际工作当中的复杂的任务第二个好处是增强机器人之间的协作能力通过这样的数据级机器人可以学习如何与其他机器人协作来完成任务

比如如何与操作员进行协调工作这对于去执行很多个步骤需要团队合作的任务就非常重要了比如在仓库当中多个机器人需要协同完成物品的搬运任务每个机器人都需要与操作员去分享任务的状态更新任务的进度处理随时可能出现的冲突等等第三是能够提高机器人对复杂环境的适应性

传统的数据通常只覆盖了相对固定简单的环境而多机器人多操作员的数据集通常包括动态的变化和任务的环境机器人不仅仅需要应对固定的任务还需要根据实时的变化来做出反应比如在应急救援场景当中机器人需要迅速的应对突发的环境变化与其他的机器人一起协作快速的决策只有通过这样多样化的数据机器人才能够得到充分的训练

所以总结一下,多机器人多操作员的数据集的关键优势在于能够更真实的模拟复杂的环境、任务和团队协作而传统的数据集则多是简单的单一任务和机器人的操作使用这种数据集进行训练能够使得机器人能够应对实际当中多变的环境与人类进行高效的协作和配合

接下来再说一下 HELIX 的训练过程 HELIX 是全程端到端训练的从最原始的视觉原始的像素和接收到人类自然语言的文本指令把这些映射到连续的动作使用了大部分的训练通用的标准回归损失方法进行训练标准回归损失简单来说

就是用来衡量模型输出的动作与期望的真实动作之间的差距这是人工智能和大模型训练的标准做法在黑丽丝的具体例子当中它通过预测它通过计算预测的动作比如机器人控制的动作和实际动作之间的误差来不断的进行优化来让这个误差越来越小黑丽丝的优势在于它的通用性

它不需要为每个任务专门去训练不同的模型或者是微调这个系统的特定的参数这一点太重要了否则人行机器人要处理的任务太多了根本无法预见 Figure 通过统一的训练的过程和单一的神经元网络权重让 Helix 能够在多个任务和环境中都保持高效的表现

它减少了传统方法当中繁琐的为每个任务进行专门的训练和调试的步骤在训练的过程当中 Figure 还特意在 S1 系统和 S2 系统之间在这两个系统的输入之间加入了一个时间偏移这个时间偏移是经过校准的以匹配和 S1 和 S2 在部署推理延迟之间的一个间隔

确保在部署期间的实时控制需求能够在训练当中得到准确的反应具体解释一下的话呢时间偏移是 Figure 在训练 Helix 加的一个非常聪明的一招前面讲过了 S2 的推理速度比较慢每秒 7 到 9 次而 S1 的这个动作非常的快每秒 200 次

真实跑的时候呢所以就会有延迟那训练的时候加入了这个时间偏移模拟这个时间偏移的差距让 SE 跑得快的 SE 学会等一等确保在部署的时候 SE 的动作实时连贯简单来说就是让快的去配合慢的保证机器人在这个干活的时候不卡壳或者是不会基于错误的时间线上收到的指令来做出错误的动作

说完了训练,再说一下 Helix 的优化流逝推理。Helix 的训练设计使得模型可以在 Figure 机器人上高效的并行部署,每台机器人都配备了双低功耗嵌入式的 GPU,它的推理管道也相应的分为了 S2 高级潜在规则和 S1 低级的控制,每个模型都运行在专用的 CPU 上。

S2 作为一个一步的后台进程运行每秒去想七到九次去理解和消化机器人摄像头捕捉到的最新的视频以及机器人的状态以及收到的人类的自然语言指令并把就此形成的行为的意图记下来存在于共享的一个地方

S1 作为一个独立的实时进程在独立的执行它维持每秒 200 次的循环控制用来平滑的执行整个上半身的动作它一边接收最新的观测数据一边接收 S2 的最新的行为意图 S2 和 S1 推理之间的固有的速度的差异

让这个 SE 在处理机器人观测时拥有了更高的这种时间的分辨率从而为反应性的控制创造了更加紧密的反馈循环这个部署的策略呢特意与训练中引入的时间片移相匹配这样就最大限度的减少了训练和推理之间的这种差距时间上的差距

这种一步执行的模型允许两个进程分别以其各自最优的频率来进行运行使得 Figure 能够像传统的最快的单任务模拟学习策略一样的机器人能够去快速的执行 Helix 这样训练和推理的结果就是产生出的效果是第一能够完成更加高更加细颗粒度的 VLA 的全身控制

Kelix 以 200 赫兹的频率或者说每秒 200 次的频率来协调 35 个自由度的动作空间控制从单个手指运动到末端执行器的轨迹头部注视躯干的姿势等等所有的动作在人形系统在人形机器人系统当中头部和躯干的控制和动作

它带来了一个新的一个独特的挑战因为随着人形机器人头部和躯干的移动它一方面改变了机器人能够到达的地方另外一方面呢也改变了机器人能够看到的东西这样的话呢就形成了一个新的反馈回路这个反馈回路呢有的时候就导致了机器人要做出新的判断和动作这在过去呢经常会导致机器人的一种不稳定性

Figure 的 Helix 的协调过程或者说它是这样解决这个问题的 Helix 机器人在调整躯干以获得最佳的能够到达位置的同时它平稳地将机器人的头部追踪到机器人的手部这样能够同时保持精确的手指控制以实现抓取这样就避免了头部去看到新的场景产生出新的反馈回路影响手部动作的准确性

历史上要实现如此高维度的动作空间下要达到如此的精度即便是对于单一已知任务这样的机器人也被认为是极具挑战性的 Figure 说之前没有任何 VLA 系统能在保持跨任务和跨物体的泛化能力的同时展示出这种程度的实时的协调能力

Helix 的训练和推理产生的第二个好的一个效果是零样本多机器人协调先解释一下术语零样本 Zero Shot 是机器学习和人工智能当中的一个术语它指的是模型在没有见过某个特定任务或者是样本的情况之下仍然能够成功地进行推理或执行任务

Figure 通过一段视频展示了两个机器人把从没有见过的物品进行完美的归类的能力也就是说这种强大的泛化的能力此外呢这两个机器人都使用了相同的 Helix 模型权重这样的话也就避免了机器人特定训练或者是明确的去进行角测分配

两个机器人通过自然原指令进行协调比如把饼干袋递给你右边的机器人或者是从你左边的机器人那里接过饼干袋并放入抽屉当中这是 Figure 首次展示了使用 VLA 的在多个机器人之间进行灵活扩展的协作尤其是在成功处理完全新物品的情况之下这具有极为重要的意义

Figure AI 发现配备了 Helix 的 Figure 机器人可以通过简单的捡起命令拾取几乎所有的小型家庭物品在它整个的系统测试过程当中这些机器人成功地处理了数千件的新物品从玻璃器皿、玩具到家里面的工具和衣物在没有任何先前演示或者是自定义编程的情况之下都轻松地完成任务特别值得注意的是呢

Helix 还弥补了互联网规模的语言理解与精确的机器人控制之间的差距比如当机器人被要求去捡起沙漠物品时 Helix 不仅能够识别出玩具仙人掌这一抽象的概念而且还能够选择合适的手部动作去执行所需要的精准的指令从而更加非常安全地抓取了仙人掌这种通过语言

这种通过通用的语言到行动的抓取能力为人性机器人在非结构化的环境当中的部署开辟了一个新的可能性非结构化的环境指的是那些没有明确规定或者是标准化布局的环境

在这些环境当中物品的位置、形状、种类等特征是不可预知的是变化多端的是根本没有办法通过固定的规则来编程规则来预测和处理的家庭、工厂、仓库等等都属于非结构化的场景而高速公路就属于这种结构化的场景在训练的效率方面

Helix 是在资源的使用上非常的高效它实现了强大的泛化的能力 Figure 用了大约 500 小时的高质量的监督数据来训练 Helix 这个数据量前面说了仅仅是 Figure 收集到的 VLA 数据集当中的一小部分不到 5%并且在训练过程当中还没有去依赖多机器人形态收集到的多个训练阶段

监督数据呢前面提到了这个监督数据在人工智能领域是指训练机器学习的模型的时候输入的数据比如图片文本传感器数据等等与对应的标注或者是标签比如这个目标的类别预测的值动作指令等等相配对的数据把输入数据和这个标签相配对这样的数据叫做监督数据

监督数据是用来指导模型去学习正确的输出既然说到了监督数据那可能就有非监督数据是的非监督数据是与监督数据相对应的非监督数据呢它不包含这种明确的标签或者是目标输出换句话说非监督数据没有预先定义的正确答案

模型需要自己从这些数据当中去发现结构、模式或者是特征,而不是学习具体的答案或者是目标输出。值得一提的是,Figure 用来训练 Helix 的数据量,与现代的单任务模仿式学习机器人数据级的规模是非常接近的。

尽管 Helix 用的数据量相对来说非常的少但 Helix 仍然能够扩展到比现在常见的机器人能够扩展到更加复杂的动作空间比方说完整的上半身的控制并且具有高频率高维度的动作输出在效率方面 Helix 采用了单一的模型全重机

以往的这种 VLA 的模型呢通常需要专门的微调或者是专用的动作来优化不同的高级别的行为 Kelix 令人惊讶的是呢它通过单一的统一的模型在各种的任务当中都表现出来了强大的性能

他使用了他用前面提到了 Helix 只用了一个神经元网络的权重机比方说系统二他使用了 7 个 B-LIN70 亿的参数系统一使用了 8000 万的参数这样就能够去完成了各种复杂的任务了包括在不同的容器当中去挑选放置物品去操作抽屉啊冰箱啊等等互相协调灵活的多个机器人来交接任务

以及去操控成千上万个他没有见过的新的物体 Figure 认为 Helix 是当前人类历史上第一个能够直接通过自然语言去控制整个类人机器人的完整的上半身的视觉语言动作 VLA 模型与之前的人像机器人的系统不同呢

Kelix 能够实时的生成长时间跨度的协作灵巧的操作而且无需任何特定任务的示范或者是大量的手工编程去针对每个不同的场景去进行大量的手工编程 Kelix 展示出了强大的这种泛化的能力只需通过自然语言指令它就能够拾取成千上万种训练中从未见过的新型的家庭或者说工业物品

涵盖了不同的这些物品涵盖了不同的形状大小颜色材质等等这标志着 Figure 在扩展人形机器人的行为方面迈出了革命性的一步我们相信随着那机器人越来越多的在日常家庭环境当中提供帮助这将为整个人形机器人的发展提供出至关重要的一步

虽然这些早期的成果看起来让人非常的兴奋但 Figure 仍然认为这仅仅是所有可能性的冰山一角 Figure 迫切地希望看到当 Helix 人型机器人的部署规模扩大到 1000 倍甚至更多的时候将会发生什么今天的这期节目我们探讨了 Helix 人型机器人背后的技术突破与实际应用

也为大家解读了这一领域的前沿的一些个概念和知识从视觉语言 VLA 模型到跨机器人的协作再到复杂的控制系统和领养本的泛化这每一个技术都展示了人性机器人在未来生活中巨大的潜力我相信随着这些技术的不断进步人性机器人很快就将成为我们日常生活当中的一部分带来革命性的变化

如果你今天听完这期节目之后感到自己对人性机器人的理解有了一些更深入的了解甚至能够在看到相关的报道时轻松地理解背后的技术那我就达到了我的目标了感谢收听本期的揭秘科技我们下期节目再见记得关注与订阅跟上科技发展的步伐始终站在最前沿