有没有想过,有一天机器人真的能像魔鬼终结者里演的那样,跟你对答如流,还能帮你做家事?别以为我在说笑,现在有种 AI 模型让这一切不再是科幻,准备好了吗?我们来进入今天的 AI 业务。
下班学 AIAI 夜 Talk 让你下班轻松学 AI 上班得心应手运用大家好我是阿峰老师大家有没有想过为什么我们工厂的自动化产线已经很厉害了但回到家里还是得自己扫地洗碗整理家务为什么那些电影里无所不能的机器人好像离我们的现实生活还是很遥远今天阿峰老师要跟大家聊聊一个最新的 AI 技术
它可能会彻底翻转我们对机器人的想象甚至可能开启企业自动化的心机源传统的机器人的确在特定的环境下表现得很出色像是汽车工厂里的机械手臂它们可以精准快速地完成重复性的工作但大家有没有发现这些机器人通常只能在非常受控的环境下运作一旦环境变得复杂一点弹性一点它们就常常力不从心
比如说你想要机器人帮你整理家里的客厅客厅里有各式各样的物品形状大小材质都不一样甚至可能摆放的很凌乱传统的机器人面对这种状况就很难有效的完成任务为什么会这样其实问题就出在传统的机器人不够聪明
他们只能执行事先被详细设定好的指令缺乏像人类一样的理解能力和应变能力要教导他们新的技能往往需要耗费大量的人力物力不是要请专家来编写复杂的程式就是要收集大量的示范数据进行训练这样的高成本和低效率就限制了机器人在更广泛领域的应用大家说是不是这样呢?
但现在情况可能要改变了美国一家新创公司 Figure 最近推出了一个名为 Helix 的 AI 模型这个 Helix 模型可不是一般的 AI 模型它是一个视觉语言行动 VLA 模型听到这个名字大家可能觉得有点学术但简单来说它就是一个可以让人行机器人真正听懂人话看懂世界并且做出相对应行动的 AI 大脑这个 Helix 模型
阿峰老师认为他最大的突破性就在于他的通用性过去的 AI 机器人就像是专科医生很擅长处理特定的问题但一遇到新的状况就束手无策但 Helix 想要打造的是一个像全科医生一样的 AI 系统让机器人可以像人类一样具备更广泛的技能和适应能力
Helix 的目标是要让人型机器人能够真正成为企业的 AI 通用人型助手他们可以理解人类的自然语言指令看懂复杂的环境并且做出精细灵巧的动作不只是搬运东西更可以执行组装分类甚至是客服等等更复杂的任务更厉害的是 Helix 还具备零样本泛化能力即使面对从未见过的东西从未学过的任务也能够举一反三及时反应
就像我们人类一样即使第一次看到一个陌生的物品也能够理解指令并且知道该怎么去处理为了达到这个目标 Helix 在技术上实现了许多前所未有的突破阿峰老师帮大家整理了几个 Helix 最关键的技术特色是全上半身精细控制过去的机器人可能只能控制手臂和甲爪但 Helix 却可以精细地控制人形机器人上半身的 35 个自由度包括手腕、去头部甚至是手指
而且是每秒 200 次的高频率连续控制动作非常流畅和精准大家可以想象一下这就像是让机器人拥有了像人类一样灵活的上半身可以完成更复杂更精细的动作应用场景也更加广泛第二个突破是多机器人协作过去要让多台机器人协同工作是非常困难的事情需要个别训练还要设定复杂的协作程式
但 Helix 却可以让两个机器人使用同一套 AI 模型就能及时协作完成任务就像人类团队合作一样自然这大幅提升了效率也降低了部署的成本大家想想看如果工厂里仓库里不再是单打独斗的机器人而是可以互相合作的机器人团队那效率会提升多少呢?第三个厉害的地方是 Helix 的捡起任何东西的能力
传统的机器人要捡东西,通常只能针对特定的物品进行编程但 Helix 却可以透过简单的自然语言指令,捡起几乎任何小型家用物品即使是他们从来没有见过的东西这展现了惊人的物体泛化能力,让机器人更能适应真实世界的多样性这意味着,未来机器人可以应用在更复杂更非结构化的环境中,像是家庭办公室等等
第四个特色是单一 AI 模型搞定所有任务过去的 AI 模型通常一种模型只能做一种任务但 Helix 却只用一组神经网路权重就能学习所有的行为包括捡取物品操作家电多机器人协作等等不需要针对特定的任务进行微调这简化了 AI 模型的复杂度也更方便企业部署和维护大家想想
如果只需要一套 AI 系统就能让机器人执行多种不同的任务那是不是可以大幅降低企业的成本和管理复杂度呢?最后一个关键突破是商业化落地近在眼前过去的 VIA 模型运算需求非常庞大很难实际应用但 Helix 却可以在低功耗的嵌入式 GPU 上高效运行这代表 Helix 已经具备了商业部署的条件不再只是实验室里的技术展示这也意味着
我们可能很快就能在市面上看到搭载 Helix 模型的机器人产品出现大家是不是跟阿峰老师一样对人型机器人的未来充满期待呢?那么 Helix 到底是怎么做到这些看似不可能的事情呢?秘密就在于它独特的系统一系统二双脑架构这个架构其实有点像是我们人类的思考模式系统 2S2 就像我们人类的慢思考负责高层次的思考理解语言分析场景规划任务
S2 使用预训练的视觉语言模型 VLM 就像机器人的大脑