We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The State of AI for Robotics

2025/3/14

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive Transcript

People

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

主持人：谷歌发布了专为人形机器人设计的Gemini Robotics AI模型系列，这标志着具身AI领域发展迅速。具身AI，特别是用于通用任务的AI模型，研发难度很大。目前的人形机器人需要针对每个动作进行专门的训练，例如特斯拉的Optimus机器人。谷歌DeepMind的新AI模型Gemini Robotics旨在解决这个问题，它具备通用性、交互性和灵活性三个主要特性。 Gemini Robotics由高级视觉语言动作模型和Gemini Robotics ER（具身推理）两个模型组成，前者处理多模态输入，后者负责空间推理和规划。 Gemini Robotics能够胜任各种各样的任务，包括以前从未在训练中见过的任务，例如放置水果、折叠塑料袋和制作折纸鹤。推理模型Gemini Robotics ER可以帮助提高机器人的新任务执行能力，使机器人能够进行更复杂的规划和操作，例如玩井字棋或拼字谜。谷歌的突破对整个行业都有影响，Figure AI等公司也正在开发类似的模型，并开始在现实世界中部署机器人。中国公司也在生产机器人，但其技术可能不如谷歌的先进。英伟达公司虽然没有生产机器人，但其AI技术可以用于机器人训练，其Cosmos World Foundation模型可以创建虚拟模拟环境用于机器人训练。风险投资家认为具身AI即将迎来拐点，Dexterity Inc.和Aptronic等公司获得了巨额融资，表明投资者对该领域的信心。 Aptronic公司与谷歌合作，使用谷歌的AI模型来驱动其机器人，这表明谷歌的模型在该领域处于领先地位。

Deep Dive

Shownotes Transcript

Google刚刚发布了Gemini Robotics，这是一个强大的新型AI，专为人形机器人打造，它使机器人技术超越了简单的开门等任务，能够处理诸如折叠折纸或打包杂货等复杂动作，无需特定训练。Figure AI、NVIDIA以及初创公司Unitree、Dexterity和Apptronic等公司也在积极推进。特别优惠要获取您现成的代理，请访问https://www.lindy.ai/，并将标题为“LINDY”的邮件发送至[email protected]。由以下机构提供：KPMG – 访问 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠www.kpmg.us/ai⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 了解更多关于KPMG如何帮助您利用我们的AI解决方案创造价值的信息。Vanta - 简化合规性 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw来自Superintelligent的代理准备情况审核 - 访问https://besuper.ai/ 以请求您公司的代理准备情况评分。AI每日简报帮助您了解AI领域最重要的新闻和讨论。订阅AI每日简报的播客版本，无论您在哪里收听：https://pod.link/1680633614订阅时事通讯：https://aidailybrief.beehiiv.com/加入我们的Discord：https://bit.ly/aibreakdown </context> <raw_text>0 今天在AI每日简报中，我们将讨论谷歌新的具身AI模型。在此之前，头条新闻报道了更多关于谷歌对Anthropic投资的信息。AI每日简报是一个关于AI领域最重要新闻和讨论的每日播客和视频节目。要加入讨论，请关注我们节目说明中的Discord链接。♪

我们今天首先关注一篇来自《纽约时报》的报道，内容是关于谷歌与Anthropic的关系。头条统计数据显示，《纽约时报》获得的文件显示，谷歌拥有Anthropic约14%的股份。当然，我们知道谷歌一直是Anthropic的投资者，所以这并不是什么新鲜事。相反，这只是为这些非常有趣的交易提供了一些背景信息，坦率地说，这些交易对于AI领域来说是新颖的。

Open AI与微软的交易为此设定了模板，而其催化剂是AI需要如此多的资金，以至于传统的风险投资机构（通常在10亿或20亿美元左右就耗尽资金）无法满足对数百亿美元资本的需求。这实际上使得前沿实验室别无选择，只能与大型科技巨头合作。新闻媒体对此如此感兴趣的部分原因是它与谷歌的反垄断案有关。

你可能还记得，8月份，一家联邦法院认定谷歌在互联网搜索中扮演了垄断者的角色，司法部提出了一系列关于如何补救这种情况的建议，包括迫使谷歌出售任何可能与搜索竞争的AI产品。这使得他们与Anthropic的关系（其Claude聊天机器人被一些人用作一种搜索方式） squarely in the crosshairs. 现在，Anthropic认为不应该强迫谷歌剥离股份。他们

他们表示，强制剥离股份将“损害Anthropic和更广泛的竞争”。他们表示，这将压低Anthropic的价值，并阻碍其筹集资金的能力。最终，这只是快速变化的金融格局以及AI初创企业领域中另一个有趣的现象。说到快速变化的AI初创企业领域，过去一两周中获得最多关注的公司当然是AI代理初创公司Manus。

该公司现在宣布，它将与阿里巴巴合作，正式在中国推出其产品。在一份声明中，他们表示，他们正在与阿里巴巴的Quen团队进行战略合作，以“满足中国用户的需求”。基本上，目前的协议是，如果你要在中国市场发布人工智能产品，你必须与一家中国AI公司合作。这就是为什么，例如，苹果公司甚至没有在其国家发布其基本的苹果智能功能，因为他们一直在努力完成这套合作关系。

鉴于目前围绕Manus的兴奋之情，TP Huang捕捉到了很多情绪，他写道，阿里云将需要更多计算能力。

说到阿里巴巴，该公司还发布了一个名为R1 Omni的新AI模型，这完全符合他们声称能够解读人类情绪的优秀、令人难忘的AI模型名称的行列。该团队发布的演示展示了在解释视频输入方面的功能。在视频中，一个穿着棕色夹克的男人站在一幅色彩鲜艳的壁画前。他的面部表情很复杂，眼睛睁得很大，嘴巴微微张开，眉毛上扬，眉头紧锁，表现出惊讶和愤怒。

语音识别技术表明，他的声音中包含“你”、“降低你的声音”和“吓坏了”等词语，表明情绪强烈且激动。总的来说，他表现出困惑、愤怒和兴奋的情绪状态。虽然尚未阐明其具体的用例，但彭博社认为这可能是阿里巴巴追赶OpenAI的GPT-4.5的一种方式。OpenAI在发布时表示，他们的新模型“更好地理解人类的含义，并能以更大的细微差别和情商来解读细微的线索或影响预期”。

最后，困境中的英特尔宣布了一位新的首席执行官，至少在一些人看来，这重新燃起了这家苦苦挣扎的公司能够复兴的希望。三个月前，帕特·盖尔辛格在担任首席执行官四年后被解雇。他于2021年被任命为公司负责人，其任务是使业务合理化并扭转局面。然而，到他12月份被解雇时，这家曾经伟大的美国芯片制造商似乎要被拆散出售了。

几个月过去了，各种并购传闻不断。甚至有报道称，特朗普政府正在推动与台积电的“猎枪式”安排，台积电将接管芯片制造业务。然而，董事会现在任命李浦坦为新的首席执行官。坦是一位拥有40年经验的技术投资者，自2022年以来一直担任董事会成员。据报道，他去年辞去了董事会席位，原因是他们在如何扭转公司局面方面存在分歧。当他辞职时，董事会中没有任何成员拥有半导体行业的经验。

现在掌舵的坦将能够实施他的复苏计划。在一份声明中，他写道，然而，在任命之后，有消息传出台积电的收购计划仍在进行中。台积电已向英伟达、AMD和博通公司提出建议，让他们在一家合资企业中持有股份，这家合资企业将运营英特尔的晶圆厂。台积电将在运营业务方面发挥主导作用，但不会拥有合资企业50%以上的股份。

这将有助于减轻特朗普政府对外国公司拥有关键的美国芯片制造设施的担忧。据路透社消息来源称，英特尔董事会成员已支持一项协议并与DSMC进行了谈判，而一些高管则坚决反对。我们将拭目以待这笔交易是否会达成，但总的来说，华尔街看好这笔交易，华尔街看好新任命，英特尔股价在隔夜交易中上涨了11%。然而，这就是今天的AI每日简报头条新闻版的内容。接下来是主要节目。

我们在节目中经常谈论代理，但如果你曾经想过，“我不想再谈论代理了。我只想实际构建和部署一些东西。”我很高兴今天能与你分享一些特别的东西。我们已与Lindy合作，为那些只想深入研究代理的公司提供一种方法来入门，一种快速行动并构建有意义的东西而不超出预算的方法。

前五家给我发送电子邮件的公司（nlw.bsuper.ai），邮件标题中包含“Lindy”，将有机会与Lindy合作，构建一个实际的功能代理，以满足他们的特定需求，费用低于20,000美元。您可以构建的一些代理包括客户支持代理，也许可以自动化您网站上的回复。

您可以构建一个用于生成或筛选销售线索的SDR，或者您可以构建一个完全适合您的内部沟通需求的代理，无论是做笔记、安排日程还是其他事情。Lindy不仅可以与您已经保存数据和信息的所有地方集成，它还是一个完全可扩展的平台，这意味着随着您雇佣越来越多的代理员工并真正建立您的数字员工队伍，Lindy将使这些代理能够互操作，并且基本上能够以无缝的方式一起工作。

因此，如果您有兴趣在几周内（而不是几个月或几年）全面深入研究代理，请给我发送电子邮件（[email protected]），在标题中加上“Lindy”，让我们一起上线您的第一个数字员工。今天的节目由Vanta赞助。信任不仅仅是赢得的，更是被要求的。

无论您是正在应对第一次审计的初创公司创始人，还是经验丰富的安全专业人员正在扩展您的GRC计划，证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化超过35个框架（如SOC 2和ISO 27001）的合规需求来建立信任。集中的安全工作流程可以将问卷调查完成速度提高5倍，并主动管理供应商风险。

Vanta可以通过将您与审计师和专家联系起来，帮助您启动或扩展您的安全计划，以便快速进行审计并建立您的安全计划。此外，由于平台中使用了自动化和AI，Vanta可以为您节省时间，让您可以专注于公司建设。加入超过9,000家全球公司（如Atlassian、Quora和Factory），他们使用Vanta实时管理风险并证明安全性。

在有限的时间内，本节目观众可以享受Vanta的1,000美元折扣，网址为vanta.com/nlw。网址为v-a-n-t-a.com/nlw，可享受1,000美元折扣。听众朋友们，您是否负责安全部署和使用值得信赖的AI？KPMG有一份首创的AI风险和控制指南，它为组织提供了一种结构化的方法，以开始识别AI风险并设计控制措施来减轻威胁。

KPMG的AI风险和控制指南与众不同之处在于，它概述了实际的控制考虑因素，以帮助企业管理风险并加快价值创造。要了解更多信息，请访问www.kpmg.us/AI Guide。网址为www.kpmg.us/AI Guide。

今天，我们将做一件事情，那就是利用一些当代新闻作为视角，来观察过去几周发生的一系列更广泛的更新。正如我提到的，我们今天讨论的是AI与机器人的交叉点。现在，这场对话的具体催化剂是谷歌发布了一系列专门设计用于驱动人形机器人的AI模型，这意味着现在是时候谈谈具身AI了。

这是一个发展极其迅速的领域，很大程度上是由实际驱动机器人技术的AI模型的进步所推动的。距离埃隆·马斯克在大型引人注目的Robotaxi活动上推出特斯拉的Optimus机器人还不到六个月的时间。虽然这些机器人在视觉上令人印象深刻，但在接下来的几天里，人们发现这些机器人很大程度上是由幕后人员远程控制的。尽管这为埃隆·马斯克的仇恨者提供了素材，但它也反映出具身AI实际上很难实现。

尤其是在涉及用于通用任务的AI模型时。到目前为止，人形机器人需要针对每个动作进行专门的训练，AI模型主要帮助处理边缘情况和细微偏差。例如，Optimus机器人在演示过程中可以轻松地调制饮料，这可能是因为它们经过了训练可以做到这一点。但是，如果顾客要求他们握手，而没有人类控制，他们就会很难做到。这就是谷歌DeepMind的新AI模型试图解决的问题。

这个名为Gemini Robotics的新模型构建在Gemini 2.0之上，继承了Gemini的原生多模态功能，这意味着该模型可以处理视觉、文本和音频输入。DeepMind在其发布博文中写道，为了对人们有用和有帮助，用于机器人的AI模型需要三个主要特性。

它们必须是通用的，这意味着它们能够适应不同的情况。它们必须是交互式的，这意味着它们能够理解并快速响应指令或环境变化。它们必须是灵巧的，这意味着它们能够做人们通常用手和手指做的事情，例如小心地操纵物体。

DeepMind实际上构建了一对模型来驱动通用机器人技术所需的功能的不同部分。第一个是他们的高级视觉语言动作模型，其功能类似于其他多模态LLM，但包括物理动作作为一种新的输出模式。第二个称为Gemini Robotics ER，即具身推理的缩写。该模型采用推理模型背后的前提，并将其应用于物理环境。正如DeepMind所说，该模型具有“先进的空间理解能力”。

现在，有趣的是，这类似于当前一代AI代理的设计方式。代理构建者通常使用推理模型来规划和分析情况，然后将其交给另一个模型执行，这意味着将具身AI视为拥有眼睛和手的代理并非不合理。DeMind表示，谷歌机器人模型，引用：

并开箱即用地解决各种各样的任务，包括在训练中从未见过的任务。由于该模型构建在LLM之上，因此它对语言输入具有普遍的理解能力，并且可以接受自然语言指令。一个演示视频显示一张桌子，上面摆放着各种水果和容器。具身AI接收到语音指令，巧妙地将香蕉放入透明容器中，而无需对该任务进行任何特定训练。谷歌还展示了精细运动技能的巨大进步，具身AI能够关闭一个Ziploc袋子，甚至可以制作一个折纸鹤。

添加推理模型Google Robotics ER有助于提高机器人规划新任务执行的能力。Dmind写道：“结合空间推理和Gemini的编码能力，Gemini Robotics ER可以即时创建全新的功能。例如，当显示一个咖啡杯时，该模型可以直观地理解用于通过手柄拿起咖啡杯的合适的两指抓握方式，以及接近咖啡杯的安全轨迹。”推理LLM的功能也延续到现实世界中。

这意味着机器人可以做一些事情，例如玩井字游戏或使用拼字游戏瓷砖完成文字谜题。这里的关键突破在于，这种模型系统允许机器人从狭窄的特定任务范围转向更通用的应用。在DeepMind从事具身AI团队工作的Kirthana Gopalakrishnan发布了，Gemini Robotics已经问世，是世界上最先进的VLA。我尤其对指令遵循的结果感到震惊。这是我个人第一次觉得构建通用的具身智能触手可及，就像机器人复活了一样。

彭博社的马克·古尔曼指出，其影响远不止谷歌DeepMind。他说，这就是机器人的样子。

现在，谷歌并不是唯一一家致力于这种具身AI模型的公司。2月初，Figure AI放弃了与OpenAI的合作，转而使用他们自己内部开发的模型。几周后，我们看到了这些模型的功能。演示视频显示一对机器人一起打包送货上门。机器人以前从未见过这些物品，但能够推断出番茄酱瓶应该放在冰箱的什么位置。如果有人试图进行一对一的直接比较，有些人可能会认为这个演示不如谷歌本周的演示令人印象深刻，因为

机器人的动作要慢得多，似乎灵活性较差，并且承诺的任务范围更有限。但另一方面，Figure AI拥有自己的人形机器人设计和生产，而谷歌则是在其他公司提供的硬件上演示其软件。尽管如此，两家公司似乎都在研究相同的基本系统设计，即将推理模型与执行模型配对。在放弃OpenAI交易时，Figure AI首席执行官布雷特·阿德科克表示，“……我们发现，要在现实世界中大规模解决具身AI问题，

你必须垂直整合机器人AI。我们不能外包AI，就像我们不能外包硬件一样。”Figure AI已经开始在现实世界中部署他们的机器人。他们目前正在南卡罗来纳州宝马汽车制造厂进行一项试点项目，以及另一份未公开的合同，该公司表示，这可能会使他们交付的机器人数量达到10万台。该公司确实展示了一段机器人分拣包裹的视频，让许多人认为客户是美国大型航运公司之一。

这些都是商业客户，但至少从投资者的角度来看，大部分兴奋和胃口似乎是将人形机器人带入家庭环境的必然未来。Figure AI似乎也证明了人形机器人公司已经过了投机阶段，至少就其估值而言是这样。去年2月，在B轮融资期间，该公司的估值相当不错，为26亿美元。但上个月，彭博社报道称，他们正在洽谈以395亿美元的估值进行C轮融资。

当然，我们现在也生活在深度寻求manas的世界中，每个人都在想知道中国发生了什么。感觉每天在X上，你都能看到一些中国生产的机器人执行一些灵巧动作的视频。本月早些时候，一家名为X-Robot的公司凭借一个极其逼真的女性机器人（背后有一个良好的语音模型）而走红。

现在，你在这里观看的这段视频将科幻因素调到了最高，所以谁知道这个产品有多真实。再说一次，鉴于我们近几个月在中国的AI领域所见所闻，我当然不会排除这种可能性。一家肯定正在生产真实产品的中国公司是Unitree。他们在1月份的CES上展示了一系列机器人和各种形状因数。你可能也看到了该公司最新发布的病毒式视频，视频中一个功夫机器人踢掉了一个人手中的棍子。现在，许多来自贸易展的视频仍然有人类操作员控制。

这让我们回到了为什么谷歌的模型可能是如此重要的新闻。因为谷歌可能刚刚展示了一条途径，可以填补中国具身AI所缺乏的部分。

目前，Unitree提供的这些G1单元起价为16,000美元，但你必须认为这些价格在未来几年将会大幅下降。另一个值得在此综述中提及的具身AI关键参与者是NVIDIA。这家芯片制造商本身并没有开发机器人，但他们肯定在用于训练机器人的AI方面取得了一些重大进展。1月份，NVIDIA发布了他们的Cosmos World基础模型。该生成模型可用于创建现实世界场景的虚拟模拟，用于机器人训练。

世界模型的改进是过去几个月取得的一项重大突破，几家初创公司展示了他们自己正在开发的技术版本。

其理念是，可以将机器人的数字孪生体放置在模拟环境中，从而可以快速生成合成训练数据。这并不一定有助于解决谷歌正在研究的推理和泛化问题，但它确实可以大大提高灵巧性和特定运动训练。1月份的Cosmos发布也伴随着NVIDIA首席执行官黄仁勋的一些非常乐观的声明。他说，通用机器人的“Chat GPT时刻”即将到来。他还站在一张显示AI行业呈指数级增长的图表前发表了主题演讲。

在代理AI（我们目前正处于其中的浪潮）之后，该图表在包括自动驾驶汽车和通用机器人在内的物理AI方面飙升得更高。在演讲中，黄仁勋表示，自动驾驶汽车很可能是“第一个万亿美元规模的机器人产业”。虽然目前我们还没有看到任何看起来接近完全能够胜任通用目的的人形机器人，但黄仁勋确实提到，他预计NVIDIA的产品将在未来几年为10亿台人形机器人提供动力。

到目前为止，我已经介绍了很多大公司，但即使是这些公司之外，风险投资公司也肯定正在关注我们正在经历的具身AI拐点。本周早些时候，Dexterity Inc.以16.5亿美元的估值筹集了9500万美元，用于制造能够像人类一样灵巧的机器人。该公司的宣传与谷歌描述其通用机器人标准的方式非常相似。首席执行官萨米尔·梅农描述说，他的机器人可以触摸和识别物体，能够意识到并适当地响应周围环境，

并且会优雅地移动并在需要时进行调整。他补充道：“这三者的结合是我们所设计的，我们相信这将推动物理AI的未来。”Lightspeed Ventures的合伙人里维尔的简表示，他正在向该公司投资更多资金，因为他相信我们正在达到物理AI的拐点。

此外，上个月，一家名为Aptronic的初创公司在A轮融资中筹集了3.5亿美元，估值未公开。该公司是德克萨斯大学的分拆公司，已经从事人形机器人研究超过十年。本轮融资包括谷歌的参与，DeepMind与该公司合作，为其机器人提供AI。事实上，你可以在本周的演示视频中看到Aptronic机器人正在测试谷歌的具身AI。本轮融资的资金远远超过该公司在此轮融资之前筹集的2800万美元。

首席执行官杰夫·卡德纳斯评论说，巨额融资是必要的，因为他的机器人几乎已经准备投入生产。他说：“对于Apptronic和人形机器人行业来说，2025年的目标是真正向这些最初的早期采用者和客户展示这些应用中的有用工作，然后在2026年及以后实现真正的商业化和规模化。”在解释与谷歌的合作关系时，卡德纳斯表示，这比创建他们自己的模型更有意义，并补充道：“我们相信，目前谷歌在构建世界上一些最好的模型方面处于领先地位。”

所以朋友们，这就是对具身AI现状以及AI与机器人技术交叉点的快速更新。这就是我们今天节目的结束之处。一如既往地感谢您的收听。直到下次，再见。

The State of AI for Robotics 19:03 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

The State of AI for Robotics