We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The Missing Data Stack for Physical AI

2025/7/1

MLOps.community

AI Deep Dive AI Chapters Transcript

People

Demetrios

Nico West

Topics

Nico West: 我认为“物理AI”这个术语是由Jensen推广的，它涵盖了使用AI来分析或作用于物理世界的产品。它包括智能机器人、空间计算等，这些都与智能软件和现实世界的互动有关。我认为智能软件与现实世界的互动应用广泛，包括安全应用和体育分析等。 Demetrios: 我认为物理AI是在物理空间中，我们可以触摸到的，与现实世界互动的AI。

Deep Dive

Chapters

This chapter explores the definition of Physical AI, contrasting it with traditional robotics. It highlights the increasing use of AI in real-world applications and the opportunities it presents.

Physical AI encompasses AI applications interacting with the physical world, including robotics and spatial computing.
The term 'Physical AI', while relatively new, is gaining traction as a more inclusive term than robotics.
Many applications of physical AI, such as security systems and sports analytics, were not previously considered under the umbrella of AI or robotics.

Shownotes Transcript

这不仅仅是时间问题，而是，“这太烦人了，要等这么久”。世界一直在运转，无论你快慢与否。如果你很慢，这并不会改变世界其他部分的速度，对吧？机器人也是一样。好的，我是尼科·韦斯特，Rerun 的首席执行官。我大量饮用的咖啡是加牛奶的滤泡咖啡。但我喜欢各种各样的咖啡。♪

我认为我们应该先概述一下你对物理 AI 与机器人的看法。因为我听说过机器人，也听说过从事机器人研究的人说，最大的失望是机器人内部并没有很多 AI。大多数你听说过的机器人公司。当然。所以我觉得……

“物理 AI”这个术语，至少我最近看到 Jensen 将其普及开来。因此，它显然存在许多炒作问题，对吧？但当这种情况发生时，我真的很高兴，因为我们一直在寻找一个术语来涵盖使用 AI 或……你知道的，

广义上的 AI 也许吧。你知道，经典的，我只是那些做智能事情的算法，就像非常深入的模型等等。这种算法基本上将智能应用于物理世界，要么只是分析它，要么在其中做一些事情。所以我包括像智能的，或者也许是某种程度上的自主机器人，以及空间计算，还有……我不知道，我们想到了像长尾机器人这样的东西

物理智能，比如我不知道，比如安全应用，是的，还有很多不同的，我不知道，体育分析，所以有很多你可能想用智能软件做的事情，这些软件以某种方式与世界互动，所以我个人认为，或者我们把所有这些东西都归入物理 AI 的范畴。

就像电子游戏一样，当你抓取所有这些传感器时，是的，我认为，对于 V-Run 正在做的事情，这可能非常相关，也许我不把电子游戏归入物理 AI，即使它非常接近，你可以谈论它，我认为还有其他相邻的东西，比如生成式媒体，你完全可以把它放在那里，有很多

呃，软件、数据以及你如何构建这些产品的类似模式，某些方面就像物理……某种生成式媒体，特别是如果它们是视频，并且试图更逼真等等，但这足够接近，在某些情况下你也可以谈论它，但我认为大多数人在说物理 AI 时并不是这个意思，所以……我认为

我认为人们的理解范围从我所说的内容（即广义上的理解）到有些人只是认为它是机器人换了个酷炫的名字。我认为这两种情况都会发生。基本上，如果我理解正确的话，它是存在于世界上的、物理空间中的 AI，几乎是一种我们可以触摸到的方式。它是可感知的。是的，就像与现实世界互动一样。我认为……

不在电脑上，对我们这些技术人员来说很容易忘记，但在世界大部分 GDP 中，发生在物理世界中，而历史上，软件除了管理一些事情之外，并没有真正参与其中，我的意思是，你可能有软件来管理医生的预约，但它不是我们，它不是机器人医生，对吧……

你可能有软件来跟踪建筑物，比如施工进度表之类的东西。或者发送发票。没错。但你没有软件或技术来完成所有的建筑工作。所以，我认为这就是摆在我们面前的，现在正在发生并且成为可能的事情。所以在这种意义上，广义地说，我认为物理 AI 准备改变一切。

经济的巨大、巨大的组成部分。所以我至少相信它具有潜力，并且看起来它也将成为历史上对世界经济最大变化之一。现在，我恰好同意你的观点，但我还想提出一些担忧

一点，那就是我们过去二十年来一直在从物联网人士那里听到同样的事情。但我仍然没有看到物联网彻底改变了我们的生活方式，对吧？也许如果你真的喜欢的话，你会有很酷的智能家居设备。或者我注意到某些停车场有传感器，可以检测是否有空车位。

我不会把这些归类为改变生活。明白了，是的。我不会为物联网炒作辩护。我个人从来不明白它。但对于任何新事物来说，对吧？它还没有发生，所以它可能不会发生，对吧？是的，所以这取决于信念，我想。我认为，我可能永远不明白物联网的是，它听起来像是很多喜欢技术的人

谈论的是什么，就像是的，你正在连接一切，这本身并没有解决问题，也许你过去解决过一个问题，但它实际上并没有描述你可以做的事情，但我认为在现实世界中执行工作或自动理解现实世界中正在发生的事情，这些都是工作，就像……就像……这就是你为真正的人们创造价值的方式，我认为这是非常明确的

所以在这种意义上，这是非常不同的。但这当然取决于技术是否有效，以及它们能否以有效的方式推向市场。但我认为这些类别在这些方面非常不同。为什么现在？你认为我们为什么正处于事物变化的边缘？我认为这主要是物理 AI 的 AI 部分，对吧？

这并不是说所有伟大的解决方案都将依赖于此，就像 AI 将是最重要的事情一样。但现实世界非常复杂，这只是永无止境的复杂性。有很多事情可能出错。世界非常混乱。很难构建能够为非常大的市场提供服务的超级通用产品，而

当软件不够智能时，就像那种挑剔的方式一样，无法处理模棱两可的挑剔情况或事物变化的情况，因为对于经典技术来说，对于物理世界来说，制造有效产品的办法是极大地限制使用

这样你就可以制造出正确的产品，比如一个人可以编写一个处理每种情况的算法，这就像我们今天看到的咖啡制作机器人一样，我认为是的，我只是限制它，也许，也许它是一个咖啡制作机器人，或者

或者像制造生产线上的一个单元一样。它非常可重复，但你只是极大地限制了它。如果这件事足够有价值，你可以把所有的精力都放在只为这件事制造东西上。但现实世界中存在的许多事情都比这要混乱得多。所以基本上你需要一些更灵活的东西，更能够处理模糊性。而这正是

这就是现代 ML 和 AI 技术的意义所在。所以我认为这是一个。然后，这将使你能够做到的是，如果你能够满足更大的市场，你就可以更多地投资于硬件。硬件也很重要。这不仅仅是 AI，你还需要能够投资于硬件才能使其变得更好，使其高质量，但也低成本。这来自于规模。硬件是一个规模游戏。

所以，当你拥有规模时，你就会获得很多额外的好处。想想移动电话发生了什么，对吧？这产生了一个巨大的生态系统，它生产组件，对吧？但你可以用它来创造价格合理的其他……某种更利基的产品。所以移动电话生态系统推动了制造无人机的能力，对吧？然后你可以因为这个生态系统而制造出价格低廉的优质无人机。

我省略了这个词，但因为这个生态系统，基本上。就像你有了这种创新，并且有这些次要和三次效应一样。所以我认为这真的是一件大事，需要几件事结合在一起。首先，你需要一种能够处理这种混乱的技术，这使你能够构建服务于更大市场的硬件产品。这使你能够更多地

大力投资这些产品，这让你能够获得这种规模，并且这种规模飞轮开始运转，特别是对于 AI 等等，你实际上也需要这个飞轮来收集数据，但对于真正好的 AI，你需要大量的硬件来收集数据……

来改进模型，然后允许你再次部署并获得更好的数据，因为它们现在正在做更高级的事情，对吧？所以你需要这个飞轮运转起来。你还需要规模飞轮，它导致良好的硬件，即以良好价格提供的有效硬件产品。为了让这个球滚动起来，你还需要炒作。

这实际上是一个非常重要的组成部分，你需要能够相信未来并大力投资于它，我认为 ChatGPT 这样的 LLM 方面的 AI 提供了这一点……所以它启动了这一点，我认为这引起了很多兴趣，然后在机器人领域内有一些……一些重大的突破，我想

在方法上，比如可扩展的机器人学习方法，这已经很久以来一直是一个梦想，至少是我的理解，但不是现实。对于可扩展的 AI，我只是指与你通常谈论 AI 的方式相同，对吧？你可以投入更多的数据和更多的计算能力，它就会变得更好。

是的。而且，我们现在认为这是理所当然的，但这在机器人领域中永远都不是这样。对。但几年前，我了解到……第一批论文展示了这些……RT1、RT2、RTX 之类的论文的特性。我不知道你是否知道它们。是的。可能还有其他一些东西真正启动了一切，但从我的角度来看，这就是我所看到的。

这也启动了，好吧，我们现在也在这里看到可扩展的方法了。所以，从我的角度来看，这就是……看到 LLM 以及现在也在机器人方法中看到这一点的结合，才真正开始让这个球滚动起来。现在，这个领域的炒作非常、非常真实，而且投资巨大、巨大。我认为这对于特别是在涉及硬件时，实际上是必要的。所以这是一个非常冗长的……

对这个问题的回答。但我认为这就是为什么现在的原因。你能分解一下物理 AI 的训练生命周期吗？我们使用什么模型？我们收集数据的方式是什么？都是通过摄像头吗？是通过其他传感器吗？平台是什么样的？如果你想把这些模型部署到世界上，你需要启用什么？因为我认为

它有很多额外的复杂性，因为你正在以某种方式部署到边缘，但我不知道有多少……

边缘部署，你也可以将某些任务卸载到云端，整个过程是什么样的？我觉得我不清楚，当然这取决于具体情况，是的，也许我们可以只选择一个具体案例来讨论，当然……哦，是的，这超级依赖于具体情况，但它们非常复杂，你可以想象任何解决方案，如果你能想象有人正在做某种设置的话

但也许是超高层次的。我喜欢将你需要考虑的两个主要系统视为在线系统和离线系统。对于在线系统，我的意思是正在运行的东西，让我们说机器人，但这可以是某种非机器人东西。但运行的东西就像

当机器人正在世界上做事情时。它在机器人上运行。技术上无关紧要。它可能正在运行一些……也许会点击一个运行模型并返回的 API。所以我包括了这一点。但从心理上你可以想到机器人上运行的东西。它正在理解世界、规划、做出决策、比如捡起东西、比如行动等等。所以这就是在线系统。然后你就有你的离线系统，在那里你……

基本上，你正在使用……也许在你的笔记本电脑或工作台上或某个数据中心运行一些东西。这将与可观察性有关。比如，等等，我的机器人集群现在正在发生什么？它将是你可能原型化新算法和新想法的地方。我们运行……

像分析来理解性能或只是深入研究事情，他们只是试图理解你正在收集的数据以及你如何……通过数据管道整理和收集和转换数据，转换成准备好用于训练的数据，然后训练和部署，以及所有这些事情，所以我把这些都归入离线系统的范畴，有多少，对不起

在这个虚构的场景中，通常有多少模型会在设备上或在线运行？是的，这是一个很难回答的问题。但我认为我们可以考虑一下，也许从历史的角度来看一下。所以如果我们开始考虑，所以在设备上运行，我们正在谈论在线系统。所以传统上，在线运行的一切都是，再次，没有机器学习，或者可能有一些……

也许你学习了一些分类器来做一些事情等等，但这主要是手工编写的东西，使用 3D 规划算法等等。但所有这些都是由机器人工程师编写的 C++ 算法，优化 SLAM 的状态，机器人在哪里，所有这些东西。

这就是以前做事的方式。然后，你知道，深度学习出现了，可能会开始更换小型模块。比如，哦，我们的计算机视觉有点……所以也许我们只是检测物体，但它只是以某种频率运行，运行一个，你知道，物体检测器，对吧？而且

其他所有管道都将其视为……关于这一点没有什么特别之处，它只是一些数据，我们编写算法来随着时间的推移融合这些数据并推断出何时做什么等等，所以我把它放在……

让我们看看，AlexNet 是什么时候？2012 年？是 14 年吗？我不记得了。是的，12 年。所以也许在 2018 年 Canera 风格。我非常自信地说出了这一点。我现在要核实一下。我说，不，不，12 年。这对我来说感觉是对的，但在这个范围内。然后，所以，你知道，你开始，所以，这有效，你添加了一些更多的模型到那里，并且

但这仍然只是模块化的。你有一个模型。我们有很多模型。也许它们做一些单一的事情。比如，你可能还有另一个模型，比如查看一些其他输入信号或图像，它们输出像运动估计之类的东西。所以你只是有这些小模块。它更像是一个库，但你可以把它想象成它只是一个执行某些操作的函数。

所以这是一种……一直有越来越多的这种趋势，对吧？这有很多问题，因为事实上，你不能把它们当作黑盒子来对待，因为有很多不确定性，而且你知道，ML 模型不会……你知道，即使是性能非常高的模型，它们也只在……

它们的操作数据与训练数据大致相同的情况下才能很好地工作。是的。唯一的方法是……而且这很难，对吧？这是一个难题。你怎么知道你什么时候超出了这些数据等等？然后你会得到很多这些，用……手工编写的算法将它们缝合在一起，它会变得一团糟，而且很难构建复杂的系统。我认为这就是人们试图构建……自动驾驶汽车的方式，对吧？

使用这种方法，它并没有真正奏效，对吧？所以我想从那里的趋势是……我的意思是深度学习的理念是……你知道，端到端地做事情，这已经越来越普遍了，基本上，随着时间的推移，你只需要说，好吧，现在我们有四个模块，好吧，我们可以把它们都换掉，让它成为一个神经网络，它可以端到端地做更多的事情，所以我想这通常是趋势，这可以非常极端，我认为在……

一些非常端到端关注的人形项目中，你可能有像两个神经网络，或者也许是一个，他们称之为一个，但它实际上是两个。然后你可能有一个

较低级别的，速度更快、更小，专注于快速低级别的……全身控制。所以它实际上是接收像 IMU 这样的信号，也许还有压力和其他类似的传感器。它只是有一些目标，你知道姿势或它应该在哪里。比如身体姿势应该是什么样的。它基本上是在做你以前可能用更经典的基于优化的方式完成的控制。

然后你有一些更大的神经网络，比如也许没有这样的技能，比如更高层次的技能，比如去拿这个东西等等，这个东西可以更慢，所以这可能是……甚至在上面有一个第三层，它接收文本输入并进行规划等等，如果你是非常非常 AI 优先的话，但是是的，他们可以用手工编写的系统等等来替换这些部分，但是

我没有看到很多做所有事情的单一神经网络。我看到过这种营销，但我不知道这在实践中是否会发生。你提出了一个很好的观点，那就是在这些系统中，特别是在线系统中，你受到了不同的……

因为你在世界上，无论是……你必须高度关注电池，还是你必须关注速度，没有人想要一个机器人，你告诉它做某事，然后 20 分钟后它回来，说实际上我做不到，我经历了，我计划好了，是的，不，我研究了这个话题，我无法做到，对吧？所以

在那个领域做事情时，你还需要注意哪些其他约束或事情？我认为最重要的区别是……是的，最重要的就是时间。这不仅仅是时间问题，而是，“这太烦人了，要等这么久”。世界一直在运转，无论你快慢与否。如果你很慢，这并不会改变世界其他部分的速度，对吧？机器人也是一样。如果它

它正在做某事，它就像，哦，让我抓住这个东西。然后那个东西被移走了。无论你是否收集它，这都没有关系。你知道，它本来就会这样做，对吧？它不再在那里了，对吧？等等。这与你的 ChatGPT 风格的互动非常不同，对吧？你会希望它很快，因为这样感觉更好。但它仍然是这种……单一的……你接收输入，然后……你知道，处理所有输入，然后……你知道，给你一些输出，对吧？

并没有真正存在一个围绕它发展的世界概念，所以时间就是……因为是的，这真的改变了一切，你真的需要更复杂地思考你在如何思考……你刚刚做了什么，对吧？你需要跟踪一切如何随着时间的推移而发展，你可能有多种时间概念，比如

计算时间、现实世界时间、现实世界中发生的一切。然后你可能有一个算法，它需要一定的 CPU 时间或一定数量的迭代。也许你想跟踪，哦，这是在什么时间采样的？然后我什么时候做出这个决定？这个决定比你做出的时间晚一点，因为你必须计算东西，但它与旧信息有关。所以处理时间是你真正会遇到的非常重要的事情。

当你试图创建系统时，后端听起来也很混乱，你需要查看时间被解释的所有不同方式。是的，它会变得混乱。所以你需要构建，我的意思是，它增加了你需要的……数据工具的复杂性，对吧？与……哦，我训练了一个图像分类器相比，这令人震惊地简单，对吧？相比之下，这是一个问题，而这些是

机器人模型或其他任何操作时间序列的东西，即使这样也更复杂，但它们有一些内部的……比如步骤的概念，然后在现实世界中，就像哦，并且某种程度上叠加在它们正在操作的实时系统上，所以……时间是我要说的一件非常重要的事情，是的，你知道，然后显然还有其他资源约束、电池等等，这些都非常困难，但是

类似于其他事情，你有一些约束，也许它们在边缘更困难，但这仍然是同一个想法

好吧，是的。跟我谈谈这方面的数据，因为这感觉就像，再次，处理所有这些不同格式的不同数据会非常困难。特别是所有视频数据都必须非常重。然后你如何使用视频数据训练模型，你可能有一些时间约束。

或只是时间数据，以及更多表格样式。没错。我认为我们对在线和离线系统有这样的想法。所以在机器人上，对吧，在线系统上，你会做的是尝试记录

发生了什么。是的。所以在现实世界中，你有了这个……事情以不同的速度发生。你可能有……你知道，你的视频每……30 FPS 发生一次。但你可能还有……比如运动传感器，它们以……1000 赫兹的速度运行。所以速率非常不同。有时这些东西是……某种程度上是分布式的。比如，机器人可以是……一个分布式系统。你甚至有不同的时钟等等。哦，哇。所有这些数据都以不同的速率变化。你还在记录发生的事情。所以……

你事先并不知道数据集的确切形状，因为你正在记录发生的事情。所以这些东西，比如你正在记录的数据非常混乱。它有点像……基本上是日志，对吧？但它是多模式数据流的日志。所以有很多不同类型。它可能是 3D 信息，这种不同的结构，比如这些数据通常以……深度嵌套的结构等等进行结构化。你可能有音频和视频以及……

3D 传感器、不同类型的运动、内部指标。所以它真的非常混乱，非常复杂，而且从数据角度来看很难有效地处理，因为你面临着将非常快速的小信号结合起来的问题

与大型、沉重的……你知道，大型张量、图像和点云等等，这些可能速度较慢。将它们存储在一起实际上非常困难。所以经典的机器人技术，或者一般来说，你会在……系统上，你倾向于将数据存储到……非常特殊的、某种程度上非常适合写入优化的文件格式中。哦，有趣。它们只是擅长……记录确切发生的事情，并执行最少的运算来将它们真正快速地写入磁盘。

这就是……没有……像干扰任何正在运行的板载东西一样。然后，所以这是第一步。然后你想让数据离开机器人，上传它。这取决于体积，也许你上传所有数据，或者你有一些选择性的，比如只在发生某些事情时上传，或者那种事情。但是

无论如何你都必须把它送到更集中的地方才能使用它。这就是你把它扔进 S3 存储桶的地方，还是……我会说，为了让它超级简单，对吧？最简单的……事情就是，是的，你定期将这些日志写入文件，然后你有一个小作业将它们上传到 S3，到某个 S3 存储桶，然后你就在那里有了它们。这将是第一步，第一部分。等等，这很简单。什么是高级的？

好吧，高级的只是把它取下来，就像，好吧，我们将运行……收集如此多的数据，以至于上传它甚至没有意义。如果你考虑一辆自动驾驶汽车，它们会在停靠在某个地方时收集数据。然后你只需更换 SSD，对吧？然后放入一些新的 SSD。你可能永远不会上传它。或者如果你这样做，你需要将卡车装满 SSD 发送到 AWS，对吧？是的。

你拥有你自己的本地……所以你可以做出选择，对吧？你只在需要时上传它。你有一些存储架构，你将所有东西都保存在你收集数据的地方的本地数据中心。你只需要将元数据保存在那里，直到你需要时再获取它。在大规模情况下，它会变得非常、非常复杂。

但让我们保持简单。你只需写入这些文件并上传它们。让我们假设这是可能的。所以在那之前，你还有另一个问题。所以你想能够查看机器人的当前状态。所以你想……可视化非常、非常重要。只是为了……基本上，你想看到所有……如果你正在研究机器人，那么你想能够实时……

可视化所有这些数据流，比如你想看到一个 3D……如果它是工作……你知道，如果它对世界有 3D 理解，你想看到那个 3D 地图，你想看到机器人……你知道，在这个地图中四处走动，看看它看到了什么，看看不同算法的内部状态以及……所有摄像头馈送是什么，并且你想能够在时间上前后滚动，对吧？所以等等，如果出现问题，你想回滚看看发生了什么，对吧？所以

所以，构建这类系统时，就需要实时可视化。然后，你想要事后查看你记录的文件，对吧？然后分析它们。这就像每会话的观察能力。这是一个非常非常核心的方面。好的，这很重要。所以在转向像这样的离线系统之前，

只需记录发生的事情到一些经过优化的文件中，然后使用一些可视化工具来查看文件或查看实时情况，你无法在没有这些东西的情况下构建这些产品，即使在经典机器人技术中也是如此，你需要这些东西，在经典机器人技术中，ROS（机器人操作系统）是一种最常用的设置，它提供了这种

数据记录和一些可视化功能，并且有一些为这种情况构建的更现代化的可视化工具，但是它们确实非常，所以它们很棒，它们适用于此，或者像Orvis、Webvis、Xvis、Foxglove，有很多这样的工具，它们有点像机器人日志可视化工具，非常重要，这就像为像ML之前的世界设计的，

那时你的产品的核心复杂性在于机器人在运行什么。但是你需要它。但是接下来会发生什么，然后你可以考虑一下离线会发生什么，也就是你现在想要训练、改进你的模型，对吧？所以你已经上传了这些数据，至少目前世界的情况是，你接下来需要使这些数据能够被你安装的系统使用

来进行MLOps，对吧？所以ML，你知道，数据管道等等。所以在训练之前，你希望它在，我不知道，TF记录或，你知道，任何HDF5文件，这些文件都是，你知道，经过优化的，准备训练。而所有这些东西往往都非常结构化，并且不擅长存储这种混乱的日志样式数据。最重要的是，所以，你还想运行分析，比如，

运行一些统计作业，计算指标，所有这些东西。所以基本上，所有现有的离线数据工具，如果它是Databricks或Datadog或任何东西，这些工具都不理解这种物理AI、机器人风格的数据。它们不知道存储系统，不知道如何读取这些日志结构的、混乱的文件格式。它们希望所有东西都像一个带有列的表等等。

它们不知道如何处理巨大的未对齐数据。并且没有内置的可视化功能，这对于调试至关重要。然后团队最终会构建这些非常复杂的数据管道来尝试转换和清理数据并进行数据集管理。

因为这些离线系统并不真正理解数据的源结构，所以这些事情变得非常复杂。听起来很糟糕。是的，非常糟糕。然后它变得非常复杂且非常脆弱。然后你没有能力，因为你没有任何内置的可视化功能。所以你实际上没有调试的能力。如果你最后一次，就像在训练之前，突然，所有数据都颠倒了。这是在哪里发生的？

你甚至没有内置的可视化功能，所以也许我曾与使用Rerun的自驾车公司谈过，他们发现了一些错误，哦，我们在训练某些东西，你知道，某些东西的方向在训练期间翻转了两年，这导致性能下降，因为他们没有看到它，我们没有一个好的方法，很难调试数据管道，你知道，数据管道中每一步之后的状态，他们没有，这太难做了，所以

这类事情。是的。这些事情变得非常复杂。所以你最终会让这些机器人公司陷入困境，对吧？他们最终会拥有两个堆栈，传统上，你拥有为经典机器人技术构建的在线数据系统，但它不理解这种数据。

你拥有为大规模学习等构建的离线系统。但它们不理解物理数据。这些系统之间不会相互通信。是的，这简直是一团糟。这就是世界的基本状态。你创建了一些可视化，对吧？你决定，或者工具来帮助可视化，以便

物理AI可以理解世界，你可以看到它们在哪里以及如何理解世界，你决定将其开源。我们可以谈谈你到目前为止开源的所有内容以及背后的灵感吗？当然。我想先把它框架化一下。所以我们公司Rerun正在做的事情是，我们基本上试图

解决我刚才谈到的问题。所以我们想构建一个新的统一的数据堆栈，它可以处理物理AI的在线和离线场景，这样你就可以获得一种一致的、易于使用的体验，并具有内置的可视化功能，以及更高效、更易于使用的查询等功能，因为这种数据堆栈同时理解这两种类型的数据。是的。

好的，我们大约在两年前，大约三年前开始，并将大部分前两年半的时间花在一个开源项目上。它被称为Rerun，就像公司一样。该项目专注于记录和可视化随时间变化的多模式数据。所以比机器人技术更广泛的应用，但比机器人技术更广泛。

所以我们实际上最初专注于机器人技术之外的更多计算机视觉，并且已经扩展到更广泛的领域，所以这是一个项目，你拥有Python、Rust和C++中的SDK，你可以把它想象成，就像你记录文本或其他东西一样，记录一个指标，但你可以记录某种

任何东西，你知道，像张量或3D点云，构建一个完整的3D场景来显示正在发生的事情，或者，你知道，普通的指标和视频，并且所有东西都连接在一起，比如相机四处移动，你悬停在一个图像上，它会突出显示该光线在3D中的发射位置。所以这些东西也允许你

在时间上前后滚动，我必须说这有点像星球大战的东西，这就是你知道当他们插入机器人时，这就是我所想象他们在他们的小电脑上看到的东西，我希望如此，是的，我希望如此，而且它非常酷，如果我可以这么说的话，它是一个非常酷的应用程序或框架，

所以，是的，我们一直在构建这个开源项目，这是一个非常极端的事情。所以我们基本上说，好的，旧的东西都不起作用。我们用Rust从头开始重建了整个堆栈，就像一个数据记录和可视化堆栈。我们从现代游戏引擎的构建方式中汲取了很多灵感。所以数据模型是围绕实体组件系统构建的。很好。它基本上更像是一个可组合的数据模型。

所以我们的目标是，如果我们谈论这个在线和离线系统，我们希望统一开源项目来统一该系统的可视化方面。因此，你应该能够对像你那样的脏兮兮的小Python脚本使用相同的可视化框架，你可能会使用matplotlib或其他东西。你只想，我有一个小算法，我想插入一些数据，等等，你知道，只需将其转储进去，它应该就会显示出来，然后你将分析它，返回一段时间，等等。

到你的集中式可视化仪表板，我不知道你是否见过Waymo的营销视频，他们展示了所有激光雷达和地图，就像地图上的东西在更新，所有这些东西，团队使用Rerun来构建这些集中式的东西，而且最近通过我们的最新版本，允许你构建数据标注应用程序，所以你可以进行交互式点击，它会

返回你点击的数据，所以你可以用它来构建数据标注器，这对于你有时会遇到的异常或边缘情况很有用，我的意思是，我们致力于，是的，你倾向于标注数据，比如标记数据，有很多不同的方法，这可能是任何东西，对吧，你总是需要这样做，是的，这是真的，有很多这样的情况，哦，这里发生了一些奇怪的事情，但它也可能是，是的，我只是，这就是我们标注数据的方式，你知道，而且它

是的，它基本上就像你想查看你的数据的地方，你应该经常这样做，你想要有一个一致的视图，你希望它看起来像，理想情况下，无论它在哪里，如果它是在生产中还是一个小脚本中，或者人们使用它来可视化，也许是在训练期间评估他们的评估运行，像管道，训练管道，很多不同的东西，我们希望它，我们知道它是

目标是统一所有这些，能够在同一个框架中做到这一点。这需要极端的灵活性和性能等等。所以这就是那里的目标。这是一项永无止境的工作，但我认为我们已经取得了相当大的进展。相当不错的采用率。我认为无论是空间计算和机器人技术，还是从，你知道，两人创业公司。我认为现在像，

Meta、Apple、Unitary和Hugging Face，我忘记了一些公司，但他们至少在开源项目中使用Rerun。该死。所以它被使用，你知道，从小到大的公司都在使用。所以看到这一点真的很酷。我认为这与我们非常关注易用性和灵活性有关，当你想要做研究人员需要做的任何事情时，以及性能。是的。

所以这就是那个项目。这是开源的。它将永远是开源的。这几乎就像你使用了开源方面Rerun的可视化方面。然后当你考虑构建一个实际的产品时，你是如何考虑的，好吧，我们将完成这个循环并将Rerun整合到一个更大的平台中？我们认为他们需要重塑整个数据堆栈，对吧？

所以开源项目迫使我们做了一些事情。其中之一是真正开发一个非常好的数据模型，因为你需要一个既具有表现力又足够适合目的的数据模型，以便它足够易于使用，而且具有可组合性、灵活性和可扩展性等等。这非常困难。你需要拥有能够与正确的查询引擎一起高效运行的这样的东西。所以这些东西，

这两个部分有点，我们被迫构建。查询引擎基本上是为了构建这样一个快速灵活的可视化工具，它允许你在时间上前后滚动。我谈到了这些不同步的数据流。你需要有一个，基本上构建一个小型查询引擎或一个小型内存数据库来使它正常工作。所以我们也必须开发它。所以这些是核心部分。

所以查询引擎真正专注于时间对齐和机器人技术之类的。我本来想说这可能是你能给予别人的最大好处之一，那就是确保所有这些不同的数据源都能对齐。所以如果有一些我想调查的事件，我会说，在那里发生了什么？

我如何获得正在发生的事情的360度视图，而不是，好吧，我看到这个传感器发生了一些事情。其他传感器发生了什么？现在我必须筛选数据并尝试找出与该特定数据源在时间上对应的位置。是的。这既困难又非常重要。所以我们被迫在开源方面处理这些技术挑战。所以对于商业产品，是的，

我们现在正在开发的产品，你可以把它想象成一个内置可视化功能的数据库，它是一个存储和索引引擎，它是一个查询，基本上，所以这个东西是

它是为我们在这里遇到的约束而构建的。他们以各种形式拥有源数据，即你需要的经过优化的机器人风格的文件格式，你需要一个插件系统，以便你可以支持许多不同的。所以你需要能够处理这些记录的非结构化样式数据集，例如机器人上发生的事情的100,000次记录。你还需要理解普通表格数据。所以你需要同时理解两者。

所以像一个存储和索引引擎，它可以使处理这些数据变得快速和统一。我想一个数据模型提供了一种一致的方式来与这些数据交互。所以你想维护，所以你想可视化你存储的任何数据。但你还想要一个可以在其之上运行的查询引擎。所以你需要这个一致的数据模型来做到这一点。

然后，是的，上面的下一步是查询引擎。在那里，你真正想要的是能够让这个查询引擎理解物理AI数据模型。这意味着，一个简单的事情可能是，好吧，你有一个数据管道，你有你的原始数据，然后你对其运行一些转换并生成一些更好、更结构化、更容易处理的表。你不想丢失所有语义信息。比如第一列是什么意思？

这是一列3D点云。你想知道这一点。或者随时间变化的点云的一部分的3D位置列。这可能是一列。另一列可能是视频。另一列可能是某种传感器读数或其他东西。你想跟踪所有东西的含义。如果你这样做，那么你可以

对像数据管道中五步之后的表进行某种可视化和调试。这就是你希望你的查询引擎维护该数据模型的事情之一。另一个是你希望能够在查询引擎中进行面向机器人技术的某种操作。想象一下编写一个SQL表达式，其中一部分是，哦，像进行时间对齐，对吧？

你可能想要做一些事情，比如在SQL表达式中进行3D转换，因为你希望所有数据都以你的机器人夹持器之类的参考系出现。我的意思是，如果你没有处理过这种数据，可能会很抽象，但是能够将这些类型的操作推送到查询引擎中可以使处理数据变得容易得多。

所以这是接下来的部分，然后是一个可以理解这种数据集的数据目录。它实际上就像完整的数据堆栈。这就是我们正在构建的商业产品的目标。你之前谈到了这些笨拙的管道。这是否消除了创建管道的需要，或者你仍然看到人们创建管道，只是数据质量更高？

我认为，首先，这仍在开发中。我们有一些付费设计合作伙伴正在使用我们现在拥有的东西，但这仍然很早。所以这是首先要说明的。是的。你知道，不要，我不想说我们拥有我们还没有的东西。是的。但我认为我们的目标是让你不必在管道中进行任何步骤。哇。

嗯，我认为在所有情况下这都是无法实现的，但是你应该能够直接记录然后构建一系列查询并进行训练，这就是我想要的，对吧，这不会是最有效或最好的方法，因为你会想要，这只是

你想保存中间结果，你想能够检查它们并进行质量控制，并且不想在训练期间重做所有计算，从效率或结构的角度来看，这样做并没有什么意义，但我希望它能够实现，这样当你想要快速迭代时，你只需要很少的具体中间步骤，然后当你了解你想做什么时，你就可以说，好的，这些

管道部分应该被存储。所以你可以灵活地选择。所以实际上，我认为任何公司都将在他们的管道中拥有多个步骤，但希望它们更容易管理，运行和构建的效率更高，并且比现在必须的要简单得多。所以这就是目标。

还有什么你想谈谈的，我们还没有谈到吗？是的，有一些事情。如果你考虑Rerun，那么最广泛部署的是我们的开源项目。并且有大量的，Mag7风格的，像公司已经切换过来，以至于目前，例如，所有计算机都使用Rerun来，他们使用它来调试它。这从研究人员所做的，

小系统到他们如何调试数据，一直到真正像贯穿始终，所以像非常广泛的部署，很难给出具体的例子，但这在每个点上都减少了摩擦，对吧？是的，并且提高了生产力，你知道，你如何评估查看数据的值，它是你所做的一切的润滑剂，

所以从更广泛的意义上说，就是这样，但我的意思是，也许具体来说，有一些事情，比如资金雄厚的自动驾驶公司发现他们数据管道中存在多年的错误，这些错误导致模型性能下降。但在采用之后，使用Rerun调试他们的数据管道，这是另一种类型的例子。Mere，他们如何将它与Ray-Ban眼镜一起使用？

Meta公开的是Aria眼镜。这是即将推出的新眼镜。不，这就像研究眼镜。它们是纯粹的数据采集设备，是开放的研究。是的，它们基本上是一副配有许多传感器的眼镜。所以他们的Rerun是……

是来自那里的数据集的官方可视化工具。例如，有Ego 4D数据集。他们在家里记录了很多数据等等。它也内置于ARIA开发工具包中，作为那里的主要可视化工具。该项目用于空间计算，现在也更常用于机器人技术，以收集机器人风格的

但由人类收集并试图将其重新定位到机器人应用。它就是这样使用的。你知道，我实际上很想问你的是，你之前提到过，人们正在尝试实施成功的机器人技术或物理AI的不同思路或方法。一种是尽可能多的传感器。另一种是尽可能少的传感器。是的。

你见过其他一些向量，对你来说有趣或令人惊讶吗？有趣或令人惊讶？我不知道。我认为我考虑的主要向量绝对是某种东西的确定性，比如你对仅仅说，啊，你知道，我们学会了训练模型，它似乎表现良好，还是说，不，我需要对某些行为有数学保证。嗯哼。

这将是一个。另一个。就像模块化。极端情况是，哦，我们有一个神经网络来做所有事情。我们没有任何代码。它只是一个神经网络。但这是你可以想到的极端情况。另一个是，不，拥有模块并分别测试所有模块非常重要。所以你追求的程度……

和价值模块化与性能之间的关系，我认为是另一个非常非常大的，非常大的问题，然后一般来说，有些团队根本不相信训练，他们认为或者不应该，你不应该使用太多机器学习，有很多这样的人，他们说，啊，它不可靠，不起作用，你的感知应该，也许他们使用它进行检测之类的事情，但像没有什么

我不知道，更复杂。所以你使用SLAM来构建世界的3D地图，你编写经典的规划器来决定如何移动，他们觉得，哦，所有这些技术都是经过验证的，你应该使用它。对于某些应用来说，这完全是正确的做法。有些人对此更纯粹主义，但这些东西肯定仍然存在，并且可能……

在许多更结构化的环境中，正确的做法是，你可以让它真正有效，比如仓库之类的，是的，是的，完全正确，如果你知道你在哪个环境中运行，那么就更有理由使其尽可能少随机，或者怎么说，尽可能少随机，知道发生了什么很好，你可以使事情变得更快、更便宜等等，当然有很多好处

它伴随着很多认真对待训练的成本。它确实增加了离线系统的复杂性。你越端到端，就越像，你可以通过完全端到端来简化你的在线系统，但你最终会得到非常复杂的离线系统，比如。

这是工程，对吧？有权衡。这不是魔术。这些都是令人着迷的权衡。考虑这一点真的很酷。

The Missing Data Stack for Physical AI 52:42 Share

MLOps.community

Deep Dive

Shownotes Transcript

The Missing Data Stack for Physical AI