欢迎 收听 硅谷 101, 我是 红军。 今天 我们 来 聊 一个 最近 可以 说 不管 在 投 姿 市场 还是 在 创业 市场 又 火 起来 的 话题, 就是 机器人。 今天 跟 我 在一起 的 两位 嘉宾 也 非常 的 硬核, 第一位 是 五 源 资本 的 董事 总经理 陈喆 Peter。 Peter 是 电子 工程 专业 出身, 同时 投 过 很多 家的 机器人 领域 的 公司, 可以 说 在 这个 赛道 看 的 很早 很多 也很 深。 Hello Peter, 你好。
hello 大家好, hello jane.
我们的 另 一位 嘉宾 是 NVIDIA 中国区 机器人 业务 的 负责人 lily 李雨 倩。 Hello lily hello jane.
hello 大家好。
Lily 在 学校 的 时候 学 的 就是 机器人 专业, 毕业 之后 的这 十几年 基本上都 在 做 各类 跟 机器人 相关 的 开发 工作。 而且 他 不管 在 实验室 研发 还是 在 商用 场景 都有 非常丰富 的 经验。 所以 今天 我们的 播客 我是 会 从 三个 维度 来 拆解 具 身 智能 和 机器人 行业。 一个 是 为什么 在 这个 时间点 机器人 行业 又 火 了, 具 身 智能 到底是什么 意思? 第二 部分 正好 是 今天 丽丽 也 在, 我们 可以 从 技术 的 角度 来 拆解 一下, 现在 做 机器人 有 哪些 好用 的 工具。 最后 Peter 可以 从 商业 还有 投资 的 角度 来 跟 我们 聊 一下 这个 赛道 的 应用 前景。
我记得 其实 一年 以前。
我们 硅谷 101聊过 一期 跟 AI 相关 的 机器人 的 话题。 然后 那天 特别 巧, 我们 其实 是在 办公室 楼上 去 录 AI 机器人。 结果 Peter 你是 在 我们 办公室 楼下 在 做 一场 机器人 的 讲座。 然后 现场 全部 是 跟 机器人 行业 相关 的 创业者 跟 投资人。 现在 其实 我们 对比, 一年 过去了, Peter 跟 lily 你们 觉得 行业 里面 发生了什么 变化? 因为 从 我的 观察 来看, 我 觉得 不管 我们在 融资 还是 在 话题 关注度 上, 其实我 有 看到 机器人 行业 它 在 变得 更 火 了。
是的, 机器人 的 行业 我 觉得 在 这 两年 又 重新 回到 了 一个 非常 热 的 一个 热度, 包括 是从 融资 上 还是 整个 的 这个 技术 发展 上, 我们 都能 看到 资本 的 倾向性。 以及 机器人 的 大脑 仿真 一些 比如说 像 灵巧 手轮 族 式 类 的 一些 具体 一些 非常 细分 的 机械 技术 的 一些 分类。 所以 在 我们 看来, 其实 NVIDIA 在 这 两年 也 对于 机器人 整个 平台 投入 了 大量 的 资源。 包括 训练 机器人 的 仿真, 包括 一些 机器人 的 基础 模型。 像 这次 G T C 我们 发布 的 group, 其实 它 本身 NVIDIA A I 就是 面向 生成式 A I 的 一个 平台。 所以 在 这个 平台 上 它 会 更 倾注 于 对 机器人 以及 机身 智能 方面 的 一些 投入。 然后 来 加速 大家 能够 快速 的 打造 一个 具有 A I 属性 的 一个 机器人。 这个 可以 是 人形, 也可以 是 刚才 我们 提到 的 一个 比较 泛化 的 机身 智能 的 一个 产品 概念。
对, Jason 确实 在 很多 个 场合 他 都 提到 了, 他 非常 看好 这个 机器人 行业。
是的, 所以 我们 也能 感觉到 整个 热度 在 这 两年 变得 非常 热。 因为 最终 机器人 会 是一个 人工智能 应用 落地 非常 好的 一个 载体。
而且 我看 其实 你们 在 G T C 上 还 推 了 很多 跟 机器人 相关 的 平台。 这个 我们 可以 待会儿 在 后面 我们 可以 详细 的 都来 拆开 聊 一 聊。
上次 跟 jane 在 硅谷 见 的 时候, 正好 是 一年 以前。 我 觉得 过去 一年 如果我们 总结 机器人 发生 的 变化, 我 觉得 还是 非常 多 的。 我 大概 可以 归类 成 几类 的 变化。 第一个 是 本身 大 模型 的 进步。 大 模型 无论是 传统 的 语言 的 模型, 或者 是 这种 视觉 语言 模型, 他们 都 开始 应用 到了 机器人 的 决策 和 认知 的 任务 上, 这个 是 极大 的 拓宽 了 传统 机器人 在 控制 决策 方面 的 一些 局限性。 让 大家 觉得 通过 大 模型 的 进步, 看到 了 机器人 技术 快速 进步 的 可能。
第二个, 在 机器人 技术 自身 的 控制、 仿真、 模仿、 学习 等 领域, 也 出现了 蛮 多 的 进步。 这 里面 也 包括 NVIDIA 提供 的 各种 仿真器, 各种 训练 的 这种 环境。 让 机器人 可以 更快 的 通过 模仿 学习 也好, 通过 强化 学习 也好, 可以 完成 一些 底层 的 控制 和 底层 的 仿真 组。 是 四组 两服, 或者 是 一些 更 复杂 的 机器人 的 形态。
或者 第三点, 可能 让 过去 一年 发生 特别 大 的 变化 的 是以 特斯拉 为首 的 行业 的 巨头, 开始 大量 的 投入 人形 机器人 或者说 巨神 智能 相关 的 研究 跟 研发。 中国 跟 海外 也 出现了 非常 多 的 创业 公司, 利用 成熟 的 硬件 供应链 开始 在 做 各种 猪 式 机器人 或者 新形态 机器人 的 这种 研发。 大家 也 看到 了 一些 非常 令人振奋 的 产品 或者 是 demo。 所以 我 觉得 几个 地方 底层 的 技术 变化 和 硬件平台 的 出现, 让 机器人 在 过去 一年 得到了 非常 多 的 关注, 也 让 大家 看到 了 快速 发展 的 可能。
对, Peter 讲 的 非常 好啊。 我 顺着 你的 话题 正好 其实 你 讲 到了 一个 我 非常 好奇 的 问题。 就是你 提到 了 三点。 第一 是 大 模型 的 进步, 第二 是 比如说 就像 NVIDIA 他们 研发 的 自主 控制 仿真, 还有 模仿 学习 的 一些 平台。 接下来 就是 行业 巨头 对 他们的 一些 推动。 我想 这 一轮 大家 去 关注 机器人, 可能 很大程度 上 跟 大 模型 能为 机器人 带来 什么 是 有关系。 记得 就是你 觉得 大 模型 的 进步 是 怎么样 去 影响到 机器人 行业 的?
我 觉得 首先 我们 先 把 机器人 的 能力 或者 机器人 的 任务 拆解 一下。 我 觉得 一个 经典 的 框架 是 把 机器人 分 做 感知、 规划 或者说 决策。 第三块 是 控制, 简单 的 说 就是 机器人 要 知道 它的 环境, 知道 它的 外部 input。 同时 它 在 知道 了 外部 的 input 和 自身 状态 的 基础上, 它 要 做 短期 和 长期 的 规划 跟 预测。 第三步 是 到了 硬件 的 层面, 到了 执行器 的 层面, 他 需要 把 他 想 清楚 的 这个 规划 给 控制 执行 下去。
如果 按照 这 三段 来 拆解 的话, 我 觉得 大 模型 最 直接 的 关系 是 语言 模型。 因为 有了 很 好的 尝试, 拥有 了 很 好的 推理 的 逻辑 能力, 它 可以 对 机器人 的 规划 和 控制 进行 上层 的 影响。 所以 我的 印象 是 可能 最 开始 是从 google 开始 22年 推出 的 c ten 这个 技术, 这个 大 模型 跟 机器人 执行 结合。 后面 除了 规划 又 在 规划 跟 感知。 通过 视觉 语言 模型, 像 胖 M E 这样的 模型, 在 二三年 推出 的 时候 实现 了 感知 和 规划 的 结合。 然后 又 到了 二三 年底 的 时候, 也是 google 推出 的 像 R T one、 R T two 这样的 模型。 把 控制 的 环节 也 通过 大 模型 的 方式, 通过 transforming 的 方式, 把 控制 环节 也 由 大 模型 去 推动 和 实现。
所以 我们 看到 的 一个 趋势 是, 大 模型 不仅 是在 上层 的 机器人 的 规划 上面, 也 开始 进入 了 机器人 的 感知 和 控制 等 底层 的 任务 环节。 而 这一点 是 机器人 领域 发展 了 这么多年, 可能 第一次 出现了 这样 一个 由 学习 算法 驱动, 有一个 非常 大 的 一个 预 训练 的 模型 来 推动 控制 的 一个 变化。 这也是 可能 过去 一年 我们 看到 的 技术 上面 最大 的 突破。
你 提到 parm E R T one, 它 其实 研发 出来 有 一段时间 了。 为什么 是 这个 时间 点火 呢? 是 说 大家 从 平台 研究 出来 了, 到 真正 的 使用 落地 还需要 一段时间 是吗?
我 觉得 像 谷歌 这种 研究院 出来 的 东西, 其实 是 非常 新型 的 一些 想法。 我 觉得 胖 M E 最大 的 特点 是 把 google 的 传统 的 语言 模型, 就是 胖 M 那个 语言 模型 跟 机器人 的 body 的 能力 进行了 结合。 其实 在此之前, 大家 没有 试图 把 机器人 跟 大元 模型 的 上层 的 这个 推理 能力 进行 结合, 这 是一个 发展 的 过程。 就像 17年 我们 出现了 transformer, 但是 真正 到了 20年 我们 可能 才 出现了 GPT3到 了 二三年 才 出现了 gbt 4。 所以 它 这个 技术 的 成熟 和 扩散 需要 一定 的 时间。 机器人 的 比较 有 挑战 的 地方 是因为 我们的 实体 和 测试 的 环境 并 不像 纯 语言 模型 一样 这么 方便。 所以 当 这个 模型 真正 应用 到 机器人 的 场景 的 时候, 是 需要 一些 时间 的。
R T one R T2 在我看来 也是 transformer 技术 逐渐 扩散 的 结果。 其实 在 transformer 技术 成熟 过后, 我们 先是 出现了 video transformer 的 方式, 将 视频 跟 transformer 的 这个 encoding 进行 结合。 那么 对于 R T one R T 数 来说, 更 重要 的 是 把 机器人 的 执行 动作 跟 transformer 这个 框架 进行 结合。 这个 也是 可能 在 过去 一年 才 开始 有 大家 去 积极 的 研究 和 尝试 的 一个 方向。
刚刚 Peter 也 提到 了 第二点, 在 机器人 的 这种 自主 控制 的 平台, 包括 仿真, 还有 模仿 学习 的 平台, 可以 说 NVIDIA 是 这 一块 的, 应该 是 说 行业 的 领军者 和 推动者 了。 Lily 你 要不要 跟 我们 讲 一下 她的 这些 平台 是 怎么样 去 促进 机器人 行业 的 发展 的?
NVIDIA 的 机器人 平台 包含 三个 部分, 这 三个 部分 从 上 往 下 看 的 架构 分为。 第一个 部分 我们 叫做 训练 春天 trading。 我们 就可以 训练 机器人 的 一些 类似 于 基础 模型, 还有 一些 像 可以 应用于 具 身 智能 或者 机器人 的 一些 大 语言 模型, 生成式 A I 等 现在 比较 主流 的 一些 模型, 来 增加 机器人 的 一些 自主 交互 的 一些 A I 能力。 包括 还有 甚至 像 强化 学习 训练 的 部分, 那 也是 属于 机器人 训练 的 部分, 可以 提供 一个 端 到 端的 机器人 的 一个 强化 学习 训练 的 一个 执行 的 一个 模型。
第二 部分 是 我们 叫做 仿真, 仿真 的话 其实 这个 就要 提到 我们 N A D A 的 一个 我们 叫做 之前 可能 大家 都 听到 非常 热 的 一个 名词, 叫做 omi vers media 在 基于 omi vers 的 基础上, 其实 打造 了 一个 专门 给 机器人 用来 做 的 数字 孪生 的 仿真 平台, 我们 叫做 NVIDIA isac sam。 S X sam 其实 就是 我们 专门 给 机器人 做 的 一个 仿真 平台。 那 它 可以 提供 一个 数字 孪生 的 一个 环境, 帮 大家 快速 的 做 现实 环境 中 作为 机器人 开发 的 一些 工作。 那 我们 可以 快速 的 完成 seem to real 整个 一个 开发 流。
同时 的话 在 第三 部分 我们 叫做 influence, 也 叫 runtime。 其实 就是 机器人 本体 的 部分。 机器人 本体 的 部分, NVIDIA 也 提供了 比如说 像 我们的 嵌入式 计算 平台, 包括 一些 我们 做了 一些 A I 算法 增强 的 一些 机器人 应用。 包含 感知 的 部分, 包括 决策 规划 的 部分。 以及 对 场景 理解 的 部分, 以及 交互式 的 一些 大 语言 模型 的 部分。 这 一部分 其实 我们 有 在 从 训练 和 仿真 测 有 助力 到 端 测 的 一些 应用 的 部署。 所以 我 觉得 我们是 分 三个 部分 帮助 大家 完成 整个 机器人 的 一个 开发 流。
其实 你 提到 的这 三个 部分 我 都 还 挺 感兴趣 的。 你 可不可以 简单 的 每一个 环节 插播 一个 小 案例 给 听众 解释一下。 就 比如说 你说 到 的 强化 学习 训练, 包括 仿真 模型, 包括 influence 的 这个 推理模型, 它是 怎么样 去 帮助 机器人 行业 的。 就 可不可以 给 大家 一个 更加 形象化 的 例子。
OK 我们 先 说 一下 训练 的 部分。 比如说 你 要 完成 机器人 的 抓取 的 一个 动作, 那 这个 里面 其实 有 包含 到 你 需要 机器人 对 这个 场景 的 进行 理解。 那 这个 里面 可能 会 用到 我们, 比如说 像 我们 叫做 V L M 视觉 类 的 大 模型 对 场景 的 一些 理解。 还有 一些 比如说 我们 可能 会 用到 R L, 我们 叫做 reinforcement learning 的 一些 模型, 来做 端的 一些 动作 指令 的 一些 训练。 包括 它 还 会有 一些 比如说 像 大 语言 的 模型, 它 可能 会 理解 人的 一些 指令 的 一些 交互。 就 比如说 你说 让 他 去 抓 一个苹果, 或者 拿 一个 水 之类 的那 这些 模型 其实 它 会有 各个环节 都 会有 一些 模型 训练 的 一些 工作 在 里面。 当然 这些 是 比较 符合 具 身 智能, 或者 我们 叫做 生成式 A I 的 一些 应用, 仿真 的 部分。
其实我 觉得 如果 是 做 机器人 开发 的 同学们 应该 会 很 好的 理解 仿真 对于 机器人 环节 的 一个 非常重要 的 一个 作用。 因为 我们在 现实生活 中, 如果我们 要 开发 一个 机器人 应用 的话, 它是 一个 很 缸体 的 一个 结构体。 你 在 对他 做 一些 开发 的 时候, 如果你 直接 的 做 一些 功能性 的 开发, 你 会 发现 它 有 很多 的 不 可控因素, 高风险、 高 成本。 它 其实 是 需要你 很 长时间 的, 你 对 传感器 的 校准, 硬件 的 校准 的 一个 过程。
在 仿真 环境 里, 如果 你的 仿真 平台 是一个 数字 孪生 的, 和 真实世界 的 gap 基本上 没有 的 情况下, 其实 你 会 非常容易 的 进行 你 算法 功能 的 开发。 比如说 你可以 在 你的 机器人 的 本体 上, 在 仿真 平台 上 做 一些 传感器 的 增加 或者 删减, 在 仿真 的 环境 里 来完成 你的 功能。 比如说 从 A 点 走到 B 点, 做 一些 物体 的 抓取。 当然 你 这个 里面 会 集成 非常 多 的, 比如说 像 触觉 的 传感器, 各种 视觉 类 的 传感器。 就是 一句话 简单 概括, 在 仿真 环境 里 你可以 实现 和 真实 环境 一模一样 的 开发 和 测试 的 效果。 但是 在 仿真 环境 里, 你 会 发现 你的 开发 的 时间 会 大大缩短, 而且 没有 任何 的 风险 代价 成本 也没有 任何 的 危险 系数。 也就是 因为 我们的 仿真 和 真实世界 中间 的 这个 gap, 我们 把 它 缩 到了 零。 这样的 情况下, 你 在 仿真 平台 里面 验证 的 算法, 你 直接 放到 你 现实 开发 的 这个 机器人 本体 上, 它 就可以 完整 的 非常 准确 的 执行 你 仿真 世界 里面 开发 的 功能。
我 理解 你说 到 的 仿真 其实 有 一点点 像 早期 我们在 研究 无人驾驶 的 时候。 我记得 当时 其实 大家 在 路 测 之前, 可能 会 在 他的 模拟器 里面 去 跑 很 长时间。 只是 说 我们 现在 把 它 变成 了 一个 机器人 的 平台。
对, 没错, 我们 之后 会 讲 机器人 的 分类。 就是 机器人 它 涉及到 的 环节 非常 的 复杂。 就 比如说 你 刚刚 其实 提到 了 抓 苹果 是一个 环节, 搬 一个 凳子 可能 也是 一个 环节, 走路 可能 也是 一个 环节。 所以 我 理解 每一个 创业 公司, 他们 需要 的 传感器 是 不一样的。 所以 他们 可以 自己 去 设置。 我在 这个 仿真器 里面, 我要 去 设置 哪些 功能, 定 哪些 参数。 然后 我们在 电脑 的 虚拟世界 里面 先 把 这个 东西 跑 通, 然后 我们 再来 去 现实 世界 里面 运行 这个 机器人。
是的, 你 理解 的 逻辑 没有 问题, 很 正确。 这 里面 我 有一点 要 补充 的, 就是 市面上 的 仿真器 会有 非常 多, 包括 自动驾驶 的, 包括 机器人 的。 但 仿真器 和 仿真器 之间 有 非常 大 的 差异性。 比如说 我 举 个 例子, 为什么 NVIDIA 在 仿真 的 这个 平台 里面, 我们 一直 是一个 leader 的 一个 角色, 其实 我们 最早 是 做 游戏 显卡 的, 这个 我相信 大家 都 知道, 对 吧? 所以 我们在 图形图像 像 化 的 处理 以及 渲染 层面 上 有 非常 强 的 一个 技术 积累。
在 这个 基础上, 其实 我们 不管 是 打造 像 自动驾驶 的 仿真 平台, 还是 机器人 的 仿真 平台。 我们 都 可以 做到 虚拟世界 与 真实世界 是 完全 还原 的 一个 状况。 包括 你的 物理引擎、 流体 引擎 以及 你的 光线 追踪 等等 的 这些 因素。 所以 这 也就是 为什么 在 我们的 机器人 的 仿真 平台 里面, 大家 可以 拿到 一个 跟 真实世界 一模一样 的 一个 描述 场景。 所以 在 这个 场景 里面, 你 做 的 所有的 开发, 在 未来 你 部署 到 你的 现实 机器人 上 的话, 你 会 实现 一个 same to real 无缝 的 一个 衔接。 这个 是 仿真 平台 非常重要 的 一点。
看来 NVIDIA 做 机器人 其实 是 早 有 积累 的那 今天 我们 其实 说到 机器人, 我 觉得 最近 好像 有一个 词儿 非常 的 流行, 叫做 具 身 智能。 能不能 请 大家 稍微 简短 的 给 大家 解释一下, 我们 说 具 身 智能, 人形 机器人 它们 中间 的 区别 是什么? 我 觉得 待会儿 我们在 概念 展开 的 时候, 大家 有一个 更加 直观 的 印象。 不然 我们 女士优先。
丽丽 居身 智能, 其实我 的 理解 就是 它是 具有 A I 属性 的 一个 载体, 它 其实 是 人工智能 领域 的 一个 分支。 它 可以 是一个 人形 机器人, 也可以 是一个 非 人形 的 一个 机器人, 甚至 可以 是一个 边缘 计算 的 一个 载体。 它 可以 通过 对 环境 的 理解, 对 人的 交互 产生 一些 生成式 A I 的 功能属性。 所以 在 我的 理解 范围内, 我 认为 机器人 会 更广 一些。 人形 机器人 就是 特定 值 类似 于 人形 的 一个 机器人。 具 身 智能 就是 具有 A I 智能 属性 的, 可以 进行 一个 自主性 交互 的 一个 载体。
解释 的 非常 清楚。
Peter 有 补充 的 吗? 对我 这里 可能 补充 一点, 就是 自我 性 的 交互 是一个 很 重要 的 特点。 就是 我们 大家 在 讨论 聚 生 智能 的 时候, 它的 英文 是你的 A I 对应 着 embody A I 的 反面。
其实 是非 据称 智能, 或者说 我们 传统 讨论 的 软件 智能 或者 是 算法 的 智能。 核心 的 意思 是在 我们 定义 聚 生 智能 这个 概念 之前, 其实 有一套 不同 的 关于 智能 的 理论。 是 认为 其实 智能 可以在 没有 物理 实体 或者 身体 的 情况下, 通过 符号计算, 通过 算法 的 处理 来 实现。 所以 传统 的 我们 看到 的 很多 A I 系统 其实 是 没有 物理 实体 的。 它 不需要 跟 物理 世界 进行 计算, 它 就可以 得到 他 想要 得到 的 效果。 但是 矩阵 智能 最 重要 的 是 它 得 有一个 物理 的 实体 或者 机器 的 实体, 而 这个 实体 需要 跟 环境 产生 互动。 而 这个 的 智能 行为 不仅 是 产生 于 它 固定 的 算法, 而 需要 产生 于 它 跟 外界 环境 的 一个 交互。 所以 当我们 提到 具 身 智能 的 时候, 其实 是要 强调 它 具有 实体, 以及 这个 实体 要 跟 外部 有 交互 的 现象。
我们 发现 无论是 人形 机器人 还是 传统 的 机器人, 有 一部分 的 传统 机器人 其实 并不需要 对 外界 有 自主 的 响应。 它 可能 是一个 自动化 的 设备, 在 不断 的 重复 他 之前 预设 的 程序。 所以 聚 胜 智能 随着 这几年 A I 技术 的 发展, 实际上 是 把 传统 机器人 的 这个 定义 得到了 极大 的 拓展。 然后 人形 机器人 也是 在 传统 机器人 的 定义 基础上 延展 出来 的 形态, 更 像 人, 更加 灵活、 更加 通用 的 一种 形态。
我 发现 现在 大家 在 谈到 机器人 的 时候, 其实 有 非常 多 的 种类。 有 四足 机器人、 双 足 机器人, 还有 机械臂, 就是 只是 一个 手臂, 还有 人形 机器人。 Peter 关于 这些 不同 的 机器人, 它的 技术 有什么 根本性 的 不一样, 或者 他们 总体而言 一些 通用 的 特征 是什么? 你可以 跟 大家 解释一下 吗?
其实 你可以 把 它 想象 成 一个 spectrum, 想象 成 一个 频谱。 从 最 专用、 最 自动化、 最 重复性 的 机器, 到 最 通用、 最 灵活 的 像 人形 或者说 非常 通用 的 这种 versa 的 机器人, 它是 一个 频谱。 那么 这个 频谱 的 最 左端 可能 是 这种 最 自动化 的 像 机器 手臂, 他们 就在 不断 的 进行 重复 的 任务。 最 右端 可能 是 非常 通用 的 人形 机器人。 如果你 按照 这个 维度 来 思考 的话, 你可以 把 很多 场景, 很多 需求 机器人 放到 这个 屏幕 上面 去。
如果说 具体 的 技术 到底 有什么 不一样, 我们 回到 刚才 定义 的 机器人 的 三个 重要 模块 来看, 就是 感知、 规划 和 控制。 如果我们 这 三个 模块 来看 的话, 其实 很多 特别 专用 的 重复性 的 机器人, 它是 不需要 感知 的。 他 甚至 也没有 上层 的 规划, 他 只需要 做 底层 的 控制。 比如说 几个 关节? 六个 关节、 七个 关节 不断 的 重复 某 一个 动作, 它 需要 的 是 关节 之间 的 这种 底层 控制。 随着 这个 频谱 逐渐 的 朝右边 去 迁移, 它 需要 更多 的对 环境 感知 的 能力, 需要 更多 的 对他 自己 任务 短期 任务 和 长期 任务 规划 的 能力。 那 这 里面 它的 技术 就会 逐渐 的 复杂, 这也是 为什么 今天 可能 A I 在 感知 跟 规划 里面 会 起到 更 重要 的 作用。
到了 最右 端的 这种 通用 机器人, 类似 像 人 这样 或者说 非常 versatile 的 机器人, 它 可能 需要 非常 强大 的 感知 跟 规划 以及 控制能力。 因为 它的 可能 关节 非常 多, 它的 传感器 也 非常 多。 然后 他 执行 的 任务 也是 长期 短期 的 复杂 任务 都 需要 有。 所以 我 觉得 底层 来讲, 他的 逻辑 都是 相通 的。 但是 随着 我们 任务 对 它的 灵活性、 自主 度 要求 的 不一样, 他的 技术 的 深度 会 很 不一样。
我 理解 你 基础上 是 把 这些 机器人 分成 一个 专用 的、 重复性 的、 垂直 的 机器人, 还是 一个 更 偏向 于 通用 的 机器人。 那你 觉得 比如说 像 我们 提到 的 机械臂, 还有 双 足 机器人, 它 到底 是 偏向 更 通用 还是 更 专用 呢? 还是 看 功能。
其实 形态 并 不能 代表 它的 功能 本身, 一个双 足 的 机器人, 它 也可以 只 做 非常简单 的 搬运。 只 做 非常简单 的 巡逻, 他 并不一定 非要 进行 非常 灵巧 的 操作 或者 是 非常 灵巧 的 任务。 同样 机械臂 它 既 可以 是一个 没有 视觉, 只是 做 重复 动作 的 机械臂, 也可以 是一个 增加 了 视觉, 增加 了利 控, 增加 了 各种 反馈 的 非常 灵巧 的 机械臂。 如果 只是 看 它的 形态, 其实 我们 很难 去 定义 它的 场景 跟 能力 的 边界 在 什么 地方。
非常 理解, 说 的 很好。 关于 机器人 我一直在 想, 大家 有 看 之前 马斯克 有 拉 一个 擎天柱 出来, 波士顿 动力 他们的 机器人 也是 有人 形 的。 我在 想 机器人 一定 需要 人形 的, 大家 对 这个 问题是 怎么 思考 的? 为什么 我们 非要 一个 像 人 一样的 机器人? 当 大家 谈到 通用 机器人 的 时候。
因为 首先 现在 人类 劳动力 非常 短缺。 然后 另外 一点, 很多 的 任务 其实 设计 的 时候 就是 给 人类 做 执行 的。 比如说 的 一些 操作类 的、 搬运 类 的。 自然而然 的 大家 就会 认为 人形 机器人 是一个 比较 好的 未来 终极 的 一个 载体。 但是 在 这个 过程中, 可以 是 比如说 像 机械臂 或者 多个 机械臂, 或者 是一个 移动 的 平台, 上面 有 两三个 机械臂 这 样子 一些 复杂 类 的 机器人 的 形态, 作为 一个 比较 过渡 的 一个 产品 形态。
比如说 我们 让 一个 机械臂 有 三个 手臂, 这样 它 就可以 两个 手臂 搬箱子, 一个 手臂 分 脸。
是的, 可以 做 协作, 它 其实 跟 人的 这个 执行 任务 也是 一样的, 其实 我们 也是 一个 多个 执行 关节 进行 协作 的 一个 载体。
Peter 怎么看 人形 机器人 是不是 必须? 我 觉得 有 感性 跟 理性 的 两个 维度。 从 理性 的 维度, 刚才 丽丽 也 提到 了 一些 观点, 人类 社会 是 为人 的 这个 工作 环境 设计 的。 如果我们 需要 创造 一个 最佳 灵活、 最佳 通用 的 机器人, 那么 它它 最好 是 人性。 因为 它 可以 比较 快速 的 适配 到 今天 为 人类 设计 的 这个 环境 里面 去。
然后 因为 人心 也是 一个 比较 收敛 的 形态, 因为 之前 机器人 可能 为 每个 场景 都有 自己的 心态, 导致 它 在 每个 场景 的 规模 和 数量 都 并 不够 高。 如果我们 能够 把 机器人 都 收敛 到 人形 形态, 那么 有可能 我们 可以 生产 出 几十亿 台 甚至 百亿 台 的 机器人, 像 伊隆 预见 的 这样。 那 这 样子 的话, 单个 机器人 的 成本, 因为 规模 效应, 因为 统一 的 结构 会 导致 它的 成本 极大 降低。 我 觉得 这些 是从 理性 层面 上, 人性 机器人 终极 上 是 非常 好的 一个 原因。 虽然 今天 可能 看起来 要 实现 非常 高 的 人性, 还需要 蛮 多 的 技术 的 突破 和 进展 的那 我想说 一个 感性 上面 的 一个 感受, 就是 其实 很多 从小 痴迷 机器人 或者 关注 机器人 的 这些, 你说 爱好者 也好, 极客 也好, 其实 对于 机器人 是 有 非常 强 的 情感 的 寄托 和 憧憬 的。 我 认为 如果你 是一个 未来 主义者, 可能 你不会 排斥 一个 概念 是 未来 人类 的 文明, 人类 的 社会 可能 会 逐渐 由 碳基 的 文明 进入 硅基 的 文明。
也就是说 我们 未来 人类 社会 可能 有 大量 的 机器人 与 我们 共存, 甚至 超越 我们, 延续 我们的 文明, 在 整个 宇宙 或者说 星际 中 进行 探索, 那么 那个 时候 可能 人性 机器 会 变成 人类文明 的 一种 化身, 跟 我们 有 更强 的 情感 的 映射, 能够 继承 我们 人类文明 的 各种 美好的 幻想。 所以 我 觉得 从 情感 来讲 的话, 我 觉得 人心 也是 承载 人类文明 的 一个 终极 的 一个 形态, 也是 符合 我们 自己 延续 人类文明 的 一个 美好的 一个 憧憬。 所以 虽然 可能 从 今天 的 技术 程度 上 讲, 很多 场景 并不一定 需要 做成 人形 机器人。 但是 大家 会 为 这个 理想, 会 为了 这个 感性 上 的 一个 想法 去 不断 的 尝试 和 努力。
对我 觉得 有时候 是不是 人形 机器人 也可以 更多 地 博取 一些 同情 分。 比如说 有的 时候 我 看到 有人 在 踹 一个 人形 机器人 的 时候, 因为 它的 形状 太 像 人 了, 所以 就 会有 一种 他 会不会 疼 的 那种。 虽然 我知道 他 不会 疼, 就是 看上去 会有 一点点 心疼 的 那种感觉。 但 如果 比如说 有人 在 踹 一个 铁 皮子 或者 箱子, 大家 可能 就 觉得 还好。 接下来 其实 有一个 问题是 问 丽丽 的, 我们在 谈到 这些 机器人 的 时候, 他们 对 芯片 或者 G P U 的 要求 会 高 吗?
我 觉得 这个 完全 取决于 他们的 应用 的 功能 诉求。
就 越 通用 对 芯片 的 要求 越高。
对, 是的。 因为 它 需要 对 场景 有一个 非常 充分 的 理解, 需要 多 模态 的 一个 输入, 所以 他 就 会对 G P U 的 要求 会 越高。 也就是说 他 对 A I 的 能力 要求 越高, 它 就 会对 G P U 的 能力 要求 越高。
那 在 软件 层面 的 NVIDIA, 它 会 提供 哪些 解决方案 呢?
其实 刚才 提到 的 三层, 就 包括 训练 仿真、 加 端 侧? influence。 其实 这 三个 部分 是 分别 有 硬件 和 软件 的 解决方案。 就 拿 训练 来讲, 我们 有 本身 自己 做 生成 C I 的 一些 框架 提供 给 大家 来 搭建 一些 快速 的 大 模型 应用。 然后 仿真 的 部分, 我们的 S X C M 其实 就是 一个 软件平台, 搭配 我们的 一些 相应 的 做 渲染 的 一些 G P U 就可以 跑 起来。 整个 仿真 的 环境。
对于 端 侧 的 开发, 我们 除了 嵌入式 的 硬件, 也就是 机器人 的 大脑 的 芯片 之外, 我们 也会 有 一些 基础 的 算法。 包括 一些 感知 类 的, 决策控制 类 的, 还有 就是 对 场景 的 一些 理解。 比如说 像 一些 基础 模型 类, 像 视觉 的 检测 和 抓取 的 一些 基础 模型 的 一些 应用 的 部署 也会 在 端 侧。 所以 这 一类 也是 软件 类 的 一些 赋能。 所以 我 觉得 简单 来讲 的话, 就 这 三层 训练 仿真 和 端 侧 的 部署, 我们 都 提供了 硬件 加 软件 的 方案。
跟 你们 合作 的 一些 中国 客户, 他们 通常 最 关心 的 问题 是什么?
什么时候 能 拿到 good? 我 觉得 这个 可能 是 现在 大家 问 的 最多 的 一个 问题。 因为 我们 所有的 客户, 包括 开发者, 大家 也都 在 这个 平台 上 做 各式各样 的 一个 开发。 但是 他们 就 很 好奇, 比如说 我们 这次 G T C 发布 的 像 这个 group 到底 什么 都能 用。
然后 以及 我们 最新 的 像 我们 还有 两个 概念, 一个 叫做 percept, 一个 叫做 manipulator。 其实 这 两个 都是 软件 的 部分。 Percept or 主要是 给 移动机器人 做 纯 视觉 一些 解决方案。 Manipulator 主要 就是 赋能 机械臂 的 端 到 端的 一些 应用。 所以 大家 对 这部分 的 这种 非常 具体 的 一些 解决方案 非常 感兴趣, 非常 希望 能有 一些 早期 的 一些 测试。 然后 我们的 percept tor 应该 是在 五月 中旬, 就 这个 月 中旬 就会 开放 给 大家。 Manipulator 的话 也会 在 五月 底 六月 左右, 具体 时间 可以 关注 一下 N A 点的 平台, 完全 的 可以 给 大家 下载 做 使用。 发布 的话 其实 我们在 G T C 是 进行了 发布, 包括 group group 的话 相对来说 会 比较 早期 一些, 还是 得 大家 持续的 关注 我们的 一些 动态。 所以 大家 对于 这些 比较 细分 的 解决方案, 比如说 像 基础 的 抓取 类 或者 通用 的 这种 机器人 的 模型 会 非常 感兴趣。
你们的 客户 里面 是 偏 专业 跟 垂直 的 更多, 还是 更加 通用 的 更多, 或者 你 有没有 看到 什么 趋势 类 的 变化?
其实 都有, 只不过 是 大家 现在 更 希望 自己 做 的 机器人 的 方案 更 通用 一些, 这样 可以 适配 于 更多 的 一些 行业 场景。 大家 现在 会 更 倾向 于 把 机器人 的 大脑 做 的 更 通用。 也就是说 他在 可能 以前 只是 执行 单一 的 任务 A 就 还是 拿 那个 抓 苹果。 可能 以前 他 只能 抓 苹果, 但是 现在 大家 希望 做 的 这个 机器人, 除了 抓 苹果, 还 可以 抓 杯子, 还 可以 拿 钥匙。 就是 处理 更 复杂 的 一些 通用 的 一些 人物 场景。
其实 你是 有 看到 这个 趋势 的。 以前 可能 他 也是 做 比较 垂直 跟 专用 的 场景, 但是 他 希望 他们的 场景 能够 扩展。 其实 只要 涉及到 扩展, 可能 就 涉及到 任务 的 泛化 了。
对, 因为 之前 的 机器人 我们 觉得 更多 的 是 叫做 single purpose robot, 单一 的 一个 目的 的 一个 机器人。 现在 包括 像 人形, 包括 像 具 身 智能, 我们 更 希望 的 是 它 可以 执行 多个 任务 在 一个 机器人 上。 所以 就像 您 说 的, 它 会 更 具有 任务 的 泛化 性。 对于 NVIDIA 本身 来说。
因为我 知道 Jason 他是 特别 看好 这 一块 的。 你们 自己 对 这个 机器人 投入 的 一个 时间线, 包括 你们 研究 这个 平台 的 时间线 是 怎么样 的。 为什么 会说 在 这么 多 的 A I 会 改变 的 行业 里面, 你们 会 把 重点 放在 机器人 领域?
其实 维迪 亚 在 各行各业 都有 赋能, 包括 医疗、 工业、 制造、 汽车 游戏, 我们 做 的 最早 也 时间 最长。 所以 这些 都有, 只不过 是 今天 我们 可能 重点 聊 的 是 机器人 的 板块。 但是 机器人 它 其实 在 我们 看来 是 没有 行业 属性 的。 也就是 它 可以 用于 医疗, 也可以 用于 工业, 也可以 用于 汽车 制造, 所有的 场景 都 可以 用。 所以 机器人 在 V D I, 它 相当于 是一个 水平 的 一个 解决方案, 然后 来 赋能 纵向 的 每一个 行业。
您 可以 这样 理解, 所以 我们 认为 机器人 为什么 这么 重要? 其实 NVIDIA 做 机器 做了 很久 了, 包括 我们的 艾萨克 也 推出 了 很多年 了, 一直 在 做 不断 的 版本 的 迭代, 然后 不断 的 把 更多 的 一些 AI 的 一些 能力 给 集成 进来, 做 一个 更 完整 的 激情 的 解决方案。 那 我们 也是 认为 现在 第一点, 我们 认为 整体 劳动力 的 缺乏, 以及 工业 自动化, 包括 智能 制造 的 自动化 的 一些 快速 发展, 包括 人类 日常生活 中的 需要 助力 的 一些 环节。 所以 在 我们 看来, 机器人 绝对 是 未来 大量 载体 的 应用 的 一个 典范。 所以 这也是 为什么 对 我们会 推出 很多 或者 发力 很多 在 训练 仿真, 还有 端 侧 帮 大家 完整 的 迭代 一个 开发 的 一个 工作流, 帮 大家 来 打造 一个 更 通用 的 一个 机器人 问题。 这 样子 就是 像 我 刚才 提 的 一些 行业 类, 那 它 就可以 快速 的 做 一些 应用。
这就是 为什么 您 看到 我 之前 可能 您 问我 一个 问题, 就是 关于 端 侧 就是 载体 类 的, 我们 有 哪些 形式? 您 看到 机械臂、 AMR4足 割草机、 无人机, 包括 自动 矿 卡, 这些 我们 都有。 也 是因为 我们的 机器人 的 计算 芯片 从 20 tops。 其实 最早 是 0.5 tops, 包括 现在 最新 的 orin 从 20 tops 到 275 tops 全部 都有, 而且 都是 统一 的 软件架构。 所以 这 就会 方便 大家 来 打造 不同 种类 的 机器人 的 应用。 不管 你是 非常简单 的 一些 像 桌面 机器人、 开发者 机器人, 或者 是 一些 消费类 的, 或者 到 一些 非常 大 的 像 自动驾驶 矿 卡 之类 的 非常复杂 的 一些 大型 的 重工 机械。 我们 都是 有 全 栈 的 软硬件 都 可以 进行 赋能。
刚刚 我们 也 在 很 多次 的 博客 中 提到 了 仿真 环境。 其实我 一直 有一个 疑问, 机器人 它 到底 是 应该 更多 的 抓取 物理 世界 的 数据, 还是 在 仿真 的 环境 中 训练。 因为 我们 有的 时候 知道 仿真 环境 的 训练, 它 肯定 对 机器人 它的 输出 的 结果 是 有 帮助 的。 但是 我们 真的 把 它 放到 一个 物理 环境 里面 了。 可能 它的 光线, 它的 各种 传感器 的 布置。 包括 比如说 有一个 传感器, 它 可能 路线 稍微 出了 一些 故障, 或者 太阳光 稍微 让 它 这个 投影 发生 了 变化, 他 可能 就 抓 不到 那个 苹果 或者 那个 杯子 了。 比如说 大家 在 用 video 的 仿真 系统 的 时候, 他 对 这个 机器人 它 实际 的 效果 提高 有 多少? 大家 到底 是 应该 多 在 物理 世界 中 训练, 还是 在 仿真 环境 中 训练 呢?
我 觉得 你 这个 问题 问 得 非常 好啊, 这个 其实 也是 我们 N A D A 仿真 平台 我 觉得 比较突出 的 几个 技术 优点。 就是 因为 我们 把 物理 世界 做 的 非常 逼真 的 一个 描述。 这个 积累 与 我们 之前 在 图形图像 处理 相关 领域 的 一些 技术 积累。 同时 对于 各个 光线 的 追踪 以及 物理 属性。 比如说 一个 物体, 假如 说 它是 苹果 还是 海绵, 他的 触觉 其实 是 完全 不一样的。 这些 其实 都 可以 做 一些 非常 精准 的 描述。
所以 在 这样的 一个 情况下, 在 仿真 平台 上 我们 还有 另外 一项 技术 叫做 虚拟 数据集 的 合成。 也就是说 在 仿真 环境 里面, 我们 可以 通过 随机 域 的 生成 形式, 可以 生成 非常 庞大 的 一个 数据集。 而且 这个 数据集 是 自带 标签 的, 就是 标注 好的 数据集。 这个 其实 节省 了 大家 比如说 去 真实世界, 你 需要 先 拍照 采集 数据集, 然后 再做 数据 的 清洗 标注 这样的 一个 过程。
在 虚拟 的 环境 里, 举 个 例子, 我们 经常 会有 比如说 像 电子 电路板, 我们 叫做 P C B 板 的 一个 缺陷 检测。 如果你在 现实 世界 里面, 你 想 采集 一个 缺陷 检测 的话, 你 其实 需要 收集 大量 的 副 样本。 而且 副 样本 其实 有的 时候 是 不太好 收集 的, 然后 你 再 进行 一个 采集 数据。 但是 在 仿真 环境 里, 你可以 指定 一处 缺陷, 然后 进行 随机化。 那 他 其实 就会 变成 一组 非常 庞大 的 缺陷 数据 的 一个 样本 集, 这样 你 就可以 进行 检测。
同理 的, 比如说 像 一些 家庭 的 场景。 现在 我们 有 一些 机器人 的 研究, 在 做 一些 to c 比如说 家庭 服务 类 的 机器人。 其实 家庭 整体 的 数据集 是 比较 私密 的, 我们 很难 拿到 一些 公开的 数据集 来 仿真 家庭 的 一些 场景。 在 仿真 环境 里面, 其实 我们 也可以 做 大量 的 这种 家庭 数据 的 一些 样本。 这个 随机化 可以 随机化 的 一个 小的, 比如说 电路板, 一个 小的 杯子, 这样的 一个 具体 的 一个 小 零部件, 也可以 达到 一个 场景 整体 的 随机化。 比如说 一个 仓库, 一个 工厂, 一个 家庭 的 环境 都 可以 进行 随机化。
所以 这个 我 觉得 回答 您 的 问题。 第一个 从 图形图像 以及 物理 的 引擎, 流体 的 引擎 上, 我们 可以 精准 的 描述 现实 场景。 第二点, 从 数据 的 泛化 增强 上, 我们 可以 产生 大量 的 虚拟 数据集 和 一些 随机 测试 的 环境, 来 帮助 你 提升 模型 的 泛化 性 以及 整个 算法 的 鲁棒性。 所以 在 这 两个 层面 上, 就可以 保证 机器人 在 仿真 环境 里面 就能 极大 程度 的 完成 到 它 本体 的 一些 功能 的 开发 和 测试。 我们在 实验室 里 有 测试 过, 比如说 在 用 机械臂 抓取 一些 物体, 在 仿真 环境 里面, 我们 试 完 以后, 把 模型 直接 部署 到 机械臂 上, 它 就可以 直接 完成 一个 抓取 动作。
那你 觉得 我们在 仿真 里面 训练 到 一个 什么样 的 程度 了, 可以 让 机器人 去 这个 物理 世界 训练 呢?
我 觉得 这个 其实 有一点 需要, 每一个 用力 都 不太 一样。 因为 有 一些 可能 结构化 会 比较 强 一点 的那 相对来说 它 就 不太 需要 太 大量 的 一个 训练, 它 就可以 精准 地 识别 出来 这个 物体, 进行 一个 准确 的 抓取。 但 有 一些 比如说 是在 一个 非常 杂乱无章 的 非 结构化 的 环境 下, 它 就 需要 非常 大量 的 一个 样本 数据集。 比如说 他 从 一堆 零部件 里面 抓 一个 零件 的 时候, 那 这种 他 就 需要 对 这个 零部件 具有 多角度 更 强大 的 一个 数据集 进行 训练, 才能 提升 它 整体 模型 的 一个 准确度。 这个 我 觉得 每一个 用例 其实 区别 蛮 大 的。
所以 看 场景 对 吧?
对, 还是 看 场景。 但是 我 觉得 就是 在 仿真 平台 里面, 至少 我们 现在 可以 做 数据集 大量 的 一个 增强 跟 补充。 所以 这个 其实 是 提升 你 模型 准确度 很 重要 的 一个 环节, 就 数据 的 基础。
Peter 有 补充 的 吗?
对, 其实 大家 讨论 真实 数据 还是 仿真 环境, 其实 大家 可能 要 注意 的 一点 是, 很多 仿真 环境 的 数据 其实 是 由 真实世界 的 数据 清洗 训练 和 增强 的。 也就是说 如果你 没有 真实 物理 世界 大量 数据 的 采集 和 清洗 标注 的话, 其实 你 很难 在 这个 基础上 生成 仿真 的 数据。 因为 中间 可能 会 出现 大量 的 不 真实 或者说 不 匹配 的 这种 情况。 我 觉得 过去 两三年 最大 的 变化 是以 transformer 和 diffusion 这些 结构 和 算法 为 代表 的 技术 的 成熟, 让 我们 根据 少量 采集 的 真实世界 的 数据 生成 更多 的 permutation 的 拟真 度 和 准确度 得到了 极大 的 增强。 所以 我 觉得 可能 未来 也会 是 这样的 一个 平衡, 就是 少量 的 数据 是 靠 真实世界 采集 的, 因为 采集 数据 成本 比较高, 大量 数据 是在 采集 的 真实 数据 基础上 进行 的 增强 和 生成 而 成 的对。
接下来 我 觉得 也是 大家 非常 关心 的 一个 环节, 就是 我们 讲到 机器人 的 商业化。 Peter 你 觉得 在 更加 垂直 跟 更加 泛化 的 这个 机器人 的 商业化 上, 你 更 看好 谁? 或者说 趋势 有 发生 什么样 的 变化?
这 是一个 大家 很 关注 问题。 但是 要 给 大家 喷 个 冷水 的 是, 其实 通用 机器人 今天 没有 什么 商业化 的 先例, 或者说 今天 还在 非常 早期。 虽然 大家 对 机器人 的 商业化 充满 了 很高 的 期待, 但是 我们 要 意识到, 其实 今天 的 通用 机器人 还是 在 一个 前期 研究 和 底层 的 技术 突破、 技术 探索 的 一个 阶段。 所以 今天 真正 出现 在 市场上, 或者 已经 有 商业化, 有 确切 的 产品化 的 机器人 产品, 基本上都 是 各种 专业 场景, 或者说 各种 具体 的 细分 场景 的 落地。 而 即便如此, 其实 真正 成功 的, 真正 规模 能够 达到 百万 台 甚至 千万 台 的 机器人 的 这个 场景 也是 非常 非常少 的。
所以 背后 折射 出来, 其实 机器人 的 商业化 是一个 非常复杂, 也是 一个 非常 困难 的 一个 过程。 这 里面 不光是 技术 的 突破 跟 创新, 也要 跟 市场 找到 一个 非常 好的 需求 的 契合。 而且 它的 成本, 它的 可靠度 必须 达到 客户 的 需求。 所以 我 觉得 机器人 的 商业化 其实 是一个 非常 漫长 的 一个 过程。 对于 很多 创业者 或者说 投资 机构 而言, 实际上 是 有 很 容易 低估 机器人 短期 遇到 的 困难, 更多 的 关注 可能 长期 的 可能性 的。
因为 我知道你 非常 早就 开始 投 机器人 了。 你 觉得 之前 的 像 垂直 行业, 垂直 应用 的 机器人 的 商业化, 之前 的那 一部分 做得好 吗? 成功 吗?
虽然 我们 今天 看到 了 非常 多 的 机器人 的 研究, 机器人 的 demo。 不管 是 人形 的 还是 足 式 的, 还是 其他 一些 形态 的 展示 是 很多 的, 开发板 是 很多 的。 但是 真正 商业化 能够 比如说 一个 品类 或者 一个 场景 卖到 100万台 位置, 100万台 是一个 非常 小的 数字手机。 我们 每年 有 30亿台 手机 的 销量, 汽车 每年 有 一 亿台 汽车 的 销量。 但是 在 机器人 领域 里面, 一年 可以 销售 出 100万台 的 机器人 的 品类 也是 非常少 的。
今天 看来 真正 有 商业化 的 几个 大 的 类别, 比如说 在 家用 场景 里面, 包括 像 扫地机、 割草机 这种 自主 机器人。 在 商用 场景 里面, 可能 今天 最大 的 场景 是在 仓储 场景, 仓储 自动化 仓储 的 搬运。 像 亚马逊 的 提法 已经达到 了 100万台 的 出货量。 还有一个 场景 我 认为 也 算是 机器人 的 商业化, 就是 无人机 以 大江 为 代表 的 航拍 无人机、 消费 级 无人机 或者 工业 无人机, 这 里面 也是 有 百万 台 的 销量 的。 如果你 以 百万 作为 一个 标准 的话, 你 会 发现 真正 达到 百万 出货量 的 机器人 的 品类, 哪怕 经历 了 这 二三十年 的 发展, 其实 是 非常少 的。 其他 的 更 开放 的 场景, 可能 今天 就在 更 早 的 阶段 了, 还没有 形成 规模 的 商业化 和 产品化 的 进展。
那 你们 现在 会 看好 类似 于 通用 机器人 的 投资 吗?
我 觉得 市场 对 这个 方向 是 非常 关注 的, 包括 像 一些 大厂, 包括 像 NVIDIA, 包括 像 各种 公司, 在 这 里面 有 大量 的 投入。 我 认为 我的 观点 必须 要 承认, 是我 认为 今天 通用 机器人 在 一个 非常 早期 的 阶段。 如果 那比 P C 时代, 如果 那比 移动 互联网 时代, 我 觉得 可能 相当于 1980年 的 PC2005年 的 智能手机。 就是 一些 核心 的 技术 要素 在 快速 的 出现, 然后 长期 早期 的 探索 非常 的 活跃。 但是 这 里面 真正 形成了 清晰 的 商业 路线, 形成了 清晰 的 产品 路线 还是 非常少 的。 所以 我们的 观点 是 这个 方向 我们会 积极 的 关注。 但是 什么时候 进行 大规模 的 积极 的 投资, 可能 要 看 时间 和 产品 的 方向 以及 团队 本身。
从 我们 之前 投资 机器人 这么多年 的 一个 经验 来看, 我们 要 识别 清楚 技术 的 变量, 技术 的 成熟度 和 技术 的 排名 是 非常 关键 的。 因为 如果我们 错判 了 一个 技术 的 成熟 程度, 就 意味着 可能 在 这个 公司 成立 十年的 时间, 我们 没有 办法 交付 出 一个 真正 可以 售卖 的, 可以 商业化 的 产品。 这 是从 技术 的 成熟度 角度, 从 产品 跟 市场 的 角度, 一定要 找到 市场 跟 产品 的 契合度, 也就是 我们 传统 创业 所谓 的 T M F。 这一点 其实 对 机器人 产品 也是 非常 困难 的。 因为 今天 我们 可能 可以 不计成本 去 做出 一个 非常 酷炫 的 通用 机器人 的 demo。 但是 一个 不计成本 的 设备, 我们是 没有 办法 卖到 家庭, 也没有 办法 卖到 商业 场景 的。
所以 这 里面 对于 P M F, 对于 产品 的 定义 的 要求 也 非常 高。 最 关键 的 可能 最 长期 来看 还是 团队。 因为 做 机型 的 创业 不像 做 软件 或者 做 A I 的 创业。 它 既 需要 有 非常 好的 软件 和 算法 能力, 也 需要 很 好的 硬件 能力。 最终 可能 还需要 非常 强 的 商业 和 市场化 的 能力。 所以 这个 其实 创业 的 门槛 在 我们 看来 是 非常 高 的, 完全 不 低于 比如说 新能源 电动车 创业 的 这个 门槛 的 难度。 所以 我们 对 这方面 的 标准 会 非常 的 高, 也会 非常 期待 有 几个 方面 都 能够 满足 的 团队 来 在 通用 机器人 这个 领域 来进行 创业 和 尝试。
讲 的 非常 好, 丽丽 其实 你 在 video 这 一块 负责 整个 的 中国 机器人 的 业务。 对于 中国 的 商业化 环境 来说, 你 觉得 中国 机器人 行业 现在 它的 落地 情况 怎么样?
我 觉得 中国 整个 机器人 在 全球 都是 做 的 非常 好的。 因为 我们 整体 有 智能 制造 生产力 的 一个 大背景 下, 整体 在 我们 整个 NVIDIA 看起来 中国 地区 都 做得 非常 好。 所以 商业化 的 环境 是我 认为 还是 很 好的。 至少 在 激情 的 这个 领域 里。
哪些 行业 是 最好的。
现在看来 的话, 我 觉得 生活服务 类, 还有 智能 制造, 包括 像 汽车 的 仓储物流 的 这些 赛道 都 还 蛮 好的。
生活服务 类 我可以 理解 成 是 扫地 机器人、 割草。 中国 可能 没有 割草 机器人。
但 中国 是 割草 机器人 非常 大 的 一个 O E M, 出海 所以 对对对, 出海 所以 也 做得 非常 好。 另外 的话 生活服务 类 的话, 像 您 说 的 割草机 是 其中 一个 场景。 然后 另外 的话 像 一些 比如说 配送 对 吧? 包括 无人机 的 配送, 无人 小车 的 配送, 生鲜 类 的, 以及 一些 可能 能 直接 送到 家里的 一些 服务 类 的 场景。 包括 像 工业 上 生产 制造类 比较 多 的, 像 操作类 的、 搬运 类 的 都有。
搬运 类 的 仓库 搬运。 然后 还有 新能源 供应链 上 的 流水线 的那 一类 的那 类 算是 机械臂, 但是 它是 可能 是 垂直 领域 的 机械臂。 对, 是的。 这样 说 其实我 感觉 整个 的 应用 场景 还是 非常 广 的对。
本身 机器人 是 不 分行业 应用 的那 Peter.
你 觉得 中国 的 机器人 行业 它的 落地 怎么样?
肯定 是在 一个 非常 活跃 和 快速 演进 的 一个 阶段。 首先 大量 的 机器人 的 品牌 跟 厂商 是 中国公司。 其实 在 欧美国家, 你 真正 找到 的 成 规模 的 有 商业化 的 机器人 的 公司, 不管 是 to c 还是 to b 也 相对 说 就是 比较 少 的。 我 觉得 跟 整个 产业 的 成熟度 和 供应链 的 能力 都是 相关 的那 中国 有 非常 多 的 机器人公司, 他们 提供 的 场景 也是 覆盖 了 to c 到 to b 的 各种 场景, 大量 的 产品 是在 国内销售, 但是 也有 很多 场景 和 品类 是 主要 在 海外 销售 或者 只在 海外 销售。 所以 我 觉得 这点 基本上 中国 的 发展 是。
非常 领先 的那 从 投资 的 角度 来说, 你 觉得 它是 一个 可以 大规模 投资 的 领域 吗?
客观 来说, 我 觉得 其实 不太 是因为 虽然 它 非常 活跃, 但是 真正 的 规模 的 量级 并不是 很大。 就像 我说 的, 真正 出货量 超过 100万台 的 品类 是 非常少 的。 如果 整个 产业 只能 出 比如说 10万台 机器人, 那么 它 对应 的 产值 其实 是 比较 小的。 比如说 我们 刚才 看到 的 生产 机器人 已经 是一个 比较 活跃 的 品类 了, 但是 它 可能 每年 的 出货量, 全世界 价钱 可能 不到 5万台, 或者说 不到 10万台。 你 乘以 它的 单价, 其实 是一个 比较 小的 一个 产业。 在 这样 一个 相对来说 比较 小的 产业 里面, 你 要 找到 特别 大 的 投资机会, 其实 是 很 不容易 的。
这是为什么 今天 大家 对于 通用 机器人, 对 人类 机器人 有 这么 高 的 期待。 因为 大家 希望 机器人 的 通用化, 能够 把 机器人 的 场景 跟 规模 可以 得到 极大 的 扩张。 虽然 这件 事情 目前 还没有 发生, 但是 大家 对 这个 事情 有 持续 投入 的 意愿 跟 兴趣。
我 理解 今年 机器人 行业 它 又 开始 变火 了, 是因为 大家 其实 有 看到 大 模型 对 机器人 行业 的 一些 提升。 你 刚刚 也 提到 了, 现在 机器人 行业 的 发展 可能 像是 1980年代 的 互联网 跟 2005年代 的 移动 互联网。 你 觉得 现在 是一个 你们 去 开始 看 通用 机器人 跟 投 通用 机器人 的 世界 吗?
我们会 去 积极 的 看 国内外 的 非常 多 的 公司, 其实 我们 都有 接触 和 研究。 但是 可能 要 承认 的 一点 就是, 我们 认为 今年 行业 是在 非常 早期。 而且 如果我们 真正 的 目标 是要 做到 一个 通用 机器人, 他 面临 的 挑战, 他 需要 的 投入 的 时间 跟 成本 跟 资源 可能 是一个 非常 大 的 一个 量级 的 规模。 这个 难度 有可能 是 大于 当年 特斯拉 在 05年 04年 做 电动车 的 这个 难度。 就 大量 的 配套 的 能力 跟 资源, 还需要 建设 整个 生态, 在 非常 早期 的 一个 阶段。 所以 对于 通用 机器人 的 投资 这件 事情, 我会 持有 一个 相对来说 比较 谨慎 乐观 的 一个 态度。
我说 一个 有意思 的 事情, 就 今年 3月份 在 N V D A G T C 的 那个 会议 上面 有 一场 分享。 请来 了 波斯 动力 的 创始人 mark riber 在 讨论 通用 机器人 和 人形 机器人 这个 topic。 其实 他说 到 一个 很 有意思 的 观点, 我 这里 分享 一下 他 认为 以 人形 机器人 为 代表 的 通用 机器人 的 规模 商业化 需要 至少 十年的 时间 以上。 从 2024年 来看, 他 认为 这个 周期 是 超越 绝大部分 风险投资 人的 基金 的 存续期 的。 言外之意 他 不 建议 V C 真正 参与 到 这种 事情 的 投资 里面 去, 因为 这个 事情 需要 的 周期 是 超过 大家 想象 的。
所以 你的 判断 跟 他是 一致 的。
我 觉得 它 代表 了 一个 真正 在 这个 领域 面 从业 了 30年, 代表 了 整个 世界上 人形 机器人 研究 最前沿 的 科学家 研究 人员 的 一个 保守 乐观 的 一个 态度。 就是 这件 事情 虽然 我们 今天 看到 非常 多 的 变化, 看到 非常 多 变量, 看到 机器人 可以 抓取 一个苹果 一个 东西。 但是 它 离 真正 的 商业化 的 落地, 其实 是 差别 还 非常 的 远。 就 以 抓取 为例, 因为 我们 也 投资 过 一些 抓取 的 公司, 也 非常 关注 这个 领域。 在 实验室 里面 把 一个苹果 在 一个 很 干净 的 环境 里面 抓取 起来, 再 把 它 放下去。
哪怕 你 做到 99% 的 成功率, 它 离 真正 的 行业 落地 可能 是 千差万别。 因为 如果你在 一个 工厂 里面, 它 要求 的 不是 99% 的 准确率, 他 要求 的 是 五个 九 的 准确率。 他 要求 你 抓 1万次, 只有 一次 失败。 那 这个 的 准确度 和 可靠度 对于 今天 的 所有的 算法 或者 所有的 技术 框架 来说, 可能 是一个 完全不同 level 的 问题。 你的 执行 机 的 可靠度 可能 就 做不到 这么 高。 哪怕 你 有一个 理想 的 算法, 你 可能 抓 一万次 你 都会 失败 100次。 但是 客户 要求 的 是 1‱ 的 准确度。
对你 讲 的 非常 好。 我们 去年 其实 在 聊 机器人 跟 大 模型 的那 期 播客 里面 有 提到。 如果我们 让 一个 机械手臂 能够 在 任何 空, 在 任何 光线 下都 能够 非常 准确 的 去 握住 一只 杯子, 那 它 可能 就是 一个 诺贝尔奖 级 的 成果 了。
是的, 这是 机器人学 的 皇冠 级 的 问题。 但是 对于 一个人 来说, 哪怕 一个 接受 过 一两个 小时 训练 的 工人 来说, 他在 产 线 上面 基本上 可以 做到 百分之百 的 不 失误 或者 不 失效, 而且 是 非常 灵巧, 非常 快速。 所以 这一点 就 意味着 我们 真正 把 机器人 落地 到 这个 场景 里面, 其实 需要 非常 仔细 的 思考 它的 产品 的 路径。 做 一个 很 酷炫 的 demo, 离 真正 的 商业化 是 很远 的那 回到 我们 做 投资, 我们 要 投 的 是一个 商业 上 成功 的 公司。 我们 投 的 不是 一个 很 善于 做 demo, 很 善于 持续 募资 的 公司。 这 对 我们的 投资 和 创业 提出了 非常 高 的 要求。
人形 机器人 会 在 哪些 场景 或者 哪些 领域 里面 首先 实现 商业化 应用, 你怎么看?
这 是一个 好 问题。 我也 跟 非常 多 的 创业者 跟 专家 讨论 过 这个 问题。 今天 大家 看来, 包括 以 马斯克 为例, 以 中国 和 美国 的 很多 人形 机器人 的 创业 公司 为例, 大家 能够 看到 的 最 清晰 的 场景 还是 在 工厂 和 仓库 的 场景。 工厂 尤其是 以 汽车工厂 为 代表, 汽车 的 总装线, 汽车 的 搬运 产 线 以及 仓库 里面 的 拣选 搬运 的 环节。 这 两个 环节 相对来说 是 场景 比较 可控。 它的 任务 清晰, 可以 定义 它 需要 一定 的 移动, 也 需要 一定 的 操作能力, 但是 它的 难度 并不是 特别 大。 同时 这 两个 场景 成本 的 承受度 和 任务 失效 的 代价 都 是在 一个 比较 可控 的 范围。
所以 从 理性 的 角度 上 讲, 可能 这些 场景 会 是 未来 一两年 很多 公司 率先 落地 的 场景。 包括 像 特斯拉 也 提出了 他们 可能 要在 今年 或者 明年 要 实现 上千 台 的 optimus 在 工厂 里面 的 落地。 我 觉得 这些 目标 都是 有可能 实现 的。 但是 从 这些 场景 里面 能不能 真正 实现 商业 上 的 正向 的 盈利, 或者说 实现 正向 的 发展, 我 觉得 还有 待 验证。 这个 场景 能不能 再进一步 扩散 到 更加 通用 的, 更加 开放 的 场景? 我 觉得 也是 需要 今天 软件 跟 硬件 技术 的 进一步 发展。
你 觉得 如果我们 说到 工厂 或者 是 新能源 汽车 生产线, 它的 整个 的 应用 规模 有 多大?
如果 直接 算 这个 的话, 可能 不好 算出 一个 特别 清晰 的 tam 因为 现实情况 上, 产 线 和 仓库 里面 的 工人 他 往往 是 多任务 的, 他 可能 并不 只是 做 这 一个 任务。 但是 我们 一开始 商业化 的 机器人, 可能 他 就是 设计 起来 专门 为 这 一个 场景 去 优化 的 工厂 或者说 仓库 的 一个 搬运 这个 环节。 我 觉得 从 全球 范围 来看, 当 有 非常 多 的 行业, 非常 多 的 领域, 可能 整个 市场 价钱 是一个 千万级 的 人力 的 需求。 但是 当你 细分 到 每一个 垂直 的 行业, 比如说 汽车产业 在 垂直 到 每一个 工厂 里面 的 具体 的 工序, 可能 这个 数字 会 缩小 很多。 但 可能 今天 人性 精神 也好, 通用 精神 也好, 关注 的 不是 这个 市场 到底 有 多大 的 问题。 而是 我 能不能 有 一台、 有 10台、 有 100台, 能够 在 这些 场景 里面 真正 的 稳定 高效 的 工作 起来。 我 觉得 今天 可能 连 10台都 做不到。 就是 持续 稳定 的 在 工厂 里面 工作, 不给 工厂 添乱。 我 觉得 可能 今天 都 做不到 这个 水平。
所以 你 会 怎么 去 衡量 一家 机器人公司 的 好坏, 以及 它 是否 值得 投资。
投资 其实 是 非常 多维 的 一个 考虑。 我 能够 总结 的 是, 作为 一家 公司, 它 一定要 在 对的 时间 选择 对的 切入口, 以及 一个 队 的 团队 去 把 它 做 下来。 比如说 可能 在 1415年 的 时候, 中国 出现了 一些 扫地 机器人 的 公司。 比如说 21年 22年 的 时候, 中国 出现了 一些 割草机 型 的 创业 公司。 可能 在 1617年 的 时候, 中国 出现了 一批 仓储 机器人公司。 其实 他们 这些 公司 出现 的 时间 和 切入 的 这个 市场, 是 跟 当时 技术 和 需求 的 成熟度 是 密切相关 的。
我们 作为 投资人, 作为 创业者 来说, 我们 要 判断 在 今天 这个 时间点 上, 哪些 能力 成熟 到了 可以 进行 商业化 创业, 可以 进行 商业化 的 一个 阶段。 以及 这个 团队 是不是 真正 找到了 一群 合适 的 人。 而不 只是 看起来 可能 有 非常 好的 背景, 看起来 有 很 好的 逻辑 或者 很 好的故事。 但是 他 并 不能 把 这个 场景 或者 产品 真正 的 交付 起来。 我 觉得 它是 反正 蛮 综合 的 一个 事情。 这也是 我们 每天 在 不断 探索 跟 训练 的 一个 过程。
有 阶段性 的 结论 吗?
首先 我 觉得 其实 中国 的 公司 在 机器人 的 创业 这 波 浪潮 里面, 还是 有 非常 大 的 机会 的。 我们 看到 基本上 在 过去 20年 成功 或者 过去 十年 成功 的 机器人公司, 绝大部分 是 来自于 中国。 发挥 了 我们 非常 好的 供应链 研发 和 落地 场景 的 快速 迭代 的 这个 能力。
反观 说, 如果 今天 是一个 在 美国 想要 做 机器人 创业 的 团队 或者 一个 方向。 我 去 衡量 的 角度, 我 可能 会 去 思考 这个 美国 的 团队 有没有 做 一些 真正 对于 精度 要求 非常 高性能 要求 非常 高, 且 对 成本 很不 敏感 的 一些 领域。 这 可能 是 美国公司 在 过去 十年 或者 15年 做 基线 创业成功 的 一些 要素, 而 这个 要素 可能 跟 在 中国 成功 正好 是 反 的。 所以 一些 美国公司 更容易 成功 的 领域, 我 可能 觉得 一个 中国公司 去做 的 可能性 会 比较 低, 成功 概率 会 比较 低。 而 一个 中国公司 非常 擅长 领域, 比如说 扫地机、 割草机、 仓储 机器人、 服务 机器人、 配送 机器人。 我 觉得 这些 中国公司 有 显然 优势 的 领域。
讲 的 非常 好。 然后 Peter 你 有什么 要 补充 的 吗?
我想要 补充 的 是 机器人 这个 行业, 我 觉得 在 商业化 和 科研 两个 角度 来讲, 都是 非常 早期 的 一个 领域。 虽然 今天 市场 很 热, 大家 有 非常 多 的 关注。 事实上 看, 其实 机器人 只在 少量 的 比较 结构化, 比较高 容错率 的 场景。 比如说 扫地 机器人, 比如说 仓储 机器人 这种 环境 里面 得到了 规模化 的 应用。 以及 一些 少量 的 特别 高精尖 的 领域。 比如说 手术 机器人, 甚至 像 无人机? 军用 无人机 这些 场景 里面 得到了 规模化 应用, 其实 机器人 可以 落地 的 场景 是 非常 多 的。 但是 今天我 觉得 从 算法, 从 硬件 的 角度 都 还在 研发 的 一个 早期。
我 觉得 A I 今天 的 发展, 包括 大 模型, 包括 世界 模型 的 发展, 对于 机器人 未来 的 前景 是 非常 光明 的。 我们 发现 一些 机器人 传统 领域 决策 感知 控制 里面 一些 非常 难 的 问题。 因为 大 模型 的 出现, 因为 世界 模型 出现 可能 会有 全新 的 不同 的 解。 就像 我们在 自动驾驶 里面 已经 见到 的 一样, 就是 自动驾驶 之前 我们 用 传统 的 定位、 高 精 地图、 人工 规则 的 方式 来做, 其实 我们会 遇到 很多 性能 上 的 瓶颈。 而 今天 当 这个 学习 驱动 的 方法, 数据 驱动 方法 这个 范式 被 真正 验证 的 时候, 我们 发现 自动驾驶 可能 真的 能够 看到 落地 和 突破 这一天。 我 认为 同样 的 事情 在 计算 领域 里面 也是 一样的。
我们 非常 期待 大 模型, 包括 世界 模型, 包括 可能 机器人 的 大 模型 对 机器人 技术 的 影响 跟 落地。 但 从 另外 一点 我们会 更 深刻 的 意识到, 这 是一个 非常 长 的 一个 过程。 我们 今天 还有 非常 多 的 问题 没有 解决。
总体上 来说, 其实 未来 是 非常 可以 期待 的。 只是 说 中间 可能 要 跨过 的 一个 一个 的 这种 技术 的 细节 太多 了。 我们 现在 还在 一个 可以 说是 非常 早期 的 阶段。
对我 眼神 一句话 就是 在 A I 的 发展 历史上, 我们是 经历 过 三次 的 这种 低谷 或者 是 绝望 之 谷 的。 因为 短期 人们 容易 对 技术 的 一些 可能性 和 技术 突破 抱有 非常 高 的 预期, 非常 高 的 期待。 但是 当 它 不能 deliver 的 时候, 大家 会 陷入 一个 比较 失望 的 一个 状态。 我 担心 可能 机器人 在 未来 两三年 也会 经历 这样 一个 过程。 尤其 今天 大量 的 资本, 大量 的 创业者 投入 了 人心 和 通用 机器人 这样 显然 非常 长期 非常 困难 的 这个 领域。 那 如果 他们 在 两三年 之内, 三四年 之内 没有 达到 预期 的 进展 或者 预期 的 效果, 会不会 市场 会 陷入 这样 一个 低谷, 或者说 一个 失望 的 过程。 我们 当 面临 这样的 一个 过程 的 时候, 我们 怎么 从 这样的 环境 里面 再 recover, 再 爬起来。 然后 真正 的 把 这个 技术 巢 可以 落地, 可以 商业化 的 地方 去 推动 我, 这 可能 是我 未来 几年 会 非常 关注 的 方向。
你 觉 不 觉得 这个 过程 非常 像 现在 整个 无人驾驶 的 发展 的 历程。
很有可能 我们 如果 回到 15年 的 时候, 告诉 大家, 到了 2024年, 我们 还没有 办法 商业化 的 可以 盈利 的 去 经营 宗 驾驶 robot xi。 我 觉得 可能 很多人 回到 15年, 可能 不会 选择 进入 这个 行业, 或者 不会 那么 积极 的 在 这个 领域 进行 投资。 但是 可能 技术 的 发展 就是这样 的, 它是 一个 挺 漫长, 也 不是 一个 一帆风顺 的 一个 过程。 尤其 涉及到 物理 环境, 涉及到 自然环境 这个 交互, 我 有一点 我 非常 相信 的 是, 如果我们 要 解决 人形 机器人 或者 解决 通用 机器人 问题, 它 面临 的 难度 是 远远 大于 自动驾驶 可以 商业化, 可以 落地 这个 难度 的。
我 觉得 有一点 好处 是当 有一个 技术 泡沫 出现 的 时候, 其实 是 有 非常 多 的 顶级 的 聪明人 进入 到 这个 行业 的。 这个 行业 它 未必 能够 实现 最终 大家 理想 中的 那个 状态。 但是 它 在 往 这条 技术路线 发展 的 过程中, 它 可能 能够 带来 很多 的 新的 商业化 的 场景, 或者 一些 新的 应用 的 形 太, 可能 是 大家 之前 没有 预料到 的, 我 觉得 挺 有意思 的。 就 我们 看一下 这个 行业 会 怎么 演。
好了, 这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 可以在 你 所 收听 的 音频 渠道 来 订阅。 我们 中国 的 听众 可以 通过 小宇宙、 苹果 播客、 喜 马 莱雅、 网易 云 音乐、 QQ 音乐、 蜻蜓 F M、 荔枝 F M 来 收听 订阅。 我们 海外 的 听众 可以 通过 苹果 播客、 spotify 还有 youtube 来 收听 订阅。 我们。 大家 在 youtube 上 可以 搜索 硅谷 101播客 来 找到 我们。 感谢 大家 的 收听, 谢谢。