We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E113 | 大模型来了,但机器人研究依然很难,商业化更难

E113 | 大模型来了,但机器人研究依然很难,商业化更难

2023/6/15
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
张君武
鲍天宇
Topics
张君武:从商业应用角度出发,认为Covariant和Dexterity是机器人领域的领先公司,并强调不同行业对第一梯队公司的定义不同。他认为特斯拉和Everyday Robots等公司技术发展迅速,但仍处于研发阶段,未来能否达到商业化应用还有待观察。他还详细解释了机器人研究的三个主要环节:感知、路径规划和执行,并分析了每个环节的难点,以及这些难点如何导致商业化挑战。他以自身在Vicarious公司从事分拣机器人工作的经验为例,阐述了感知中物体姿态识别、路径规划中路径调整以及执行中安全设定等方面的挑战。他指出,机器人成本与人工成本的平衡是商业化的关键,并认为AI技术提升准确率是实现平衡的关键。 鲍天宇:从技术角度出发,他认为波士顿动力在机器人动态控制方面领先,Everyday Robots在机器人学习和适应能力方面领先,但两家公司都离商业化较远。他认为,让机器人适应各种环境是一个巨大的挑战,并以Everyday Robots为例,说明了让机器人完成看似简单的任务(如垃圾分类)的难度。他分析了谷歌收购多家机器人公司后进展缓慢的原因,包括技术难度、商业化遥遥无期以及公司内部管理和战略调整等因素。他认为人形机器人代表着未来趋势,但离真正商业化还有很长的路要走。 泓君:作为主持人,他引导嘉宾讨论,并总结了嘉宾的观点。他提出了许多问题,例如:大家心目中第一梯队的机器人公司有哪些?机器人研究为什么这么难?大模型对机器人研究有什么影响?机器人公司如何实现商业化?等等。他帮助嘉宾理清思路,并引导讨论深入到技术细节和商业模式等方面。 鲍天宇:认为目前主流的工业机器人公司都在采用机器人即服务(Robot as a Service)的商业模式,这种模式虽然降低了客户的前期投入成本,但也增加了机器人公司的压力,因为客户会直接比较机器人与人工的成本,机器人公司需要保证高效率和高准确率才能盈利。他还指出,人形机器人代表着未来趋势,但目前离真正商业化还很远。他认为,大模型对机器人的影响主要体现在三个方面:自然语言交互、训练数据和执行能力。虽然目前大模型在机器人领域的应用还处于早期阶段,准确率还有待提高,但他对未来充满期待。 张君武:认为目前商业化较好的机器人公司主要集中在场景确定性较高的领域,例如亚马逊的Kiva系统、扫地机器人、手术机器人以及传统工业机器人等。他指出,AI技术在机器人领域的应用程度与商业化能力成反比,AI技术应用越多,商业化越难。他分析了机器人商业化面临的挑战,包括技术难度、成本控制、规模化生产以及客户满意度等方面。他认为,大模型技术能够提升人机交互效率,并辅助机器人完成更复杂的任务,但要实现大规模商业应用,还需要克服许多技术难题。 泓君:作为主持人,他引导嘉宾讨论,并总结了嘉宾的观点。他提出了许多问题,例如:大家心目中第一梯队的机器人公司有哪些?机器人研究为什么这么难?大模型对机器人研究有什么影响?机器人公司如何实现商业化?等等。他帮助嘉宾理清思路,并引导讨论深入到技术细节和商业模式等方面。

Deep Dive

Chapters
本部分探讨了机器人领域的领先公司,嘉宾们从商业化角度出发,对Covariant、Dexterity、波士顿动力、特斯拉以及Everyday Robots等公司进行了分析和比较,并深入探讨了Everyday Robots的独特研究思路以及其在通用机器人领域的领先地位。
  • Covariant和Dexterity专注于物流机器人,实现商业化;
  • 波士顿动力在机器人动态控制方面领先,但商业化程度低;
  • Everyday Robots专注于通用机器人,研究思路独特但被谷歌关停;
  • 特斯拉和1X致力于人形机器人研发,具有量产潜力。

Shownotes Transcript

欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 红军。 硅谷 101的招聘 还在继续, 欢迎 对 我们 感兴趣 的 小伙伴 在 show note 中看 我们 招聘 的 详细 链接。 也请 大家 抓紧 把 简历 发送到 我们的 招聘 邮箱, 我们的 邮箱地址 是 H R 艾特 SV101点NET。

这 期 节目 也是 我们 听众 呼声 很高 的 一期 节目, 我们 来 聊 一 聊 机器人 行业。 因为 机器人 是一个 非常 大 的 领域, 所以 我会 把 这 期 的 节目 内容 拆 分成 三个 部分。 第一 部分 会 聊 一 聊 大家 心里 最 先进 的 机器人, 它 研究 到 哪个 程度 了。 第二 部分 我们会 来 拆解 一下 机器人, 看 整个 机器人 的 研究 为什么 那么 的 难。 最后 一部分 也是 大家 很 关心 的, 大 模型 的 发展 对 现在 的 机器人 的 研究 有 什么样 的 影响。

今天 跟 我们在一起 的 也是 两位 对 机器人 有 非常 深入研究 的 研究者。 一位 是 张君 无, 他是 blue river 机器人 的 工程师 师, 也是 之前 阿尔法 bet 也就是 谷歌 的 母公司 的 机器人 工程师, 也是 斯坦福 机器人 的 硕士, 听起来 背景 一直 是 都 非常 相关 的。 Hello, 君 武, 你好, hello 大家好。 还有 一位 是 鲍 天宇, 天宇 也是 我们 硅谷 101机器人 研究 小组 的 成员。

嗨 天宇, 大家好。

为什么 想要 聊 机器人 这个 话题 呢? 因为 首先 机器人 它 其实 包含 特别 广, 就是 我们 之前 出了 一个 视频, 然后 我们在 聊 那个 视频 的 时候, 我们 说 要 定义 什么 是 机器人, 包括 要 定义 它是 商业 还是 工业 机器人, 它的 定义 是 非常 多 的。 但是 我 想做 这个 选题, 就是 想 看 这个 世界上 最好的 机器人 是 什么样, 就是 最好的 机器人 能 达到 一个多 好的 先进 程度。 所以 大家 要不要 先 说 一下, 就 你们 心里 第一 梯队 的 机器人 是谁? 有 哪 几家? 不然 君 无限 开始。

这 是个 很 有意思 的 问题。 我可以 讲讲 我 之前 因为 待 过 的 算是 商用 的 一些 分拣 的 机器人。 第一 梯队 的 可能 有 比如说 像 cover rent dexterity 这样的 公司。 我也想 提 一下 的 是, 其实 是不是 第一 梯队 跟 行业 很 有关系, 不同 行业 可能 会有 不同 的 第一 梯队 的 公司。 如果 一定 要说 跨行业 第一 梯队 的, 我 觉得 英伟 达 在 很多 机器人 的 基础性 的 研究 上, 并且 像 做 一些 模拟器 上 还是 做得 非常 厉害 的。 所以 这会 是我 觉得 的 第一 梯队 的 一个 答案。

那你 觉得 比如说 像 特斯拉 的 人形 机器人, 还有 之前 everyday robots 这 两个 机器人 怎么样。

我 觉得 都是 很棒 的。 他们的 技术 研发 现在 看起来 都是 处在 一个 非常 蓬勃向上, 蓬勃发展 的 阶段。 我 之前 之所以 说 前面 两个, 就 co vary 和 dex ity 相对来说 是 已经 有 一定 的 客户。 虽然 他们 具体 有没有 在 盈利 这个 我 并 不清楚, 但 他 至少 已经 能 帮助 到 实际 的 外部 的 external customer。 特斯拉 和 evident robot 更多 是在 研发 和 内部 的 这种 测试 内部 使用 的 阶段。 我 个人 的 看法 是, 如果 他们 真的 能够 像 比如说 amazon 的 kiva system 那样 投入到 生产线 上, 发挥 很多 的 商用 作用, 那 他们 也可以 算作 第一 梯队。

所以 我 理解 就是 你的 这个 评价指标 是从 他 真正 商用 的 一个 角度 来 评价 的。

对对对, 你说的 很 对。

你 可不可以 一句话 解释一下, 你 刚刚 说 的 两家 你 认为 商用机器 人 比较 好的 机器人公司, 他们是 做 什么的?

他们 基本上都 是 做 把 货品 从 一个 比较 凌乱 的 环境 挑拣 出来, 放到 一个 能够 抵达 千家万户 的 小盒子 里面 的 这样的 一个 货品 分拣 公司。

天宇 因为 在 我们 硅谷 一零一 之前 做 机器人 的 视频 稿件 的 时候, 你 也 研究 过 很多很多 的 机器人公司。 你 心里 的 第一 梯队 是 哪 几家?

我 其实 心里 一直 没有 一个 真正 的 第一 梯队 的 概念, 还是 因为 大家 都在 做 机器人 里边 不同 的 部分。 在 几个 不同 的 部分 里面, 我 能 想到 很 厉害 的 机器人。 比如说 对于 机器人 的 动态控制, 我 认为 还是 老牌 的 波士顿 动力 这个 东西 你 一看 视频 就能 看出来, 他在 机器人 的 各种 动作 动态 上 确实 比 其他 家 做 的 要 领先 很多。 当然 它的 弊端 是 它 离 商业化 似乎 很远。

Everyday robot, 我也是 一家 让 我 很 值得 崇敬 的 公司, 但 很遗憾, 它 现在 似乎 被 关掉 了, 似乎 被 并入 了 谷歌 的 research 部门。 我 认为 它 同样 的 离 商业化 非常 的 远, 但是 它 解决 机器人 问题 的 思路 跟 其他 家 都 非常 不一样。 比如 像 君 我 刚才 提到 的 这些 工业 机器人, 它 更多 的 是 训练 机器人 去做 一件 事情。 即使 是 有 一些 A I 但是 依旧 还是 做 有限 的 几件 事情, 把 它们 做到 基因 做到 最好。 Every robot 不一样, 它是 让 机器人 去做 各种各样 生活 中的 不同 的 事情。 这些 事情 是 无法 通过 编程 来 完全 记录下来 的, 一定 需要 让 机器人 通过 对 环境 的 适应、 理解、 试错 去 学习。 然后 未来 的 目标 是 它 能够 把 这些 事情 总结 归纳, 以至于 做到 他 根本 没有 做 过 的 事情。

我 觉得 他 去 训练 机器人 的 思路 跟 其他 几家 机器人公司 非常 不一样。 这 也 让 我 认为 他在 研究 机器人 的 学习 和 适应力 这件 事情 上, 应该说 是 走 的 最 领先 的 公司。 可能 也是 我 看到 的 唯一 一家 在 这方面 这么 深耕 的 公司。 哪怕 这 意味着 它 离 商业化 非常 的 远。 所以 这家 公司 我知道 他 被 并入 谷歌 research 这件 事情, 有 很多 机器人 业界 的 朋友 是 感到 惋惜 的那 我也 抱有 这样的 想法, 在 业界 可能 看不到 一家 这样的 公司 了, 我 觉得 是 一件 挺 遗憾 的 事情。

我 稍微 补充 一下, 就 everyday robots 是 做 什么的。 比如说 你说 到 波士顿 动力, 大家 可以 理解 就是 一个 大家 可以 看见 爬上爬下, 可以 上 楼梯 的 这样的 一个 机械 狗。 特斯拉 的 机器人, 它 其实 是一个 蛮 斯克 展示 的 人形 机器人, 它 可以 浇 花儿, 可以 去 捏 鸡蛋, 对 吧? Everyday robots 是 做 什么的?

首先 你 要是 说 从 机器人 的 形态 上, every robot 其实我 觉得 可能 是一个 类 人形 的 机器人。 它是 轮式 的, 底下 是 轮子 驱动, 上面 有一个 像 人脸 一样的 传感器。 然后 有 一只 机械手, 手 是一个 夹子, 就是说 它 长 得 不像 人, 但是 它 也 具备 了 人的 像 手脚 传感器 这些 东西 它 都 具备。

所以 它 主要是 机械手 吗?

还是 它是 一个 可以 动 的 机械手, 对 吧? 它 可以在 谷歌 的 办公楼 里边 自由的 游走。

对对对, exactly. 这个 在 业内 我们 就 叫 移动 机械臂, 英文 里面 叫 mobile manipulator。

对, 因为 工业 机器人 它 就 在那里 做 这个 事情, 它的 这个 机械臂 是 不能 移动 的这 就 意味着 他 天生 不能 做到 通用 的 一些 事情, 对 吧? 我想 让 它 移动 到哪里 去 拿 一个 东西 他 就 做不到 了。 就像 我 刚才 说 的, everyday robot, 谷歌 拿 它 去 训练 的 事情 就是 日常生活 中 各种各样 的 小 事情。 比如说 最 初期 他们 用 它 做 训练 的 是 垃圾分类, 后来 比如说 削 黄瓜、 叠被 单, 甚至 是 让 他 充当 导盲犬 带 人 去 溜 维权, 这些 事情 都 似乎 在生活中 稀松平常。 但 问题是 就 拿 垃圾分类 这件 事情 来说, 它是 无法 靠 编程 来 固化 程序化 的。 垃圾桶 里 有 各种各样 的 东西, 你 也 不知道 这次 会 出现 啥, 以及 你 也 不知道 这件 事情 该 分 到哪里 去。 他 一定 是 需要 让 机器人 自主 去 学习 判断 来完成 的那 他的 目标 是 机器人 能把 这 一件 一件 的 小事 都 做好自己, 形成了 一套 学习系统 之后, 未来 可以 做 之前 并没有 做 过 的 事情。 这是我 认为 他 机器人 研究方法 跟 其他 家 非常 不同 的 地方。

我 听起来 觉得 垃圾分类 是一个 超级 难 的 事情。 你说 如果 机器人 真的 要 做 垃圾分类, 我们 可以 把 这个 步骤 拆解 一下。 首先 他 要 去 识别 各种各样 的 垃圾, 这 可能 涉及到 识别 的 问题。 然后 识别 了 以后, 他 还要 判断 哪个 垃圾 放在 哪个 篓子 里。 接下来 他 会 需要 用 他的 机械手臂 去 把 垃圾 捡起来, 再 精准 的 投到 下一个 篮子 里。 其实 不同 的 垃圾, 比如说 它是 一个 瓶子, 是一个 杯子, 还是 一个 塑料袋 儿。 可能 军 武 你们 真的 做 这种 机械臂, 就是你 真实的 做 过, 你 可能 知道 这个 难度 有 多少, 听起来 还是 一个 蛮 有 野心 的 机器人 的。

对对对, 确实 像 你说 很 有 野心。 而且 我 很 认同 天宇 前面 讲 的, 他 跟 别的 就算 是 其他, 比如说 工业 机械臂 不一样的 地方 在于, 工业 机械臂 它的 环境 相对来说 还是 固定 的。 就算 它 可能 在 光照 条件 不一样, 太阳 角度 不一样, 但 无论如何 它 还是 在 那个 厂房 里, 对 吧? 他 就算 别的 这种 挑拣 的 物件 不一样, 但 像 你说的 挑拣 垃圾, 然后 包括 像 天宇 前面 说 的 everyday robot, 它的 最终 的 目的 是 能够 走进 到 人的 生活 里 的那 比如说 我们 想 的 办公室 的 场景, 厨房 这样的 场景。 每家每户 的 厨房, 就算 在 家里 厨房 走到 客厅, 这也是 一个 一直 在 变化 的 场景。 所以 这一点 就是 ever robot 确实 很 厉害 的 地方。 它的 通用性, 它 一个 是要 技术 上 要 准确率 足够 高。 其次 是 就算 有一个 完美的 技术, 我们 也要 找到 可以 运用 这个 技术 的 一些 场景。

我 补充 一下 刚才 君 武 说到 的 一个点, 就是我 认为 所谓 的 做 通用 机器人, 它 能 做到 通用 的 任务 是 一方面 能够 在 通用 的 环境 确实 也是 非常重要 的 一方面。 就是我 关注 到 everyday r robot 的 真实 机器人 的 训练, 大多 是在 谷歌 的 办公楼 里 进行 的, 也就是说 是 真实的 环境, 这个 环境 中 可能 会有 非常 多 的 干扰, 我 觉得 这也是 在 机器人 业界 里面 其实 相对 难得 的 地方, 就像 君 武 刚才 说 的 工业 机器人, 也就是说 现在 真正 能够 商业化 的 机器人, 它的 全部 的 环境 都是 基于 这个 机器人 而 设计 的。 但 生活 不是 这样的, 生活 中 可能 会有 各种各样 的 突发 情况, 这个 机器人 都 需要 能够 应对 的 了。 我在 everyday robot 的 官 网上 曾经 看过 他们 讲 过 说 如果 能 让 一个 机器人 在 桌子 上 拿起 一个 杯子, 能够 在 任何 的 环境、 任何 的 桌子、 任何 的 杯子 都能 做到 的话, 这 可能 都 已经 是一个 诺贝尔奖 级别 的 成果 了。 所以 环境 的 适应力 是一个 很难 攻克 的 话题。

他 现在 怎么样 了?

Everyday robot 这样的 一个 项目, 他 现在 的 命运 也是 在 今年 1月初 的 一个 大 裁员 当中 被 波及 到。 很多 项目 里面 的 员工 算是 并入 到了 google 旗下 的 一个 可以 算是 research 部门, 叫做 robotics 在 google 那 robotics 在 google 据我所知 大部分 是 做 research 的。 据我所知 这个 everyday robot 并进 robotic 在 google 的 人 也 不是 特别 多。 所以 这个 就是 这个 公司 现在 的 一个 命运。 可以 说。

所以 天宇 刚刚 你 会说 被 顾客 关停 了 特别 可惜。

我 其实 从 一个 角度 上 也 说, 因为我 也 跟 学界 的 朋友 有聊, 似乎 everyday robot 在 业界 做 的 事情 更 像是 在 很多 学界 在 做 的 研究 的 内容。 因此 可能 并入 google research 也 不让 我 感到 特别 意外。

另外一个 方面 我也 看到 的 就是 最近 比较 火 的 人形 机器人, 或者 很多人 在 说 所谓 的 具 身 智能。 在 这个 领域 我 看到 的 两家 公司, 一家 是 特斯拉, 一家 是 one x 当然 也有 一些 其他 的 公司, 但 我 认为 这 两家 做 的 比较 先进, 我 觉得 主要是 离 量产 比较 近。 我 觉得 人性 机 机器人 跟 像 刚才 说 的 机械臂 不同, 很多 机械臂 的 公司 其实 它 用 的 是 通用 的 机械臂 组件, 比如说 像 covariant, 我 认为 他用 的 并不是 他 自己 做 的 硬件, 他 更多 的 是 去做 软件。 人形 机器人 不同, 我需要 重新 做 一个 人形 机器人 的 整个 硬件 出来, 以及 我要 给 它 配 上 软件, 配 上 A I 能够 让 他 做 一系列 的 事情, 我 觉得 是 很 考验 硬件 能力 的。 我 认为 特斯拉 在 这个 领域 非常 领先, 一方面 是因为 特斯拉 是 这 几个 大厂 当中, 我 觉得 唯一 一个 既 精通 硬件 又 精通 软件 的 东西。 且 它 精通 的 硬件 和 软件, 比如说 硬件 方面 电车 的 三电, 系统软件 方面 autopilot 这些 东西 都是 可以 直接 应用 到 机器人 当中 的。 你 也能 看到 说 在 过去 的 三年 当中, 它的 机器人 的 进步 是 非常 迅速 的。

一些 关键 的 部件, 比如说 他 能够 自己 生产 机器人 的 电机, 它 做出 了 很强 的 机器人 的 灵巧 手, 很多 的 部件 都是 自产 自 研 的。 这些 事情 让 我 看到 说 他是 在 以 一个 量产 的 思路 在 做 这个 机器人, 它的 目标 最终 式 量产, 以及 加上 特斯拉 本身 是 有 比较 强大 的 资本 支持, 让 我 对 特斯拉 的 人形 机器人 能够 真正 走入 人们 的 生活 当中 充满 期待, 所以 这是我 觉得 他们 比较 强 的 原因。 One x 也是 我 最近 才 看到, 因为 OpenAI 投资 了 它, OpenAI 上 一轮 投资 了 他 2350万美元, 是 一家 蛮 小的 公司, 是一个 挪威 公司。 可能 也 只有 50人左右, 但是 在 人形 机器人 领域 耕耘 了 六七年 了。 它的 下一代 机器人 我 觉得 是 基于 现在 这个 if 做了 很多 的 改进。 比如说 我 觉得 最大 的 改进, 它是 一个双 足 机器人 了。 也就是说 它 能够 走更 复杂 的 地形。

它 能够 上 楼梯。 之前 的 不算 是 双 足 机器人, 是 轮式 的对。

之前 简单 说 它 就是 靠 轮子 驱动 的。 如果 是 轮子 驱动 的话, 它 不能 上 楼梯, 它 不能 越过 障碍, 以及 它 必须 是要 相对 平 的 地面 可能 才能 走, 对 吧? 如果 是 土地 泥地 可能 会有 一点 难度, 双 足 机器人 就会 避免 这些 问题, 但 相应 的 它 行走 的 速度 可能 要 慢, 消耗 的 能量 可能 更多, 所以 这 两者 是 各有 各 的 优劣。

其实 有一个 技术细节 我 不太 了解, 就是 当时 我记得 马斯克 在 展示 他们的 人形 机器人 的 时候, 他们 第一次 出场, 那个 机器人 是 直接 摔了一跤。 要 让 双 足 机器人 保持平衡 是 一件 很难 的 事儿 吗?

这个 很难, 因为 它 涉及到 机器人 的 重心。 比如说 一个人 在 走路 的 时候, 我们 要 不断 调整 重心。 作为 一个 机器人 来讲, 它 调整 的 这个 频率 也要 非常 高。 比如说 一秒钟, 它 可能 需要 有 30次的 控制, 或者说 60次的 控制, 或者说 多少 类似 于 这样, 每一次 控制 你 就 需要 计算 的 比较 精准。 我 怎么样 去 有一个 微小 的 变动, 可以 让 机器人 维持 自己的 平衡。

在 这 一方面, 其实我 也 并不是 这 一方面 具体 的 专家。 因为 这 是一个 很大 并且 非常 具体 的 领域, 叫做 白皮 的 robots 或者 就是 双 足 的 机器人。 甚至 可以 理解 为 by Peter local motion 叫 双 足 走路 的 运动 轨迹。 所以 有 不少 研究者 在 研究 local motion 就是 走路 轨迹, 以及 我们 叫 periodic motion generation, 就是 有 循环性 的 轨迹 的 生成。

在 这个 领域 里面 还是 一个 很难 很 有意思 的 一个 领域。 伯克利 有一个 教授 叫 kota shiners, 在 湾区 附近 他 算是 一个 专家。 包括 像 stanford 有一个 教授 好像 叫 Scott delt 和 Carry 刘 都是 这方面 的 非常 厉害 的 教授。 不过 我 还想 补充 一小 点, 当然 是 基于 天宇 讲 的 东西 之上 补充。 我也 非常 认同 天宇 讲 的, 比如说 one x 这些 use case。 我 其实 自己 在 想 的 一个 是 我们 讲 第一 梯队 的 公司, 他 公司 毕竟 它是 一个 盈利 的 一个 实体, 对 吧? 他 公司 要 存活, 他 必须 要 找到 可 持续的 商业化 发展 的 一个 用途。

现在看来 其实 我们 前面 讨论 的 像 天宇 前面 说 的 one x 包括 像 我 前面 提 的 一些 coverage, 都是 可以 算是 说 比较 新兴 的 在 科技 上 运用 A I 比较 多 的 一些 公司。 他们 在 尝试 用 AI 去 解决 一些 更 宏观 的 问题。 比如说 通用性, 比如说 在 新的 场景 中 该 怎么样 去做 一件 没有 做 过 的 事情。 但是 对于 一个 公司 来, 他 要 做 的 是 解决 消费者 的 具体 的 需求。 在 这一点 上 来讲, 甚至 很多 需求 是 不需要 用 A I 解决, 或者说 不一定 需要 用 很多 A I 来解决。 比如 消 皇冠。 对对对, 比如 消 皇冠 或者 比如说 需要 非常 精准度 很高 的 一种 行业, 比如说 手术 机器人, 比如说 这样 这些 这么说, 就是 我们 前面 说的是 有 很多 在 感知 里面 用到 A I 包括 在 决策 当中 也会 用到 ai 但是 不少 现在 做 的 成熟 商业化 很 好的 机器人, 它 更 多是 它 能够 在 用 机器人 这个 东西 去 解决 客户 需求 这点 上 做得 很好。 至于 具体 的 机器人 solution 里面 有没有 A I 可能 是 它 并不是 一个 关注 的 一个 主要 的 点。 只要 能够 解决 客户 的 需求, 什么样 的 机器人 都 可以。

对, 我懂你 的 点, 就是 你是 想说 其实 在 机器人 的 议题 上, 更 应该 关注 它 实际 解决 了 哪些 痛点, 他 有 哪些 可以 商业化 的 潜力, 而 不是说 他的 A I 有 多 先进。

对, 比如说 举 个 例子, 我 前面 说 的 手术 机器人, 它的 难点 可能 在于 像 天宇 前面 讲 的, 有一个 叫 telly Operation, 就是 远程 控制。 这个 在 机器人 领域 里面, 我们 管 它 叫 shared autonomy, 机器人 和人 共同 来 控制 这个 机器人 的 自动化。 在 这一点 里面, 它的 难点 可能 更多 偏向 控制, 更多 偏向 这种 很 精细 的 几毫米 的 这样 一个 距离, 或者说 很 高频 的 这种 控制 这些 东西。 因为 在 数学建模 的 情况下, 他们是 物理 实体, 他们 能够 建立 数学模型, 所以 其实 数学 可以 做 的 非常 的 稳定 非常 的 稳固。 你 用 A I 的话 反而 可能 会 产生 一些 不确定性 的 问题。 这是 手术 机器人 里面 的 这样的 一个 例子。

所以 手术 机器人 它 其实 不算 用到 了 很多 人工智能 学 的 东西, 他 反而 用到 的 是 控制 学 的 东西。 我 这样 理解 是 对的 吗?

在 我的 理解 里 是 这个 样子 的。 因为 我们 看 达芬奇 机器人 其实 在 21世纪 初 的 时候 就 出来。 达芬奇 机器人 也 在 弯曲 的 一个 叫 intuitive surgical 的 公司, 它的 一个 实践性 的 产品。 它的 技术 核心 主要是 比如说 视觉 上 可以 让 医生 通过 机器人 看到 病人 这个 病灶 上 发生 了 什么样 的 一些 病变。 看到 之后 通过 机器人 就可以 相当于 机器人 是 医生 手臂 的 一种 延伸 这样的 感觉。 我 可能 再举 一个 非常 小的 例子, 就是 甄 的 要说 第一 梯队 的 机器人, 真的 能够 可以 产生 revenue 的。 这些 机器人 甚至 扫地 机器人 是 我们 可能 是 距离 我们 生活 最近 的, 并且 相对来说 能 帮 我们 解决 最多 痛点 的 一个 类型。

我 很 认同 君 武 刚才 说 的, 解决问题 为主, 并不一定 要 用 非常 多 的 A I 但 这里 我 有一点 要说, 就是我 觉得 一方面 是 可能 让 机器人 去 解决 一个 特定 的 问题。 在 这个 点 上 我 认为 确实 很多 工业 机器人 是 做 的 最好的, 且 离 钱 最近 的, 商业化 最近 的。 但 人形 机器人 这边 我 觉得 似乎 在 讲 的 另外 一个故事, 我承认 人形 机器人 似乎 离 真正 商业化, 离 真正 能 卖 还 很远。 刚才 说 归说, one x 的 机器人 可能 已经 能 卖 了, 他 什么时候 能 买到 我们 也 不知道, 但是 我 觉得 这 可能 是一种 未来 的 机器人 的 趋势, 这 可能 是一个 分支。

像 马斯克 在 讲 的 故事 是, 未来 机器人 可能 会 成为 我们的 labor force, 成为 我们 劳动力 的 一部分。 这个 机器人 它 能 做 各种各样 的 工作, 我们 能够 训练 它 做 各种各样 的 工作。 那你 就 不需要 再有 工业 机器人 的 时候 做 一个 机械臂, 我 在家 的 时候 做 另外 一种 机器人, 我 做 一个 扫地 机器人。 可能 一种 机器人 能够 解决 各种各样 的 工作。 这件 事情 在 P C 在 个人电脑 的 发展史 上 曾经 出现 过。 刚刚 有 电脑 的 时候, 其实 大家 都是 非常 specialize, 非常 专一 的 芯片。 一种 芯片 解决 一种 运算, 用于 一种 实际 场合, 但 到了 后面 出现了 C P U, 这 是一种 可以 做 各种各样 的 运算 的 芯片。 把 它 用于 不同 的 用途 是 通过 在 上面 的 软件 来 实现 的。

我 似乎 在 通用 机器人, 尤其是 人形 机器人 上 看到 了 一些 那个 时代 的 影子。 确实 这个 东西 离 真正 能够 变成 那样的 现实 还 很远。 我也 认为 比 解决 一个 芯片 问题 可能 会 需要 的 时间 更加 的 漫长。 但是 我 觉得 这 也 代表 了 一种 未来 的 方向, 包括 everyday robot 所做 的 努力。 哪怕 我 短期 就是 看不到 商业化 前景, 我 觉得 也 代表 了 一种 未来 的 方向。 我 觉得 也是 未来 那个 时代 可能 会 需要 的 东西。

我 觉得 研究者 总是 想要 去 解决 更加 有 野心, 更加 宏大 的 问题。 其实 从 商用 的 角度, 大家 其实 是要 去 找到 更多 的 机器人 落地 的 场景, 很 好的 商业化。 所以 我 觉得 这也是 是 每个人 心里 的 第一 梯队 的 机器人公司, 定义 都 不太 一样的。

对对对, 我 其实 还 挺 认同 天宇 前面 讲 的的。 比如说 我们 现在 讲 的 可能 是 现在 的 第一 梯队 的 公司 是 哪些? 是 能 赚钱 的, 或者说 是 能够 解决问题 的。 但 以后 的 第一 梯队 的 公司 可能 我也是 认同, 他 就是 希望能够 在 通用 的 场合 下 能够 解决 更多 问题 的。

天宇, 我看 之前 就是 我们在 讨论 机器人 的 时候, 你 在 做 research 的 时候 说, 大概 2013年 的 时候, 其实 是 谷歌 收购 机器人公司 的 一个 高峰期。 谷歌 是 连续 收购 了 11家机器人公司, 包括 大名鼎鼎 的 波士顿 动力 也是 在 那个 时候 收购 完成 的。 现在 看起来 这 11家公司 没有 更多 的 消息 了, 为什么 他们 还在吗?

首先 我 要说 就是 谷歌 在 这 11家公司 这个 事儿 上 保持 的 比较 低调, 包括 网上 甚至 没有 公开 说是 11家公司 是 当时 他们的 负责人 andy Robin, 也就是 当时 安卓 的 那个 创始人, 他说 的 时候 有 11家, 可能 网上 只能 查 到 78家, 所以, 我们 很多 这里 的 信息 都是 猜测。 对我 当时 知道 的 结果 就是, 首先 波士顿 动力 被 转卖 了 两次, 可能 估值 已经 降到 了 之前 买的 时候 的 3分之1。 还有 一家 公司 叫 shaft, 那 家 公司 也 被 解散 了, 其他 的 公司 并没有 查 到 什么 消息。 我 觉得 这里 有 一部分 是 行业 原因, 我 觉得 也有 相当 一部分 可能 是 谷歌 自己的 原因。

首先 行业 原因, 我 觉得 谷歌 本身 就是 在 做 技术 难度很大 的 一件 事情。 我 印象 中 这 13家公司 里边 都是 涉及 机器人 非常 不同 的 各个领域。 比如说 刚才 说 的 shaft 是 做 双 足 机器人 的 公司, 还有 做 人性 机器人 的, 有 做 机械臂 的, 有 做 视觉 的 等等。 可能 他 希望 做 的 是 把 这 11家公司 的 不同 技术 能够 整合 起来。 从 我身边的 经验 可以 看到, 你 整合 一家 公司 的 技术 就 已经 是 一件 很难 的 事情 了。 把 不同 的 硬件 和 软件 整合 在一起 已经 非常 困难 了。 他 想做 的 这件 事情 确实 在技术上 很 有 难度。

更 重要 的 是 我也 要说 那时候 是 2013年 的 事情, 那时候 A I 才 刚刚开始。 2012年 是 深度 学习 的 元年, 我没有 记错 的话, 所以 这件 事 确实 就 很难。 另外 就是 商业化 还 遥遥无期, 到 现在 可能 还 离 商业化 还 很远。

我 觉得 包括 波士顿 动力 这家 公司, 据我所知 确实 技术 非常 的 先进, 可是 在 商业化 上 一直 遇到 阻力, 对 吧? 我知道 军方 有 很多 买 他们的 产品, 可是 其他 的 我 并没有 听说 很多 真正 买 波士顿 动力 这个 机器人 产品 的 公司。 所以 整合 了 一顿, 可能 并没有 找到 商业化 的 出口, 也是 这些 公司 逐渐 淡去 的 原因。

但是 我 其实 觉得 可能 谷歌 自己的 这个 组织 原因 可能 占 到 更大 的 一部分。 首先 2013年 的 时候 是 andy rubin 来 牵头 做 这件 事情。 然后 2014年 andy ruby 就 爆出 了 性丑闻, 上任 不到 一年 就 离开了 谷歌。 当时 谷歌 的 员工 也是 说, 就是 因为 没有了 领导人, 整个 合并 的 愿景 都 变得 非常 不清晰。

然后 2015年 又 来了 一波, 那个 时候 发生 的 是 谷歌 可能 最大 的 战略 重组。 谷歌 成立 了 它的 母公司 alphabet, 然后 成立 了 google x 这些 公司。 我们 也 并不知道 它 到底 是 还 留在 google 里边, 还是 并入 到了 alphabet 当中。 这里 边 没有 找到 什么 公开的 信息, 但是 我 当时 找到了 一些 别的 信息, 就是 当时 next C E O 也 在 这 波 当中 受到 了 影响。 因为 他们的 四 是从 谷歌 移出, 并 到了 alphabet 里边。 这里 边 就 发生 了 非常 多 的 办公室政治, 很多 事情 可能 承诺 都 并没有 兑现。 以及 这个 公司 到了 alphabet t 里面 之后, 相当于 它是 一个 要有 独立 的 财务指标, 要 承担 更大 的 财务 压力。 那 对他 这个 公司 的 运营 又会 带来 更多 的 挑战。

Nest 本身 是一个 还 能够 挣 一些 钱 的 公司, 可是 机器人 就 更 不用说 了。 所以 我 能 想象 说 在 这样的 事情 中 又 遭遇 到 这样的 大 的 环境。 谷歌 发生 这么 大 的 变化, 把 这么 多家 机器人 整合 到 一起, 能够 做成 一个 更 厉害 的 机器人公司。

这件 事情 确实 听 上去 非常 的 难, 我们 也 确实 不知道 最终 这些 机器人 的 技术 到底 有没有 流传 下来。 因为 毕竟 经历 了 这 一波 好多年 以后, 我们 能 看到 谷歌 确实 是 走出 了 两个 机器人 的 分支, 一家 就是 everyday robot, 另外 一家 是 intrinsic。 Everyday robot 在 做 的 是 通用 机器人 intrinsic 更多 的 是, 第一 是 机器人 的 操作系统, 第二 是 一些 工业 机器人 的 应用。

其实 我们 讲 google 的 机器人 发展 跟 google 的 公司 文化 也 挺 有关系 的。 Google 是一个 从来不 害怕 收购 很多 公司, 但 也不 害怕 去 裁 掉 项目 的 这样的 一个 公司。 比如说 天宇 前面 讲 的 nest, 比如说 我们是 在 去年 还是 在 反正 最近 一年 内 看到 他 有 一个游戏 平台 叫 study, 之前 做 的 很好, 但 不知道为什么 现在 整个 项目 也都 被 停掉 了。

Studio 发布 的 时候 还 挺 隆重 的对 吧?

也 挺 隆重 的。 对对对, 然后 包括 像 youtube 现在 也 砍掉 了 一个 叫 stories 的 feature。 所以 google 这个 文化 in general 就是 不怕 砍掉 项目。

对你 要不要 跟 听众 简单 解释一下, 就是你 当时 在 vicarious 做 的 事情, 也 想知道 为什么 机器人 研究 这么 难。

商业化 这么 难。 其实 具体 我 本来 在 vacation 做 的 事情, 就是 分拣 机器人 里面 简 这个 步骤。 我们 讲 分拣 就是 分 的话, 我们 假设 有一个 很大 的 一个 框子, 这个 大 框子 里面 假设 有 一堆 的 护手霜, 那 芬 其实 是 我们 英文 当中 叫 grasp 或者 pick 这样的 一个 动作。 就是 把 护手霜 从 这个 大 篮子 里面 拿 起来。 简, 我们 就可以 理解 为 placement。 那就 是从 这个 大 篮子 里面 拿出 一个 护手霜 之后, 怎么 把 它 放到 比如说 抵达 千家万户 的 这个 亚马逊 的 小盒子 里面, 这个 就是 placement。 所以 这个 是我 之前 在 公司 具体 做 的 事情。 我们 公司 in general 就是 像 我 前面 说的是 在 做 比如说 挑拣 日用品, 挑拣 护手霜 这样的 一些 工作。

那 为什么 这么 难 呢? 我 觉得 它 每 一层 其实 都有 难点, 整合 起来 会 更难。 我会 把 它 比较简单 的 分为 三层, 就 机器人 的 技术 的 这个 要点 简单 分为 三层。 一个 是 感知, 一个 是 路径 规划, 一个 是 执行。 这 三层 会 是 不少 机器人 技术 环节 划分 比较 通用 的 三层, 我 觉得 运用 在 分拣 货物 里面 也是 比较 适用 的那 感知 路径 规划 和 执行 各有 什么 难点 呢?

感知 比如说 我们 怎么样 去 判断 一个 未知 物体 的 姿态, 以及 我们 怎么 判断 一个 已知 物体, 但是 我们 没有 见过 的 一个 姿态。 比如说 我们在 训练 的 时候 是 训练 这个 护手霜, 就 站在 这个 桌子 上, 或者 它 就是 一个 固定 的 形态。 我们 就算 训练 集 里面 有 比如说 十个 不同 的 护手霜 的 这样的 一个 位置 的 一个 姿态。 问题是 我们在 一个 1000个 护手霜 的 大 篮子 里面, 那 一千个 总归 会有 我们 之前 没有 学习 过 的 这种 姿态。 那 这个 时候 我们 怎么样。

识别 你的 姿态, 指的 是什么? 是 他 站在 桌子 上, 躺在 桌子 上, 还是 跟 其他 的 护手霜 躺 在一起, 还是 说 这个 护手霜 它的 形状。 因为 我们 知道 护手霜 类似 于 一个 锥形 的 物体, 它的 形状 可能 设计 的 很 可爱, 是一个 小 圆球。 到底 是 哪 一步 呢? 你 指的 是 它的 那个 姿势 还是 说 形状。

其实 这 两个 都 包括 了。 对对对, 你说的 非常 的 准确。 举 比较 生动 的 例子, 当然 我们 这里 很 希望 有一个 摄像头, 就 比如说 我们 一个 手机, 它是 怎么样 去 放在 桌子 上, 是 这样 立 起来 的? 还是 完全 躺 着 的, 还是 这样 竖 着 的。

所以 为什么 我们在 口语 当中 这么 难说 呢? 就是 因为 姿态 是一个 很难 用 口语 或者 去 想象 去 完全 解释 的 一个 东西。 所以 在 业界 我们 就有 一个 词 叫 pose。 Pose 这个 词 其实 包括 了 一个 物体 的 X Y Z 和 它的 roll pitch。 要 这 六个 参数。 这 当然 可能 讲 的 比较 那个, 但是 在 业界 我们会 用 这 六个 参数 去 描述 一个 物体 所谓 的 一个 姿态。 所以 这是 感知 里面 的 难度。 就是 比如说 很多很多 护手霜 的 情况下, 我们 怎么样 去 把 一个 护手霜 去 精准 的 确定, 这就是 一个 护手霜, 而 不是 一个 护手霜 的 一个头 或者 一个 尾巴 或者 怎么 样子 的。

因为 你们 也有 客户, 在 实际 的 操作 中, 护手霜 就是 在 护手霜 的 篮子 里, 机器人 从 护手霜 的 篮子 里 捡, 还是 说 护手霜 在 一堆 化妆品 和 洗漱 用品 的 篮子 里, 他 要 精准 的 取出 护手霜 这么 一个 物品。

我们 公司 做 的 是 前者, 就是 一堆 护手霜 里面, 然后 取出 一个 护手霜 放到 一个 盒子 里, 这是 第一步, 就 这 一步 已经 很 一步 就 不简单。 对对对, 当然 后面 还有 更多 步骤, 我们 可以 待会儿 再聊。 你说的 第二步, 我们 业界 叫 cluttered grasping, clutter grasping.

就是我 知道 有 很多 科研 方面 在 做, 但 至少 从 业界 上 来讲, 我们 公司 本身 没有 特别 多 做 这方面, 所以 这是 感知 的 难点。 你可以 说 路径 规划, 或者 也可以 在 某些 机器人 的 语境 里面 也可以 说是 决策。 是什么 意思 呢? 就是 我们 拿起 了 这个 护手霜 之后, 我们 怎么样 把 它 移动 一些 位置, 然后 放到 这个 盒子 里 抓娃娃。 对, 怎么样 从 娃娃机 抓 起来 的 那一瞬间, 然后 把 它 吊到 抓娃娃机 那个 口对 吧? 这个 路径 他 就 规划 也是 个 很 有意思 的 事情。

为什么 说 有意思 呢? 我们 人 抓娃娃 的 时候, 我们 知道 那个 机器手 并不是 每次 都 可以 很 准确 的 抓 到 娃娃 一模一样 的 地方 的。 同样 对于 我们 业界 捡 护手霜 也 一样。 假设 我们 第一步 做 的 不是 特别 准确, 没有 在 护手霜 的 正当中 去 把 它 捡起来。

这里 我 还要 再 补充 一个 背景, 就是 业界 里面 有 不少 的 机械手 都 是用 吸盘 的。 像 天宇 前面 讲 的 夹子, 这种 我们 叫 ripper grapple 一般 是 日常 物件, 包括 像 更 通用 的 场合 会 用 在 工厂 里面 很多 就是 一个 机械臂 的 问我 有一个 很小 的 吸盘, 那 这个 吸盘 要 吸 护手霜 的, 正当中 是 最好的。 问题是 我们 万一 没有 吸 到 正当中, 我们 只 吸 到了 瓶盖, 那 这个 时候 我们 就 不能 再 以 常规 的 吸 到 正当中 的 那个 姿态 去 规划 我们 未来 的 路径。 因为 如果我们 还是 以 常规 姿态 去 规划 的话, 很有可能 护手霜 就 卡 到 最后 盒子 的 边缘 了。 那 我们 就会 损坏 那个 送给 消费者 的 纸盒子。 这个 时候 该 去 怎么样? 调整 自己的 路径, 这也是 一个 很 有意思 的 问题。

第三点 就是 执行, 就算 我们 前面 两点 都 有问题, 我们 最后 快要 把 护手霜 放到 盒子 里, 这个 位置 是 错的。 举 个 什么 例子 呢? 假设 我们 要把 护手霜 就 放到 这个 盒子 的 边缘 了, 你知道 我们 亚马逊 那个 盒子 的 边缘, 它是 一个 硬纸 壳, 它 边缘 不是 很 宽 的。 我们 如果 硬 用力 要 往 那个 边缘 上 施加 力, 就会 把 这个 盒子 给 弄弯 或者 弄坏。 那 我们 怎么样 去 避免 这样的 这种 情况, 我们 就 需要 在 执行 的 时候 有 很多 的 安全 的 设定。 Safety conditions, 这就是 执行 里面 一些 难点 的 例子。

我们 再 把 这 三层 不同 的 技术 要点 再 整合 起来, 整合 本身 这 一步 也是 有 很多 难点, 像 感知 会 用到 的 一些 摄像头。 如果我们 在 厂房 里面 有一个 工作人员 一不小心 去 触碰 了 一下 这个 摄像头。 因为 你知道 厂房 可能 相对 都是 比较 窄 的 一个 过道。 他 走路 路过 说 一不小心 衣服 碰 了 一下, 手臂 碰 了 一下 这个 摄像头。 那 我们 可能 就 需要 重新 做 这个 摄像头 的 校准。 因为 如果 不做 校准 的话, 我们 之后 所有 那些 感知 路径 规划 执行 都 会有 一致性 的 错误。 所以 这一点 我们在 平时 工作 中 其实 特别 有意思。

我们 当 每次 发现 它 这个 机器人 挑 的 东西, 每次 错的 范围 都 一模一样 的话, 我们 就 知道 这 肯定 是 这个 校准 有问题。 因为他 每次 拿 错的 位置 都一样, 错的 值 本身 都 差不多。 所以 这就是 整合 里面 难点 的 一个 例子。

那每 一层 都有 难点, 整合 起来 更难, 就 导致 了 比如说 在 分拣 货物, 或者说 在 in general 这个 A I 机器人 在 商业化 的 时候 就会 产生 很多 问题。 因为 这每 一层 都有 难点, 整合 起来 更难, 它 导致 的 是一个 准确率 不高 的 问题。 准确率 不够 高 的话, 在 很多 场合 它 就会 导致 商业化 受到 挑战。

你们的 准确率 大概 能 达到 一个 什么样 的 程度?

这个 是个 好 问题。 我 觉得 可能 跟 不同 的 项目 会有 不一样的 区别。

准确率 最高 的 是 哪一类 的?

就是 A I 机器人 并不是 一个 开关, 它 肯定 是 有一个 谱 的。 它是 有 几个 层级 的, 准确率 更高 的, 肯定 是 更加 好 做 的 一些 项目。 比如说 像你 前面 说 的 货物, 在 整个 篮子 里 的 货物 都是 一致 的。 如果 一个 篮子 里 全 是 护手霜, 肯定 会 比 这个 篮子 里 又有 护手霜, 又有 别的 一些 护肤品, 这个 篮子 更好 做。

所以 他 其实 是 取决于 给你们 出的 题 有 多难。

对, 一个 是 他 给 我们 出的 题 有 多难, 另一个 是 如果 是 难题, 针对 于 这个 题, 我们 该 去 怎么 把 这个 难题 解 好, 我们 能 控制 的 就是 怎么 把 难题 解 好。 至于 出的 是什么 题, 这个 其实 我们 作为 工程师 很想 有 一些 控制。 但是 总的来说 还是 公司 的 这个 产品 部门 和 商业 给 我们 签合同 的 那些 部门 来去 制定 的, 也要 看 客户 是什么 需求。

我 很 好奇, 就是 你们 在 工厂 里 去 用 这样的 一个 机器人 跟 用 一个人, 你 觉得 成本 能 打平 吗?

这 是个 好 问题。 我们 之前 遇到 了 很多 挑战, 就是 因为 用 机器人 的 成本 还没有 用人 的 成本 来 的 便宜。

因为 现在 是 研究 阶段, 这个 其实 可以 理解。 你 觉得 十年之后 能 打平 吗?

这个 很难说, 给 一个 具体 的 时间线。 比如说 客户 给 我们 出的 题 比较简单, 那 我们 就 更好 打拼。 客户 出的 题 更难, 我们 就 更难 打拼。 具体 要说 时间点, 比如说 未来 还有 多少 年 之后 可以 做到 全部 的 收支平衡, 这 也 很难说。 但是 至少 在 我们 之前, 我可以 说 我们是 能 看到 希望, 能 看到 曙光 的。 我们 没有 差 的 那么 远。 但是 最后 那 一点 好像 就 快要 做到 了。 但是 解决 了 最后 10% 甚至 5% 的 这个 准确率 都是 比较 难 的, 要 花 很多 功夫。

这就 跟 自动驾驶 里面 的 那些 长尾 问题 一样。 因为 我们 最后的 百分之几 很多 时候 看到 的 是 所谓 的 边缘 情况。 那 边缘 情况 该 去 怎么 处理, 对 吧? 那 这个 就是 A I 能够 进来 帮 我们 解决 的 一个地方。 因为 A I 它的 强项 是 通用性, A I 它的 强项 或者 它的 目的 是 我们 未来 希望 解决 我们 没有 看到 过 的 场景。 我们 未来 希望能够 在 这个 边缘 情况下 能够 做得 更好。 所以 我的 回答 会 是 我们 现在 能 看到 曙光。 但是 如果 要 达到 收支平衡, 还是 需要 整个 A I 的 技术 会 准确率 更高 一些。

我 当时 研究 的 时候 就 感觉到 说, 现在 这些 主流 的 工业 机器人 都在 走 robot as a service。 这个 商业模式 我 其实 觉得 还 蛮有意思 的。 简单 的 说 就是 我不知道 真的 部署 或者 是 这个 硬件, 我们 会不会 收 一笔 固定 的 费用。 但是 好像 有 也 不是 很高, 主要是 靠 我真的 能 完成 一件 工作, 我 一件 一件 的 收钱。 感觉 这个 商业模式 确实 是 降低 了 不少 公司 去 使用 它的 隐性 的 成本。

公司 可能 觉得 那 我们 就 试一试, 我们 一开始 的 这个 前期 投入 比较 的 低, 但是 这个 商业模式 我也 觉得 确实 给 机器人公司 增加 了 很多 压力。 第一 方面 是 客户 会 直接 比较 说 你 这个 东西 你 做 一件 要 多少钱, 我的 一个 人工 我要 多少钱。 然后 比较 出来 可能 就会 觉得 说 用 这个 实际上 不 省钱。 另外 一方面 也是 机器人公司 一定要 把 这个 客户 做成。 否则 的话 我 这个 工作 没 做成, 我 最终 也 赚 不到 钱。 其实 把 很多 的 风险 转嫁给 了 机器人公司。

对 这点 我是 特别 认同 的。 其实 商业模式 里面, 之前 跟 天宇 讨论 过 一些 很 有意思 的 一些 点就 这个 robot service 这个 模式 其实 对 客户 是 更 有利 的。 因为 对于 公司 来讲, 我们 要 做 一个 机器人 的 这个 产 线, 前期 要 投入 很多年 的 研发, 这么 多 工程师 也是 需要 钱 的对 吧? 我们 假设 一个 在 我的 理解 里 一个 比较完善 的, 就 麻雀虽小五脏俱全 的 机器人公司, 可能 需要 比如说 50到100 人。 所以 我们 首先 要 定义 一下 什么 叫 A I 机器人公司, 对 吧? 像 我 之前 待 的 这些 公司 叫 vicarious, 他 自己是 不做 机械臂 的。 他是 把 机械臂 从 像 A B B, 像 coca 这种 O E M, 我们 叫 O E M 生产商 那边 拿 过来。 我们 自己 在 纯 做 机械臂 的 这个 软件 和 整合。 比如说 我们 就 给 客户 提供 这些 我们 买 过来 的 机械臂 或者 是 租 的 机械臂, 对 吧? 然后 客户 他 最后 拿到 的, 他 购买 的 产品 只是 我们的 服务, 我们 当中 要 做 一堆 的 软件 的 整合, 然后 包括 像 硬件 怎么 跟 我们 买来 的 机械臂 进行 整合, 因为 毕竟 也 不是 我们 自己 造 的 机械臂。

就算 50到100个 人的 公司, 他的 工资 对 吧? 就算 比如说 我们 每个 硅谷 平均水平 是, 比如说 来自 多少 万, 10万或者 15万。 你 这么 一算 和 你 一个 生产线 能 获得 revenue 其实 并不是 成 比例 的。 你 要 做 很多很多 的 产 线, 很多很多 的 项目, 才能 开始 慢慢 形成 真正 的 有 profit。 你 可能 产生 营收 不难, 但是 这个 营收 是不是 能够 抵得 上 你的 支出, 这个 就是 商业模式 里面 很难 的 店。

所以 还是 要 规模化 对 吧? 对, 但 你们的 规模化 又 不是 他 可以 轻易 扩张 的。 就像 你说 摄像头 的 位置 变 一下, 它 可能 都 会对 结果 产生 影响。 所以 我 理解 它 会有 一个 通用 的 软件系统。 但是 我们 说 每 新 进来 一个 客户 挑 护手霜 跟 挑 其他 的 一些, 哪怕 只是 一个 洗发水 可能 都 不一样。

对, 可以 这么 理解, 我们的 目标 肯定 是 想做 的 更 通用, 但是 现实 还是 要 从 一个个 项目 做起。 所以 你 前面 说 为什么 机器人 这么 难? 他 可能 有 两个 难点, 一个 是 技术 难点, 一个 是 商业 难点。 技术 难点 我们 就 前面 讲 的 是 三个 技术 环节 都有 难点, 并且 整合 起来 也很 难。 商业 难点 就是 它的 商业模式 以及 是不是 能够 规模化, 并且 这 两个 都是 影响 的。 因为 如果 技术 做得好 的话, 准确率 高, 我 规模化 就 相对 简单。 但是 如果 技术 做 的 没有 准确率 那么 高, 那 这个 规模化 不行, 然后 就会 容易 形成 良性循环, 但 也 容易 形成 恶性循环。

对的, 我 能 想象 到 的 就是我 先签 了 一个 客户, 我需要 花 很多 的 时间 来 为 这个 客户 解决问题。 我 又 签 了 一个 客户, 这个 客户 可能 是 另外 一套 不同 的 问题, 这些 人我 就要 分散 精力 去 解决 另外一个 客户。 那 这样的 导致 的 结果 就是我 不能 在短期内 扩大 很多 的 客户, 而 可能 有 一些 客户 也会 因此 不 满意, 也会 因此 不去 续签。 所以 这里 边 其实 能够 真正 达到 这种 scale 的 程度, 需要 技术 能力 非常 高, 否则 就 挺 难 达到 这个 良性循环。

最后 想 补充 一个点, 就是 你说 客户 真的 能不能 从 这个 合作 中 去 节省 一些 成本, 我 很难 给你 一个 能不能 的 答案, 但 我 至少 可以 给你 介绍 一个 例子, 为什么 还 这么 难? 比如说 我们的 这个 生产线 上, 比如说 我们 一个 产 线 是 有 七个 或者 八个 不同 的 机器人, 或者 来自 十个 机器人 在 挑拣 货物。 其中 如果 一个 机器人 的 摄像头 出了 一个 小 问题, 因为 它 产 线 很多 时候 有可能 是 顺序 性 的、 序列 性 的那 它 整个 机器人 的 产 线 都 要当 掉 当掉 之后, 会 有人 要 进来, 要 人工 的 去 把 这个 货物 再 放 回去, 然后 要 再 把 机器人 一个 一个 的 开 起来。 因为 机器人 要 讲究 安全, 他 当掉 肯定 是 开 起来 不像 我们 发动 一下 汽车 这么 快。 他 要 确保 好了, 半个 小时 的 这个 什么 叫 有效 生产 时间? Productivity time 就 没有了, 这 半个 小时 一下 没了, 就算 一天 就可以 来 那么 两三个 半个 小时, 客户 都会 觉得, 这个 真的 是 让 我 搞 的 心里 很烦。

而且 他 每次 都要 联系 你们的 人 去 维护, 去 调整。

对他 知道 另外一个 例子 就是说 机器人 的 易用性。 很多 东西 可能 只有 我们的 人 会 知道 该 怎么 去 reset, 怎么 去 重置。 就算 我们 去 交 了 outside 在 场地 的 这些 人 也没有 那么简单。 包括 像 我们 最后一个 小 例子, 就是 我们 之前 还有 把 东西 放到 盒子 里, 把 盒子 整个 给 弄坏了, 然后 东西 也 飞 到 地上 飞 了 好 几米远, 这个 时候 客户 就 比较 光火, 说, 你 怎么 把 我 东西 都 弄坏了。 在 这样的 情况下, 除非 我们 能够 很快 的 去 改进 我们的 算法。 但是 如果 长此以往 的话, 客户 肯定 是 觉得 还是 用 人工 来 比较 好。 但 我也 不是说 我们 公司 就 什么东西 都 做得 很 糟糕 的 意思。 那就是说 这个 难点 在这里 是 举 一个 例子。

你 觉得 客户 现在 去 用 这些 机器人公司, 对 他们 来说 只是 一个。 我想 尝试 一下, 看看 业界 最 先进 的 生产力 达到 了 一个 什么样 的 水平, 还是 说 他们 真的 是从 成本 跟 投入产出比 的 角度 去 考虑 的。

我 觉得 是 后者。 因为 现在 招 人 很难, 很多 的 我们 之前 的 客户 遇到 的 问题 是在 厂房 里 工作 很 枯燥, 并且 产 线上 的 人的 工资 肯定 也 不是 特别 高, 所以 招 人 比较 难。 在 招 人 难 的 情况下, 对于 我们的 客户, 他们 怎么样 提高 生产力 呢? 那就 只能 去 寻求 机器人 的 帮助。 所以 为什么 我 前面 说 如果 机器人 做得 很好, 能够 给 客户 带来 很多 价值。 但 如果 机器人 做 的 还没有 人类 做 的的 好, 那 可能 就 不一定 有 很多 价值。

我 其实 也 刚才 在 想说 这个 问题。 我 觉得 有 一些 场合 可能 是人 也能 做, 机器人 也能 做, 很多 时候 就是 在 算 投入产出。 但 确实 有 一些 事情 似乎 是人 不太能 做 的。 比如说 高低温 的 环境, 比如说 这个 东西 特别 重。 我 之前 看到 有 这个 机器人 给 车 的 车体 去 喷漆 或者说 刷漆, 这个 车体 可能 人都 举 不动, 对 吧? 那 这些 事情 可能 只有 靠 机器人 来做, 以及 有 一些 工作 可能 有 比较 大 的 危险性。 比如说 我知道 买 波士顿 动力 的 机器人, 有 军方, 有 警方, 他们 可能 做 的 是 一些 比较 危险 的 工作, 在 这些 时候, 可能 机器人 就 成为 了 很多 时候 唯一 的 选择, 我 觉得 这些 方面 会 比较 有 商业化 的 前景, 但是 在 这些 人 也能 做, 机器人 也能 做, 然后 算钱 的 时候, 可能 现在 还是 有 不少 的 挑战。

君 武, 你 觉得 现在 商业化 比较 好的 机器人公司 有 哪些?

您 指的 机器人公司 是 无论 什么 行业 的 吗? 还是 比如说 在 工厂, 然后 工业 机器人 里面。

我 觉得 可以 无论是 什么 行业 的。 因为 其实 刚刚 你 举 了 扫地 机器人 的 例子, 然后 我们 之前 有 讨论 过 亚马逊 的, 也是 仓库 运货 的 一个 机器人 叫 Kevin k 他 应该 是 只是 在 仓库 里面 搬箱子 的 机器人。

我的 理解 是 他 确实 是在 仓库 里面 的 一个 移动机器人 搬 的, 可能 并不是 直接 送到 我们 手里 的 那些 纸箱子, 他 可能 搬 的 是 货架, 比如说 他 会 在 一个 大 的 仓库 里面, 把 这些 货架 一个 一个 的 通过 移动机器人 把 它 直接 送到 人的 面前。 那 这个人 就可以 直接 从 货架 上 取 货品 放到 我们 这个 一个个 抵达 到 我们 家里的 小的 纸盒子 里面。

明白。

我 有 看过 keva system 的 视频, 它是 一个 很高 的 货架, 可能 一层 一层 垒 起来 的。 Amazon 边 叫 gold cut 这个 keyboard system 就 能够 钻 到 这个 货架 的 最 底下, 然后 把 这个 货架 给 顶 起来, 移动 到 合适 的 地方。 如果我 没 理解 错 的话, 现在 在 大规模 使用 的这 套 K 8 system 并没有 特别 多 的 A I 他在 货场 里面 很多 底下 都 是一个 一个 的 barr code。 我 通过 跑 的 时候, 机器人 底下 我可以 识别 出 这个 barcode 我在哪儿, 然后 基于 此 我 来确定 我 移动 到哪里。 对, 所以 是 一套 可能 并不是 很 AI, 但是 很 实用 的 一套 技术。

对我 同意。 因为 像你 前面 问 到 什么样 的 公司 商业化 比较 容易? 天宇 前面 讲 了 一个 我 也很 有 共鸣 的 一个 想法, 就 是从 传统 的 没有 很多 A I 的 机器人, 但 我们 现在 慢慢 想做 的 越来越 通用。 有 A I 的 机器人, 它 当中 并不是 一个 flip switch, 并不是 一个 开关, 它是 要 有一个 谱, 它是 一个 过渡性 的那 在 这个 过渡性 的 阶梯 上, 它 越 靠近 传统 的, 可能 相对来说, 因为 场景 里 的 不确定性 因素 就 比较 少, 所以 它 就 越 容易 商业化。 但 同时 它的 上升 空间 也 比较 小, 因为 它 没有 办法 做 很 通用 的 东西, 反之 也是 必然, 对 吧? 就 反之 它 也是 它 在 这个 谱 上越 靠近 未来 的, 比如说 我们 自动驾驶 里面 的 L 5, 或者说 纯 通用 的那 它 也 越 难 做。 它 在 现在 商业化 越 难, 但 它 未来 的 上升 空间 也会 比较 大。

如果 要 回答 现在 有 哪些 公司 商业化 做 的 比较 好 的话, 我会 选择 像 我 前面 说 的 场景 不确定性 因素 比较 少 的 公司, 比如说 像 kiva 这个 project。 但 kiva 被 amazon 其实 是 收购 了, 收购 之后 就 转 成了 现在 说 的 amazon robotics。 他的 这个 场景 就像 天宇 说 的, 它是 就在 一个 厂房 里面, 相对来说 线路 要 走 的 地方 都是 相对 已知 的。 他 要 做 的 技术 难点 就是 数学 里面 的 一个 优化 问题。 有点像 我们 打 uber, uber 可能 是一个 例子。 还有一个 是 航空公司 的 那种 塔台 的 起飞 的 air traffic control。 什么时候 这个 飞机 该 往 哪里 飞, 然后 什么时候 这个 机器人 该 往 这里 走, 这个 就像 一个 大型 的 交通管制 的 这样的 一个 系统。 还有 一些 如果 要说 机器人 的话, 比如说 扫地 机器人 这些。 当然 该 我不知道 他们 现在 有没有 盈利, 但是 他们 肯定 是 至少 从 收入 上 来讲。

有 一些 应该 是 应用 最 广 的 机器人 了。 因为 它 首先 是 to c 的, 然后 他 又是 一个 非常 日用 的 场景。 我不知道 大家 家里 有没有, 我 感觉 很多人 家里 应该 都有。

对对对, 当然 有些人 会 觉得, 我 买回来 之后 还是 没 啥 用, 用 的 也 不多。 所以 这个 涉及到 就算 这么 家用 的 一个 机器人, 真正 会 每天 去 用 它的 人 也没有 那么 多。 所以 这也是 一个 有意思 的 一个点。

除此之外 的话, 可能 像 手术 机器人 有用 不少 的。 因为 手术 机器人 它是 有 具体 的 痛点 的。 比如说 在 某些 欠发达国家, 它的 医生 的 医术, 它 需要 慢慢 去 培训, 去 train。 在 培训 好 之前, 比如说 我知道 有 一些 髋关节置换, 包括 膝盖 关节置换 的 这样的 一些 机器人, 就是 帮助 医生 可以 一起 把 手术 做得 更好。 包括 像 有 一些 种植牙 的 机器人, 做 外科手术 的 这样 一些 机器人, 都是 能够 帮助 医生 可以 更加 稳定, 更加 精准 的 去 做好 这个 手术。 他 是因为 有 具体 这个 痛点, 并且 机器人 帮 他 解决 的 比较 好。

最后 一类 我想 cover 的 就是 比如说 原来的 那些 相对 传统 的 这些 汽车 机器人, 然后 在 厂房 里面 的 包括 像 A B B 这些 大 的 机械臂 的 制造商。 同样 因为 他们 场景 相对 固定, 并且 能够 大规模 的 去做 很多。 比如说 机器人 喷漆, 像 天宇 说 的 人 没有 办法 去做 的 事情, 这样 他们的 商业化 是 比较 成功 的。

对我 觉得 这 可能 就 跟 之前 我们 理解 的 那种 工业 生产线 上, 就是 一步步 的 把 那个 生产线 给 机械化, 最后 做到 一个 全 无人 的 生产 工厂。 就有 一点点 像 他 可能 就像 你说的, 解决 的 场景 是 非常 固定 的。 天宇 我记得 之前 就是你 在 采 伯克利 的 博士 的 时候, 他是 怎么 评论 A I 的 那句话 的。

就是我 觉得 我 做了 这 一圈 研究, 让 我 觉得 比较 难过的 两点。 第一 是 就 别说 大 模型 了, 其实 真正 用到 A I 的 机器人公司 都 并不多, 用到 的 A I 也都 不 深。 然后 就是 能 商业化 的 能力 跟 用 多少 A I 似乎 成 相对 反比, 用 的 越少 的 似乎 能 商业化 的 前景, 越 好用 的 越多 的 礼仪, 真正 的 量产 和 商业化 就 越 难。

据 我的 了解, 现在 真正 用到 A I 的 机器人 很多 还是 停留 在 视觉 方面。 我 用 computer vision 来解决, 我 现在 可以 抓 这个 东西, 抓 那个 东西, 抓 我没有 识别 过 的 东西。 我 这里 有 一定 的 智能化, 但 你说 这个 机器人 到底 有 多 智能, 它 本质 还是 在 做 抓娃娃 这 一件 事情。 这个 事情 并没有 本质 的 改变, 所以 只能 说是 有 一些 智能, 在 有 智能 的 比较 早期, 离 真正 的 通用 我 觉得 还 比较 远。

然后 你说 哪些 机器人公司 是在 盈利 商业化 做 的 比较 好的 的话, 我 觉得 在 A I 的 这个 领域 里面, 可能 不能说 已经 有 哪些 公司 盈利 做得 非常 好。 但是 我 个人感觉 有些 特点 是 可以 让 他 盈利 比较 容易 的。 收入 上 来讲 怎么样 可以 做得 更多 呢? 这个 就是 先 从小 项目 做 起先 把 一个 客户 的 问题 真正 解决 好, 形成 一个 稳定 的 收入 的 一个 流。 这 样子 的话, 以此 之上, 然后 再去 做 一些 慢慢 去 拓展。 这 可能 是我 个人 在 这个 行业 里, 当然 做 的 时间 也不 多了, 但 好像 简单 的 一些 经验 和 体会, 这是 收入 方面。

支出 方面 的话, 就是 一定要 把 公司 的 这个 商业模式 给 选 好, 平衡 好。 如果 是 一 上来 就有 很多 机器人公司 自己的 前期 投入 的话, 那 就要 确保 有 比较稳定 的 founding 的 backup? 如果 是要 比较 健康 的 这样 持续的 收入支出 的 平衡 的话, 那 支出 就 可能 怎么样 去 用 比较 少 的 人 做 更多 的 事情, 怎么样 去 把 机器人 硬件 方面 设计 的 更加 通用, 怎么样 去 减少 一些 错误率, 其实 也会 给 公司 减少 一些 支出 的对。

接下来 其实 是一个 我 觉得 现在 大家 都 非常 关心 的 问题。 就是 这 一轮 人工智能 的 发展, 还有 大 语言 模型 的 发展, 他 对 整个 机器人 的 研发 到底 有没有 影响?

首先 我 觉得 机器人 还 远远 没有 到达 这个 ChatGPT 时刻, 我 觉得 大 模型 能够 真正 的 运用 在 机器人 上, 以及 达到 商业化 所 要求 的 准确度 和 一致性, 我 觉得 还有 很长 的 路 要 走。 但 我 觉得 能 看到 一些 曙光, 这个 曙光 可能 是在 五年 后, 10年 后 才会 真正 进入 到 业界。 但 我 能 看到 几个 点。 第一个 点 就是 可能 也是 现在 大 语言 模型 做 的 最强 的 地方。 机器人 可以 和人 用 自然语言 来 交流 了。 机器人 可以 基于 人的 自然语言 去 把 这个 事情 拆解 成 要 做 的 任务, 而 不用 人 来 编程 告诉你 要 做 这项 任务。 谷歌 之前 发布 的 那个 palm e 解决 的 其实 是 这个 层面 的 问题。

另外 一方面 我 看到 的 是在 训练 数据 方面 的 一些 突破。 大于 语言 模型 或者 大 模型 本身 是 有 提供 很多 的 预 训练 的 数据。 然后 我可以 通过 fine 2的方式, 让 这个 模型 能够 适用 在 不同 的 地方。 如果 这样的 事情 在 机器人 领域 出现 的话, 那就是说 我们 有一个 通用 的 机器人 模型。 我 基于 这个 机器人, 我 再 增加 一些 额外 的 训练 数据, 而 不用 特别 多 的 数据, 我 可能 就 能够 适应 新的 场景。 谷歌 在 这个 领域 发布 了 一个 模型 叫 R T one robotic transformer 1, 他 就 做到 了 一些 类似的 事情。 比如说 我可以 使用 别家 的 机器人 的 数据 也 灌入 这个 模型 中, 然后 发现 给 自己 机器人 的 模型 的 训练 的 准确度 也 有所提高。

那 如果 这样的 事情 能够 实现 的话, 那 我们 包括 也 看到 在 学界 里边 有人 其实 在 做 这样的 东西。 比如说 伯克利 和 好多 几个 高校 联合 起来 做了 一个 机器人 通用 的 训练 数据集, 把 各种 不同 的 机器人 数据 都 拿 过来 一起 用。 这样的话 导致 的 结果 是我 训练 一个 机器人 所 采集 的 数据量 和 采集 数据 的 时间跨度 会 大大的 减少。 这 可能 会给 训练 出 更好 的 机器人 带来 很多 的 维度 和 空间。

最后 就是 基于 大 模型, 我们 也 看到 机器人 可能 会 增强 执行 从未 执行 过 任务 的 能力。 这个 在 谷歌 的 R T one 上 已经 有所 体现 了。 他 基于 做 过 的 一些 任务, 然后 去做 没有 做 过 的 任务。 能够 看到 说 这个 模型 驱动 下 准确率 有 明显 的 提高。 这些 事情 让 我 觉得 是 离 真正 的 通用 机器人 更 近 了 一步。 但 我要 确实 说, 无论是 prom e 也好, 还是 R T one 也好, 这 两个 可能 是 最近 比较 重磅 的 机器人 的 大 模型 了。 业内 的 人士 说 这 都 不是 第一次 在 业界 里面 出现 这个 模型, 其实 在 之前 可能 都有 类似的 研究成果。 而且 这些 模型 的 准确度, 你 比如说 R T one, 它 可能 最高 的 事情 的 准确度 也就是 七八十, 最多 到 90。

R T one 是什么? 可以 解释一下 吗?

R T one 叫 robotic transformer one, 顾名思义 就是 把 transformer 这个 模型 架构 运用 在 解决 机器人 的 事情 当中。 如果 基于 之前 军 武 说 的 三层 的 这个 模型 结构 感知 到 拆解 任务 和 路径 规划, 再到 执行。 那么 它 主要 解决 的 我的 认为 这是 第二层, 就是 拆解 任务 和 路径 规划 motion planning, 通过 大 模型 来解决 一些 这样的 问题。 这里 就说 到了 它 可以 对 一些 位置 的 任务 也 能够 做到 路径 规划, 这就是 可能 大 模型 的 这个 能力 的 体现。

你 如果 去 看 R T one 的 数据 的话, 可能 他 做 的 最好的 几项 任务, 可能 准确率 只有 85、 90, 还 达不到 业界 能 用 的 95% 99% 的 准确度。 所以 我 认为 在 现在 的 阶段, 它 对 学界 的 意义 可能 大于 对 业界 的 意义。 但是 能够 整体 看出 这些 事情 对 机器人 有 比较 好的 正向 的 影响。

你 要不要 给 大家 也 解释一下 palm e 是什么?

Prom E E 这里 代表 的 是 embodied, 就是 谷歌 为 机器人 感知 理解 任务, 理解 人的 需求 做 的 一个 大 模型。 它 有 两 部分, 第一 部分 就是 谷歌 上 一代 的 大 语言 模型 palm 第二 部分 是一个 叫 vision transformer。 这个 模型 顾名思义 它是 把 transformer 运用 在 了 视觉 以及 尤其是 图像 的 识别 当中。 这 两个 模型 和 2为1, 它 主要 的 目的 是 很多 时候 是 能够 让 机器人 去 理解 人的 任务。 今天 把 这个 任务 能够 拆解 成 具体 的 每一步 执行 的 任务。 具 举 个 例子, 如果你 给 pum e 放 上 一张 厨房里 蛋糕 原料 的 图片, 你 问 他 基于 这些 蛋糕 原料 怎么 做蛋糕? 这个 模型 它 可以 根据 他 看到 的 信息, 把 这个 事情 拆解 成 第一步, 打碎 鸡蛋, 然后 把 鸡蛋 放到 把 篮子 里 放 上 糖 混合 一下, 然后 最终 生成 蛋糕。 它 可以 去 把 基于 图像 的 理解 以及 人们 需求 的 理解, 能够 把 它 分拆 成 一步一步 的 任务。

这个 模型 很 有意思 的 地方 在于, 它 能够 做到 机器人 的 任务 的 同时, 并没有 丢失 它 原来 语言 模型 的 能力。 也就是说, 你 去 问 他 一些 常见 的 大 语言 模型 的 问题, 他 也 能够 回答。 甚至 说 多 模态 的, 包括 带 图片 的 他 也 能够 回答。 比如说 你 给他 放 一张 水果 的 图片, 你 问 他 这 里面 有什么 水果, 他 也能 给你 回答 的 很好。

Palm e 之前 是 跟 everyday robot 谷歌 的 这个 项目 有 合作。 在 prom e 驱动 下 的 everyday robot 的 机器人 就可以 完成 我人 跟 他 说话, 机器人 就 能够 理解 我的 任务。 把 它 拆解 好, 比如说 让 他 去 拿 一个 什么东西, 机器人 就可以 理解, 然后 走 到那里 把 东西 拿 起来, 然后 返回。 当然 整个 的 这个 过程 并不是 全部 由 他们 一来 完成 的。 但是 就像 我 刚才 说 的, 它 解决 的 是 前面 这部分 人 可以 跟 机器人 自然 地 用 语言 对话 了。 机器人 能够 理解 整个 的 过程 并 拆解 程序 要 做 的 任务。

天宇 讲 的 非常 详尽, 我 觉得 挺棒 的。 如果 要说 有什么 补充 的话, 那 可能 可以 还是 回到 大 模型 对于 机器人 有 什么样 的 改变 这样 一个 议题 上来。 其实 alphabet 在 我的 理解 里面 有 3篇跟 机器人 比较 相关 的 paper, 两篇 是 天宇 前面 已经 提到 的 泡面 和 R T1, 还有 一篇 是 比较 早期 的 一个 研究 的 paper 叫 c can。 这些 东西 是 怎么样 改变 机器人 的 呢? 举 一个 例子, 假设 我们 要 让 一个 机器人 说 给我 拿 一个苹果, 在 第一篇 paper c can 之前, 那 机器人 可能 会说, 你 去 grocery store 买 一个苹果 来。 他 可能 完全 就 不会 想到 说, 其实 厨房 里面 本身 已经 有 苹果。 或者说 他 也 不会 想到 说 他 自己 能不能 真的 出 这个 房子 去 gary store 买东西。

C 看做 的 事情 是一个 叫 grounding, 就是 把 语言 模型 和 机器人 真正 能 做 的 事情 结合 在一起, 所以 这是 第一个 非常 中心 是 第零 层。 因为 如果 语言 模型 说 一些 非常 机器人 完全 做不到 的 事情, 那 也没有 办法, 所以 这 是一个 语言 模型 对于 机器人 的 改变。 在 C 看 这 篇文章 之后, 就像 天宇 说 的, 有 V I T 叫 vision transformer。 有了 vision transformer 之后, 机器人 就可以 通过 语言 和 图片 真正 去 了解 这个 机器人 具体 能 做 什么东西。 但是 我们 前面 讲 机器人 的 这个 三层 结构 是 感知、 决策 以及 执行。 这 三层 结构 其实 都是 为了 去 解决 一个 具体 的 问题, 解决 一个 具体 的 task。 在 大 模型 之前, 这个 task 是 需要 有 软件工程师 真正 自己 去 编程 编 进去 的。 那大 模型 之后 人们 就可以 跟 机器人 说, 你 帮 我 拿 一个苹果。

相当于 首先 这 第一步 是 解决 了 机器人 具体 要 做什么 任务 的 这样 一个 问题。 然后 我 非常 认同 前面 天宇 说 的 这个 R T one, 其实 解决 了 第二层? 就有 了 任务 之后, 我 该 怎么样 去 生成 一些 机器人 的 具体 的 动作。 就像 我们 现在 ChatGPT, 我们 跟 他 说说话, 他 自己 会 生成 很多 语言 和 这些 词汇 一样。 R T one 希望 做 的 是 能够 把 我们 本来 就是 在 传统 的 工程 机器人 的 概念 里面, 每一个 动作 是 需要 非常 具体 一个个 去 硬 编程 编 进去 的那 R T one 可能 会 希望 在 第二层 里面 有 一些 更加 通用性 的, 更加 generalize 的 机器人 这样 一些 决策。 总的来说 就是 两点。 第一个 通过 语言 模型 可以 让 人和 机器人 能够 更好 的 交互, 知道 机器人 具体 应该做 什么样 的 一个 任务。 其次 是 有了 这个 任务 之后, 假设 这个 任务 是一个 新的 任务, 他 没有 做 过 的 情况下, 怎么样 可以 通用性 更好 去做 一些 这样的 一些 任务。

对我 听起来 还是 有 帮助 的。 但是 整体 上 这个 帮助 它 都是 集中 在 软件 层面。 但 其实我 觉得 机器人 最难 的 部分, 可能 是因为 它 要在 一个 真实的 物理 世界 去 完成 一个 任务。 现在 我们 整个 的 互联网 上 数据 已经 非常 非常 多了。 这也是 为什么 在 这个 时间点 上, 像 这种 大 语言 模 能够 爆发 的 一个 重要原因。 但是 我们 把 物理 世界 编程 数据, 这个 数据 有 多少, 现在 可能 还是 非常 非常少 的。

我记得 那天 我们 吃饭, 然后 还有 jm 对 吧? 就 我们 当时 在 一个 饭桌 上, 我们 就说 为什么 机器人 这么 难? 饭桌 上 有 一碗 汤, 然后 这 不 就是说 如果现在 让 机器人 去 盛 这个 糖, 那就 很难。 我们 可能 要在 这个 屋子 的 屋顶 装 一圈 摄像头, 而且 还 不能 有 移动。 其次 是 我们 盛 汤, 如果 灯光 正好 打 到了 一个 阴影, 摄像头 能不能 照 到 这个 阴影 以及 在 阴影 下 识别, 这也是 很难 的。 假设 现在 的 光线, 我们 刚刚 录音 的 时候 太阳 在 落山, 这个 光线 是在 不停 变化 的那 可能 机器人 它 又 无法 识别 了。

而 我们 要 去 收集 这个 物理 世界 的 数据, 它 本身 就是 一个 非常 难。 要 一点一点 上传, 一个 case 的 去 收集 数据。 对比 互联网 这种 大 爆发式 的 数据 增长, 整体 上 感觉 在 物理 世界 里 还是 挺 难 的。

确实 是因为 在 物理 世界 里, 像你 所说 的 数据 很难 收集。 现在 有 不少 公司 有一个 新的 一个, 当然 也 不算 那么 新 了。 就 相对来说 这 两年 依托 英伟 达 的 一些 G P U, 依托 算 力 的 暴涨, 大家 也 开始 慢慢 去 看, 怎么样 在 模拟 世界 里 可以 来 训练 这个 机器人。

这个 其实 它 有 好处 也有 弊端。 好处 在于 它 不用 像 我们 收集 物理 实体 的 那个 数据 那么 难。 因为 像你 前面 提 的, 收集 真正 的 数据 很难, 然后 你 可能 会 问我 难 在哪里, 那 我们 首先 要把 机器人 开开。 机器人 开开 本身 如果 在 真正 的 产 线上, 可能 就 已经 是一个 比较复杂 的 一个 事情。 在 这个 产 线上 你 还要 收集 各种 不同 场景 里面 的 数据 都是 比较 难 的。 但是 我们在 模拟 里面 可能 就会 可以 做到 不同 种 天气, 不同 种 的 场景 去 模拟, 去 训练。

这是 它的 好处 的 地方, 它 数据 生成 很 容易, 它 相对来说 的 弊端 就是 模拟 跟 真实世界 里 到底 它 会有 什么样 的 一个 区别。 如果 模拟 跟 真实世界 是 一模一样 的那 真的 是 完美 了。 但是 我们 尤其 在 机器人 这种 需要 跟 物理 世界 打交道, 业界 学界 有一个 词 叫 dynamics。

有 很多 动态 的 情况下, 那 这个 是 怎么样 去 模拟 就 很难。 举 个 例子, 我们 可以在 屏幕 上 模拟 一个人 在 踢足球。 我们在 屏幕 上 看到 这个人 在 踢足球, 然后 把 球 踢走 了。 这个 motion 我们 如果 只是 纯 视觉识别 的话, 我们都知道 他在 踢足球。 问题是 我们 怎么 模拟 这个 足球 游戏 里面, 球 被 人的 脚踢 到 之后 真正 有 多少 力。

然后 那个 力 算出去 他的 物理 世界 里, 他 应该 飞 到哪里 去, 它 会不会 再 弹起来, 它 还是会 滚动。

对 对对对, 所以 有 一些 传统 的 基于 物理 的 模拟。 但是 真实生活 中的 数据 并不是 所有 事情 都是 可以 建模 的。 比如说 我 把 一杯水 从 这里 倒 出来, 这个 水 的 运动 我 该 怎么 去 建模, 对不对? 包括 像 当然 我不是 物理 方面 的 专家, 但是 比如说 有 一些 什么 气体, 一些 分子 或 布朗运动 或者 怎么样 这种, 我只是 举 个例。

这 并不是 所有 东西 都是 可以 被 用来 建模 的。 如果 在 没有 办法 所有 东西 都 用来 建模 的 情况下, 我们 怎么 确保 模拟 世界 和 真实世界 的 一致性? 如果 模拟 世界 和 真实世界 不一致, 我们 怎么样 把 在 模拟 世界 里面 训练 出来 的 A I 的 这些 策略 用 在 真实世界 的 时候, 我们 怎么样 对它 进行调整? 这个 就是 学界 里面 叫 simply real gap 的 这样的 一个 问题。 这些 也都 是 大家 有 很多人 现在 还在 做 科研 的 这样的 一个 领域。 其实 英伟 达 有 很多 很棒 的 模拟器, 比如说 isac, 它 里面 有 一些 比较 先进 的 模拟 技术, 这个 英伟 达 是 走 在 前列 的。

而且 你说 到 这个, 其实我 想到 因为 Jason 英伟 达 的 创始人 黄 教主 杰森 黄, 他是 比较 希望 用 模拟 的 方法 去 解决 这个 问题 的。 其实 在 英文 的 专业术语 里面 叫 simulation。 就是 因为 只要 去 用 simulation 的 这种 方法 解决, 大家 就 需要 在 里面 造 一个 虚拟世界, 就 需要 买 它的 显卡, 然后 他 就可以 卖货 了, 对 吧? 这 是一个 方法。 但是 确实 像 你说的, 模拟 世界 并 不能 代表 真实世界。

这个 在 大概 六七年 前, 就是 自动驾驶 开始 发展 的 时候。 最 开始 我记得 自动驾驶 基本上 每个 公司 都会 先 在 simulation 里面 跑 数据, 跑 完 以后 就会 去 真实的 路上 去 跑 数据。 最后 其实 我们 经常 在写 新闻稿 的 时候, 很多 自动驾驶 公司 都 会说 我们的路 测数据 是 多少。 那 我们 就 一定 会 问 说 你 这个 数据 是在 模拟器 里面 跑 的, 还是 说 你 真实的 在 路 测数据 上 跑 的。 因为 这两点 是 完全 不一样的, 就是 很显然 路 测 积累 的 corner case 边缘 案例, 它是 更有 价值 的。

对对对, 可能 还是 回到 模拟 的 目的 是什么, 对 吧? 就是你 前面 说 数据 收集 很难, 模拟 的 目的 主要 还是 给 A I 在 训练 的 时候 有 更多 的 数据。 但是 也 像你 所说, 我们 真正 用 A I 真正 用 这个 机器人, 最后 还是 要在 实际 世界 里面 的。 所以 这 两个 可以 算是 模拟 解决 的 是 前期 的 问题, 实测 解决 的 是 后期 的 问题。

基于 你 刚刚 说 的, 其实 也有 一个 机器人 里面 的 例子。 比如说 机械臂 上面 经常 会有 一些 传感器 的 线, 比如说 我们 机械臂 的 末端 控制器 里面, 它 会有 一个 力矩 传感器。 传感器 的 走线 它 其实 是 有点像 你可以 想象 成人 也有 血管, 人 也有 肌肉 的 脉络, 肌肉 的 经络。 问题是 机器人 的 传感器 的 神经, 它是 要 装 在 机械臂 外面 的。 但 机械臂 在 现实生活 当中 会有 这种 不同 的 幅度 的 运动。 这个 运动 就会 导致 力矩 传感器 的 这根 线 有些 时候 会 被 拉扯 到。 一 拉扯 到 的话, 这个 东西 就会 导致 它 传感器 的 数值 不准。

这一点 其实 在 模拟器 里面 去 很难 去 模拟 的。 至少 我见 过 的 没有 特别 多 的 公司 会 真正 去 做到 细节 上去 模拟 这个 力矩 传感器 受到 的 力 是 多少。 因为 在 A I 训练 里面, 这个 并不是 一个 特别 关键 的 点。 它是 在 最后 大家 用 之后 发现 有 这个 h case, 然后 我们 再去 解决。 当然 这方面 我也是 在 不断 学习, 这个 可能 也 并不是 看 的 最 完善。 但是 期待 看到 更多 更加 准确 的 一些 模拟。

现在 如果说 做 机器人 是一个 体系 的话, 感觉 模拟 已经 是一个 必不可少 的 步骤 了。 就 比如说 我 印象 比较 深 的 就是 intrinsic 收购 的那 家 公司 叫 R O S。 他的 目标 就是说 能够 让 机器人 的 开发者 能够 快速 的 做出 机器人。 它 自己 集成 了 很多 机器人 的 通用 部件, 以及 自带 了 模拟 环境。 也就是说 能够 让 你 把 这些 机器人 的 这些 通用 的 部件, 通过 它的 这个 开源系统 能够 给 连接起来, 然后 直接 进入 它的 模拟 环境 去 模拟, 能够 达到 一个 相对 可用 的 状态, 然后 再 放到 现实 世界 当中 去路 测。 让 我 看到 说 好像 模拟 simulation 在 整个 机器人 的 研发 过程中 已经 变成 了 一 环。 我 确实 在 我的 研究 中 没有 看到 说 某 一家 机器人 抛开 模拟 不做 模拟, 直接 就上 真实世界 去 测。 所以 感觉 现在 变成 了 一个 必不可少 的 环节 了。

尤其是 在 跟人 交互 很多 的 场景 下。 对你 前面 说 的 ross, 它 确实 是一个 像 我们 学 机器人 的, 从 上 研究生 的 课 开始 就会 用到 的 一个 开源 的 项目。 然后 你说 之前 确实 是 收购 了 他 背后 的 一个 公司 叫 open robotics, 非常 认同 他们。 一开始 我们会 觉得 他 很 有用的 一点, 就是 他 有 这个 叫 r VS, 叫 一个 visualization。 这个 very visualize 里面 有 一些 模拟 的 东西 是 它的 优点。 它 相对来说 现在 可以 做 的 更好 的 一点 就是 怎么样 加入 像 我 前面 说 的 物理 的 这种 模拟。 它 那种 模拟 都是 我们 叫 canna tic simulation。

所谓 cannot atic 和 dynamic 的 区别 就是 dynamic 会 受到 力 的 影响, 但 kinematic 并不是 跟 力 的 研究 相关 的。 所以说 你看 那个 机器人 在 ross 的 模拟器 里面 动来动去 可以 动 的 很快。 比如说 一秒钟 可以 动 个, 我 就 随便 说 个 数字, 1秒钟 可以 动 3米。 那 在 现实生活 中 是不是真的 能够 一秒钟 3米? 他 如果 一秒钟 移动 了 末端 控制器, 移动 了 3米, 会不会 让 机器人 飞出去? 会不会有 很大 的 惯性? 像 惯性, 然后 像 加速度, 这些 都是 跟 力 的 研究 相关 的这 一点 正是 ross 之前 没有 做 太多 的 点。

可以 说 做 这一点 其实 也是 比较 难 的, 要 依托 很多 的 算 力, 所以 还是 比较 看好 N B 那些, 包括 像 之前 也有 像 bullet, 它 也是 一个 物理引擎。 然后 包括 像 unity 这种 做 游戏 的, 他们 也都 是 物理引擎。 这方面 的话 确实 有 不少 的 新的 进展 在 这个 领域。

所以 总体上 来说, 我们 觉得 这 一轮 的 大 语言 模型, 它 在 软件 方面 还是 能 给 机器人 很多很多 的 帮助 的, 包括 在 这种 模拟 世界 的 训练。 但是 真正 在 物理 世界 里面, 可能 还是 有 很多 的 难题 要 解决。

对我 觉得 可能 大 语言 模型 分 语言 模型 和 大 模型。 你说的 没错, 就 语言 模型 可以 帮助 交互, 大 模型 可以在 软件 上 有 很多 的 提升。 大 模型 可能 在 模拟 里面 还有一个 应用, 就是 可以 通过 大 模型 去 产生 更多 的 数据, 然后 用来 训练 机器人 的 A I 的 policy。 总的来说 模拟 其实 是 依托 算 力 的, 就是 模拟 这是 一 很大 的 一块 大 模型, 也是 很大 的 一块。 然后 这两块 都是 对于 软件 这 一块 是 有 很大 的 帮助。 但是 他 是否 真的 能够 work, 还是 要 整合 之后 看一下 在 现实 之间 的 表现 是什么 样子 的, 所以 这点 我 也很 期待。

好, 谢谢 两位。 今天 非常 的 精彩, 我 觉得 聊得 也很 透彻, 这也是 我们 节目 为数不多 的 线下 录音。 今天 跟 大家 最后 说 一个 小 花絮, 就 我们的 录音 环境。 因为 我们 今天 有 三个人, 但是 我 只 带 了 两根 线, 就 三个 话筒 两根 线, 所以 非常 辛苦。 天宇 一直 在 对 着 我们的 一个 外放 的 收音 系, 总 在 非常 大声 的 扯 着 嗓子 喊, 所以 今天 非常 的 辛苦。 天宇 感谢 天宇, 感谢 君 无。

感谢 大家, 谢谢 红利, 谢谢 大家。

这就是 我们 今天 的 节目。 如果 大家 对 机器人 有 什么样 的 看法, 或者 有 更多 的 问题, 欢迎 大家 给 我们 写 评论, 写 留言。 中国 的 听众 可以 通过 小宇宙、 苹果 播客、 喜马拉雅 听、 FM、 荔枝 F M、 网易 云 音乐、 Q Q 音乐 来 收听。

我们 美国 的 听众 可以 通过 apple podcast 的 google podcast、 spotify、 amazon music 来 收听 我们。 当然 大家 也可以 去 使用 很多 的 泛 用 型 播客 客户端 来 收听。 我们。 特斯拉 和 蔚 来 的 车主 可以 通过 你们的 车载 渠道 搜索 硅谷 101。 感谢 大家 的 收听, 谢谢。