We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 解读斯坦福Aloha机器人:视频为何是“假的”?能做家务的机器人还有多远?-Vol41

解读斯坦福Aloha机器人:视频为何是“假的”?能做家务的机器人还有多远?-Vol41

2024/1/21
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
尼克森
托马斯
花花
Topics
托马斯:结合自身经验,探讨了长期使用工具后,使用者会将自身感知扩展到工具上的现象,并对数字孪生技术进行了阐述,认为其可以加速虚拟世界中的运行。 尼克森:分析了斯坦福Aloha机器人的技术亮点,包括其通过模仿人类动作进行学习的“demo模式”,以及利用改造后的Transformer模型将任务分解为一系列动作的能力。同时,也指出了视频中对机器人能力的夸大宣传,并补充了其他一些值得关注的机器人项目,例如谷歌Palm-E模型和波士顿动力的机器狗。 花花:从专业角度详细解释了传统工业机械臂与Transformer模型赋能的通用机械臂在学习方式上的区别,并对具身智能的概念进行了深入解读,强调了机器人感知自身状态并根据反馈调整行为的重要性。此外,还分析了目前机器人技术发展中面临的挑战,例如触觉和力学数据的匮乏,以及学术研究成果与实际应用之间的差距。 托马斯:对斯坦福Aloha机器人的宣传视频夸大其实际能力进行了批判性分析,并指出其能够自主完成一些简单的重复性动作,例如按电梯和擦拭酒杯,但其学习简单动作的成功率并非百分之百。同时,也补充了研究团队发布的失败案例视频,展现了机器人的局限性,并强调了媒体宣传与实际能力之间的差距。 尼克森:深入探讨了大语言模型与机器人的结合方式,解释了大语言模型如何通过将机器人反馈作为序列数据进行处理来指导机器人行为,以及大语言模型如何将复杂信息转化为机器人可以理解的指令。同时,也分析了为什么大语言模型能够指导现实生活中的机器人,并对谷歌开发的让机器人自主学习的方法进行了介绍。 花花:从专业角度解释了具身智能的概念,并结合自身研究经验,对力学传感器和触觉传感器在机器人技术中的应用进行了深入探讨,指出目前触觉和力学数据的匮乏是机器人技术发展的一个瓶颈。此外,还对人形机器人的发展现状进行了分析,指出其面临的挑战以及为什么大家都在卷这个赛道。 托马斯:从产业链的角度分析了当前商用机器人的困境,指出其缺乏实用性、性价比低以及商业模式存在问题等因素。并结合自身经验,对不同类型的机器人,例如扫地机器人、送餐机器人和清洁机器人等,在实际应用中的局限性进行了分析,并对学术研究成果与实际应用之间的差距进行了深入探讨。 尼克森:对当前市场上存在的各种机器人产品,例如Anki Cozmo、三星的Ballie和索尼机器狗等,进行了分析,指出这些产品大多缺乏实用性,主要依靠卖萌或其他非核心功能来吸引消费者。同时,也对机器人公司普遍存在的商业模式问题进行了分析,例如租赁模式和低毛利率等。 花花:总结了当前机器人技术发展中面临的挑战,例如环境的复杂性、数据匮乏以及商业模式的不完善等。并对未来机器人技术发展方向进行了展望,认为数字孪生、大语言模型和具身智能等技术将是推动机器人技术发展的重要力量。

Deep Dive

Chapters
讨论斯坦福Aloha机器人的功能和亮点,解释其技术原理,包括机器人与大语言模型的结合和具身智能的概念。
  • 斯坦福Aloha机器人能够完成复杂的家务操作,如折衣服和做饭。
  • 机器人通过克隆人类动作的模式进行学习,使用Transformer模型将任务分解为一系列动作。
  • 具身智能使机器人能够感知自己的动作和环境,提高任务执行的准确性。

Shownotes Transcript

大家好, 欢迎来到 脑 放 电波。 脑 放 电波 是 一档 关注 科技前沿 品牌营销 和 个人成长 的 谈话 类节目。 每期 带给 您 一个 有趣 的 话题, 帮 您 在 信息 严重 过载 的 现代 世界 小幅 自我 迭代。 我是 托马斯。

我是 尼克斯。

当我 熟练 开 一辆车 之后, 尤其是 这个 车, 比如说 我 开 了 很久 了, 它 就是我 每天 通勤 上下班 的 车 的 时候, 我的 巨 深感 会 延展 到 这个 车 的 外壳, 而 不再 是我 自己的 手和脚。

人 实际上 是 很多 费力 的 机构 去 组成 的。 它 实际上 本身 它 为了 去 增加 自己的 灵活性, 去 牺牲 了 很多 效率 性 的 东西。

就 数字 孪生 这件 事情, 它 不光是 把 物理 的 东西 虚拟化, 它 更 重要 的 是 它 可以 加速 这个 时间 在 虚拟世界 里面 的 运行。 它 有点像 七龙珠 里面 那个 精神 与 时间 屋。

模糊 的 技术, 智能 处理 模糊 的 需求。

今天 我们 要 聊 一个 跟 A I 有关的 话题, 我们 过去 好像 从来 没有 聊过, 我们 要 聊 一下 机器人。 A I 的 发展 使得 机器人 这个 行业 也 开始 有了 一些 蠢蠢欲动 的 感觉。 近期 我们 也 看到 了 一个 非常 热门 的 来自 斯坦福大学 的 机器人 项目, 叫 阿罗哈。 我们 今天 会 从 这个 项目 开始 来 聊 一 聊 通用 机器人 到底 离 我们 还有 多远 的 问题。 我们 也请 到了 一位 嘉宾。

我 觉得 这个 嘉宾 肖像 几个 特点 我很喜欢。 第一个, 他 从 十岁 开始 就 应该 开始 玩 机器人, 是 非常 资深 的 机器 玩家。 然后 他 刚刚 从 肯德基 梅隆 这样 一所 理工 学校 毕业, 相对来说 是 了解 一些 研究 的 最新进展, 好像 上个月 还在 发 paper。 除此之外 的话, 他 也 接触 过 非常 多 的 所谓 的 机器人 自动化 的 项目, 帮助 过 非常 多 的 企业 做 过 自动化 的 导入。 我们 欢迎 花花。

Hello 大家好, 我是 花花。 现 之前 是 就读于 卡内基 理工大学 的 机械 工程系, 然后 是在 by robot 仿生 机器人 lab 里面 去做 一个 研究生 助理。 在 这个 研究生 期间 也 发表 过 一些 论文, 主要 还是 关于 这个 工业 机器人 机械臂 的。 然后 今天 我们的 这个 主题 阿罗哈, 就是 我们 刚刚 斯坦福大学 发表 这个 论文, 其实 也是 一个 和 机械臂 有关的 论文。

这个 大 模型 应用 在 机器人 之后, 就能 完成 的 一些 很 复杂 的 一些 家务 的 操作。 所以 今天 我们 也是 希望 花花 可以 从 这个 机器人 角度 来 给 我们我们 一起来 来 畅想 一下, 包括 看看 现在 是 什么样 的 一个 状况。

本期 节目 的话 我们 希望 解答 三个 问题, 第一个 叫做 最前沿 的 机器人, 现在 都 什么 都都 做到 了 什么 程度, 他 花 多少钱 能够 完成 什么样 的 功能, 有 哪些 亮点, 除此之外 的话, 我们 也 今天 请来 了 专家, 我们 希望 帮助 大家 理解 一些 技术 上 的 原理, 就是 机器人 怎么 和 大 语言 模型 结合, 包括 聚成 智能 这些 概念, 它 到底 怎么 回事儿, 这是 我们的 第一 部分。 此外 我们 把 视角 关注 普通人 的 日常生活。 其实 我们 发现 一个 现象, 就是 你的 生活 里 其实 用上 这些 论文 里 的 机器人 其实 是 非常 难 的那 难 在哪里, 我们会 今天 会 展开 的 讲一讲。 因为我 今天 的 嘉宾 花花 本身 也是 有 比较 多 的 实践 的 实习, 把 机器人 从 论文 里 带到 现实生活 当中 的 经验 的。 以及 最后一个 问题, 我 觉得 还是 关注 我们 普通人 的 生活, 就是说 可能 有 你们 有的人 已经 有了 两台 机器人, 对 吧? 一台 自动驾驶 的 汽车 或者 是 一台 扫地 机器人。 但是 一台 所谓 的 能够 处理 多个 任务 的 家用 的 通用 机器人, 距离 我们 普通人 还有 多远? 我们 希望 把 这个 问题 今天 也 畅想 一下, 好吧?

好, 我们 就 从 现在 媒体 大热 的 这个 斯坦福 机器人 团队 做 的 这个 叫 mobile alloa 项目 来 开始。 要不 尼克斯 你 先 简单 介绍 一下 这 是个 啥 项目, 让 大家 先 初步 了解 一下。

对我 最 开始 注意到 这个 项目 其实 是 这样, 就是 某一天 早上, 然后 就 发现 很多 的 微信 群 里 和 人的 朋友圈 就 开始 转 一个 视频。 就是 一个 机器人, 它 能够 在 一个家 里面 去 折 衣服, 然后 去 做菜。 关键 是 这个 机器人 还是 个 广东 机器人, 他 做 的 四个 菜 都是 广东菜、 滑蛋虾仁、 干贝 烧鸡、 蚝油生菜。

这个 机器人 可以 去做 很多 东西, 详细 读 了 一下 这个 论文, 他 可以 去做 这个 擦拭, 可以 去做 这个 呃 推 椅子, 还有 摁 电梯 的 一些 这样的 工作, 这样的 动作。 对, 还是 非常 的 impressive 的对。

也能 完成 一些 很细 的 活儿, 比如说 把 那个 啤酒瓶 给他 打开, 因为 遇到 啤酒 起子 那个 尺寸 很小, 对 吧? 然后呢 还 甚至 是 说 他们 那个 研究 团队 放 出来 的 视频 里面, 还 能够 给 一个人 刮胡子。 就 特别 像 我们小时候 看 那个 动画片, 就是 畅销 100年之后 人类 的 生活, 对 吧? 你 早上 一起来, 那个 床垫 就 把 你 倒 起来, 然后 一个 机械臂 就 伸过来, 自动 把 你 胡子 给 剃 了。 所以 对 所以 整一个 视频 集锦 就在 网上 刷屏 了。

然后 我们 就 注意到 这个 东西, 视频 的 文案 写 得 非常 的 有有 吸引力。 他他 重点 是 说 他说 这个 设计 就是 这个 机器人 的 设计, 它是 开源 的。 所有的 机械设计, 所有的 我 用 的 一些 零件 的 编号, 以及 我 用 的 零件 的 型号 和 我的 代码, 你 都 可以在 我的 网站 上 下载 下来, 然后 把 它 复现 出来。 也就是说 他 欢迎 所有的 人 去做 一个 一模一样 的 机器人。 这个 机器人 研究 团队 是 这样 讲 的。 他说 只需要 26万块钱 的 成本 就能 实现 原来 350块钱 的 成本 的。 这个 我说 的 都是 人民币。

350万。

对, 350万 的 这个 机器人 系统 能够 做 的 事情, 就是 相当于 把 价格 打 下来 了 十倍 还 多一点, 这是 机械 部分。 大脑 的 部分, 研究 团队 也 非常 强调 说, 他 只需要 用 一台 3080 ti 的 笔记本电脑, 就是 3080T 就是 呃 3070 肽。 对, 3070 肽 首先 是 这样, 这个 笔记本电脑 它是 没有 包含 在那 26万里面 的。 但是 我们 要 注意, 就是现在 很多很多 我们 说 大 语言 模型, 它 需要 很强 的 服务器资源, 对 吧? A I 还需要 很强 的 服务器资源, 但是 3070 肽 完全 不是 最新型 号 的 英伟 达 的 显卡 了。 所以 他 就是 强调 说 这个 笔记本 可能 你 在 二手市场 上 就能 买到, 对 吧? 我 完全 不需要 大型 的 服务器。 所以 他们 甚至 联系 了 一家 三 弟 打印 的 经销商, 他 就是说 那那 家 公司 他是 愿意 把 他的 所有 零件 销售 出来。 但是 那个 研究 团队 就是说 我们 也 不从 这个 赚钱, 我们 就是 希望 更 方便 其他 的 研究者 也 去 复现 这个 工作。

然后 包括 最后 一个点, 我 觉得 他们 把 这个 东西 做 的 特别 像 一个 产品。 他们说 这是 第一次 能够 用 低成本 的 机械臂 完成 这么 多 丰富 的 任务。 而且 你 要 知道 这个 产品 它 不是 那种 一 碰 就 坏 的 产品。 在 我们 写 这个 论文 的 八个 过去 的 八个 月 里面, 我们的 电机 没有 出现 任何 故障。

这个 机器人 就 应该 像你 日常生活 当中 扫地机 一样, 它的 quality 很 到位, 这个 是 他 非常 亲民 的 一 面对 接下来 讲到 这个 技术 的 部分, 我 觉得 有 两个 层面 的 亮点。 第一个 层面 的 亮点 就是 它 给 那个 机器人 设计 了 一套 去 克隆 人类 动作 的 一套 模式。 所谓 克隆 是什么 是什么 状态 呢? 其实 我们会 把 那个 图片 放在 我们的 文稿 里面。 然后 我在这里 我 先 描述 一下, 就是 它 会 让 一个人 在 那个 机器人 背后, 然后 在 那个人 手上 绑 两个 机械臂。 这样的话 相当于 说 那个人 做了 一个 伸手 的 动作, 前面 那个 机器人 的 机械臂 也会 做 一个 伸手 的 动作。 所以 他 把 这个 东西 叫做 人 给 机器人 来做 教学 展示, 它 叫做 demo 模式。

对, 大家 如果 看过 黑客帝国 三 的话, 他们 在 西安城 里面 要 抵御 乌贼 机械 乌贼 入侵 的 时候, 那个 指挥官 他们 开 的 那个 大型 的 机械人 就是 类似的 结构。 就是 人 坐在 中间 的 一个 笼子 里面, 然后 手里 拿着 两个 小的 机械臂, 然后 当你 挥拳 的 时候, 整个 大 的 机器人 的 那个 大 的 机械臂 就会 跟着 一起 挥动。 大家 理解 为 就是 一个 一比一 精确 模仿 的 一个 状态。 所以 它 整个 demo 的 方式 就是 人 在 后面 动, 然后 前面 那个 机械臂 做 同样 的 动作。

对你 这么说, 我 还想 起来 有一个 电影 叫 环太平洋, 它 也是 这个 概念。

对 吧? 对对对, 就 机器人 打架 是 吧?

对对对, 机身 打架。 我们我们 80后、 90后真的 好多 就是 好多 小时候 的 动画。 你 要是 这么 蠢 出来 好多 东西。

高达 这些 东西 都有。

对, 你们 就会 发现 机器人 这个 东西 在 人类 的 这个 想象 里面 已经 存在 了 几十年 了。 大家 就 觉得 这个 东西 就是 一个 替代 人 来 干活 的。 从 古代 的 木牛流马 开始, 对 吧? 就 已经 在在 畅想 那种 事情 了。

好, 我说 回来, 就是 人 去做 一个 动作, 让 机器人 去 模仿。 那 这个 事情 它 就是 让 机器人 去 训练, 让 机器人 去 学习 这个 动作。 他们 最后 给 出来 了 两组 非常 关键 的 指标, 是 非常 让人 印象 深刻 的。

它 叫做 第一组 指标, 它 就 都说 只需要 15分钟 就 能够 学会 日常生活 当中 的 一些 简单 动作。 比如说 怎么 把 一个 瓶盖 给 拧开, 你们 点 外卖 都有 那种 酱油瓶 对 吧? 怎么 把 那个 瓶盖 给 拧开? 两个 机械臂 只有 两个 手指, 每个 机械臂 就 两个 手指。 然后 怎么样 给 你家 的 电视机 换 电池, 怎么样 撕开 那个 胶带, 怎么样 给你 穿 鞋子, 他 就 15分钟 就 搞定。 但 他 给 了 另外 一组 数据, 叫做 就是你 让 那个人 给他 示范 50次, 他 就能 学会 更多 的 动作, 对 吧? 所以 整个 机器人 它的 建造 的 原理, 它 就是说 让人 去 给 机器人 做 示范, 然后 这个 机器人 就会 学会 这个 动作。

他们 从技术上 提炼 出来 的 三个 亮点。 第一个 亮点 叫做 说 他们 做了 一套 改造 过 的 transformer 模型, 其实 就是 今天 大 模型 的 所有的 基座 这样的 一个 模型 结构。 这个 模型 他 能够 把 任何 的 任务 拆解 为 一系列 的 动作。 他 就举 了 一个 例子, 就是说 比如说 你 给 他的 任务 说 让 这个人 把 这双鞋 穿 在 右脚 上, 那 可能 这个 机器人 的 脑海里 就 把 穿鞋 这个 动作 拆 分成 了 1000个动作。 导致 的 结果 就是 他的 他他 觉得 动作 非常 丝滑。

第二个 亮点 是 就是说 这个 机器人 其实 是 利用 视觉 摄像头 来去 学会 这个 动作 的。 但是 这个 机器人 还有 个 更 厉害 的 动 操作, 它 能够 从 这个 机器人 本体 的 感觉, 什么 叫做 本体 的 感觉? 就是 机器人 能 感觉到 自己 不 费劲儿, 你知道 吧? 就是说 他在 他 知道 自 做自己 做 这个 动作 是要。 是要 轻一点 还是 重 一点? 所以说 他们 在 论文 里 把 这个 描述 成说 这个 机器人 甚至 能够 提取 出 动作 的 风格, 甚至 在 刻意 的 模仿 这种 风格。

那 这种 风格 怎么 理解 呢? 比如说 你说 穿鞋, 其实 就是说 因为 人的 脚 是 很 软 的, 对 吧? 你 不可能 说 一下子把 那个 脚 把 那个 鞋子 就 怼 在 人的 脚 上, 你 肯定 是要 相对 要 缓和 一点, 你 需要 一个 服务 的 一个 姿态。

对 吧? 这个 地方 说 的 这个 提取 动作 风格, 它 是不是 提取 的 是 他 模仿 的 那个 对象 的 动作 风格, 就是 这个 人类 他 后面 的 人类 对 吧? 对。

整个 论文 他说 的 就是 一个 怎么样 去 让 机器人 克隆 人类 动作 的 一个 一个 过程。 对, 实际上 后面 的 那个 他的 操作 感, 其实 我们 都 管, 就是我 我们 之前 一直 都 管 叫 这个 东西, 叫做 这个 的 角度 复现。 什么 叫 角度 复现 呢? 就是 机械臂 的 free raft mode, 人 可以 轻易 的 去 推动 机械臂, 然后 让 机械臂 去 记住 它的 这个 位置, 让 另外一个 机械臂 去 复现 出来, 这样的 一个 模式 去 教会 机器人 怎么样 去做 这个 动作。 其实我 个人 觉得 他用 视觉 去 识别, 视觉识别 去 学习 的 东西, 主要是 去 分辨 出 他 要 去做 什么样 的 任务。 比如说 他 里面 说 的 就是 要 按 一个 电梯 或者说 是 开 一个 冰箱, 它 其实 是 先 分辨 出了 这 有 个 手掌, 所以 我 触发 了 我 这个 机器人 的, 我要 去 按 这个 手掌 的 这个 动作, 我 这里 有 滩 水, 我 触发 了 这个, 我要 拿 一个 毛巾, 毛巾 在哪儿? 我 去 找到 这 毛巾, 然后 去 把 这个 东西 夹起来, 然后 去 擦 一 擦 这个 桌子 这个 动作。

对, 是的, 就是 整个 克隆 的 能力 非常 强, 而且 是 它的 复线 并不是 非常 机械化 的。 你 上 一步 给他 克隆 了, 怎么 放 一个 五号 电池, 你 下一步 把 那个 电池 挪 一点 位置, 或者说 你 换成 一个 七号 电池, 尺寸 更 小的。 那那 其实 这个 机器人 也会 把 这个 机 也会 知道 怎么样 去 挪 放 这个 电池。 也就是说 这里 其实 已经 有 一定 的 举一反三 的 这个 概念 在 里面 呈现 了。 甚至 他的 是 他的 描述 说 甚至 是 能够 排除 环境 中的 一些 干扰。 我记得 他 举 的 最 极端 的 一个 例子 就是说 他在 那个 机器人 行动 的 前方, 他 放了 一个 ipad, 然后 播放 一个人 在那边 说话, 就是 正常 的 很多 机器人 其实 如果 听到 它 在工作中 遇到 人 说话 的话, 它 其实 是 会 类似 于 siri, 它 又 进入 一种 聆听 模式, 对 吧? 它 就 不 工作 了。 但是 那个 机器人 它 就 很 正确 的, 就是说 它 就 忽略 掉了 生活 当中 的 一些 干扰, 它 就像 一个人 一样, 知道 自己 应该 聚焦 在 什么样 的 任务 上。

我 正好 问 一下 那个 花花, 就是 像 他 这 里面 说 这个 他他 通过 demo 一个 东西, 比如说 他 抓取 一个 物体 或者 换 一个 电池, 交交 个 50次他 就 学会 了。 那 这个 过程 在 没有 transformer 之前, 如果你 要 让 一个 机械 机 机 机械臂 做 这件 事情, 他是 用 什么样 的 方式 来 学会 这件 事情?

现在 工业 里面 不是 有 很多 机械臂, 我们 都是 把 机械臂 移到 一个点, 然后 让 他 记住 这个 点, 再去 去做 这个 重复 的 过程。 所以 我们 都说 如果 一个 机器人 或者 工业 型 的 这种 机械臂, 更 适合 是 那种 大型 流水线。 因为 它 做 的 是 重复 的 动作。

所以 工业 机器人 机械臂 它的 这个 精度 就是 它它 学会 一招 之后, 这 一招 是 百分百 精确 的, 稍微 变化 一点 他 就 做不到。 是的。 但是 有了 transformer 模型, 一个 在 通用 环境 下 的 这个 机械臂, 它 就可以 接受。 比如说 我 这个 电池 歪 一点, 或者 是 滚 到 旁边。 因为 它 有了 这个 transformer 模型, 它 对 整体 的 这个 物体 有了 识别, 所以 它 就 哪怕 我 这个 必 就 不再 是 记住 了。 比如说 15.7度 这个 角度, 然后 35.6 牛 的 力, 他他 不再 他 不再 是 记住 这些 了。

是的, 他 记住 的 实际上 是一个 行为。

明白 了。 所以 从 这个 角度 来说, 其实 这个 大 模型 确实 赋予 了 这个 通用型 的 机器人 的 一个 想象 空间。 因为 过去 如果 是 按 机械臂 的 模式, 其实 就像 刚才 你说的, 它 只能 记住 一个 非常 精确 角度, 做 一个 非常 机械化 固定 的 事情。 那 它是 没有 办法 在 通用 环境 下 使用 的对 吧?

就是 工业化 机器人 里面, 我们 通常 给 机器人 的 命令 是 一个 角度 或者 是 六个 角度。 如果 是 六 轴 机械臂 的话 就可以 六个 角度。 他 去 完成 一个 动作, 他在 这个 记忆 库 里面 就是说 我 这个 要 挪 到 90度, 这个 要 挪 到 一度, 然后 接下来 我要 挪 到 多少度。 对, 但 现在 我们 来说 就是 我要 去 告诉 机器人 我要 去做 一件 事情, 然后 机器人 的 程序 会 告诉 机器人 他 要 做 走 多少度。 是的, 是 这样 一个, 就是 我们 整个 逻辑 变换。

这就是 刚才 你们 提到 的, 就是 当当 你 告诉他 一个 动作, 它 会 自动 通过 transformer 把 它 分成 1000个步骤。 这 一千个 步骤 在 过去 可能 是 需要 人 来去 帮 他 规划 的, 你每 一个 角度 是 多 大力, 现在 变成 了 由 transformer 模型 来 提供 这种 分解 和 最后的 执行, 让 它 整个 动作 会 变得 很 平滑。

其实 过去 那 一千个 动作 怎么做, 就是 各家 机器人公司 的 壁垒, 它是 最最 核心 的 机密 算法。 对, 现在 不是 了, 他 发现 transform 模型 自己 能把 这个 事儿 搞定。 所以 刚才 我们 把 最 开始 节目 最 开始 把 这个 机器人 叫做 通用 机器人。 它 通用 就是指 说 他在 面临 同一个 任务 的 不同 形式 的 时候, 它它 出现了 通用性。 另外 就是 刚才 也 提到 了, 它 面对 不同 的 任务, 它 也有 一个 很 快速 学习 的 一个 通用性。

我 现在 就是 电脑 的 左边, 就是 这 篇 论文 的 这个 本文 一篇 论文 它的 亮点 都在 它的 题目 里面。 对 他说 learning by menu mobile manipulation with low cost whole body body Operation。 对它 整个 拆分 开来, 它 有 几个 亮点, 第一个 亮点 它是 by menu。 什么 叫 by menu 呢? 就是 双臂 机器人 协作, 它 其实 已经 是一个 很大 的 亮点 了。 因为 在现阶段 来说, 一个 机械臂 去做 一件 事情, 它 其实 是 比较简单 的那 为什么 两个 机械臂 就 比较 难 呢? 因为 它 会有 两个 机器 机械臂 的 碰撞 模型, 在 整个 验算 里面 会 导致 它的 动作 规划 会 非常 困难, 这是 第一点。

然后 第二点, 能够 对 社会 做出 很 突出 的 贡献 的 就是 low cost。 因为 我们都知道 大部分 的 研究 都是 钱 堆 出来 的。 Low cost 这个 词 非常 的 有 吸引力, 相当于 是你 把 你 把 整个 成本 就 降下来 了。 然后 另外一个 就是 我们 说 的 whole body text Operation, 就是 相当于 是 全身 的 遥控, 全身 的 遥控 它 相当于 就是 一个 完全 拟人 的 一个 状态 了。 对, 就 相当于 三个 亮点, 这个 双臂、 省钱, 还有 整个 身体 的 这样的 一个 联动。

对, 这个 机器人 它 之所以 能 说 全身, 是因为 它 有 轮子, 它 也能 移动。

是的, 没错, 它是 一个 mobile base, 就是 一个 带 轮子 的 一个 底盘, 然后 可以 到处 乱 走。 但是 他 到底 能不能 到 真的 是 通过 像 slam 技术 一样 去 通过 一个 室内 自动驾驶 的 一个 技术, 去 实现 真正 的 我要去哪里 去 做什么 事情。 这个 说实话 还是 有待 考究 的。

说真的 就是 论文 里 起码 没有 提到 slam 的 事儿 是 吧?

对, 是的。 因为 是 怎么说呢? 就是 32K 这个 虽然 说 在 整个 学术界 都 已经 是一个 非常低 的 价格 了, 但是 我 还是 感觉 自动驾驶 如果 再 往里面 放 的话, 会 稍微 提高 一些 价格。

32K 美金 在 学术界。

32K.

美金 的 成本 可以 叫 low cost。

对对对, 你 要 看 和 谁 比, 对 吧? 你看 我 我们我们 最熟悉 的 波士顿 动力 那 台 机器人, 那 不止 32K 美金 了。

我 查 了 一下 它的 价格 是 它的 那个 机械 狗 的 价格, 就是 一只 机械臂 四个 腿, 它是 74000 美金。 它 量产 的 产品 有啊。

也是 这个 机器人 吗?

没有。

是一个 机械 狗, 机械 狗。 然后 有 一只 机械臂, 只有 一只 机械臂。 对。

大概是 这个 狗 身上 长了 一个 是 手, 这个 图 一定要 放在 手 note 让 大家 看一下。

是的, 他 把 那个 狗狗 投 变成 长颈鹿, 然后 那个 长颈鹿 的 部分 就是 那个 机械臂, 就是 一就 一个 两只手 的 戒指。

对, 我记得 是一个 五 轴 的 机械臂。

OK 就是 聊到 这里, 如果 大家 以为 我们 就是 要 吹 一波 阿罗哈, 那 可能 就 大家 就 可能 就要 失望 了。 因为 我们 其实 再往下 深究 了 一下, 我们会 发现, 实际上 阿罗哈 他们 给 自己 在 最初 day one 放 出来 的 这些 视频, 以及 我们 刷屏 看到 的 大部分 的 自媒体 账号 的 吹嘘, 看起来 都是 有些 言过其实 了。 因为 我们 发现, 实际上 我们 看到 的 流传 最 广 的那 一只 就是 A I 的 一天。 那 一支 片子 其实 并非 这个 机器人 实际 学习 后 的 自主 行为 的 表现, 它 实际上 来自于 非常 准确 的 背后 的 操纵。 也就是说 我们 看到 的 这个 机器人 的 完美的 表现, 实际上 来自于 人 一比一 在 背后 对 这个 机器人 进行 遥控 的 结果。

对, 是的, 这 篇 就是 刚才 花花 讲讲 了 这 篇 论文 的 题目, 重点 是 克隆, 这个 视频 就是 能 帮你 做什么? 四个 广东菜 对 吧? 真的有 个 广东人, 他 做了 那 四个 菜, 然后 他他 用手 操控 着 那个 机械臂 把 那个 东西 做出来。 那 三个 作者 两个 都是 华人, 一看 就是 广东 孩子。 他的 那个 项目 网站 上 就是 做菜 的 那个 视频, 他是 把 它 叫做 远程 操作。 也就是说 研究者 认为 这个 东西 的 利益 点 是 说 你可以 远程 的 去 操控 一个 机器人 做 精准 的 动作, 以及 以及 训练 它 做 不同 的 动作。

但是 那段 视频 就 被 媒体。 裁剪 下来 丢 到 短 视频 平台, 就 告诉 你说 真的 能 折 衣服。 然后 我 就 觉得, 对对对, 我 就 觉得 这个 真的 是 言过其实, 我是 抱着 极大 的 兴趣 进去, 我们 看起来 被骗了, 对 吧?

但是 并 不是说 这个 论文 是 水文, 这个 论文 实际上 机器人 是 能 做成 一些 事情 的。 但是 我要 把 这些 事情 跟 你 讲一讲, 你 其实 就能 明白 哪些 是 能 自主 做 的, 哪些 是人 操控 能 做 的。 人 操控 能 做, 比如说 做做 广东 蚝油菜心, 对 吧? 那 这个 是 很 复杂 的 动作 了。 但是 继承 自己 能 做 的, 他 给 了 什么样 的 例子 呢? 他说 可以 自己 去 按 电梯, 然后 重复 的。 你每 一次 叫 他 去 按 电梯, 他 就 走到 同一个 位置 去 按 那个 电梯 的 按钮, 它 可以 连续 九次 去 擦 那个 葡萄酒 的 酒杯, 而且 擦 的 都是 准确 的, 覆盖 所有的 这个 位置。

可以 把 大概 一公斤 多 的 一个 锅 一个 铁锅 准确 的 放到 一个 双开门 的 柜子 里, 这些 动作 是 可以 重复 的。 这些 动作 你 教 他 50遍之后, 他 就可以 不断 的 重复 这些 动作, 而且 是 准确 的 了, 这个 是一种 一种 类型。 第二种 类型, 刚才 我们 提到 过 一些, 比如说 15分钟 就能 学会 打开 瓶盖, 放 电池, 就 这些 动作。 但 这些 动作 研究者 我 觉得 还是 挺挺 实诚 的。 他 学 了 15分钟 之后, 其实 实际 的 表现 是 什么样 的。 比如说 打开 瓶盖 的 那个 动作, 它 实际 它的 成功率 只有 64%放 电池 的 那个 动作, 它 实际 的 成功率 是 96%, 撕 胶带 那个 动作 实际 成功率 84%。

可能 大家 对 这个 数字 没 概念, 但是 你 想想 就是说 如果你 今天 是一个 餐馆老板, 你 让 一个 员工 去 开 瓶盖, 结果 你 发现 他 开 三次 就 失败 一次。 你 觉得 这个人 是不是 可是 不是 足够 来来 充当 你的 劳动力 的对 吧? 我相信 大家 都 有可能 是 研究 团队。

后来 也 发现 第一段 视频 放 出来 之后, 很多人 就 也没有 细看 论文, 也没有 细看 他的 描述, 对 吧? 一下子 就 火 了, 好多 科技 媒体 就 拿 这个 东西 发稿 了。 所以 研究 团队 就 赶紧 补 了 一个 这个 视频, 很 情怀 的 那种感觉。 就是说 我们在 做 这个 项目 的 几个 月 当中, 我们 经历 了 很多 问题。 我 把 那些 失败 的 现场 补给 你看, 你看 他 做了 一个 失败 现场 混 剪, 这些 混 检 的 出现 的 错误 就 很 积极 了。 比如说 炒鸡蛋, 他 会 把 鸡蛋壳 和 鸡蛋 一块, 就 把 鸡蛋壳 捏碎 了, 就 直接 扔 在 锅 里, 连着 鸡蛋 可以 一块 炒, 然后 会 炒 糊 掉。

之前 在 室内 行走 的 时候, 会 就是 刚才 花花 说 的 没有 自动驾驶 的 部分, 或者 自动驾驶 的 部分 不够, 他 会 自己 装 在 柜子 上。 然后 你看 你 让 他 去 拿 一个 笔, 他 就 他 这 两个 机械手 一 下去 戳 一一 夹 是 空的。 然后 包括 前面 提到 的 说 连续 擦 酒杯, 他们 也 损坏 了 好多 酒杯。 半 开玩笑 的 是 说, 我们 我我我 我们我们 没有 选择 把 这些 东西 呈现 在 论文 里。 但是 我在 媒介 里 我 还是 希望 你们 理解 这个 事情, 对 吧?

我 觉得 不过 这也是 这个 传播学 的 特点, 对 造谣 一 张嘴, 辟谣 跑断腿, 大家 还是 喜欢 看 那种 改变世界 的 东西。 当你 出来 说 我 有 很多 错误 集锦 的 时候, 其实 在内 网 我 都 没有 看到 这些 东西。 甚至 那些 媒体 在 发完 了 第一篇 厉害 了 我的 机器人 之后, 都 不愿意 再发 一遍 说 对, 其实 没有 那么 厉害, 因为 这件 事情 大家 也都 不愿意 看。 但是 我们 可能 作为 一个 严谨 的 科技 博客, 我们 还是 要 让 大家 知道, 今天 最 厉害 的 震动 整个 科技 圈 的 斯坦福 的 这个 机器人, 它的 真相, 实际上 还没有 到 大家 想象 的 那种, 我 今天 就要 买一台, 哪怕 30万摆 到 家里 用 的 这个 程度, 还 远远 不到 这个 阶段。

是的, 但是 有一点 要 说明, 就是 他 还是 对 学术 圈 有 非常 多 的 贡献 的, 它 已经 是 非常 困难 的 一件 事情 了。 就是 拧 瓶盖 这个 动作, 他 都 已经 可以 发 两三篇 paper。

对你 这么说, 我也想 起来, 研究者 的 背景 确实 蛮 好的。 研究者 原来 在 特斯拉 干 过。

非常 符合 我 对 这个 研究员 的 刻板 印象。 当我 看到 这个 视频 和 这个 论文 的 时候, 就是我 第一个 想法 就是 这个 论文 非常 的 聪明。 首先 这个 东西 它 很 抓 眼球, 它 有 个 demo video 非常 厉害, 要 非常 吸引 眼球, 这个 已经 很棒 了。 然后 第二点, 他 做了 一个 很棒 的 事情 就是 开源, 他 把 这个 事情 变成 了 一个 可 复现 可 开源 的 一个 一个 项目, 这点 就 已经 做了 很大 的 贡献。 他 跟 我说 他是 演 的对, 但是 也 其实我 觉得 也是 对 学术 圈 有一个 非常 大 的 贡献。 克隆 平台 以及 transformer model 转换 模型。

聊 完了 这个 阿罗哈 之外, 其实 最近 还有 很多 在 机器人 领域 的 一些 突破。 我 觉得 我们 可以 挨个 来看 一下。

我们 三月份 的 时候, 其实 我们 当时 报道 过 一个 模型 叫做 胖 M E 对 吧? 一个 聚 生 智能 加上 多 模态 的 一个 逻辑, 然后 那个 胖 米 它 能 实现 的 东西, 就是 桌子 上 有 一些 这种 红色的、 蓝色的, 类似 小小 海绵 小方块 一样的 东西, 有点像 小学生 用 的 教具。 它 能够 成功 的 识别 它们的 形状 和 分类, 或者说 那个 胖 咪 就 做到 说 抽屉 里, 你 告诉他 抽屉, 打开 抽屉 拿出 一包 薯片, 他 就 顺利 的 能把 这个 事儿 做 完。

谷歌 事实上 在 整个 模型 这 一块 投入 还是 蛮 多 的。 所以说 我们 看到 他在 同期 的 一些 论文 里面, 它 主要 呈现 的 一个 成果, 它 现在 所谓 他 做 的 一个 叫做 泛化 能力 框架。 意思 就是说 如果你 让 机器人 去 干 一些 他 从来没 见过 的 任务, 它 现在 有一个 很 好的 成功率。 它 就是说 它 丢 给 了 一些 机器人, 它 从来 没有 见过 的 41项 任务, 机器人 可以 完成 63%, 这个 东西 距离 生活 也 还有 比较 远, 对 吧? 距离 阿罗哈。

拧 瓶盖 还有 1%.

的 差距 是 O K, 但是 你每 做 两次 就有 可能 一次 是 失败 的。

谷歌 的话 它 为了 解决 数据 收集 的 问题, 他 还 做了 一个 叫做 auto R T 和 一个 叫做 R T X 的 一个 数据集。 然后 它它 现在 就是 可以 实现 把 机器 放到 一个 房子 里, 就让 机器人 面 正常 跑。 然后 这些 机器人 就会 实现 说 自己 卷, 自己 去 学习。

什么 意思 呢? 比如说 这个 机器人 看到 前面 有一个 橱柜, 对 吧? 他 就会 自己 走到 橱柜 面前, 然后 他 就 拍 张 照片 问 那个 大 模型 这个 里面 有 什么东西? 然后 大 模型 就 告诉他 左上角 有有 三个 粘 的 粘 掉 的 杯子, 然后 接下来 它 就会 描述 了 这个 图片 之后, 它 就会 自动 生成 一个 任务, 叫做 把 脏 的 杯子 给 它 清洁 干净。 接下来 这个 模型 就会 扪心自问, 调度 说 如果我 要把 这个 杯子 我要 如果我 要把 这个 杯子 清洁 干净, 我需要 做什么? 然后 结果 他 就 去 推理, 然后 他 推理 出来 的 结果 是 说, 我需要 两个 机械臂, 一个 机械臂 臂 拿 杯子, 一个 机械臂 拿 毛巾。 然后 这个 时候 他 就会 知道 说, 因为我 只有 一个 机械臂, 所以 我 完不成 这个 任务。

此处 应该 请 出 阿罗哈 来 帮忙。

对对对, 所以 他 就说 完不成 这个 任务, 那 那那 这个 任务 我 就 不去 做, 那那 我 就 不 收集 这一次 的 数据。 所以 它 相当于 就是说 他 就 创造 了 一种 类似 于 叫做 什么, 就是 让 机器人 的 自由 开放 世界 的 这种 概念。 就是 让 机器人 自己 在 屋子里 跑, 然后 自己 去 创建 任务, 创建 任务 完 自己 把 记 数据 记录下来, 自己 给 自己 训练。

这个 看完 还 挺 吓人 的, 自己 找 活 干, 万一出 点 什么 事儿, 他 找 出来 的 活 就 不一定 是 那么 友好 的 事情 了。 说 回来, 因为 这个 地方 我 觉得 刚才 聊到 了 胖 M E。 当时 我们 其实 三月份 聊 的 时候 也 提到 了, 它是 一个 巨 深 智能 加多 模态 的 一个 大 模型。 我 觉得 正好 在这里 问 一下 花花, 就是 到底 聚 生 智能 我们 作为 普通 的 科技 爱好者, 我们 应该 怎么 理解 它是 一个 什么东西?

其实 聚 生 智能 这个 东西 从 字面上 理解 特别 容易 理解 成 那种 人形 机器人 的。 但 实际上 不是 这个 意思, 更加 像是 一个 有 自我 判断能力 的 机器人, 就是 他 对 外界 有 感知。 这个 就要 引出 我们 卡 埃 基 民工 大学 这个 的 定 机器人 的 定义 了。 就是 什么 才是 一个 机器人, sense plan x 就是 感知 计划 和 动作, 就是 和和 这个 行动。 对 感知 就是 我们 所说 的 用 传感器, 我们 看到 一个 东西, 我们 把 它 分辨 出来, 它是 一个 什么东西, 那 片 是 什么东西。 就是 我们 计划, 我们 要 去 怎么做 这个 事情, 我们 去 at 就是 真的 把 这个 东西 实现, 或者 是 说 把 这个 动作 和 这个 结果 去 实现。 现在 我们 所 几乎 所有的 工业级 机器人, 它是 只有 plan 和 act 这个 动作 的。

就 比如说 我们 一个 流水线, 有一个 有 个 机器人, 他 开始 拧 螺丝, 拧 啊 拧 啊 拧 啊 拧, 然后 拧 完 以后 发现 就 拧 一个 拧 完 一个 螺丝 以后 发现 这个 东西 怎么 有 两个 孔, 他 就 不是, 他 就 不知道 怎么 拧 了。 但是 如果你 有 具 身 智能 这样 一个 概念 进去 的话, 这个 机器人 就说 这 有 两个 孔, 我要 把 两个 孔 都 拧上 螺丝。 对, 然后 甚至 它 有 三个 孔, 有 两个 孔 是 螺丝 孔, 有一个 孔 不是 螺丝 孔, 它 会 分辨 出来。 我要 把 这 两个 螺丝 孔 的 顶上 螺丝, 我 把 这个 不是 螺丝 孔 的 放掉。 它它 其实 并不是 要求 我们 机器人 一定 要是 一个人 一样的 东西, 他 有 这样的 感。 知道 他 有 这样的 一个 东西。 它 实际上 是 要求 机器人 能够 自己 判断 自己 要 去 做什么, 或者说 自己 去 评价 自己的 做出来 的 结果, 并且 实施 一个 改进。

对, 是的。 其实 在 斯坦福、 摩 拜、 阿拉法, 包括 谷歌 的 这些 成果 里面, 其实 都会 提到 说 他们 非常 依赖 让 机器人 用 那个 摄像头 去 看自己 的 机械臂 的 行动 轨迹, 然后 以此来 形成 一个 反馈。 目前 看到 谷歌 用 的 东西 更 豪华 一点, 他们 甚至 是 会 在 那个 机械臂 上 有了 一些 类似的 反馈 的 一项 东西, 就是 就 那个 机械臂 知道 自己 使 了 多大 的 劲儿。 所以 具 身 智能 其实 非常重要 的 一点 就是 讲到 机器人 有 自我意识, 非常 体现 在 这些 机器 上。 最 重要 的 一个 特点 就是 机器人 知道 自己的 机械臂 移动 到了 什么 位置, 产生 了 什么 后果。

我 早年 听 过 一个 从 教育领域 非常 好的 一个 描述, 就是 什么 叫做 具 生化。 他他 就是说 人是 怎么 学习 一个 体育运动 里 的 动作 的。 比如说 你是 怎么 学习 投篮 的, 你 绝对 不是说 学习 什么 要 把手 从 10厘米 的 地方 抬高 到 30厘米, 在 一 在 0.5 秒 之内 对 吧? 然后 最后 把手 拆成 90度。 人 不是 这么 学习 的, 人 一定 是 说 最好的 学习 方式 就是你 让人 实际 去 拿 那个 球, 然后 教 他 基本 的 动作。 加完 之后, 你 让 这个人 在 不同 的 位置 去 投篮, 然后 人 就会 感受 我在 什么 位置 用 什么样 的 力度, 我 站 得 近 我 就 力气 小 一点, 我 站 的 远 我 就 力气 大 一点。 我 每一次 球 投出去, 我 能 看到 那个 球 的 反馈, 是 进了 还是 没 进近 了 还是 远 了。 包括 现在 我们 很多人 去 学 那个 体育运动, 非常重要 的 一个 方法 就是 你是 照着 镜子 自己 去 练 的 一个 动作 往 那你 就能 练 得 非常 好, 非 练 得 非常 标准。

我 今天下午 刚刚 学到 关于 聚 生 智能, 早年 有一个 论文 非常 有意思。 他就是他 就是 让 一只小猫 在 那个 跑步机 上 走路。 但是 如果如果 这 只 小猫 它的 下半身 是 被 遮 在 一个 纸盒子 里, 小猫 看不到 自己的 脚, 小猫 是 不会 在 那个 跑步机 上 走路 的, 因为 小猫 看不到 自己的 脚 冻成 什么 样子, 所以 巨 生 智能 非常重要 的 一个点 叫做 机器人。 它 知道 自己的 他 知道 自己 使 了 多大 劲儿, 干了 一个 什么 活, 有什么 后果。

对你 可能 刚才 这 段 这 段 讲述 非常 好, 因为 他他 让 我 理解 了 为什么 我 投篮 投 的 不好, 我 特别 喜欢 去 按照 刚才 尼森 讲 的 那种 方式, 我应该 手 应该 举 多 高 多少 厘米, 然后 用 什么 角度, 用 多大 劲儿 往 外 扔。 但是 实际上 你看 很多 打篮球 打 得 好的 人, 他 根本 就 不 研究 这些 东西, 他 就是 不断 的 一方面 是 动作 的 模仿, 另一方面 就是 在 投 的 时候, 他的 手 其实 能 感受到 这个 球 的 重量。 然后 在 他出 球 的 时候, 他 知道 我 用 多大 的 力。 就像 刚才 这个 尼克森 讲 的, 就是 这个 机械臂, 它 自己 像 谷歌 的 这个 机械臂 已经 有力 反 力反馈 装置 了, 那 他 就 知道 自己 用了 什么 力 了。 所以 我 觉得 巨 身 智能 对应 的 其实 就是 大脑 的 智能。 它 相当于 就是 身体, 就是你 控制 和 感知 身体 的 这种 能力 的 机器人 化。 这个 大 模型 就 有点 像是 大脑 的 这种 智力 的 大 模型 的 机器人 化。 这 两个 东西 组合 起来 就 有点像 变成 了 一个 完整 的 类人 的, 或者说 一个 真正 的 我们 叫 它 机器人 的 这么 一个 东西。

刚才 提到 这个 R T X, 它 其实 就有 一个 身体 跟 大脑 对话 的 这么 一个 过程, 有点像 这种 感觉 对 吧? 就是 机器人 在 问 这个 大 模型, 这是 啥? 那 我 能不能 干? 大脑 说 你 可 别 扯 了, 你 没有 两只手, 这个 机器人 就 放弃 了。 这个 动作 其实 有点像 我们我们 大脑 跟 我们的 身体 对话 的 一种 过程。 只不过 这种 对话 可能 不是 我们 直接 能 感知 到 的。

但 实际上 我们的 身体 在 用 某种 方式 反馈 告诉你, 你 干不了。 比如说 前面 有一个 汽车, 你说 我 能 推动 他 吗? 你 大脑 说 你 别 扯 了, 我 觉得 某种程度 上 其实 确实 是 这种 感觉。

就 好像 我们在 婴儿 的 时候, 我们 要 学 这个 爬, 其实 我们的 父母 他 并 不会 说 我 爬 给 你看, 或者说 其实 婴儿 也 不是 很 理解 的 父母 就是 在 我们 前面 拍拍手, 你 过来。 然后 我们 为了 去 拿 这个 玩具, 我们 就是 学会 了 去 爬, 然后 就 学会 了 走, 然后 又 学会 了 跑。 对, 其实 就是 一个 我告诉你 什么东西 是 正确 的对, 你 试 了 一下, 这是 错的, 你 又 试 了 一下, 这 又是 错的。 我是 然后 我 又 试 了 一下, 发现 这 有 一点点 对, 然后 就 开始 不断 的 去 调整 自己, 然后 去 完成 这个 任务。 然后 也 想 聊 一下, 就是 之前 我 一个 很 敬佩 的, 不是 教授 的, 但是 很 盛世 教授 的 一个人 给 我的 一个 一句话。 机器 是 把 很多 一样的 东西 做成 另外 一堆 一样的 东西。 而 机器人 或者 是 有 具 身 智能 的 这种 机器, 他 可以 把 不同 的 东西 都 做成 他们 应该 做成 的 样子。 对。

关于 聚 生 智能 我 觉得 还有一个 补充, 就是我 我们 其实 可以 把 它 理解 为 就是 我们 知道 自己 身体 每一个 部位 所处 的 位置 和 状态 的 这种 感觉, 对 吧? 叫 它 具 身 感, 这种 感觉 我不知道 大家 有没有 这种 经历, 就是 当我 熟练 开 一辆车 之后, 尤其是 这个 车, 比如说 我 开 了 很久 了, 它 就是我 每天 通勤 上下班 的 车 的 时候, 我的 巨 深感 会 延展 到 这个 车 的 外壳, 而 不再 是我 自己的 手和脚。 就是我 能 知道 这个 车 通过 前面 那个 缝隙, 因为我 能 看到 前面, 看到 后视镜, 对 吧? 它 某种程度 上 成为 了 我的 感官 的 一种 延伸。 就是我 能 知道 我的 后视镜 的 右边 离 旁边 那个 墙 或者 那个 隔离带 的 距离 是 可以 安全 通过 的, 这种 感觉 有时候 挺挺 有意思 的。 就是 某种程度 上, 你 人的 寄生性 也 不只 寄生 在 你 自己的 这个 肢体 上。 我知道 其实 有些人 那个 残疾人 他 不是 带 那个 一只, 对 吧? 而且 它它 是 会有 那种 意志 的 那种 寄生性 的。

比如 你的 一只 被被 打 到了, 你是 会 疼 的这。

是 挺 玄学 的。 但是 这个 感觉 我 觉得 大家 如果 有有 老司机 听到 这 一段, 可以在 评论 里面 留言。 你 有没有 同样 的 感觉? 就是你 开行, 但是 当然 你 开 一辆 陌生 的 车 的 时候, 你 上来 要 先 跟 他 建立联系, 可能 你不会 那么 马上 产生 有把握 的 感觉。 但是 你 开一开, 觉得 你 跟 他 合体 了, 这个 时候 你 就会 产生 这种 感觉。 比如 你的 轮子 压 在 哪一个 线上, 你 都 可以 非常 清晰 的 知道。

对, 其实 托马斯 这个 其实 真的 不是 玄学 来了。 我就是 是 这 样子 的, 我们都知道 手术 机器人 这 一块, 我们 有 达芬奇, 对 吧? 然后 其实 达芬奇 这个 机器人 是 没有 力反馈 的, 对它 只是 一个 就是你 动 什么东西, 它 就是 所谓 的 克隆, 你 动 一点点, 这个 机器 动 一点点, 他 做 一些 细微 的 操作。 我 之前 听 别人 说, 他们是 怎么 去 训练 的 呢? 就 他们 要 用 达芬奇 一遍又一遍 的 去做 一件 事情, 然后 久而久之 他 就会 觉得 自己 真的 在 碰 这块 肉, 它是 有 一点点 这种 力 的 感觉 的。 就是 人体 本身 他 会有 这样的 这种 思维 惯性 或者 思维 记忆, 他 会 觉得 自己 虽然 我 夹 这 一块 我可以 继续 往 下 夹, 但是 他 通过 他的 这个 眼睛, 我 看到 了 这块 肉 这个 地方 它的 形变, 他 会给 人的 手 一种。

远程 一只 的 感觉, 对 吗? 对, 我们 以后 再 展开。 但是 大家 可以 理解 这种 感觉 其实 就是 我们 希望 机器人 能够 获得 的 感觉。 因为 一旦 机器人 能够 获得 这些 感觉, 那 它 就 能够 做 非常 多 的 事情。 比如说 拧 个 瓶盖 这种 就是 小 case 了。 我 觉得 未来 如果 真的 聚 生 智能 的 这些 传感器, 这些 一系列 的 多 模态 的 东西, 它 能 达到 这样的 这个 人的 这种 水平 的 时候, 我相信 这些 都 不是 难 事儿。

这就是 为什么 三月份 的 时候, 其实 我们 录 那 一期 的 时候, 我们 还 蛮 兴奋 的。 因为 看到 这个 机器人 的 这个 进展。 对。

是的。 其实 我们 接下来 来 解释 另外一个 问题, 就是 为什么 大 语言 模型 它 看起来 只是 生成 语言 用 吧? 或者 是 生成 那个 图像 这种 纯 虚拟 的 东西 用 的。 但是 为什么 现在 它 也能 变成 一个 指导 机器人 的 东西? 很多 单元 模型 用 在 机器人 上, 他 常常 用 的 策略 是什么 呢? 比如说 他 让 那个 机器人 把 自己 接收 到 的 利益 的 反馈, 或者说 机器人 自己 做 这个 动作 使 多少 劲儿。 他 会 把 这些 可能 是 非常简单 的 代码, 也有 可能 是 说 它的 电流 的 大小, 对 吧? 类似 这样 一些 东西, 它 把 它 作为 一种 语言 输入 给 机器人, 然后 的话 机器人 也 能够 观察 到 自己的 动作 的 一个 结果。 就是说 我 按照 这样的 角度 和 顺序 去 做了 这个 动作, 我会 最后 做出来 的 结果 是什么?

所以 其实 大元 模型 里面 非常重要 的 一 特点 就是 它 在 处理 语言 的 时候, 它是 处理 一个 序列 的 数据 和 信息。 他 现在 只是 把 机器人 的 动作 以及 机器人 的 传感器 所 接收 到 的 信息 作为 了 另外一个 序列 数据, 就 来 训练 这个 模型。 然后 接下来 他 让 这个 机器人 去 自己 去去 预测, 如果我 要 做 同样 的 动作, 我应该 用 什么样 的 一个 序列 的 一个 一系列 的 动作 去做。 所以。 一定程度 上 我 觉得 他 解释 了 这个 大 语言 模型 是 怎么 和 机器人 结合起来 的。 因为我 之前 确实 是 想 不清楚, 为什么 虚拟 的 大 语言 模型 它 能够 变成 知道 现实生活 当中 的 一个 东西。

是的, 其实 大 语言 模型 或者说 我们 管 它 叫做 机器学习 的 大 模型。 这一 类型 的 模型, 它 其实 能 给 机器人 带来 的 东西 就是 一个 从 抽象 到 具体 的。 它 会 将 整个 很 复杂 的 世界, 或者说 还有 很多 不同 的 信息。 有 颜色 信息, 有 这种 深度 信息, 有 这种 这种 三维 的 这种 信息, 转换成 一些 机器人 可以 理解 的 东西。

就 比如说 大 语言 模型 最 简单 的 一个 作用, 其 或者说 我们 大家 其实 都会 在 用 的, 就是 我们 把 一个 会议 录下来, 生成 一堆 这个 文字。 然后 生成 文字 以后, 我们 大元 模型 帮 我 总结, 然后 他他 就 12345678 列出来, 其实 和 机器人 是 一样的。 就 好像 我们 跟 这个 大 语言 模型 说, 我要 做 这个 事情, 然后 代言 就 会说 他 会 把 这个 需求 进行 拆分, 就和 我们的 项目经理 进行 拆分, 去 进行 安排。 因为 我们在 做 这个 机器人 的 时候, 我们会 把 很多 的 动作 进行 一个 预 编程。 比如说 我们 要 拍手, 我们 要 去 碰杯、 敬酒、 碰杯, 或者说 倒水。 我们的 大 模型 去 识别 出来 我们 有一个 目的地, 那 我们 这个 目的地 离 我们 这个 东西 有多远。 那么 我们 就会 同时 生成 这个 轨迹, 就是 1233点 轨迹, 然后 去 把 这个 事情 给 完成。 就是现在 人 已经 给 机器人 加 探险 架 杆子 已经 越来越 多了。

其实 在很久很久以前, 我们 给 机器人 带来 的 这个 信号, 它是 一个 很 具象 的 东西。 就像 我 刚刚 说 的, 一个 电机 转 了 多少度, 一个 机器人 往前走 了 多少 秒, 或者说 一个 图片 它的 这个 灰度 是 多少, 灰度 就是 我们的 这个 光亮度 是 多少 光 的 值。 但是 现在 我们 其实 给 机器人 更多 的 因素。 因为 说句实话, 我们 人 在 感知 或者说 做自己 的 这个 判断 的 时候, 我们 不会 说 是一个 很 具象 的 多少度 的。 所以 我们 现在 给 机器人 加 了 更多 东西。 比如说 它的 触觉 传感器, 力学 传感器, 这也是 现在 一大 一大 研究 的 领域。 还有 我们的 这种 听力, 或者 甚至 说 我 之前 还 听说 有人 在 去做 嗅觉 的 传感器。 我们 都 希望 让 这个 机器人 变得 更加 像 人, 可以 更加 容易 理解 出 这 是一个 什么样 的 东西, 给 大脑 给 机器人 大脑 一个 更加 语言 化 的 讨论 结果。

对, 说到 这里, 因为我 我 我们 之前 聊过 这个 多 模态 的 大 模型, 就是说 机器人 不能 只 了解 文字, 它 还需要 看到 图像, 听到 声音, 它 就可以 学 得 更好。 其实我 觉得 未来 可能 除了 这种 文字 的 语料库 之外, 视频库、 声音 库 这个 不用说 了, 可能 还会 加入 更多 的, 比如说 什么 味道 气味 的 酷 或者 是 力 这个 力学 的 库 就是 让让 它 每 一种 物质 的 这种 材质, 它的 手感 这种 东西 可能 也要 变成 一个 语料, 或者 这种 原料。 当然 我 觉得 这个 阿罗哈 它 这个 论文 可能 它的 价值 也 在这里, 就是 它 提供了 一种 相对 低成本 的 学习 方式, 对 吧? 就是 克隆。 用 这种 方式 来学, 恐怕 可能 之前 我我我 不知道 之前 是不是 像 其实 这些 动作 并不是 那么好 学到 的。 它 不像 大 语言 模型 一样, 我 就 打个包 塞进去, 你 慢慢 学 就 好了。 像 这种 生活 中的 一些 动作, 或者 是 一些 操作, 这些 东西 其实 很难 找到 那么 多么 那么 多 像 语料 一样的 材料 去 让 他 学习 的对 吗?

是的, 没错。 其实 刚刚 就是 托马斯 说 的 有一点, 就是 我们 之后 会有 不同 的 库。 之前 我们 实验室 也 在 做 这方面 的 研究, 它是 研究 力学 传感器 的。 我们 将 力力 有 几个 方向, 对不对? 对 上方、 下方、 左方、 右方, 然后 还有 三个 轴 去 对 一个 材料 进行 摩擦, 去 感受到 这是 什么样 的 材料。 这个 行为 实际上 是在 模仿 什么东西 呢? 就是 模仿 我们的 手指。 我们 手指 在 我们 看到 一个 新的 东西, 我们 去 摸 它, 我们会 知道 这 是个 皮革, 这 是一个 钢铁, 这 是一个 不同 的 东西。

现在 的 最大 的 痛点 实际上 就是 这个 库 不够, 没有人 去 收集。 因为 说话 打字, 你 有 一堆 这样的 数据, 所以 单元 库 特别 容易 出现, 但是 触感 力 感, 还有 甚至 说 我们的 视觉 的 这个 图片, 我们 现在 去 练 某些 东西, 我们 还是 需要 出去 去 买 这个 图库 的。 但是 大元 模型 实际上 现在 如果 要 去 训练 它 的话, 其实 我们 可以 上网 直接去 挖 东西 下来 去做 这个 训练。 所以 图库 的 量 它 实际上 是一个 比较 大 的 问题 了, 就是 现在 是一个 比较 大 的 缺口。

而且 我们 人 实际上 之前 并没有 去 深挖 去 存 特地 的 去 存储 这些 动作, 比如 就像 我 刚刚 说 的 力, 以及 我们的 动作。 因为 我们 之前 做 过 一个 人类 行为学 实验, 就是 把 整个 手 都 点 成 这个, 就 点 了 那种 动态 捕捉 点, 去 将 它 让 这个人 去 拧 瓶盖, 去 分析 他 拧 瓶盖 这个 过程。 因为 我们 都 坚信 这个人 拧 瓶盖 这个 过程 其实 是 最 省力 的。 如果 我们 去 把 这个 力 减少 到 一定程度 上, 那么 耗电量 也会 减少。 实际上 人是 一个 很 神奇 的 组织, 不需要 说 我 我 多少度 我 多少度, 我 自动 就可以 完成 这些 东西。 我们 也 希望 机器 可以 去 完成, 那么 是 所学 到 的 东西 是什么? 就是 我们 需要 更多 的 大 模型, 我们 需要 更多 的 信息, 我们 把 它 扔 到 这个 脑子 里面, 让 这个 脑子 去 思考。 其实 模型 这个 概念 其实 更 像是 一个 脑子。 我 输入 了 一堆 看起来 是 杂乱无序 的 东西, 它 自动 把 它 变成 有趣 的 东西, 然后 输出 出来。

我 觉得 人 还 真是 一个 极其 高效 精妙 的 生物。 下午 吃 一块 甜品, 你以为 跑 1个小时 步 就能 把 它 消耗掉 吗? 其实 不是 的, 它 可以 管你 好久 的 这个 能量 供给, 它的 这个 能源 的 效率 真的 是 远远超过 我们 现在 人造 的 一些 东西。 对。

是的, 对, 其实 说到 人, 其实 现在 很 前沿 的 方向, 大家 也很 喜欢 去做 所谓 的 人形 机器人, 对 吧? 特斯拉 好像 因为 elon musk 特别 能带 流量, 特别 喜欢 做 那个 人形 机器人 叫 擎天柱 是 吧? 但 擎天柱 现在 好像 还没有 正式 的 说 能够 完成 哪些 工作, 或者 是 说 像 斯坦福 这个 团队 一样, 非常 大方 的 说 我 哪些 动作 完成, 成功率 百分之 多少, 对 吧? 我们 也能 看到 类似 像 国内 的 一些 优秀 的 创业 公司 和 一些 车 企, 其实 也都 有 自己的 一些 人形 机器人 在 做。

有人 就 评论 人形 机器人 其实 是一个, 就 比如 刚才 花花 说 人体 的 这个 组织 特别 精妙, 所以 机器人 从业者 忍不住 去 模仿。 但是 人形 机器人 显然 是一个 特别 难 的 一个 道路。 所以 就 会有 那个 从业者 评价 就是说 其实 人形 机器人 的 这个 路 非常 难 卷, 你 还 不如说 先 卷 明白 两个 机械臂 怎么用, 对 吧? 所以 我们 就会 看到 像 阿罗哈 这样的, 我 就 一个 我 就 四个 轮子 加加 两个 机械臂 就能 做出 一个 刷屏 的 研究 了, 对 吧?

对, 我在 我 这边 的 理解 就是 人形 机器人 它 自由度 是 非常 高 的, 它 可以 apply 进 各种 奇奇 就是 奇奇怪怪 的 这个 情况。 因为 人 就 比如说 人手 这个 五个 手指, 它 有 很多 不同 的 关节, 但是 我们 就可以 控制 好 它, 那 这个 时候 我们 就可以 干 很多 事情。 是的, 就是 人的 自由度 是 最大 的。 但是 有 个 很大 的 问题 就是 人 实际上 是 很多 费力 的 机构 去 组成 的。 它 实际上 本身 他 为了 去 增加 自己的 灵活性, 去 牺牲 很多 效率 性 的 东西。 我们 都 觉得 人类 人形 之前 是 未来, 是因为 我们在 大自然 里面 其实 没有 见到 这些 生物 可以 去 利用 自己的 手, 或者说 利用 自己的 脚 去做 这么 多 东西。 可能 有 那 就是 星星, 星星 其实 就是 人的 就是 祖先, 对 吧? 以 现在 这个 情况 来说, 其实 就是 泼 盆 冷水。

就是 我们在 仿 人的 这个 阶段, 还是 停留 在 一个 比较 开始 的 这个 阶段。 对它 有 两个 部分, 一个 是 我们 本身 自己 连 人体 都 没有 完全 研究 明白。 且不说 脑子 其他 消化系统 这些 东西, 我们 都 会有 一些 奇奇怪怪 的 东西 出现 在 我们的 身体 里面, 但是 我们 都 没办法 解释 它。 但 这个 原因 都是 一些 很 神奇 的 化学反应, 即使 是 人体 力学, 它 也有 很多 东西 我们 没有 办法 解释。 这也是 为什么 现在 也是 好像 被 研究 了 一个 世纪 的 东西, 还在 出新 的 论文。

第二个 部分 是什么? 就是 我们 本身 的 这个 机构 和 硬件。 我们 可以 发现 特斯拉 那 台 机器人 其实我 没有 特别 了解, 但是 不顺 动力 这 台 就是 那 台 人形 的 阿特拉斯 的 那个 机器人, 我们会 发现 它的 手 就是 一个 球, 对 吧?

包括 这个 视频, 就是 我们的 阿罗哈 这个 视频 里面, 机器人 它的 手机 上 是 这个 东西 是一个 小 夹子, 他 没有 一个 五个 指头 的 关节, 原因 也 是因为 我们我们 现在 本身 的 硬件 其实 很难 去 满足 完成 这些 任务 所需 的 力量。 平时 所 需要 要 做 的 东西, 像 拿 东西, 像 拉 抽屉、 推 东西, 其实 只需要 两个 手指 就可以 完成。 是 但是 我 如果我们 要 真正 的 去 把 这个 人形 机器人, 把 它 变成 一个 非常 普遍化 的, 或者说 是一个 非常 全能型 的 东西 的话, 我们 还是 需要 去 对 这种 硬件 去 进行 一些 研究 的对。 因为 毕竟 一根 手指 这么 细 的 东西, 这么 细 的 一根 手指, 你 就可以 去 给 它 施加 非常 大 的 力。 但是 电 一个 电机 可以吗? 现在 很 明显, 暂时 不可以。

我 觉得 花花 刚才 说 的 其实 是 人形 机器人 为什么 这么 难? 那 我 觉得 为什么 说 大家 都在 卷 这个 人形 机器人 这个 赛道, 并且 认为 它 就 可能 是 代表 最合适 用来 做 通用 机器人 的 这个 形态 呢? 其实 主要 的 原因 还是 因为 我们 整个 人类 社会 就是 为人 设计 的。 也就是说 我们的 这个 房间 的 高度, 楼梯 的 梯级 的 高度, 电梯 的 这个 哪怕 是 电梯 的 按键 的 高度, 它 都是 设计 给 一个 平均 身高 的 人类 来 操作 的。 所有的 家用电器, 我们在 操作 的 从 电脑 到 手机, 包括 扫把、 拖拖 布 这些 所有的 工具。 我们 假设 我们 我们我们 再再 讲 一个 家用 保姆 型 的 这种 机器人, 那 他 需要 操作 的 比如 擦 桌子、 擦 玻璃? 拖地, 擦 墙, 然后 炒菜、 操作 家用电器, 所有的 这些 东西 实际上 都是 为人 设计 的。 就 意味着 如果我们 做 一个 非 人形 的 机器人, 那你 需要 考虑到 所有的 场景 的 时候, 你 就会 发现 你 能 做 A 做不了 B, 比如说 你 弄 一个 履带, 当然 效率 最高, 肯定 比 这个 两条腿走 效率高 多了, 是 吧?

底下 有 轮子, 可是 你 就 一定 出 不了 那个 家门。 比如说 我们家 就有 一个 扫地 机器人, 它 底下 是 几个 轮子? 淋浴房 它是 绝对 进不去 的, 因为 淋浴房 那个 为了 挡水, 它 就有 一个 很高 的 10厘米 左右 的 一个 门槛。 你看 它 虽然 效率 很高, 它 可以 甚至 现在已经 扫 拖 一体 自动 帮你 换水, 已经 很 先进 了。

可是 门槛 对他 来讲 就是 一道 天堑, 他 就 过不去。 这个 时候 其实 大家 就 想说, 如果我 要 设计 一个 机器人, 这个 机器人 是 所谓 的 通用 机器人, 正 正儿八经 通用 的话, 那 它 一定 是 人形 它 才能 通用 它。 你 想他 能 坐 进 交通工具 里面, 对 吧?

我 刚 做了 一个 思想实验, 就是说 就是 那个 斯坦福 机器人 完成 的 所有 任务。 如果我 设计 的 是一个 章鱼 机器人, 它 可能 有 八只 手, 对 吧? 我 就会 觉得 说 你 让 他 去 做饭, 做 那个 蚝油生菜, 我会 觉得 剩下 六只手 都是 浪费 了, 就 两只手 就 够了。

因为你 想 他他 学习 的 内容 也是 我们 提供 给 他的 内容, 而 我们 所有的 内容, 其实 它它 都在 模仿 一个 人类 的 一个 行为。 所以 aloha 虽然 他 没有 五个 手指, 是因为 刚才 其实 花花 也 解释 了, 在技术上 现在 还有 很大 的 难度。 但是 对他 这个 双臂 这件 事情, 其实 就 很 符合 很多 操作 场景 上 的 需要。 就是我 要 两个 手 来 操作, 复合 操作 一些 东西 来来 实现。

所以 我 觉得 这个 可能 就是 大家 都在 卷 这个 赛道 的 原因, 就是 因为 这个 就 代表 了 我们 最后的 那个 目标。 它 有点像 我 觉得 通用 机器人 跟 通用型 人工智能 都有 通用 两个字。 这个 可能 就是 我们 短时间 达不到, 但是 大家 都在 追求 的 那个 目标。 就是 这个 东西 出来 它 就 约等于 人。 我 觉得 大家 希望 实现 的 都是 这样的 一个 目标, 我 觉得 这 可能 就是 大家 在 卷 人心 的 原因。

对, 花花 讲 得很 清楚, 他 其实 真的 离 落地 还 很远。 因为 特斯拉 我们 知道 它是 一家 极其 会 营销 的 公司。 但凡 他 这个 机器人 能干 点 啥, 我们 早就 看到 视频 了, 我们 今天 什么 都 没看到, 说明 他在 实验室 里 可能 表现 比 娅 罗卡 还要 差, 他 就 不好意思 放 出来 了, 这 其实 可能 就是 现实。 对。

前面 其实 我们 了解 了 非常 多, 就是我 觉得 特别是 东莞 花花 讲 的 就是 很多很多 的 科研 工作者 在 做 的 事情, 确实 是 非常 有意思。 所以 简单 的 总结 一下, 就是 前面 算是 一个 深度 解读 了, 对 阿罗哈 的 一个 阿罗哈 这 篇 论文 和 一个 研究成果。 所以 我们 能够 看到 多 模态 的 大 模型, 其实 它 能够 带来 的 就是 两个 关键词。 一个 就是 广泛性, 对 吧? 就是 它 具备 举一反三 的 能力, 具备 认识 一个 新的 任务, 开始 自己 做 计划 的 能力, 以及 他的 学习 效率? 是不是 能 很快 的 学会 这个 任务 应该 怎么做。 所以 这些 以往 是 阻挡 绝大部分 机器人 的 大脑 去 进化 的 这个 门槛。

目前 来看, 斯坦福 是 达到 了 斯坦福 的 拉哈 这个 研究 是 达到 一个 里程碑。 所以 也 也 其实 刚才 托马斯 提到 就是说 家里的 扫地 机器人 其实 还 其 其实 还很 笨 对 吧? 或者说 行动 能力 还 很差。 其实我 觉得 这里 就 涉及到 我们 下一个 话题 了, 就是 叫做 说 我们在 视频 和 论文 里 看到 的 机器人, 尤其是 波士顿 动力 等等 都 后空翻 了 对 吧? 像 一个 演员 一样。 但是 我们在 现实生活 当中 看到 的 是 你家 的 扫地 机器人 进不了 你的 淋浴房。 我记得 前两天 托马斯 还在 那个 路上 看到 一个 清洁 机器人, 对 吧? 然后 就 发现 那个 机器人 给 我们 拍 了 个 视频, 就 卡 在 那个 减速带 上, 就 卡 在 那个 减速带 上。

即便 是 能量 产的 像 波 声 动力 那个 7万美金 的 那个 机器狗, 事实上 他 那个 一只 机械臂 他 只能 做什么 动作, 就是 给你 简单 的 拿 个 东西 做 一个 抬升 的 动作。 但是 最最 有 营销 效果 的 产品 其实 也就 这样。 所以说 我们会 发现 说 我们 作为 普通人, 确实 是 每天 都在 媒体 上 看到 的 和 身边 感受到 的 东西 确实 是 差距 非常 的 大对 吧? 所以说 我们 接下来 我们 可以 聊 一 聊, 叫做 为什么 用上 论文 里 的 机器人 那么 难, 对 吧?

我们 结构性 的 聊 一下, 我 先 说 一下 就是 大众 现在 能够 接触 到 的 机器人 都有 哪些。 因为我 距离 上一次 还在 机器人 行业 工作, 也 已经 过去了 三年 了。 我 现在 发现 确实 还是 出现 一些 买 蛮 多 的 东西。

比如说 现在 那个 扫地 机器人 其实 进化 了, 你知道吗? 扫 机器人 现在 进化 到 它 能够 去 扫雪 和 除草。 对, 这里 肯定 有人 脑子 冒 问号 了, 你 能 扫地, 那你 你 去 除草 不就是 应该 的 吗? 但是 不一样的, 原来 能 扫地 是因为 你家 里面 四面 有 墙, 他 知道 边界 在哪里。 所以 就是 针对 这种 扫 外面 的 雪 和 草地 就 没有 边界 的 场地。 是 这 两年 机器 人才 学会 了, 你 才能 买到 一个 除草 机器人 的。

然后 的话 服务 机器人 可能 大家 生活 当中 见 的 比较 多。 像你 去 吃 海底捞, 其实 现在 就能 见到, 对 吧? 就是 给你 送餐 的 是一个 带 屏幕 的 一个 小机器人。 我们 公司 办公室 里面 有 有一个 小机器人, 它是 给你 送 快递 的。 然后 我记得 两年 前 我在深圳 吃 过 一家 餐厅, 特别 神奇。 那那那那 家 餐厅 是 一家 机械 公司 开 的, 他们 他们 炒菜 那个 环节 是 自动 的, 主打 这个 机器人 给你 现 炒, 有有 锅 气, 有 热乎 气儿。

可能 两三年 前, 我 有 一次 住 酒店 发现 被 敲 了。 敲 了 门铃 之后 打开门 是一个 机器人 的 时候, 我 还 非常 惊讶 的 拍 了 一段 视频 说, 现在 机器人 都 这么 厉害 了。 这个 现在已经 很 普及 了, 就是 在 国内 的 很多 不用 特别 好的 酒店, 甚至 是 像 雅朵 这样的 中 中档 的 商务酒店 里面, 你 都能 看到 这种 送 一些 什么 拖鞋 这种 的。 这个 机器人 就是 一个 圆筒状, 然后 他 就 还 他 挺 横 的, 就是 进 电梯 的 时候 还会 嘴里 嘟囔 着 你 得 让 着 我, 我是机器人, 然后 真的 就 往前 挤。 我 觉得 他 那个 机器人 他他 在 设计 的 时候 已经 知道 了 这帮 人 不会 让 他 就 往 里 硬 挤 的 那种 状态。

我 看到 的 机器人 像 刚才 提到 的 清洁 类, 其实 除了 扫 雪割草, 国内 现在 还有 一些 是 类似 泳池 清洁 机器人。 就是 当时 主要 卖 海外, 就是 在 可能 深圳 的 一个 创业 公司。 它 能 帮你 把 泳池 里面 的 那个 内壁 帮你 清洁 的 很 干净。 所以 其实 非 通用型, 就是 专用型 的 机器人 现在已经 开始 在 我们的生活 中, 大家 已经 见怪不怪 了。 我相信 第一个 在 餐厅 给你 送餐 的 那个 机器人, 大家 看到 还是 确实 是要 围观 一下 的。 现在 除了 小朋友 还会 追 着 他 点点 他 那个 屏幕 之外, 大人 已经 熟视无睹 了, 就是 觉得 这个 事情 没有 什么 奇怪。

这个 就是 专用型 机器人 的 这个 现状, 就是 大家 已经 习惯了。 也 接受 了 他 这种 笨手笨脚 的, 但是 勉强 能把 这个 事儿 干 了的 这种 状态。 因为 你知道 其实 即便 扫地 机器人, 他 肯定 也没有 真正 的 阿姨 或者 是你 自己 扫 的 那么 干净, 但是 你 也 接受 了 是 吧? 他 有的 时候 被 一根 电线 缠 在 一个 角落, 你 还要 去 把 还要 去 营救 它。 我们家 那个 机器人 有时候 就是 这个 状态。 对, 这个 就是 现实 中的 机器人。

但是 距离 就是 这个 机器人 能够 执行 多项 任务。 确实 刚才 我们 提到 就是 机械手 这个 东西 是 最最 关键 的。 但是 有一个 重要 的 标志, 就是 截止 目前 没有 任何 一只 机械手 成功 的 在家 里面 卖出去, 对 吧? 这就 没 没有 没有 任何 一个 品牌 的 一只 机械手 形成 一个 在 大众 市场 有效 形成了 一个 消费 的 影响力, 应该 是 这样 说。

我 觉得 这个 接手 的 原因, 刚才 是不是 花花 已经 讲 过了。 就是 因为 现在 的 机械手 还是 一个 非常 精确, 我 必须 15度角 30牛的 力 往 下 砍下去 的 这种 状态。 那 在 一个 开放 的 环境 里, 它 可以 说是 毫无 用武之地 的对。

其实 这个 也是 可以 从 阿罗哈 这个 本身 可以 做 一点 延伸。 就是我 看到 他的 论文 里面, 它的 这个 重复率 重复 的 这个 误差 精度 是 一毫米。 一般来说 就是我 之前 用过 一个 机械手, 就是 U R F E 比较 通用 的 学术型 机器, 它的 这个 精度 是 0.03毫米。 但 实际上 说 句 实在话, 我们的 这个 手 的 精确度 其实 也没有 这么 高。 对, 大家 可以 就是 拿出 手掌 试试。 你 去 每次 都是 走 一个 走, 摆 到 一个 准确 的 位置, 实际上 你是 不一定 能 摆 到 的。 如果 有 一些 肢体 不太 协调 的 观众们, 我们 从此 也可以 知道, 如果我们 之前 真要 生 就是 所谓 的 生活帮, 我们 干 东西 的 时候, 他 其实 不需要 这么 精确 的这 也是 为什么 就 阿罗哈 这个 机器人, 这个 钱 就是 它 没有 这么 high cost 就 low cost 的 一个 比较 主要原因, 它的 精度 不需要 这么 高。

学术界 我们的 这个 机器人 实际上 并没有 非常 安全 的 落地。 这个 很 其中 一个 很大 的 原因 我可以 把 它 简单 归结为 环境。 什么 叫 环境 呢? 一般 在于 学术 来说, 我们 要 去做 很多 实验。 我们 都会 尝试 的 去 把 周围 的 环境变量 控制 在 一个 很小 的 范围内。 这个 情况下, 我们的 机器人 其实 会 很少 来 受到 来自于 外界 的 干扰。 比如说 如果我们 要 去做 3D打印, 或者说 是 去做 这个 机械臂 的 重复性 的 实验。 就是 做 一个 机械臂 就 从 A 移到 B 它 能够 有 多 准确 这个 实验。

从 这个 角度 来说, 就是 我们 现在 市场上 所 看到 很多 通 就是 所谓 的 专业 机器人, 比如说 我们 都会 发现 泳池 家 里面 的 扫地 机器人, 还有 饭店 的 送餐 机器人, 他们 都 是在 相对 简单 和 不太 复杂 的 环境 里面 去 工作 的。 就是 刚刚 那 说 我 有 我们 有 个 东西 叫做 割草 机器人, 实际上 割草 机器人 出过 的 事 还是 很多 的。 比如说 他 误 将 这个 小动物 当成 了 草, 然后 就 把 那 小动物 给 割 了。

但是 从 这个 视觉 识别 的 成功率 来说, 它是 合理 的, 而且 它是 有可能 的, 为什么呢? 就是 我们 看到 这个 60%、 70%、 80%、 95% 的 成功率 在 论文 里面 它 看起来 很高, 这个 数据 非常 的 漂亮。 但 实际上 95%, 我每 100秒里面, 你 就有 可能 有 5秒钟 的 时间, 你是 看 你是 把 这个 东西 认 作成 别人 的 别的 东西。 它 即使 是 99.9999999%, 但是 当你 去 运转 了 一整天 以后, 你 还是会 找到 一两次 误判 的 这个 结果。

那么 这 一两次 误判 结果 是 怎么样? 是 非常 致命 的。 割草机 这种 下面 有 个 刀片 在那 疯狂的 刮 着, 略带 危险 的 机器人, 把 它 放到 一个 室外 这种 完全 不确定 的 环境。 因为你 像 室内 你 有的 东西 也就 这么 多, 你 可能 有 只 猫猫狗狗, 就 已经 是 很 这 这 已经 是 顶级 危险 环境 了。 但是 室外 不一定, 你 可能 从 左边 来了 一个 老鼠, 从 右边 来了 个 猫, 从 前面 来 一条蛇, 你的 整个 运算量 就会 非常 的 大。 这也是 为什么 现在 来说 我们 很多 论文 里面, 我说 我 成功率 非常 高, 这个 东西 非常 贡献 非常 大。 但是 一直 没有 落地 的 原因 就是 在这里 在这里 在 引起 就 引入 一个 概念, 就是 学术 创业 和 量产 之间 的 关系, 有 个 scale 就 从 0到10分, 就 是从 一个零 代表 想法, 十 代表 一个 量产 成功 的 产品。 012就是 我们 所说 的 学术界, 两分 的 时候 我们 就 已经 可以 把 它 做成 一个 论文 可以 往 外 发 了。

我们 到 345的时 左右 的 时候, 而 我们 已经 可以 把 做成 一个 非常 完全 可 复现 的 demo。 因为 现在 很多 的 论文 实际上 是 很难 复现 自己 之前 的 研究成果 的对, 就在这里 跟 大家 说 一下 这个 东西, 确实 发 论文 的 压力 比较 大, 这个 数据 还是会 包装 的。 从 567开始, 你 就可以 开始 做 一个 创业 公司 了, 就 你 已经 有 这 这个 东西 已经 是 有一个 很 好的 把 它 制作 出来, 作为 一个 产品化 的 东西。 到了 八九十 的 时候 才 可以 开始 量产, 才 可以 像 一些 我们 现在 所 接触 的 普通 的 自动驾驶 一样, 它 变成 一个 相对 通用 的 一个 技术。 但是 大部分 的 这些 论文, 我们 虽然 看到 他 学术 成果 非常 的 厉害。 现在 就是 网络 这么 发达。 然后 很多 的 科技 自媒体 说 看到 很多 热点, 就像 我们 一样, 看到 很多 热点, 我们 都会 去 健康 的 去 报道 他。 但是 他们 虽然 在 论文 里面 呈现 出来 了, 但 实际上 他们 海里 落地 是 有 很长 的 一段 区 距离 的。

就是 样机、 产品、 商品, 这是 三种 完全 不一样的 东西。 大众 是 停留 在 最后 一步, 我们 只能 看到 那个 商品。 但 确实 我 觉得 斯坦福 这个 东西, 至少 今天 是 离 样机 很 接近 了。

已经 差不多 到 3分了。

刚才 花花 提到 那个 90% 90%几, 80% 几 的 成功率, 我 就 想起 了 早年 我们 讲 那个 语音识别 的 时候, 就是 有 很多 输入法, 对 吧? 它 在 那个 时候 大概 我记得 语音识别 的 准确率 能 做到 98%。 大家 就说, 反正 98好厉害 什么的。 那个 时候 我记得 讯 飞吧 还是 谁。 但 实际上 你 会 发现 98% 是 根本 就 不能用 的。 因为你 想象 一下, 你 打 一个 两千 字 的 一篇 小短文, 里面 将 会有 多少 个 错别字, 需要你 回过 头 去 改。 你 就 知道 这个 事情 本身 它的 这个 可用性 就是 在在 某些 领域 里面。 我们 觉得 这个 小朋友 考 了 98分 厉害 是 吧? 可是 你 这个 完成度 百分 98, 对不起 你 还是 离 真的 好用 差 很远。 但是 我 觉得 现在 语音识别 已经 厉害 多了, 可能 99% 以上 了。

对我 觉得 其实 智能家居 产品 某种程度 上 可能 也是 面临 同样 的 问题。 就是 我我我 自己 现在 全 屋 做 的 那个 基于 米 家和 home kit 这个 全 屋 智能。 那 它的 问题 就是 它 没有 办法 做到 像 我们 一个 可靠 的 家用电器 一样。 我 只要 按下 开关 它 就 亮, 对 吧? 我 摁 完了 它 就 关。 我们 这个 有时候 它 会 掉线, 有的 时候 他 会 莫名其妙 的 出 一些 问题。 他 做不到 百分之百 就 意味着 他 只能 是 小圈子, 数码 爱好者 或者 是 极客 的 玩具, 绝对 不可能 变成 一个 广大 的 一个 你 想 家装 市场 有 多大, 对 吧? 为什么 到 现在 不是 家家 都 用 这个 智能 的这 这 这 一套 东西, 因为 这么好, 应该 早就 普及 了, 就是 因为 它 实际 在 操作 的 时候, 这种 这些 无线 的 这些 环境 下, 你 可能 会 面临 了 一个 98% 乃至 99% 的 可用性。 可是 剩下 的 1% 对于 没有 能力 单独 解决 这个 1% 问题 的 人 来说, 那 就是 一个 灾难性 的 结果。

针对 这 几个 百分比 的 数字 的 讨论 特别 好。 就是我 觉得 一下子 让人 特别 能 理解 所谓 商品 和 一个 发 论文 的 一个 东西 到底 有 什么样 的 差别。 我 原来 真的 遇到 过 那种 场景, 就是我 的 同事 拿 这 篇 论文 来 告诉我 说, meta 能 拿 这个 论文 干 这个, 你 能不能 你的 产品 上能 不能 上 个 这样的 功能, 花花 之前 跟 我 讲 过 说 有一个 机器人 是用 那个 无人机 去做 3D打印 对 吧? 然后 就是 飞 在 天上 的 无人机, 他 去 打印 那个 东西 的 外形。 所以 现在 你 大概 能 知道 这种 东西 距离 你 用上 有 它它 是 有多远。 我 觉得 那些 东西 真的 就是 可能 我们这一代 人 老去 的 时候, 能够 看到 一个 商品, 我 觉得 都 是要 鼓掌 的。

是 截至 目前, 其实 我们 已经 从 应用 场景 的 要求, 以及 就是说 刚才 在在 第一 部分 我们 讲 机器人 的 机器人 进入 现实生活, 它 可能 难 在 任务 的 理解, 难 在 怎么样 去 自己 去 操作, 然后 的话 难 在 缺乏 数据。 我 作为 一个 曾经 也 在 机器人 行业 工作 过 的 人, 我 觉得 我 也能 讲 一些, 就是我 也能 理解, 我 也能 从 产业链 的 角度 上 理解 一下。 为什么 这个 事情 是 很难 是 现在 的 商用机器 人 或者说 商用 的 通用 机器人 是 很难 成熟 的。 我自己 看到 最最 明确 的 情况 就是现在 很多 机器 其实 没有 性价比, 对 吧? 然后 的话 它 首先 第一个 问题 其实 是 缺少 实用性。 但 这个 点 所谓 的 实用性, 其实我 能够 看到 的 例子 就是说 很多 很多 的 动作, 它 其实 需要 完全不同 的 机械 结构。 就是 在 你 搞定 手 之前, 它是 需要 完全不同 的 机械 结构 去去 来去 执行 的。

就是现在 我在 帮 一个 企业 去做 一个 信息化 的 一个 过程, 或者 一个 智能化 的 一个 项目。 他 就是 为了 去 将 一个 零件 去 检测 出 它 生产 的 有没有 问题。 这个 专业人员 给出 的 这个 结果 就是 我需要 去 有一个 特定 的 打光 环境, 才能 很 好的 去 检测 出来 它的 这个 实际上 现在 的 很多很多 的 这种 像 工业 里面 的 这些 项目, 或者说 像 特别是 质检 这种 比较 细 的 这种 项目, 它 都是 限制 还是 非常 大 的对 环境 的 这个 限制 都 非常 大, 它 需要 很 好的 去 控制变量, 才能 给予 一个 几乎 100% 的 结果。 这个 其实 也是 是 取决于 我们的 需求 了, 就像 我们的 扫地 机器人 一样, 我们 有 一块 地方 没有 扫, 实际上 我们是 不知道 的, 就是 啊 我们 不知道 他 有没有 便利 过 这个 地方。 说实话 评价 这个 扫地 机器人 的 时候, 我们 不会 说 这个 扫地 机器人 每天 有 多少 个 地方 没有 去 就是 没有 去 扫。 在 工业 里面 质检 的 情况下, 我们 如果 发现 他 漏 了 一个 废件 没有 扫 到, 那么 它 都 是一个 很 致命 的 事情。 对。

不良品 问题 可大 了, 这个 都 还没有 到 说 要 不一样的 机械 结构。 你 哪怕 是 变 一个 灯光, 它 可能 就 会对 现有 真实世界 当中 的 机器人 造成 很大 的 影响。

就是 环境 是真的 一个 很大 的 变量。

我 一下子 就 理解 就是 为什么 那些 真正 爆火 的 机器人, 或者说 真正 原来 卖出去 的 机器人, 它 真的 是 不能 做 任何 实用性 的 工作。 我 一下子 想 起来 最近 几年 就是我 原来 很喜欢 的 一些 这种 极限 的 案例。 比如说 有 一家 公司 叫做 anche, 他是 原来 被 迪士尼 投资, 他他 最 火 的 时候 是 火 到 在 美国 卖 的 很好, 作为 那种 年度 礼物, 这种 大概 两三百 美金, 那一个 一个 一个 有一个 小小 脸, 然后 会有 两个 小 履带, 然后 表情 非常 生动 的 一个 机器人。 但 这个 是 但 这个 机器人 第一代 的 时候, 它 就是 伊 卡特 从 皮克斯 挖 来 的 那个 表情 设计师。 所以 那个 机器 特别 可爱, 所以 那个 机器人 它是 依靠 什么 活 了? 它 也 不能 干什么 活, 它 就是 依靠 我 有 特别 丰富 的 表情, 依靠 卖萌。 然后 然后 youtube 上 就有 一堆人 跟 那个 机器人 拍 短剧, 你知道 吧? 把 那个 机器 作为 一个 角色 来 拍 短剧, 让 那个 机器人 就 火 掉了。 但是 这个 机型 做到 第二代 的 时候, 它 试图 接入 一些 类似 亚马逊 alexa 之类 的 东西, 就是 语音 交互 对 吧? 智能 的 东西 死 的 非常 快, 然后 整个 公司 就 直接 倒掉。

我 原来 还 摸 过 索尼 的 那个 机器狗, 你 摸 它 那个那个 小狗 还会 眨眼睛, 这 样子 就是 特别的 可爱。 包括 这一天 是 C E S, 对 吧? 然后 我们 也 看到 三星 做了 一个 特别 奇怪 的 东西。

都 叫做 什么? 包 里 应该 是 它是 一个 球 它 就是 一个 大概 就 到 你 脚踝 的 一个 球形 的 机器人。 它 区别 于 这个 扫地 机器人, 它它 也 在 地上 跑 的, 它 主要 不是 扫地 的, 它 主要 能 干什么 呢? 它 可能 最大 的 区别 就是 它 有一个 投影, 它它 可以 当 一个 移动 的 投影仪 来 用。 那 可能 就是我 觉得 可能 是 三星 赋予 它 一个 最 基础 的 功能。

就是你 它 总得 有点 用。

对你 再不 喜欢 这个 玻璃。 他 也是 个 投影仪, 能够 帮你 投 一些 东西。 比如说 他他他 就 展示 了 一个 女主人 在家 里面 练 瑜伽 的 时候, 包 里 就 投 了 一个 测试 片, 让让 女主人 看 的 这个 场景。

可能 它 比较 厉害 的 地方 在于, 它 还 能够 管理 家里的 这些 智能家居。 就是 它 可以 控制 灯光, 控制 这个 宠物 的 投石器, 还 可以 发短信。 然后 你可以 通过 远程, 通过 这种 大 模型 的 方式, 来 让 它 帮你 提前 搞定 一些 家里的 事情。 它 有点 像是 一个 会 动 的 家庭 数字 管家, 大概是 这样的 一个 角色。 我 觉得 到了 用户 家里 很 可能 是 反过来 的。 这个 东西 它 就 固定 在 那儿, 主要是 一个 投影仪 兼顾 一下, 给 家里 管理 一下 家里的 这个 智能家居 应该 有一个 你可以 远程 的 跟 他说 控制 一下 我的 空调。 其实 这个 场景 也很 扯, 因为我 如果 都能 通过 那个 APP 来, 通过 APP 远程 告诉 你来 控制 空调 了, 那 我 就 直接 控制 空调 就 好了。 因为 理论上 他们是 在 同一个 web 里面, 所以 这个 东西 当然 它 刚刚 推出, 价格 也没有。 然后 看起来 形态 上 是 有点意思 的, 但是 他 可能 也 同样 要 解决 的 就是 是 实用性 的 问题。

对, 真的 真 真的我 跟你讲, 就 三星 这种 消费 电子产业 上 的 巨头, 每年 发 一个 机器人, 然后 永远 不会 上市。 你看 那个 机器人 那些 功能 就 很 奇怪。 对, 就 很 奇怪。 然后 一会儿 搞 陪伴, 一会儿 给你 缝个 那个 投影仪 在 上面。 你 真正 希望 他 就 洗 个 碗 对 吧? 也 不是 洗, 你 就 把 它 放进 那个 洗碗机 对 吧? 那 他他 都 做不到。

很多人 现在 用到 的 机器人, 他是 搞 什么 陪伴, 他是 搞 什么 情感。 就是 它 不是 一个 它 不是说 机器人 适合 做 这个 事情, 它是 机器人 产品 经理 没 招 了, 你知道吗? 但是 他他 是 说 我我我 实在是 没有 办法 帮你 把 正经 活 干了, 我 做 一些 这种 其他 的 活。 所以 我 觉得 这个 怎么讲 呢? 这个 就是我 对于 整体 的 产业链, 就是 机械 这个 产业链 上 的 第一个 特点 的 总结, 叫做 缺乏 实用性。

就是 用 一句话 来 总结, 就是 模糊 的 技术 只能 处理 模糊 的 需求。

是的, 越 具体 的 任务 我 越 容易 发现 你 做 错了。 对, 就是 但凡 你说 这些 机器人 一会儿 陪伴, 一会儿 情感, 一会儿 能 投 个 影。 他 但凡 能 解决 一个 具体 场景 的 问题, 我们 可能 都 哐 哐 买 了, 对 吧? 我 举 个 例子, 比如说 有一个 机器人, 厨房 机器人, 这个 机器人 负责 洗碗、 做饭、 收拾 厨房, 我 就要 这 三个 功能, 他 只要 能干 好, 卖 30万我 估计 都 卖 爆。 但是 所谓 的 炒菜 机器人 是什么 样子 的 呢? 可能 十年 前 那个 时候 我爸 就买 过 一个, 因为他 一直 很喜欢 这种 东西, 那个 炒菜 机器人 在我看来 就是 一个 电饭煲。 因为你 需要 把 食物 按照 他的 要求 切 好 放进去, 倒 上 什么 指定 的 酱料 跟 配料。 对, 然后 你 就 把 盖子 盖上, 你 就 发现 最后 出来 一盘 那种 焖 菜, 就是 油焖 菜, 类似 这样的, 反正 就 这 这就是 炒菜 机器人。

所以 解决不了 实际 的 问题, 你 就 卖不出去, 对 吧? 我 当年 在 做 机器人 产品 经理 的 时候, 我 就 发现 说, 你们的 零件 怎么 那么 贵。 我 一台 机器人 当时 最最 便宜 的, 我 都 做 给 小朋友 卖 的那 买的 都要 到 1000块钱。 你知道 1000块钱 你你你 买红 米 你 能 买 个 手机 了, 对 吧? 然后 结果 那个 机器人 他 只能 在 地上 转圈圈。 对, 所以 这里 就 掉 个 书袋。

有一个 定理 叫 莱特 定理, 叫做 说 一个 东西 它的 产量 每 翻 十倍, 它的 成本 就会 按照 固定 的 比例 下降。 比如说 一个 东西 生产 十个 是 10块钱, 那 生产 一百个 是 五块钱, 那 生产 1000个的 时候 就会 五块, 再 乘以 一半 就 2.5块。 我 举 一个 例子, 现在 今天 最有 规模 效应 的 机器人 是 扫地机, 它 可能 能够 达到 百万 级 的 供应量, 对 吧? 但是 它 对比 我们 熟悉 的, 如果 有一个 零部件 是 机器人 也 用 的, 然后 手机 也 用 的那 可能 机器人 的 那个 型号 的 零部件, 它它 的 成本 可能 就是 因为 手机 的 出货量 是在 10亿级, 10亿量级, 它 就 差 了 1000倍。 三个 数量级 算下来, 可能 就是 假设 一个 数量级 翻 两倍 的话, 可能 就是 八倍 的 这个 价差 了。 你 会 发现 就是这样 的 东西 其实 很难 满足 消费者 的 那个 诉求。

就像 智能手机, 电脑 这种 东西 的 发展, 其实 过去 几年 是 孕育 了 很多 成功 的 品类 的。 比如说 最早 的 V R 其实 就是 手机 拼出来 的。 但是 机器人 这个 东西 它 没有 办法 被 手机 运营, 因为 机器人 里面 有 很多 机械 的 零部件, 这些 零部件 是 很贵 的。

最 普遍 的 一个 贵 的 东西 就是 我们的 电机。 我们 之前 小米 不是 出了 一个 很 便宜 的 电机, 对它 其实 就是 把 整个 价格 就 拉 下来 很多 了。 因为你 想想 一个 机械手, 其中 一个 小 旅 管 一百多块 钱 一根 儿, 但是 你 一个 电机 可能 就 几千 上万 了。 一个 机 六 轴 机械臂 就有 六个 电机。 就是 直接 减 六倍 的 一个 成本。 电机 这个 东西 它是 有 折旧率 的。 我 把 一个 机器人 放到 一个 这样的 任何 一个 姿态, 它 其实 就是 一个 独占 的 过程。 他 就是 在在 用 这个 力 去 抵消 重力 的对 它的 影响。

传感器 现在已经 很多 公司 去 先行一步 的 去 突破 这个 价格。 那么 执行器 就是 所谓 电机 和 像 一些 气动 气动 系统 这些 东西, 还是 说实话 还是 有待 突破 的。 因为 现在 我知道 很多 比较 便宜 的 电机 并没有 这么 耐用。 说实话 是的, 传感器 的话 就是我 之前 买的 二十 刀 的 传感器 和 十道 传感器, 其实 效果 就 相差 没有 这么 多。

了当 一个 产品 缺乏 实用性, 它 缺乏 性价比 之后, 我们 最后 来看 就是说 其实 现在 的 机械 的 商业模式 其实 也会 有 比较 多 的 问题。 如果你在 在 消费 电子产业, 你 要 做 一个 所谓 的 自动化 产 线, 你 一年 可能 是要 卖 200万台 货。 你 得到 的 那个 生产线, 他是 只能 为你 这 一款 型号 的这 款 产品 去 工作 的。 一旦 某一天 你的 那个 型号 的 某 一个 零件 换 了, 就要 在 已经 花了 几百万 的 前提 下, 你 要 再 花 10万20万, 你 要 替换 中间 的 某些 步骤。

现在 我们 想要 去做 这个 智能化 一个 很 困难 的 地方 就是我 不能动 它。 其实 它 原来的 流水线 我 只能 在 上面 加以 改装, 我不能 中间 切 了 一段, 它 切 了 一段 直接 停产 了。 他 不能 这么 做对 吧? 你 不能 停 了 这个 流水线 给他 做 一个 新的。 首先 成本 很高, 所以 你 现在 只能 从 他 已有 的 这个 流水线 在 上面 做 这个 改装。 比如说 加 一个 摄像头, 加 一些 灯光 这些 东西 去 照亮 它的 这个 零件, 然后 去做 一些 检测。

也是 另外一个 比较 大 的 问题, 就是 您 刚刚 所说 的 就是 单一性 一条 流线 线索 加工 品类 过于 的 单一 了。 之前 提出了 一个 叫做 柔性 加工, 什么 叫 游戏 架构 工? 就是我 希望 比如说 我 可 这 整个 台湾 流水线 可以 举一反三, 承担 多种 任务 的。 这个 工作 其实 现在已经 有 很多 了。 就 比如说 我 有一个 流水线 是 专门 用来 打 螺丝 的, 就是我 有 几个 孔 我 就会 去 打 几个 螺丝。 它 会 加 一些 视觉 的 识别 出来, 然后 去 识别 哪个 孔 是你的, 你的 范围内 有 几个 孔, 然后 去 打打 起来。

现在 他们 已经 有 在 做 这个 部分 了, 但是 它的 能力 真正 的 智能化, 去 真 做 真正 的 柔性 加工。 比如说 它它 还是会 很 依赖 很多 的 百味, 模具 这些 东西。 之前 我 听 他是 一个 大企业 的 一个 工程师, 他说 整条 流水线 花费 最多 时间 的 是 做 家具 和 摆 位置, 它 其实 很 浪费时间, 并且 它是 其实 是 非常 不 柔性 的。

你 一个 已经 存在 流水线, 你 去 改造 它 其实 也是 很难 的对 吧? 是的, 要么 你 就 从头 一开始 就 投 几百万 开始 做起, 中间 有 任何 的 变化, 其实 都是 都 很难 做。 我 接下来 讲 就是 他们的 一些 商业模式 的 一些 部分, 其实 并不是 特别 好。 比如说 我们 每天 都能 接触 到 的 那个 送餐 机器人。 你知不知道? 其实 那个 送餐 机器人 它 很多 时候 它 不是 像 一个 正常 的 产品 一样, 它是 一手交钱 一手交货 卖出去 的。 很多 送餐 机器人 的 公司, 它 其实 是 所谓 的 这种 租赁 的 形式。 所以 就是说 所以 这种 租赁 的 形式 相当于 说 你 按照 一个 季度, 你 比如说 海底捞 用 那个 送餐 机器人, 海底捞 可能 是一个 季度 一个 季度 的 给钱, 那你 就 没办法 一次性 收到 那个 送餐 机器人 的 钱。

那 做 过 企业经营 的, 尤其 做 财务 的 朋友, 你 马上 就可以 理解 到。 如果 一个 5万的 机器人, 但是 你的 回款 你的 回款 是 按照 24个 月 来 回款 的。 你可以 想象 这 一定 是你的 这个 公司 在 商业模式 上 做了 巨大 的 让步, 你 才会 允许 这样的 事情 发生, 对 吧?

你们 知道 有 一家 非常 有名 的 机器人公司 叫 库卡, 这个 世界上 最好的 G A B 公司, 直接 现在已经 被 中国 美的 收购 了。 你知道 这家 公司 的 财报 里 的 毛利率 只有 2.8%。 我们 原来 讲 过 苹果 供应链 里 很多 代工厂, 它的 毛利率 都有 15% 的。

所以 这家 公司 是 亏损 状态 吗?

这家 公司 一直 在 亏损 线上 边缘 徘徊, 他们 控制 的 非常 好, 最终 能够 挤出 个 0%点 几, 1% 的 percent 的 净利。 但是 这个 毛利率 我看 了 之后, 我 觉得 照明 行业 不应该 是 这个 利润率 表现, 对 吧? 你 很 迷信 的, 波士顿 动力 自己 没办法 商业化, 被 汽车 公司 买。 然后 汽车 本田 还是 丰田 没办法 商业化, 现在 卖给 韩国现代。 我 原来 还 调研 过 国内 所谓 的 独角兽 的 几家 机器人公司, 可能 是 做 这种 什么 物流 的, 做什么 仓储 的。 然后 这些 公司 我 发现 它的 现状 都是 它的 人员 规模 在 400到1000 人 左右。 但是 因为 它的 研发 成本 很高, 所以 他 现在 中间 做 的 非常 好的 公司, 他 现在 也 只是 说 他 一年 全年 营收 能 到 10个亿。 但是 这家 公司 已经 亏 平衡, 其实 是 需要 20个亿, 亏 的那 十个 亿 其实 是 投资人 在 养 他, 对 吧?

总结 一下, 就 商业模式 上, 大部分 机器人公司 其实 现在 商业模式 都 不好, 要么 就是 要么 就是 没办法 赚钱, 要么 就是你 能 赚钱。 但是 可能 你是 在 给 很多 客户 做 这种 非常 大 项目 和 非常 细节 的 定制, 你 就 没办法 做成 一个 标准化 的 产品 和 服务。 那 真真正正 的 商业模式 上, 其实 现在 走 通 的, 其实我 觉得 所谓 的 机器人 的 这个 概念 可能 只有 两个 产品。 一个 是 扫地机, 一个 是一个 是 自动驾驶 的 机器人。 就是 我们的 自动驾驶 汽车, 他们 俩 算是 相对。 讲 了 这么 一大 段, 其实 是 希望 在 我们 讲完 论文 之后, 让 大家 对 机器人 这个 行业, 它 到底 现在 是一个 什么样 的 商业模式, 希望 大家 有一个 相对 客观 的 一个 理解 和 概念。

总结 来说, 就是现在 整个 机器人 行业 90% 的 公司 或者 产品 还没有 跨越 鸿沟。 它 还在 鸿沟 的 左侧, 它 仍然 是 一小部分 的 科技 爱好者, 或者 是 非常 尖端 的 一个 非常 小的 领域 里面 大家 的 很 关注 很喜欢 谈论 的 一个 话题。 但 它 仍然 不能 成为 一个 真正 的 商业 的 一个 一个 好的 商业模式。

即便 在 企业 服务 市场, 它 也没有 跨越 鸿沟。 消费 电子 工厂 里面 一些 组装线 上。 但是 如果你 今天 在 京东 上 打开 一些 电脑 或者 是 手机 的 一些 列表, 可能 那 里面 90% 的 电脑和手机 其实 都 还是 人工 线 组装。 然后 只有 10% 的, 比如说 什么什么 小米 的 旗舰, 数字 旗舰? 或者 是 这种 iphone 的 这种 最最 畅销 的 几款, 它 会 它 可能 实现 了 全 自动化。

对, 这里 可能 可 可能 需要 跟 大家 科普 一下, 就是 我们 理解 中 特别 高 尖 高精尖 的, 比如 智能手机 这种 这种 产 这种 产品线。 由于 它 过于 复杂, 反而 是 需要 像 富士康 这样 有 几万 个人 的 这种 大型 的 工厂, 才能 把 它 最后 总装 出来 完成 递 到 我们的 手里。 而 这个 大家 可能 觉得 没有 什么 技术含量 的, 没有 什么 科技含量 的 一些 比如 饮料 行业, 比如 啤酒 啤酒业 作为 流程 工业, 它 反而 是一个 自动化 程度 非常 高 的 一个 工厂 的 一个 状态。 因为我 我 之前 其实 也 去过 国内, 今年 全球 最大 的 这个 啤酒厂 在 三水, 它 有 一 有有 有一个 有一个 分厂。 我们 其实 我们 看过 它的 产 线, 整个 工厂 从 洗 这个 瓶子 开始, 到 灌装、 消毒、 盖 盖子、 贴标, 甚至 最后 装 到 那个 纸箱子 里面, 然后 把 纸箱子 堆 在 旁边。 整个 这个 过程 是 完全 自动化 化 的。 这是 跟 很多 人的 理解 不一样的 地方。 就是 最 没有 科技含量 的 啤酒, 它的 这个 生产过程 的 自动化 程度 远远超过 最有 科技化 科技含量 的 智能手机。

其实 原因 很 简单, 就是 当 一个 企业 卖 了 五个 亿个 产品 的 时候, 而且 这些 产品 都是 一模一样 的 时候, 他们 绝对 会上 全 自动化。 但是 这个 全 自动化, 它 也 不是 柔性 的 自 自动化, 它 也是 刚性 的 自动化。

是的。

对它 其实 并没有 就是 它 它它 其实 其实 在 做 这种 工业化 自动化 的 时候, 我们, 给 企业 去 推广 这个 东西 的 时候, 都会 去 算 一笔 账。 这个 东西, 这个 产品, 这个 设计, 它 可以 替换 掉 多少 人? 这个 时候 就会 出现 两个 问题, 第一个, 它 能 替换 掉 人 吗? 如果我 的 视觉识别 的 成功率 是 99%, 那么 那 1% 那个人 还是 省 不去, 对 吧? 第二个 问题 就是 他 能 替换 掉 多少 人。 比如说 我 一个 30万的 产品, 就是 我们 刚刚 说 的 就是 这个 成本 下不来, 30万的 产品 我 只能 替换 掉 一个月 2000块钱 的 这个 劳务工 的 时候。

有人 会 去做 这个 事情。 好, 我们 到 最后一个 部分, 感觉 是在 给 通用 机器人 泼冷水。 但 我们我们 其实 还是 挺 乐观 的, 距离 你的 家 里面 有 一台 所谓 的 通用 服务 机器人 还有 多远。 除了 alpha 的 这个 模型 之外, 还 第一个 还 看到 哪些 技术 或者 方向, 它是 很 有 潜力 解决 这些 问题 的。

我们 现在 做 的 什么样 的 研究 是 有利于 去 解决 这个 问题 的。 一个 是 我们 现在 比较 国内 比较 火热 的 一个 叫 数字 孪生 的 这个 技术。 像 我们 之前 在 学校 里面 上 一门课 的 时候, 就是 机器人 夹 东西, 然后 去 垒 起来 方块 的 时候, 我们 就会 用 这个 虚拟 的 环境, 去 尽量 的 搭建 出来 一个 真实的 物理 模型, 然后 去 不断 的 去 训练 它, 然后 来 达到 这个 训练 的 效果。 我们 就 不需要 一台 机器人 或者 一个人 守 在 后面 操纵, 就像 阿罗汉 一样, 一个人 守 在 后面 操作。 我要 剪 这个 东西, 我要 剪 那个 东西。 它 实际上 只需要 在 一个 虚拟环境 里面 有 50台一模一样 的 机器, 500台一模一样 的 机器。 去 训练 这么 两三天, 它 就可以 做出 一个 比较 完 相对 完整 的 模型。 其实 自动驾驶 已经 用了 很多 了。

然后 另外一个, 就是 我们 所说 的 大 语言 模型, 也 不是 大 语言 模型, 就是 这种 模型 的 应用。 现在 很多 公司 是 利用 了 大 语言 模型, 去 生成 一些 例子。 我们 刚 不是说 库 很少, 就是 图片 很少, 他们 用 单元 模型 来 生成 这个 图片, 然后 来进行 训练。 这 两个 其实 是 相当于 是 比较 产业化, 或者说 比较 商业化 的 东西 了。

然后 对 在 我们 这个 做 research 做 研究 这个 方面, 其实 可以 从 两个 方向, 其实 之前 我 也都 有 提 过。 一个 就是 感知, 也是 我 刚刚 提 过 那 三个 词。 感知 方面 我们 正在 尝试 收集 各种 不同 的 信息。 比如说 触觉, 比如说 力, 我们 都 尝试 在 计算机 里面 去 量化 它。 很多 学者 都在 尝试 去 将 不同 的 情况, 就 分别 是 不同 的 情况。 比如说 我 一个 机器 必要 去 够 一个 非常 远处, 但是 你 没办法 去 够 到 的 地 东西 的这 整个 过程 去 简化。 并且 可以 让 机器人 知道 我 怎么样 够 到 这个 地方 最 省力, 我 可不可以 够 到 这个 地方。

这个 涉及 到了 任务 规划、 动作 规划 以及 路程 规划。 这些 规划 也可以 用 我们 之前 说 的 就是 数字 版、 数字 孪生 或者说 是 大 模型 去 生成。 大 模型 主要 就是 做 这个 任务 规划 了, 然后 这个 路径 规划 和 我们 所说 动作 规划 主要 还是 靠 我们 所说 的 数字 孪生, 就是 疯狂 训练, 就是 我们的 执行。 有 很多人 在 去 研究 新的 电机, 怎么样 去 把 它 变得 更加 简便, 实现 更多 的 功能 的 电机。 比如说 实现 力反馈 的 电, 我们 刚才 说 了, 以及 我们 有没有 一些 自带 风冷, 自带 水冷 的 这些 电机 可以 降热, 让 它 不会 让 它 寿命 可以 延长。

然后 刚才 讲 的 数字 孪生, 确实 我 原来 就有 有有 那个 同学 在 那个 自动驾驶 行业。 他们 现在 很多 那个 算法 算 出来 做 路 测, 它 就是 生成 几十万 公里 的 道路, 就像 那个 硬件 系统在 那个 仿真 的 道路 里 跑 就 完 事儿 了。 所以 他他 就 不需要 说真的 做 一辆车 出来, 然后 把 它 开 到 城市 里 去, 对 吧? 然后 再再 去 接 那个 路 测数据, 确实 这个 是 确实 是 蛮 厉害 的。

就是 数字 孪生 这件 事情, 它 不光是 把 物理 的 东西 虚拟化, 它 更 重要 的 是 它 可以 加速 这个 时间 在 虚拟世界 里面 的 运行。 他 有点像 七龙珠 里面 那个 精神 与 时间 屋, 就是 孙悟空 跟 他 儿子 进去 修炼 了 七天 还是 多久, 但 其实 里面 相当于 是 多少 年 的 时间, 就是 大家 在 不在 不在 同一个 时间 坐标系 里面 去 卷 它, 就可以 使 整个 实验 过程 变成 以 这种 仿真 的 方式 以 非常 加快, 甚至 是 乘以 10乘以 100的这个 数量。 再 把 时间 乘以 10乘以 100, 我们 可能 就会 更快 的 看到 很多 在 现实 世界 里面 需要 花 大量 的 时间 模拟 大量 的 时间 实测 得 出来 的 结果。 通过 虚拟 实 训, 通过 这个 数字 孪生 来 实现。

但是 有一点 我想 讲 的 就是, 我 认为 所有的 技术 革新 都是 离不开 我们的 投资者 最大 投资 的。 以前 在 做 项目 的 时候, 我们 要 去 打动 我们的 赞助商, 我们 要 去 打动 我们的 投资人。 那么 我们 该 怎么样 去 打动 呢? 就是 通过 一个 又 一个 的 展示 demo 视频 去 告诉 他们 这个 项目 是 有 希望, 是 有意义 的这 样子 才能 给 这个 项目 做 更多 的 血。

但是 我们 阿罗哈 这个 视频, 我们我们 之前 非常 纠结 它的 这个 成功率。

它是 一个 很 成功 的 marketing.

对他 给 了 很多人 信心。

对他 给 了 这个 行业 很多 投资人 信心。

总结 下来 大家 会 发现, 我们 发 我们 整个 在 机器人 领域 里面, 可能 最有 机会 让 这个 领域 加速 或者 成功 的 这些 关键词。 数字 孪生 大 模型、 具 身 智能, 就是 钱会 涌进去 的那 那 几个 领域 应该 其实 就是 目前为止 整个 不管 是 学界 还是 机器人 的 这个 是 目前 的 这些 创业 公司, 他们 在 卷 的 核心 的这 几个 领域。 听 刚才 花花 总结 了 一下, 我 听 下来 就是 刚才 讲 的这 几个 点对 吧? 是的, 数字 孪生 带来 的 训练 加速, 然后 大 模型 带来 的 这种 新的 这种 训练 的 方法 理解 和 执行 能力 提升。 然后 具 身 具 身 智能 以 它 结合 大 模型 之后 带来 的 这种 真正 的 智能化 的 机器人 的 可能性, 我 觉得 都是 充满 想象力 的这 这个 其实 也是 这 两年 快速 发展 的 几个 领域。

在 手机 上 想 补充 一点, 其实 整个 工程 领域, 它是 一个 我们我们 计算机 有 低级 中级 和 高级语言。 其实 工程学 它是 一个 高级 的 学科。 它 不是说 它。 是 它是 很 它是 很很 好 很 高级 的 那种 高级 它是 建立 在 了 很多 物理 的, 就是 物理 和 生物 以及 其他 的 基础学科 上面 的。 当然 也有 很多 在 努力 的 去 钻研 这些 基础学科 的 一些 学者。

像 之前 我 有 一位 同学, 他 虽然 也是 做 工程, 我 给 工 做 工程 的, 我 给他 打 个 小小 广告, 他 最近 发 了 一篇 论文, 就是 怎么样 让你能 在 千里之外 去 感受到 一个 衣服 的 触感。 他 做了 一个 小小 板子, 并且 他在 另外 一端 去 采集 一个 数据。 你 摸 那个 板子 就 好像 在 摸 这个, 它 会 通过 电流 刺激 你的 皮肤, 然后 去 模拟出 这个 东西 的 纹路。 所以 基础学科 的 这种 突破 也是 非常重要。

你 把 这个 研究 的 链接 论文 给我 我 一下, 我 贴 在 我们 那个 文稿 里面。 讨厌。 对, 所以 我 最后 补 两句。 我 觉得 最有 可 你 最有 可能 买的 下 一台 机器人, 我 觉得 可能 还是 扫地 机器人公司 或者 是 自动驾驶 的 擅长 做 的。 因为 这些 公司 他们 不管 是在 技术 沉淀 上, 还是 在 整个 的 产业链 的 丰富性 上, 我 觉得 是 最 接近 所谓 的 家用 机器人 的 一个 概念 的 一些 公司。 所以 你们 可以 想象 一下, 今天 你 花 40万买的 是 一台 自动驾驶 汽车, 可能 十年之后 你 花 40万大家 买的 是 一台 机器人, 对 吧? 我们 觉得 我们 期待 这一天 的 到来。

好吧, 我们 非常 需要 这样的 一个 机器人, 我 觉得 这 比 自动驾驶 汽车 更有意义。 从 一些 从 一些 数据 机构 看到 的 数字, 好像 大家 对于 可能 十年后 的 这个 服务型 机器人 的 爆发 还是 有 蛮 大 的 预期 的。 我们 还是 期待 这一天 的 到来。 但 我 觉得 这件 事情 可能 确实 没有 那么 快。 大家 不要看 了 一个 阿罗哈 就 觉得 未来 以来 其实 还 蛮 远 的。 但是 做好 准备, 但是 充满信心, 好吧, 我们是 个 正能量 的 大腿。

好, 那 今天 就 到 这里, 今天 谢谢 花花, 谢谢 花花 做客 我们的 节目, 好吧?

好的, 非常感谢 二位 听我 这 这个 听我 这个 啰 啰 说说 逼 逼 叨。

好, 本期 节目 就 到 这里。

感谢 收听 脑 放 电波。 欢迎 在 苹果 播客、 小宇宙、 喜马拉雅 等 播客 客户端 搜索 脑 放 电波, 找到 并 关注 我们。 如果你 觉得 这 期 内容 对你 有所 帮助, 欢迎 你 在 评论 区 留下 反馈, 这 对 我们 非常重要。