过去 有一个 笑话, 在 我们 这个 行业 里面 一直 说 无人驾驶 什么时候 实现? 然后 这个 答案 永远是 五年 之后, 对 吧? 五年 之后 又是 五年 之后, 然后 永远 好像 实现 不了。 就是 特斯拉 是一个 很 吝啬 在 车 的 硬件 自动驾驶 套件 上 本身 花 很多 钱 的。 但是 它 一点 都不 吝啬, 是 花 在 他的 训练 平台 上面。 特斯拉 其实 整个 团队 S D 只有 非常少 的 人 在, 截止 到 今年 的 五月 底 的话, 应该 也 只有 300人出头。
Hello, 大家好, 欢迎 收听 张小军 商业 访谈录, 我是小 军, 这是 一档 提供 一手 高密度 信息 的 商业 访谈 节目。 去年 下半年 以来, 特斯拉 V 12版本 和 端 到 端 架构 为 自动驾驶 掀起 了 一波 全新 的 热潮。 这 波 总是 在 一个 五年 之后 又 一个 五年 之后 屡屡 爽约, 屡屡 迟到 的 技术革命。 到 今天 他 到底 发展 变成 什么样 了? 它 距离 我们 真实的生活 还有 多远? 商业 访谈录 正在 推出 一个 新 系列, 从 蒸汽机 到 无人驾驶, 记录 这 段 承载 人类 出行 终极 梦想 的 技术革命。
我们在 之前 的 两期 节目 里, 已经 推出 了 与 何 小鹏 和 楼天成 的 访谈。 它们 分别 代表 自动驾驶 领域 最 具有 代表性 的 两类 公司。 一个 是 做 L 2也就是 辅助 驾驶 的 汽车 公司, 一个 是 做 L 4也就是 无人驾驶 的 技术 服务公司。
这次 我 邀请 了 在 自动驾驶 行业 很 资深 并且 背景 多元 的 一位 人士 梦醒, 在 过去 八年 从 各个 维度 深入 参与 过 这个 行业。 他 曾经是 连续 创业者, 先后 在 美国 和 中国 创办 了 两家 人工智能 初创 公司。 他 也是 投资人, 在 顺 为 基金 期间 投资 了 小鹏 汽车、 我们 塔 等 自动驾驶 公司。 2019年 起 他 出任 了 滴滴 自动驾驶 的 C O 就在 最近 梦醒 刚刚 更换 了 新的 身份, 再次 回到 风投 行业 做 一名 前沿 科技 投资人。 我 和 梦醒 在 这 一集 从 他 亲身 试驾 特斯拉 F S D 各个 版本 的 真实 感受 开始 聊起, 深入探讨 了 端 到 端 架构 和 F S D 进化史。 不过 这 集 只是 开端, 接下来 我们 还会 推出 更多 的 精彩 续集。
Hello, 先 跟 听众 朋友们 打个招呼。
大家好, 我是 梦醒。
梦醒 在 自动驾驶 行业 非常 多年 了, 而且 从 不同 的 视角 都 见证 过 这个 行业 的 兴衰 变革, 包括 创业 视角、 投资 视角, 也 包括 平台 公司 的 视角, 对 中美 两边 也都 非常 的 熟悉。 能不能 先 跟 大家 详细 的 介绍 一下 你的 整个 的 学习 经历 和 从业 经历。
可以, 我的 职业生涯 还 比较 特殊, 因为我 比较 小 去 的 美国, 在 美国 上 幼儿园, 然后 回国 上 的 小学 初中, 然后 又 回 美国 上 的 高中, 或 我 基本 一直 在 这 两个世界 里面, 从小 就 来回 的 变动。 我 大学毕业 以后, 我在 bird 类 上 的 本科, 然后 学 的 数学。 然后 本科毕业 以后, 我 第一份 工作 其实 在 投行, 在 摩根大通, 做 帮助 公司 上市, 并购 这些 方向。
然后 那个 时候 其实我 最 感兴趣 还是 科技 行业, 虽然 从事 着 金融, 但是 最 激动 的 都 是看 这些 科技 的 创业者。 他们是 如何 把 一个 很小 的 idea 从 0到1 变成 一个 可以 被 直接 的 业务。 虽然 我们 帮 他的 时候, 他 可能 已经 做 的 非常 大 了。 但是 我们 走到 马后炮 的 帮, 他 想 为什么 他 当时 做了 一个 决策, 使得 他 有可能 把 那么 小的 一个 东西 变成 这么 大。
但是 当时 对我 来讲, 我 其实 最 重要 的 就是我 觉得 这个 工作 很好, 然后 我们 能 接触 到 一流 的 科技 企业家。 但是 缺点 就是我 接触 到 他的 时候 已经 太晚 了。 我 其实 不知道 他 当时 为什么 能够 做 的 这么 成功。 所以 我 做了 三年 投行 之后, 最想做的事 情 就是我 能够 自己 尝试 着 亲密 走一遍 这个 事情。 所以 我 后来 回到 美国 又 读 研究生 的 过程中 就 开始 创业 了。
最 开始 在 麻省理工, 在 波士顿 的 时候, 我们 特别 早。 2011年 的 时候 去 做了 一个 做 人脸识别。 这个 公司 叫 orbis, 跟 我的 两个 小伙伴 一起, 我们是 六个人 的 创始 团队。
今天 听起来 人脸识别 好像 是一个 非常 普通 的 事情。 但是 其实 在 那个 时候, 对于 大多数人 来讲, 只有 在 电影 里面 看见 过。 其实 在 现实生活 中 还没有 见过 真正 的 人脸识别 的 应用 和 实际 的 技术 的 发生。 所以 我们 做了 人脸识别 的 这个 公司, 然后 把 它 推 成 一个 通用 的 A P I 的 产品, 然后 给 面向 全球 的 用户。 这家 公司 很 幸运, 也是 第一次 创业, 后来 被 亚马逊 收购 了也 进入 到了 亚马逊 的 A W S 的 这个 云 平台 里面。 直到 今天, 应该 A W S 上面 关于 人脸 和 物体 识别 的 A P I 的 引擎 还都 是 由 我们 这家 公司。
这 当然 今天 已经 很多很多 带 了 之后 了, 但 最早 的 一个种子, 包括 那个 名字 叫 recognition, recognition 那个 英文 词, 然后 C 改成 了 K, 还是 我们 当时 命名 的, 和 我们 当时 的 这套 系统对, 这是我 第一家 公司。 后来 回国 以后 创建 了 第二家 计算机世界 公司 叫 知 图 科技。 然后 也是 围绕 图像识别 来去 做广告 平台, 没有 直接 卖 技术。 我们 把 图像识别 能力 变成 了 一个 能够 贴合 于 现在 业务 的 这种 引擎。
在 这个 过程中, 其实 可以 看到 很早, 但是 我自己 并不是 做 计算机视觉 出身。 但 跟 我 合作 的 或者 我 做 的 创业 的 方向 一直 在 计算机视觉 这个 领域。 而 恰巧 我们 后来 进入 到 自动驾驶 也好, 后来 的 各种 人工智能 的 领域 的 这些 同事 们 也好。 很多人 不敢 说 每一个人 都是, 但 很多人 其实 都 是在 那个年代 里面 我们 认识 或者 一块儿 合作 过, 或者说 我们 可能 一起, 比如 我 赞助 他的 业务, 或者 也许在 我们 公司 实习 过 这样的 这个 形态 的 人, 我们 做 的 比较 早。 所以 跟 人工智能 行业 的 很多很多 优秀 的 人, 晚辈 和 前辈 都 结下 了 缘分。
这 两段 创业 分别 是 哪个 时间段?
第一段 创业 是 我在 学校 的 时候, 大概 从 2011年 开始, 公司 卖掉 是 2014年 左右。 然后 第二个 公司 也是 差不多 2014年 开始 做, 201我还是 2016年 的 时候 推出 了, 不能 算 特别 成功。 但是 我 觉得 对于 我 一个 从 学校 刚 出来, 可能 工作 经历 不多, 甚至于 对 这个 行业 来讲, 是 跨行 进入 到 这个 行业 里, 两次 都 算 退出 了, 我 觉得 还 可以。 第一次 是在 美国, 第二次 在 国内。 我们 分别 走了 美国 最早 的 所谓 学校 创业, 然后 天使的 孵化器, 包括 像 Y C tex 2整个 这套 美国 的 天使 创业 系统。 并且 也 走了 中国 第二家 公司, 走了 中国 的 微软 加速器 等等 这些 这套 体系 的 就 分别 经历 了 一下 中美 最初 创业 的的 这个 形态 和 对比。 对我 的 这个 教育 的 在 两边 这种 分别 的 对比 又有 了 一个 升级。 就是 创业 两边 的 一个 对比 的 一个 反响, 然后 就 或者 一个 延续, 我 觉得 这 还是 蛮有意思 的 一个 体验。
所以 是 两边 哪边 游戏规则 让 你 觉得 玩 的 更 顺畅。
我 觉得 两边 的 游戏规则 都有 它 可以 利用 的 地方。 美国 我 觉得 相对 来讲, 其实 虽然 说 我 觉得 一个 更 多人 可以 参与 到 创业 的 这个 生态, 或者 历史 更 悠久, 然后 创 生态 更 完整 的 一个 国度。 但是 其实 也 正是 因为 它 历史 的 悠久, 所以 我 觉得 很多 事情 已经 沉淀 和 固化 了。 比如说 你是 一个 什么样 级别 的 创业者, 你的 经验 大概是 什么? 你 大 概率 会 接触 到 什么 人和 什么样 的 圈子。 其实 它是 相对 比较稳定 的, 你 很难 超出 你 创业 的 氛围 或者 你的 资历 来去 跨界 接触 到 很多人。 除非 你 有 一些 其他, 比如说 种族 的 原因, 或者说 一些 其他 的 原因。
但是 在 国内 我 觉得 在 这个 波动性 更大, 就是你 有可能 是 初创 的 企业。 但是 因为 各种各样 的 原因, 也许 是因为 你 写 了 一篇 博客, 或者说 你 上了 一个 博客, 讲 的 非常 有意思 的 观点。 或者 也许 你 做了 一款 瞬间 上线, 特别 多人, 也许 第二天 就 掉 到 零 了, 但是 你 可能 就 出圈 了。 那你 可能 会 得到 很多 大佬 资本 甚至 的 关注。 这种 事情 我 觉得 在 美国 其实 发生 也有, 但是 频率 要 低 很多, 这是 第一个。
第二点 我 觉得很有 意思 是 美国 的 创业 可能 大家 毕竟 抱着 可能 小时候 都 看着 各种 这种 创业者 的 传记, 或者 身边 的 实际 的 案例。 影响 我 当时 最深 的 还是 扎克伯格, 因为他 跟 我 年龄 基本上 差不多。 然后 正好 是 我们在 大学 的 时候 开始, 我是 大概 facebook 的 前 十万个 用户, 还是 十几万个 用户。 大概 也就 刚刚 从 哈佛 东岸 往 西岸 开始 扩 的 时候, 我是 第一批 注册 的 用户。 所以 他 年纪 也 差不多, 又 在 学校 里 创业, 感觉 受 的 影响 比较 多。
一般 大家 会 抱着 一个 宁愿 睁 第一个 做, 而 不一定 能 做到 最好的 这样 一个 心态 的。 如果 一定要 在 这 两者之间 选 一个 的话, 我 觉得 对于 说 我是 在 科技史 上 第一个 做到 哪 件 事儿, 这个 里程碑 如果 能 刻下 我的名字, 这 事儿 就是 比 我说 我 把 公司 做 多大, 或者说 能 做到 挣 多少钱 这样的 一个 事情 更 重要 的 一件 事儿。 所以 你可以 看到 整体而言, 大家 不是 特别 卷 在 一个 方向 里面。 有一个人 做了 做 很 成功 之后, 大家 就 愿意 做 别的 事儿 去了。 所以 我 觉得 这 可能 是 两者 不同。 但是 在 国内 可能 大家 资本 和 优秀 的 人才 都会 往 最 明确 能 跑 通 的 方向 来去 集中。 这个 方向 好处 就是 确实 能够 集中力量 办 大事, 即便 不是 统筹 的 这种 力量, 而是 自发 组织 的, 其实 也能 实现 很多 这种 杠杆 的 效应 的, 也能 使得 我们 最重要的事 情, 从而 能 有人 能 做出来 并且 完成。 但是 对于 那些 在 这个 红 朝 过程中 可能 没有 那么 成功的人, 他 就 不是 那么 的 友好 的 人。 因为 这 里面 最后 都能 胜出 的 可能 只是 少部分 的 人。
我们 后面 可以 再 展开 聊聊 这个 中 美的 对比。 我们 今天 第一个 话题 先来 聊聊 自动驾驶。 因为 最近 我和我 身边的人 很多 都 其实 在学 自动 驾驶室, 但是 仍然 感觉到 有 非常 多 的 盲区。 我们 上次 聊天 也 聊到 自动驾驶 这个 行业 虽然 有 十几年 的 发展 了, 但是 还是 有 很多 的 信息 不对称。 你 觉得 为什么 会 造成 这样的 信息 不对称?
我 觉得 可能 有 几个 原因。 第一个 是从 外界 往 这个 圈 里面 去 看。 因为 自动驾驶 它是 一个 特别 容易 被 人 第一 是 感知 到。 即便 你 一点 都 不懂, 但是 你 能 看到 一个 车 会 自己 去 跑, 你 其实 对他 就 产生 理解。 它 不像 比如说 可控 核聚变 或者 一些 量子 计算 这样的 概念。 可能 你 完全 不懂 的话, 你 真的 只是 听懂 一个 词儿, 你 可能 连 一点 深入 的 机会 都 没有。 所以 我 觉得 第一个 感兴趣 的 人 会 非常 多。 第二个 能 从 他 看到 的 表象 上, 其实 也能 得到 很多 有意思 的 认知, 对 吧? 比如说 你 坐 这个 车 你 感受 好不好, 还是 说 在路上 跑 的 车 多不多, 或者 他 有没有 装 一个 激光雷达。
但是 同时 它它 又是 一个 历史 非常 悠久 的 行业。 所以 它 里面 的 迭代, 它是 一个 人工智能 和 机器人 行业, 和 很多 甚至 其他 硬件 汽车 生产 行业 相结合 的 一个 链路 非常 长 而 集 工业 之 大成 的 一个 科技领域。 所以 它 涉及到 的 方向 很多, 往往 大家 对于 一个 技术 的 认知, 尤其是 可能 从 行业 外面 的 人 关注, 或者 再 往 外 一点 就是 科技 行业。 科技 从业者 以外 的 人 关注 一个 行业, 往往 觉得 就是 一个 行业 的 发生, 可能 是 由于 一个 天才 的 人士 有了 一个 天才 的 想法, 然后 做了 某 一个 天才 的 突破, 这个 事儿 就成 了, 对 吧? 然后 可能 剩下 都是 一点点 简单 的 打磨 的 过程。 大多数 的 事儿 不是 这样, 然后 自动驾驶 尤其 不是 这样。 因为 自动驾驶 的 链条 非常 长。
刚才 讲 了 它 涉及到 从 车辆 生产 到 硬件 到 软件, 到 数据 集成, 到 用户体验 的 全 流程 的 过程。 还有 从 迭代 等等 人工智能 的 一些 所有的 能力。 所以 去 把 它 完整 理解 下来, 并且 能够 知道 这 里面 的 妥协 关系, 系统工程 里面 的这。 一些 设置 以及 相关 的 法律法规 的 理解 清楚 本身 对于 我 觉得 任何人 来讲, 包括 行业 内 的 人, 其实 都是 很 困难 的。 所以 我 觉得 这是 第一个, 就是 不太 容易 去 完全 得到 全部 的 信息。
第二个 信息 不对称, 我 觉得 有的 时候 是 行业 内 的。 因为 这个 行业 其实我 做 投资, 我 投 这个 自动驾驶 行业 的 时候, 有 和 我 后来 进入 到 这个 行业 里面, 我 就 觉得 有一个 很 有意思 的 变化。 就是我 在 投资 的 时候, 其实我 是 能有 全 行业 的 视角 的。 但 我 到 进入 到 这个 行业 里头 做 从业者 的 时候, 我 可能 对 我们 自己 怎么做 有了 非常 清晰 的 视角。
但 对 行业 其实 反而 是要 淡 了。 因为 大家 都 还 处于 在 早期 产品 迭代 的 过程中, 对 吧? 这 还 不是说 一个 已经形成 极大 共识 的 方法论 和 怎么 去 推广 和 产品 都 非常 清楚 了。 然后 大家 只是 在 一些 运营 的 视角 来去 竞争 的 行业, 不像 互联网产品。 对于 这样的 产品, 其实 大家 能够 说 的 东西 是 少 的, 沟通 的 少。 所以 可能 有 一部分 是你 在 了解, 有 一部分 是猜 对 吧? 所以 本身 信息 可能 也 对人 这个 我不是 很 理解。
为什么 是 产品 早期。
就是 你看 我们 这个 行业? 就是 以 国内 为例, 自动驾驶 大多数 创业 公司 都 是在 1617年 成立 的, 跑到 今天 大概是 八年 左右 的 时间。 对于 辅助 驾驶 而言, 可能 它 已经 是 产品 的 中期 左右 的 状态。 但 对于 无人驾驶 来讲, 其实 我们 还没有 一个 上限 闭环。 可 有 收入 大规模 推出 的 这样的 产品, 对 吧? 那 也就是说 虽然 你 做了 八年 的 时间, 对于 一般 的 公司 来讲, 这 已经 是 成长期 的 公司, 甚至于 很多 公司 已经 I P O 了。 但 实际 对于 产品 的 阶段 来讲, 你 可能 还 处于 一个 P A 轮 或者 A 轮 的 天使 轮 的 阶段。 所以 其实 它 不是 一个 被 大规模 推广 对 吧?
产品 的 成熟期 是 比如说 你 已经 有 100万用户 了, 然后 大家 每天 形成 迭代 反馈 对 吧? 然后 你的 核心 的 工 是在 运营 的 推广 上, 也是 在 做 这种 微 创新 上 和 迭代 上。 其实 我们 没有, 我们 还在 做 最 基础 的 攻坚 和 研究 的 突破 过程中, 所以 其实 它 还是 早期。 从 这个 视角 上 来看。
就是 他 实际 融资 轮次 可能 已经 很很 靠 后 了, 但是 它的 实际 产品 就 很很 早期。
是的, 所以 我们 其实 真正 今天 坐 过 无人驾驶 车 的 人 有 多少 人, 其实 还是 很少。 大家 在 新闻 里面 可能 见过 的, 但是 实际上 亲 亲手做 过。 然后 如果 做 过 的 人 里面 有 多少 人 每天 都 做对 吧? 你 做 过 超过 100次的 人 有 多少, 那 肯定 相比 一个 网 约车 的 产品 来讲, 可能 是 少 的 多 的 多 的的。 所以 我 觉得 对于 一个 早期 的 公司, 基本上 只有 业内人士 其实 互相 是 能 通气 而且 了解 的。 因为 毕竟 这样的 信息 不是 被 广为 传播。
然后 第三个 是 大家 知道 像 尤其 像 无人驾驶 车, 很多 时候 前 一段时间 我们 上次 聊, 比如说 V M O。 V M O 作为 行业 里面 非常 领先 的 无人驾驶 公司。 其实 在 很早 的 时候, 2019年 的 时候 就在 凤凰城 开始了 做 无人驾驶 的 测试。 然后 2020年 的 时候 就 把 这个 测试 变成 了 公测。 也就是说 在 凤凰城, 你 在 2020年 的 时候 就 能够 用 vivo 的 A P P 直接 打 到 一个 vivo 的 无人驾驶 车 了。 当然 它 当时 的 范围 很小。 这件 事儿 其实 有些人 知道 是因为 看 了 新闻。 但是 大多数人 看 了 新闻 也 不会 意识到 说, 无人驾驶 车 已经 在 我们 生活 中 出现了。
过去 有一个 笑话, 在 这 我们 这个 行业 里面 一直 说 无人驾驶 什么时候 实现? 然后 这个 答案 永远是 五年 之后, 对 吧? 五年 之后 又是 五年 之后, 然后 永远 好像 实现 不了。 但 其实 到 2020年 实现 的 vivo 已经 公开 给 大家 打车, 那个 时间点 至少 是 进行时 了 吧。 他 已经 不是 未来式 的 一个 工作。 但是 这个 事儿 其实 对于 大家 的 认知 没有 改变。
我 觉得 没有 改变 一个 很大 原因 是 他们 在 凤凰城 干了 几件 事情。 这 是一个 相对 来讲, 虽然 服装城 人口 不少, 但 美国 也是 第五 大城市。 但是 毕竟 他 处于 一个 无论是 华尔街 的 人士 还是 科技 从业 人士, 不是 经常 去 的 一个地方。 所以 大家 见过 的 人 很少, 甚至于 韦 某 自己的 员工 很少 都 飞 到 那儿 去去 体验。 他们 可能 做 过 很多 自己的 有人 驾驶 的 测试 车, 但 真正 打过 一起 无人 的 车 的, 我问 了 很多 薇 莫 的 当时 的 员工, 包括 跟 google 关系 很 近 的 二级 市场 的 分析师, 以及 很多 从业人员 相关 的 人, 包括 他们的 供应商, 其实 大家 真的 就 都是 只是 听 过都 没 见过。
也 没 做 过。 他们 为什么 没有 动力 去 凤凰城 打 一辆车?
我 觉得 可能 有 几个 原因。 刚才 第一个 原因 是 凤凰城 确实 离 大家 可能 远, 然后 大家 觉得 专门 为 这件 事儿 去一趟 好像 不值得, 对 吧? 第二件 事儿 是 大家拍 脑子 总是 觉得 凤凰城 太 简单 了, 就是 美国 中部 感觉 都是 像 棋盘 一样的 这个 格局, 没有 多少 人, 然后 也没有 多少 楼, 路 都很 宽。 其实 这个 也 对, 美国 1920年 之后 所 建 的 中西部 的 城市 都 长 得 是 非常 类似的。 你说 凤凰城 也好, 达拉斯 也好, 休 休斯顿 其实 都很 像, 没有 太多 的 过去 的 历史 的 束缚。 所以 他 建 了 一个 完全 像 棋盘 一样, 然后 格局 的 城, 交通 非常 方便。 所以 觉得 好像 实现 了也 没什么了不起, 那 也 不值得 去。
第三个 当然 还有一个 原因 是 微 诺 我 觉得 没有 做 非常 强 的 推广, 就是 他 不像 很多 其他 的 公司 一样, 就是你 哪怕 实现 了 一点点, 你 就让 全世界 知道。 其实 一直 是 我们 北京话 叫 搂着, 对 吧? 就是 他 不 告诉 大家 这 已经 做到 这儿 了, 但是 他 藏 着。 然后 说 如果你 发现 了, 那 我可以 给你 开 个 白名单, 对 吧? 你可以 通过 各种 手段 来 拿到 这个 白名单, 进入 到 我们 里面 去。 你可以 达到。 但 相当长 一段时间 他是 不 希望 太多 人 去 体验 到 达到, 甚至 知道。 我 觉得 这是 他的 选择 策略。 这里 这个 策略 是 他 聪明 的 地方。 因为 在 那个 时间点, 无论是 从 技术 的 成熟度, 还是 从 运营 的 体验。
比如说 他 车 确实 没 那么 多, 所以 就算 它 很 安全, 但是 用户 可能 要 等 很 长时间, 那 可能 也不 并不是 一个 很 好的 体验。 虽然 用户 能 理解 你 在 测试, 但是 我不 希望 有 这样的 第一印象。 所以 有 很多 刚才 说 的 这些 一二 三个 原因 加在一起 来去 造成 了 为什么 这 里面 有 信息 不对称 的 地方。 然后 这个 行业 又 因为 它是 一个 很 容易 被 关注 到 的 行业, 所以 大家 知道 一点 往往 就 容易 去 放大。 但 其实 又 很少 有人 真正 跑到 现场 来去 钻研 这个 细节。 所以 我 觉得 有的 时候 会 听到 很多 的 评论, 他 会 更多 像 噪音。 因为我 可能 也是 听你说 的, 你听 别人 说 的, 然后 这 二手 信息 传到 那边, 最后 找到 根源。 那个人 他 其实 是 想 自己 拍脑袋 想 的, 其实 他 可能 根本 就 没有 体验 过, 所以 造成 了 这样的 我 觉得 极大 的 信息 不对称。
其实 这个 信息 不对称 最近 有 发生 过 一次, 就 看到 像 百度 在 这个 萝卜 快跑 在武汉 跑 出来。 其实 萝卜 快跑 是 22年 就 已经 在武汉 开始 有 D P 虽然 也是 很小, 但 二三年 就 已经 很多 车 了, 去 的 地方 也 不少。 到了 今年 中 大家 突然 意识到 说, 这 事儿 已经 发生 了。 其实 两年 前 就 已经 慢慢 在 去 发生 了, 这 不是 一个 0到1 突然 上了 一个 台阶 的 一件 事情。
他 可能 是 最近 扩大 了 车队。
对, 这个 车队 确实 在 每年 都在 放大。 但是 实际上, 其实 去年 车 也 不少。 就是 对于 一个 普通人 的 感受 来讲, 它的 车 的 规模 或者 你 打车 的 能 感受到 的 这个 比例 其实 不小。
相对于 业界 的 技术 真正 的 转折点, 公众 的 认知 可能 晚 了 大概 两年。
我 觉得 至少 晚 了 一年。 如果说 同样 水平 的 认知 的, 比如说 这个 萝卜 所 的 车队 规模 也好, 它所 推出 的 技术 的 状态 也好, 我 觉得 其实 今年 跟 去年 之间 没有, 就 从 外界 的 视角, 从 公众 视角 不会 有 那么 大 的 差异 的 变化。 所以 可能 晚 了 这么 长时间。 对于 W I M O 来讲, 其实 在 美国 也是 晚 了 更长 的 时间吧。 我 觉得 vivo 真正 走入 到 大家 视野, 可能 是 伴随 着 另外 一家 公司, 就是 cruise 他们 两家 公司 一起 进入 到 cruise 真正 出圈, 我 觉得 是因为 他出 了 事故 之后 才 真正 出现。 而且 他 正常 运营 的 时候, 其实 只是 在 三藩 这个 小区 里面 大家 比较 关注。
再举 一个 例子, 比如说 vivo, 其实我 去 凤凰城 做 vivo 的 时候, 我会 关注 到 一个 有意思 的 现象。 2021年 还是 22年 的 时候, 距离 微博 已经 推出, 在 那儿 常态化 运营 已经 过了 3到4年 的 时间。 我 每回 打车 打 到 一个 超市 下来 以后, 依然 每次 都有 当地 的 居民 说, 这人 说 你 这个 车 没 人我 能不能 拍 个 照, 我 跟 你说 这 是你的 车 吗? 问 你 这 三四年 了, 就在 你 那个 区域 里面 运营 还 不知道, 真不知道 就是 他们 没有 进行 规模 的 推广。 然后 他 可能 那你 确实 是 如果 这个 城市 里面 只有 100辆车, 那你 碰到 这 100辆车, 相当于 你 想象 一下 在北京 这样 城市 里 有 100辆彩蛋 车。 你 一年 下来 你 碰到 这 100辆踩单车 的 机会 有 多少? 其实 可能 确实 没 那么 高, 对 吧? 如果 他 不 主动 去 在 你 面前 去 呈现 的话。
站在 今天 你 自动驾驶 到达 那个 技术 或者 市场 的 拐点 了 吗? 你 会 怎么 定义 现在 这个 阶段?
我 觉得 行业 还是 分开 几类, 就是 都 叫 自动驾驶 行业。 但是 我们 有 辅助 驾驶, 我们 有 纯 无人驾驶, 对 吧? 它 对应 的 是 我们 一般 说 的 L 2、 L 3或者 L 4的。
这个 行业 L2L3 的 行业, 我 觉得 其实 它 又 其实 分成 几个 功能 对 吧? 它 有 非 领航 功能, 就是 车 自己 能 居中, 车道 线 保持? 然后 前面 不 撞, 左右 侧面 不出 车道, 这个 我们 一般 叫 L C C 功能。 这个 功能 是 非常 成熟, 就 不仅仅是 过了 拐点, 我 觉得 已经 甚至 已经 是一个 非常 成熟期, 甚至 我们 可以 叫 旧 的 技术。
然后 我们 还有 它 里面 的 叫 领航 的 功能, 就是 车 能 自主 的 去 看 地图 换 道, 对 一个地方 开 到 另外 一个地方。 然后 它 有 它的 高速 的 领航 和 城区 领航, 高速 领航 我 认为 是你 刚才 讲 的 就是 过了 拐点, 然后 进入 到 一个 成熟期, 对 吧? 能被 大众 所 接受, 它的 产品 点 也 上线 城市 银行 处于 一个 没 过 拐点, 或者说 我 认为 的 拐点 还有 一定 距离 的 产品。 城市 领航 其实 就是 在城市 里面 你 点 两个 点, 然后 他 就能 在 有人 辅助 的 情况下 带你去, 对 吧? 从 A 点 到 B 点, 随便 去 走 一种 这样 一种 形式。 所以 我 觉得 刚才 这 三个 产品 也就 对应 着 辅助 驾驶 的 三个 大 的 里程碑。 其实 也是 它的 三个 产品 体系。 我 觉得 这是 它 对于 无人驾驶 来讲, 我们 可以 说过 了。
第一个 大 的 拐点。 大 的 拐点 是 指 在 过去 我们 认为 在 一个 复杂 的 城市, 常态化 无人化 运营 这件 事儿 是一个 靠 信仰 我们 去 相信 的 事情。 但 今天 我们 已经 看到 这件 事情, 对 吧? 就是 其实 每家 公司 都 已经 从 某种程度 上, 今天 还活着 的 无人驾驶 公司, 基本上都 跨越 或 正在 跨越 这个 门槛。 所以 这件 事儿 不是 靠 信仰, 也 不是 靠 预判, 其实 是 靠 现实 中的 这个 观察 就 已经达到 了 这件 事儿。
但是 还有 两个 大 的, 我 觉得 节点 没有过, 一个 叫做 量产 化, 一个 叫 商业化。 就 这 两件 事儿 我 觉得 关键 可能 还没 过。 所以 量产 化 听起来 好像 只是 跟 量 有关系, 商业化 好像 只是 跟 经济 和 商业 有关系。
其实 不是 的这 两件事 也都 跟 技 关系。 把 一个 过了 技术 门槛 的 无人化 的 车辆, 从 一辆 放大 到 1万辆 的 车队, 所 需要 额外 的 技术 的 应变 和 一些 开发 能力。 这些 其实 并不是 非 技术类 的 事, 有些 也是 需要 技术开发。 所以 那些 是不是 一定 能 过 门槛 我不知道。 所以 他 也 面临 着 他的 二 第二个 里程碑 和 第三个 里程碑。 所以 其实 这么 看起来 有点像 对 吧? 就是 这个 辅助 驾驶 和 无人驾驶 分别 都有 它的 一档、 二档 和 三档 的 阶段。 然后 一档 大家 基本上都 卖 过了, 然后 二档 和 3档是在 卖 过 的 过程中。
我们 刚才 聊 的 它 有 两条 路径。 第一条 是 马斯克 代表 的, 包括 何 小鹏, 这 一系列 中国 车 企 代表 的 这种 辅助 驾驶 路径。 第二条 路径 是 做 纯 无人驾驶 的 路径 就是 vivo。 然后 包括 中国 有 小马 智 行人 等等 这些 公司, 还有 滴滴。 我们 今天 讲 的 就是 包括 这 两者。
我们 先来 聊 的 就是 第一种 以 特斯拉 F S D 为 代表 的 辅助 驾驶。 因为 特斯 F S D 从 今年以来 关注度 都 非常 的 高。 你 试驾 过 特斯 F S D 很多 版本, 你 能不能 讲讲 你的 整个 的 体验 和 它的 变化?
S D 其实 真正 走入 出圈, 我 就 被 人 关注 是 V22 上线 的 时候, 对 吧? V 12上线 的 时候 伴随 着 一个 关键词, 叫 第一次 上 到了 一个 自动驾驶 车。
里面 八月 对 吧?
对, 那 我 开 的 比较 多 的 一个 是 V 12上线 之前 的 叫 1.3.6 的 版本, 这个 是 十二 之前 应该 是 最后一个 版本。 对于 推送 到 大家 是非 端 到 端的 一个 版本。 然后 以其 上线 了 之后 的 12.3, 一十二 上线 之后, 大家 可以 看到 就是 第一个 视频 是 马斯克 自己 去 发 的, 自己 开 了 大概 45分钟。 在 一个 区域 里面 所有人 都 知道 它是 一个 端 到 端的 模型, 或者说 至少 它 号称 大家 愿意 相信 它是 一个 纯 端 到 端的 模型。 几十万 代码 变成 了 几千 行 代码 的 一个 非常 了不起 的 变化。
从 外界 来看, 我 观察 到 很 有意思 的 现象 在 这件 事上, 就是 这个 视频 放 出来 以后, 其实 大家 不知道 该 评价 他 到底 是 好 还是 不好。 一些 人 认为 伊朗 当然 自己 说是 非常 好, 他 开 的 很 了不起。 但 其实 如果 你是 行业 外 的 人, 其实 你 不知道为什么 他 会 说好 或 甚至于 不好, 标准 其实 都 不清楚。 比如说 这个 45分钟 确实 可能 只 发生 了 一次 接管, 但是 接管 非常 的 愚蠢, 就是 红绿灯 没有 识别 清楚。 或者说 再 换 个 角度 来讲, 45人出现 一次 接管, 这 到底 算不算 过关? 这个 产品 体验? 就是 对于 大家 来讲 其实 没有 评判 标准 的, 很多人 其实 无从 去 认为。
确实 也是, 比如说 对于 纯 无人驾驶 来讲, 就是 对于 做 L 4的人 来讲, 45分钟 一次 接管, 这 简直 是 不可 接受 的 一件 事情, 就是 太差 了。 不是说 能不能 接受 的 问题, 这是 是 完全 不可 接受 的 一件 事儿。 但 对于 辅助 驾驶 来讲, 其实 这 可能 就是 属于 代表 了 当时 的 水平, 或者说 差 不太 多。 跟 当时 能够 体验 出来 最好的 水平。
其实 从 技术 的 角度 来讲, 我们 觉得 是 非常 了不起 的。 原因 是因为 他 没 比 持 着 一十一 往 后退, 他 换 了 一个 全新 的 架构。 这个 架构 上线 之后, 它的 表现 没有 下滑, 而是 保持一致 了, 甚至 还有 一点点 提升。 这 已经 是 极度 了不起 一件 事儿 了, 对 吧?
但是 在 对于 大家 来讲, 一般 不 这么 认知, 大家 觉得 你 这 还 不得 有一个 十倍 的 节日 才算 一个 成功? 不是 的, 我 觉得 他 能 做 这件 事情, 我 觉得 很 了不起。 所以 从 这个 角度 来讲, 我 觉得 很 厉害。 但 你 从 体验 上 来讲, 我 觉得 确实 也就是 跟 V 11。 我的 个人 认为 这 跟 网上 很多 观点 可能 不一样。 我 觉得 跟 V 11的最后一个 版本 其实 差 不太 多, 这是 12V12的 第一个 版本。 V12.3是 一个 可能 个人 体验 最多, 可能 也是 身边人 体验 最多 的 版本。
V12.3 我 觉得 其实 是 体验 各方面 上 已经达到 了 相对 比较 成熟 水平 的 辅助 驾驶 的 能力 的 版本。 它 在 应对 大多数 场景 里面, 第一个 你 能 知道 它 具备 应对 力。 应对 力 的 意思 就是说 它 不会 当 这是 比如 有了 一个 场景, 他 不会 假装 没有 这个 场景, 直接 就 按照 标准 规则 来去 跑, 对 吧? 他 基本上都 会 有所 反应, 就是 应对 基民 的 一贯性 比较 强, 成功率 不算 特别 高。 就是 在 复杂 的 场景 里面, 比如说 这个 高峰期 上 高速, 从 匝道 下来 进 高速, 这个 会车 的 过程中, 基本上 如果 车流量 比较 密 的话, 是 百分之百 会 失败 的, 就是 一定 会 接管。 那 这样的 场景 就是 通用 的, 以 百分之百 失败 场景 还是 不少 的。 其实 还是 有 很多很多 这种 可以 到了 我们 反复 测试 了 很多遍。 但是 反过来 讲, 它 其实 在 很多 场景 里面, 你 不 预期 它 能 开启 的 场景 它 也能 开启。
在 你们 家 后院 里面 它 也能 开启, 它 在 一个 篮球场 里面 它 也可以 开启, 甚至 有时候 能 找到自己 的 出路。 虽然 能 开启, 但是 也会 遇到 很 愚蠢 的 东西。 比如说 我 开车 从 斯坦福 开去 这个 meta 的 总部, 然后 定位 在 mea 的 停车场 里面。 莫名其妙 可能 在 接近 于 停车场 的 过程中, G P S 的 信号 就会 有所 偏失。 那 就会 造成 他 永远 找到 他 自己 到了 终点 那个 位置, 他 可能 就会 一直 开, 然后 就是 永远 不会 停下来 的。
类似 这种 问题 其实 蛮 多 的, 就是 12.3 这个 版本。 12.4 的 版本 其实我 也 体验 了, 这个 在 五月份 的 时候, 还没有 对 公众 开放, 在内 测 的 时候 去 体验 了 一次 12.4 的 版本。 12.4 按 一样的 说法 来讲 是 提升 了 5到10倍, 比 12.3, 然后 12.5 又比 12.4 提升 了 5至10倍。 我 其实 当时 体验 核心 就 为了 验证 到底 它 是不是 这个 斜率 很高。
因为 12.3 给 我的感受 是 这个 事儿 很 厉害, 但 跟 维姆 之间 或者说 跟 L 4之间 的 就 不是 一个 东西, 而且 差 得 非常 远。 所以 我们 还 依然 不能 把 它 放在 一起 讨论。 因为 所有人 当时 问 我的 问题 都是 说 这条路 F S 这条路 有没有可能 也能 做到 L 4? 我 内 心里 是 不 认可 的, 或者说 在 短时间 内 我是 不 认可 的。 但是 你 也 无法 证伪, 对 吧? 既 无法 证实 也 无法 证伪, 所以 唯一 能 判断 它的 方式, 其实 就是你 在 这个 过程中 多 找 几个 数据 点, 然后 看看 它 斜率 是不是 在 往 这个 方向 冲。 所以 12.1 我们在 视频 上 看到 12.3 我自己 开 过了, 12.4 再 找 一个点, 比 12.5 再 找 一个点, 你 就可以 把 它 连成线, 就可以 看到 这个 斜率 到底 是 什么样, 是 二十四。
我 找到 这个 点 之后 提 了 一下, 我 觉得 大失所望。 对我 从 我 个人 的 角度 来讲, 我 觉得 出现了 一些 非常 愚蠢 的 接管, 包括 转弯 的 过程 中的 这些 摆动, 我 觉得 甚至于 我 认为 比 12.3 可能 还差。 也许 我 运气 不好, 开 的 这个 过程中, 但 我 觉得 至少 不是 一个 十倍 5到10倍 的 体验 的 上升 的 能力, 对 吧? 所以 我 姑且 就是 把 它 当 跟 12.3 差不多, 或者 上升 一点 的 一个点。
12.5 是 最近 推出 来 的, 这个 我 还没有 看到 过, 我自己 也没有 体验 过。 但是 看到 很多 视频 已经 网上。 因为 有 很多 专门 报 特斯拉 的 接管 率 的 公开性 的 网站, 对 吧? 然后 我们 也可以 倒回去 看 这个 类型, 大家 现在 比较 公认 的 说法 是 12.5。 在 不分 场景 的 情况下, 或者说 通用 通信 场景。 通用 通常 一般 说的是 80% 高速, 20% 市内 交通 的 美国 标准 通信 场景 的 情况下, 接管 率 可能 到 300到500 英里 或者 公里 左右 的 这个 规模。
假设 这个 事情 是 真实的, 那 这 什么 概念 呢? 我们 放到 一个 跟 L 4可比较 的 这个 语境 之下, 我 觉得 它 L 4就是 纯 无人驾驶, 大 概率 是一个 M 规模 自己 公布 的, 在 三藩市 内交。 里面 大概是 10万公里 出现 一次 关键 接管, 然后 对应 的这 可能 是 300到500。 如果 是 放到 凤凰城, 就是 路况 更 简单 一点, 可能 高速 道路 更 多一点, 那 可能 是 30万公里 一次 关键 切换, 对应 300到500, 这 大概 可能 差 的 是 1000倍左右 这样的 一个 差别。
我 觉得 说 回来 F S 体验 怎么样? 我 觉得 总结 而言 就是 每 一代 都有 提升, 在 同行 里面 绝对 是 翘楚。 但是 相对于 纯 温 驾驶, 这个 距离 非常 大, 且 短时间 内 没有 追上 的。
可能 我 听你讲 的 感觉 有点像 做 L 4无人驾驶 的 人 看 特斯拉 F S D, 有点像 大学生 在 看 小学生。
我 觉得 如果我们 的 标准 是 考大学 的 考试, 那 可能 是。 但 从 某种程度 上 我们 觉得 这个 评价 可能 也 不对。 因为 F S D 考 的 不是 那个 考试, F S D 最后 线上 交付 的 体验 和 它 最终目标 就是 另外一个 目标, 跟 做 L 4的人 可能 做 的 就 不一样。 然后 在 他 这个 目标 体系 里, 我 觉得 他 其实 做 的 是 对的, 他 优化 的 目标 是 对的, 甚至于 他 就 做 的 最好。
你 交给 F S D 或者 换 咱们 换 一个 视角 来去 看 这个 事儿, F S D 有没有 能力? 如果 它的 目标 体系 转化成 去做 L 4, 它 能不能 做? 我 觉得 可能 也能 做 的 非常 好。 同样 反过来, L 四 回过 来 去做 F S D 这件 事情 能够 做好, 我 觉得 可能 大概 概率 可能 也可以, 也不 保证。 但是 我 觉得 人 也可以, 但 他们是 两个 工种。
或者说 两个 产品。 罗 天成 上次 他 把做 无人驾驶, 他他 有一个 分级, 就是 不 接管 1个小时、 10个小时、 100小时、 1000个小时、 1万个小时。 然后 他说 现在 L 4能做到 是 1万小时, 正常 人类 是 1000小时, 特斯拉 是一个 45分钟 的 水平。 这个 是一个 直观 的 感受。
我 觉得 这 是一个 挺好的 表达方式。 然后 我 觉得 通常 让 行业 里面 不用 小时 来去 评价, 一般 用 接管 里程, 两次 接管 之间 大概 差 多少 公里 或者 英里。 英文 叫 mos ring, 这边是 M P I 或者 M P 我们 今天 讲 M P C I, 因为 这个 人为 的 接管 总是 还有 一些 人为 的 误差 在 里面, 对 吧? 所以 我们 一般 用 这个 critical 的 分析, 就是 有些 虽然 人 接管, 但 其实 你 不 接管 也不 撞。 我们 只有 说 那种 撞 了的 就是你 不 接管, 就 撞 了的 接管 才算 接管, 这个 叫 M P C I。 如果 按 这个 算 的话, 其实 这个 量级 会 非常 大。 但是 我 觉得 从 另外一个 维度, 我们 来去 想 这个 事儿, 就 辅助 驾驶 是不是 接管 率 越 低, 就是 接管 里程 越高 越好? 可能 也 不是 这个 事儿。
我 跟 不少 同时 做 L 2和L 4的公司 的 产品 负责人 和 创始人 讨论 过, 我 觉得 有一个 我也 比较 认同 的 观点, 就是 其实 作为 L 2, 直到 它 实现 了 极高 的 车 的 驾驶 能力 之前, 你 极高 基本上 是 我们 意义 上 的 L 5, 这就是 跟 人类 价值 是 一样。 之前 其实 它是 有一个 最优 接管 率 的, 这个 最优 接管 率 不是 过高, 也 不是 过低, 为什么呢? 是因为 车 在 人机 共 驾 下 的 安全, 是 由 车 的 自动驾驶 能力 和 在 自动驾驶 能力 失效 人 介入 进行 兜底 能力。 这 两个 能力 共同 保障 车 能 开 得 很好, 当然 最好 车 开 的 不行 的 人 来去 兜底, 然后 去 控制 方向盘 和 刹车。
当我 的 接管 率 的 或者说 我的 这个 M P C I, 我们 叫 接管 里程 提升 的 过程 中人 其实 的 兜底 能力 是 下降 的。 因为 人的 注意力 越来越 不 集中, 对 吧? 然后 其实 人 如果 开 三个 高速, 三段 高速, 我 都都 没有 从来没 接管 过人 一定 不会 再去 说 双手 双脚 且 眼睛 都 一直 在 看 路上, 然后 一 出现 情况 马上 就行了。 他 不会 的那 也就是说 人 其实 失去 了 他 逐步 兜底 的 可能性。
那 作为 容积 共价 结合 在一起, 可能 它的 净 能力 是在 下降 的, 甚至 不一定 是 上升 的。 所以 这 里面 其实 有 个 最优 优化, 最优 是 多少 我不知道。 有些人 说 可能 就是 也许 是 50公里, 也许 是 100公里, 也许 是 5000公里, 各有 各 的 说法。 但 我 觉得 它 可能 不是 最高, 不是 越高 越好。 当然 突破 了 50之可能 是 越高 越大, 但 我 觉得 离 突破 那个 值 可能 还差 的 比较 远, 所以 我 觉得 这是 它。
但 对于 稳 驾驶 来讲, 那是 完全 另外一个 体系, 就是 我们 绝对 是要 做到 最好, 完全 不 接管 的。 因为 我们 不 假设 有人 这件 事情 能为 任何 事情 兜底, 它 就是 一个 有 车 自己 自主 控制 的 这么 一套 体系。 一旦 车 失效 了, 那 意味着 整个 系统 失效 了。 所以 我 觉得 这个 可能 是 本质 上 说的是 产品 体系。 是的, 两套 产品 体系。 刚才 讲 的 是 这 两套 产品 的 安全 体系, 这 两个 产品 还有 不同 的 体验 体系。 对, 就是 人机 共 驾。 它 其实 核心 的 是 最后 让 你 人的 驾驶 体验 升级, 能 得到 更高 的 愉悦。
有 这个 事儿 比 没 这 事儿 要 开心 的。 无人驾驶 是你 只能 接受, 没有人 驾驶。 因为 它 就是 以 这样的 一个 技术 形式 来 呈现 在 你 面前。 所以 它 不是 为了 提升 你的 体验, 它是 其实 是在 节约 成本, 是一个 经济效益 更高 的 一种 方式。 也就是说 为了 达到 比如说 在 无人驾驶 里面 达到 这样的 经济效益, 其实我 是 有一个 最低 的 安全 红线 的。 只有 过了 一个 红线, 你的 产品 才 应该 上线。 没 过 这个 红线, 其实 你那 都 叫 测试。 严格 的 说, 你 就算 出 很多很多, 其实 你 不能 做到 正规 的。
同样 反过来, 你 过了 这条 线 之后, 其实 理论上 应该 很 安全, 在 安全 上 的 额外 提升 你可以 做, 但 它 不是 最 重要。 可能 是在 其他 的 形态 上 的 提升。 它 有点像 我们 互联网 里面 的 企业 服务 软件 这种 一个 形态。 但是 在 辅助 驾驶 里面, 在 R 这个 体系 里面, 其实 它 更 像 我们 互联网 的 to c 的 产品。 它是 一个 核心 围绕 体验 主观 判断 式 的 一个 产品, 核心 的 能力 是 让 你 主观 体验 变 好。
那 怎么能够 把 你 主观 体验 变 好? 其实 就是 假设 在 容积 共 架 之下, 我的 这 一代 比 上 一代 做 的 好, 我 这 一代 比 别人 家 做 的 好 就行。 但 那条 有没有 一条红线 的 出现? 没有。 其实 在 特斯拉 F S D 上 可以 明显 的 看到 这个 趋势, 就是 它 在 能力 很差, 可能 体现 在 安全 事故率, 可能 在 对 人的 惊吓 程度 上 还 依然 处理 不好 的 时候, 其实 就 上线 了 大量 的 人。
其实 参与 到 这 里面 的 测试 过程中, 本质 上 是 只要 做到 有 它 比 没 它 强。 虽然 在 有的 时候 它 也会 让人 吓 着, 但是 毕竟 一些 意见领袖, 或者 是 一些 常见 他 愿意 去 尝试。 他 尝试 过程中 以后, 他 就 很 兴奋 了。 这个 兴奋 可以 概括 他 偶尔 会 出现 情况 的 一种 无力感, 或者说 这种 事故 的 带来 的 负向 影响, 它 就是 有 价值。 所以 对他 来讲 没有 红线, 它 优化 的 应该 是 尽量 的 覆盖 更多 的 场景, 让 更多 人群 可以 上手 来 试用。 最低 的 硬件 成本, 榨取 最高 的 软件 性能, 使得 它的 迭代 速度 最快。
我 觉得 这是 它的 目标 体系。 所以 我 一直 认为 这 两个 是 完全 不一样的 两个 体系, 虽然 它们 都 叫 自动驾驶。 然后 行业 里 因为 把 它 标 了 一个 叫 L 2、 L 3、 L 四 这样 一套 数字 体系, 又 使得 好像 说 你 做 L 2的目标 不就是 变成 L 3, 你 做 L 三 好像 目标 就 变 L 4。 其实我 认为 不是, 就是 L 2的目标 不是 L 4。 L 2的目标 是 为了 提供 一个 更好 的 人机 共 驾 体验, L 四 目标 是 提供 成本 更 低 的 出行 服务 的 能力, 这是 可能 两个 体系。
其实 说到 这块, 我 觉得 可能 也可以 可以 插 一句, 我 觉得 我们 为什么 有 L1L231415 这个 命名 体系。 其实我 一直 觉得 这个 命名 体系 有点 歧义, 这个 歧义 不是 体现 在 命名 本身 上, 因为 这套 是 由 美国 公路 管理局 当时 命名? 就有 一套 体系 从 L 一 作为 L 0, 其实 就是 没有 任何 自动 能力 的 加持 的。 然后 一是 什么? L 一 就是 有 一点点 自动 能力, 比如说 前 的 这个 叫做 高速 的 自定义 巡航, 或者 这种 技术 能力。 L L 2可能 是 你们 车道 线 居中 保持, 再加上 前后 的 居中 保持, 对 吧? 但是 不能 做 更 智能 的 东西, 这是 可能 从 功能 定义。 但 其实 一般 的 定义 是从 责任 上 定义, 或者 从 对 人的 需求 上 定义 的。
这个 车 需不需要 你 双手 扶 着 方向盘, 需要 眼睛 看着 路, 需要 来看 这么 一个 环节。 从 L 一开始, 数字 越 小 需要 人的 参与度 越高, 数字 越高 需要 人的 参与度 越 低, 对 吧? 然后 掉 到 L 5就是 完全 不需要 任何人 参与, 且在 任何 地方 都 可以 开。
但 实际上 这 体系 说 了 两件 事儿, 第一件 事儿 说的是 刚才 说 的 就是 人的 参与 本质 上 就 叫 责任。 就是我 定义 它是 L 比如 L 4。 L 4的意思 就是 在 有限 的 环境 之下, 不是 在 所有 环境 下了 有限 的 环境 之下, 我可以 完全 不需要 人 参与。 不需要 人 参与 的 意思 就是说 如果 出了 事情, 其实 它 不是人 的 责任, 是 系统 的 责任, 对 吧? 这 叫 不需要 人 参与。 它 背后 还有 一层 概念 是 它的 能力, 就是 它 到底 具 不 具备 在 各个 地方 都能 开 的 这个 能力。
一般 我们 意味着 说 定义 责任 的 时候 就 定义 的 能力。 因为 这 两个 是 相辅相成 的, 就是 它 得 具备 能够 在 大多数 情况下 让 你 开 的 安全 的 能力, 他 才说 你 不用 管 这个 事情 的。 但 往往 大家 拿出 来说 的 时候, 是 把 这 两 这件 事 结果 的, 就是 能力 和 责任。
比如说 今天 无论 车 企 还是 这个 行业 宣传 L2L3 说的是 能力。 但是 其实 我们 往往 说 的 定义 的 时候 定义 的 是 责任。 但是 责任 一般 应该 由 法规 来 定义。 所以 这辆 车 就说 我 车 企 可以 说 我是 具备 L 四 能力 的 一款 车。 但 其实我 是 L 2的产品 形式 推出, 且 符合 L 2的法规, 什么 意思 呢? 就是 如果 出了 事儿, 责任 是在 驾驶员 的对 吧? 你 还是 应该 双手 再 放 上。
L 2和L 3的责任 都是 驾驶员。 对, L 4的责任 是 平台 方, 是 自动驾驶 公司。
是的, L 三是 稍微 有点 tRicky, 就是 有点 模糊 的 地方, 因为 不同 国家 稍微 定义 会 有些 不同, 对 吧? 比如说 日本 跟 德国 现在 出台 法案, 然后 三是 有 一部分 责任 可以 是 由 这个 系统 或者说 车 企 来去 承担 的。 但是 通常 来讲 会 把 二 跟 L 三 它的 责任 体系 定义 是 类似的, 就是 其实 它 都在 人人 是 需要 有 一定, 要么 是 要么 眼睛 要 一直 看, 或者 手 要 去 扶 着。 可能 L 3稍微 的 可以 就是 手 可以 脱困, 但是 眼睛 可能 随时 要 反过来 去 解决。 所以 也就是说 你 不 按照 这 好东西 来。
其实 责任 就在 你, 因为你 给我 接管 率 太低 了, 我 走神 了, 责任 是我的。
是的 是的, 那 它 其实 本质 上 对 人是 有 个 隐性 的 要求 的。 就是说 你 最终 其实 要 看。 但是 你 想 什么样 人 一直 要 盯 着 这个 自动驾驶 系统, 然后 猜 他 能不能 解决 这个 问题, 企业 在 解决 不得 的 时候, 还要 去 接管。 这个 在 我们 行业 里面 的 就 叫 安全 测试员 的。 这个 测试员 是 我们 要 付钱 给 他是 一个 其实 蛮 辛苦 的 工作。 因为他 要 长时间 精神紧张, 他每 开 一 几个 小时 他 要 休息 一次, 因为他 随时 要 准备 去 接管, 他不知道 会 出现 什么 情况, 他 要在 真实 场景 的。
而 你是 要 作为 一个 用户, 你是 要 花钱, 不光是 没人 付 你 钱, 你 要 花钱 像 一个 系统 向 一个 提供商 来去 买 这个 服务, 然后 使用 它, 然后 假设 一切 都能 行且 你 还要 承担 安全员 的 角色。 对你 既是 一个 他 产品 的 使用者、 享用 者, 你 同时 又是 一个 安全 保护者。 享用 者 这部分 你是 付钱 了, 保护者 这部分 他 没有 付 你 钱。 在 这个 过程中, 但 其实 你 已经 承担 了 一个 责任。 所以 当 只有 这个 系统 做 的 特别 好, 其实 他 付 你 那个 钱 足够 低 的 时候, 理论上 在 经济 意义 上 你 应该 被 付 的 钱 足够 低 的 时候, 这个 事 才 划算。 但 今天我 觉得 还没有 到 那么 低 的 水平, 所以 我 觉得 他 实际上 这个 矛盾 的 状态 就是 他 默认 让 很多 用户 其实 承担 了 这 里面 的 隐形 责任。 但 他的 在 考虑 他 能力 的 时候, 其实 并不 考虑 这部分。 因为他 能力 可以 快速 迭代。
但 出现问题 的 时候, 其实 他 可以 只 解决 这 里面 80% 的 问题, 或者 80% 是 随便 拍 的, 也就是 90% 的 问题。 但 剩下 一大部分 解决不了, 没关系, 我 就 甩 这些 用户 来 他们 来去 解决, 就 兜底 就 好了。 等到 我 下 一 版本 迭代 的 时候 再去 出现。
所以 伴随 着 这个 会 出现 另外 一个游戏 现象, 就是 像 特斯拉 这样的 公司, 其实 它的 测试, 我们 一般 讲 自动驾驶 公司 它 一个 版本 的 推出, 它 需要 有 非常 多 的 内测 仿真 测试 内测, 然后 才会 推出 到 这个 公共 测试 上来。 但 特斯拉 其实 作为 一个 每一个 版本 推出 可能 就 推 给 上百万 人的 一个 用户 的 这个 软件, 它 其实 内测 团队 可能 只有 有 小 几百号 人, 对 吧? 就是 内测 的 这个 实际 开 的 就是 相当于 我们 公司 内部 没有。 比如 500号人 开 着 500辆车, 每天 把 我们 内测 版本 在路上 跑跑 完了 以后, 到达 一定程度 之后 我 就 退出 去了。 甚至于 特斯拉 在 以 我的 了解, 在 仿真 上, 仿真 就是 还没 上路。
在 一个 仿真 环境 里面 搭建 我们的 版本 的 测试 做 的 都 非常 的 少。 非常少 的 原因 是因为 很多 场景 确实 也 没法 测, 然后 我也 很难 在 里面 做 仿真, 我 直接 推 给 用户, 让 公众 来 帮 我 做 测试。 这个 在 互联网产品 上 经常 常见 一件 事儿, 对 吧? 上线 一个 新的 feature, 然后 我 让 用户 做 A B test 看 哪个 好。 但是 在 驾驶 领域 是一个 非常 反 直觉 和 反 人性 的 一件 事情。
因为 本身 带着 一些 隐形 的 安全问题, 你 其实 没有 充分 测试。 这个 无论 从 用户 的 一般 认知, 还 从 法规 的 要求 来讲, 可能 都有 一点点 矛盾。 但是 他们 可能 可以 尝试 这么 做, 那 就会 使得 它是 迭代 最快 的 公司。 这就是 它的 一个 我 觉得 额外 的 一个 能力 飞轮, 使得 它 能 转 得 更快。 带来 的 代价 就是 这 里面 可能 会 出 更多 的 潜在 的 事故, 或者说 出现 一些 它 不可 解释 的 事故。 至少 是因为 可能 之前 没有 遇到, 所以 这个 我 觉得 是一个 在 辅助 驾驶 行业 里面 会 碰到 的 一件 事情。
这 是不是 也 意味着 辅助 驾驶 不会 直接 推出 L 4? 因为 如果 是 推出 L 4的话, 它 责任 主体 都 变成 平台 方 了。
是的, 我 觉得 辅助 驾驶 推 不 出来。 首先 我 觉得 辅助 驾驶 推 不 推出 L 4, 我 觉得 主要 还是 你 就像 一个 比如说 辅助 驾驶 的 母体 母体。 假如 说 这个 车 企 对 吧, 车 企 如果 希望 做出 行 服务, 就是说 一个 车 企 愿不愿意 自己 打车 的 出行 平台。 如果 做 的话, 那 他 可能 也会 做 L 4。 因为 L 2对应 的 是 卖 车, L 4对应 的 是 促进 服务, 对 吧?
首先 从 商业 角度 来讲, 是不是 愿意 存在 从 技术 的 责任 上 来讲, 你说的 很 对我 觉得 今天 在 全世界 范围 之内, 四 完整 的 法规 定义 都 没有 特别的 清晰。 无论是 中国、 美国、 欧洲 也好, 但是 预期 之内 都会 像 你说的 这样, 就是 L 4的责任 主体 可能 会 是 系统 的 提供方, 或者 系统 提供方 前面 的 车 企 大 概率 应该 不是人, 或者说 至少 不是 百分之百 是人, 那你 承担责任 可能 会越来越 多。 但 另外一个 同样 进行 的 趋势 是 像 L 2或者 L 3。 即便 今天 感觉 责任 在 主体, 在 人的 这个 系统 上, 其实 也 在 规范 这样的 法规 和 责任。 也 不是说 系统 方 就 一点 责任 不会 承担 了。 对, 大家 也 在 慢慢 给 他们 一些 更多 责任, 但 相对 来讲 肯定 是 更 少 一些 责任。 人 因为 会 在 这 里面 一定 会 承担 比较 多 的 责任。
L 2和L 3它的 区别 是什么?
L 二是 我们 通常 说 的 辅助 驾驶。 我们在 L 2的体系 下, 从 责任 的 角度 来讲, 人是 需要 一直 eyes on 和 hands on, 吧? 手 应该 一直 扶 在 方向盘 上, 眼睛 一直 有 对于 路线 是 关注 的。 然后 三 是 有 两个 不同 机 都 有过 不同 的 定义 对 吧? 一个 是 说 你可以 hands off, 就是 手 可以 从 方向盘 拿掉, 但是 attention 还需要 在 就 你的 注意力 还要 需要 在 路况 上。 另外 一种 定义 是 说 你的手 跟 你的 注意力 其实 都 可以 不在 这个 路况 上, 但 你 随时 要 准备 接管。 所以 大概是 可以 理解 为是 一个 放松 版 的 L 2, 但是 依然 是 随时 要 被 车 兜底 的 一个 副驾驶 的 行为。
这 更 像 安全员, 是 辅助 驾驶 和 无人驾驶。 我 能 理解 他们是 两套 产品, 两个 产品 体系 的 目标 和 体验 都是 非常 不一样的。 它 也是 两种 责任 主体, 但 它 有可能 共用 一套 技术 体系。
我们 今天 其实 在 很多 方向 上 是 确实 是在 技术 的 架构 上 和 底层 是 有 相通 性 的。 比如说 大家 在 大 的 框架 上, 在 过去 可能 都 是从 定位 感知、 预测、 决策控制 的这 一条 链路。 那 今天 可能 大家 都在 尝试 某种 形式 的 合并, 对 吧? 所以 合并 到 极致 可能 就是 端 到 端的。 像 流行 的 这样的 系统在 准 出 测试 上 也有, 这个 数据库 体系 也有, 仿真 体系 也有 等等。 所以 在在 技术 架构 上, 我 觉得 是 很多 场景 上 可能 是 相似 的。
但是 也有 一些 不 相似 的 地方。 比如说 L 四 因为 要 解决 所有的 场景, 所以 它 要 设计 很早 的 时候 就要 推出。 比如说 类似 这种 叫 remote access 或者 control, 就是 远程协助 或者 远程 驾驶 的 这种 的 行为。
其实 应对 的 就是 当 车 碰到 了, 他 不能 直接 在 车 自己 处理 的 场景。 比如说 遇到 交警 要 去 拦 停, 他 可能 需要 做 一些 配合。 车 只能 做 的 非常简单 的。 比如说 停下来, 那 接下来 交警 的 手势, 交警 语言, 或者说 一些 其他 做不了 的 时候, 我们 叫 远程协助。 就是说 车 需要 向 远程 请求 协助, 那时候 会 远程 有 个 人类 的 大脑 进来, 然后 帮助 他 高三 可能 需要 做 哪些 动作, 要 下发 这个 指令。 这 里面 涉及到 延迟 一下, 应该 叫 指令 的 下发 限制 到 等等 这种 控制 环节 的 一致性 登记 一些 能力。 这些 技术 可能 就 不是 辅助 驾驶 或者 L 二 体系 会 研发 的, 因为 车 里头 有 那个人, 你 就 不需要 远程 来 去做 这件 事 了。 举 个 例子, 就 类似 这种 东西 可能 又有 一些 区别, 对 吧? 大家 在 开发 的 过程中。
特斯拉 的 端 到 端 为什么 这 两年 激起 了 全球 这么 大 的 热情? 因为我 听你说, 我 觉得 他的 体验 没有 显著 提升。 特别 是从 一个 L 4的从业者 的 角度 来看, 他们 还 像 小学生。 那 为什么 他们 引发 的 关注度 这么 的 高?
F S D 本身 或者 特斯拉 的 车 是 世界 上造 的 最多 的 机器人, 到 现在 为止 也是 人类 能 体验 到 的 最多 的。 所谓 自动驾驶 也好, 无人驾驶 也好 的 这个 体验。 所以 几乎 我 觉得 99% 的 人类, 如果 对 自动驾驶 有 任何 的 实际 的 感知 或者 感触 的话, 都是 做了 或者 看 了 特斯拉 车 或者 是 他的 车 的 视频 来去 得到 的。 所以 其实 它 基本上 就 代表 了 特斯拉, 基本上 代表 了 自动驾驶 本身。 客观 上 讲 是 这样的。
所以 我 觉得 大家 特斯拉 任何 的 变化, 或者说 伊朗 musk 说 的 任何 一句话, 其实 都 代表 着 整个 行业, 指的 是 整个 自动驾驶 行业。 因为 大家 都 是从 他 身上 去 了解到 的, 所以 我 觉得 是 这样。 他 代表 这件 事儿, 不 代表 他在 这里 边 是 技术 上 最强 的。 或者说 在 我们 提 就 比如说 纯 无人 的 这个 技术 维度 上 评价 它是 最强 的。 但 话语权 往往 掌握 在 你 能够 触 达到 对 作为 用户 的 人 身上, 这就是 它的 场景。 它 其实 掌握 了 场景 的 能力 和 优势。 所以 我 觉得 他 任何 的 风吹草动 的 变化, 我 觉得 都 代表 了 整个 人类 的 理想 和 寄托。 如果有一天 特斯拉 实现 了 某件事 儿, 那 基本上 意味着 就是 这条路 是 能 通 的那 其他人 也都 能 实现 这件 事。 同时 他 确实 也是 辅助 驾驶 行业 里面 技术 上 做 的 最好的 公司, 所以 如果 他 实现 不了, 确实 也很 难 相信 很多 其他人 能 实现。
特斯 F S 的 V 12它带来 的 关键 架构 变化 是什么?
最大 的 变化 其实 还是 从 一个 非 端 到 端的 结构 变成 了 一个 端 到 端的 结构。 然后 端 到 端 结构 就是 其实 把 中间 以前 我们在 一个 技术 架构 体系 里面 会 这个 链条 会 比较 长从。 最早 的 这个 包括 地图 的 模块, 然后 定位 的 模块、 感知 的 模块、 预测 的 模块、 决策 的 模块、 控制 模块。 基本上 从 你 视觉 传感器, 就 摄像头 看到 东西 进来, 然后 到 我 最后 能 变成 控制 信号 出去, 它 有一个 非常 长 的 链条。
大家 可以 想象, 其实 人 有时候 也是 这么 学习 开车 的。 那就是我 现在 可以 看到 有 这些 不同 车, 然后 我 得 根据 我 历史的经验 判断, 前面 这辆 车 它 大 概率 会 往 哪个 方向 走。 然后 基于 这样的 猜测, 我 再 决定 我 怎么 去 往前 开往 左 开 转向。 基于 这个 我 再去 是 快速 扭动 方向盘, 还是 快速 的 踩 刹车, 还是 慢速 的 刹车。 其实 它是 人是 可以 很 好的 理解 这 几个 模块。 也 正是 因为 人是 这么 理解, 所以 我们 把 它 拆成 这些 模块 之后, 我们 比较 好的 让 工程师 分别 去 优化 这些 模块。
但是 你可以 想 另外 一些 例子, 比如说 无机 生物, 或者 前两天 有人 讲 这个 例子, 我 觉得 挺好。 蜻蜓 去 吃 苍蝇 这件 事情 或者说 昆虫, 其实 他的 脑神经 元 是 非常简单 的。 但是 他 做 比如 吃 蜻蜓 吃 仓 这件 事情 非常 快 的 一个 动作, 而且 很 准 准确率 非常 高。 他 怎么 做到? 他 其实 没有 这么 多 过程, 说 先 识别 苍蝇 在哪儿, 然后 再 决定 我 舌头 伸 多长, 然后 再 决定 我 就 还要 不要 再 扑腾 两下, 飞 得 离 它 近 一点。 没有, 它 其实 就是 一个 进来 以后 可能 是一个 直觉, 出来 舌头 就 出去 了。 这套 其实 在 自然界 中 也是 大量 存在, 且 可能 很 简单粗暴 有效 的 一个 模式, 叫 端 到 端。 就 是从 视觉 信号 进来, 就是 上头 进来 的 像素 信号 直接 出去 就是 控制 信号, 就是 车 的 加速度、 减 速度、 转弯半径 等等 这些 中间 不再 有 说 所谓 车 在哪儿 他 会 怎么走, 我 再 画 一条 轨迹 出来 我 该 怎么 没有, 这是我 觉得 最大 的 变化。
这个 变化 体现 在 特斯拉 上 会 出现 一些 什么样 的 现象 呢? 比如 举 个 例子, 过去 我们在 有 规则 体系 的 控制 的 时候, 我们 会有 一个 规则 肯定 是 很 重要 的。 比如说 红绿灯 识别, 识别 出来 红绿灯 之后, 我们 得 根据 红黄绿 来去 判断 我们 车 能 走 不能 走, 怎么走。
发现 F S D 升级 到 12之后 不是 很 经常, 但 偶尔 他 会 闯红灯。 闯红灯 这个 事情 在 自动驾驶 来讲 是一个 很 低级 的 事情。 因为 这个 事儿 里边 你 闯红灯 基本上 意味着 你是 没 识别 出来 红绿灯, 对 吧? 没 识别 出来 红绿灯 不应该。 因为 这是 属于 物体 识别 里面 相对来说 比较简单 或者 比较 早期 需要 做 的 比较 好的 一件 事情。 尤其是 在 一些 非常 标准 的 红绿灯 的 厂家。 但是 你 会 发现 F S D 升级 到 V 12的时候, 他 真的 偶尔 会 闯红灯。 而且 在 闯红灯 的 时候, 他 不是说 前边 后边 都 没 车, 他是 发现 有 其他 的 车 也会 闯红灯 的 时候, 他 可能 会 跟着 走。
也 意味 什么 呢? 就是 确实 有 在 一些 数据集 里面, 可能 是 人类 驾驶 或者 一些 其他 情况下, 可能 是因为 灯 坏了。 比如说 出现了 十分钟 红灯, 或者 20分钟 红灯 就 没 变 过, 或者 其他 场景 里面 造成 了 最后人类 会 决定 说好, 虽然 是 红灯, 但 我会 违背 我 一般 的 规则 然后 去 走。 他 观察 到 这个 现象 在 车流 里面 它是 可以 这么 去 走 的, 所以 他 决定 跟着 其他 的 车 一起 做 这个 行为。
比如说 真的 是 红灯 坏了, 比如 四面 都是 红灯 停 了, 就是 因为 然后 又 没有, 比如说 1个小时 之内 没有 警察 过来 去 修 这个 信号。 那 可能 这 确实 是你 该 做 的 一个 行为 的。 我不知道 硅 里面 有没有 真正 对 这样的 豁免 的 行为, 但是 这 可能 是 通常 人类 选择 的 一种 方式。
这 不能说 他 一定 是 错 的那 他 可能 就 学会 了 这件 事情。 你 不 判断 这件 事儿 的 对错, 但 你可以 从 这件 事上 看出来, 他 可能 确实 去掉 了 红绿灯 的 规则 这套 体系。 而 他 为什么 会 闯? 一定 不是 因为他 没看到 红灯, 而是 因为他 有 更高 权重 的 信号 进来。 比如说 跟随 他 一起 的 车流, 他们 也 走了。 而且 可能 不 只是 一辆车, 也许 可能 除了 车 以外 还有 自行车, 他们 都 做了 这样的 行为。 也许 这个 行为 是对 的那 我可以 从重 的 实现 这样的 行为。 这些 所以 这样 就可以 看到 说, 我不是 一个 规则 去 把 它 拆解 到 世界 这样的 一个 现象。
所以 类似的 还有 很多, 比如 轧 黄线, 以前 可能 规则 会 写 死, 你 识别 出来 红线, 你 在 规则 上 就 不能 做 这个 黄线。 那 他 可能 会 发现, 以前 画的 这个 路线 虽然 是 黄线, 但是 我 门 突然 重新 一个 工厂 的 门 开 在 这边 了, 但 我 路线 没 改, 然后 前面 所有 车 都是 压 黄线 过去。 那 我 是不是 该 做 这件 事? 我们 谈 该不该, 起码 他 今天 学到 了 这个 能力, 可能 很多人 就是 这么 开 了, 那 我 可能 也能 这么 去做。
以前 的 这个 自动驾驶 的 技术 叫 模块化, 所以 它是 一个 模块, 然后 学习 规则, 这个 可 解释性 更强。 变成 端 到 端 以后, 首先 马斯克 也 不包括 他 自己 技术 路径 是 怎么 实现 的那 对于 想 学习 他的 公司 来说。
应该 怎么做 呢? 我 觉得 在 今天 整个 自动驾驶 行业, 它 其实 是一个 人才 流动性 非常 高, 而且 没有 绝对 的 我们 叫 秘密武器 的 行业。 因为 它 发展 很 长时间 了, 所以 当 这条路 其实 为什么 马斯克 或者 是 特斯拉 走 这条路 难, 是因为 他是 第一个 作家, 其实 跟 发 学术 文章 是 一样的。 这个 一旦 发 了 以后, 他 可能 就 不是 秘密 了, 或者 走 这条路 才能 确认。 但是 确认 这条路 能 走 得 通 这件 事情 是个 很难 的 事儿, 因为你 也 不知道 能不能 走 通 在 你 做 的 事儿。 所以 我 觉得 大家 去 学习 这套 方法论, 其实 并 我 觉得 没有想象 难, 可能 意味着 是, 但是 更多 的 是一个 决策 行为 的 事情。 但 你 看到 哒 哒哒 走 通 了, 如果你 也 想 去 追赶 或者 类似 这样, 事实上 大家 也都 在 做。
国内 这么 多 优秀 的 车 企 也好, 或者说 一级 供应商 做 自动驾驶 供应商, 其实 本质 上都 在 开发 这个 端 到 端的 模式。 但 这 里面 有 几个 前提。 第一个 当然 需要 很 优秀 的 人才, 做 过 端端 训练 模型 训练 的 人才, 我 觉得 这个 不是 最大 的 难题。 我 觉得 接下来 的 问题 是你 得 有 足够 多 的 数据。 数据 很大程度 上 取决于 你 有 多少 辆车 在 外面 去 跑。 如果 你是 车 企, 可能 取决于 有 多少 辆车。 如果 你是 车 企 背后 的 自动驾驶 算法 供应商, 那 可能 还 不光 取决于 有 多少 辆车, 还 取决于 这些 车 用户。
云 不 允许 你的 链路 里面 就是 用户 也好, 车 企 也好, 你 不 允许 你 把 这 数据 再 拿 回来 进行 训练。 然后 第三 取决于 这些 数据 拿 回来 以后, 你 具 不 具备 训练 这些 数据 的 能力。 这个 能力 取决于 你 有 多大 的 计算 平台, 你 有 多大 的 服务器 体系, 有没有 数据 清洗 能力, 有没有 数据 的 后处理 等等 这些 能力, 这些 能力 其实 很 重要。 这 其实 可以 看到 OpenAI 在 做 后边 的 这些 工作 的 过程中, 甚至于 这 都 比 模型 本身 更 重要。
对于 数据 的 处理 能力, 大家 可能 最后 都能 拿到 多 大量 的 数据。 但 其实 数据 你 把 这个 子 机 学习 领域 有一个 行业 经常 说法 叫 garden 的。 你 这个 数据 进来 是 垃圾 数据, 你出去 也是 一个 垃圾 的 模型, 对 吧? 能不能 处理 好 这些 东西 都 做好 之后, 你 能把 它 分布 到 车上, 对 吧? 你 对 这个 车 本身 的 硬件 软件 体系 有没有 自己的 很 好的 控制能力。 比如说 你是 供应商, 你 可能 就 不能 去 决定 一个 摄像头 或者 激光雷达 选 不 选, 选 在哪儿。 那 车 企 可能 有 对 吧? 那 怎么做?
然后 再说 你的 产品 定义 能力, 这些 能力 都 有了, 这 东西 是不是 符合 用户 的 需求? 也许 你的 能力 很强, 但 用户 觉得 就是 用 着 不好 用, 你 开 这些 行为 就 用户 觉得 讨厌, 对 吧? 这个 东西 就是 体验 不好, 那你 还要 去去 打磨 它。 所以 我 觉得 整个 这个 链路 的 闭环, 坦白讲 我 觉得 特斯拉 其实 在 体验 上 也 没 做好。
我 觉得 一直 做到 数据 闭环, 然后 上车 对 吧? 就是 这个 通路 做好, 但 体验 我 觉得 他 也是 挺 初级 的。 好多 时候 其实 他 完全 就像 刚才 讲 的, 高速 匝道 并线 明明 不 成功。 虽然 他 已经 比 其他 车 企 并 的 成功率 要 高了 很多, 但是 他的 成功率 还是 挺 低 的。 但 他 还 努力 去 尝试, 直到 撞上 为止。 其实 这种 场景 其实 不应该 这么 去做 的。
除了 这些 体验 点 以外, 我 觉得 测试 已经 做 的 很 好了, 其他 的 公司 当然 也可以 去做。 当然 所有 刚才 说 的 这些 东西 之外, 还有 比如 数据安全 的 问题, 数据存储 出境 等等 这 一系列 所有 东西。 这些 东西 都 处理 好了 之后, 才有可能 能 打造 一个 类似 这样的 模式。
所以 V 12是自动驾驶.
x GPT 是个 我 觉得 还 不是。 如果 一定要 类比 的话, 我 觉得 V 12更像是。 辅助 驾驶 里面 的 gbt 3的时刻, GBT3 时刻 是什么 呢? GBT3 时刻 是 说 我 把 模型 scale 到 就是 扩 量 到 一定 大 之后, 它 开始 所谓 我们 叫 永 现 的 一些 能力, 而且 他 没有 后撤, 他 涌现 了 一些 我 以前 没有 预想到 的 能力, 且 我 认为 这条路 是 正道, 可以 继续。 无论是 我们 去做 一些 人工 的 fine tuning, 还是 做 一些 模型 微调, 还是 一些 其他 形式, 使得 它 可以 变得 更 符合 我们 人类 对于 产品 的 习惯 和 要求。 但是 它 还 不是 那个 叉 G P T 的 产品, 也就是 一下 推出 来 被 很 出圈, 所有人 都 可以 用。 然后 大家 都 口碑 都 会说 很好, 然后 拍脑袋 说 没想到 人类 已经 能 做到 这样 程度 的。 我 觉得 V 12还不是, 所以 我 觉得 GPT3是 一个 比较 适合 的 描述 方式。
它 也没有 涌现出 什么 新的 能力。 有些 能力 是 过去 的, 在 过去 的 基础架构 下 完全 不能 实现。
刚才 描述 的 类似 于 比如说 像 看似 好像 不该 压线 的 地方 突然 压线, 但是 使得 效率 更高。 或者说 一些 比如 在 停车场 里面 自动 的 调整 该 怎么 去 走 等等, 去 避开 一些 避障 的 行为。 我 觉得 可能 是 属于 你说的 这些 能力。 就是 这些 能力 其实 我们 都 没有 预先 设置 过, 甚至于 可能 都 没想过 他 有些 能力 直到 碰到 了, 我们 发现 已经 具备 能力, 我 都还没 训练 你, 或者 我 没 想着 专门 去 训练 你 往 这个 方向 走。 那 这些 能 你 可能 已经 在 埋 在 历史 存在 的 数据 过程中, 自然而然 的 去 习得, 然后 去 应用 起来 了。 我 觉得 是 存在 着 很多 这样的 现象, 但是 没有人 专门 去 测 说 哪些 属于 我们 意外 之 喜, 哪些 是 属于 我们 应得 的 这些 能力。 所以 我 觉得 很多 时候 可能 是 惊慌, 是在 偶然 开车 过程中 突然 体验 到 的 一些 惊喜 吧。
关于 特斯拉 端 到 端的 技术路线, 目前 已知 有些 信息, 还有 哪些 信息 是 无法 获得 的?
第一个 当然 知道 是 已经 确实 上了 半导 端的。 第二个 是 至少 到 12.4 这个 版本 之前, 我 了解到 特斯拉 其实 整个 团队 F S D 只有 非常少 的 人 在 截止 到 今年 的 五月 底 的话, 应该 也 只有 300人出头 了。 今天我 不知道 有 多少 人, 是不是 急速 的 增加 了 300人出头。
团队 是一个 很小 的 团队, 在 自动驾驶 的 一个 行业。 他们 为什么 人 这么 少? 我猜 有 几个 原因, 第一个 是 一 浪 的 管理 风格 和 对于 这件 事情 的 模式, 他 可能 希望 工作 强度 大, 少数人 少 官僚。 然后 老板 可以 直接 需求 和 执行力 可以 直接 传递 到 最 下层。 所以 他 非常 平级 的 架构, 评级 架构, 你 其实 是 很难 扩 一个 特别 大 的 庞大 体系。
第二个 是 他 接受 一些 不完美。 在 他的 体系 里面。 比如说 刚才 要 讲到 的 就是 其实 到 12.4 这个 版本 之前, 包括 12.4 这个 版本, 高速 跟 低速 还是 两个 版本。 然后 他 中间 做了 很多 做了 一半 的 工程, 其实 都 还没有 完整 的 上线, 可能 做了 一半 就 先 停 了, 因为 人手 不够, 然后 先 要 推 下一个 版本 或者 做 一些 迭代。 所以 有 很多 这样的 工作 的 出现。 我 觉得 其实 跟 早期 的 比如 facebook 类似 一样。
就是 扎克伯格 有 个 我 觉得 他们 一直 飞 错的 所谓 他们的 这个 公司 的 执行 的 真言, 叫叫 shift fast and break things。 就是 快速 的 赶紧 把 产品 推出 去, 然后 管 它 哪儿 坏了, 反正 就 接着 迭代 的。 我 觉得 特斯拉 基本上 也是 这种 模式, 这种 模式 允许 你 做 的 事情 不完美, 但是 你 做事 要 特别 快。 这 两件事 分别 都 指向 了 人 要 更 少, 然后 执行 要求 更高。 指向 整体 效率 更高, 就 意味着 人 可能 也 不能 那么 多, 这是 他的 一个 选择, 特斯拉 一定 有钱 可以 招 一万 人的 团队 来 去做 这件 事儿 了。 他 不 没有 去做。
特斯拉 做 自动驾驶 已经 有 十年 时间。 他是 替换 过 团队, 经历 过 清洗, 还是 说 他 一直 都是 这 300人的 一个 规模。
特斯拉 是 迭代 过 非常 多次, 而且 很多 都是 公开的 迭代 过, 对 吧? 也有 很多 其实 华人 很 优秀 的, 很 著名 的 这些 创业 的 人 或 技术人员, 后来 去了 不同 的 公司。 曾经 都在 特斯拉 的 早期 工作 过, 或者 甚至 直接 汇报 给 过 马斯克 本人。
早期 可能 在 光 在 自动驾驶 团队 最 开始 可能 只有 十几二十多个 人 来 去做 这种 迭代, 对 吧? 包括 后来 很 著名 的 andrik, pathy 也 带 过 一段时间 团队? 后来 又 迭代 了 几次。 今天 300人团队 应该 已经 是 F S D 历史上 最大 的 时刻 了, 吧? 相当长 一段时间 也有 小于 200人的, 他 其实 迭代 过 很 多次, 方法论 上 也 迭代 过。 早期 的 时候 甚至于 感知 都 不是 自己 做 的。 有时候 还 跟 早期 跟 mobile 合作 过, 然后 直接 拿 mobile I 的 感知 来 出来 去做, 接受 过 一个 黑盒 的 这个 方案。 只是 后来 做 规划 迭代 过 很 多次, 然后 到了 今天, 但 每一次 迭代 我 觉得 他 都是 行业 做 的 最快 的, 你 引领 了 行业 的 这个 迭代 的。
这里 能不能 讲一讲 特斯拉 的 整个 的 自动驾驶 技术 演进, 哪个 时期 是 什么样 的 路径?
大概 可能 说 一下, 就是 特斯拉 你看 如果 从 它 硬件 编号 来讲, 现在 是 叫 harvard, 就是 4.0, 就是 四代。 然后 经历 了 12344个 版本 的 一代 的 时候, 其实 就是 刚才 说 的 那个 时代 里面 是一个 非常 小的 计算 平台。 然后 感知 其实 用 还 买 了 mobile I 的 视觉 的 一套 完整 的 方案, 甚至 一个 黑盒 方案。 然后 他 拿 过来 感知, 然后 自己 做 后边 的 预测, 规 控 等等 这些。 二代 以后 基本上 就 剔除 了 mobileye, 然后 就 开始 自 闭环 的 来 去做 整个 的 这个 方案 了。 然后 跑 的 比较 多是 三代, 三代 应该 是 2018年 开始 是 上线 的, 其实 就是 应该 是一个 144 tops 的 算 力 平台 了。
百44 tops 在 今天 看起来 非常 小的 一片。 我们 现在 通用 的 国内 的 这些 厂家 的 上 到 车上 一般 用 一片。 我们 英伟 达 的 欧润 的 芯片 一般 都是 250 top 死亡 上 的 这个 计算 算 力。 但是 其实 在 那个 时代 的 1.2018 推出 来 的 时候, 它 还是 一个 非 强 的 一个 计算 平台。 然后 那个 时候 开始 去 跑 初 代 的 所谓 的 F S D, 之前 跑 的 都 叫 autopilot, 其实 就是 只有 车道 线 保持, 没有 领航 的 能力。 这是 三代, 最近 上 的 应该 是 去年, 上 的 是 F S D, 第四代 应该 是 400 tops 的 一个 算 力。 其实 这是 硬件平台 演进。
硬件平台 演进 过程中, 其实 迭代 的 东西 主要是 计算 芯片 和 它 传感器 的 配置。 传感器 配置 大体 没 变, 主要 的 传感器 配置 就是 八个 摄像头, 然后 环 形成了 环视。 早期 的 时候 还 上 过 毫米波 雷达, 后来 在 过程中 还 把 毫米波 雷达 拆下来 了。 行业 里面 一直 一个 很大 的 辩论 就是 需不需要 激光雷达。 其实 在 特斯拉 上 从来 都 不是 个 辩论。 就是 我们 肯定 不需要 激光雷达 企业, 我们 连 毫米波 雷达 都 不要, 然后 中间 还 把 毫米波 雷达 也 拆下来, 所以 只剩下 八个 摄像头, 摄像头 也是 一个 不是 特别 高分辨率 的 摄像头, 我 印象 如果 对 的话, 应该 是 120 20万 像素 还是 200万像素 的 这个 摄像头 是一个 非常低 的 硬件 配置。
然后 逐步 升级 的 其实 是 它的 就是 特斯拉 是一个 很 吝啬 在 车 的 硬件 自动驾驶 套件 上 本身 花 很多 钱 的。 但是 他 一点 都不 吝啬 的 是 花 在 他的 训练 平台 上, 对 吧? 比如 买 了 1万张 H 100卡的 训练 集群, 现在 这个 应该 已经进入 到 2万张卡, 而且 并且 马上 他的 C F O 最近 一个 基本上 讲 应该 又 到 年底 要 交付 5万张卡。 并且 在 这 之上 还 搭建 了 自己的 训练 体系, 就是 dojo 这套 体系 对 吧? 而且 可能 是 明年 或者 后年 再 上线, 这 可能 又是 上 10亿或者 百 亿美金 的 投入, 所以 在 这场 非常 不 吝啬, 这也是 它的 一个 特点。
用 最少 的 成本 在车上? 就是 车上 本身 增加 每个 成本, 其实 是 直接 带来 车 的 精力 会 下降, 或者 它 毛利 会 下降。 但是 你 在 总部 花 的 所有 这些 训练 成本, 其实 最后 都是 长期 摊销。 它 本质 上 是一个 一次性 投入 了 一个 可 摊销 的 成本。 我 觉得 特斯拉 整个 的 这家 公司 的 思维 模式 都 是以 这样的 方式 再去 迭代。
从 他 之前 是 B E V 加 transformer, 然后 到 端端 这 一套 技术 体系 是 怎么 演进 的。 这个 是 软件 的 技术 体系 对 吧?
对 软件 的 技术 体系 早期 的 其实 也是 分 几块, 感知 决策控制? 这是 相当长 的 一段时间 严谨 严格 的 一个 过程。 然后 到了 B E V 出现 的 时候, B E B 应该 最早 提出来 可能 是在 其实 B E B 应该 提出来 我记得 是 蛮 早 的, B E B 甚至 比 transworld 应该 还 早。 因为我 记得 是 2014年 可能 就有 B E B 的 这个 对 17年 的 transformer。 但是 后来 把 B E B 和 transformer 放在 一起, 可能 是 2020年 的 时候 才有 的。
后来 有 所谓 B E former 什么 怎么 这套 体系 的, 这个 是 第一次 把 感知 解决 了 几个 问题。 第一个 就是 把 多 传感器 融合 这件 事情 解决 的 更好。 因为 原来 其实 我们 每 一帧 独立 去 检测, 然后 我们 再 把 这些 真的 I D 圈 出来 的 这些 检测 框 之间 的 I D 再去 匹配 起来。 现在 我们 把 它 用 一个 鸟瞰 的 视角, 然后 先 把 视觉 做了 融合, 然后 能够 去 找到 每个 物体 的 位置。 然后 同时 又 引入 了 transformer, 使得 我在 长时间 序列 过程中, 对于 每个 物体 的 跟踪 识别 能够 相对 比较 准确。 同时 这件 事儿 一般 我们 上了 B E V 之后, 常态化 做 的 一件 事儿 是 把 感知 和 预 这 两件 事情 叠加 在一起, 放到 一个 模块 里面 去 实现。 所以 你 看到 今天 大多数 的 公司, 其实 在 端 到 端 这件 事情 上, 在历史上 都 经历 了。 从 说有 大 的 我们 叫 一般 叫 3P模块。
Perception prediction for planning. 就是 感知、 预测 和 决策 三个 模块。 首先 合并 的 是 感知 和 预测 这 两个 模块, 就是 因为 B E D 加 transformer 的 带来, 所以 就 变成 两个 模块。 今天 几乎 大多数 的 辅助 驾驶 公司 其实 都是 这 两个 模块。
很多 公司 把 这个 就 叫 端 到 端。 但 其实 不是 端 到 端, 它是 分别 一个 端 到 端, 对 吧? 就是 A 模块 的 端 到 端 加 B 模块 的 端 到 端。 但 中间 还 断了 一次, 断了 一次 会 出现 什么 问题 呢?
中间 可能 会 出现 一个, 比如说 我们 从 第一个 模块 出来 以后, 会 输出 一个 人类 可以 观察 到 的 结果。 比如 三维 的 车 的 检测 框 和 三维 这些 车 的的 路线 轨迹。 根据 这些 轨迹 我 再 进入 到 第二个 模块, 我 再 出 我自己 的 轨迹 是 什么样 的。 但 这个 框 的 问题 就是说 它是 给 人类 看 的, 但是 计算机 不可 导, 然后 不可 反向 推导, 所以 使得 你 优化 的 过程中 这儿 就 断了。 你 只能 模块 自己 单独 优化 和 避免 模块 自己 单独 优化, 你是 无法 把 这个 联通 来 去做 优化 的, 这是我 觉得 过去 的 问题, 特斯拉 我 无法 指出 准确 的 什么 时间 是 到了 这个 阶段 以及 什么时候 结束。
这个 阶段 是 V 12开始 的, 我们 知道 什么时候 到了 这个 阶段, 这个 我不是 特别 清楚。 但是 国内 大多数 公司 其实 都 是在 一年 多 前, 可能 进入 到 刚才 描述 这个 两个 阶段 的 阶段 对 吧? 然后 今天 其实 大多数 是用 这 两个 阶段 的 组合 来去 拼凑 L 再加上 一些 规则 的 兜底, 可能 外围 包 着 我们 叫做 safe guardian real 对 吧? 就是 一些 保护性 的 措施 使得 它 能够。 所以 大多数 都是 大概 在 这样的 一个 结构 下去 设置 的。
特斯拉 是 完全 能 跑 通 端 到 端的。
是的, 在 V 12上, 就是 中间 这个 也 没了, 所以 它 就是 视觉 近。 然后 规划 出 这个。
你是 看得出来 的 是 吧? 如果 是 包装 的。
你是 你 判断 的, 我 觉得 几个 信号。 第一个 当然 是 伊朗 妈 自己 怎么说。 第二个 是 刚才 举 的 一些 例子, 比如说 他 看到 红绿灯 不会 直接 停下来, 或者 是 有 个别 的 情况下, 真的 是 违反 红绿灯 的 规则 来去 跑, 或者 会 压 红线 来去 跑, 而且 好像 是 有些 道理 的。 去 实现 这件 事儿。 如果你 不是 这么 做 的话, 你 大 概率 这是 属于 判断 非常 低级 的 错误。 我们 假设 它是 不会 犯 的。 所以 在 这 两个 假设 之下, 我们 觉得 依然 这么 做大 概率 是因为 这个 原因。
那 国内 的 包装 你可以 通过 什么 信号 看得出来 呢?
我 觉得 其实 可能 也是 类似的 这种。 因为 是 这样, 就是我 觉得 以往 是 他 把 这个 事儿 说到 极致, 就是我 是 端 到 端 起, 我 不用 任何 规则 兜底。 但 国内 我 觉得 很少 有人 这么说 这 句 话 也就是说 你 看到 刚才 那些 情况, 其实 可能 你 很难 判断 到底 是因为 什么。 因为 国内 你 很难 不用 真的 规则 兜底。 就是我 比如说 你 真的 出现了 一个 闯 红绿灯, 因为 这样的 原因, 这个 情况 我 觉得 这 是个 失效 场景, 这是 不可 接受 的。 站在 特斯拉 上 可以, 所以 我 觉得 国内 依然 会有 这些 场景。 有 这些 场景 下 还会 出现 这个 情况, 你是 不 判断 出来 他 闯红灯 到底 是不是 因为 他是 端 到 端的 原因 了, 就 变成 所以 我 觉得 其实 很 难看 出来, 实际上 很 难看 出来, 可能 有 一些 个别 的 信号 上 你 能 看出来, 就是 规则 很难 画 出来。
我 其实 没法 特别 好的 回答 这个 问题, 到底 怎么 在 别人 不 告诉你 他 是否是 真的 端 到 端的 情况下, 你 去 甚至 是 两个 端 到 端的 情况下, 能够 判断 出来 它 是不是 两块, 甚至于 在 后边 这 一块 是一个 数据 驱动 系统 还是 一个 规则 驱动 系统。 我 觉得 是否 纯 规则 驱动 系统 可能 更好 看出来。 但是 不是说 是 两和 端端 跟 一个 大 模块 连接起来。 我 觉得 可能 更多 是在 一个 大 的 数据量 体系 之下, 看 它的 平均 的 统计 效率, 而 不是 看 它 具体 在 某 一个 行为 上能 不能 去 买 得过 的, 能能 得 出来 的 结论。
理解 为什么 特斯拉 从 一开始 就 不用 激光雷达, 甚至 不用 毫米波 雷达? 为什么 国内 的 这些 公司 依然 选择 激光雷达?
早期 的 时候 这个 讨论 是 有 价值 的, 就是 激光雷达 在 早期 的 时候, 比如 16年 的 时候, 像 选择 像 vo 弹 这样 激光雷达, 一个 激光雷达 可能 50万。 因为 它 这个 不是 为了 车用, 它是 为了 测绘 用 的, 它是 手工 组装 起来 对 吧? 这 都是 四千 也好, 128千 也好, 其实 都是 非常 成本 很高。 这个 东西 如果 比 车 本身 还 贵 的话, 其实 那 不用 是 有 道理。 随着 量产 的 就是 L2L3 行业 开始 大规模 使用 起 激光雷达 之后 量产 的 规模 上来, 并且 出现了 这种 所谓 叫 半 固态 的 激光雷达 的 东西, 比 以前 的 所谓 全 旋转式 的 这种 360度 的 激光雷达 成本 大规模 下降。 现在 一块儿 可能 市面上 最 流行 的 主 激光雷达 128 线 可能 也就 两三千 块钱。 便宜 的 激光雷达 其实 它 不太会 是因为 成本 来去 考量 该不该 上 的 一个 问题。
伊朗 自己的 态度 是 激光雷达 引入 会 使得 带来 额外 信号 的 噪音。 也就是说 当 激光雷达 和 视觉 带来 的 信号 不一致 的 时候, 你 该 选择 哪个 这个 接口 还需要 额外 的 判断, 这个 判断 会 产生 不 准确性 和 延时, 我 宁愿 没有 这个 判断, 我的 目标 就是 优化 我的 视觉 体系 系统, 这是 他的 解释, 我 觉得 这个 解释 是否 大家 相信, 其实 大多数 人是 不相信 的。 我 觉得 行业 里面 大家 就 觉得 不太 make sense。 但 他 非常 执着, 就是 基于 这个, 他 不光是 不要 激光雷达, 甚至于 后边 也 把 毫米波 雷达 也 拿掉 了, 我 只要 一个 信号 指示 数。
第二个 原因 是因为 确实 视觉 是在 所有 这些 信号 里面, 它的 信息 丰富 度、 信息 密度 是 最高 的。 我 能 看到 像素, 无论是 分辨率, 分辨率 是 就是 视觉, 哪怕 是一个 120万 像素 或者 200万像素, 可能 都 比 一般 的 激光雷达 分辨率 要 高, 且 还有 颜色 信息 对 吧? 它 然后 它 还有 时序 信息 等等 这些。 但是 它 两点, 刚才 说 的这 两种 不同 的 雷达 差 的 一个 是 它 直接 给 不出 距离 信息。 它 其实 是 通过 计算 得 出来, 就是 两 帧 之间 有 个 时间差, 然后 来说 看 物体 的 变化 来去 计算 出 我 根据 物体 的 具体 信息。 因为 它是 一个 被动 通过 接收 光 来去 得到 的。 但是 激光雷达 是 主动 发射 一个 光, 然后 反弹 回来, 我 去 测定 它 在 这个 光 发射 的 接收 回来的 时间 的 周期 相位 变化 来去 决定。 所以 激光雷达 是 可以 瞬间 知道 距离 的 真值。
这件 事儿 为什么 重要 呢? 是在 高速 上 其实 也 没 那么 重要。 但是 在 市区 里面, 当你 做 有 很多 摩托车, 很多 自行车, 很多人 去 穿, 而且 你是 一个 很 近距离 的 这种 交互 的 时候, 你 第一个 需要 知道 这个 速度 非常 快, 就是 马上 要 整。
第二个 有时候 视觉 会 出现 误差。 你 比如说 一个人 车门 打开, 你 就 站在 这个 车门 这儿, 他 有时候 分 不 出来 这个 人和 这个 车门, 对 吧? 他 识别 不 出来 是 哪, 或者说 这个 距离 你 照样 稍微 远 一点, 它是 贴着 车门 还 是不是 贴着 车门, 有时候 其实 不是 那么 准确 的。
还有 一些 就是 视觉, 这些 是 需要 靠 一些 数据 累积 训练 才能 判断 出来。 当你 有 一些 场景 不在 你的 数据 训练 集 里面, 你 还是 无法 得到, 或者 会有 比较 大 的 偏差。 早期 出现 的 事故 也 是因为 这个。 第二个 是 比如 毫米波 雷达, 因为 它的 波长 的 原因, 所以 你 其实 可以 绕过 很多 障碍物, 尤其 像 雨雪 天啊 等等。 这些 时候 你可以 看到 视觉 其实 一 下雨 或者 一下 雪, 显然 它 就会 失效, 对 吧?
就是 等等 我们 其实 用 的 传感器 也 不止 系列, 我们 有时候 还会 用 红外 传感器 对 吧? 就是 比如 夜间 突然 有人 躺在 地上, 离 你 距离 特别 近。 因为 我们 看 这个 行业 里面 有一个 很 有意思 特征, 就是 离 你 特别 远 和 特别 近 的 东西 都 不太 容易 看清楚。 特别 远 的 是因为 你 分辨率 太低 了。 特别 近 是因为 你的 装 的 那个 激光雷达 视角 被 你的 钱 的 那个 前盖 给 挡住 了, 所以 你 有时候 看不到, 尤其是 前盖 与 之后 还是 分辨率 特别 细 的 这种 东西, 所以 有人 躺在 地上 的 时候, 其实 是 很 危险 的的 一些 事儿, 尤其 他 半夜, 天色 又 黑 的 时候。 所以 我们 有时候 还会 用 各种各样 的 额外 的 传感器 去 配置。 所以 今天我 觉得 肯定 没有 到 一个 说 如果 安全 是 我第一 重要性 的 时候, 我 现在 就 已经 可以 开始 去 传感器, 然后 去 只是 优化 一种 为了 降低 他们的 噪音 去就 的 状态。
我们 今天 绝对 是 越多 的 信息。 其实 增益 效果 一定 是 比 它 带来 的 噪音 要是 要 好的, 对 吧? 就是 这个 净 增益 是是是 为 正 的, 但是 它 带来 的 问题 就是 成本 的 增加, 以及 你 甚至于 有的 时候 甚至 都 不太好 判断。 说到底 每一个 看 一 去 增加 它的 R I 它的 回报率 到底 是 多 高 才能 到 的 一个 程度。
然后 我 觉得 这 第二个 问题, 摄像头 有 它 绝对 的 优势, 但是 它 也有 一些 缺点。 然后 这些 缺点 我 觉得 是 可以 被 其他 的 传感器 的 人 来去 弥补 的。 但 其他 传感器 会 比较 贵。 但 这些 贵 过去 是个 问题, 今天 其实 不是 个 问题。 可能 还有一个 问题 是我 觉得 随着 时间 的 增加, 我 觉得 现在 越来越 我们 往 这个 端 到 端的 模型 来去 跑, 或者说 等等 这样 模型。
我 觉得 最 容易 收集 到 的 数据 其实 是 摄像头 的 数据。 就是 如果 跑 端, 如果 你的 你 只用 你 自己的 车 来去 收集 数据 的话, 以 特斯拉 为例, 当然 所有的 车 都是 类似 像 几乎 一样的 配置, 所以 他 每辆车 都 给 数据 来 同样 多 的 数据。 但是 如果你 用, 比如说 你 不是 特斯拉, 你 今天 上了 激光雷达, 通常 激光雷达 都是 是 高 配 车型, 会上 比较 少 的 车型 是 低 配 或者 全 系 会 去 配 激光雷达 或者 其他 传感器。 那 也就是说 高 配 车型 一般 可能 如果你 这个 车型 整个 销量 是 100辆的话, 那 可能 高 配 车型 销量 十辆 到 20辆, 对 吧? 然后 可能。 中 配 是 一个 60辆到 70辆, 然后 就是 这么个 比例, 那 也就是 你 能 收集 回来的 数据 的 量级 会 小 一点 的。 然后 如果你 指望 让 他们 来去 收集 回来的, 你 可能 就 会有 数据 上 的 偏失, 这 可能 也是 个 一个 理由。
在 这个 过程中, 甚至于 更多 的 理由 是 说 你可以 用 行车 记录仪 的 数据, 对 吧? 比如说 如果 你是 纯 视觉, 虽然 不像 你的 车 的 摄像头 配置 那么好, 但是 它 也是 一个 数据源。 甚至 你可以 看 用 公开的 其他 地方 的 数据, 一般 也都 都是 视觉 数据, 而 不是 其他 传感器 的 数据。 所以 就是 因为 它的 数据 的 丰富 度, 所以 最后 来去 选择 用 这个 摄像头 为主 的 这样 方案。 可能 是从 他的 视角 里头 可能 是 最好的。
他 未来 有可能 会上 激光雷达。
我 这个 问题 我 没法 回答, 就是 可能 是个 特斯拉 的 决策问题, 我的 判断 是 不会。 我 觉得 今天 如果 已经 能 做成 这样 企业 这样的 方案, 其实 对于 它 对 安全性 的 提升, 如果 是 线性 增长 的, 而 不是 需要 阶梯 性 跳跃, 那 我 觉得 就 没 必要 突然 上 一个 特别 强 的 传感器。 李一帆, 我 觉得 就是 何在 的 这个 创始人, 我 就 讲 过 一个 观点, 就是 激光 他 有点像 作弊器。 然后 你 有了 它 就是 大家 都 去 考试, 然后 突然 你 带 了 一个 小 抄过来, 然后 就说 但 如果你 没有 理由 说 一定要 作弊, 如果我 考 60分, 我就是我 的 目标。 然后 我 考 我是 要 拷 尽量 多 的 考试, 我 先考 一个 数学 再 考, 我在 有限 时间 内 把 所有的 考试 都 考 了, 然后 每个 考 60分就 过去了。 那 我 其实 不需要 作弊器, 因为我 其实 作弊器 还要 花钱买 的。 但 如果你 目标 就是我 不 考 到 90分, 我 上 不了 大学, 然后 我 觉得 每科 都要 过, 那 我 就 必须 得 带着作弊器 上 的。
我 对 自然 他 现在已经 部分 在 测试 了, 对 吧? F S D 的 V12.5和 后续 的 V 一三 有没有 哪些 预期?
12.5 又 抛出来 一个, 就是 又 十倍 好 于 V12.4。 然后 V12.6 是 到 今天 为止, 说的是 在 训 的 最新 的 一个 模型。 企业 几乎 能 接近 实现 纯 无人驾驶 这个 事儿 又 配合 着 特斯拉 在 十月份 准备 推出 V I V O taxi 的 事件, 对 吧? 还 让 大家 的 期待 可能 就是 V12.6 可能 就能 做到 某种 形式 的 全 无人驾驶。 我 觉得 它 给 整个 社会 的 期待, 我 个人 的 期待 没有 那么 高了。
我 觉得 V12点60 2.52.4, 我 觉得 应该 是一个 相对 线性, 而 不是 一个 指数 型 的 提升 的 模型。 我 觉得 在 模型 本身 上 其实 会有 非常 大 的 迭代。 然后 在 模型 的 参数 上 我们 可以 看到 是 可能 确实 像 他说 的, 可能 会有 是一个 数量级 的 提升。 但 从 用户 可 感知 的 效果 上, 我不会 期待 有 那么 大 的 提升。 我 觉得 可能 如果 从 安全监管 率 的 角度 来讲, 我 觉得 能有 个 每 一代 可能 能 提升 一倍, 或者 能 提升 50%, 我 觉得 是 非常 了不起 了, 对 吧? 这 是在 一个 一年 之中 发生 的 事儿, 但 我 觉得 一年 提升 比如 十倍, 我 觉得 这个 我 可能 看不到。 12.3太 远 了, 一堆 还没 开始 训, 所以 不知道 12.3是 什么, 这个 也 无法 评价。
端 到 端 是 自动驾驶 的 大 杀器 吗? L2L4 公司 都要 去 学习。
我 今天 看起来 是的, 我 觉得 对 L 2会比对 L 4的公司 更加 它 直接 有效, 可以 直接 粗暴 上线。 对于 L 4来讲, 大家 可能 需要 深思熟虑 的 多一点。 L 2的原因 是 其实 跟 特斯拉 用 它 有 几个 原因。 第一个 是因为 F S D 已经 把 这个 事儿 阶段性 的 跑 通 了, 然后 它 效果 基本上 肉眼 可见, 理论 上限 可能 比 其他 东西 高。 它的 问题是 它是 一个 黑盒, 对 吧? 就是 或者 端 到 端 是一个 黑盒。 然后 我 觉得 可能 在 可 预见 的 未来 的 法律法规 里面 可能 会 遇到 一些 问题。 黑盒 的 问题是 出现问题, 你 不知道为什么, 也 不能 保证 下次 一定 不 出现。 而且 很多 问题 可能 你 没有如果 是你 数据采集 不够 丰富 的话, 其实 你是 很 危险 的。 因为 它 跟 你的 数据分布 有 非常 大 的 关系, 所以 我 觉得 是一个 所有人 都 需要 尝试, 但 需要 要 逐步 上线 和 使用 的。
但 我 觉得 对于 R 2来讲, 这条 目标 是 非常 清晰 的。 因为 有人 兜底 的 情况下, 这 就是你 单车 成本 最低, 然后 天花板 最高 的 一个 模式, 对 吧? 但是 不确定 的 就是 我们 叫 黑盒 所 造成 的, 它的 地板 可能 会 有点 低, 对 吧? 或者说 地板 不知道 在哪儿, 可能 忽高忽低 的 这样的 一个 结果。 对于 L 4来讲, 我们 核心 关注 的 是 地板 不能 太低, 我们 地板 一定要 过 红线, 天花板 当然 也得 过 红线, 但 天花板 是不是 最高, 我 觉得 并不是 这 里面 最 重要 的, 我 觉得 还是 地板 不能 太低, 所以 它 我们会 考虑 就是 它是 一个 提升 天花板 方式。
今天 整个 行业 我 觉得 其实 都在 L 2也好, L 4也好, 都 在 团队 设置 上 和 模式 上都 在 往 这个 方向 去 至少 设立 这样的 团队, 还 不敢 说 这个 团队 有的 可能 基 近 一点, 直接 就说 我们 整合 都 叫 端 到 端 大 模型 团队 了。 市面上 也有 一些 公司 已经 这么 干了。 未来 比如说 这些 公司, 也 有些 公司 是 说 我们 其实 都 会有 自己的 团队 在 尝试, 但 我们 谨慎 的 一步步 上线。 其实 甚至于 有 一些 不是 做 自动驾驶 行业, 做 这个 人工智能 非常 著名 的 公司, 曾经 去 跟我聊 过 对 吧? 就是 也 找 过 我 去 沟通, 说 我们 是不是 一起 合作, 就 这么 大 的 机会 我们 不能不 尝试, 对 吧? 就是 我们 得 投入 个 几个 亿, 十几个 亿 我们 来去 尝试, 这 里面 好像 是一个 很 正常 的 事儿。
其实我 作为 曾经 的 I 54行业 成员 的 褶, 我 觉得 其实 是 我是 比较 谨慎 的。 我知道 这个 东西 是 它是 好东西, 但是 我 觉得 要 证明 几个 事儿。 第一个 是 它 首先 所 带来 的 不能 造成 你的 地板 不 可控 的 降低。 第二个 是 它所 带来 的 天花板 提升 是 可 证明 的。
今天 L 四 行业 有什么 问题是 一定 用 原来 方案 解决不了, 而 用了 这种 端 到 端的 模式 是 一定 能 解决 了。 我 觉得 这个 不一定 需要 day one 完全 证明, 但 你 在 过程中 总得 需要 有 一些 证据 来去 说。 你 不能说 他 也很 好, 但 他 好 看起来 最后 说 出来, 其实 你 替换 完了 以后, 他 也就 能 做 他 做 的 事儿, 同时 他 还能 做 一些 其他 事儿, 但是 我 更 不需要 那些事儿, 对 吧?
那 其实 就 没 必要 替换 了, 即便 他 能 做 的 这个, 所以 其实 还需要 证明, 那你 就要 分阶段 投入, 其实 我们 需要 看到 证据 的对 吧? 你 投入 这么 多能 投入 一个亿, 大家 能 看到 一个 什么样 的 结果? 投入 五个 亿能 看到 一个 什么样 的 结果? 我 觉得 这个 是我 今天 看到 大家 有点 缺失 的 一个 过程, 就 觉得 这 是一个 好 方向。
特斯拉 光 买 机器 对 吧? 三个 亿美金 先 投进去 了, 然后 人 反正 就 进去, 我们 至少 得 追上去, 大家 这么 去 干, 这就是 一个 必然 的 方向。 而且 资本市场 也 认? 还 做了 这件 事儿, 其实 对于 二级 市场 的 认知 也会 有 正向 效果。 其实我 可以 不计成本 的, 但 我 觉得 这个 可能 有点 恐怖, 因为 这个 是一个 无底洞 对 吧?
投进 之后, 如果你 中间 不 设置 里程碑 和 节点 的话, 其实 可以 没完没了 的 去去 砸 钱, 知道 他 没有 回头路。 说到 刚才 关于 这个 地板 低 的 一点, 我 觉得 其实 可以 类比 一个 事儿。 就是 我们 看到 插 GPT, 插 GPT 也好, 或者 GPT44 o cloud 各家 的 模型 强大 如斯, 今天 能干 这么 多 的 事儿, 对 吧? 甚至于 不说 已经 好 于 人的, 在 很多 领域 已经 强 过 人的 平均水平, 而且 做 的 又 快, 甚至于 比 一些 行业 的 专家 可能 在 一些 方面 做 的 都 好。
但是 一些 简单 的 场景, 比如说 数数, 比如说 9.8 和 9.1 到底 哪个 大, 经常 会 说错, 说错 理由 我们 可能 有 有时候 知道, 有时候 不知道。 比如说 9.1和 9.8 这个 事情 经常 说错 的 原因 是因为 我们 代码 经常 是 一 version 9.1, 可能 就是 9.8 之后 的 那个 版本 对 吧? 而且 它是 9.11, 不是 真的 是 9.11 的 那个 数字 的 概念。 但是 这样的 问题 就会 在 GPT 上去 出错。 那 怎么 不 保证 这些 问题 恰恰 就是 自动驾驶 里面, 当我们 把 它 规模 做大 了 以后 会 出现 的 问题, 而且 我们 无法 解决 的 问题 呢? 假如 他 就是 的话, 我们 就 很惨 了。
因为 这些 问题 其实 很 关键, 且 常态化 反复 出现, 然后 他 又 决定 了 我们 驾驶 的 很多很多 行为, 所以 它的 价值 有限。 所以 我 觉得 今天 这 事儿 没法 证伪 或者 证实, 所以 我 觉得 可能 要 需要 在 控制 成本 的 情况 下去 迭代。 能 去 看出来 那么 好的 情况下, 然后 我 觉得 L 二 没问题, 往前 去 跑。 因为 一人 兜底 做 所有的 事情, 所以 只要 人 健康人 能够 承担 这 里面 的 责任, 其实 他 都 一 可以 这么 做。 但 L 4我觉得 非常 谨慎, 往前 去做。 因为 一旦 替换 了, 这 里面 你不知道 会 出现 多少 人, 对 吧? 这个 潘多拉魔盒 一 打开 之后, 你不知道 引入 了 多少 问题, 在 这个 过程中 可能 一点一点 的 去 消解。
对我 刚才 一直 有一个 疑惑, 因为 你说 体验 F S D 的 各种 感受, 如果 只是 体验 水平 的 像 上 一代 架构 没有 降低 的话, 为什么 大家 端 到 端 迅速 能 成为 所有人 的 共识 呢?
因为 本质 上端 到 端的 天花板, 从 理论上 天花板 一定 是 更高 的, 这个 我 觉得 大家 都 接受。 只是 说 为了 换 得 这个 更高 的 天花板, 我们 不知道 今天 把 它 切换 以后 会 引出来 多少 问题, 会不会 一下 就 垮 了。 但 当 V 一二 上线 以后, 发现 它 没 垮, 且 还带 了 一个 很 美好的 未来, 那 大家 所以 就 往 这块 上 切, 所以 是 这个 原因。 并不是 因为 说 切换 到 V 一二 以后, 这就是 天花板 了。 所以 它 切换 了 以后 带 成了 一个 差 体验 差不多 的 东西。 如果 只是 体验 差不多, 当然 没没 必要 去 切换 了。
复刻 一个 你 觉得 需要 多少钱?
对, 我们 可以 想 一下, 就是 它 需要 做成 今天 F S D 的 样子, 需要 的 几个 元素。 第一个 是 团队 本身, 对 吧? 大家 都 知道 F S D 其实 没有 多少 人的, 但是 人 可能 是 有 一些 很 优秀 的 人, 但 我 觉得 本质 上人 可能 不是 这 里面 成本 最高 的。 我 觉得 最贵 的 还是 在 训练 的 基础设施 上 的 投入, 对 吧? 这个 里面 包括 显卡, 包括 搭建 数据中心 等等 这些 的 能力。
特斯拉 我 觉得 能够 到 12.3 之前, 我 觉得 可能 是 基于 比如说 1万张 H 100对, 这样 左右 的 规模 真正 跑 起来 第一个 第二个 版本 可能 也都 没有。 这个 数据中心 也是 一边 建 一边 去做 的, 所以 可能 也就是 几千 张 这样的 规模, 才 一万张 H 100。 所 对应 的 我记得 是 应该 在 3亿美金 左右 的 投入, 我 觉得 姑且 算 它的 一半, 对 吧? 就 假如 说 就是 一亿多 美金 在 数据中心, 然后 投入 加上 数据采集 的 成本, 前提 是你 已经 有 这么 多 车 在 外边 去 采 些 数据 对 吧?
然后 存储 上线 第一代 版本, 我 觉得 可能 是一个 十几亿 到 30亿之间 的 这么 一个 规模 的 投入。 对, 美金 吗? 人民币 我 觉得 在 这个 范围 之内, 你 能 跑 出来 一个 版本。 事实上 我 觉得 大多数 公司 可能 就是 在 这个 投入 规模 之 下来 去 跑 的, 而且 这 可能 是在 分摊 在 几年 的 一个 过程中。 但是 这个 事儿 我 觉得 难度 就是你 要 做 特斯拉 这个 样子, 其实 你 基本上 也 意味着 你 一直 得 跑 在 世界 的 前列。
也就是 你 会 花 很多 冤枉钱 的 意思 就是说 好多钱 花了 以后, 最后 其实 没有 任何 用。 因为 你不知道 什么 钱 花 的 有用, 所以 特斯拉 花 的 一定 比 大家 要 多 很多 倍 的。 在 这个 过程中, 所以 我 觉得 一般 意义 上 来讲, 我 觉得 是 比如说 特斯拉 如果 花 十块钱, 我 觉得 你 复刻 它 一般 可能 花 三块 钱 到 四块 钱, 我 觉得 是一个 比较 正常 的 比例。 如果你 不做 的 特别 奢侈 的话。
这也是 合理 投入, 对 吧? 目前 国内 哪些 公司 在 跟进, 哪些 在 观望。
几乎 所有的 公司 应该 都在 跟进。 一线 的 新势力 微小 力、 华为、 摩根 塔 等等我 觉得 基本上都 在 有所 投入。 有 一些 可能 已经 有 具体 的 上线 计划, 甚至 有些 已经 可能 已经 上线 了。 从 某种程度 有些 可能 还在 迭代 的 过程中 逐步 上线。 但是 每家 基本上 可以 看到, 从 组织 架构 上, 从 人员 梯队 上, 基本上都 为此 做了 调整 和 重新 组织 规划。
他们的 策略 跟 特斯拉 会有 不一样。
我 觉得 今天 大家 的 策略 其实 都 还在 一方面 在 学习, 就是 验证 这件 事儿 真的 是 能 跑 通 对 吧? 我 觉得 可能 是 有 不一样 在于 说 特斯拉 已经 跑 通 了 这件 事 往 上 快速 去 拉 能力 的 一个 过程, 他们 大家 大多数 可能 还在 跑 通 的 一个 过程中。 第二个 是我 觉得 为了 这件 事 跑 通, 大家 可能 不会 像 特斯拉 对于 人数 的 要求 那么 的 极致, 对 吧? 特斯拉 一直 是一个 很小 的 团队, 但 大多数 公司 骑手 牌 已经 比 这个 团队 大 可能 一倍 以上 了。 几百 人大 几百人, 我 觉得 是一个 标准 的 团队。 甚至于 有 头部 公司 几千人 这样的 规模 的 非常 多, 那 这 到底 是件 好事 还是 坏事? 我 觉得 这 很难 讲? 所以 我们 也要 看一看 能 跑 出来。
从 理论上 来讲, 你可以 看 OpenAI 或者 这样 形式 真正 的 大 模型 团队 如果 真的 是 端 到 端, 从 理论上 来讲, 其实 人数 应该 是 减少 的。 比 传统 的 方式。 因为 你的 模块化 降低 了, 其实 你 核心 就是 需要 做 数据处理, 然后 模型 训练, 然后 做 这个 工作 就 好了。 其实 里边儿 还 不需要 那么 多 做 模型 模块 的 人 了。 反而 也许 大家 都会 经历 一个 人数 上涨, 然后 再 下降 的 一个 过程, 还是 在 探索 这个 期间。
然后 另外 一块儿 我 觉得 就 可能 我 觉得 大家 说 的 端 到 端, 这 都 是我 自己的 猜测。 大家 的 端 到 端 我 觉得 跟 特斯拉 的 端 到 端 可能 还是 有一点 区别, 就是 那个 核心 模块 可能 是 类似的。 但是 我 觉得 国内 的 公司 应该 相对 来讲, 大家 都会 更 稳妥 的 去 加 一些 规则 兜底 的 模块, 比 特斯拉 这个 加 的 会要 稍微 重 一些, 不太 说 把 这块 完全 交给 用户, 让 他 做 直接 的 兜底, 对 吧? 可能 还是 有 很多 系统性 的 兜底, 在 用户 兜底 之前 要 去 完成。 如果你 有了 这块 兜底, 其实 你 就得 好好 研究 你的 模型 迭代 到底 能力 哪些 东西 需要 兜底, 然后 我 这套 兜底 系统 还得 知道, 然后 他 还得 跟着 他 一起 进化, 然后 这 是一个 互动 的 过程, 所以 这个 是 需要 花 一些 精力 和 能力 的, 最后 才是 用户 得利。 所以 这块 我 觉得 可能 跟 F S G 也会 有些 不同。
再有 一个 我 觉得 就是 中国 的 场景 是 比 海外 要 复杂 非常 多 的, 而 不是 复杂 一点, 我 觉得 是 比比 美国 要 复杂 非常 多。 高速 上 可能 是 类似, 但是 在 低速 场景 里面 难度 是 极度 难 的。 所以 从 这个 角度 来讲, 你 如果 不做 端 到 端, 可能 压根儿 就 达不到 一个 可用 的 上线 的 产品。 所以 它 变成 了 个 必然。
对于 特斯拉 来讲, 也许 这 不一定 是个 必然。 就是 用 11点V11 的 这个 版本, 其实 也能 跑 的 不错。 对于 很多 用户 来讲, 这个 也 算 过 线 的 体验, 对 吧? 还是 值得 提升 让 他 跑。 但 对于 很多 中国 的 场景 来讲, 你 必须 得 这么 跑, 这 事儿 才有可能 可以。 所以 大家 可能 在 这 里面 的 投入 可能 会 更 极致, 或者说 可能 更 坚决 一点。
中国 的 公司 和 特斯拉 代际 差 大概 有 多大?
我 觉得 从 时间 上 来讲, 你看 特斯拉 是 今年 推出 来, 我 觉得 大家 可能 落后 个 一两年。 但是 不 中国 一两年 推出 来 的 时候, 它 推出 来 你 不是 行业 最好的, 对 吧? 所以 我 觉得 你 很难 跟 行业 leader 或者 第一个 做 这事 的 人 比 在 一季 差, 因为他 永远 在 做 的 更好。 他 没 停, 如果 他 停 的话, 那 就是 一两年 他 没 停 的话, 那 其实 他 迭代 速度 是 非常 快 的。 我 觉得 今天 上线 很难 比较 到底 差 多少, 因为他 有可能 已经 在 琢磨 下一个, 甚至于 端 到 端 之后 的 某种 形态 的 东西 了。
那 代际 差 跟 大 模型 代际 差 哪个 大?
我 觉得 可能 相对 来讲, 可能 大 模型 代际 差 还是 大 一点。 比如说 中国 的 大 模型 上面 的 在 训练 端的 投入 跟 国外 公司 之间 的 差, 比 在 自动驾驶 训练 系统 中 投入 差 要 小。 但是 自动驾驶 这套 系统 本身 需要 有 个 数据 回环 的 能力, 或者说 要求 会 比 在 大 模型 上 数据 回环 的 能力 要求 要 高。 然后 中国 在 数据 闭环 回环 这件 事情 上 又有 优势, 所以 我 觉得 可能 相对 来会 小 一点。
就是 小鹏 汽车、 理想 汽车, 包括 未来 他们 在 描述 端 到 端的 事情, 他们 都 用了 一套 自己的 语言 体系。 能不能 解码 一下, 就是 他们 讲 的 到底 有没有 区别? 比如说 小鹏 汽车, 他说 他的 端 到 端 模型 由 三 部分 组成, 包括 神经网络 规 控 大 模型 和 大 语言 模型。 理想 说 他们 他的 是 端 到 端 加 视觉 语言 模型 加 生成式 验证 系统。 他们说 的 是 一件 事儿 吗?
就是 理想 那个 我 专门 看 了 一眼, 就 小鹏 的 那个 没有 太 仔细 研究。 但 我 觉得 从 他 这么 高层 的 描述 来讲。
其实 听不出来 到底 我的 投资人。
对, 就是 因为我 一直 相信 小鹏 做 的 还是 挺好的, 所以 我 觉得 他的 描述 一般 基本上 代表 他 应该 还是 方向, 肯定 是 上路 是 对的。 我 觉得 从 这么 high 的的 描述 上 其实 看 不太 出来。 我 觉得 通常 来讲, 一般 从 公开 能 看到 的 资料 上 应该 也 看 不太 出来。 就是 实际上 大家 做 的 是 有什么 区别, 我相信 大方向 是 一样的, 其实 里面 其实 就 这么 几块 东西, 对 吧?
一个 纯 端 到 端的 基本上 只有 增 驾驶 系统 的 模型, 一个 是 我们 叫 V O M, 就是 多 模态 大 模型 对 吧? 第一个 模型 是 端 到 端 可能 大, 也 不一定 大。 第二个 一定 是 大 的 模型, 它是 一个多 模态 的 理论体系, 对 吧? 两个 里边 都有 神经网络, 所以 其实 神经网络 是一个 非常 粗 泛 的 一个 词汇, 大致 上 就是 这么个 东西。 这些 里面 可能 就 这些 元素, 就是 这些 元素 到底 权重 如何, 怎么 组合? 我 觉得 这 里面 有些 伪 概念, 比如说 这 两个 一定 不一样的 一个 端 到 端的 模型 和 一个多 模态 的 V L M 模型。 V L M 模型 如果 最后 只 输出 的 是 轨迹 的话, 那 可能 它 也是 个 端 到 端的 模型。
这个 事儿 得 说 的 特别 具体 的。 我们 这个 行业 里面 其实 有时候 词儿 特别 容易, 说 的 特别 fancy, 但 其实 并没有 达到 一个 具体 的 意思。 我 就 回答 你的 问题, 我 觉得 整体而言, 我 认为 从 外界 看到 的 东西 来讲, 我 觉得 其实 大家 尝试 的 方向 是 类似的。
在 尝试 把 它 推 上线 成功 之后, 再去 迭代 过程中, 可能 这个 分 差 才会 更加 明显。 在 早期 的 时候, 我 觉得 本质 上都 是 怎么 把 端 到 端 或者 多 模态 大 模型 能够 引入 到 今天 的 自动驾驶 决策 体系 里面 的 一个 尝试。 尝试 之后 我 觉得 大家 去 拼 权重, 或者 再 引入 一些 其他 不同 的 东西, 可能 会 出现 那么 多。
你 对 理想 他 那 套 体系 有没有 什么 看法。
也 只能 从 外界 看到? 就 因为 他们 跟 清华 合作 了 一个 项目, 然后 这个 也是 发 了 paper 的。 从 概念 上 来讲, 我 觉得 当然 是你 有一个 端 到 端 做 大多数 的 执行。 然后 一套 M 的 这种 所谓 多 模态 大 模型 来 去做 一些 更加 完整 的 判断, 或者 所谓 系统 二 的 这种 形式 的 判断。 这个 逻辑 我 觉得 都 没问题, 但是 我 觉得 这 里面 挑战 比较 大 的 无非 就是 到底 你 所。 带来 延迟 有 多大, 在 端 上能 跑 不 跑 得 不通。 你 用 一个 标准 的 偶然 的 芯片, 当你 跑 一个 系统 二 的 这个 模式 的 时候。 当你 模型 比如说 你 用 一个 开源 的 工艺, 千万 的 模型 在 上面 去 压缩 去 跑 的 时候, 可能 意味着 你 会有 将近 一秒钟 的 左右 延迟。 代表 着 你 可能 在 高速 上 出现 30的距离 上 的 这个 误差 就 叫 误差。 就是你 这个 一秒钟 可能 已经 跑出去 这么 长时 这么 高 的 距离 了, 那 这 是否是 一个 可 接受 的 范围?
等等 这些 我 觉得 会有 很多 实际 落地 上 的 问题 的 代价 去 考量。 这些 答案 肯定 只有 具体 实践 的 团队 自己 知道 这个 过程中, 所以 我 觉得 这些 都 处于 尝试 的 早期 阶段。 然后 当 他 开始 大规模 部署 了 以后, 我 觉得 他 自然而然 自己 会有 答案。 然后 他 要么 就是 成 或者 不成 的话, 他 也会 有 自己的 迭代 方式。 所以 拭目以待。
特斯 F S D 快 来了 吗?
公开 信息 反正 大家 都有 很强 的 期待, 好像 也没有 特别 强 的 阻碍。 但 它的 引入 我 觉得 其实 还是 有 门槛 的。 抛开 监管 问题 不提, 我们 去 看 可以 看 另外一个 现象, 就是 F S T 本身 在 欧洲 其实 没有 像 更 复杂 的 监管 条件, 对 吧? 其实 开始 是 可以 进去 的, 但是 F S E 本身 的 效果 其实 在 北美 以外 一直 都 没有 跑到 北美 那么好。 包括 欧洲 在内, 其实 都 甚至于 很 长时间 都 没有 F S D。
因为 F S D 落地, 它 虽然 对于 监管 本身, 就是 F S D 引入 到 另外一个 国家 可能 没有 太多 限制, 但是 对于 数据安全 肯定 是 有 限制 的。 毕竟 你是 一个 车, 然后 带着 传感器 再去 跑。 所以 如果 有了 数据 的 限制 的话, 那就 本地 的 只能 你 如果 在 本地, 然后 在 本地 训练 的话, 那就 意味着 你 在 本地 也要 建 一个 数据 训练 的 集群。 如果不是 重 训, 起码 是 某种 形式 的 微调 为 本地 的 场景。 第一个 你 得 把 本地 场景 收集 回来。 第二个 是你 得 把 本地 的 场景 作为 训练 数据 引入 到 你的 模型 里面 去, 然后 做 相应 的 调整。 这个 其实 第一个 需要 钱, 第二 需要 周期, 然后 第三个 还要 需要 数据, 对 吧? 然后 你 数据 意味着 你 得 有 足够 多 的 本地 的 车 再去 跑, 然后 能把 这个 数据 闭环 做 起来, 把 这件 事 完全 走 通, 其实 还是 不容易 的。
然后 在 中国 落地, 我 觉得 他 也 可能 需要 类似的 一个 情况, 对 吧? 一种 说法 是 可能 在 中国 即便 不需要 训练 整个 的 模型, 不需要 1万张 H 100的卡, 可能 也 需要 小 千张 这样 规模 去做 对应 的 微调 和 服务 的 这些 能力。 怎么 建设 起来 这样的 数据中心 和 训练 中心, 或者说 用 第三方 的 也可以。 以及 对应 的 数据 怎么 去 规划, 有 哪些 数据清理 的 工作 要 去做, 怎么做 合规 不 合规 等等。 这些 其实 都是 他 需要 面对 的 一些 问题。
另外 一种 选择 就是 这些 都 不做, 我 直接 就 把 已经 建成 的 F S E 直接 就 先 推送 过来, 然后 做 一些 最简单 的 兜底 的 措施。 那 可能 效果 就 非常 不好, 可能 就 把 牌子 砸 了, 对 吧? 我 觉得 他 对他 来讲 面临 的 现在 是 不光是 一个 监管 能力 不能 的 选择, 而且 也是 以 什么 节奏 来去 推出 来。 然后 刚才 说 的 这些 前置条件, 有没有可能 在 未来 一两年 之内 完全 完成 的 一个 选择。 我 感觉 可能 没有 像 想象 的, 或者说 一个 跟 北美 一样 体验 的 F S D 落地 在 中国, 可能 没有想象。
他 对 中国 车展 会有 很大 的 冲击。
我 觉得 不会。 F S D 本身 在 北美 是 它 卖 的 最好的 市场。 大概 整个 的 渗透率 就是说 比如说 100个人 买 了 特斯拉, 可能 也就 个位数 个位数。 其实 开通 了 M S D, 这 还是 在 降价 了 之后, 结果 就 按 月费 现 到 99美金 之后 的 这个 状态, 其实我 觉得 不会 有 那么 大 的 变化。
就是 今天 自动驾驶 或 辅助 驾驶 可能 也 不是 影响 用户 购买 车 的 最 重要 的 一个 条件, 甚至 不是 套餐 的 了 决策 因素。 影响 大家 买车 的 可能 是你 如果 在 一分钟 内 或者 五分钟 内在 4S店 里面 体验 不到 的 东西。 其实 它 就 不会 是一个 很 重要 的 因素。 进 到 店里 头 五分钟 之内 能 看到 的、 摸 到 的、 听到 的 和 感受到 的 东西。 我 角色 不是。
好, 这 期 节目 就是这样。 如果 你喜欢 我的 节目, 欢迎 前往 苹果 podcast、 腾讯 新闻、 小宇宙、 喜马拉雅、 QQ 音乐 订阅 张小 珺 商业 访谈录。 如果你 有 其他 想 邀请 的 嘉宾, 想听 的 内容, 或者 你 有 任何 想 探讨 的 话题, 都 欢迎 各位 听众 朋友们 在 评论 区里 留言。 我们 下期 再见, 拜拜。