We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S6E06 硅谷徐老师|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义

S6E06 硅谷徐老师|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义

2022/4/6
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
R
Reynold Xin
徐皞
Topics
徐皞:Databricks的成功在于其在创业初期做出的三个关键决策:专注于云端部署(SaaS)、为数据工程师提供工具而非数据仓库、以及坚持标准化产品而非定制化服务。这三个决定虽然在当时面临阻力,但从长远来看是正确的选择,体现了公司的长期主义战略。 Reynold Xin:Databricks 创业初期决定专注于云端部署(云优先策略),尽管当时大多数公司选择本地部署。坚持云优先策略的理由:更快的部署、简化软件维护,以及长远来看对公司和客户更有利。Databricks 选择专注于数据科学、数据工程和 AI 领域,而非竞争激烈的传统数据仓库市场,因为他们看到了这个新兴市场的巨大潜力。Databricks 拒绝提供定制化服务和专业服务,专注于打造标准化产品,这有助于提高效率和降低成本,并最终建立起强大的竞争壁垒。 Reynold Xin:Databricks 初期营收低迷,部分原因是过度依赖开源,导致竞争对手(如亚马逊)能够低成本复制其服务。通过构建竞争壁垒(Spark Edge),例如在性能、可扩展性和安全性方面进行投入,来应对竞争对手的复制。与微软的合作(Azure Databricks)是 Databricks 发展的一个重要转折点,双方互利共赢。未来数据架构将走向“湖仓一体”(Lakehouse),统一数据平台将支持各种工作负载,从BI到AI。SQL 虽然重要,但并非数据领域唯一的标准语言,未来需要更灵活的语言来支持更复杂的数据应用。

Deep Dive

Chapters
本期节目邀请 Databricks 联合创始人 Reynold Xin 分享公司从创立初期到估值 380 亿美元的历程。他回顾了公司成立以来坚持的三大方向:专注云端 (SaaS)、为数据工程师提供工具而非数据仓库、以及坚持标准化产品而非定制化项目。节目中还探讨了 Databricks 如何在开源项目商业化、应对巨头竞争、以及对大数据产业未来发展的独到见解。
  • Databricks 成立于 2013 年,核心团队来自 Apache Spark 团队
  • Databricks 坚持三大方向:专注云端 (SaaS)、为数据工程师提供工具、坚持标准化产品
  • 早期营收远低于 Spark 大会门票收入
  • 2019 年云计算的质疑烟消云散
  • 与微软合作的 Arga Databricks 取得巨大成功

Shownotes Transcript

用 声音。

碰撞。

世界 生动活泼。 Hello, 大家好, 我是 丁丁, 欢迎 收听 全 新一集 this next 科技 早知道。

大家好, 我是 科技 早知道 的 科 左 主播 哈维 徐徐 浩。 今天 的 节目 我 非常 有幸 的 邀请 到 data bricks 的 联合 创始人, 我的好朋友 rn o 的 心, 来 一起 聊 一 聊 他 创业 九年 来 的 艰辛 坚持, 当然 还有 巨大 的 成果。 Data bricks 目前 是 一家 估值 380亿美元 的 超级 独角兽 公司, 核心 团队 就是 当年 Spark 的 核心 团队, Spark 至今 为止 仍然 是 最大 的 大 数据 开源 框架。 Reino 的 会 回顾 一下 公司 成立 以来 所 睹 对的 三个 大方向, 第一堵 了 云, 也就是 我们 说 的 SaaS。 第二个 赌 了 给 数据 工程师 来 提供 工具, 而 不是 做 数据仓库。 第三个 做 标准化 产品, 不做 定制。 他 会 详细 解释一下 坚持 这 三点 非常 不容易 的 几个 原因。

作为 一个 开源项目, 是不是 能够 商业化, data bricks 其实 是 走过 坑 的。 最 开始 他们 认为 既然 亚马逊 能够 把 Spark 拿去, 马上 就 能够 商业化, 那 他们 当然 也 行。 其实 现实 并不是 那么 完美, data bricks 走过 的 弯路 不止 这 一个, 他们 在 销售 方法论 上面 也是 有过 弯路, 为什么 从 一开始 的 自下而上 的 销售 到 后来 的 自上而下 的 销售? 另外 微软 成就 了 data bricks, data bricks 也 成就 了 微软 的 azure 云。 怎么 这么说? 很多 时候 像 这样的 初创 公司 跟 大公司 是 可以 合作, 可以 互相 双赢 的。

Reno 的对 数据 产业 有 非常 好的 洞见, 我们 就 详细 聊 了 一 聊。 另外 S Q N 语言、 C Q 语言, 为什么 rino d 认为 它是 一个 非常重要, 但 不会 是 数据 行业 唯一 的 标准 语言? 另外 我也 问 了 reno 的, 今天 有 成千上百 个 数据 公司 在那边, 他们 以后 会不会 合并 或者 是 前景 如何? 什么样 的 人 应该 创业, 什么样 的 人 不应该 创业? 另外 从 一个 技术 领导 转为 一个 经理人 会 走过 一些 什么 坑? 我相信 不管 你是 创业, 已经 在 创业 或者 想 创业, 还是 坚持 在职 场 上面 打拼 的 人士, 你 都会 收获 不小。

大家好, 欢迎 你 ranald 你好你好, 能不能 介绍 一下? 因为我 之所以 想 问 一下, 因为 之前 我在 跟你聊 天 的 时候, 我记得 说过, 硅谷 有 两个 比较 知名 的 开源 公司, 一个 是 data bricks, 一个 是 docker 对 吧? 这 两个 公司 都是 属于 好像 是 卖 T 恤 T 卖 公司, conference ticket 展会 票子 好像 比 卖 产品 还要 多 的 一个 两个 公司 我 估计 也是 事实。 能不能 讲一讲 就是说 data base 在 最 开始 的 时候 再 给 我们 分享 一下 可以吗? Can .

database 历史 给 大家 简单 介绍 一下。 在 公司 成立 之前, 我们 都是 U C burkey 一个 实验室 里头 专门 做大 数据 和 机器学习 人工智能 研究 的 博士生 和 教授。 然后 当时 我们 大概 在 2010年 的 时候, 其实 在 我 去 到 burkey, 我是 2010年 到 的 burkey。 在 我 到 之前 的 时候 有 这个 项目 很小 的 项目 叫 Spark。

Spark 成立 的 最初 原因 是 当时 有一个 叫 netflix chAllenge 的 一个 比赛。 Netflix 把 他们 所有的 用户 给 电影 评分 的 数据 都 给 保存 了 下来。 然后 他们 希望 用 这些 数据 来 训练 一些 更 能够 推荐 电影 给 新的 用户 的 这个 算法。 对于 netflix flix 来说, 如果 这个 推荐 算法 可以 有 一定 质量 上 的 提升 的话, 其实 对 他们的 人是 有 很大 的 帮助 的。 你可以 让 提高 用户 的 粘度, 然后 他们 就 做了 一个 公开的 比赛, 把 这些 数据 都 anonymize 了 之后, 就 放到 公开 做 一个 比赛。 谁 可以 做出 更好 的 算法, 谁 就可以 赢 100万100万美金。

当时 实验室 里头 有一个 学生 叫 lusty, 他 决定 要 去 参赛。 他 参赛 碰到 的 第一个 问题 就是 跟 以前 学术界 的 数据 不太 一样。 这个 数据 非常 大。 他 没有 办法 在 一台 机 里头, 这 台 比如 他 笔记本电脑 或者说 EC23 这 一台 机 来 训练 这个 机器学习 的 模型。 然后 当时 也没有 所谓 的, 比如说 什么 TensorFlow, pytchley 些 东西, 所有 然后 有 cycle 加 cyc 只是 一台 机, 单线程 完全 无法 处理 这样的 数据。 所以 他 找到了 实验室 里头 另外 一个人 叫 的 另外一个 学生 说 我们 可以 一起 参赛, 但 我们 需要 做 一些 新的 这种 系统, 能够 处理 这 样子 的 大 数据 和 机器学习 的 算法。 所以 spar 最早 诞生 的 时候 是因为 lusty 之后 并没有 赢得 这个 比赛, 但是 他 跟 第一名 其实 并列第一。 从 算法 的 这个 角度 上, 但是 晚 交 了 20分钟, 所以 输掉 了 100万, 或者说 没有 赢 到 100万。

但 Spark 从此 慢慢的 变成 了 一个 就 不 纯粹 是一个 学术界 的 系统。 而是 当时 整个 团队 都 非常 希望能够 做出 一个 软件 让 业界 能够 使用, 而 不是 纯粹 是一个 写 paper 发 论文 用 的 这个 系统。 慢慢 到 2012、 2013年 的 时候, 我们 其实 花了 很多 时间 跟 业界 联系。 怎么样 考虑 Spark, 以 解决 真正 实际上 大家 碰到 的 跟 大 数据, 跟 这个 人工智能 相关 的 问题。 后来 慢慢 有 一些 小有名气。

虽然 在 2012年 13年 的 时候, 然后 13年 当时 也 因为 Spark 在 业界 的 这个 部署, 我们 看到 了 很多 处理 大 数据 和 A I dig science 的 一些 挑战。 然后 我们 觉得 我们 应该 有 能力 来 或者 是 有 使命 和 能力 来 成立 一个 公司, 专门 针对 这些 挑战, 解决 这些 问题, 让 未来 大 数据 人工智能 的 处理 可以 更 简单。 所以 成立 了 这个 公司。

在 2013年 的 时候, 公司 成立 初期, 其实我 觉得 从 大方向 上 我们 做了 三个 决定。 这 三个 决定 并没有 错, 但是 从 商业化 的 角度 上 有 一些 很大 的 阻力。 这 三个 大方向 我 觉得 没有 错的 是 第一 是 我们 决定 针对 云。 因为 当时 在 2013年 的话, 我 觉得 绝大多数 成立 的 公司 其实 是 针对 这个 线下 部署, 针对 on prem data center 或者说 做 support 的 这个 model。

是的, 对, 像 cloudera、 hodden works 这 几个 公司 都是 属于 做大 数据 非常 有名。 可能 那时候 的 名气 比 你们 小 一点, 比 我们 要强 多了 很多 的。 对对对, 然后 那时候 其实 是 有 很多 争论 的, 就是说 那个 大 数据 在 那个 on prem 做 是 有 很多 的 商业 的 机会。 但是 大家 同时 也 看到 云 也是 可能 是 未来。 但 你们 能够 在 这么 早就 是 只 做 云, 实际上 是一个 蛮蛮 大 的 一个 决定。 你们 内部 有没有 争论 过?

我们 内部 在 早期 的 时候 争论 过 一下, 后来 我们 就 我们 有一个 叫 所谓 的 disagree and commit 这个 culture。 我们 争论 了 之后, 我们 就 决定 我们 应该 针对 云。 然后 针对 于 其实 很多 data s 内部 的 这个 决策, 我们 考虑 的 是从 长期 的 角度 来说, 什么样 是 正确 的 决定, 世界 会 往 哪个 方向 走。 我们 针对 那 样子 来 做决定。 所以 当时 做了 云 的 决定, 我们 觉得 就 从 当时 的 角度 来, 我们 考虑 云 可以 做到 更快 的 部署。 而且 从 软件 的 角度 来说, 这个 软件维护 本身 是 一件 很 复杂 很 麻烦 的 事情。 所以 我们 觉得 云 这个 未来 不管 是从 对于 我们 自己 部署 角度, 还是 对于 客户 的 这个 value 来说 都会 比较 大。 所以 决定 了 之后 一直 没有 后悔 过。

但是 每年 我们 招 一个 新的 executives 进来 的 时候, 他们 都会 重新 挑战 这个 假设。 然后 每次 我们 融资 的 时候 也会 就 U V C 都会 问, 这个 云 虽然 是 未来, 但 现在 不是。 现在 我们 已经 确定 你 真的 不要 加紧 你 做了 一定 的 时间 的 云 了, 你 应该 现在开始 做到。

on prime 那 一直 到 什么时候 大家 不来 挑战 你 了, 还是 说到 现在 还是 有人 会 挑战。

现在 没有了。 因为 现在 大家 都 发现, 其实 云 肯定 是 未来。 而且 就算 即使 到 现在, 可能 on premise 不同 企业 投入 的 钱 还是 可能 这样 稍微 居多 一点。 但是 从云 的 角度, 它 增长 的 非常 快, 这 非常明显。 未来 是 云 的 未来, 一直 到 2018 2019年 的 时候, 差不多 在 2019年 的 时候, 我 觉得 关于 云 的 质疑 就 烟消云散 了。

在 之前 每一次 每 一年 都 会有 外界 的 压力, 然后 也有 客户 的 压力。 比如说 我 觉得 2017年 的 时候, 可能 我们 当时 跟 客户 说, 我们 其实 是 只 做 云上, 没有 办法 帮你 解决 你 比如说 promise 的 问题 的 时候, 他们 会 非常 失望。 2018年 的 时候 变成 了 客户 的 回答 是啊 我 肯定 会上 云, 但 我不知道 什么时候 会上 云。 2019年 的 时候 就 变成 O K 我们 现在 也要 上 云 了。

所以说 你们 在 2013年 成立 的 时候 就 做了 这么 一个 决定, 就是 只 做 原因。 其实 当 时候 我是 觉得 这是 属于 可能 业界 里面 少有 的 几个 公司。 这是 第一个 你 觉得 是 比较 正确 的 决定, 另外 两点。

对, 另外一个 是 我们 决定 不 针对, 因为 其实 数据 说到做到。 Analytics 这 一边 的 厂商 的话, 可能 绝大多数 都会 想说, 我 做 这个 data warehouse, 其实 就算 是 卡迪尔 跟 霍 ton work。 你 刚刚 提到 两个 公司, 在 他们 如日中天 的 时候, 他们的 绝大多数 revenue 都是 来自于 这个 data work house in the worker。

然后 我们在 2013年 的 时候 决定 我们 不会 去做 date work housing 的 卧龙。 因为 我们 觉得 这个 date work housing 其实 一个 竞争 非常 激烈 的 这个 方向, 有 很多 就是 云。 首先 云 厂商 本身 自己 在 有 对 dead version 外号 险 非常 大 的 投入。 我们 决定 针对 data science, data engineering 还有 A I 这个 方向 是 我们的 第一个 产品。 这个 其实 在 当时 来说 是一个 也 不算 特别 被 看好 的 一个 方向。 因为 sign 这个 词, 其实 可能 就是 在 2012年 和 2013年 的 时候。

才 被 逐渐 被 大家 听到。

对, 是的。 你 去 每个 公司, 你说 我 做了 一个 data science 的 产品, 这些 公司 可能 说 我们 根本 就 没有 da scientist。 就是你 如果 在 lindon 作为 这个 deal ence, 因为 这个 名词 当年 是 ldn 和 facebook 的 人 提出来 的, 你 如果 在 这 facebook 你 可能 有 一些, 但 你 去 到 这个 主流 的 大企业, 大家 都 没有 听 过 这个 词。 但是 后来 接下来 的 过程 就是 因为 数据 的 大量 爆发。 然后 因为你 需要 有 很多人 能够 真正 的 去 了解 数据, 这 三 这个 职业 慢慢的 起来 了。 然后 这个 其实 也 让 我们的 第一个 产品 有一个 得天独厚 的 优势。 因为 根本 市面上 没有 任何 竞争 的 产品 在 这 开始。

所以说 第二个 决定 就是 不去 做 数据仓库, 数 仓 就像 你说的, 其实 竞争 蛮 激烈 的, 有 亚马逊 的 red shift 对 吧? 然后 那个 tera data 是一个 老牌 的 on prime 的 本地 部署 的 那个 已经 很多年 了, 所以说 你是 相当于 做 一个 新的 市场。

我们在 寻找 一个 新的, 但是 当时 还 比较 小, 但是 我们 觉得 会有 爆炸性 增长 的 一个 市场。

所以说 是 给 数据 工程师 提供 一个 非常 有用的 工具。 就 好像 你们 刚 开始 做 起来 的 时候, 其实 也是 给 netflix 竞赛 比赛 去做 一个 工具, 对 吧? 其实 就是 把 这个 工具 给 云。 第一点 是 云 化 了。 第二点 就是 专注 于 做 这 一个 工具。 因为 你是 觉得 这 一个 市场 是当 时候 是 小, 或者说 是 emerging 刚刚 起来, 但是 以后 会 逐渐 变大。 第三点, 就是 你们 做 的 决定。

第三点 主要是 我们 可能 跟 第一点 有点 相关, 但是 我们 决定 不做 任何 跟 support 相关 的 事情, 或者说 不 纯粹 做 support 或者 professional services。 这个 说 起来 很 容易, 这 三个 我 觉得 都是 起来 很 容易 说, 但是 你 真的 要 确定 实施 下去 的话, 其实 是 比较 难 的 事情。 因为 我们 碰到 的 是 Spark, 当时 就 作为 一个 开源项目 已经 小有名气。 或者说 到 20 1415年 的 时候, 可能 已经 这是 属于 你 想做 dad engineer data sizes 的话, 你 一定 会 用 Spark。 这个 时候 每一个 公司 都会 来 找 我们 说, 我 不一定 用 你的 云 的 东西, 我 甚至 也 在云上, 但是 用 其他 的 东西 我希望 直接 给你 做 support。 甚至 我可以 砸, 比如说 1000万, 这个 1000万美金 对于 我们 当年 来说 是一个 非常 大 的 contract。 但是 然后 你可以 支持 我 这 整个 data center, 我 都 不需要 你的 软件。 但 我们 一直 都说 no, i'm sorry. No, we don't want to. 就 我们 不 希望 作为 support 或者 这个 咨询 的 公司, 我们 更 希望 做 一个 产品, 作为 一个 平台。

我 觉得 你们 这 三个 决定 其实 都是 非常 胆子 比较 大 的。 第一个 坚决 走 云, 只 做 云。 第二个 是 做 一个 给 数据 工程师 用 的 一个 工具, 而 不是 做 一个 数 仓。 第三点 其实 就是 不去 做 定制 化 的 项目。 定制 化 项目 其实 机会 很多, 但是 你 想做 一个 产品。 这 三点 其实 如果我 总结 起来 就 觉得 就 是不是 去 赚 快钱, 就是 马上 去 赚钱, 而是 看准 了 一个 历 是 朝 哪边 走。

这 里面 我 比较 好奇, 这 三个 都是 比较 胆大 的 决定, 这 几个 都是 你们 几个 博士生 自己 做 的 决定, 还是 说有 很多 是 你们 也是 受 了 一些, 不管 是 投资人 也好, 或者说 你们的 一些 业界 的 专家 的。 就是你 觉得 有 多少 是因为 是 你们 一群 年轻人 就 觉得 我们 就是 要 胆大。 这个 决定 是 怎么 做出来 的?

可能 起码 有 90% 以上 是因为 本身 团队 的 这个 决定。 我 觉得 这 其实 和 团队 本身 也 有关, 团队 不完全 是 全部都是 博士生, 也有 一两个 教授 在 里头。 这 其实 跟 burkey 当时 的 环境 有关。

就是 在 云计算 core computing 上 有 一篇 非常 有名 的 论文。 这 篇 论文 有名 到了 我的老婆, 她 在 商学院, 他 不是 做 技术 的 人, 他在 商学院 里面 读 到 的那 篇 论文。 那 篇 论文 叫 the burkey deal of cloud computing, 可能 有 几万 篇篇 引用。 那 篇 论文 是在 20, 如果 没 记错 的, 是 2009年 或者 2010年 的 时候 写 的。 然后 当时 就是 包括 了 dead break 的 个别 几个, 不是 所有的 联合 创始人, 个别 几个 创始人 都在 上面。 然后 他们 当时 就 写出 了 一篇 这个 是 未来 云计算 会 不可避免 的 会 取代 几乎 所有的 计算。 所以 我 觉得 那 篇 论文 本身, 或者说 其实 不光 是不是 因为 读 了 那 篇 论文, 而是 参与 到 看到 了 很多。

我 觉得 未来 走向 看 了 那 篇 论文 本身, 就 是从 基础 的 这个 economics 的 角度, 这 为什么 商学院 会 去 读 这 篇, 这 不 纯纯 是个 技术 人文, 其实 就 阐述 了 为什么 未来 一定 会 变成 云计算 为主 的。 所以 那个 对 我们 其实 有 很大 的 影响。 另外一个 是 就是我 刚刚 说到 可能 在 Spark 开始 之后, 我们 跟 业绩 有 非常 多 的 交流。 甚至 直接 在 比如说 不同 的 公司 做 咨询, 做 international 把做 culture 去 把 sport 应用 到 这个 生产线 上。 那个 时候 我们 就 碰到 了 很多很多, 我 觉得 作为 你 如果 要 自己 设置 这个 数据中心 是 一件 非常 麻烦 的 事情, 所以 也 被 那些 影响。 但是 我 觉得 一方面 你可以 说 我们 非常 有远见, 另外 一方面 也是 我 觉得 也有 一定 的 运气 成分。 因为 你可以 知道 说 未来 是 这个 方向, 但 你 很难 知道 未来 究竟 会 在 五年 之后 到来, 还是 十年之后 到来, 还是 20年 之后 到来。

Coda 你 刚刚 提到 的 公司 对 吧? 它的 名字 叫 cloud era。 他 其实 在 最 开始 2008年 成, 因为我 跟 这个 卡 戴尔 的 创始人 什么 都 还是 有 一些 交集 的。 他们 在 最 开始 成立 的 时候, 之所以 名字 叫 卡德尔, 是因为 他们 也 觉得 云是 未来。 但是 在 2008 2009年 的 时候, 如果你 尝试 去做 一个 云计算 的 公司 会 突破, 除非 你是 你, 可 你 会 头破血流。 然后 他们 就 更改 了 他们的 决定。 其实 他们 从 当时 卡德尔 后来 的 这个 chip officer Charles 可能 当时 刚 从 哈佛商学院 毕业。

卡迪尔 招 了 他 做了 很多 市场调研, 他 觉得 这个 肯定 是一个 在 现在 是 不可能 做到 的 事情。 然后 当然 投资者 其实 最早 的 投资者 不 反对 这个 事情, 对 我们 也是 有 帮助 的。 如果你 有 这个 投资者 每次 播 媒体 都在 说 你们 应该 去 plan 的话, 那就 当 这 也 非常 难 让 这个 创始人 完全 从头到尾 坚持。

至少 他 给 了 你 一些 耐心。 对我 觉得 这个 故事 讲 的 特别 好一个 cloudera 他 这个 名字 英文 就是 一个 云时代, 对 吧? Cloud error, 但 最终 还是 屈就于 现实。 当 时候 200就像 你说的, 2008年 应该 还没有 data scientist 的 数据 工程师 这个 概念。 那 即便如此, 你们的 前 两年 三年 还是 苦哈哈, 对 吧? 我 觉得 能不能 讲一讲 苦哈哈 的 时候, 你 自己 内心 有没有 质疑 过 自 或者说 是 怎么 想法。 或者说 你你你 太太 虽然 说 她 读 了 那 篇文章, 是不是 也 说 reno 你 在 搞 什么?

我 上次 跟你聊 天 的 时候, 我们 讲 到了 为什么 会 苦。 但是 刚刚 可能 从 这 听众 角度 他们 也 不太 清楚。 其实 我们 从 三年 从 外界 的 角度 上 看 可能 没有 什么 问题。 但是 从 内部 的 角度, 甚至 内部 工程师 们 基本上都 不知道。 但是 从 这个 revenue 的 角度 来说, 银 娥 的 角度 来说, 其实 是 非常 大 的 问题。 我们 可能 在 头 三年 你 刚刚 说 到了, 我们 这个 产品 的 营收 其实 远 低于 我们 做 Spark 大会 的 Spark 峰会 的 营收。 所以 在 硅谷 有 所谓 的 db 说 的 docker 你 刚刚 提到 的 有点像 卖 T 恤 的 公司。 因为 从 这个 community 的 Spark 上面 开 大会, 卖票 的 钱 都 多于 这个 产品。

我们 这几天 还在 聊, 当 时候 docker 跟 那个 data break 都是 属于 这 两个 data bricks。 当然 最近 几年 是 发展 很好, docker 也 最近 一段时间 稍微 有点 recovered, 前几天 也 announce 了 他们 融资, 有了 新的 融资, 大概 20亿美元 也 不错, 对 吧? 但是 比起 data bricks 还是 从 今天 的 角度 差 很多。 对, 但是 我 就 想听听 你 内心 看到 有 那个 营收 差 那么 多, 你 内心 在 想什么?

我 觉得 我们 其实 做了 一些 从 大方向 上, 我们 可能 把握住 了 正确 的 这个 方向, 做了 正确 的 决定。 在 很多 细节 上 其实 是 有问题 的, 甚至 不是 细节。 我 觉得 就是 在 中间 层面 的 这些 东西, 比如说 我们 过分 的 依赖 开源。

当时 的 这个 想法, 其实 是因为 从 卡德尔 和 霍特 works 的 角度 来说, 他们 当时 可能 intel 投资 了 七个 亿 给 卡尔, 他们 已经 是个 50亿公司, 价值 50个亿 的 公司。 这 对 我们 来说 这 是一个 非常 巨型 的 一个 大 数据 公司。 我们 觉得 如果 卡迪尔 他们 可以 通过 开源 做到 这么 大, 那么 data break 当然 也是 可以 了。

但是 有一个 巨大 的 问题, 其实 就是 卡德尔 之所以 做了 这么 大, 很多 其实 是因为 support, 对 吧? 就是你 做 开源, 做 定制, 做 售后 支持。 但是 那些 东西 其实 从 真正 商业 角度 来说, 其实 不是 一个 这么 好的 商业 决策。 因为 这些 东西 都是 跟人 来 scale 的, 就是你 需要 有 更多 的 营收 的话, 你 需要 更多 的 人。 而 软件 最大 的 好处 是, 其实 软件 是 不需要 通过 人 来 s scale, 而是 所有 东西 都是 自动化, 对 吧? 那么 你 做 服务 做 支持 的话, 你 必须 要 跟人 一样。

而 在云上 amazon, 其实 不光 axon 三大 云 厂商 都有 这样的 事情。 但 M 总 因为 是 体量 最大 的 他们 可以 直接 把 一个 开源 软件 拿 过来, 做 一些 很 简单 的 封装, 然后 把 它 做成 一个 service 卖出去。 这个 时候, 而且 阿姆 长 因为 不需要 做 任何 的 关于 开源 服务 的 投入, 对 吧?

他们 需要 做 他 自己的 产品, 所以 他 从 工程 的 角度 来说 非常 的 低。 他 甚至 不需要 任何 的 招 懂 这 一方面 的 人。 他 只需要 做 一些 很 简单 的 control, 能够 把 这个 东西 服务 部署 起来 就可以 了。

说 的 好听 一点 就是 很 容易 借 过来 用。

对 所以 他 可以 以 非常低 的 价格 把 这个 卖出去。 打个比方, 比如说 我们 如果 要 这个 成本 可能 是 一块钱, 只需要 一毛钱 的 成本。 那么 这个 时候 就会 发现, 很多 客户 很 可能 他 觉得 我 非常 想 用 这个 开源 原 厂商 的 产品, 这个 data ber 做了 一些 新的 东西, 这个 可以 支持 SPA。 因为我 在 database 上 做 一些 简单 的 protest。 但是 当我 需要 做 大规模 部署 的 时候, 这个 时候 我 当然 去 找 一个 最 便宜 的 厂商 了。 我 已经 把 东西 开发 完了, 为什么 需要 去 继续 给 da break? 比如说 一块钱 的 东西, 我是 花 一毛钱 就 够了。 而且 尤其是 对于 很多 生产线 上 的, 主要 对于 大 数据 来说, 你 可能 需要 非常 多 的 计算 量。

所以 这个 价格 的 优势 对于 阿姆 森 来说 其实 是一个 非常 大 的 优势。 这个 其实 在 很大 一部分 原因 上 导致 了 我们 头 三年 营收 非常 的 低。 只有 一些 零星 的 一些 这就是 客户, 或者 甚至 说 甚至 有 一些 大 客户。 但是 他们 真正 的 这个 大头 都 去了 amazon 那边, 而 不是 在 dad bricks 那边。

还有一个 问题 就是 我们在 最早 的 时候, 从 企业 软件 的 角度 来说, 一般 有 所谓 的 bottom up and top down 这个 sales 是 吧? 就 top down 其实 就是你 会有 这个 销售 人员 专门 出去, 然后 去 push。 就是 传统 的 说 比如说 跟 客户 打高尔夫 之类 的, 去 push 一个。

产品 从 C I O 的 角度, 而 不是说 从 底层 的 去 卖。

另外一个 是从 这个 包装, 从 我 这个 产品 基本上 可以 自己 卖 自己, 我 把 这个 产品 的 好处 都 列 在 网站 上, 你可以 直接 sign up, 然后 可以 开始 使用 这个 产品, 然后 你 会 得到 特别 大 的 value, 然后 慢慢 这样 可以 滚 越大。 我们是 非常 想做 后者 的, 因为 我们 觉得 后者 不需要 有 销售 人员, 我们 全部都是 工程师。 我们 工程师 当然 希望 公司 就是 工程师。 但是 从 我们的 这个 层面, 因为 我们 做 的 是 非常 基础 的, 这个 就是 dal structure。 这个 基础设施 其实 是 很难 通过 比如说 一个人 涨 到 两个人, 涨 到 三个人, 涨 到 整个 公司, 比如说 几万几十万 人的 公司。 越 基础 的 东西 越 需要 上层 的 push。 不管 是 C I O 这个 V P O I T 或者 是 这个 V P O engineering 需要 这 样子 的 push。 所以 这是 另外一个 原因, 导致 我们 可能 早期 前几年 的 时候, 我 觉得 从 商业化 上 并不是 很 成功。

对 所以说 从 开源 本来 是 觉得 我 开源 我是 Spark 的 发明者, 大家 都会 用 我的 这个 开源 的 一个 就 云 上面 提供 的 服务。 但是 你 后来 发现 其实 大家 有可能 是用, 但是 有 大规模 部署 的 时候, 其实 就 不去 用了。 这个 对 你们 来说 其实 就是 一个 营收 苦哈哈 的 一个 很 重要 的。 但是 这一点 你们 其实 也有 改变。 我的 理解 是 就是说 开源 是 有, 但是 你们 做了 开源 很多 更多 的 东西, 那些 那 部分 是 不 开源, 能不能 稍微 展开 讲一讲?

对, 我们 自从 大概 在 201 5116年 左右 的 时候, 我们 当时 就 做了 两个 大 决定。 第一个 是 我们会 开始 引入 真正 的 top down 的 cells, 到 现在 我们 其实 有 个 挺 大 的 销售 团队, 另外 一方面 比较 重要, 从 产品 的 角度 来说, 就 开始 考虑 怎么样 可以 做 一些 竞争 壁垒。 而 就是 真正 的 竞争 壁垒, 从 我们 当时 的 定义, 我们我们 提出了 这个 词 叫 Spark edge。 就是 竞争 壁垒, 不是说 你 做 一个 随随便便 的 不 开源 的 东西, 因为 他们 都 不是 傻子, 对 吧? 你 如果 做了 一个 东西 肯定 会 去 尝。 如果 这个 东西 很 有 价值, 对 客户 来说, 安 总 肯定 会 尝试 去 复制 这个 东西。 所以 真正 的 竞争 壁垒 是 你可以 做到 的, 而且 是你 有 得天独厚 的 优势 可以 做到 的。

这个 壁垒 让 amazon 非常 难 去 复制。 这个 其实 就 很多 涉及到, 比如说 开源 厂商 肯定 是 有 一定 的 优势。 因为你 对 这个 开源 产品 非常 的 熟悉, 你知道 他 有 什么样 的 缺陷, 你知道 他 有什么 改变 可以 改善 的 地方。 你知道 有 一些 在 它 之上 可以 做到 一些 东西, 很 可能 别人 非常 难 做到。 当然 一切都是 软件, 对 吧? 你 有 足够 多 的 钱, 有 足够 多 的 人, 什么东西 都是 可以 做 的。 但是 这个 起码 对于 一个 小 公司 来说, 你 只要 可以 做 的 更快, 然后 可以 把 有 一定 时间 的 这个 壁垒, 你 就可以 去 投资 做 更大 的 壁垒, 然后 慢慢 越 滚 越大。 所以 在 我们 当时, 我们 其实 看 了 很, 我们 就是 对 很多 比如说 从 性能 的 角度, 从 scalability 的 角度, 从 安全性 的 角度, 很多 企业 就 真的 会 比较 在意 的 东西 上 做了 很大 的 投入。 然后 这些 东西, 其实 变成 我们 竞争 壁垒 那 一部分。

你 觉得 amazon 做 的, 当然 任何 事情 都能 做, 就像 你说的, 但是 做 的 可能性 会 跟 你们 比 起来, 竞争 优势 会 少一点, 是 为什么呢? 就是 做 这些 performance, 做 scalability, 是因为 他 毕竟 不是 Spark 的 初始 的 作者, 所以说 他的 理解 比 你们 浅, 还是 能不能 讲一讲?

对我 觉得 两方面, 一方面 但是 他 理解 比 我们 浅, 另外 一方面 就是 amazon 的 这个 模式 他 不需要, 他 其实 amazon 一般 不会 招 特别 好的 engineer。 绝大多数 的 amazon 的 service, 他 因为他 需要 做 的 东西 比较简单, 他 就是 把 这个 拿 一个 开源 的 软件 过来。 然后 我想说 怎么做 control plane, 怎么样 能够 部署 这个 开源 的 软件。 它 不需要 进 到 这个 开源 软件 内部 去, 想说 我 怎么样, 比如说 提高 这 一个 非常 核心 模块 的 性能, 这些 东西 其实 需要 比较 好的 engineer 来做。

因为 所有的 公司 其实 都是 一样的, 就是你 希望 expand 到 一个 比较 容易 赚钱 的 地方。 就是你 不 希望 你的 最 开始 的 时候 是 打的 头破血流, 你 希望 是 比较 容易 的 expand。 从云 的 角度 来说, 现在 有 特别 多 的 多 亚马逊 可以 去 进入 的 地方。 当然 就像 我说 的, 如果 比如说 jeff basel 突然间 哪一天 决定 我 一定要 针对 这个, 那么 当然 是 有 能力 去 做到 这样的 事情。 但 这 可能 是 几年 之后 了, 对 吧?

这 其实 就是 所谓 小 公司 跟 大公司 竞争 的, 这个 我 觉得 是 没错 的话。 是 大公司 如果 专注 这 一块 的话, 他 多半 可以 做 的 比 小 公司 好。 但是 大公司 有 需要 太多 需要 专注 的 东西, 他 并没有 办法 去 专注 每 一块 他 做 的 产品。 所以 这个 我 觉得 是 小 公司 有 非常 大 的 优势。

我们 刚才 开源 讲 了 已经 很多 了, 但 其实我 还是 在 想 深挖 一下, 其实 你们的 被 外界 认为 的 是一个 开源 公司, 但 实际上 从 我的 理解, 很多 你们 做 的 东西 已经 是 闭源 的, 或者说 是 可能 99% 15 的 东西 是 闭源 的。 但是 你们 有 这么 一个 perception, 就是 外界 对 你们的 一个 认知 是一个 开源 的 公司。 实际上 这个 开源 对 你们是 非常重要。 能不能 跟 我们的 听众 分享 一下?

首先 先 澄清 一件 事情, 就是 我们 可能 绝大多数 人 做 的 东西 都是 闭源 的 这个 项目。 但是 这 很多 里头 其实 是 去 到了 比如说 我们的 这个 cloud service, 因为你 你 要 去 scale 一个 cloud service 本身 需要 很多很多 人, 这些 基础设施 本身 需要 很多 的 人。

就 运维 不 只是 写 程序, 也要 去 运维 这个 程序。 这个 运维 是 有 很大 的 一部分 的 程序 在 里面。

对, 我们的 运维 基本上都 是 程序化, 就 都 自动化。 但是 那些 东西 本身 需要 很多 的, 比如说 我 给 个 数据, 我们 每天 会 在 三大 云上, amazon asia 和 G C P 上 launch。 1200万 台币, 1200 200万 台 虚拟机。 管理 这 1200万 台 机器 其实 是一个 非常 大 的 工程。 我们 不是 由 人 去 管理 的, 而且 我们 有 几百号 工程师, 这 几百个 人的 专职 就是 他们 编写程序 去 维护 这 1200万 台 虚拟机, 对 吧? 所以 这 一些 本身 就 非常 多人 做 这些 东西。 然后 这些 其实 在 某种意义上 已经 变成 了 一个 竞争 壁垒 了。 因为 非常 难有 其他 公司 可以, 比如说 尤其 对于 小 公司, 非常 难 有一个 小 公司 出现, 然后 能够 支持 这么 大规模 的 基础。

但是 我们 我 觉得 daw 作为 一个, 或者 是 称 daw 为 一个 开源 厂商, 其实 是 没有 错的。 因为 我们的 很多 核心 的 产品 都是 基于 开源项目 而 诞生。 而且 从 很多, 比如说, 我们 有一个 所谓 的 基本上 所有的 A P I 在 database 上都 是 开源 的。 所以 你 如果 有一个 worker 在 data AK 之上 的话, 这个 world 都 可能 用 比如说 说 开源 的 Spark 的 A P I, 用 开源 的 M L flow 的 A P I, 开源 的 delta lake A P I。 有可能 底层 的 实现 有 一部分 是 开源, 有 一部分 不是 开源 的。 但是 这个 A P I 本身 你是 可以 随时, 比如说 利用 开源项目 来 重新 实现, 然后 跑 在 其他 的 地方 上 的, 然后 我 觉得 这个 A P I 开源 跟 甚至 底层 实现 开源 的 一个 最大 的 好处 是因为 我们 可以 培养 一个 非常 或 多个 非常 大 的 开源社区。 比如说 在 2013 2014年 celebrate 只有 几十个 人的 时候, 我们 当时 开 的 大会 可能 就有 几千个 听众, 全球 各地 跑 来 旧金山 参加 这个 大会。

还 不包括 像 我 这样 在 youtube 上面 听 你们 那个那个 Spark conference 的 summit 的 那个人。

对, 所以 其实 当时 比如说 meet up 到 com 上 可能 有 一百多万 人 在 全球 不同 的 meddle 上。 所以 这个 带来 几点, 第一点 是 当然 它 给 带来 了 一个 top final 的, 这个 有一点 像 bottom up sales 的 这个 感觉, 但是 它 不完全 是一个 bottom。 另外 一方面 是 他 让 企业, 我 觉得 很多 企业 其实 现在 也是 慢慢 越来越 开源 化, 就 使用 开源 的 软件, 因为 尤其 在 基础设施 这 一层, 因为 基础设施 这 一层 你 需要 招 人, 对 吧? 现在 所有 公司 都在 招 很多 跟 data 相关 的 人, 这个 人才 越来越少, 人才 不够 多, 人才 不够 多 怎么办? 你 如果 是用 一个 开源 的 东西, 学校 里头 也 在教 这个 开源 的 项目, 比如 学校 里头 在 很多 可能 全球 我 觉得 起码 几千家 大学 都 在教 Spark 的 这个 编程, 所以 你可以 找到 很多 人才。 我们 甚至 有一个 客户, 我 不太好 说 名字。

但是 美国 一个 非常 大 的 公司, 当时 他们的 C T O 跟 我们 说, 我 为什么 要 从 某 一个 property 的 这个 软件 改 到 data works 呢? 是因为 我 觉得 下一个 就是 the next generation, 大家 都是 学 的 Spark 长大 的。 现在 来说 在 可能 两年 前 两年 前 的 时候, 当然 现在 也是 真的 就是 这个 我 如果 想 基于 spar 来 开发 我的 这个 数据 平台 的话, 当然 data 是 最好的 选择。 所以 这个 其实 就 给 一个 我 觉得 小 公司 从 开源 这方面 带来 了 一种 先天性 的 优势。 让 一个 小 公司 可以 有 更大 的 力量 去 撬动 这 整个 业界。

这是 早期 data bricks 走了 几年 以后, 也是 比较 到了 某 一个 moment, 我相信你 会 感觉到 这个 公 是 不再 是 苦哈哈 了。 你 觉得 有 什么样 的, 不管 是一个 事件 也好, 或者说 是 外界 的 一个 发生了什么事情, 影响到 你们。 比如说 我自己 所在 的 z scale 对 吧? Z scale 也是 说, 我要 把 那些 安全 的 产品 放到 云 上去。 但是 十几年 前 大家 听 了 就是 笑笑 而已, 对 吧?

还是 在 本地 不舍 我们 这个。

谢谢。 然后 到了 大概 20可能 15 1617年 的 时候, 那个 邮件 都 到 云 化 了当 那个 邮件 云 化 的 那一刻, 就 大家 意识到, 我 既然 我的 主要 的 一些 server 的 负载 workload 已经 在云上 了, 然后 人 也 那么 分散 了, 我 为什么 还要 把 那个 安全 的 东西 放在 本地? 好像 不 怎 make sense 的, 所以说 其实 这个 office three sixty five 变成 很大 的 转折点。 所以说 我 想听听 像 data bricks what's the equivalent, 就 你们的 那个 office 3 sixty five moment, 你们的 转折点 是什么 呢?

从 我们的 角度 来说, 可能 外界 的 转折点 并不是 那么 多。 这就 很多 时候, 其实 比如说 后来 营收 也是 一步一步 打 下来。 并 不是说 因为 我们 签 了 某 一个 客户 之后, 或者说 有一个。 有一个 瞬间 让 全世界 都 觉得 这个 data 是一个 非常 好的 产品, 或者说 数据 科学 非常 的 重要。 因为 像 我 刚刚 说 的, 其实 在 一 我们 13年 成立 到 15年 的 时候, 可能 也没有 特别 大 的 营收。 但 那个 时候, 亚马逊 自己的 那个 产品 E M R 已经 开始 后 Spark, 而且 针对 Spark 可能 已经 有 几个 亿 的 营收 了。

从 这个 角度 上 来讲, 你 跟 我 想象 的 其他 的 一些 公司 可能 不一样。 比如说 你们 你们的 友商 之一 snowflake, 它 就是 至少 从 外界 的 角度 来讲, 它 2017年 大概 capital one 成为 一个 它的 重要 客户 以后, 大家 就 觉得 这个 产品 好像 是 蛮 不错 的, 连 那么 大 的 一个 银行 都 愿意 去 用 它的 产品, 说明 这个 产品 不错 的。 但 你们 可能 不一样 一点, 因为 你们 这个 Spark 已经 是 大家 觉得 这 是一个 蛮 不错 的 产品, 已经 很多年 了。 因为 Spark 的 名声 已经 在那边 了, 所以说 可能 转折点 是 会 不一样 一点。

所以 那个 时候 就 我们 觉得 这个 需求 其实 是 存在 的, 而且 客户 就 未来 比如说 能 做到 多大, 当时 并不是 很 清楚。 但是 已经 明显 已经 不管 是从 cloud 或者 works 还是 amazon 上, 他们 三家 赚的钱 都 比 deliberate 多 很多。 从 Spark 角度, 然后 慢慢 开始 随着 我们 开始 制造 竞争 壁垒 和 开始 加大 投入。 从 销售 人员 角度 上 说, 你说 慢慢 增长, 你 刚刚 说到 capital one, capture one 也是 一个 deep 最早 的 一个 大 客户。 但是 我 觉得 并 不是说 因为 capture one 有一个 决定性 的 因素。

在 2016年 17年 的 时候, 当时 我们在 想说, 我们 开始 有 一定 的 起色。 因为我 随着 我们 这个 产品 策略 跟 这个 销售策略 的 改变。 但 怎么样 可以 加快 这个 增长? 然后 当时 我们 就 想说, OK 最早 的 时候 我们 只在 M 早上, 我们 可不可以 去 到 其他 的 云上? 因为 毕竟 有 三大 云, 对于 我们 来说, 我们 当时 也 在 考虑。 长远 来说, 这 三大 原因 应该 都 不会 消失, 而且 应该 会 三足鼎立。 因为 amazon 有 已经 非常 成功, 微软 可以 有 无限 的 资金投入, 因为 他们 有 office 跟 windows 的这 两个 就是 cash pop 可以 一直 投入 他们的 云, 直到 把 云 做好 为止。 Google 也是 一样, 它 有 这个 S 的 在 美国 号称 硅谷, 是 大家 说 开玩笑 叫 money printer。

三国鼎立 这个 局势 是 蛮 铁板钉钉 的。 所以说 都 应该 是 你们 合作 对象。

所以 当时 考虑 的 就是 我们 做了 amazon 之后, 我们 可不可以 在 其他 云上 做 起来。 然后 当时 我们 就 想到, 如果我们 要在 其他 云上 做 的话, 我们 是不是 可以 找 这个 第二 第三名, 因为 大家 都想 变成 第一。 然后 当时 开始 和 微软 谈 合作 这 一方面, 到 17年 的 时候 应该 是 谈 下来 这个 叫 arga da bris 的 一个 合作。 所以 arch daily break 是一个 非常 独特 的 产品。 它是 虽然 由 da bricks 来 开发 和 运营, 但是 它是 一个 微软 的 产品。

为什么 我 叫 它 叫 微软 的 产品 呢? 它是 由 微软 的 销售 人员 去 销售, 但 这 本身 还 不是 很 特别。 因为 微软 可以 销售 其他 的 这个 常见 的 有 partner ship 是 你可以 销售 其他 的 产品。 但是 它 直接 在 微软 的 所谓 的 enterprise licensing rim 里面, 你可以 把 你 一个 企业, 一般来说, 比如说 一个 企业, 它 会 每年 基本上 世界上 所有的 大企业 都 跟 微软 有 这个 E L A。 他说 我 每年 比如说 我 有 1000万这个 budget l 在 了, 这个 就 已经 批 给 了 微软 E L A 上了。 很多 是 windows office, 但是 arg data a brix 的 这个 E L A 就 导致 了 客户 可以 直接 把 他们 已经 批 好的 windows office budget 转向 到了 这个 arger data k 上。

对于 我们 来说, 当然 是 这 是一个 非常 大 的 优势。 因为 很多 时候 这个 企业 软件 negotiation budget provo, 这是 一件 非常 长 的 事情。 有 微软 的 销售 人员 去 帮 我们 卖。

首先 第一点, 我们 自己 不需要 那么 多 的 销售 人员, 就让 这个 利润 提高 更高。 另外 一方面, 是 这个 时间 会 缩短, 然后 对于 微软 来说, 这也是 一个 非常 大 的 互利 的 合作。 因为 微软 的 云 毕竟 是 第二位, 不同 角度 上 可以 第二 或 第三位。

在 微软 云上, 其实 一直 没有 一个 特别 好的 大 数据 跟 这个 数据 科学 的 平台。 20年 变成 了 一个 微软 产品, 所以 微软 相当于 从 完全 没有 竞争 优势, 倒 变成 了 一个 比 咱 从 我的 角度 来说, 这个 arg data break 要 比 亚马逊 自己的 这个 产品 好。 所以 他们 相当于 在 一年 之间 从无到有, 而且 不光是 有, 而是 做成 了 一个 可能 业界 领先 的 产品。 所以 也 这个 东西 本身 也 对 微软 带来 了 很多 的 营收, 而且 R D S 非常 的 成功。

具体 数字 我 不太好 说, 但是 是 微软 云上 最 成功 的 一个 服务 之一。 所以 对 双边 都 带来 了 非常 大 的 好处。 对 我们 来说, 我 觉得 也是 一个 比较 大 的 转折点。 并 不是说 dad bricks 会 不存在, 或者说 会 是一个 失败。 如果 没有 这个 东西 的话, 但 它 肯定 是啊 给 我们的 增长 带来 了 非常 大 的 帮助。

据说 是 azure 上面 百分之几十 的 虚拟机 每天 跑 起来, 就是 因为 data bricks 的 原因。

所以说 它 不光 带来 了 air data 这边 的 帮助, 而是 它 带来 非常 大 的 underline computer orage 从 计算 存储 层面 的 提高。

我们 再 讲讲 今后 data bricks 已经 是一个 3 nine billion 到了 390亿美元 估值 的 一家 硅谷 的 高科技 公司 了。 应该说 是 已经 做 的 体量 也好, 各方面 都是 很 不错 了。 根据 我的 经验, 像 这么 一些 不错 的 公司, 其实 自己 还 认为, 我 其实 还是 在 早期, 然后 其实我 还有 很多 路 要 走, 能不能 跟 我们 介绍 一下 很多 路 要 走, 有些 什么? 因为我 记得 前 一段时间 跟你聊 的 时候, 你 讲 了 一个 观点, 就是 那个 C 口 right 就是 S Q L 是 is that everything right? 就是说 有些 公司 起来 就 C Q L is debet IT on C Q L, 就是 他们 把 那个 公司 就 堵 在 C Q L。 但 你的 一个 观点 就是说 S Q L is not everything well, is something right is important, 是 重要 的, C C O O S Q A 是 重要 的。 但是 并不是 所有。 所以说 我希望 你 能不能 给 我们 分享 一下, 就是你 对 未来 的 展望。

是 怎么看 的。 其实 debris 在 过去 几年, 我 觉得 是 变得 越来越 ambitious, 野心 越来越大, 而且 做 的 东西 也 越来越 全面。 最 开始 的 时候 我们 做 S P R K 其实 属于 一个 计算 层面 的, 就是 处理 数据 的 一个 东西。 然后 后来 我们 发现 存储 其实 因为 我们 最 开始 成立 公司 的 时候, 我们 觉得 这个 存储 其实 是一个 已经 saw prom, 就 大家 已经 没有 什么 困难 了, 非常简单。 后来 从 这个 处理 层面 我们 发现 很多 客户 其实 碰到 的 问题。 可能 2018年 左右 我们 查 的 时候, 我们 看 的 时候, 可能 客户 有 一半 的 问题 跟 底层 存储 有关。

存储 不是 我们 提供 的, 是 其他 的 云 厂商 或者 其他 的 这个 系统。 然后 当时 我们 就 觉得 我们 可以 给 客户 带来 很大 的 价值。 如果我们 可以 把做 的 更好, 所以 这 诞生 了 我们的 第二个 大 的 开源项目 叫 delta lake。 然后 后来 有 一些 机器学习 方面 的 拓展, 直到 最近 我们 有 一些 最终 我们 决定 我们 要 做 这个 day where else 数 仓, 因为 我们 发现 我们 看到 的 绝大多数 的 企业 客户。 因为 现在 我 觉得 这 其实 已经 到了 一个 我们 基本上 可以 看到 整个 市场 的 感觉。

虽然 可能 不一定 每个 公司 都是 我们的 客户, 基本上 绝大多数 企业 客户 的 这个 数据 架构, 都是 他们 利用 data 或者 其他 的 数据 湖 data ke 相关 的 解决方案。 比如 coder 或 works, 把, 所有的 数据 都 存储 在 数据 湖 之中。 数据 湖会 做 一些, 比如说 debris 上 会 常见 的 一些 design dad, 他们 会有, 一个 数据仓库, 这个 数据仓库 里头, 可能 就有 数据 湖 的 10% 或者 5% 的 数据。 这 一些 尤其是 跟 business 比较 相关 的 数据。 然后 他们 利用 数据仓库 来 给 这个 analyst, 数据 分析师 作为 后 端, 你可以 做 一些 B I, 可以 做 一些 简单 的 数据分析。

这个 架构 属于 现在 我 觉得 可能 最 流行 的 架构, 但 这个 架构 本身 有 很多 的 问题。 因为 这个 架构 其实 我们 当时 我 其中 一个 客, 我 跟 我 姐, 我 最 开始 我 觉得 这 只是 个 技术 问题, 因为你 需要 把 数据 从 一个地方 拷贝到 另外 一个地方。 你 需要 确保 你的 这个 权限 管理, 还有 一样的 权限 管理。 这些 的确 是 挺 复杂 的。 当然 你 问 所有的 技术人员, 他 都会 告诉你, 我希望 有一套 系统 可以 做 支持 所有的 这些 不同 的 worker。 但是 我的 客户 从 business 角度 跟 我 解释 这个 问题, 他说 这种 数据 分裂 在 两个 系统 上 最大 的 问题 是啊 你 会有, 比如说 有一个 business problem 你 需要 去 解决, 你 需要 去 分析。

这时候 会有 不同 的 团队, 不同 的 团队 有 不同 的 权限, 他们 会 看到 不同 的 数据。 就 同 一份 数据 里头 他 可能 看到 不同 的 版本, 看到 不同 的 细节。 然后 当 他们 得出 的 结论 是 不一样的 时候, 因为 他们的 数据源 不一样。 这个 时候 就会 导致 做 商业 决策 的 团队 不再 相信 数据, 而 导致 整个 底层 的这 一些 做 I T 做 这个 数据 开放 的 人 没有 办法 更好。 因为你 下一次 再 碰到 一个 问题, 大家 就是说 我 真的 可以 相信 这个。 所以 这 其实 可能 是 最大 的 问题。

当然 还有 很多 细节 问题, 比如说 我 刚刚 说到 权限 管理, 或者说 比如说 你 从 数据 从 一个地方 一 挑 到 另外 一个地方, 可能 需要 时间, 你 可能 需要 有 更快。 你 本 你 希望 有 比如说 在 有 秒 级 的 这个 数据 新鲜度, 但 有可能 你 多了一个 一条 宽 变成 了 比如说。 小时 级 或者 天 级 这些 都是。 但 其实 真正 最大 的 问题是 就 是从 商业 的 角度 来说, 你会不会 或者 从 公司 的 决策 角度 来说, 你会不会 停止 不再 相信 你的 数据。

所以 我们 觉得 像 之前 想要 说 这个 未来 会 是 什么样, 我们 一开始 觉得 未来 是 云计算, 未来 是 会有 越来越多 的 数据 科学家, 数据 工程师。 我们 现在 觉得 是 未来 会 是 所谓 的 胡 昌 一体 定义 的 let house 的 这个 词。 而是 未来 的 数据 架构 不会 是 有一个 分开 的 data 类 跟 一个 分开 的 data warehouse, 甚至 有 其他 更多 的 系统在 中间。 未来 数据 架构 是 有一个 统一 的 数据 平台, 这个 数据 平台 本身 可以 支持 所有的, 不管 是从 day warehouse 的 workload 还是 这个 data ics 上 的。 其实 可能 简单 一点, 就 是从 B I 到 A I 现在 的话 我 觉得 并没有 一个 产品 可以 说 100% 的 支持 这些 所有的 东西。 从 数据仓库 的 角度 来说, 他们 可能 可以 非常 好的 支持 B I 但是 你 一旦 碰到, 比如说 跟 机器学习 相关 的, 你 一旦 碰到 有 非常 需要 比较复杂 处理 的 一些 数据 的 时候, 数据 仓库 是 没有 办法 支持 那些 东西 的。 从 data break 这边 的 角度 来说, 因为 我们 之前 focus 很多 在 这就是 专注 的 在 这个 数据 湖 这 一边, 可能 可以 做 很 好的 数据 工程, 数据 科学, 甚至 做 机器学习。

但是 从 设 B I worker 方面, 其实 支持 的 非常 不好。 所以 在 过去 一年 我们 宣布 了 一个 新的 产品 叫 Debra S Q L。 这个 东西 其实 专门 针对 数据仓库 这 一边 的 应用, 我们 并不是 去 做了 一个 新的 数据仓库 的 解决方案, 而是 我们 做了 一个 新的 产品。 这个 产品 在 我们 现有 的 平台 上面 可以 支持 可以 更好 的 支持 数据仓库 的 这些 应用。 而 以此 达到 我们 所谓 的 这个 就是 live house 的 名字 对 吧?

第一个 是 live 就是 deadly。 House 是 data warehouse, 所以 是 数据 湖 数据仓库 湖 仓 一体 这个 词。 我们 其实 最 开始 提出 这个 概念 的 时候 可能 是在 三年 前。 当时 其实 我们的 产品 也不 到位。 但是 我们 提出了 这个 概念, 就像 其实 在 贝博 斯坦 过去 八九年 里头 提出了 不少 概念。 不是 每个 概念 都会 被 业界 到。 但是 let out 这个 词, 现在 慢慢 其实 已经 我 觉得 在 对 业界 有 比较 大 的 影响。 像你 前两天 你 跟 我说 这个 A C Z 的 关于 数据 的 生态 分析 里头 就 提到 了 这个 词。

其实 不光是 他们 了, 三大 云 厂商 google amazon 和 azure microsoft 都 你 去 如果 搜 的话, 你 都 可以 找到 lake house 的 这个 概念。 而且 现在 在 国内 其实 也有 不少 厂家 就是 基于 这个 概念。 我不管 是 新的 创业 公司, 还是 这个 大 的 云 厂商, 也 基于 这个 概念。 我们 开始 讲, 设计 怎么样, 他们 未来 的 产品。

所以说 对 data breaks 来讲, 起家 是 做 一个 给 数据 科学家 的 一个 工具, 不 牵涉到 存储。 但是 后来 发现, 其实 这个 存储 跟 我的 工具 或者说 我 提供 的 数据 湖 所有的 东西 其实 是要 连在一起。 如果 不 连在一起, 出了 问题 谁 负责? 然后 是不是 有 足够 的 信任。 所以 从 这个 角度 上 来讲, 做 一个 一体化 的, 就 有点像 苹果 对 吧? 以前 是 买 intel 的 C P U 买 谁的? 现在 就是 什么东西 都 自己 做做 一个 一体 的, 能够 做 一个 用户体验 做 的 非常 好。 我想 估计 你们 也是 想 给 那些 做 A I 的 人, 做 bi 的 人, 做到 一个 用户体验 能够 极致, 然后 效率 也很 高 的 这么 一个 平台, 对 吧? 那 我 其实 有一个 问题, 其实 你 也 跟 我 提到 过, 你说 那个 snowflake 提倡 的 是 C Q L, 但是 你 提到 的 一个 观点 就是 C Q L 哪些 东西 你 觉得 不是 一个 good fit, 就是 为什么 C 口 不是 一个 所有。

首先 我 觉得 SQL 很 重要, 对于 比较简单 的 数据分析 和 B I worker 来说, SQL 是一个 非常重要 的 标准。 但是 我 觉得 过去 十年 或者 甚至 20年 的 历史 其实 告诉 我们, 这个 世界上 跟 数据 相关 的 应用 远超 于 简单 的, 比如说 出 报表。 然后 也很 可能 你的 数据 从 很多 不同 的 数据源 过来, 然后 你 需要 把 它们 整合 起来。 这些 东西 其实 非常 的 复杂。

IPO 作为 一个 语言 来说, 它 并不是 设计 来做 复杂 应用 的 工具。 如果 去 读 当年 simple 最早 的 一篇 paper 的话, 它 定义 了 一个 更 像 最终用户 非 技术人员 用 的 一个 语言。 比如说 你 要 做 一个 regression analysis, 在 SQL 时候 就 非常 困难。 相反 pyi 其实 是 非常 的 火。 如果 你看 一下 这个 overall 怎么 拍 上面 其实 现在已经 比 C 口多 了。

开场 作为 一个 计算 语言 来讲, 已经 是 连续 好几年 是 第一大 语言 了。

所以 最终 回到 了 数据 上面 的 不同。 下层 的 应用 有 非常 的 多样性。 而 如果 SQL 是 主要 的 语言, 很多 东西 要么 就会 变得 非常复杂, 非常 难 做, 要么 就 根本 没有 办法 做。 就 有些 东西 你可以 做到 用 C O 比如说 在 十几年 前 的 时候, Green plum 尝试 把 机器学习 都 做 进 G R E P O M 的 数据库 里头。 然后 他们 写 了 一篇 论文 叫 melon。 当时 用了 很多 脚本 加上 优质 的 方式 来做 机器学习。 但是 你 就会 发现 可能 有 几千 行 的 C Q L, 大多数 C Q L 的 语句 连 一个 step by step debugger 都 没有。 这个 时候 你 怎么样 去 就算 你 能 写 得 出来, 你 万一 有 bug, 你 要 去 查 那个 bug 本身 都是 一件 非常 难 的 事情, 更 不要说 比如说 很多 性能 上 的 问题。

那 我相信 也是 有 一些 其他 的 工具 也好, 高级语言 也好, 它 能够 自动 的 去 帮你。 你 就 给我 一些 local 的 no code 的 一些 东西, 然后 我可以 帮你 转换 成为 S Q L, 不 也是 已经 够了 吗? 因为我 之所以 问 这个 问题, 我 猜想 你们的 友商 snowflake 是以 一个 c cos 作为 一个 最 主要 的 或者 是 它的 基本面。 现在 database s 的 想法 就是说 S Q L 是 很 重要, 但是 是 有 很多 东西 是 more than S Q L 比 S Q L 多得多。 所以说 我 这个 平台 可能 是 更 有用, 这个 我是 能 理解 的, 但是 不可以 做到 所有的 其他 的 灵活 的 那些 语言, 也 最终 也 把 它 翻译 成为 一个 C 口。 你 觉得 这个 不 可靠 吗?

就 会有 很多 问题。 其实 正好 前两天 我们 还在 讨论, 就是说 究竟 能不能 把 SQL 作为 narrow waste。 很多 python 相关 的 大 数据处理 上面 都 放到 C 口 上。 我 觉得 从 工程量 上 来讲 其实 非常 难。 一个 很 简单 的 例子, 就 比如说 你 写 程序, 你 总 不可能 永远 出错, 对 吧? 出错 了 之后 你 怎么 debug, 这就是 一个 非常 难 做到 的 事情。 如果 你的 中间 的 C 口 只有 最 上面 是 排放 的话, 然后 你 刚刚 也 提到 snoopy y 那么 snoopy y 其实 现在 也 在 做 这个 part 的 支持。

但 我 觉得 比较 难 的 事情 就是 因为 其实 一个 架构 一旦 如果 已经 定 了, 那么 sophie 包括 其他 说 这个 数据仓库 的 架构 都是 C Q L。 C Q L. 那 我 怎么样 加 一个 新的 比如说 language support 在 上面 呢? 这 其实 是一个 比较 大 的 架构 改变。

大概是 一年 多 前, 可能 是 我们 科技 早知道 的 一个 节目 里面 其实 也 提到 一个 观点, 我 觉得 现在 是 被 印证 了。 应该说 snowflake 和 data break 各方面 都 蛮 不一样的。 但是 今后 几年 或者说 现在, 可能 还是 说 会有 很多 直接 竞争, 你们 会 做 一些 更多 的 C Q L 的 support 做 的 更好, 然后 他们 会 python support 也会 做 进去。

从 这个 角度 上 来讲, 其实 去年 年底 的 时候 有一个 activity, 就是 你们 两家 就 互相 比 benchmark 这件 事情 其实 让 我 就 想到 了 二十多年 前, 当年 oracle 跟 他的 几个 预言家 对头。 Surface 也好, informix 也好, 在 当年 90年代 是 属于 几家 鼎立 的 数据库 公司。 感觉 每周 每个 月都 在 比 benchmark, 包括 硅谷 的 101 的 高速公路 上面 就 会有 sbase 跟 那个 oracle 互相 比较 有趣 的 comment 的 一些 广告。 但 这 两家 公司 都是 让 我 非常 respect 的, 就是 都 是从 一个 提倡 一件 事情, 在 开始 的 时候 业界 并不 认可。 但是 你们 还是 做到 今天 这样 一个 程度。

我们 今天 其实 聊 那个 数据 已经 聊 了 很多 了。 我们 有 很多 的 听众 是 想 创业 的, 或者 做 工程师 或者 怎么样。 我 觉得 你的 一些 经历 其实 是 可以 让 他们 有些 借鉴 的。 因为你 也 在 大公司 做 过, 然后 你 过去 九年 时间 在 创业, 相信 你是 会有 蛮 大 的 一个 感悟。 就是说 我们 今天 有 很多 工程师 在 大公司 工作, 你 会给 他们 一些 什么样 的 advice?

我 觉得 从 职业 的 角度 来说, 就是 没有所谓 的 究竟 一个人 应不应该 创业 的 这个 说法。 我 觉得 这个 其实 很 看 个人 创业 在 绝大多数 时候 有可能 上限 会 稍微 高 一点, 但是 也会 非常 的 艰难。 第一个 可能 就 比如说 我们 2013年 的 时候, daa bricks 的 每个 创始人, 我记得 我应该 每年 拿 的 年薪 是 8万块钱。 作为 一个 burkey P S D, 作为 一个 比较 不错 的 软件工程师, 我 觉得 去 google 或者 去 facebook 的话 非常 轻松。 可能 这个 三四十万 在 第一年 应该 挺 容易 的。 然后 如果 增长 比较 快 的话, 几年 之后 到 上百 万美金 都 是不是 一个 很难 的 事情。

当时 我 每年 大概 就 拿着 8万块钱, 每天 大概 工作 可能 是 45个小时。 那样的 强度 可能 持续 了 我 觉得 起码 有 四年。 这 不是 每一个人 都能 去 做到 的。 而且 比如说 你 已经 有 家庭 需要 负担 这个 家庭 经济 支出, 你 并没有 能力 去 比如说 以 非常低 的 工资。 所以说 你的 太太 是 还是 支持 你的, 这 很 重要。 对对对, 我的 太太 是 比较支持 我的。

另外一个 是 就 从 工作 强度 上 来说, 我 觉得 你 一定要 准备 好, 因为 到时候 这个 会 变成 你的 一切。 还有我 其实 是 比较 反感 为了 创业 而 创业 的, 你 要有 能力 能够 坚持 下来, 我 觉得 你 需要 有 一定 的 使命感。 世界上 有 很多 不同 的 问题, 不管 是 技术 的, 非技术 的, 很多 东西 都 可以 被 大量 的 改善。

如果你 觉得 那个 东西 是一个 你 有 特别 有 大 激情 去 改善 这个世界, 在 那个 方向 上面, 我 觉得 这 是一个 比较 好的 动力。 我 觉得 这样 才 可以 支撑 你 多年 非常 高强度 的 工作。 然后 另外一个 是我 觉得 比较 重要 的 是 创业 的 时候 有 互补 的 联合 创始人。 像 阿里 我们的 C E O 我 个人 觉得 一个 公司 有 founder 做 这个 创始人 做 C E O 的话 是一个 比较 重要 的 事情。 那么 在 创始人 里头 能不能 有一个 适合 做 C E O 的 人我 在 创业 之初 的 时候, 其实 最早 的 时候 我 觉得 每个人 其实 最后 都 应该 成为 一个 C E O 对 吧? 大家 都 想成为 C E O, 但是 其实 不是 每个 人都 适合 做 C E O, 也 不是 每个 人都 想做 C E O。 当你 真正 碰到 那样的 职位 的 时候。

你 之前 会 有些 不一样的 认知。 就是说 不是 所有的 人 有 能力 做 C E O, 也 不是 所有的 人 有 这个 想法。 就 比如说 我 觉得 好像 你是 蛮 对 技术 一直 是 蛮 有 兴趣, 就是 一个 创业 团队 里面 需要你 这样的 人, 但是 也 需要 一个 对 商业模式 商业 更加 敏感 的 人。

其实 一个 公司 一旦 进了 规模 之后, 很多 东西 其实 是 运营 跟 这个 efficiency。 当然 很多 东西 我也 去做, 但是 我 觉得 这个 对于 我 来说, 如果 作为 一个 富 time job 的话, 就算 我 擅长 也 不是 一个 我 最 想 去做 的 事情。 所以 你 需要 有人 真的 会 非常 有 激情 的 每天 看着 不同 的 report。

对对对, 所以说 我 觉得 就是 一个 你 自己的 兴趣 是 非常重要 的。 我是 非常 认可 你说的, 不要 为了 创业 而 创业。 否则 的话 即使 data break 今天 390亿 估值 的 一个 公司, 也是 经过 几年 暗无天日, 也 不知道 是不是 有 希望。 你 要 支撑 这 一个, 光是 靠 想做 创业 这是 不够 的。 而且 我 觉得 像 你们是 最初的 三年, 其实 有的 公司 暗无天日 的 可能 不一定 是 最初 三年。 可能 最初 三年 做 的 不错, 后面 三年 做 的 不怎么样。 所以 每个 公司 都会 需要 有 这样的 挑战, 我是 非常 同意 的。

你 刚才 提到 了 还有一个 观点, 就是 不管 这个世界 怎么 发展, 世界上 有 很多 问题 都是 需要 有 几个 数量级 的 提高。 如果你 能够 发现 这样 一个 问题, 然后 你是 有 激情 的那 就 很 适合。 那你 刚才 也 提到 招 人 这一点, 蛮 有 自己的 想法 的。 有一个 想法 就是 我 招 人 不 只是 用 一个 传统 的 愤怒 的 想法, 你 对 招 人 招 好的 员工 是 怎么 想 的?

普通 业界 绝大多数 公司 当然 都 是一个 非常 standard 一个 方法。 就是你 想象 所谓 的 一个 有点像 销售 一样 一个 final。 在 这个 最 顶 的 时候, 是 大家 申请 的, 大家 申请 那么 然后 recruiters 或者 hiring manager 审核 这个 简历。 然后 审核 完 之后, 开始 做 电话 面试。 电话 面试 之后 做 当场 的 面试, 最后 做 这个, 有些 公司 直接 把 这 一步 都 翘 掉了, 就是 reference call 给 offer, 然后 negotiate, 然后 入 职 吧?

我们 其实 对于 绝大多数, 尤其是 对于 leadership pair 来说, 有一个 比较 特别的 过程。 这个 其实 很 像 学术界 的 一个 招聘 形式。 学术界 尤其 在 美国 有一个 比较 就 所谓 的 tango 模式。 就 教授 你 一旦 进了 一个 学校, 拿到 tenure 之后, 你 就 终身制 了。 所以 当 教授 们 在 招 新的 教授 的 时候, 他 需要 考虑 的 不是说 我 是不是 招 一个 同事, 他 需要 考虑 是我 是不是 招 一个 终身 的 合作者。 这个 时候 你 不 希望 找到 错误 的 人。 因为 学术界 的 大多数人 其实 都是 可能 在 比如说 其他 的 导师 下面 毕业 的 博士生, 可能 做了 一些 博士 之类 的。 大家 做法 就是 我们 去 直接 打电话 问 其他 学校 的 教授, 知名 教授, 他们 现在 有什么 新的 博士生 出来, 这个 博士生 有 什么样 的 长项, 这个 其实 占 了 绝大多数 的 比。

我们 其实 是 结合 了 学术界 招聘 的 这个 模式, 加上 业界 普通 招聘 的 模式。 所以 比较 特别的 一点 是, 打比方 我想 招 一个 做, 比如说 数据库 存储 的 这个 tech b 或者说 一个 director。 这个 时候 我们会 直接 问 业界, 我们 知道 的 做 这 一方面 的 专家。 然后 我们会 问 他, 请问 你 觉得 什么样 的 人 最 适合 这个 职位? 给我 三个 名字, 我会 去 亲自 去 联系 他们, 然后 把 他们 说服 进来。 然后 每一个 一般 愿意 开始 面试 的 时候, 其实我 可能 对他 已经 有 非常 深 的 了解 了。

我知道 的 这个人, 比如说 是 可以 写 特别 多 代码 的, 还是 特别 适合 做 design 的, 还是 特别 他的 这个 personality 什么样 的, 他 会不会 比较 难 共处? 这些 基本上 我们在 其实 在 面试 之前 就 已经 都 知道 了。 然后 面试 的 时候, 当然 我们 需要 我们 自己 需要 有 一定 的 审核 来 给我 了解 这个人 具体 因为你 也 不能说 100% 去 相信 其他人 的话, 然后 结合 这些 之后, 再 进行 我们 最后 招聘 的 决定。 第一个 你可以 招 比较 好的 人, 因为 其实 面试 来说 几个 小时 对 吧? 其他人 和 这个人 共事 了 几年 的话, 可能 可以 给你 带来 更大 的 信息。 另外一个 是 他 也 比较 高效, 因为你 不再 需要 去 找, 比如说 几百个 人 来 就 一个 职位, 你 只需要 找到 几个人, 然后 说服 他们 进来。 在 他们 进来 的 时候 可能 已经 有 百分之七十八十 的 比例, 这 是一个 真正 合适 这个 职位 的。

其实我 觉得 这个 硅谷 其实 还是 有 不少 公司, 或者说 至少 不少 公司, 他们的 早期 也是 非常 注重 推荐 制度。 包括 当年 我们 vmi google 在 最 开始 的 几百个, 甚至 可能 到 1000个工程师, 也是 有 大概 百分之六十七十 都是 自我 推荐。 但 你是 把 这件 事情 是 做 的 更加 方法论 一点 了。 因为 据说 你 还是 给 很多 6A6Z 的 一些 portfolio 公司 去做 这么 一个 报告, 或者说 是 教 他们 怎么 去 招 人是 吗?

对, 而且 我们在 公司 内部 其实 也 把 这个 流程化 了。 我 觉得 大多数 因为 做 recruiting 出身 的 人, 其实 不是 这么 考虑 的。 一个 公司 在 scale 的 时候。

recruiting 一旦 你说的 流程化 是什么 意思?

有 几个, 第一个 是在 我 对 内部 给 所有的 engineer manager 做 这个 培训 的 时候, 我 就 讲 到了, 你 需要 考虑, 首先 你 需要 做 什么样 的 肉。 但是 这个 肉 你 不是 去 盲目 的 找人, 你 应该 直接 问 你 所有 能 找到 的 人, 最 适合 这个 职位 的 人都 是 哪些 人, 然后 你 去 把 他们 抓进来。 然后 还有 的 就是 我们的 比如说 Harry community 里头, 尤其 对 比较 资深 的 人 的话 会 非常 的 侧重点 其他人 对 这个 kid 的 评价。

包括 我记得 最近 一两年 你 也 经常 给我 打电话, 那些人 后来 怎么样, 应该 也是 work out 的 不错。

对, 就是 我们 其实 内部 是 有 很多 数据 的, 如果 有 就是 强烈 的 refer, 然后 很多 这 refer 其实 就是 我们 直接 找 的。 其他人 问 说 这个人 怎么样 的 时候, 然后 有 非常 正面 的 评价 的话, 那么 这个人 会 是一个 比较 成功 的 人才 的。 这个 概率 是 非常 高 的。

就是 我们 说 的 backdoor reference 部门 长 来 的 推荐。

因为 正面 的 reference Candy 提供, 当然 提供 的 会 是 正面, 对 吧?

那 你们 现在 后门 的 那个 reference 也 已经 被 流程化 了, 是吗?

我 觉得 不是 100% 必须。 但是 在 很多 尤其 比较 资深 的 人 上面, 其实 是 比较 重要 的。

我 觉得 你 给 不管 是 给 自己 内部 的 管理者 做 培训, 还是 给 那些 其他 的 硅谷 其他 公司 都 做 这方面 的 培训 不错。 我 最近 其实 也 在 给 一批 first time manager 做 一些 培训。 就是说 他们是 本来 是 google、 facebook 这样 中 大型 公司 的 顶尖 的 技术 人才, 然后 最近 一年 成为 了 职业经理。

相当于 这个 转型 并不是 那么 容易 的。 因为 有些人 其实 还是会 碰到 一些 别 坑 我 比较 好奇。 因为你 自己 也是 创业 的这 一个 过程 当中, 也有 这么 一个 转型, 可以 跟 大家 分享 一下 什么样 的 坑 是 比较 容易 掉进去 的, 有什么 方法论 或者 怎么样 的。

我 觉得 这 跟 公司 文化 其实 也有 关系, 还要 跟 职位 有关系。 但是 常见 的 问题, 第一个 是因为 你 做 技术 为主 的 时候, 你 会 非常 希望 做到 一些 比较 影响力 大 的 事情。 而 当你 作为 一个 管理者 的 角度 来说, 最重 要的不是你 的 输出, 而是 你 整个 团队 的 输出。 所以 这个 时候 其实 你 需要 做 的 很多, 甚至 是 比如说 最 无聊的 事情, 你 应该 揽 上来, 最后 就 看 的 不是你 个人 输出。 我 觉得 这 是一个 很多人 转型 时候 碰到 的 问题。 因为 他们 觉得 我 怎么 感觉 好像 我自己 做 的 这个 东西 远 没有我 以前, 每天 我 干 的 事情 好像 就是 one on one 吹 一下 别人。

然后 还有 一点 就是 并不是 管理 不 适合 每一个人。 有 一些 人 他 比如说 是一个 非常 好的 arctic 非常 好的 designer, 但是 他 不 擅长 去 比如说 跟 别人 说 have tough conversations, 这个 时候 有 两种 选择, 第一个 是 你 硬着头皮 做 下去。 另外一个 是 你可以 选择。 因为 在 硅谷 我 觉得 一个 比较 独特 的 东西。 现在 很多 中国 的 这个 公司 也是 这 样子。 就是你 有 两条 不同 的 路子, 对 吧?

你 不是说 一定要 做成 管理者, 我 个人 在 这方面 转型 比较简单, 因为 可能 因为 founder 的 关系, 我 一直 都 需要 去, 比如说 宣传 一个 公司, 作为 finalize。 但是 从 一个 I C 变成 manager 的 时候, 你 需要 有 很大 的 我 觉得 sell 的 能力。 这 cell 不是说 你 一定要 去 卖钱, 对 吧?

而是 你 需要 去 motivate, 不管 是你 自己 现有 的 团队, 还是 未来 会 来 加入 你 这个 团队 的 人。 这个 东西 很多 时候 其实 变成 了 一个 people dynamics, 是 需要 完全不同 的 处理 的 方法。 因为 人是 一个 不稳定 的 系统, 而 计算机程序 是一个 非常 稳定 的 东西。 你 叫。

我们的 在 Z 我们 公司 的 一个 同事, 是 我们的 总裁 amit。 他 经常 说 一句话 就是 所有的 问题 对他 来说 最终 就是 人的 问题。

对, 其实 从 line manager 往上走 的 时候, 会有 一个 比较 大 的, 我 觉得 是一个 变化。 但是 一旦 有了 规模 之后, 其实 人 他 又 变成 一个 稳定 的 系统。 比如说 你 有 几十个 人的 时候, 你 很多 需要 考虑 的 时候 更 多是 process 怎么做 一个 流程 的 设计, 什么样 的 流程 可以 让 更好 的 达到 这个 效果。 所以 那个 时候 其实 更多 你可以 把 整个 团队 当成 一个 系统, 然后 用 系统设计 或者 优化 的 方法 来 考虑 你 怎么样 来 优化 这个。 比如说 招聘 也是 一样, 对 吧? 这个 recruiting 我们 刚刚 说的是 个 漏斗。 那 我说 到 你可以 怎么样 提升 这个 漏斗 的 效率 呢? 你 把 最后 一步 放在 第一步, 其实 从 工程管理 的 角度 上 来说, 很多 也是 一样的。

对, 说起 流程, 其实我 还 想听听 你 一点 的 分享。 就是 像 data bricks, 现在 虽然 说 已经 是一个 390亿美元 估值 的 公司, 但 其实 还是 一个 飞快 发展 的 公司。 包括 像 我们 z ala, 虽然 说是 已经 上市 了, 其实 还是 属于 一个 hyper growth 发展 最快 的 一个 公司。 在 这个 时候 其实 有一个 比较 有趣 的 挑战, 就是 这个 流程 今天 work 了, 今天 是 好的 流程。 到了明天 或者说 下个月, 或者说 过 几个 月 就 变成 不好 的 流程 了。 这个 流程 也是 不断 的 在 变化。 你是 怎么 思考 对 这个 流程 变化, 就是 怎么 去 应付 那样的 一个 挑战 的?

我 觉得 这 是一个 增长 的 必须 的 一个 事情。 首先 如果你 有 几个 人的 时候, 公司 几个人 或 几十个 人 甚至 几百个 人的 时候, 你 不应该 把 google 的 流程 拿 过来 用。 因为 google 流程 不是 为了 一个 几十个 人的 公司 高效 做 决策 而 设计 的。

但是 你 几十个 人的 时候, 可能 你 公司 的 每一个人 你 都 互相 认识, 信息 流通 非常 的 快。 你 作为 创始人 或者说 作为 一个 工程 总监, 你可以 非常 清晰 的 知道 这个 内部 有 什么样 的 问题。 一个 design or 可以 非常简单, 大家 都 可以 看到。 但是 等我 几百个 人的 时候, 这 已经 突破 了 这个 这 叫 什么? 当时 stop, 反正 你 突破 了 这个 极限, 你 没有 办法 再 看到 一切 的 东西。 这时候 你 需要 一个 不同 的 流程。

但是 从 流程 设计 的 角度 来说, 其实我 觉得 绝大多数 公司 都是 非常 不 高效 的。 因为 每 所有 东西 都在 变。 就算 你 公司 不 增长, 外界 环境 在 变, 客户 在 变。 所以 你 为了 某 一个 时间段 设计 的, 就算 当时 是 最 高效 的 东西, 过了 六个 月1年 之后 可能 就 不 高效 了。 但是 你 没有 可能 去 把 每一个 缺陷 改正。 因为你 没有 足够 多 的 时间, 就 没有 一个 公司 是 没有 任何 的 inefficiency 的。

有时候 还有 比如说 glower efficiency, global efficiency, 我 觉得 作为 一个 管理者, 你 需要 考虑 的 其实 也 跟 系统优化 一样, 对 吧? 你说 系统优化, 你说 我要 把 这个 latency bring down, 你 会 做什么 呢? 你 会 去 找 最大 的 这个 bottle, 然后 你 去 解决 它, 然后 你 去 找 下一个 包裹 美, 然后 去 解决 它。 其实 从 管理 的 角度 也是 一样的, 就是你 需要 找到 现在 来说 对于 你 公司 或者 对于 你 这个 组织 最大 的 inefficiency。 然后 你 想 怎么样 去 解决 它, 然后 继续 下一个 包装 来 继续 这样 一 按 11个1个 的 解决 过去。

所以 另外一个 问题 就是 如果 一个人 太过 完美主义 的话, 其实 做 管理 会有 很大 的 挑战。 因为他 会 发现 所有 地方 都 有问题, 他们 可能 会 觉得 非常 痛苦。 然后 稍微 难 一些 的 地方 就是 因为 可能 从 这个 技术 上, 比如说 你 要 查 laden cy 这 东西 有 非常 多 的 这个 station 的 方法, 有 其 非常 多 的 系统。 但是 从 人的 角度 来说, 你 要 去 怎么 debug 不同 的 究竟 什么 地方 布 这个 efficient 呢? 这时候 我 觉得 就 需要 有 很多 的 one on one step level, one on one 需要 去 了解。 然后 你 需要 有 好的 我 觉得 judd 的 人, 然后 你 把 他们的 不同 的, 我 觉得 在 不同 位置 的 人的 信息 都 综合 起来 之后, 你可以 做 一个 我 觉得 paratimer ation 的 决定。

对, 我们 今天 其实 聊 了 很多 话题, 但 其实 主要是 两个 方向, 一个 就 是从 一个 数据 这个 产业, data break 是 数据 产业 里面 的 一个 龙头, 龙头 之一。 至少 从 一个 完全 是从 营业额 来讲, 还 不是 最大 的 一 几个。 但是 我 觉得 是 今后 十年, data 不是 属于 这批 公司 当中 比较 优秀 的。 然后 你们 这一路走来 的 一些 经历 分享 了 一下, 我 觉得 非常 好。 另外一个 其实 是你 个人 的, 不管 是对 创业, 对 职场 的 一些 看法, 对 一些 方法论 的 一些 看法, 我 觉得 是 也是 很 不错 的那 我们 最后 再就是 其实 把 这 两个 这 几件 事情 都 串 起来。

我想 问 一个 问题, 现在 不管 是在 美国 还是 全球 各地, 还是 中国, 我们 有 很多 也是 国内 的 听众。 有可能 他们 现在 是在 做 工程师, 大公司 做, 但 有可能 想 创业, 或者说 现在已经 在 一个 创业 公司 里面 了。 那 我们 就 讲 一个 具体 的 问题, 你看 即使 是 数据 这个 行业, 我们 前两天 也 聊 了, 感觉 就是 至少 是 已经 是 几百 说不定 几千个 公司 数据 公司 在那边 了。 我 有 几个 问题, 一个 是 需不需要 那么 多 几百个 几千个 公司。 然后 对于 一些 可能 现在 还 在职 场 早期 的, 我们 就说 reno ten years ago, 十年 前 的 reno 的。 对你 你是 希望 我是 希望 今后 做出 一点 什么 成绩 来, 你 会给 他 一些 什么样 的 advice? 我 觉得 这 两个 问题 不完全 一样, 但是 有 一丁点 的 联系。

第一个 问题, 我 觉得 虽然 可能 大 数据 大家 已经 说 了 很久 了, 现在 可能 已经 不 新 这个 词 了。 然后 现在 更新 的 说 A I 跟 machine learning 对 吧? 但是 我 觉得 总体 来说, 从 数据 A 那个 角度 来说, 这 还是 一个 比较 早期 的。 整个 业界 都 其实 比较 早 的, 很多 产品 都 不是 很 成熟。 我说 一个 很 简单 的 例子, 你 要 去 比如说 monitor 你的 data, 然后 当你 data 出现 比如说 异常 的 时候, 给你 发 封 邮件, 这 是一个 非常 难 做到 的 事情。 在 现在, 所以 我 觉得 有 很多很多 的 公司, 我 觉得 这 只能 代表 说 现在 有 很多很多 的 机会。

从 历史上 的 角度 来说, 一个 常见 的 这个 pattern, 这 就是你 会 以 一个 比如说 一个 新兴 的 这个 方向, 会有 非常 多 的 公司。 那么 慢慢的 随着 这个 方向 越来越 成熟, 会有 很多 的 consolidation 对 吧? 比如说 小 公司 会 被 买 掉, 因为 他们的 这个 可能 针对 的 实在是 太 专业 了。 有些 其他 原因 是因为 你 两个 公司 会有 非常 大 的 synergy, 然后 会 被 合并。 所以 我 觉得 短期 来说 我们会 见到 更多 的, 在 接下来 几年 会 见到 更多 跟 数据, 跟 这个 机器学习 相关 的 公司。 然后 从 十年的 角度 来说, 我 觉得 会 少掉 很多。

我 前两天 也 跟 你 就 开玩笑 说, 你 问 我说 是 为什么 有 这么 多 公司? 说 我说 在 group pin 在 美国 一家独大 之前, 在 中国 有 五千 多家 竞争对手。 所以 我 觉得 类似的, 当然 我 觉得 其实 数据 跟 A I 是 比 group pon 是一个 要 大 很多很多 的 一个 市场, 而且 是一个 高利润 的 市场。 因为 它是 一个 纯软件 的 东西, 不需要 有 线下 这个 规模, 所以 可能 会有 更多 的 公司。 但 总体 来说 我 觉得 是 会 往 上, 然后 会 慢慢的 往 下。 随着 这个 业界 越来越 成熟。

所以 从 一个 长期 的 角度 来讲, 我们 这个 音 的 学 不需要 几百几千 家 做 数据 的。 但是 从 一个 短期 来讲, 这些 公司 从 各个 层面 跳出来, 你 觉得 还是 至少 不少 公司 还是 解决 一些 当前 蛮 有 必要 的。 包括 你 刚才 提到 的 data observe, 这个 data 是不是 有 drift, 有没有 对 你 做 AI model 有没有 影响。 其实 你 并不知道 你 怎么 去 能够 系统性 的 能够 去 了解 是不是 数据 有些 变化。 其实 这些 都是 一些 没有 解决 的 问题。

对。 但 我 个人 认为, 就 比如说 那个 例子 可能 觉得 为什么 连 这样 都 做不到? 这 想 起来 还是 感觉 是一个 非常简单 的 事情。 所以 我 觉得 会有 很多 这样的 公司, 但 长远 来说 这些 公司 我 觉得 很难 作为 一个 独立 存在 的 公司。 因为 它 这 实在是 一个 太细 的 一块, 而且 会 更多 的 需要 依赖于 一个。

所以说 你的 意思 是 说 他们 以后 都会 是 bricks 里面 的 一个 feature?

它 不一定 是 debris 的 一个 feature, 但 它 肯定 需要 是一个 更大 的 平台 的 一个 feature。 这 不 代表 这些 公司 会 失败。 因为 很 可能 会 比如说 是 非常 大 的 question, 很 可能 是。

是 并购。 对我 有一个 朋友 我记得 很 清楚, 疫情 两年 前 一段时间 一看, 你 已经 是 很多人 了, 现在已经 是一个 独角兽 了。 就是 做 你 刚才 说 的 那些 data observably 那那 一块 的, 确实 是。 那 再 讲讲 觉得 中国 做 一个 data breaks 有没有 机会?

我 觉得 随着 现在 的 国际 大 关系, 未来 趋势 可能 是 有 更大 的 分裂, 对 吧? 所以 从 这个 角度 来说, 其实 很多 美国 的 厂商 企业 软件, 我 觉得 在 中国 可能 都 需要 有 本土化 的 这个 公司。 但是 我 觉得 有一点 我不是 很 确定 的, 就是 这个 商业模式 上。 因为 在 美国 sas 其实 是一个 非常 已经 被 验证 的 商业模式。 在 中国 SaaS 不完全, 尤其是 如果 往下走 到 数据 这 一块 的话, 不是 一个 完全 已经 被 验证。 我 个人感觉 从 未来 的 角度 来说, 这 是一个 历史 的 所 趋。 但是 很难说 究竟 像 我 刚刚 说 历史 究竟 是 20年 之后 到来, 还是 三年 之后 到来, 还是 五年 之后 到来。 所以 有 一些 大环境 上 的 东西, 这个 我 不太好 预测。 但是 我 觉得 长远 上 来说 的话, 应该 是 应该 是 会有 你 有什么。

last minute 可以 给 我们 听众 讲 的。

我 觉得 还是 要 做自己 有 兴趣, 有 刚刚 说 的 这个 passion 的 东西。 因为 只有 这 样子 你 才 可以, 当然 如果 运气 特别 好, 天上 一直 往 上 你 头上 掉, 或者 往 你 面前 掉 钱 的话, 那么 你 不需要 听我 的 任何 话。 但是 我 觉得 做 一切 事情, 如果 第一个 我 觉得 可能 持久 比较 重要, 不管 你是 创业 还是 在。 一个 公司 里头 做 一个 项目, 我 觉得 一个 东西 要 从 零 做到 成功, 或者说 从 一 做到 100, 这 需要 很 长时间 的 事情。 然后 这里 头 一定 不是 一个 一直 一帆风顺, 每天 都很 开心 的 事情。 所以 你 需要 有 一定 的 激情, 然后 能够 确保 你 自己 能够 支持 下去, 然后 也 不要 太 容易 放弃, 我 觉得 这个 可能 是 最后 比较 重要 的 事情。

我在 database 其实 内部 我们 招聘 的 时候, 我们 也 说 我们 希望 我们 不 希望 job power。 因为 我们 希 我们 不 希望 这个 员工, 比如说 碰到 一个 困难, 或者说 碰到 一件 不 开心 的 事情, 就 直接 离职 了。 因为 这样 非常 难 做出 真正 的 成绩, 需要 有 这个 impact 的话, 不管 是 创业 还是 在 公司 内部, 我 觉得 都 需要 有 一定 的 持之以恒 跟 或者 兴趣 或者 是 激情。

其实 说穿 了 就是 不管 是 创业 还是 做 任何 事情, 没有 什么 太 多赚 快钱 的。 然后 看 一个 自己 认可 的 方向, 我 觉得 你们是 坚持 了。 就 像你 最 开始 说 的 那个 公司 创始 的 时候 有一个 cloud, 对 吧? 不做 本地 部署, 做 那个 云 部署。 第二个 是 给 数据 工程师 提供 价值, 那 一块 是 新兴 的 一个 产业, 相当于 然后 还有一个 不做 定制, 坚持 不做 定制, 做 一个 产品, 这 都是 需要 有一个 长期 的 才能够 看到 今天 390亿美元 这么 一个 估值 的 公司。 如果 是 当初 是 赚 点 快钱 做 一些 定制, 你 当初 是 可能 前 两年 能够 营收 不错, 但是 今天 不一定, 或者说 很 可能 不一定 那么 成功。

但 同时 我 觉得 就是 这个 大 的 方向 看准 了 以后, 其实 还是 有 一些 小的 地方 你 做 不断 的。 不管 是 我们 前面 说 的 方法论? 招聘 还是 企业 流程 的 那个 方法论 不断 的 引进。 而且 其实 还是 有 一些 大 的 决定, 你 也是 在 看 市场 也是 在 变化。 包括 你们 从 一个 自下而上 到 一个 自上而下 的 一个 销售 途径。 其实 这就是 一个 看 了 市场, 然后 去 被 市场 打脸 以后 去做 的 一个 变化。

还有一个 像 开源, 对 吧? 就是 一开始 认为 开源, 就 我们是 开源 这个 Spark 的 老大, 是一个 行家, 人家 会 来 付钱。 但 后来 发现 并不是 这 样子 的。

然后 从 本质 的 问题 去 看, 你们 到底 在 这个 开源 的 Spark 上面 能够 提供 一些 什么样 的 价值? 是 一些 大厂, 包括 亚马逊 这样的 大厂 都 很难。 或者说 是 今天 以 他们 当时 之后 的 那个 基础 是 比较 难 去 跟 你们 竞争 匹配 的 时候, 去做 这些 事情。 所以说 我是 觉得 分享 这些 东西 对 我们 那么 多 的 想 创业 的, 可能 创业 的, 或者说 正在 一些 公司 做 开源 的、 闭源 的, 那些 公司 的 那些 工程师 也好, 或者说 是 做 管理者 也好, 其实 都是 有 很大 借鉴。 所以说 谢谢 你的 时间。 好的, 谢谢, 再见 OK, 拜拜。

这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。

如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。