本 节目 由 生动活泼 制作 播出。
Hello 大家好, 我是 丁 叫, 欢迎 收听 全新 一季 what's next 科技 早知道。 在 预告 中和 大家 也 透露 过了, 新一季 的 节目 我们 会有 前 几季 大家 喜欢 的 嘉宾 加入 我们 来 做客 座 主播。 这 期 的 客座 主播 就是 SARS 领域 的 专家 郝 玉 徐。 How I 现在 是 z galley 人工智能 和 机器学习 的 VP。 他 之前 在 gli lock 投资 机构, 作为 E I R 也就是 入驻 企业家, 他 之前 也是 V M word networking 的 创始人。 这 期 的 嘉宾 是 一 凡曹, 他 现在 是 apple A I 的 产品 经理, 之前 曾任 data break 的 高级 产品 经理。 华为 和 一帆 将 从 宏观 的 角度 来看 一下 数据 平台 业态 的 发展, 讨论一下 明星 数据 公司, 像是 snowfall data bricks 的 商业模式, 产品价格 模型 等等 的 对比, 那 为什么 这 两家 公司 估值 这么 高等 等 的 话题。
最后 这 期 节目 可能 专业性 比较 强, 那不 熟悉 SARS 领域 的 朋友 可以 参看 我们的 show note。 在这里 特别感谢 我的 同事 AManda 精心 编排 的 show note。 这次 节目 我们 也是 采取 了 直播 加 录播 的 形式, 下面 就请 大家 收听 我们 这 期 节目。
欢迎来到 what's nex 科技 早知道, 与 全球 创新 第一 时间同步。 科技 的 革新 不断 改写 着 人类 的 未来。 我们 关注 最新 最前沿 的 科技 资讯, 多层次 和 多角度 的 和你一起 探索 新的 机遇。
嘿 导演, 谢谢 嘿 一凡, 你好你好, 郝伟 一凡, 要不 你 可以 讲一讲 你 之前 在 daa brix 的 大致 的 一个 经历, 这样 大家 大概 对你 有些 了解。 我 就 想你 在 你 在 介绍 自己的 时候, 能不能 回答 一个 问题, 麒麟 的 C E O 给我 打了 一个 微信, 他说 我 对 开源 有 个 总结, 短期内 大家 高估 了 开源 的 价值, 短期内 大家 低估 了 商业 的 难度。 因为你 在 之前 在 da brix 做了 也是 Spark 也 算是 一个 开源 的 软件。 你 对 那句话 有些 什么 评价?
好, 谢谢 浩宇。 我在 data bx 做 的, 以前 做 的 是 产品 经理, 我 管 的 项目 是 做 机器学习 的 infrastructure。 Data bricks 原声 是 Spark, Spark 是一个 开源 的 一个 项目。
说 Spark 就 先 说 一下 这个 大 数据 的 起源。 大 数据 起源 可以 说 是从 2000年 左右 的 时候, 谷歌 推出 了 三个 paper。 因为 谷歌 的 数据量 很大, 所以 他 要在 想 在 摩尔定律 就 快 到期 的 时候, 怎么样 更好 的 去 做大 数据。 然后 他的 那 三个 paper 后来 在 开源社区 被 转换成 了 一些 大 数据 的 一些 新的 技术, 叫 hadoop eco system。 就是 hadoop 是一个 大 数据 的 个 生态区。 然后 在 里头 有 不同 的 东西 可以 做 不同 的 事情。 比如说 HDFS 是 做 分布式 的 一个 存储, 然后 mapreduce 做 分布式计算, 洋人 是 做 资源 调配, resource manager, 然后 还有 什么什么 还是 做 分布式 数据仓库。 这是 第一代 的 这些 大 数据 公司。
后来 有些 大 数据 公司 根据 这 第一代 这些 技术 延伸 出来。 就是 我们 可能 是 以前 听说过 像 考 戴尔 hotton works 这种 公司, 他们 之前 做 的 事情 就是 在 on prem 里头 做 一些 要不是 卖 license, 要不是 提供 support, 然后 帮 一些 其他 的 公司 来 把 这些 开源 的 这些 技术 能 更好 的 运用 上。 然后 大概 从 Spark 是 大概 09年 还是 10年 开始 帧 开始 做, 好像 11年 第一 版本。 然后 到 开源 里头 去, 然后 是对 之前 的 第一代 的 是 做 一些 的 优化。 在 很多 地方, 尤其是 在 做 计算 这块 的 SPA, 只是 做 分布式 的 计算 这块, 对外 produce 做了 很多 的 优化, 就这样 的 计算 更快。
然后 在 同一时间, 又有 一个 新的 一个 大 的 趋势 发生 了。 就是说 上 云 就是 之前 的 很多 这些 大 数据 的 这些 服务, 现在 后来 从 on prime 转到 云端 了。 这样 也就 提供了 像 data base 还有 snowflake 这些 公司 的 一些 机会。 就是说 把 它的 一些 产品 可能 之前 在 on prime 有的 现在 打 到 云上。 然后 因为你 上 云 的话, 那 有 一些 新的 商业模式 就 出来, 就可以 做到 比较 像 SARS1样的 新的 商业模式。 然后 deal a race。
大概是 在 15年 的 时候, 大概 Spark 已经 开源 这个 项目 已经 四五年 的 时候, 开始 创建 这个 公司。 然后 data brix 一开始 主要 做 的 就是说 offer 一个 我们 叫 managed Spark service。 就是说 我 提供 一个 已经 做好 的 Spark 服务, 然后 别人 来 用 就行了。 主要 价值 就是说 有 很多 的 客户 他 想 用 这个 服务, 但是 他 可能 内部 要不是, 因为他 可能 没有 这方面 的 人才, 或者说 他 可能 做 的 这个 服务 需要 一个 很大 一个 团队 叫 def 这块 儿 他 就 看到 他 觉得 宁愿 我自己 去做, 他 保持 这个 服务, 我愿意 把 钱 给 一个 像 data 这种 是 dear 创始人, 都是 做 Spark, 就是 从头开始 做 Spark 的 creator 创始人。 所以 我 宁愿 把 钱 给 这种 真正 做 这个 项目, 从头开始 做 这个 项目 的 人, 他们 肯定 很 懂, 他们 产品 也 做 的 很好。 所以说 我 宁愿 把 钱 让 他们 来 帮 我 去做 这么 一个 manager service, 这么 一个 服务。 所以 我 可以在 上面 利用 Spark 做我的 很多 的 大 数据 的 运行。 Spark 本身 就是 一个 general purpose 的 一个 大 数据 的 一个 运算, 一个 framework。
Spark 其实 这么 多 十年 也是 经过 了 很多 的 变化, 但是 我 觉得 有 两个 点, 我 觉得 可能 是 Spark 后来 商业 成功 化 一个 很 重要 的。 第一个 点 就是 Spark 它 面向 的 客户群 是 很 广泛 的。 就说 我 知道 有 很多 的 开源 的 项目, 它 可能 面向 的 都是 一些 很 底层 的, 就 技术性 很强 的 这些 工程师。 比如说 在 google 的 这些 大 的 这种 硅谷 的 这些 公司, 这些 工程 师才会 去 用 的 这些 项目。 但是 Spark 肯定 是 有 这方面 的。 一开始 的 一些 用户 确实 是 这样的, 但是 Spark 在 他 10年 的 过程中 是 慢慢的 在 上层 加 了 很多 的 abstraction, 有 新的 这个 A P I。 然后 让 一些 可能 技术 没有 那么 强 的 用户 也可以 从 Spark 去 benefit。 比如 他 加 了 很多 S Q L, python 的 这种 interface, 然后 也 中间 加 了 很多 优化, 让 这些 S Q L, python 还有 R 这些 user 能 不需要 很多 底层 这种 java 的 knowledge 知识, 他 也可以 能 更好 的 用上 Spark。 我 觉得 这 是一个 是 他 这种 技术 的 这个 skill set 的 角度, 就是 什么样 的 人 你就是 很 牛 的 这个 infrastructure 的 工程师, 还是 你是 一个 可能 更 上层 一点 的 这种 data scientist, 你 都 可以 the benefit from SPA, 我 觉得 这 是一个 很 重要 的 一个点。
第二点, 我 觉得 Spark 我 觉得 是一个 很大 的 东西, 是 它 本身 是一个 你可以 去 get started, 你可以 去 用 这个 SPA。 但 你 真要 把 它 做好, 做到 优化, 其实 是一个 还是 需要 更多 底层 的 这些 知识 的 一些 东西。 比如说 你 Spark 它 有 两个 不同 的 模式, 一个 是你 做 叫 bash computing, 另一个 是 做 interactive。 这 两个 模式 其实 比如说 interceptor 是一个 比较 难 tRicky to set up 的 一个 模式。
一个 是 交互 的, 一个 是 批处理。
对对对 exactly 对。 所以说 反正 就是 有 他 你可以 想象, 其实 如果你 真要 把 它 做好, 其实 是 需要 一个 就 真是 有 很强 的 这种 expertise 的这 两个 点 我 觉得 让 spar 变成 一个 容易 商业模式, 一个 很 重要 的 一个点 就是 它 面部 的 用户 很多, 什么样 的 人都 可以 用。 但 你 真正意义 想 把 它 用 好, 那你 可能 最好 就 比较 难。 那 可能 最好的 方式 是真的 就是 给 debris 付钱 去 买 这么 一个 manager service。 就是你 有一个 free 的 这些 user 很多, 但是 也有 一些 user 是 愿意 去 花钱 的。
当然 data base 本身 现在已经 在 spar 是 起源, 但 后来 他 也 在 他的 平台 上 加 了 很多 其他 的 一些 产品, 所以 就 变成 现在 一个 更多 是一个 数据 的 一个 平台。 然后 它 也 开始 延伸 到, 比如说 snowflake 现在 做 的 是一个 叫 数据库 的 一个 这么样 一个 产品, 也 慢慢 延伸 到 那边。 所以 现在 就是 SPA 开始 做 起源。 但是 现在已经 变成 了 一个 更多 是一个 数据 的 一个 平台, 可以 做 各式各样 的 数据处理。
这里 为 大家 推荐 一档 新的 节目, 新 增长 学院。 这个 是 我们 生动活泼 和 哈佛商业评论 联合 制作 的 专属 博客 节目。 新 增长 学院 第一季 一共 八期, 内容 来源于 哈佛商业评论 2020 新 增长 大会 的 现场。 我们 把 8个小时 的 商业 思想 精华 浓缩 为 这 八期 的 播客 节目, 全面 解读 新 增长。 这里 你 将 听到 经济学家 管清友 前 达沃斯 C E O 解读 2021年 世界 新格局。 天图 创投 的 创始人 冯 卫东 给 我们 讲述 多年 消费 品牌 投资 的 心得。 还有 字节 跳动 副总裁 谢欣 梳理 的 新 挑战 下, 组织 怎么 通过 新 管理 思维 和 工具 实现 新的 增长。 从 国内 到 国外, 从 理论 到 实践, 从 投资 到 管理, 新 增长 学院 从 不同 的 维度, 不同 的 方面 来 共同 解读 新 增长。
关于 节目, 你可以 在 苹果 podcast 小宇宙, 喜马拉雅 搜索 新 增长 学院, 也可以 在 本期 节目 的 show no 中 找到 节目 的 地址。 我们 期待 你的 收听 和 反馈。 好的, 下面 接下来 我们 再 回到 我们的 节目 中。
因为你 刚才 也 提到, 你说 那个 Spark 作为 一个 开源 产品, 其实 已经 是 2010年 左右 就 已经 开始 有了。 刚才 提到 到 2015年 可能 才 开始 建 公司, 其实 可能 有些 细节 你 忽视 了, 它它 是 2015年 之前 就 成立 了, 其实 前几年 他是 每年 都 开 一个 什么 Spark 的 一个 年会, 他 从 年会 收到 的 钱 要 比 卖 那个 软件 收到 的 钱 还 多。 前面 两年, 所以说 做 开源 从 一开始 做, 其实我 觉得 是 苦哈哈 的。
2015年 16年 的 时候, 其实我 跟 的 几个 创始人 其实 都有 交流。 当时 我 非常 欣赏 的 一点 就是 他们 对 做 匀 特别的 坚决。 因为 就 像你 提到 的, 其实 第一代 的 公司 像 cloudera 当年 都是 做 的 很好。 当然 现在已经 有点 落伍 了, 但是 也 培养 了 一批 人。 当年 cloudera 做 的 很 红火 的 时候, 大多数 的 生意 都是 on prime 的, 都 是在 本地 的。 让 data breaks, 坚决 打 云 的 那个 策略。 我 即使 有 大 的 客户, 大 银行 大 什么, 我 照样 宁愿 不接 单子, 我就是 只 做 云从 一 这一点 上 来讲, 我 觉得 他是 走 在 时代 前面 的。 所以说 从 这个 角度 上 来讲, 他 现在 最近 融 了 一轮 280亿美元, 我 觉得 他们是 totally deserve IT。 但是 我 很 好奇 你 在 那个 公司, 你是 怎么看 开源 那个 问题 的, 你的 真实 感受 我 比较 好奇 一点。
刚才 提到 一点 我 觉得 很 重要, 就是 他 之前 Spark summer 它是 每年 都, 他 其实 有 两个, 一个 是在 北美, 一个 在 欧洲, 对 之前 开源 的 它的 发展 是 起到 很大 的 作用。 其实 data beth 刚 开始, 前几年 他 也是 花了 很多 时间 去 建立 开源 这个 社区。 他 前期 的 很多 客户 也都 是从 这个 社区 类型 走过来 的。 我 觉得 可能 很多 做 开源 的 很多 公司 也有 很多 这方面 的 感觉。 但 我 觉得 从 database 到 可能 中后期, 等 他 到 一种 成长 阶段, 其实 开源 对他 来说 可能 并没有 那么 重要 了。
我 觉得 任何 的 公司 做 以 开源 为 商业模式 的 公司, 前期 开源 确实 非常重要。 就是 你的 很多 客户, 还有 对你 对 自己 产品 的 打磨, 能 从 开源 里头 得到 很多 很 重要 的 信息。 但 当 你的 公司 一到 了 一定量 级 之后, 可能 客户 所要 的 很多 东西 可能 更多 是从 commercialization。 就 是从 可能 更多 你 可能 跟 一个 闭源 的 公司 也没有 特别 多 的 不同点。 当然 你 还要 继续 去 保 维持 这么 一个 开源 的 这么 一个 社区, 那 当然 是 当时 以 开源 的 一个 策略, 就是 他 把 开源 很多 Spark 的 这个 committed 都 招 到 data base 里头 来了。 这样 他 对 以后 他 社区 的 影响 都有 很多 很 好的 地方。 当然 他们 内部 也有 一个 专 团队 是 专门 继续 的 去 开发 在 开源 这边 的 一些 项目。 然后 继续 的 去 想办法 维持 这个 开源社区 的 一些 活跃度。
但是 这个 团队 其实 跟 整个 data bricks 的 团队 做 整个 产品 来说, 其实 还 只是 一个 小 一点 的 团队。 到 后期 的话, 就 我 觉得 这 是一个 对于 开源 商业化 公司 来说, 是一个 可能 要 比 一个 闭源 开源 化 公司 要 多想 的 那么 一个点。 但是 在 后期 之后, 我 并不 觉得 deep 在 很多 看做 了 很多 决策, 很多 地方 跟 一个 比如 snowfall 做 决策 有 那么 多 不一样的 地方。
可能 还有 一个点 是, 我是 觉得 可能 他 会 想 的。 比如说 在 delivers 在 开源, 他他 可能 在 后期 他 可能 会有 很多 的 这种 讨论。 就说 可能 有 什么样 的 东西, 可能 什么样 的 feature 可能 要 去 开源, 什么样 的 东西 不要 去 开源。 所以 我 觉得 后期 可能 会 讨论 一些 策略性 的 一些 决定 的 时候, 什么东西 开源, 什么东西 不 开源, 其实 变成 了 一个 很 很 重要 的 一个 策略 的 后期。 但 前期 的话 可能 如果你 就 开始 就 想 什么东西 不 开源, 是 什么东西 开源 的话, 可能 对你 这个 开源 的 社区 是 会有 一定 的 影响。 我是 这样 认为。
所以说 我 刚才 听 下来, 就 是从 商业 的 角度 来讲, 开源 不 开源 相对 来讲 是 次要 的, 更 重要 的 是 还是 做 产品。 确实 从 工程师 的 角度 来讲, 一小部分 的 团队 是在 做 开源, 但是 绝大多数 的 团队 都 还是 就像 做 一个 不管 是 开源 还是 不 开源, 一个 正常 的 产品, 这 是我的 理解。
对, 到 后期 是 这 样子, 前期 的话 就是 更多 的 是 做 开源 这块 的 事情。
在 前期 开源 跟 闭源 有 很大 的 区别。 就是 前期 因为 你是 开源, 你的 distribution 就 可能 比 闭源 的 要 快一点。 因为 一夜之间 就 呃, 当然 这是 极端 情况, 一夜之间 就有 可能 上 半个 人 来 下载 你的 软件, 闭源 软件 就 不存在 有 这种 可能性。
但是 不管 怎么样, 你 还是 要 做 一个 有用的 产品, 这 是一个 国内 的 一个 做 开源 产品 的 一个 C E O, 他 给我 打了 一个 微信, 他说 往往 大家 在短期内 高估 了 开源 的 价值。 开源 本身 只是 给你 带来 一点 distribution 的 一个 价值 而已, 除了 这 之外 没有 太多 的 完全 的 价值。 他说 短期内 大家 会 低估 了 商业 的 难度, 我 个人 一直 是 这么 认为 的。 尤其是 最近 几年, 有些 朋友 来 问我, 我 做 这个 产品 是不是 做 开源? 我会 跟 他们说, 不能 因为 你是 做了 一个 开源, 你 就 觉得 商业 上面 就 更能 成功 还是 怎么样。 从 某种 角度 上 来讲, 我 觉得 难度 更 高难度 更高 的 原因 是因为 你 做 闭源 的 时候, 你 要 去做 一个 prada market fit, 要 解决 一个 客户 特别 痛 的 痛点。 这 是一个 非常容易 说 的话, 但 其实 是 很难 做到 的 一件 事情。 所以说 你 开源 不 开源 其实 没有 任何 的 区别, 你 还是 要 做 这件 事情。
除了 这 之外, 你 还要 做 一件 事情, 就像 一凡 你 刚才 说 的, 我要 讨论 什么样 的 feature, 什么样 的 功能 是在 开源 的 部分, 什么样 的 是在 闭 园 那 一部分。 这 里面 其实 都是 一些 多余 的 工作。 你 要 去做 的 公司, 一个 工程 团队 15% 的 消耗, 或者说 甚至于 更高 都 有可能。 第三个, 我 觉得 不管 是 开源 和 闭源, 现在 的 一个 大 的 趋势 是 软件 方程 来 运营, 然后 做 云 原生, 来 从云 的 服务 来 让 客户 来 得到 这个 价值。 从 这个 角度 上 来讲, 不 但是 要 写 程序, 还要 去来 运行 这个 程序。 要 比 十年 前、 20年 前、 25年 前, 大家 在 linux free B S D 这种 开源 的 社区 写 完 程序 就是 成为 英雄, 要 走 更多 的 路。 所以说 我是 非常 同意 麒麟 的 那个 C E O look 他说 的这 句 话。
短期内 大家 往往 高估 了 开源 的 价值, 然后 又 低估 了 商业 的 难度。 一凡, 你 能不能 从 你的 角度 来 讲讲? 因为我 我 起了 个 这个 题目, 千亿美元 机会。 其实 这个 千亿美元 有 很多 个 角度 去 讲, 为什么 是 千亿? 光 是从 市值 角度 来讲, 一个 snowflake 一个 data break 就 已经 千亿美元 市值 了。 但是 还有 更多 的 角度 可以 去去 想。
就是现在 很大 的 这个 像 snow fly brace 的 估值, 一个 很大 的 一个 原因 是我 觉得 当然 我不是 做 职业 投资 的。 但是 比如说 华尔街 对 公司 很高 估值, 有 很大 原因 是因为 增长。 增长 的话 我 觉得 大家 对 增长 能 给 snowflake 给 的 很高 估值 的 原因 是 他 觉得 他 能 很 有效 的 增长。
这块 儿 的话, 我 觉得 是 同意 这个 观点 的。 比如说 因为 更多 这些 企业 开始 上 云 之后, 他 开始 想 变得 这种 用 数字化 的 去 digital transformation 的话。 他 可能 想 用 更多 的 数据 去来 去做 一些 很 重要 的 一些 商业 的 决定。 这些 公司 愿意 花钱买 snowfall, 愿意 花钱买 deliberate, 就 说明 他 已经 从 这些 数据 里头 挖掘 到了 很多 的 价值。 第一步 去 挖掘 是从 数据挖掘 价值, 就是 做 一些 可能 B I 的 这些, 就是 把 一些 数分 起来, 然后 做 一些 画 一些 图, 看 一些 趋势。 我 觉得 这个 的 不论是 你在哪 一个 行业, 哪一个 领域, 都 会有 一些 这方面 的 趋势。 所以说 snowflake 我 觉得 做 数据仓库 有 这么 大 的 一个 优势, 是 很多人都 有 这些 方面 的。 如果你 要 用 数据 的话, 你 第一个 主要 的 用 的 场景 就 可能 就是 这个 数据仓库 这个 场景, 任何 的 行业 都会 用 这个 东西。
对, 一凡, 因为 你说 到 数据仓库 这 一个 概念 了, 能不能 从 你的 角度 上面 来 讲讲? 就 snowflake 作为 一个 数据仓库 的 公司, 跟 那个 data break 这 一个 Spark 开源 为基础, 但是 提高 更 多功能 的这 这 两个 公司 到底 区别 在哪里?
就是 真正 利用 数据 的话, 一般 简单 来说 的话 可能 有 三个 应用 场景。 第一个 应用 场景 是当 数据 已经 存在 你的 这个 数据 湖上, 就是 data lake 上 的话。 你 第一步 要 做 的 是 把 这些 原始 的 数据 做 进行 整理 整合 或 清理, 然后 变成 一个 比较 容易 去 读 的 一个 数据, 把 它 存 到 一个 数据仓库 里。 这个 过程 叫 E T L extraction transformation loading。 这时候 的话 会 运用 到 data base 或 Spark。 其实 说 简单 就是 把 一个 很大 的 一个 零配件, 然后 通过 一个 流水线 把 它 整合 一下, 然后 变成 一个 比较 容易 去 consume 的 一些 数据。
就像 一个 仓库 里面, 你 能够 以 这个 零件 放 这里, 然后 标价 是 多少, 然后 旁边 同时 是什么, 就是 大家 一 找 就能 找到, 或者说 也 能够 看到 这个 数据 是 怎么 标注 的。
对的, 完全 是 这 样子。 这个 的话 然后 就会 存 到 一个 数据仓库 里头。 然后 数据仓库 可以 想象 可以 是一个 商店。 因为 他 可能 把 数据 整理 好了 放在 里头, 然后 很多人 就可以 来 用 这个 东。
当然 这是 物理性质, 但是 在 虚拟性 的话 可能 更 复杂 一点。 因为 在 虚拟世界 的话, 你 任何 数据 可以 无限 的 去 拷贝。 你 一个 数据 可能 有 十几个 人 或 二十几 人, 100个人 同时 去 用 这 其中 去 看 这个 数据。 所以说 这时候 就有 很多 很 复杂 的 东西。 所以说 一个 像 sopp 这种 数据仓库 就有 很多 的 价值。 如果 他 能把 这 几 些 在 虚拟世界 这些 很多 这种 不同 的 场景 能 做好 的话, 是 有 很大 的 价值 的。
然后 这些 东西 主要 的 用法 就是 把 这些 数据 重新, 我们 叫做 B I 就 business intelligence。 就是说 像 ta blow 这种 公司, 就是 把 就像 snowfall 里 的 数据 读写 出来, 然后 把 它 变成 一个 很 好的 一些 dash 然后 去去 看。 比如说 我的 销售额 度, 我每 我的 销售量 我 可能 每天 都在 变。 然后 这个 可能 每天 我 都要 从 snowfall 读 一个 东西, 来 把 我 这个 dashboard 的 这个 B I 这个 东西 重新 update 一下。 然后 这 样子 我可以 去 每天 去 关注 这, 然后 从中 做出 决定。 所以 这 是一个 snowflake 的 一个 很大 的 一个 应用 场景。
还有 最后 一块 就是 一个 是 E T L 刚才 的 应用 场景, 一个 是 这个 数据仓库 的 应用 场景, 还有 一块 是 做 叫 机器学习 A I 这边 的 一个 应用 场景, 也 是从 数据 湖 data lake 里头 读 着声 最早 的 树, 然后 也是 做 一些 整理。 然后 把 这些 东西 可能 会 放到 机器学习 的 模型 里头, 去做 机器 模型 的 这种 训练, 这种 model training, 然后 去 产生 一些 新的 模型, 这时候 这个 过程 也是 需要 sport。 但是 最后的 结果 这个 点 是, 比如 是一个 机器学习 的 模型, 或者 是 去 用 它 来 去做 model infect, 用 这个 模型 去 predict outcome。
这是 第三个 应用 场景。 这 其实 三个 应用 场景 中都 是 需要 有 一条 Spark 的。 这个 就是说 大 数据 这个 batch processing 就是 pillow 的 这个 东西, 所以 这是 data base 所做 的 事情。 然后 第二个 进入 场景, 这个 数据仓库 是 snowfall 用 场景。 然后 第三个, 这种 机器学习 模型, 这块 其实 很多 东西 是用 在 Spark。 但是 里头 现在 也有 一些, 比如说 其他 的这 东西, 比如说 像 tensor f fo, 像 python 这些 专门 做 这种 机器学习 模型 的 这种 春运 的, 也有 一些 其他 的 开源 的 项目 也可以 再 用。 反正 一般 是 这 三个 场景。
对, 就是 对 一般 的 人 来讲, 就是说 我们 有 海量 的 数据, 然后 要 提取 一些 商业 上 的 一些 洞见。 从 这个 角度 上 来讲, 不从 技术, 但是 从 一个 概念 上 来讲, 我 觉得 这 两个 公司 是 有相 类似的 一点。 但是 你 刚才 讲 了 就是说 data break 的 产品 可能 更多 的 是 那些。 比如说 数据 工程师, 人工智能 的 工程师, 他们 可能 更 喜欢 用 da bricks。 但 如果说 是 一些 商业 的 分析师, 没有 什么 编程 能力 的, 但是 他 还是 要 去 消化 数据。 对他 来说 这个 交互 界面 来讲, snowflake 对 他们 来说 更好。 能不能 这么 理解?
对我 觉得 可能 另一种 的 考虑 方式 可以 说是 上下游 的 一个 关系。 就是说 可能 还 处于 的 角色 是 上游。 比如说 我 da bris 做 的 事情 是 把 一些 这些 零配件, 把 它 打包 成 一个 最后的 一个 产品, 然后 把 这个 产品 放到 零售 的 商店 里头 去 卖。 Data b 做 的 事情 就是 这个 流水线, 把 这些 零配件 流水线 装成 产品, 然后 放到 商店, 零售 商店 就是 snowfall。 因为 这是 终端 客户 通过 这里 来去 用 这些 买卖 这些 做好 的 这些 产品。 第二个 是 处于 这么 一个 上游 这么 一个 东西。 所以说 你 搭 这个 流水线 跟 把 这个 产品 放在 这里 去 卖给 这些 终端 客户 可能 需要 的 skill set 是 不一样的我 觉得 可能 简单 来说 就 上下游 一个 关系 来去 分析 这 两个 公司。
我们 有 一次 聊天 的 时候, 我也 跟 你 提到, 我说 我 个人 觉得 data bricks 跟 那个 snowflake 这 两家 公司 迟早 都是 会 进 对方 的 领域, 然后 做 对方 的 事情。 然后 至少 从 已经 看到 的 一些 公开的 那些 发布 的 新闻, 看上去 已经 有 这个 很强 的 趋势。 我 觉得 你是不是 从 你的 角度 也 讲一讲 这方面。
的 这个 趋势, 其实 已 一两年 前 已经 开始了。 然后 简单 来讲 就是说 data birth 作为 上游, 他 开始 想做 下游 的 事情。 然后 snowflake 下游 他 可能 想做 上游 的 事情。 就 data 现在 有一个 新的 东西 叫做, 意思 就是说 我可以 让 你 作为 用户 在 数据 湖 data lake 里头 可以 做 数据仓库 的 这些 应用 场景。 他 加 了 一个 他 一直 推 的 一个 产品 叫做 delt lake。 然后 这个 东西 就可以 让你在 数据库 上 做 数据仓库 的 一些 东西。 就可以 把 它 想象 成 我是一个 刚才 之前 讲 那个 临时 配件 那个 example, 就是我 在 我 仓库 里 就 搭 一个 商店, 就可以 让 你 终端用户 过来 买。
然后 就是 data base。 因为 可能 他们 这 两家 公司 的 量级 到达 一定程度 之后, 再往下 成长 的话, 可能 就是 真的 需要 吃 对方 这个 市场。 然后 stone fish 的话 有 大概 我看 这块 有 三块。
第一个 事情, snowfall 做 的 事情, 他 开始 布局 这种 叫 data science machine learning 的 一些 东西。 因为他 之前 他 做 的 产品 是 完全 是 做 数据仓库, 完全 是 做 C Q L。 它 当然 它 有 一些 合作伙伴 punisher 是 可以 做 模型, 你 把 它 疏通 snowfall。 Ly 读出来 以后, 在 他的 这些 partnership 里头 是 做 machine learning 机器学习 之类 的。 但 他 最近 好像 去年 是 直接 投 了 一家 公司 叫 data robot。 然后 这样 能 在 他 把 他的 这个 东西 能 延伸 到 做 机器学习 这块, 这是 第一块。 第二块, 他 自己 也是 在 看 能不能 搭建 自己的 一套 叫做 上游 的 Spark 这些 这 上面 的 服务。 他 现在 也 自己 在 看 大件 这块 儿。
然后 第三块 的话, 他 现在 一直 在 宣传 一个 新的 一种 理念, 就是说 他 叫 E T L。 他 把 传统 的 E T L 改成 E L T, 就是 extraction, loading and transformation. 意思 就是说 我 把 零配件 直接 放到 我的 零售 仓库, 就 不需要 通过 这个 流水线 在 零售店 里头 搭建。 就是 他 把 这个 transformation key 这块 放在 他 数据仓库 里 来做, 这 样子 就会 绕过 data break 这么 一步 了。 这样 它 有 更多 的 上游 的 一些 控制 control, 通过 走 这 三件 事情, 它 也是 在 慢慢的 扩展, 在 也 在 抢 一些 上游 的 这个 生意。
能不能 聊 一下 具体 的 商业 模型, 能不能 聊 一 聊 data bricks? 他 收钱 的 时候, 作为 客户 我要 另外 自己 反正 自己 用 多少 E C 去 云计算 是 另外 付钱, 但是 snowflake 是 打包 在一起, 能不能 讲一讲 在 打包 在一起 跟 不 打包 在一起 里面 的 意味着 什么?
首先 先 讲 一下 这 两个 公司 的 收费 模式 都是 叫, 我们 叫 consumption base model。 就是说 看你 使用 多少, 就是 如果你 使用 的 这个 越多, 那你 付 的 钱 就 越多。 这种 模式 其实 在云上 还 挺 普遍 的。 就是 如果 你是 底层 的 工程师, 你 想 在 amazon 你看 A W 在 上面 去 搭 一个 服务 的话, 比如说 你 要 用到 amazon 上 的 C P U 的话, 那 你的 付费 的 方式 它 就有 一个 更 底层 的 东西 叫 E C two。 它是 按照 这个 时间 来 收费 的。 比如说 你 用 这个 C P 用 1个小时, 那 我 就 你 要付 一定 的 钱。
所以 data bris 跟 snowflake 的 模式 也是, 就是说 你 越 用 的 越多, 就 收 你 费 就 越多, 这个 其实 有 一些 好处, 最大 的 一个 好处 是从 revenue 这个 营收 的 增长 要 很快。 因为 毕竟 你 数据 的 增长 速度 要 远远超过 比如说 要 人的 增长速度。 因为 比如说 一些 老的 这种 传统 的 这种 interprets offer 的话, 这种 to b 的 公司 的话, 它是 按照 人头 来 收费 的。 然后 当 人头 一个 公司 人头 的 增长 跟 一个 公司 数据 的 增长, 那 肯定 是 不在 完全 不在 一个 量级 上 的。
然后 第二点 是 它 如果你在 已经 上 云 的话, 其实 你是 挺 熟悉 这种 模式 的。 因为 无论是 A W S 还是 microsoft, 还有 google, 他们的 收费 模式 都 是以 这种 consumption base 这种 模式 来去 收费 的。 大致 来说 是 按 这个 模式。 但 其实 这 两个 公司 有一个 很 巨大 的 一个 区别。
因为 你可以 想象, 其实 如果你在 stone face 上, 比如说 跑 1个小时 的 钱, 其实 你 有 两个 成本。 第一个 成本 是 底层 A W S 这个 钱, 就是说 刚才 我 提到 E C two, 其实 说白了 就是 C P U 这个 钱 你 要 付给 A W S。 第二个 钱 是你 snowfall L Y 在 你 上个月 又 收 了 一层 钱, 因为 snowfall y 自己 也要 赚钱。
但是 他们 两个 收费 方式 其实 是 不一样的。 Database 是 把 这 两个 成本 是 分开 的 收。 比如说 当你 在 data 上 跑 了 1个小时, 你 花了 一块钱。 然后 你 到 你的 build 里头 去, 你可以 看到 你就是 我 五毛钱 是 付给 了 debris, 五毛钱 付给 了 这个 A W S。 那个 五毛钱 的 A W S 是我 之前 就 跟 他们 谈 好了 这个 收费 模式, 如果我 要 自己 跑 的话, 我 就要 交 那么 多 钱。 而在 snowfall y 的话, 你 就 看不到 这些 东西。 在 snowfall 他 可能 只 收 一个 钱, 但是 你不知道 具体 底下 有 多少钱 是 给 到了 A W S E C two, 多少钱 是 给 到 snowflake。
其实 这 两种 的 收费 模式 都有 好处 也有 坏处。 就是 snowy 收费 模式 它 只 给你 一个 价格, 它 有 自己的 一个 定价, 它 叫 snowy virtual warehouse, 就是 虚拟 的 是 数据仓库。 这个 的 好处 就是说 它 可以 底层 可以 做到 非常 大 的 优化。 因为 如果你 自己 做 一个 数据仓库, 可能 你 要 花 五毛钱 给 这个 E C two, 因为你 要 自己 去做。 但是 如果你 用 stone one fig 的话, 可能 这个 成本 只要 两毛钱。 因为 stone fig 更快, 所以 你 不用 花 那么 多 C P U 的 时间。
但是 从 使用费 的 角度 去 想, 我 帮你 省 从 五毛钱 省 到 两毛钱, 就是 如果我 帮你 省 的 越多, 那 我 赚的钱 是不是 就 越少 了? 反而 所以 他 就是 想, 那 我 要不然 我 这 样子 弄, 我 把 这个 成本 完全 就 全都 hide 掉, 我 直接 就是 收 你 一个 钱。 这 样子 的话, 我 底下 这个 底层 可以 跑 得 越快, 只要 我 收 你 这个 钱 比 我的 竞争对手 快 就行了。 底下 这个 A W S E C two 的 钱, 就是我 帮你 这个 节约 的 钱 越多, 你 也 看不到 这是 snowfall 收费 方式。 所以 从 客户 角度 可能 收费 是 收 0.9元钱, 但 可能 底层 它 只有 一毛钱 的 E C two, 它 可能 中间 赚 了 八 毛钱。 它 如果 变快 的话, 那 database 那边 可能 就是 dev 收 的 钱 和 E C two 的 钱 都 反而 降低 了。 所以说 这就 是从 自己 产品 本身 要 加速 的 角度 话, 司空 费 是 有 这样 一个 优势。
但是 它的 缺点 就是 因为 它 成本 中 包含 了 E C two 的 钱, 所以说 它 要 支付 给 E W B S 这 一套 费用。 所以 从 他的 角度 话, 他是 有 要 去 take 抗 这么 大 一个 风险 的, 而 soft data ABS 永远 不用 去 担心 这个 风险 的。 因为 反正 这个 两个 成本 是 完全 分开 的。 客户 怎么着 都 要付 这个 E W B S, 但是 他 跟 E 间 的 合同, 而 客户 跟 他的 合同 只是 收 的 在 上面 所 charge 多余 的那 部分 钱。
所以说 客户 用了 da brix 下面 的 A W S 的 要 交 的 费, 并 不算 在 da bricks 的 营收 里面。
不算 在 的 营收 里面 的。
我 觉得 这 是一个 蛮蛮 有趣 的 一个 信息。 上次 我们 聊 的 时候, 我说 他 最近 不是 融 了 一轮 280亿美元 的, 然后 公开的 消息说 大约 是 营收 大概 在 四 亿多美元 的 一个 盈利 收。 然后 snowflake 我不知道 最近 一个 季度 是 怎么样, 但是 肯定 要 比 4亿美金 要 多不少。 但是 考量 到 data bricks 的 那个 营收 里面, 其实 没有 A W S 的那 一部分 收费。 但是 snowflake 其实 是 由 A W S 那 部分 收费。 如果说 是一个 是 4亿美元, 一个 是 6亿美元, 其实 可能 最终 是 两家 公司 的 营收 其实 是 差不多 都 有可能。
对 所以说 当 dee a bis 上市 的 时候, 大家 应该 能 发现 debris 的 毛利 是 比是 高 的。 第二个 是从 至少 从 毛利 的 角度 是 更能 赚钱 的对。
因为 而且 我看 了 一下, 就是 他们 这个 月 融 了 一轮, 就是 280亿美元 的 一个 估值 的 这么 一轮。 我在 想 他 为什么不 直接 上市? 因为 上市 说不定 现在 是一个 很 好的 机会。
C E O 给 的 一个 理由 是 说, 我们 如果 是 做 一个 这 还是 在 一级市场 的话, 就 不需要 经历 二级 市场 这个 波动。 这个 波动 是 可能 从 哪里 来 呢? 就 是从 调整 一下 那个 收费 的 一些 方式 方法。 我不知道 这个 收费 的 方式 方法 是不是 牵涉到 你 刚才 说 的这 一点。 但是 他 有 提到 作为 一级 在 一级市场 我 更加 容易 的 就能 去 推。 在 二级 市场 可能 就会 不可 预测 的 一些 反馈, 所以说 他 觉得 在 一级市场 待 的 时间长 一点 也 蛮 好。 对 这一点 你 有什么 快速 的 想法 吗?
我 觉得 这个 可能 是 跟 他 新 出的 产品 有关系。 我 觉得 可能 大家 都 可以 关注 一下, 当 他 新 出 一些 新的 产品, 就是说 pressing 方面 会有 什么 变化。
对, 其实我 觉得 我们 已经 讲 了 这 两家 公司 讲 了 蛮 多 了的, 能不能 我们 讨论一下 这 两家 公司 竞争对手。 比如说 那个 snowflake 它 有一个 很大 的 竞争对手, 其实 是不是 竞争对手 我不知道, 但是 表面 上 一个 竞争对手 是一个 做 本地 的 on prime 的 teradata, Terry data 是一个 很 有趣 的 公司, 是 一家 时间 蛮 悠久, 而且 那个 营收额 在 至少 到 目前为止 是 远远超过 snowflake 的。 一家 公司, 而且 snowflake 的 市值 好 几百亿 的, Terry data 其实 市值 很低, 才 大概是 forbid lion 40多亿。 所以说 我是 蛮蛮 好奇, 你是 怎么看 云 的 跟 本地 的 on plant 有 这么 大 的 区别 吗?
Terry data snowy 肯定 是 有 竞争 的 关系。 我相信 可能 也有 一些 公司 是 说, 我想 把 Terry data 换掉, 然后 上 云, 然后 用 snowfall 来做 这套 东西。 我 觉得 可能 还有 一层 的 竞争 关系 是 可能 terr data 跟 A W B S 之间 竞争 关系。
因为我 觉得 一个 企业, 比如 他 现在 在 用 tire data, 然后 他 可能 第一层 考虑 的 问题 是我 是否 要 上 云。 因为我 第一层 要 做 的 事情 是 我要 决定 我要 上 云。 然后 我 再会 看 这个 云 里 的 一些 不同 的 这种 产品 或 服务 能不能 帮 我 做 的, 就 可能 做 的 更好。
因为 上 云 的话 是一个 很大 的 决定, 而且 你 上 云 的话 是一个 很 漫长 的 一个 过程。 这 对 大部分 企业 来说, 比如说 我决定 要 上 云 的话, 我 第一步 首先 要 让 我公司 的 财务 或者 是 I T, 还有 可能 肯定 是 C E O 或 board level 的 人 要 同意。 就说 我们 以后 愿意 把 一部分 数据 放到 云上, 然后 做 这种 决策。 就是 在 这种 决策 是 一 要 做 决策, 二 还要 去 经过 一个 很长 漫长 时间 的 一个 审核。 就 你 一旦 上 一个 云, 一般 我 听说 是要 至少 要 一两年 甚至 更长 的 时间 做 这么 一个 审核 的 一个 过程。 当 这个 决策 都 已经 做 的 可能 差不多 了, 或 已经 把 开始 数 往 上 挪 到 A W 边上 的 时候, 这时候 可能 他 会 考虑到 要把 这个 东西 从 我的 这个 东西 从 tire data 挪 到 snoopy c 上面 去。
我 可能 想 补充 这个 点, 可能 这个人 竞争 关系 不光 只是 区别 于 Sophia terrace ata 之间, 可能 还有 一部分 是 on prime 跟上 云 这么 一个 过程, 或者说 是 Terry data 跟 之间 的 一个 关系。 因为 上 云 之后, 他 可能 还要 考虑到 很多。 比如说 我 数据 在云上 的 一些 一些 security 的 一些 问题, 一些 各式各样 的 问题。 这些 东西 可能 是 更多 是在 A W B S 上面 可能 需要解决 的。
我想 问问 你 对 这个 竞争 的这 一块 snowflake, 或者说 是 A W S google competitive landscape 这个 竞争 格局 你是 怎么看 的? 会不会 说 虽然 说 那个 snowflake 现在 做 的 很 不错, 但是 大厂 会有 怎么样 的 优势。
你是 怎么看 的? 从 A W S 或 google G C P, google cloud platform 这些 公司 的, 可能 他 考虑 有 两个 层面。 第一个 层面 是 比如说 我 作为 G C P, 我 考虑 是 怎么 去 跟 A W B S 竞争, 怎么 去 跟 on prime 这些 像 cloud 尔 去 竞争。 如果 跟 这些 公司 去 竞争 能 更好 的 竞争, 就说 我在 整个 这个 生态圈 要有 很很 完善 的 生态圈。
如果 很多 我的 客户, 就 G C P 的 客户 是 可能 是 希望 有 要 snowflake, 如果我 没有 snowfall, 因为 可能 我会 这个 客户 就会 流失 到 D W 上去。 所以说 从 他的 角度, 他 像 snowfall deby 这种 已经 就是 一定 客户群 的 这种 公司 来说, 没有 他在 这个 平台 上 可能 最大 这个 层面 可能 是一个 很大 的 损失。 所以 从 这个 方向 他 可能 是 会 想 把 这种 公司 拿上来, 因为 这种 云 的 公司 一个 很大 的 一个 策略 是 先 想 让 这些 公司 他的 客户 把 数据 先 挪 到 他 这个 平台 上。 模具 平摊 以后, 如果你 比如说 A W S, 比如说 你 数据 云上 挪 上来, 是我的 平台 是 不要 钱, 如果你 要把 数据 挪 出去 是要 交钱 的。 所以说 你 只要 一旦 就说 这 一旦 你 上钩 了, 那 我 肯定 会 想 各种各样 的 方法 把 你 留 到 我 这个 平台 里头 去。
从 这个 层面 的话, 比如说 有 snowflake 或 有 data base, 对他 来说 是 可能 是 挺 重要 的 一步。 当然 一旦 上去 之后, 他 也有 他们 自己 在 每个 云 的 这个 服务商, 他 有 自己的 服务 在 上面 有 一家 加成 这种 SaaS 服务。 就说 google 有 这个 query, snowfall 有 ship, 他们 这 两个 之间 肯定 是 跟 snowfall 或 跟 debris 是 有 一定 竞争 关系 的那 这 样子 的话, 就像 enterprise software r 我 觉得 你 肯定 是 跟 有些 人是 以 竞争 关系, 有些 人是 合作关系, 就是 friend mii 肯定 是 always excess 在 这个 领域 了。
我是 觉得 如果 现阶段 主要 的 竞争 是 说是 跟 A W S 或 像 从 G C P 角 从 A W S 竞争 的, 可能 消费 很 重要。 但 如果 比如说 到了 一定程度 之后, 他 可能 更更 要 考虑 是 说 我 内部 这些 我在 我 平台 上 已经 有了 这些 服务。 对我来说 可能 提升 这些 服务 像 被 create 方面 的 这种 revenue 的话, 可能 更 重要 来说, 他 可能 会 更 关注 到 跟 snowflake 的 这种 情况。 但 我 觉得 我的 感觉 从 G C P 的 角度, 现在 它 还是 处于 一个 想 让 更多 客户 上 他 这个 生态圈 的 这么 一个 环境。 所以 我 觉得 从 这个 角度 你 也 看到 最近 G C P 也 把 它 放到 他的 平台 上了。 G C P 也有 一个 东西 叫 data proc, 其实 也是 说白了 也是 跟 data bricks 有 直接 竞争 关系 的 一个 东西。
那个 chat role 里面 有 几个 问题, 有一个 问题是 说 snowfall 和 data bricks 都想 进入 各自 的 领域, 从 上游 往 下游, 下游 往 上游, 但 哪一个 更难 一点? 说穿 了 就是 哪 一侧 的 护城河 更加 高 一点。
我 觉得 首先 他们 俩 都想 进 到 对方 的 这个 领域, 但 其实 他们 进 到 对方 领域 的 这个 打法 是 不一样的。 就是说 data b 的 打法 不是说 要 再 建 一个 数据仓库 来 跟 snowfall 直接 竞争。 D A 的 打法 是 我在 的 数据 湖上 da lake 上 加 这么 一个 数据仓库。 因为我 觉得 这 两个 公司 已经 很 成熟 了, 也都 知道 如果我 直接 想 跟 对方, 直接 在 对方 最强 的 产品 上 直接 竞争, 是 不可能 竞争 过 对方 的。 所以 我 必须 得 换 一种 打法 去 打。 所以 database 就是说 我在 数据 湖上 可以 建 数据仓库, snow fake 的 角度 就是说 我在 数据仓库 里头 可以 让 你 做 一些 transformation。
所以说 我 觉得 可能 这个 问题 不是说 谁的 护城河 最高。 我 觉得 可能 这个 问题 更 多是 这 两个 不同 的 打法。 可能 哪种 打法 长期 会能 真正 的 变成 一个 行业 界 的 一个 center, 一个 行业 界 的 一种 模式。 因为 毕竟 这 两种 做法 都 还是 很 新, 就 都是 很 新的 一种 模式。 所以说 看 这 两个 公司 接下来 看 他们 怎么 发展, 然后 看 企业 是 怎么 去 迎合 这种 新的 这种 理念。
还有一个 问题, snowflake 和 data bricks 有没有 进 中国 的 市场 或者 中国 的 云。
我 不太 清楚。 我 觉得 这个 可能 大家 关注 新闻, 我 觉得 我 如果 有 新闻 的话, 他们 这 两个 公司 应该 都 会说 出来 的。
还有 个 问题 说 snowflake 比 red shift 或者 google 的 big quality 的 成本 要 高。 因为 他们 一个 是 A W 是用 自己 家的, 一个 是要 付 别人 钱 的。 这个 问题是 是 说 是不是 要 靠自己 产品 有 足够 的 去 竞争力, 才能够 抵消 掉 这么 一点 的 成本。 你是 怎么看 这个 问题 的?
有 两个 方式 可以 去 想 这个 问题。 第一个 问题 就是说 这个 snowflake 就像 我 之前 讲 的, 它的 pricing 里头 是 不包括 这个 东西 的。 就是说 它的 这个 因为我 知道 像 A W S 它 可以 帮助 自己的 这个 服务, 可能 会 提供 一些 sport instance, 会 把 一些 spins, 可能 就是 先 给 自己的 服务 什么 之类。 这 都是 他 可以 做 各式各样 事情, 来 降低 他 自己 服务 的 底层 的 这个 info 的 成本。 就像 我 之前 讲, stop 是 把 底下 付给 这个 E W S 的 成本 是 害 得 住 的。 也许 它 成本 很高, 但是 从 客户 角度, 它的 产品 真的 非常 优化 的话, 把 那个 成本 就是 少 赚 点钱, 然后 也 同时 能 做到。 比如说 red shift 还要 更快 或 更便宜。 我 觉得 这是 就是说 他 把 这个 他 成本 包括 在 它 里头 的 一个 优势, 就是 客户 是 看不到 这一点 的, 我 觉得 这是 第一点。
但是 我 觉得 第 2.1个 可能 一个 也是 挺 重要 一个点 是从 某种 角度 so free 代表 是 很大 一个 客户。 因为你 用 sophie 其实 也是 在 用 底层 的 E C two 这些 东西。 我 觉得 关键 是看 他是 想 在 现在 这个 阶段, 是 E C two 更 重要, 还是 reship 或 被 Carry 更 重要。 因为 Sophia t 也是 要 付钱 的, 如果你 用 Sophia 的话, A W S 和 google 也是 赚钱 的。 在 这方面 我 觉得 A W S 或 google 不会 把 snowfall 压 到 就 做得 很 绝, 然后 把 这个 snowfall 给 剔掉 出去。 就像 我 之前 讲 的, 他们 还有 要 考虑 A W S 跟 G C P 之间 的 竞争, 还有 A W S 底层 E C two 的 这个 钱, 从 通过 可以 从 索 芙 来 赚。
你们 过去 几年 通常 是 跟 谁 竞争? 就是说 你们的 竞争者。 因为 我们 刚才 聊 了 很多 snowflake, 很显然 有 很多 从 那个 Terry data 到 那个 A W S 的 red shift, google 的 big query。 那 data bricks 呢? 这个 data .
bricks 的 竞争对手 就 多 很多 了。 主要原因 是一个 data bricks 的 平台。 它 因为 Spark 是一个 能 做 很多 应用 场景 的 这么 一个 general purpose 的 一个 数据 的 引擎。 所以说 data 就 是从 一开始 他 也能 做 很多 的 东西 在 它的 平台 上。 比如说 你可以 做 学习, 你可以 做 batch, 你 也可以 做 C Q L 这些 不同 的 应用 场景。
最后 就 变成 第二 是 有 很多人 竞争, 就说 做 batch 这边 的话, 比如说 google 有 data, proc A W S 用 E M R, microsoft 上 有一个 东西 叫 H D I deb, 也 跟 爷爷 是 做 machine learning 这块, 机器学习 这块。 那 说明 他 也 跟 一些 做 机器学习 的 公司 会有 一些 竞争。 比如说 在 A W S 上 有 si zh maker, 其实 它 跟 C H maker 是 有 一定 的 竞争 关系。 然后 还有一个 公司 叫 cool o 其实 也是 做 这种 Spark 的 money service。 像 domino 这种 公司 也是 有 一些 竞争 关系。 因为 他们 毕竟 是 也是 做 这种 机器学习 这块 儿 的, 甚至 就是 因为 debris, 你 也可以 在 这 跑 这个 R 这些 东西, 所以 你可以 说 也 studio 有 一定 竞争 关系。
对 SQL 这边 的话 当然 就是 跟 snowflake 的 竞争 关系。 但 我 觉得 主要 的 竞争 关系 的话 还是 E M R C H maker 是一个 很大 的 一个 竞争 关系。 还有 snowflake 也是。
跟 传统 的 hadoop cloudera 跟 hot work 有没有 竞争 呢? 我 觉得 这个 就 跟 之前 你。
刚才 问 snowflake and Terry data 是我 觉得 是一个 很 相似 的 一个 问题 了。 就是说 是 有 一 竞争 关系, 但 其实 大家 的 层面 其实 是 有点 不一样的。 因为他 毕竟 像 克劳德 尔 是 主要 还是 在 amp 这边。 他 如果 一个 公司 要 从 卡拉尔 上 amazon 上 的话, 他 可能 客户 第一个 想 的 东西 是否 要 上 A W S, 然后 要 构建 这 整个 一个 很长 的 一个 程序 来 上 A W S。 所以说 我 觉得 是 有 竞争 关系。 但是 我 觉得 就是 像 之前 讲 的, 可能 更 多是 云 跟 on prime 之间 的 一个 竞争 关系。
你看 你 在 data break 看到 的 那些 那么 多 的 应用 场景, 是不是 绝大多数 都是 机器学习, 还是 说 机器学习 还是 少部分。 但是 是在 快速 发展, 我 这 机器学习 是 其中之一, 但是 不是 一个 非常 倒霉 的, 非常 极具 代表性 的, 还是 说 还是 在 增长 过程中。
我 其实 在 db 之前 是 做 机器学习, 就 大家 机器学习 application 的, 我 去 这 不是 一个 主要原因, 就是 因为我 觉得 做 机器学习, 比如说 是 做 to b 的 这个 模式, 就是你 给 别的 客户 来 搭 机器 模型。 这个 模型 其实 是一个 很不 赚钱 的 一个 事情。 因为你 每个 客户 他的 树, 他的 东都 很 不一样。 可能 你 花 一两年 只是 去 搞清 他的 树, 然后 做 一些 这种 feature engineering 特征 的 这种 工程 之类 的。 然后 我 觉得 反而 赚钱 是你 卖 这种 底层 的 infrastructure 更 赚钱。 因为 这种 inf structure 是 所有人 都 可以 用, 所以说 我 才 跳 到 跳 到 data bricks。 我 觉得 苹果 跟 data rx 客户 是 挺 不一样的。
之前 我 有 个 点 没有 讲到, 就是说 你 一个 产品 到底 做 to b 这个 公司 到底 能否 变成 很很 好的 商业化。 有的 时候 可能 在 我们 硅谷, 包括 可能 有的 时候 是一个 不好 的 一件 事情。 因为 我们 可能 会 被 硅谷 周围 公司 做了 很多 事情 而 被 影响。 但 我们 可能 忽略 了 那些 硅谷 公司 真正 需要 的 一些 东西。 我 觉得 机器学习 A I 这种 东西 在 我们 硅谷 这些 公司 确实 做 的 都 很多, 然后 有 很多 的 应用 场景 也 比较 成熟。 但是 我 觉得 可能 除了 硅谷 之外 的 大部分 的 企业 来说, 这块 儿 可能 还是 处于 一个 比较 早期 或 摸索 性 的 一个 阶段。 将在 任何 企业, 如果 你是 做 一个 摸索 性 的 一个 东西 的话, 可能 你的 愿意 付费 的 这个 能力 就 比较 少 一些。 这个 跟 比如说 在 苹果, 我们 有 有 一些 应用 A I 的 应用 场景, 然后 我 确实 是 需要 去做 这些 东西。 我在 这方面 愿意 付 的 钱, 还有 要 对 这个 产品 的 需求, 跟 你 可能 data base 那些 客户 可能 比 起来 还是 有 挺挺 不一样的 一些 地方。
是因为 data bricks 的 很多 客户 是 高科技 公司, 然后 在 苹果 更多 的 还是 那些 消费者。 比如说 用 siri 这些 功能 是不是 一定要 用 机器学习 去 解决? 可能 还是 在 一个。
不 不是 不是, 正好 是 相反, 就是 苹果 是 它 我 搭建 的 这个 应该 是 给 苹果 内部 的 工程师 来 去做 的。 苹果 它 有 很多 已经 落地 的 这种 A I 的 这种 场景。
明白, 所以说 苹果 里面 你 觉得 那个 应用 的 更加 的 sophist, 更加 的 成熟。 对的。 从 data bricks 的 角度 来讲, 目前 还是 有 很多 客户 是 硅谷 以外 的 客户。 从 这个 角度 来看, 他们 对 机器学习 的 认知 或者说 付费 意愿, 目前 还是 在 早期。 从 你的 角度 来讲。
对, 是 早期。 但是 我 觉得 有 一两个 趋势, 我 觉得 是 很很 有意思 的。 我在 data base 看到 第一个 优势 是 当我们 说 机器学习 的 时候。 其实 机器学习 有 不同 的 应用 场景。 有一个 应用 场景 叫 data science exploit analysis。 其实 就是 意思 就是说 我 其实 不是 做 机器学习, 但 我是 用来 去做 一些 是 数据 的 挖掘。
因为 python 的 一个 最大 的 优势 是 python 有 很多 这种 包裹 都 已经 做好 的。 所以说 如果你 要 做 更新 一级 的 analysts 的话, 你 python 是 比 S Q L 是 有 很多 的 优势 的。 因为 它 有 很多 已经 做好 的 包裹, 你 直接 上头 拿 下来, 可以 做 很多 比较 深度 一点 的 研究。
我 看到 很多 企业 很多 分析 就是 这个 是你 光靠 C Q sex 一些, 然后 filter 一些 join 一些 table 是 看不到 的。 我 觉得 可能 下 一波 的 这种 data 的 一个 应用, 在 一些 比较 可能 应用 data 比较 稍微 多 的 一些 企业 里头。 他 可能 会 想 我要 更多 深度 的 挖掘, 从 数据 里 挖掘 价值。 那 这时候 SQL 就 不够 了。 那时候 我要 去 看 一些 这种 它 叫 数据 科学家, 对 吧? 就是 数据 科学家 很多, 其实 最简单 的 就是说 用 拍 嗓子 去做。 他 不一定 是 做 一个 机器学习 模型, 但是 他 会 用到 很多 python 的 这些 包裹 来 去做 一些 深度 的 挖掘。
这块 儿 的话 其实 增长 是 很大 的。 之前 我在 database 管理 的 那个 产品 是 19年 data base 成长 最快 的 产品。 当时 我们 后来 仔细 研究 了 一下, 发现 真正 客户 在 用 这个 产品 的 主要原因 不是 做 机器学习, 主要是 做 这种 python 做 一些 这种 深度 的 挖掘。 然后 我在 苹果 也有 很多 这样的 部门。
其实 而且 这样的 部门 你可以 想象 是一个 如果 真 增长 很快 的话, 是一个 量级 很大 的。 因为 你的 每一个 的 team, 一个 团队 可能 都 需要 一个 team。 就 比如说 可能 你的 销售 可能 有 很多 数据, 可能 你 需要 一个 数据 科学 团队 来去 帮 他 挖掘。 你的 market 的 营销 那边 需要 一个 你的 Operation, 你的 运营 那边 还有 很多 数据 要 需要 来 挖掘。 所以 在 一个 像 比如说 我们 有 几 在 第二个 有 几个 大 的 客户, 他 里头 有 十几个 团队 都是 做 这种, 他 叫 数据 科学家。 然后 有 一些 是 做 machine learning, 但 大部分 都是 做 这种 更深一层 的 这种 advances analytics, 就是 机器学习 只是 一部分, 就是 有的 时候 可能 用到, 有的 时候 不用 到。
你 刚才 说 的 都是 拍 Spark 的, 还是 范围 比 这个 更广。
就 拍 Spark 只是 就是说 你可以 用 拍上来 做 sport。 但是 你 做 完 之后, 你 可能 我 看到 一个 比较 多 的 应用 场景 是 可能 你 数据 前期 数据 很大。 因为 很多 包裹 只能 在 单机 上 跑。 像 很多 什么 典型 的, 包括 像 囊 派、 pandas 这种 只能 在 单机 上 跑。 所以 我看 比较 常用 的 一个 这种 数据 科学家 做 的 场景 是 他用 python 把 这些 大 的 数据 整合 成 一个 小的 数据, 可以在 单机 上 跑。 然后 用 单机 上 跑 这些 classic 的 这些 无论是 这种 分析 的 这种 包裹, 还是 这种 机器学习 的 包裹。 当然 现在 也有 一些 这种 包裹 可以在 做 一个 分布式 去 跑, 但是 这 样子 还 不是 很多。 之前 其实我 在 libs 做 的 一个 产品, 也是 做 一些 看 一些 比较 常用 的 一些 这种 算法, 能不能 把 它 做 的 更容易 做 分布式, 然后 这 样子 能 让 这些 人 在 data b 上 跑 的 更好, 这也是 我 当时 产品 的 一部分。
所以说 至少 19年 的 时候, 你 还在 data bricks 的 时候, 你是 看到 有 就 是从 你们的 用户 角度 来讲 是 有用 机器学习。 但 你 觉得 在 当时 还是 属于 机器学习, 就是 少量 的 一个 应用 场景, 更多 的 可能 还 不需要。 当然 这 肯定 是 机器学习 一个 成长的 一个 比较 高速成长 的 这么 一个 应用 场景。 这个 归纳 是不是 符合 你 刚才 说 的?
对我 觉得 可以 这样 理解。 但 我我我 当时 提 的 一个点 就说 可能 机器学习 在 上面 还有一个 层次, 做 数据 科学 这个 层面 我 觉得 其实 增长 的 是 挺快 的。 我 觉得 很多 的 企业 也 慢慢 在 去 想 把 这个 数据 科学 这 一块儿 做得 更深, 然后 也 在 建立 这方面 的 团队。
我 现在 在 zala, 我们 那个 人工智能 部门 所所 做 的 事情 其实 跟 你说的 差不多, 对 吧? 就是 有 大量 的 数据 要把 大量 的 数据 要 分析 出 一定 的。 有的 时候 是 商业 的 洞察, 有些事 是 为了 运营 上面 的 一些 结果, 有的 时候 是 需要 用 机器学习。 但是 很多 时候 更多 的 是一个 数据处理 的 一件 事情。
我 觉得 有 一个点 我 刚才 忘 讲 了, 我 就要 补充 一点。 做 机器学习 的 前身 也是 做 这种 叫 exporter analyses, 做 这种 数据 的 挖掘。 就 一般 做 机器学习 会 可以 简单 来说 两个 阶段。 第一个 阶段 你 可能 还没有 模型 之前, 你 要 去 想 怎么 去 搭建 这个 模型。 你 想 这个 模型 里 的 特征 是一种 什么样 的 特征, 或 你 想 用 什么样 的 算法 来 去做。 这时候 有 很多 的, 就像 我 之前 讲 的 一样, 就是 很多 这种 探索, 这种 exploration。 当你 一个 模型 一旦 搭建 之后, 这时候 一旦 比如说 你你你 做了 一些 很多 这种 testing 之后, 然后 发现 这个 模型 是 挺不错 的。 到 后期 其实 很多 就是 做 一些 什么 hyper tuning, 做 一些 更 多是 engineering focus。 就是我 把 这个 模型 放到 我的 平台 上, 我 只要 每天 去 跑 新的 数 来去 进来 重新 去 retrain 这个 模型, 或者说 我 换 一套 这个 hyper family, 重新 去 训练 这个 模型。
行, 我 觉得 就 两个 词。 一个 是 前期 是 更 多是 做 这种 探索, 后期 是 基本上 就是 一个 我 叫做 orchestration 的 这么 一个 work flow, 更 多是 这种 就 我 就 把 放在 上 跑, 然后 就是 不同 是 不同 的 combination 的 东西, 然后 看 哪个 东西 能 把握 这个 模型 的 做到 更 优化。 机器学习 我 大致 是 很很 简单 来说, 我说 有 高速 这 两个 阶段, 我 觉得 大部分 的 企业 现在 来说 是 处于 第一个 阶段。 所以说 为什么 看到 有 这么 多 很多 做 的 这种 事情, 更 多是 做 这种 探索性 的。 但是 比如说 也许 十年二十年 之后, 大部分 的 企业 都 已经 有 挺好的 这种 机器学习 模型 已经 在 跑 了。 他 可能 更多 的 需求 是 说 怎么 把 这个 模型, 就是我 刚才 讲 的 第二个 阶段 做得 更好。 这时候 他 对 继续 学习 产品 的 这个 要求 又会 不一样, 就 更多 是一个 一个 orchestration 的 这个 word flow。
我 觉得 我们 今天 其实 关于 数据, 然后 挖掘 数据, 然后 从 数据 产生 价值 下面 有些 什么 工具? 其实 snowflake 跟 那个 data bricks 其实 是 两个 非常 好的 工具, 都是 提供了 云 服务。 然后。 谢谢 你的 一些 分享, 谢谢 谢谢 谢谢 一凡。
以上 就是 我们 这次 直播 节目 的 录音, 直播 时候 我们 也会 有 听众 提问 等 互动 环节。 如果 对 我们的 直播 活动 感兴趣 的话, 可以 加入 我们 科技 早知道 的 听众 群, 或者 关注 生动活泼 的 微博, 我们会 在 上面 提前 给 大家 公布。 这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。
如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。