We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S8E10 |  AI 喧嚣之下,数据双巨头的隐秘战争|硅谷徐老师

S8E10 | AI 喧嚣之下,数据双巨头的隐秘战争|硅谷徐老师

2024/6/21
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
J
Jack Song
丁教 Diane
联合创始人和主播,专注于科技新闻和行业分析。
堵俊平
硅谷徐老师
Topics
丁教 Diane:AI数据领域竞争激烈,许多从业者对该领域缺乏了解。Databricks收购Tabular事件加剧了竞争。 硅谷徐老师:Snowflake和Databricks是AI领域的关键数据公司,数据处理能力对AI至关重要。企业需要复杂的AI系统,而非单一模型。Snowflake和Databricks峰会反映了AI时代数据核心地位的转变。 堵俊平:Open data catalog因多云环境、多种引擎和数据与AI整合需求而兴起,它在数据湖仓体系中起承上启下的作用。Databricks收购Tabular是技术路线之争,但引发了对Iceberg开源中立性的担忧。独立的open data catalog优于作为某个引擎附属物,因为它能支持多种引擎,提供全局视角。一个独立的中立的open data catalog能够促进良性竞争,打破大厂的生态壁垒。开源商业化模式的成功关键在于持续投入社区,并获得合理的商业回报。开放标准对于数据领域至关重要,避免厂商锁定,促进数据作为核心资产的价值发挥。 Jack Song:Snowflake和Databricks峰会更侧重于AI for data,而非data for AI,即如何将AI应用于数据平台本身。统一的独立的open data catalog对于大型企业的数据治理和合规至关重要,可以提供全面的数据视图。Databricks的商业模式引发了对Iceberg社区未来发展方向的担忧,可能走向分裂。Databricks管理Apache社区模式是开源商业化良性循环的典范,值得借鉴。AI for data 和 data for AI 代表了两种不同的产品方向和发展策略,data for AI 侧重于提供高质量的数据用于AI模型训练和推理,而 AI for data 侧重于利用AI提升数据平台本身的功能。企业级AI应用需要一个复杂的系统,能够整合各种数据源,包括结构化和非结构化数据。data for AI 和 AI for data 构成一个螺旋上升的反馈循环,相互促进发展。语义搜索是data for AI和AI for data融合的重要突破口。

Deep Dive

Chapters
讨论了AI数据公司之间的博弈,特别是Snowflake和Databricks的年度峰会,以及Databricks收购Tabular的影响。
  • Databricks宣布重金收购Iceberg背后的商业公司Tabular
  • Snowflake和Databricks在AI数据服务上的竞争加剧

Shownotes Transcript

用 声音。

碰撞 世界。

生动活泼。 欢迎来到 what's next 科技 早知道 第八 季, 和 全球 创新 第一 时间同步。 Welcome to the stage data bricks go found a alia.

we are so excited to you, snow flex.

Hello, 大家好, 欢迎来到 我们 今天 的 whats nex 科技 早知道。 那一 提起 A I 大家 首先 想到 的 可能 是 各 大 科技 巨头 在 算 力 算法 上大 模型 的 争夺 和 竞争。 大家 鲜有 关注 的 就是 数据 领域 的 A I 我们 节目 之前 硅谷 徐 老师有 做 过 一系列 的 这个 领域 的 内容。 比如 我们 分析 过 头部 公司 snowflake 以及 邀请 过 另外 一家 头部 公司 data bricks 联创 reno 新来 过 我们的 节目, 聊过 这个 领域。 但是 因为 还是 属于 基础 建设, 不是 专业人士, 可能 大家 对 这个 领域 关注 的 并不多。 并且 我 了解到 即使 是 互联网 领域 的 从业 人士, 甚至 是 很多 管理层 都 对 这个 领域 知之甚少, 需要 C T U 给 内参。

那 最近 这个 领域 发生 了 不少 的 变化。 特别 值得 我们 关注 的 就是 在 几天 前, snowflake 和 data bricks 分别 召开 了 他们的 年度 峰会。 在 峰会 上 两家 公司 分别 介绍 了 自家 的 数据 对 生态 的 发展方向, 以及 如何 为 企业 提供 更好 的 A I 数据服务。 但是 出乎意料 的 是啊, 峰会 期间 data B R C S 宣布 重金 收购 这个 领域 三大 开源 数据 社区 之一 的 iceberg 背后 的 商业 公司 tabula。 这一 举动 让 这 两家 数据 巨头 之间 的 关系 更加 剑拔弩张, the data bricks 颇有 后来者居上 的 这样的 一个 势头。

这 期 节目 的 两位 嘉宾 都 是在 A I 数据 领域 有着 非常丰富 的 经验 和 洞察 的 从业者。 他们 刚刚 从 snowfall 和 data bricks 的 峰会 现场 回来, 为 我们 带来 了 数据 A I 企业级 A I 的 新的 共识 的 一些 转变 和 一些 观察 和 思考。 这次 节目 其实 涉及 比较 多 的 专业术语, 并且 很多 表达式 英文, 所以 在这里 先 给 大家 提个醒。 另外 我们 这 期 节目 的 公众 号 也会 同时 上线, 如果 大家 有 兴趣 的话 可以 去 查看。

Hello, 今天 我们 首先 来 欢迎 我们的 co host 硅谷 徐 老师。

谢谢 丁 总, 谢谢 大家, 谢谢 两位 嘉宾。

第一位 是 我们的 data A I 的 创始人 C E O 杜俊 平 俊 平。

hello 丁 教。

然后 另外 是 我们的 一位 新 朋友 是 Jackson, 然后 他 现在 是 担任 uber 数据 平台 的 工程 总监。 Hello jack .

hello hello.

我们 先 让 jack 和 俊 平 先 介绍 一下 data thread。 我们 之前 有过 线下 的 活动, 然后 以 文字 的 方式 呈现 了 一些 我们的 内容。 但是 好像 还是 第一次 来 参加 我们的 节目。 Jack 先 介绍 一下 自己 好吗?

我 做 data 和 A I 大概 有 快 20年 的 时间。 现在 我在 uber 的 管理, 他们的 data platform, 他们的 工程 总监。 现在 我们 正在 做 很多 的 大 的 项目, 比如说 上 云, 还有 一些 比较 重要 的 话题 就是 data for A I 和 A I for data。

在 去 乌 国 之前 的话, 我是 在 A N B N B 待 了 两年 半 的 时间。 我 大概 那个 时候 我是 在 管理 他们的 A I platform, 是 他们的 工程 总监, 算是 一直 在 做 A I。 在 第二年 的 时候, 有幸 参与 到 A M B M B 整个 生成式 机器学习 G I 的 整个 的 产品策划, 包括 技术 架构 方面 的 一些 实践。 在 之前 我是 在 master a 工作 了 一段时间, 管 他们的 data 和 A I 的 platform 和 整个 的 data。

谢谢 jack。 然后 俊 平 大家好。

我是 杜俊 平, data strutter 点 A I 的 创始人。 我 之前 在 数据 界 和 开源 界 大概 工作 了 有 十几年, 最早 在 做 hadoop 的 公司 叫 halt n works。 当然 在前 是在 做 lamer, 在 做 一些 偏 闭源 的 云 的 工作, 后来 在 做大 数据 开源。 在 holton works 以及 国内 的 一些 大厂 里面 做 云计算 开源 的 这种 数据 平台 和 开源 的 这种 business。 大概 我们 一年前 团队 出来 创业。 目前 来说 我们 做了 一个 开源 的 open data cat log 叫 graviton o 主要是 做 在 不同 的 cloud 平台 之间, 包括 data 和 A I 之间, 把 整个 数据 层 打通。 其实 跟 这次 我们在 debris 和 snowfall summit 期间 看到 的 两款 产品, 其实 有着 密不可分 的 关系。 待会儿 可以 再 详细 再 讲一讲 这 两位 嘉宾。

我 讲一讲 为什么 我们会 邀请 这 两位 嘉宾。 现在 大家 都 知道 整个 硅谷 A I 是 非常重要 的 一块。 有 几家 做大 模型 的 公司, 有 一些 大 的 云 厂商。 除此之外, 其实 最 热 的 就是 两家 数据 公司, 一个 是 snowflake, 一个 是 data。 Bricks 不 但是 自己 公司 很 火, 最近 几年 的 增长 都很 不错, snowfall 是 2020年 上市, ea bricks 虽然 说 没有 上市, 但 我们 待会 也可以 聊 一 聊。 最近 几年 的 增长势头 非常 的 猛, 都是 算是 硅谷 的 两家 非常 红火 的 公司。

另外 一方面, 对于 做 人工智能 最终 来说, 数据 是一个 很 重要 的 方面。 你可以 说 算法 算 力 差不多, 但是 数据 怎么 个把 数据 打通, 有 多少 数据 其实 是 真正 的 一个 区分 大家 实力 的。 所以说 这 两家 公司 在 今天 这 一个 A I 这个 行业 当中, 其实 是 占着 非常 举足轻重 的 作用。

另外 一方面, 刚才 就像 两位 嘉宾 说 了 自己的 背景。 俊 平 是 之前 是 开源 做了 很多年 大厂, 然后 现在 自己 出来 做, 相当于 是一个 初创 公 的 C E O jack 是 相当于 是在 甲方, 他们 会 用 很多 开源 的 或者 不 开源 的 一些 产品。 所以说 我 觉得 要 聊 snowflake 跟 da bricks 的 话题, 这 两位 是 非常 有 发言权 的。 最后 一点, 这 两位 都 参加了 最近 两周 snowbank 跟 dla bricks 的 大会, 都是 属于 对 我们 业界 有 很大 影响 的。 所以 从 这里 我们 就 先 听 两位 讲讲 参加 完 这 两个 大会 以后 的 一些 看法。

我 先来 抛砖引玉, 哈斯 诺夫 雷 大会 和 dev 大会 应该 是 一年 比 一年 红火, 今年 的 人数 应该 是 屡 创新 高, 应该 有 好几万 人我 看到 一个 很大 的 一 变化, 尤其是 这一次。 第一个 就是说 A I 的 时代 的 到来, 在 这 两个 头部 的 数据 公司 的 感受 会 更加 明显。 就 基本上 在 每一个 话题, 每 一场 session 里面, 大家 都 离不开 A I 的 话题。

第二个 发现 是 大家 越来越 明白, 在 这 波 的 一个 model wave 当中, 其实 数据 作为 A I 的 三 元素 之一, 它的 这种 地位 处于 核心 地位 的 这种 地位 是 不可 撼动 的。 早年 之前 我们 也 提到, 就是 在 ChatGPT 刚 出来 的 时候, 大家 觉得 O K 我是一个 那个 model, 然后 再加 一个 简单 的 应用。 但是 现在 的 一些 更 复杂 的 一些 需求, 随着 我们在 企业 中 真正 落地。 我 听到 最多 的 一句话 就是 我们 需要 的 不是 一个 模型, 而是 一个 compound system, 就是 一个 复杂 系统。 这个 复杂 系统 里面 不仅 有 模型, 不仅 有 这个 agent 还有 一些 framework, 还有 数据 rag 等等。 本质 上 是因为 企业应用 它的 需求 的 复杂性 所 决定 的。 所以 我们 今天 在 这 两个 会上 都 看到 很多很多 方案, 包括 现在 还说 现在 的 一些 相应 的 技术, 类似 于 像 rag, 还是 P O C 级 的 rag, 离 我们 未来 真正 生产 中 可以 落地 的 这个 red 或者 daily agent 这个 方向 还有 很长 的 路 要 走。 不知道 这块 有没有 什么。

我 非常 同意 俊 平 的 分享, 铺天盖地 的 跟 A I 相关 的 一些 理念, session、 keynote 都来。 不过 我也 发现 一些 挺 有意思 的 一些 小 细节。 其实 我们 说 A I 包括 刚才 徐 老师 也 说 了, 对 吧? 其实 站在 A I 的 角度 说, data 是 很 重要 的。 但是 我 听 完了 keynote 包括 一些 主题 的 演讲, 我 发现 大家 可能 这 两家 公司 可能 着重 发力 的 是 A F data。 就是 他们 想 把 自己 塑造成 一个 用 A I 进入 到 data 这个 platform。 比如说 data break 说 自己 要 做 data intellect platform snowflake 说 要 做 call tex 这个 都是 他们 想 把 A I 智能化 到 数据 这个 平台 的 发力点。 但是 你 要 从 data for A I 的 角度, 侧重 的 笔墨 就 不是 很重。

都说 数据 很 重要, 这个 数据 的 标注 labelling data 这是 非常重要。 它 属 不属于 data 的 范畴 呢? 应该 是 非常重要 的 labeling。

第二 就是说 这个 feature, 而且 到了 新的 这种 G I 的 时代, 这个 feature 可能 更多 体现 的 是 这个 problem engineering 的 东西。 这块 其实 有 很多 的 跟 数据 相关联 的 一些 基础设施 一些 能力。 但是 我 也没有 太多 的 注意到 这 两家 公司 都在 往 这个 方向 做 大力 的 宣传 或者 是 推广。 当然 有 一些 客户 的 session 在 分享 他们 如何 去 generate high quality data for ai, 这是我 发现 一个 挺 有意思 的 现象。 另外 就是 后面 可能 再 可以 展开讨论, 就是说 这 两家 公司 看起来 是 都在 往 A I 和 data 方向 去 转, 但是 他们的 战略 又有 一些 细微 的 不同。

然后 我 就 想 补充 一点 的 是在 A I 之外 的话, 我 觉得 非常 大 的 一个 big news, 对 吧? 这个 跟 A I 有 一定 关系, 但是 更多 的 是 回归 到 data 本身 的 原始 的 诉求, 就是 cat log 还有 data format。 之前 也 跟 俊 平 还有 几位 相关 的 专家 一起 开玩笑 说, 可能 数据 进入 了 新 三国时代 是 吧? 以前 旧 三国 说 data let format 有 蝴蝶 iceberg delta。 现在 大家 已经 不仅仅 期待 于 在 data lake 方面 的 这个 层面, 而是 再 往 上 一层, 从 看 log 的 角度 去 思考 整个 的 数据 平台 的 生态 将 会 一个 怎样 的 发展。 所以说 现在 出现 的 新 三国新 三驾马车 对不对? 然后 这个 polo rs 是 snow flake。

当天 开 大会 的 时候 说 G A 的 open source 开 了, 俊 平 应该 也 在 现场。 很 震撼 的 是 data break 的 C T O 这 现场 说, 你们 说 大概 要 90天开源, 我 现在 开源 对 吧? 也 做了 一个 及时 开源。 然后 俊 平 的 公司 也 在 积极 的 在 做 这个 开源 的 cat log。 我们 也 希望 就是 这种 open source 的, 以 俊 平 为 代表 的 这些 open source 的 新的 这样 一个 形态, 能够 形成 这样 三家 互相 竞争 互相合作 的 态势。

对 关于 这一点, 一个 是我 想听听 俊 平 自己是 怎么看, 刚才 杰克 说 这个 三驾马车 这个 观点。 另外一个 就是 关于 也 jack 提到 的 A I for data 跟 data for A I 俊 平 你是 怎么看 这一点 的?

首先 要 解释一下 的 就 open data cat log 为什么 最近 突然 火爆 起来。 其实 我们 做 数据 都 知道 这个 data catalog 这 一层, 它 其实 在 整个 数据 湖 仓 体系 当中 起到 了 一个 承上启下 的 一个 作用。 其实 它是 一个 made data 系统。 那么 在 这个 meta 的 系统 里面, 对 上 可以 支持 不同 的 这种 引擎。 当然 数据 的 引擎, 当然 未来 可能 A I 的 引擎 也会 接入 进来。 对象 它 其实 能够 接受 不同 的 这种 数据源, 包括 不同 的 数据库 的 格式。 所以 data cat og 它 实际上 是一个 很 容易 去 做成 中心化 的 unify 的 这么 一层。

那么 之前 为什么 他 没有 得到 过多 的 关注 呢? 因为他 之前 被 认为是 可能 是一个 数 仓 引擎 或者 一个 湖 仓 引擎 的 一个 附属 仓, 长期 它 处于 一个 附属 层 的 层层 面, 想 去做 这种 联合 的 C T L O O G, 往往 是 一些 离线 的 cat log。 比如说 我们 看到 做 数据 治理 的 像 atlas s data hub, 包括 一些 商业 的 像 atlas 这样 公司。 但是 现在 我们会 发现 随着 谷仓 的 崛起, 包括 不同 的 这种 引擎 公司 的 崛起 和 数据 在 多云 上 的 分布。 有 这么 一层 实时 的 open data cat log, 能够 把 数据 真正 united 起来, 就 不仅 做 数据 治理, 而且 能够 很 好的 unify 不同 的 湖 仓, 形成 一个 统一 的 数据 架构。 同时 能够 支撑 data 和 A I 的 它的 一个 统一 的 计算, 这个 是 越来越 make sense 的。

当然 这样 做 它 也是 有 工程 难度 和 技术 挑战 的。 比如说 传统上 包括 have meta store, 既要 存 这个 逻辑 的 这种 schema 的 这种 信息, 也要 存 这个 物理 的 这种 partition index 这些 信息。 在 这 层 上 能够 如何 能够 把 多个 引擎 和 底层 的的 数据 的 存储 格式。 能够 有效 的 union 起来, 这部分 的 这个 工程 难度 挑战 也是 很大 的。

工程 问题 我们 知道 最后 都 还是 能够 解决 的。 业务 现在已经 到了 这样 一个 在 多云 以及 数据 和 A I 需要 去 整合 整理 这么 一个 阶段。 那么 再 多 的 工程 问题, 我 认为 都 不是 问题, 都 是要 需要 去 克服 和 解决 的。 所以 现在 我们 可以 看到 open data cat lock 的 这个 时代 应该 到来。 其实 之前 我还在 linking 上 写 了 一个 blog, 就 叫 the next working dating infrastructure。 The battle is open data card. 实际上 着重 也是 描述 了 这个 观点。

在 围绕 这个 基础上, 我们 再 看一看 目前 这三家 snowflake, 包括 da bricks 以及 我们 day thread, 我们 各自 的 优势。 我 认为 snowflake 的 好处 在于, 首先 它的 之前 的 一套 体系 比较 成熟, 所以 在 它的 这个 成熟 的 体系 里面, 重点 支持 着 目前 市场上 最 主流 的 iceberg。 Iceberg 最近 的 这次 收购 可以 看到 在 数据库 格式 上, 它 已经 基本上 占据 了 一个 相对 比较 主流 的 位置。 那么 snowflake 对 它的 一个 支持, 被 认为 是一个 增强 了 对 大家 对 s book 的 一个 信心, 包括 这种 格式 的 信息。 那么 day break 好处, 一方面 它是 最近 通过 这个 收购, 增强 了 它的 这个 s book little house 当中 的 一个 话语权 和 它 这方面 的 一个 实力。 另外 一方面 它 本身 就是 在 unit cat og 是一个 相对 比较 成熟 的 产品。

从 这次 他 开源 的 这个 产品 来看, 我们 也 做了 一个 简单 的 分析。 目前 它 还是 a piece of cake。 当然 那个 polaris care log 只是 90天开业, 目前 还没有 任何 的 太多 的 代码。 但是 在 unique catoe 这块, 我们 看到 它是 有一个 小的 雏形, piece of cake 大家 可以 去 玩 一 玩, 用 一 用, 但是 还 远 没有 到 可以在 生产 上 可用 的 这个 阶段。 那 我们 da strudel guti o 的 这个 cat log 我们 大概 就 打磨 了 更长 的 时间。

从 开发 到 开源, 再到 最近 又 把 它 捐给 了 apache, 成为 一个 apache 项目。 这样的话 他 跟 胡迪, 跟 iceberg, 包括 早期 的 hadoop t Spark 站在 了 同一个 起跑线 上。 还是 更加 的 走向 了 open governance 和 开放 的 这种 社区 治理, 有 更多 的 社区 来去 一起 的 支持 和 贡献。 这个 catalog 目前 来说 是 这 三个 catalog 最 领先 的, 功能 也 最 完善 的, 包括 他的 这个 成熟度 也是 最强 的。

就是 在 开源 的 当中 问 一个 相对 尖锐 的 一个 问题, 我 完全 能够 相信你 在 da 开 log 里面 已经 着力 了 不少 时间。 然后 现在 开源 的 东西 要 比 snowfall data break 要 领先, 我 觉得 是 完全 能够 想象 跟 理解 的。 但 为什么 从 长期 来讲, 你 觉得 independent 是一个 独立 的 选择, 而 不是说 是一个 大 的 stack 的 一个 feature 或者 一部分。

从 另外一个 角度, 我 觉得 这也是 很 好的 一个, 就是说 为什么 它 不应该 是一个 引擎 的 附属物 呢? 它是 应该 是一个 独立 的 layer? 就是 因为 在 很长 一段时间, 我们 之前 都 痴迷 于 像 one engine for all, 从 早期 的 数据库 走向 数据仓库, 再 走向 所谓 的 湖 仓。

我们 很 希望 有一个 计算 引擎? 它 可以 支持 P 可以 支持 流, 可以 支持 数据, 可以 支持 A I 其实 我们 走到 现在 会 发现, 这个 越来越 变成 一个 不切实际 的 幻想。 实际上 很多 引擎 它 有 各有 各 的 优势, 包括 还有 业界 之前 说 的 很多 的 什么 h type 等等等等。 就是说 这些 场景 在 计算 层面 上 融合 的 场景 确实 是 有 一些 具体 应用 场景。 但 它 目前 来说 它 不是 个 主流。 那么 主流 的 场景 还是 我 可能 用 P 可能 用 Spark, 我 用 query at hot query, 我 用 trainer。

会 发现 大家 会 用 很多 个 引擎, 所以 计算 引擎 天然 是 应该 分裂 的。 所以 你 任何 一个 依 足 于 某 一个 计算 引擎 的 这个 data cat lock, 它是 不能 有 全局 的, 也不 能够 有 这个 全局 的 view 的。 可以 试想 一下 snowflake 和 day break, 各有 一个 cat log, 那是 哪个 控 catalog 控制 全局 呢? 这个 就 会有 问题。 所以 这个 就是 要求 我们在 整个 architecture level 会 需要 有 一层 open 的 data log。 我们 认为是 真正 中立 的 社区 驱动 的, 不 被 某 一个 vender, 某 一个 云 所 绑架 的 开放 的 这个 社区 和 技术。 这也是 我们 当时 创立 gravano 的 初衷。

我 觉得 从 甲方 的 角度, 我 提 两点, 补充 一下 俊 平 的 从 隐形 的 多元化 做 federation 的 角度。 我 觉得 从 甲方 的 角度, 第一 就是 关注 为什么 希望 有一个 统一 的 独立 的 cat log。 第一 是 governance, 就是 因为 我们 发现 开始 使用 数据 的 时候, 开始 大规模 推广 数据 的 时候, 像 A M B N B uber 这样的 global company, 他们 碰到 很多很多 的 data governance 的 chAllenge, 还有 数据 的 合规 多云 的 部署, 异构 的 部署。

然后 我 觉得 大家 都 达成共识, 数据 是 非常重要 的 资产, 不光是 对 A I 就是 对 整个 全人类、 全社会 来说, 对 国家 来说 是 战略储备 资源。 那么 怎么 去做 jarvus? 现在 的 问题 就是 这个 数据 的 生态系统 太 多元化 了。 你 比方说 我们 开始 用 数据 去 支持 A I 去 支持 模式 能力。 大家 就 问 一个 简单 的 问题, 这些 fischer 到底 从 哪一个 数据 的 表出来 的? 我是 怎么样 生成 这个 模型? 模型 使用 哪些 数据? 这些 问题 其实 在 很多 公司 都 没有 得到 很 好的 解决, 就是 因为 缺失 了 一个 linux 的 这个 视图。

Cat log 的 好处 就是 它 可以在 多个 层面 进行 一个 归一, 包括 数据 的 格式、 数据 的 资产、 数据 的 使用 模式, 数据 的 流动。 它 可以在 开发 的 这边 形成 一个 统一 的 原 数据 的 管理体系。 在 配合 的 data united governance 的 一些 手段。

希望 就 从 甲方 的 角度, 他 希望 看到 一个 comprehensive 的 review, 我知道 数据 在哪里, 数据 怎么 被使用, 是不是 得到 有效 的 使用。 第二个 角度 就是我 觉得 也是 对 catalog 本身 从 数据 的 形态 方面 的 一个 诉求。 因为 我们 很多 的 时候 在 讨论 是 结构化 的 数据, 我们 怎么 去 使用, 怎么 去 弄。 但是 从 现在 A I 包括 G A I 的 一些 诉求 来看, 他们 对 not structure data 有 很多 的 这种 管理 上 的 诉求。 我们的 cat log 能不能 能够 兼容 于 不同 的 数据格式, 不仅仅是 table format, 甚至 non table format。 像 这种 vlog 这种 方式, 它 需要 更高 一个 层次 的 元 数据管理, 能够 把 数据 进行。

就 比如说 还有 另外一个 no structure 的 典型 代表 就是 embedding。 因为 embedding 可以 说 deep learning 和 G I 的 一个 非常 的 重要 的 一个 数据化 的 基石。 但是 却发现 在 evidence 的 数据管理 层面, 业界 没有 太多 很 成熟 的 方案。 陆陆续续 从 A 这边 涌现 出来 这个 vd b 但是 从 开发 的 角度 来说, 从 原 数据 角度 来说, 感觉 in bedding 又是 相对 孤立 的 一块。 希望 通过 在 这个 层面 的 整合, 能够 希望 从 数据 的 使用者 的 角度 来说, 他 能够 看到 不同 形态 的 数据, 能够 有 统一 的 原 数据管理。 这个 我是 觉得 从 甲方 的 角度 来说 是 比较 重要。

的 两个 诉求。 这两点 来讲, 你 觉得 大厂 像 data bricks 或者 大中 厂, data bricks 和 snowflake 他们 自己的 解决方案 会 更加 单调 一点, 优势 就 不如 一个 更加 中立 的 solution。 你是 这个 意思 吗?

有 这个 意思, data ick snowflake 都是 做 生态 的 公司, 但是 生态 它 也有 比较 连接 比较 近 的 生态, 对 吧? 它 会有 一些 优选。 在 这个 倾向性 下, 他们 可能 会 推出 一些 比较 自己的 私有 的 方案, 甚至 是 一些 固定 的 合作伙伴, 甚至 是 排 他的 合作伙伴。 这个 时候 如果 有一个 比较 功利 的 中立 的 一个 data cat log 的 一个 生态 起来 open source 的 这样 一个 状态, 有可能 会 打开 这个 边界, 对 吧? 就是 不一定 非 要是 data break 和 snows freak 那么 一些 更好 的 一些 生态 都 可以在 这里 共同发展。 但 同时 对 data break 和 smoth 来说, 这也是 个 很 好的 option。 因为 只要 有一个 open 的 生态 在这里, 他们 也可以 兼容, 所以 对 他们 来说 也是 一个 反向 的 促进作用, 最好 是 有 这样 一个 独立 的 生态 存在, 因为 这样的话 可以 让 大家 有一个 良性 的 竞争。

这次 data bricks 收购 iceberg 后面 的 公司 tabler, 其实 大家 还是 对他 诟病 蛮 多 的。 我不知道 这个 其实 刚刚 我们 讲到 是 需要 有一个 像是 这个 data state gravity ino 这 样子 的 一个 比较 中立 的 一个 产品 在那里 才 OK。 对。 但是 大家 对 iceberg 后面 这个 t ypo 公司 收购 是 怎么看 的?

Type lr 其实 我们 都在 做 数据, 这个 圈子 也都 挺 清楚 的。 因为 run blue 它的 中资 的 founder red blue 也是 在 数据 圈 的 老 炮 了。 最早 在 cordera, 后来 在在 netflix 然后 再 创业 做 这个 tabler r codel a 跟 我 之前 的那 家 公司 cotton works, 最早 做 hadoop 的 公司 也 所以 在 数据 这个 领域 也 应该 有 十年 左右 的 一个 沉淀。 Tabler 本身 是一个 很 新的 公司 了, 21年 左右 成立 不到 三年 的 时间。 也是 run blue 他 作为 ebook 项目 的 founder, 带着 一些 当 早期 的 一些 核心 贡献者, ebook 社区 核心 贡献者 一起 创立 的 公司。

这次 为什么 会 Derek 想 收购 它 呢? 我们 认为是 本质 上 是一个 技术路线 之争。 之前 live house 大家 没有 什么 意见, 大家 觉得 这 是一个 公司 大厂 的 中 厂 在 都在 走 的 这个 方向。 但是 具体 做用 什么样 的 数据 湖 格式 来 存储 是 吧? 就是我 一旦 存 成 这个 格式, 这个 数据 能不能 被 其他 的 数据 引擎 的 访问, 这个 是一个 很 重要 的 一个点。

之前 debris 选的是 自己的 data lake 这条 路线。 现在看来 业界 包括 社区, 或者 更多 的 这种 企业, 更 欢迎 的 是 更加 开放 的 像 ebook 这样的 一个 格式。 这次 收购 也是 一个 举措, 证明 D E B rics 叫 拥抱 iceberg 社区 跟 中立 的 社区 和 技术路线。 但是 他 也 所谓 的 诟病, 我 觉得 诟病 可能 没有。 但是 更多 的 是 大家 会有 一个 担忧, 就是 对于 他的 之前 他 走 的 是一个 社区 中立 的 路线, 或者 是 厂商 中立 的 路线。 现在 可能 会 更加 接近 于 商业 公司 的 利益 捆绑, 所以 这个 是 大家 一个。

核心 的 存疑 的 点, 因为 毕竟 这是 他的 一点 几个 明年 的 1.6。 刚才 说 整个 社区 的 40个工程师 卖 这么 贵, 大家 多多少少 还是 认为 这个 是一个 高 卖。 那么 这个 高 卖 背后 的 代价 是什么? Rab lue 出卖 了 什么? 这个 是 大家 可能 比较关心 的。 后面 话题 当然 也可以 也是 茶余饭后 科技 圈 的 一个 闲谈 了。

Ren bol o 也好, taboo 也好, 他们 做出 这样 一个 选择, 对 他们 本身 的 公司 来说, 对 整个 s berg 的 生态 来说 都是 有 积极意义 的。 要 从 这个 角度 去 讲, 因为 如果 一旦 跟 data break 联手, 至少 从 三家 独立 相互竞争 相互 争夺 的 角度 来说, delta 和 I S berg 走到 一起 去了, 至少 现在 是 握手 了, 相互之间 可以 共同发展, 可能 会 催生 出来 一个 非常 更 强壮 的 一个 cat log 的 或者 是 data 方面 的 生态。 从 这个 角度 来讲, 我们 认为 它是 积极 的。

担忧 和 忧虑 倒 不仅仅是 说 对 iceberg 或 taboo 本身 的 一个 忧虑。 我 觉得 大家 可能 对 data break 的 商业 运作 模式 是 有 忧虑 的。 因为 data a break 一开始 的 时候 都是 做 Spark, 还是 open source 为主。 但是 到 他们 上市 之前 的话, 他们 就 发现 这种 商业模式 是不是 很 有利于 他们 长期 的 发展, 对 吧? 那 他们 决定 就是 在 data break 这个 云上 的 部署 环境 中全 是用 他们 私有 的 版本。 同时 进一步 反哺 这个 open source 的 这个 版本。 两个 相互 共同发展。

但是 大家 都 意识到 就是 这种 发展 的 轨迹 对 Spark 社区 来说 是 有 好处 的。 但 同时 对 使用 Spark 用户 的 人, 他 就 必然 有一个 考虑, 我想 用 更好 的 版本, 我 是不是 必须 要 到 data break 上去, 很快 就 会有 新 迎来 这样 一个 所谓 的 enterprise version for iceberg 在 data rate 上 有 一些 更好 的 特性, 对 吧? 相对于 open south 还没有 ready 的 情况下, 我们 觉得 大 概率 可能 也会 出现。 那么 这种 生态 到底 对 s pod 的 这个 社区 来说 是一个 积极 的 变化, 还是 一个 消极 的 影响? 我 觉得 现在 不好 说, 但是 我 觉得 从 另外 的 角度 来说, 我的 感觉 就是 这 两个 会 有种 暗暗 较劲 的 感觉。

因为我 我 当时 人 在 会场, 我 听 完了 snowflake 的 canoes, 他们是 all in expert, 大家 都在 鼓掌。 然后 过了 大概 十几分钟, 我 就 接到 一个 刷 到 一个 things in, 然后 在 这 对 这个 高调 宣布 收购 tape 了。 当时 没有 宣布 金额, 就是 一个 分类 以上 的 金额。 你可以 想象 当时 的 尴尬 的 场景, 就是 大家 看到 这个 消息, 然后 snowfall 刚 宣布 不久, 然后 大家 开始 讨论 这个 话题。 为什么 要在 这个 时间点 去 宣布 这个 事情, 这个 本身 也 充满 了 一定 的 剧 性 的 戏剧性 对不对? 所以 就 希望 我们 希望 snowflake 和 da break 能够 在 s broke 事情 上 能够 良性 的 发展。

但是 坦率 的 说, 我 觉得 snowflake 他 一定 意识到 这 是一个 危机。 就 好比 说 我 刚才 问 俊 平, 我说 他们 如果 有 一些 很 好的 feature, 他们 到底 要不要 contribute 到 s berg 去 呢? 他 如果 从 支持 社区 开源 的 角度 来说, 他们 应该。 但是 他们 会不会 觉得, 我 现在 把 一些 好的 废 事儿 放 过去, 那 不等于 说 给 data break 助攻 了。

已经 有了 这种 潜意识 在 的话, 就 看看 这 两个 公司 在 这个 事情 上能 不能 达成 一个 长期 的 战略 发展 和解 的 过程。 Iceberg 社区 会不会 进一步 的 分裂? 我在 之前 也 提到, 很快 ebook 社区 就 发起 一个 帖子, 说 要 罢免 run blue 的 P M C chair 的 身份。 就 因为你 要 去去 到 另外 公司 的话, 你 就 没有 中立 了。 我们 可能 从 甲方 来说, 其实 我们 也有 心中 也有 一些 隐忧, 对 吧? 如果我们 也要 拥抱 iceberg, 那么 这个 社区 以后 的 发展 是 更加 良性、 更加 健康、 更加 壮大? 还是会 走向 分裂。

现在 其实 是不是 dea bricks 管理 apache 这 样子 的 一个 社区, 是 现在 开源 和 闭源 结合 最好的 这 样子 的 一种 生态, 或者 起码 是 变现 的 方式。 有没有 大家 能够 更好 的 借鉴 呢? 因为 大家 都 知道 你 完全 闭 园 肯定 是 不可能 的。 然后 你 开源 你 又 赚 不到 钱, 你 没办法 拿到 投资。 我不知道 他们 现在 这个 是不是 已经 是 最好的 一个 案例 了。

这种 模式 是一个 很 正常 的 模式, 就是你 通过 开源 能 给 所有人 创造 一个 价值, 一个 public goods。 我 觉得 这是 对的, 尤其是 你 在 生态 中 弥补 这个 生态 中 很 关键 的 链条。 早年 debris 当年 开始 出发 做 Spark 的 时候, 他 也是 看到 了 这样 一点。 就 当时 的 hadoop t 生态 发展 的 很好, 通过 这个 HDFS 统一 了 整个 的 存储 层, 通过 压 案 统一 了 整个 计算 层。 但是 计算 层 上面, 它 就 允许 有 多 引擎, 除了 mapreduce 之外, 可能 有 新的 引擎。 当时 dear bricks 一个 快了 十倍, 号称 快 十倍 甚至 更多 的 这个 引擎 计算 引擎 出现。 确实 是 收获 了 大量 的 用户, 大量 的 社区 的 用户 和 大量 的 公司 对 本身 的 技术 能力 以及 技术推广 的 这么个 信任。 以此 为 基石 对 吧?

从 Spark 变成 Spark SQL, 再 变成 一个 湖 仓 或者 体系 完整 的 生态。 很多 企业化 的 能力 和 服务, 他 放在 他 必然 的 或者 是 SARS 服务 的 版本 里面 出现。 这个 大家 也是 觉得 是 理所应当 的对 吧? 因为你 你 确实 已经 给 社区 的 贡献 了 这么 多好 的 优秀 的 feature。 你 取得 一个 合理 的 商业 回报, 这个 是一个 必然。 我们 认为 这是 开源 商业化 走向 一个 良性循环 的 重要 的 标志。 很多 公司 只是 做了 第一步, 就是 开源 这 一步, 没有 做好 这个 商业化 的 我们 认为 这个 是 不 完善 的, 不完整 的那 否则 的话, 你 没有 一个 好的 商业化 的 结果, 你是 不 能够 持续的 有效 的 投入 和 贡献 这个 社区, 这就 造成 了 社区 后来 的 一个 分裂。

几年 前 也 看到 过 像 类似 于 log for g, 当然 那个 话题 比较 早 的 就是 有 一些 小众 的, 但是 用了 特别 多 的 这种 工具。 但是 因为 很很 没有 这种 商业化 的 这种 公司 在 里面 去 长期 支持。 后面 就是说 会有 不断 的 会有 这种 安全, 漏洞 引诱。 虽然 大家 用 的 很多, 但是 仍然 不 能够 维持 一个 比较 好的 一个 健康 的 一个 环境。 所以 我们 认为 这种 模式 是 挺 正常 的。

我 觉得 还有一个 好处, 就是 围绕 着 开源 做 商业化 的 好处, 就是 真正 会给 企业 用户 带来 什么 呢? 就是 它是 一个 开放 的 标准, 就像 ebook, 还有 包括 我们 像 Martino 希望 达成 的 这个 open data catala 的 format。 一旦 有了 这个 开放 的 标准 之后, 每家 厂商 互相 之间 不会 隔阂, 不会 去做 别的 locking 或者 是 data locking。

因为 在 数据 这个 层面 上, 我 认为 跟 其他 的 软件 还 不太 一样的 是, 数据 是 企业 的 核心 资产。 其实 几十年 前 那种 被 某个 大厂 什么 O G 大厂 这种 locking data 的 这种 solution, 现在 是 越来越 不 越 不受 大家 的 欢迎 了。 因为 数据 越来越 重要 了。 所有的 创新, 你的 B 的 转型, 你的 其实 都 离不开 你的 数据。 这个 时候, 你 有一个 open standard, 尽管 你 上面 有 可以 building 有 更多 的 value add, 企业级 的 特性, 企业级 的 服务 都 没问题。 但是 你的 底层, 你的 core 应该 是一个 follow 一个 open standard。 我 认为 现在 这几年 看到 整个 数据 这个 赛道 的 趋势 应该 是 这样。

Big break 在 open source 的 标准, 包括 对 Spark 生态 开源社区 的 繁荣 上面 做出 了 巨大 的 贡献。 可以 说 dominant 就像 刚才 俊 平说 的, 有一个 合理 的 商业化 的 计划。 刚才 徐 老师 已经 说 了, 这个 data break 就 已经 是你 从 独角兽 的 排名 来看 的话 是 前 五 的。 它的 商业化 的 这个 价值 已经 被 体现 的 非常 大 了。 但是 就是说 在 使用 开源, 在 进行 不同 的 商业模式 发展 的 背后, 可能 有 不同 的 选择。

Data break 其实 有一个 非常重要 的 私有化 的 特征, 当然了 这是 他的 选择。 而且 我 觉得 他在 去 搬运 客户 的 时候, 这个 feature 他是 用 的 非常 多 的。 就是 fulton 他 跟 apache Spark 来讲 可以 说是 一次 重构, 等于 说 他 把 Spark 的 内核 基本上 已经 重构 了。 这个 对 他的 性能 各方面 的 来说 都是 就 十倍 以上 的 提升。 这 当然 是 非常 有利于 他在 这个 市场 环境 中有 一个 标杆, 对 吧? 那 Spark 是 已经 不错 了, 那 我 比 Spark 再 快 十倍, 你 觉得 怎么样? 我 觉得 这 是对 他们 来说 是个 很 好的 business model。

但是 从 另外 角度 来说, 你可以 想象 内核 开源项目 的 内核 已经 发生 了 变化。 他们 要 维护 住 这 两种 共同发展 的 形态, 这是 他们的 选择, 可能 这是 回报率 最高 的 一种, 因为 有 比较 就有 差别。 但 我们 也 看到 一些 其他 公司, 他们 坚持 做 开源 的 内核。 但是 在 开源 的 外围, 比如说 enterprise feature, 安全, 包括 一些 可用性, 工具 生态 上面 可以 多 做 一些 工作, 甚至 是 professional service 去 发展, 我 觉得 这也是 一个 良性 的 发展。

Jack 刚才 提到 的 data bricks, 最近 已经 算是 前 五 的 独角兽。 其实 从 公开的 看 得到 的 数据 来看, 它的 营收 增长 是 非常 惊人。 他 虽然 说 营收 比 snowfall 还 低 一点, snowfall 大概是 一个 30亿美元 收入, 它是 24亿美元 收入, 但 它的 增长 是 60%, snowfall 只有 33%。

当然 也 不是 只有 了 snowfall 33% 已经 不错 了。 但是 data bricks 是 其实 惊人 的, 任何 一个 公司 他 惊人 的 revenue 是 这 四个 billion, 24亿美元 还是 能够 达到 60% 增长。 其实 历史上 没有 几个 公司 有 这么 高 的 增长。 我 觉得 它 从 这个 角度 上 来讲, 它的 量级 甚至 于是 估值 其实 都 已经达到 了 OpenAI 这么 一个 level。 如果说 是用 前几年 这么 高 增长 的, 能够 40倍, 甚至于 能够 超过 OpenAI 的 估值 了。

当然了, 最近 几年 大家 可能 会 小心 一点。 但 即使 小心 一点, 我在 上 个 礼拜 也 写 了 listing 的 文章 跟 博客 上面 也 写 了, 我 觉得 他 已经超过 了 snowfall 的 市值。 这一点 上 来讲, 大家 可能 在 过去 几年 其实 看到 这个 势头 并 不是说 完全 surprise。 但是 我 觉得 能够 confirm 这一点。 如果说 明天 data break 上市 的话, 它的 市值 是 应该 铁板钉钉 超过。 这一点 我 觉得 也就是 在 这个 大会 上 大家 才 恍然大悟, 从这一点 上 来讲, 我 觉得 snowfall 还是 非常 勇猛 的。

当然了, 这种 故事 都 会有 交错 的, 相信 snowflake 也会 继续努力 吧。 所以说 等到 data break 上市 那一天, 鹿死谁手 可能 还 稍微 早 了 一点。 但是 这 是一个 很 有趣 的 一个 竞争。

我 补充 一点, 就是 为什么 the great 这么 有 战斗力 呢? 我 觉得 这是 跟 他的 一个 开源 的 属性 有关。 因为他 从 很多 开源 同质 的 竞 品 当中 厮杀 出来。 早前 他 同 horton work caldera 这些 数据 的 前辈 大厂 之间, 所以 hadoop 跟 Spark 之争 打赢 了。 后面 hadar 社区 又 推 了 taes, 那么 继续 Spark 继续 打赢 了。 所以 我 觉得 开源, 大家 认为 开源 就 好像 没有 竞争, 一团和气。

不是 的, 开源 的 我 认为 它的 激烈 竞争 的 程度 是 更加 激烈。 你 在 开源 卷 完了 再去 卷 闭源, 基本上 还是 有 这个 战斗力 和 竞争 的。 只要 你的 商业模式 不 出错, 那么 你的 开源 的 公司 它的 这个 战斗力, 它的 这个 后 劲儿, 我 觉得 都是 挺 足。

的对 jack 你 刚才 讲 的, 其实 这一次 大会 上面 你 看到 的 其实 是 有 两个 不同 的 点。 一个 是 A I for data 和 data for A I 这 其实 代表 了 两个 不同 的 产品, 或者 是 两个 不同 的 一个 方向。 我不知道 这块 儿 能不能 帮 我们 再 解释一下, 这 到底 是 分别 代表 了 什么。

你 从 传统 的 模式 A I 的 角度 来说 的话, 大家 聊 的 比较 多 的 都是 data for I 因为 data 是 源头, garbage in garbage out。 大家 一直 在 讨论 数据 质量。 那么 数据 这个 具体 的 形态 对 A I 模式 的 来说 的话, 主要 体现 在 两个 方面, 一个 是 feature, 一个 是 label。

因为 很多 的 模式 learning 是 基于 supervise 模式 learning, 很多 的 算法 是 基于 这个, 包括 deep learning。 所以说 他 需要 从 原始 的 数据 中 产生 大量 的 有 价值 的 label 和 feature, 再 开始 进行 模式 learning 的 一系列 的 life cycle。 比如 开始 train, 然后 出 完了 以后 要 做 experimental, 然后 开始 做 serving? 在 serving 的 过程中 的话, 它 可能 涉及到 real time feature, 包括 real time 的 label 都要 进去, 然后 再做 inference。 这个 是 传统 来说 对 data for A I 的 一个 诉求, 就是 希望 data 整理 好, 有 比较 好的 质量。 在 这个 好的 质量 的 数据 之上 产生 高质量 的 label 和 feature, 供给 到 模型 用来 去做 训练, 来 去做 driven。

就是 service G I 的 到来 产生 了 两个 比较 重大 的 变化。 第一 它 对 data for A I 的 这个 形态 发生 了 一些 改变。 比方说 以前 我们 做 deep learning, 包括 tradition 的 M L, 我们 就要 去 基于 大量 的 这种 数据 进行 训练。 因为 模型 当时 的 参数 比较 小, 他的 自 学习 或者 是 泛化 的 能力 稍微 差一点。 这个 时候 他 需要 用 大量 的 数据 去 建立 知识。 但是 G A I 的 模型 一 上来 就是 我们 所说 的 大 模型, 现在 想 这 三个 billion 都是 大家 说 小 模型。 你 再 往 两年 前 推 三个 billion 的 模型, 很多 公司 都 没有 三个 billion 的 模型, 对 吧? 所以说 一下子 模型 它 本身 的 张力 和 泛化 能力 很强 之后, 他 对 数据 的 诉求 就是 另外一个 方向。

在 早期 ChatGPT 出现 之后, 很多 公司 采取 retrain 的 方式。 这个 时候 他 要 对 数据 去做 准备。 但是 做 准备 的 时候, 对 数据 进行 高质量 的 数据 的 整理, 一条 并没有 什么 特别 大 的 变化, 只不过 可能 就是 对 非 结构化 数据处理 会 多一点。 但是 真正 世界上 能够 开始 做 垂 顺, 产生 自己 大 模型 的 公司, 确实 是 非常少 的。

回到 甲方 的 角度, 真正 的 就是 很多 大规模 的 企业 来说, 他们 没有 必要 去 搞 自己的 大 模型。 所以 他们 更多 倾向 于 做 3Q在 已经 有的 一个 纯纯的 模型 上面 做 3Q但是 这个 3Q对 data for A I 的 变化 影响 极其 巨大。 因为 以前 都是 按 几个 T 甚至 好几百个 T 的 数据 进行 训练。 但 如果 进行 翻 送 的话, 这个 数据量 一下子 就 急剧 的 缩减。 可能 几十 K 的 数据 作为 你的 training take inside 翻译 的 数据 就可以 了。 但是 要求 这 几十 K 的 数据 是 high quality labor 的 数据。

不论 你是 通过 reinforce learning human feedback 还是 reinforce learning A I feedback 产生 的 这个 高质量 的 标签 化 的 数据, 供给 到 3Q模型 去 产生 specific 的 task。 这样 对 我们 这个 data 的 生成 或 data 的 处理 就 产生 比较 重大 的 影响。 甚至 有 一段时间 大家 在 讨论 还 需不需要 做 这种 非常 重 的 feature 安全 原因 了。 因为 感觉 它的 必要性 就 不是 那么 大。

另外一个 就是说 其实 供给 大 模型 的 时候 要 转成 proof, 是一个 类似 于 这种 N L P 的 结构 了。 要有 一定 的 pattern。 它 对 数据 的 整理, 数据 的 输出 的 方式 也 发生 了 变化。 所以 我 觉得 从 这个 角度 来说, data for A I 发生 了 很多 的 变化。

对接 来说。 但是 我 从 这次 会上 来看 的话, 这 两家 公司 都 没有 很多 的 在 这个 话题 上 进行 深入 的 分享, 或者 是 主题 上 的 发布。 他们 把 重心 都 放在 了 另外一个 层面, 就是 如何 把 data 作为 一个 阵地。 因为 刚才 徐 老师 分享 的 特别 对, 就是 这个 洞察 就是现在 从 企业界 来说, 真正 上 到 生产 上 的, 大家 觉得 比较 conversible 的 解决方案。 一个 是 customer service, 就是 客服。 通过 这种 G I 的 技术 能够 提升 agent Operational efficiency, 这是 面向 的 是 agent, 因为 agent 在 很多 公司 都是 很大 的 一个 cost 的 群体, 希望 通过 它 来 降 成本。 还有一个 就是 徐 老师说 的 employ facing productivity, 这个 时候 就是 data 所谓 的 data GPT, data copilot, data agent 这个 概念 就 出来 了。 但是 这 两个 公司 他 觉得 这 是一个 非常重要 的 产品 发展 的 创新 方向。

所以说 data c 提出来 data intelligent platform, 你 要 仔细 看一下 data intelligent platform 它 没有 很多 的 强调 data for A I 反而 是 强调 的 A I for data。 怎么样 把 A I 拿到 他们的 这个 data platform 里面 进行 upgrade, 把 他们的 组件 变得 更加 智能化, 提供 一些 更加 高级 的 帮助。 Data automation data 它的 这个 功能。 Snowflake 也 差不多, 他 就 提出了 cortex A I。

Cortex A I 就有 有点像 data brick 提出 的 data intellect form, 那个 引擎 叫 data base I Q, 就是 类似 于 这 一层, 就 通过 这种 大 模型 G I 的 或者 是 模式 能力 的 方式, 能够 反向 的 引导 data platform 本身 的 一些 数据仓库、 search, 包括 一些 U I, SQL editor, 包括 B I, dashboard 这些 逐渐 的 智能化。 所以 我是 总结 来说, 我 就 看到 的 是 他们 更多 的 突出 的 是 如何 把 A I 带到 data 的 世界 中, 影响 data。 但是 我 觉得 从 他们的 战略 发展 来说, 对 他们 来说 是个 合适 的 方向。 因为 他们 就可以 转型, 不光是 一个 data 的 company, 也可以 做 一个 data 和 A I 的 company。

我 就 补充 一点, data A I 和 A F data 其实 更 像是 一个 螺旋 上升 的 一个 feedback loop。 为什么呢? 就是说 date for a 是 说 我要 解决 A I 当中 各种各样 的 从 训练 到 prom 到 最后的 推理, 包括 agent 这样 一系列 当中 的 数据 问题。 反过来说, 我们 现在 有 更好 的 模型, 更好 的 这种 应用。 反过来 用 A I 的 能力 能够 反哺 数据系统。

现在 是 这 两条线, 前面 一条线, data a 是一个 长期 的 持续的 过程。 反过来 这条 线 A I for data, 因为 最近 因为 G N A 的 兴起 之后, 我们 有 在 大 模型 能力 上 有 一波 崛起, 所以 大家 可能 在 这个 点 上 会 比较 关注。 所以 这也是 为什么 我们 看 在 两个 会上 看到 A F data 很多 的 feature。 但是 同时 在 另外 有 一条线 上, data fy 也是 非常重要 的。

刚才 jack 也 提到 了, 其实 我们在 新的 fine tune, 然后 包括 我们的 engineer, 包括 现在 最新 的 这些 reg system, 其实 有一个 需求 就是 我们在 large larger model 或者 在 大 模型 这个 领域, 我们 不仅 要 的 是一个 模型, 我们 要 的 是一个 复杂 系统, 一个 compound system。 这个 复杂 系统 里面 就 不光是 大 模型, 不光是 这 上面 简单 的 应用, 而且 它是 一个 framework。 这个 framework 里面 有一个 单独 的 类型, 就是 要 处理 它的 相应 的 数据。 那 把 我们 现在 企业 里面 海量 的 data lake 里面 的 数据 能够 转成 除了 vector store 里面 的 这些 小量 的 数据 之外, 还 能够 跟 我们 海量 的 数据库 当中 的 数据 结合。

其实 这个 也是 在 推理 端 和 应用 端, 其实 现在 急 需要解决 的 一些 问题。 同时 其实 on struct data 有 大量 的 痛点 需要解决。 因为 我们 现在 的 transformer 这些 模型 里面 处理 大部分 的 都是 document 的 类型。 实际上 还有 物理 世界 的 很多 的 图片, 包括 这种 三 弟 的 感知, 位置 的 这种 信息 等等。 其实 这些 时候 还有 很大 的 瓶颈。 因为 有的人 说, 我们 这 一波 的 A I 革命 的 瓶颈, 其实 最后的 瓶颈 是在 data。 我们 能不能 能够 把 真实的 这个 物理 世界 中的 data 让 模型 能 去 理解, 甚至 我们的 合成 数据 最后 能不能 产生 power 和 magic。 我 觉得 这个 是 实际上 反而 可能 是一个 更大 的 一个 主题, 或者 是 未来 更大 的 一个 价值。

因为 刚才 提醒 我 了, 就是 data 和 A I 的 这个 融合 有 一些 新的 形态, 也 不是 新的 形态, 但是 大家 都 往 这个 方向 去 发展, 就是 这个 search 或者 叫 semantic search。 Semantic search 是一个 非常 好的 一个 A I for data 的 一个 形态。 因为 为什么呢? 它是 把 几个 要素 都 能够 整合 在一起。 第一 data 需要 去 整理 加工 之后, 做 embedding 的 一个 基础, 无论是 你 要 做 market dimensional 这种 还是 non structure data, 都要 做 大量 的 数据 准备 和 兴起。 第二 就 开始 做 evidence embedding, 其实 是一个 非常 的, 我们 从 这个 拉 砖 要 来说, 就是 ebel ding 是一个 非常重要 的 多 模态 的 整理 过程。 无论 你是什么 类型 的 数据, 通过 一 白 净化 打造 一个 多维 的 向量 空间, 能够 实现 多 模态 的 归一化 的 处理, 这是 非常重要 的。 这个 时候 就 开始 做 embedding。

这时候 data for a 的 重点 就 开始 从 以前 的 形态, 数据格式 形态 转换成 怎么 去做 一个。 Embedding 的 一个 data platform 去 支持。 怎么 去 生成 embedding。 那用 什么样 的 embedding 的 模型 去 产生 这个 embedding? 因为 以前 的 数 data generation 都是 靠 computer 去 产生 的, aggregation service query. 但是 embedding 是 应该说 是 把 数据 生成 的 隐形 从 计算 引擎 变成 了 A I 产生 的 最后的 这个 数据 变成 了 embedding。 然后 embedding 把 它 存储 在 具体 的 这个 向量 数据库 或者 是 具体 的 数据库 形态 中, 然后 发展。

然后 之后 为什么 说 3 matic 测试 是个 很 好的 结合 呢? 因为 3 matic 4是经常 被 用到 刚才 俊 平说 的 这个 rag 的 解决方案 中。 它 不光是 搜索, 它 还要 做 augmentation。 大家 现在已经 形成了 这种 态势, 我需要 去 搜索, 我需要 去 query, 但是 我 对 query 的 有 更高 的 要求 和 query 的 输入 有 更高 的 要求。 Query 的 输入 简单 来说 就 NLP 更加 的 自然, 自然语言 交互, 它的 输出 要求 更加 的 贴合 我的 意图。

这个 时候 拉 着 的 model 其实 在 两个 头, 一头 一尾 发生 了 重要 的 影响。 就是 他 首先 理解 你的 语义 query understanding, 把 你的 N L P 的 理解 的 非常 好, 然后 转换成 一个 具体 的 query 的 一个 embedding 的 query。 然后 这时候 去 找 in bedding 生成 这样 一个 最后的 A N 的 search 对 吧? 这样 一个 search query, 然后 通过 A N 去 找到 这个 相关 的 知识, 这个 设计 上 做 的 事情, 但是 还没有 完。 拿到 这个 相应 的 设置 的 知识 之后, 要 进行 拉钩 model, 再 进行 加工, 形成 最后的 非常 好的 格式化 的 一个 结果。 我 觉得 看到 这个 data 和 A I 融合 的 过程中, 比较 主流 的 一个 方案 就是 把 data A I 通过 一般 这个 方式 结合起来, 通过 symmetry search 作为 出口, 变成 一种 data service, data product 的 形态。

具体 回到 这个 data break 和 snowman flake 都有 具体 的 解决方案。 比如说 snowden ke 就 叫 cortex, 然后 他 重点 打的 是 cortex search, 它 在 kindle 上 做 的 两个 demo。 有一个 demo 他 非常 自信, 他是 随机 请 了 场下 的 一个 观众 把 他 叫上来 一起来 演示 demo。 你 要 知道 在 这种 场景 下, 他 必须 要有 足够 的 信心。 而且 snow flick 在 收购 这个 层面 上 很 有意思, 他 第一个 收购 的 A I 公司 是一个 叫 nova 的 公司, 这家 公司 专门 做 search 的。 相反 于 data break, 他 收购 的 公司 是 mosk ai musa a 也是 非常 强 的 research 的 background, 然后 他们 做了 model, 这是 非常 的, 当时 业界 都是 非常 排名 非常 靠 前, 但是 他们 不是 做 search。 我 这次 在 开会 的 时候, 我 就 特别关注 这个 细节, 我 就说 data break 的 search 到底 是 怎么做 的。

然后 我 这里 跟 大家 分享 一下 data break 和 snowflake 在 semantic 事实上 的 一个 重大 的 战略 上 的 区别。 Snowflake 是 把 自己的 数据库 改造 成了 vest D B, 这个 等于 他 把 自己的 内核 加 了 一个 vector data type。 无论 怎么 加, 大家 可能 说 这个 东西 怎么样, 但是 很多 数据库 都 改 自己 成 vex D B 了, 对 吧? 但是 他 自己 就 把 自己 改成 Y C D B。 他 解决 了 这个 west D B 最 核心 的 A N N 的 search, 包括 west D B 存储 的 形态。 然后 他 又 收购 了 一家 公司 专门 做 search。 然后 他 有 自己的 largely model 的 team, 而且 做了 自己的 artic model。 他 这套 解决方案 成型 了 之后, 我 觉得 质量 上 来说, 包括 它的 生态 的 整合 上面 来说 是 比较 到位 的。

到 da break, 我 当时 在 会场 上 花了 一个半 小时 跟 data break 的 专家 在一起。 我 就 想 了解 一下 他们 三个 四是 怎么做 的。 然后 我 得到 的 消息 是 这个 semantic 设置 的 这个 解决方案 大部分 是 music music A I 自己 做。

然后 比如说 一个 细节, vecht D B 是 基于 什么 来 实现 的? 结论 就是 字眼。 然后 我说 这个 跟 Spark 有关系 吗? 因为 Spark 对 snow fork 来说, snowflake 是 snow flake database, 那 Spark 对 dead rick 来说 是 kernel, 说 没有关系, 这个 weh D B 跟 Spark 没有 任何 关系, 是 独立 的 两条线。 我 就 感觉到 这 两个 公司 在 处理 咱们 这个 设施 上 的 时候, 战略 还是 略有不同 的。 当然了 都有 各自 的 一些 考虑 了。 但是 无论如何, 回到 俊 平 刚才 那个 观点, 我 觉得 summer tic 设计 是一个 data for A I A S data 一个 非常重要 的 一个 突破口。

因为 像 有 一些 初创 公司, 像是 cohere, 或者 是 像是 adapt, 他们 其实 也是 在 做 rag, 然后 也是 在 做 semantic search。 所以 他们的 这个 竞争 优势 到底 是 在哪里?

Semantic 设置, 我 个人 觉得 有 几个 竞争 要素。 第一 就是 emitting 的 模型。 其实 大家 很多 时候 都 认为 OpenAI 的 embedding 模型 是 最好的, 但 实际上 专门 还有一个 榜单 在 比 evidence 模型, 不是 指 这个 大 的 foundation model。 那么 OpenAI 的 模型 都 排 在 十名 以外 的那 就是 有些 时候 卷 的话, 卷 的 是 embedding 模型, 因为 emda 模型 不是 很好 做, 要 做到 很好 的话, 第二 就是 关于 整个 的 embedding 的 一个 核心, 就是 这个 weft D B 或者 是 叫 向量 数据库。 这个 内核 是 怎么样? 它的 A N 的 算法, A N 的 效率, 包括 扩展性 上, 并发 性 上 这些 东西。 所以 这是为什么 有 一波 创业 公司 做 的 就是 Y C B B 对 吧? 因为 他们 要 做 这个 生态, 我 觉得 这是 第二个。

第三个 就是 所谓 的 marty agent frame 和 rug。 我可以 回答 你的 问题, 但是 我要 卷 的 是我 能够 理解 你的 问题 更好, 同时 我 能 回答 你的 问题 更好, 我的 理解 的 深度 比 你 还好。 这个 有些 时候 不是 靠 一个 模型 能 解决 的那 为什么 现在 market agent 比较 火? 就是 因为 大家 希望 用 一把 一些 复杂 的 问题 分解成 几个 简单 的 问题。 然后 通过 不同 的 agent 他们的 翻修 之后 的 这些 能力 解决 特定 的 问题。

当然了 可能 有一个 核心 的 模型, 比如说 coherence 或者 是 adapt, 他们 可能 会 使用 G P, 他们 口号 的 应该 不会 使用, 但是 adapt 可能 会 用 GPT4 做 这个 reasoning, 做 coordinator 的 肉。 但是 还有 一些 小 模型 去做 辅助 code, 因为 本身 他 自己 就 做大 模型, 那 他 可以 用 自己的 这个 模型 去做 这个 coding ation。 所以 我 觉得 劵 这些 要素 可能 都会 大家 会 拼 谁 做 的 质量 更好。 我 看到 的 情况 就是 包括 data work 和 snow。

现在 做 3 matic 测试 的 公司 也 非常 多, 就 感觉 到了 一个 什么 程度 呢? 就 好像 大 模型 打榜 一样, 大部分 公司 能 进 到 80分以 这个 阵营, 但是 你说 能 做到 95分 以上 的 还是 很少。 但是 这个 就 不是 一个 单纯 的 大 模型 的 竞争, 而是 一个 端 到 端的 系统优化, 甚至 结合 很多 领域 特定 的 经验 去做 的。 所以说 大家 可能 现在 在 拼 的 是 这方面。

好, 非常 谢谢 两位, 非常 谢谢 徐 老师。 我们 今天 其实 连线 也 比较 晚 了, 大家 都 已经 是 半夜 了。

谢谢 君平, 谢谢 大家, 晚安, 拜拜。

谢谢 各位, 谢谢 各位。

这就是 我们 今天 的 words next 科技 早知道。 欢迎 大家 在 评论 区 和 我们 留言 互动, 加入到 科技 和 创新 的 下一步 讨论 中 来。 另外 如果你 想 支持 我们在 播客 内容 上 的 探索 和 创新, 欢迎 大家 加入 我们的 生动 胡同 会员 计划。 详细 的 加入 方式 和 信息 请 查看 本期 节目 的 so no, 我们 下期 再见。