S8E10 | AI 喧嚣之下，数据双巨头的隐秘战争｜硅谷徐老师

2024/6/21

What's Next｜科技早知道

AI Deep Dive AI Chapters Transcript

J

Jack Song

丁

丁教 Diane

联合创始人和主播，专注于科技新闻和行业分析。

堵

堵俊平

硅

硅谷徐老师

丁教 Diane：AI数据领域竞争激烈，许多从业者对该领域缺乏了解。Databricks收购Tabular事件加剧了竞争。硅谷徐老师：Snowflake和Databricks是AI领域的关键数据公司，数据处理能力对AI至关重要。企业需要复杂的AI系统，而非单一模型。Snowflake和Databricks峰会反映了AI时代数据核心地位的转变。堵俊平：Open data catalog因多云环境、多种引擎和数据与AI整合需求而兴起，它在数据湖仓体系中起承上启下的作用。Databricks收购Tabular是技术路线之争，但引发了对Iceberg开源中立性的担忧。独立的open data catalog优于作为某个引擎附属物，因为它能支持多种引擎，提供全局视角。一个独立的中立的open data catalog能够促进良性竞争，打破大厂的生态壁垒。开源商业化模式的成功关键在于持续投入社区，并获得合理的商业回报。开放标准对于数据领域至关重要，避免厂商锁定，促进数据作为核心资产的价值发挥。 Jack Song：Snowflake和Databricks峰会更侧重于AI for data，而非data for AI，即如何将AI应用于数据平台本身。统一的独立的open data catalog对于大型企业的数据治理和合规至关重要，可以提供全面的数据视图。Databricks的商业模式引发了对Iceberg社区未来发展方向的担忧，可能走向分裂。Databricks管理Apache社区模式是开源商业化良性循环的典范，值得借鉴。AI for data 和 data for AI 代表了两种不同的产品方向和发展策略，data for AI 侧重于提供高质量的数据用于AI模型训练和推理，而 AI for data 侧重于利用AI提升数据平台本身的功能。企业级AI应用需要一个复杂的系统，能够整合各种数据源，包括结构化和非结构化数据。data for AI 和 AI for data 构成一个螺旋上升的反馈循环，相互促进发展。语义搜索是data for AI和AI for data融合的重要突破口。

Deep Dive

用声音。

碰撞世界。

生动活泼。欢迎来到 what's next 科技早知道第八季，和全球创新第一时间同步。 Welcome to the stage data bricks go found a alia.

we are so excited to you, snow flex.

Hello, 大家好，欢迎来到我们今天的 whats nex 科技早知道。那一提起 A I 大家首先想到的可能是各大科技巨头在算力算法上大模型的争夺和竞争。大家鲜有关注的就是数据领域的 A I 我们节目之前硅谷徐老师有做过一系列的这个领域的内容。比如我们分析过头部公司 snowflake 以及邀请过另外一家头部公司 data bricks 联创 reno 新来过我们的节目，聊过这个领域。但是因为还是属于基础建设，不是专业人士，可能大家对这个领域关注的并不多。并且我了解到即使是互联网领域的从业人士，甚至是很多管理层都对这个领域知之甚少，需要 C T U 给内参。

那最近这个领域发生了不少的变化。特别值得我们关注的就是在几天前， snowflake 和 data bricks 分别召开了他们的年度峰会。在峰会上两家公司分别介绍了自家的数据对生态的发展方向，以及如何为企业提供更好的 A I 数据服务。但是出乎意料的是啊，峰会期间 data B R C S 宣布重金收购这个领域三大开源数据社区之一的 iceberg 背后的商业公司 tabula。这一举动让这两家数据巨头之间的关系更加剑拔弩张， the data bricks 颇有后来者居上的这样的一个势头。

这期节目的两位嘉宾都是在 A I 数据领域有着非常丰富的经验和洞察的从业者。他们刚刚从 snowfall 和 data bricks 的峰会现场回来，为我们带来了数据 A I 企业级 A I 的新的共识的一些转变和一些观察和思考。这次节目其实涉及比较多的专业术语，并且很多表达式英文，所以在这里先给大家提个醒。另外我们这期节目的公众号也会同时上线，如果大家有兴趣的话可以去查看。

Hello, 今天我们首先来欢迎我们的 co host 硅谷徐老师。

谢谢丁总，谢谢大家，谢谢两位嘉宾。

第一位是我们的 data A I 的创始人 C E O 杜俊平俊平。

hello 丁教。

然后另外是我们的一位新朋友是 Jackson，然后他现在是担任 uber 数据平台的工程总监。 Hello jack .

hello hello.

我们先让 jack 和俊平先介绍一下 data thread。我们之前有过线下的活动，然后以文字的方式呈现了一些我们的内容。但是好像还是第一次来参加我们的节目。 Jack 先介绍一下自己好吗？

我做 data 和 A I 大概有快 20年的时间。现在我在 uber 的管理，他们的 data platform，他们的工程总监。现在我们正在做很多的大的项目，比如说上云，还有一些比较重要的话题就是 data for A I 和 A I for data。

在去乌国之前的话，我是在 A N B N B 待了两年半的时间。我大概那个时候我是在管理他们的 A I platform，是他们的工程总监，算是一直在做 A I。在第二年的时候，有幸参与到 A M B M B 整个生成式机器学习 G I 的整个的产品策划，包括技术架构方面的一些实践。在之前我是在 master a 工作了一段时间，管他们的 data 和 A I 的 platform 和整个的 data。

谢谢 jack。然后俊平大家好。

我是杜俊平， data strutter 点 A I 的创始人。我之前在数据界和开源界大概工作了有十几年，最早在做 hadoop 的公司叫 halt n works。当然在前是在做 lamer，在做一些偏闭源的云的工作，后来在做大数据开源。在 holton works 以及国内的一些大厂里面做云计算开源的这种数据平台和开源的这种 business。大概我们一年前团队出来创业。目前来说我们做了一个开源的 open data cat log 叫 graviton o 主要是做在不同的 cloud 平台之间，包括 data 和 A I 之间，把整个数据层打通。其实跟这次我们在 debris 和 snowfall summit 期间看到的两款产品，其实有着密不可分的关系。待会儿可以再详细再讲一讲这两位嘉宾。

我讲一讲为什么我们会邀请这两位嘉宾。现在大家都知道整个硅谷 A I 是非常重要的一块。有几家做大模型的公司，有一些大的云厂商。除此之外，其实最热的就是两家数据公司，一个是 snowflake，一个是 data。 Bricks 不但是自己公司很火，最近几年的增长都很不错， snowfall 是 2020年上市， ea bricks 虽然说没有上市，但我们待会也可以聊一聊。最近几年的增长势头非常的猛，都是算是硅谷的两家非常红火的公司。

另外一方面，对于做人工智能最终来说，数据是一个很重要的方面。你可以说算法算力差不多，但是数据怎么个把数据打通，有多少数据其实是真正的一个区分大家实力的。所以说这两家公司在今天这一个 A I 这个行业当中，其实是占着非常举足轻重的作用。

另外一方面，刚才就像两位嘉宾说了自己的背景。俊平是之前是开源做了很多年大厂，然后现在自己出来做，相当于是一个初创公的 C E O jack 是相当于是在甲方，他们会用很多开源的或者不开源的一些产品。所以说我觉得要聊 snowflake 跟 da bricks 的话题，这两位是非常有发言权的。最后一点，这两位都参加了最近两周 snowbank 跟 dla bricks 的大会，都是属于对我们业界有很大影响的。所以从这里我们就先听两位讲讲参加完这两个大会以后的一些看法。

我先来抛砖引玉，哈斯诺夫雷大会和 dev 大会应该是一年比一年红火，今年的人数应该是屡创新高，应该有好几万人我看到一个很大的一变化，尤其是这一次。第一个就是说 A I 的时代的到来，在这两个头部的数据公司的感受会更加明显。就基本上在每一个话题，每一场 session 里面，大家都离不开 A I 的话题。

第二个发现是大家越来越明白，在这波的一个 model wave 当中，其实数据作为 A I 的三元素之一，它的这种地位处于核心地位的这种地位是不可撼动的。早年之前我们也提到，就是在 ChatGPT 刚出来的时候，大家觉得 O K 我是一个那个 model，然后再加一个简单的应用。但是现在的一些更复杂的一些需求，随着我们在企业中真正落地。我听到最多的一句话就是我们需要的不是一个模型，而是一个 compound system，就是一个复杂系统。这个复杂系统里面不仅有模型，不仅有这个 agent 还有一些 framework，还有数据 rag 等等。本质上是因为企业应用它的需求的复杂性所决定的。所以我们今天在这两个会上都看到很多很多方案，包括现在还说现在的一些相应的技术，类似于像 rag，还是 P O C 级的 rag，离我们未来真正生产中可以落地的这个 red 或者 daily agent 这个方向还有很长的路要走。不知道这块有没有什么。

我非常同意俊平的分享，铺天盖地的跟 A I 相关的一些理念， session、 keynote 都来。不过我也发现一些挺有意思的一些小细节。其实我们说 A I 包括刚才徐老师也说了，对吧？其实站在 A I 的角度说， data 是很重要的。但是我听完了 keynote 包括一些主题的演讲，我发现大家可能这两家公司可能着重发力的是 A F data。就是他们想把自己塑造成一个用 A I 进入到 data 这个 platform。比如说 data break 说自己要做 data intellect platform snowflake 说要做 call tex 这个都是他们想把 A I 智能化到数据这个平台的发力点。但是你要从 data for A I 的角度，侧重的笔墨就不是很重。

都说数据很重要，这个数据的标注 labelling data 这是非常重要。它属不属于 data 的范畴呢？应该是非常重要的 labeling。

第二就是说这个 feature，而且到了新的这种 G I 的时代，这个 feature 可能更多体现的是这个 problem engineering 的东西。这块其实有很多的跟数据相关联的一些基础设施一些能力。但是我也没有太多的注意到这两家公司都在往这个方向做大力的宣传或者是推广。当然有一些客户的 session 在分享他们如何去 generate high quality data for ai，这是我发现一个挺有意思的现象。另外就是后面可能再可以展开讨论，就是说这两家公司看起来是都在往 A I 和 data 方向去转，但是他们的战略又有一些细微的不同。

然后我就想补充一点的是在 A I 之外的话，我觉得非常大的一个 big news，对吧？这个跟 A I 有一定关系，但是更多的是回归到 data 本身的原始的诉求，就是 cat log 还有 data format。之前也跟俊平还有几位相关的专家一起开玩笑说，可能数据进入了新三国时代是吧？以前旧三国说 data let format 有蝴蝶 iceberg delta。现在大家已经不仅仅期待于在 data lake 方面的这个层面，而是再往上一层，从看 log 的角度去思考整个的数据平台的生态将会一个怎样的发展。所以说现在出现的新三国新三驾马车对不对？然后这个 polo rs 是 snow flake。

当天开大会的时候说 G A 的 open source 开了，俊平应该也在现场。很震撼的是 data break 的 C T O 这现场说，你们说大概要 90天开源，我现在开源对吧？也做了一个及时开源。然后俊平的公司也在积极的在做这个开源的 cat log。我们也希望就是这种 open source 的，以俊平为代表的这些 open source 的新的这样一个形态，能够形成这样三家互相竞争互相合作的态势。

对关于这一点，一个是我想听听俊平自己是怎么看，刚才杰克说这个三驾马车这个观点。另外一个就是关于也 jack 提到的 A I for data 跟 data for A I 俊平你是怎么看这一点的？

首先要解释一下的就 open data cat log 为什么最近突然火爆起来。其实我们做数据都知道这个 data catalog 这一层，它其实在整个数据湖仓体系当中起到了一个承上启下的一个作用。其实它是一个 made data 系统。那么在这个 meta 的系统里面，对上可以支持不同的这种引擎。当然数据的引擎，当然未来可能 A I 的引擎也会接入进来。对象它其实能够接受不同的这种数据源，包括不同的数据库的格式。所以 data cat og 它实际上是一个很容易去做成中心化的 unify 的这么一层。

那么之前为什么他没有得到过多的关注呢？因为他之前被认为是可能是一个数仓引擎或者一个湖仓引擎的一个附属仓，长期它处于一个附属层的层层面，想去做这种联合的 C T L O O G，往往是一些离线的 cat log。比如说我们看到做数据治理的像 atlas s data hub，包括一些商业的像 atlas 这样公司。但是现在我们会发现随着谷仓的崛起，包括不同的这种引擎公司的崛起和数据在多云上的分布。有这么一层实时的 open data cat log，能够把数据真正 united 起来，就不仅做数据治理，而且能够很好的 unify 不同的湖仓，形成一个统一的数据架构。同时能够支撑 data 和 A I 的它的一个统一的计算，这个是越来越 make sense 的。

当然这样做它也是有工程难度和技术挑战的。比如说传统上包括 have meta store，既要存这个逻辑的这种 schema 的这种信息，也要存这个物理的这种 partition index 这些信息。在这层上能够如何能够把多个引擎和底层的的数据的存储格式。能够有效的 union 起来，这部分的这个工程难度挑战也是很大的。

工程问题我们知道最后都还是能够解决的。业务现在已经到了这样一个在多云以及数据和 A I 需要去整合整理这么一个阶段。那么再多的工程问题，我认为都不是问题，都是要需要去克服和解决的。所以现在我们可以看到 open data cat lock 的这个时代应该到来。其实之前我还在 linking 上写了一个 blog，就叫 the next working dating infrastructure。 The battle is open data card. 实际上着重也是描述了这个观点。

在围绕这个基础上，我们再看一看目前这三家 snowflake，包括 da bricks 以及我们 day thread，我们各自的优势。我认为 snowflake 的好处在于，首先它的之前的一套体系比较成熟，所以在它的这个成熟的体系里面，重点支持着目前市场上最主流的 iceberg。 Iceberg 最近的这次收购可以看到在数据库格式上，它已经基本上占据了一个相对比较主流的位置。那么 snowflake 对它的一个支持，被认为是一个增强了对大家对 s book 的一个信心，包括这种格式的信息。那么 day break 好处，一方面它是最近通过这个收购，增强了它的这个 s book little house 当中的一个话语权和它这方面的一个实力。另外一方面它本身就是在 unit cat og 是一个相对比较成熟的产品。

从这次他开源的这个产品来看，我们也做了一个简单的分析。目前它还是 a piece of cake。当然那个 polaris care log 只是 90天开业，目前还没有任何的太多的代码。但是在 unique catoe 这块，我们看到它是有一个小的雏形， piece of cake 大家可以去玩一玩，用一用，但是还远没有到可以在生产上可用的这个阶段。那我们 da strudel guti o 的这个 cat log 我们大概就打磨了更长的时间。

从开发到开源，再到最近又把它捐给了 apache，成为一个 apache 项目。这样的话他跟胡迪，跟 iceberg，包括早期的 hadoop t Spark 站在了同一个起跑线上。还是更加的走向了 open governance 和开放的这种社区治理，有更多的社区来去一起的支持和贡献。这个 catalog 目前来说是这三个 catalog 最领先的，功能也最完善的，包括他的这个成熟度也是最强的。

就是在开源的当中问一个相对尖锐的一个问题，我完全能够相信你在 da 开 log 里面已经着力了不少时间。然后现在开源的东西要比 snowfall data break 要领先，我觉得是完全能够想象跟理解的。但为什么从长期来讲，你觉得 independent 是一个独立的选择，而不是说是一个大的 stack 的一个 feature 或者一部分。

从另外一个角度，我觉得这也是很好的一个，就是说为什么它不应该是一个引擎的附属物呢？它是应该是一个独立的 layer？就是因为在很长一段时间，我们之前都痴迷于像 one engine for all，从早期的数据库走向数据仓库，再走向所谓的湖仓。

我们很希望有一个计算引擎？它可以支持 P 可以支持流，可以支持数据，可以支持 A I 其实我们走到现在会发现，这个越来越变成一个不切实际的幻想。实际上很多引擎它有各有各的优势，包括还有业界之前说的很多的什么 h type 等等等等。就是说这些场景在计算层面上融合的场景确实是有一些具体应用场景。但它目前来说它不是个主流。那么主流的场景还是我可能用 P 可能用 Spark，我用 query at hot query，我用 trainer。

会发现大家会用很多个引擎，所以计算引擎天然是应该分裂的。所以你任何一个依足于某一个计算引擎的这个 data cat lock，它是不能有全局的，也不能够有这个全局的 view 的。可以试想一下 snowflake 和 day break，各有一个 cat log，那是哪个控 catalog 控制全局呢？这个就会有问题。所以这个就是要求我们在整个 architecture level 会需要有一层 open 的 data log。我们认为是真正中立的社区驱动的，不被某一个 vender，某一个云所绑架的开放的这个社区和技术。这也是我们当时创立 gravano 的初衷。

我觉得从甲方的角度，我提两点，补充一下俊平的从隐形的多元化做 federation 的角度。我觉得从甲方的角度，第一就是关注为什么希望有一个统一的独立的 cat log。第一是 governance，就是因为我们发现开始使用数据的时候，开始大规模推广数据的时候，像 A M B N B uber 这样的 global company，他们碰到很多很多的 data governance 的 chAllenge，还有数据的合规多云的部署，异构的部署。

然后我觉得大家都达成共识，数据是非常重要的资产，不光是对 A I 就是对整个全人类、全社会来说，对国家来说是战略储备资源。那么怎么去做 jarvus？现在的问题就是这个数据的生态系统太多元化了。你比方说我们开始用数据去支持 A I 去支持模式能力。大家就问一个简单的问题，这些 fischer 到底从哪一个数据的表出来的？我是怎么样生成这个模型？模型使用哪些数据？这些问题其实在很多公司都没有得到很好的解决，就是因为缺失了一个 linux 的这个视图。

Cat log 的好处就是它可以在多个层面进行一个归一，包括数据的格式、数据的资产、数据的使用模式，数据的流动。它可以在开发的这边形成一个统一的原数据的管理体系。在配合的 data united governance 的一些手段。

希望就从甲方的角度，他希望看到一个 comprehensive 的 review，我知道数据在哪里，数据怎么被使用，是不是得到有效的使用。第二个角度就是我觉得也是对 catalog 本身从数据的形态方面的一个诉求。因为我们很多的时候在讨论是结构化的数据，我们怎么去使用，怎么去弄。但是从现在 A I 包括 G A I 的一些诉求来看，他们对 not structure data 有很多的这种管理上的诉求。我们的 cat log 能不能能够兼容于不同的数据格式，不仅仅是 table format，甚至 non table format。像这种 vlog 这种方式，它需要更高一个层次的元数据管理，能够把数据进行。

就比如说还有另外一个 no structure 的典型代表就是 embedding。因为 embedding 可以说 deep learning 和 G I 的一个非常的重要的一个数据化的基石。但是却发现在 evidence 的数据管理层面，业界没有太多很成熟的方案。陆陆续续从 A 这边涌现出来这个 vd b 但是从开发的角度来说，从原数据角度来说，感觉 in bedding 又是相对孤立的一块。希望通过在这个层面的整合，能够希望从数据的使用者的角度来说，他能够看到不同形态的数据，能够有统一的原数据管理。这个我是觉得从甲方的角度来说是比较重要。

的两个诉求。这两点来讲，你觉得大厂像 data bricks 或者大中厂， data bricks 和 snowflake 他们自己的解决方案会更加单调一点，优势就不如一个更加中立的 solution。你是这个意思吗？

有这个意思， data ick snowflake 都是做生态的公司，但是生态它也有比较连接比较近的生态，对吧？它会有一些优选。在这个倾向性下，他们可能会推出一些比较自己的私有的方案，甚至是一些固定的合作伙伴，甚至是排他的合作伙伴。这个时候如果有一个比较功利的中立的一个 data cat log 的一个生态起来 open source 的这样一个状态，有可能会打开这个边界，对吧？就是不一定非要是 data break 和 snows freak 那么一些更好的一些生态都可以在这里共同发展。但同时对 data break 和 smoth 来说，这也是个很好的 option。因为只要有一个 open 的生态在这里，他们也可以兼容，所以对他们来说也是一个反向的促进作用，最好是有这样一个独立的生态存在，因为这样的话可以让大家有一个良性的竞争。

这次 data bricks 收购 iceberg 后面的公司 tabler，其实大家还是对他诟病蛮多的。我不知道这个其实刚刚我们讲到是需要有一个像是这个 data state gravity ino 这样子的一个比较中立的一个产品在那里才 OK。对。但是大家对 iceberg 后面这个 t ypo 公司收购是怎么看的？

Type lr 其实我们都在做数据，这个圈子也都挺清楚的。因为 run blue 它的中资的 founder red blue 也是在数据圈的老炮了。最早在 cordera，后来在在 netflix 然后再创业做这个 tabler r codel a 跟我之前的那家公司 cotton works，最早做 hadoop 的公司也所以在数据这个领域也应该有十年左右的一个沉淀。 Tabler 本身是一个很新的公司了， 21年左右成立不到三年的时间。也是 run blue 他作为 ebook 项目的 founder，带着一些当早期的一些核心贡献者， ebook 社区核心贡献者一起创立的公司。

这次为什么会 Derek 想收购它呢？我们认为是本质上是一个技术路线之争。之前 live house 大家没有什么意见，大家觉得这是一个公司大厂的中厂在都在走的这个方向。但是具体做用什么样的数据湖格式来存储是吧？就是我一旦存成这个格式，这个数据能不能被其他的数据引擎的访问，这个是一个很重要的一个点。

之前 debris 选的是自己的 data lake 这条路线。现在看来业界包括社区，或者更多的这种企业，更欢迎的是更加开放的像 ebook 这样的一个格式。这次收购也是一个举措，证明 D E B rics 叫拥抱 iceberg 社区跟中立的社区和技术路线。但是他也所谓的诟病，我觉得诟病可能没有。但是更多的是大家会有一个担忧，就是对于他的之前他走的是一个社区中立的路线，或者是厂商中立的路线。现在可能会更加接近于商业公司的利益捆绑，所以这个是大家一个。

核心的存疑的点，因为毕竟这是他的一点几个明年的 1.6。刚才说整个社区的 40个工程师卖这么贵，大家多多少少还是认为这个是一个高卖。那么这个高卖背后的代价是什么？ Rab lue 出卖了什么？这个是大家可能比较关心的。后面话题当然也可以也是茶余饭后科技圈的一个闲谈了。

Ren bol o 也好， taboo 也好，他们做出这样一个选择，对他们本身的公司来说，对整个 s berg 的生态来说都是有积极意义的。要从这个角度去讲，因为如果一旦跟 data break 联手，至少从三家独立相互竞争相互争夺的角度来说， delta 和 I S berg 走到一起去了，至少现在是握手了，相互之间可以共同发展，可能会催生出来一个非常更强壮的一个 cat log 的或者是 data 方面的生态。从这个角度来讲，我们认为它是积极的。

担忧和忧虑倒不仅仅是说对 iceberg 或 taboo 本身的一个忧虑。我觉得大家可能对 data break 的商业运作模式是有忧虑的。因为 data a break 一开始的时候都是做 Spark，还是 open source 为主。但是到他们上市之前的话，他们就发现这种商业模式是不是很有利于他们长期的发展，对吧？那他们决定就是在 data break 这个云上的部署环境中全是用他们私有的版本。同时进一步反哺这个 open source 的这个版本。两个相互共同发展。

但是大家都意识到就是这种发展的轨迹对 Spark 社区来说是有好处的。但同时对使用 Spark 用户的人，他就必然有一个考虑，我想用更好的版本，我是不是必须要到 data break 上去，很快就会有新迎来这样一个所谓的 enterprise version for iceberg 在 data rate 上有一些更好的特性，对吧？相对于 open south 还没有 ready 的情况下，我们觉得大概率可能也会出现。那么这种生态到底对 s pod 的这个社区来说是一个积极的变化，还是一个消极的影响？我觉得现在不好说，但是我觉得从另外的角度来说，我的感觉就是这两个会有种暗暗较劲的感觉。

因为我我当时人在会场，我听完了 snowflake 的 canoes，他们是 all in expert，大家都在鼓掌。然后过了大概十几分钟，我就接到一个刷到一个 things in，然后在这对这个高调宣布收购 tape 了。当时没有宣布金额，就是一个分类以上的金额。你可以想象当时的尴尬的场景，就是大家看到这个消息，然后 snowfall 刚宣布不久，然后大家开始讨论这个话题。为什么要在这个时间点去宣布这个事情，这个本身也充满了一定的剧性的戏剧性对不对？所以就希望我们希望 snowflake 和 da break 能够在 s broke 事情上能够良性的发展。

但是坦率的说，我觉得 snowflake 他一定意识到这是一个危机。就好比说我刚才问俊平，我说他们如果有一些很好的 feature，他们到底要不要 contribute 到 s berg 去呢？他如果从支持社区开源的角度来说，他们应该。但是他们会不会觉得，我现在把一些好的废事儿放过去，那不等于说给 data break 助攻了。

已经有了这种潜意识在的话，就看看这两个公司在这个事情上能不能达成一个长期的战略发展和解的过程。 Iceberg 社区会不会进一步的分裂？我在之前也提到，很快 ebook 社区就发起一个帖子，说要罢免 run blue 的 P M C chair 的身份。就因为你要去去到另外公司的话，你就没有中立了。我们可能从甲方来说，其实我们也有心中也有一些隐忧，对吧？如果我们也要拥抱 iceberg，那么这个社区以后的发展是更加良性、更加健康、更加壮大？还是会走向分裂。

现在其实是不是 dea bricks 管理 apache 这样子的一个社区，是现在开源和闭源结合最好的这样子的一种生态，或者起码是变现的方式。有没有大家能够更好的借鉴呢？因为大家都知道你完全闭园肯定是不可能的。然后你开源你又赚不到钱，你没办法拿到投资。我不知道他们现在这个是不是已经是最好的一个案例了。

这种模式是一个很正常的模式，就是你通过开源能给所有人创造一个价值，一个 public goods。我觉得这是对的，尤其是你在生态中弥补这个生态中很关键的链条。早年 debris 当年开始出发做 Spark 的时候，他也是看到了这样一点。就当时的 hadoop t 生态发展的很好，通过这个 HDFS 统一了整个的存储层，通过压案统一了整个计算层。但是计算层上面，它就允许有多引擎，除了 mapreduce 之外，可能有新的引擎。当时 dear bricks 一个快了十倍，号称快十倍甚至更多的这个引擎计算引擎出现。确实是收获了大量的用户，大量的社区的用户和大量的公司对本身的技术能力以及技术推广的这么个信任。以此为基石对吧？

从 Spark 变成 Spark SQL，再变成一个湖仓或者体系完整的生态。很多企业化的能力和服务，他放在他必然的或者是 SARS 服务的版本里面出现。这个大家也是觉得是理所应当的对吧？因为你你确实已经给社区的贡献了这么多好的优秀的 feature。你取得一个合理的商业回报，这个是一个必然。我们认为这是开源商业化走向一个良性循环的重要的标志。很多公司只是做了第一步，就是开源这一步，没有做好这个商业化的我们认为这个是不完善的，不完整的那否则的话，你没有一个好的商业化的结果，你是不能够持续的有效的投入和贡献这个社区，这就造成了社区后来的一个分裂。

几年前也看到过像类似于 log for g，当然那个话题比较早的就是有一些小众的，但是用了特别多的这种工具。但是因为很很没有这种商业化的这种公司在里面去长期支持。后面就是说会有不断的会有这种安全，漏洞引诱。虽然大家用的很多，但是仍然不能够维持一个比较好的一个健康的一个环境。所以我们认为这种模式是挺正常的。

我觉得还有一个好处，就是围绕着开源做商业化的好处，就是真正会给企业用户带来什么呢？就是它是一个开放的标准，就像 ebook，还有包括我们像 Martino 希望达成的这个 open data catala 的 format。一旦有了这个开放的标准之后，每家厂商互相之间不会隔阂，不会去做别的 locking 或者是 data locking。

因为在数据这个层面上，我认为跟其他的软件还不太一样的是，数据是企业的核心资产。其实几十年前那种被某个大厂什么 O G 大厂这种 locking data 的这种 solution，现在是越来越不越不受大家的欢迎了。因为数据越来越重要了。所有的创新，你的 B 的转型，你的其实都离不开你的数据。这个时候，你有一个 open standard，尽管你上面有可以 building 有更多的 value add，企业级的特性，企业级的服务都没问题。但是你的底层，你的 core 应该是一个 follow 一个 open standard。我认为现在这几年看到整个数据这个赛道的趋势应该是这样。

Big break 在 open source 的标准，包括对 Spark 生态开源社区的繁荣上面做出了巨大的贡献。可以说 dominant 就像刚才俊平说的，有一个合理的商业化的计划。刚才徐老师已经说了，这个 data break 就已经是你从独角兽的排名来看的话是前五的。它的商业化的这个价值已经被体现的非常大了。但是就是说在使用开源，在进行不同的商业模式发展的背后，可能有不同的选择。

Data break 其实有一个非常重要的私有化的特征，当然了这是他的选择。而且我觉得他在去搬运客户的时候，这个 feature 他是用的非常多的。就是 fulton 他跟 apache Spark 来讲可以说是一次重构，等于说他把 Spark 的内核基本上已经重构了。这个对他的性能各方面的来说都是就十倍以上的提升。这当然是非常有利于他在这个市场环境中有一个标杆，对吧？那 Spark 是已经不错了，那我比 Spark 再快十倍，你觉得怎么样？我觉得这是对他们来说是个很好的 business model。

但是从另外角度来说，你可以想象内核开源项目的内核已经发生了变化。他们要维护住这两种共同发展的形态，这是他们的选择，可能这是回报率最高的一种，因为有比较就有差别。但我们也看到一些其他公司，他们坚持做开源的内核。但是在开源的外围，比如说 enterprise feature，安全，包括一些可用性，工具生态上面可以多做一些工作，甚至是 professional service 去发展，我觉得这也是一个良性的发展。

Jack 刚才提到的 data bricks，最近已经算是前五的独角兽。其实从公开的看得到的数据来看，它的营收增长是非常惊人。他虽然说营收比 snowfall 还低一点， snowfall 大概是一个 30亿美元收入，它是 24亿美元收入，但它的增长是 60%， snowfall 只有 33%。

当然也不是只有了 snowfall 33% 已经不错了。但是 data bricks 是其实惊人的，任何一个公司他惊人的 revenue 是这四个 billion， 24亿美元还是能够达到 60% 增长。其实历史上没有几个公司有这么高的增长。我觉得它从这个角度上来讲，它的量级甚至于是估值其实都已经达到了 OpenAI 这么一个 level。如果说是用前几年这么高增长的，能够 40倍，甚至于能够超过 OpenAI 的估值了。

当然了，最近几年大家可能会小心一点。但即使小心一点，我在上个礼拜也写了 listing 的文章跟博客上面也写了，我觉得他已经超过了 snowfall 的市值。这一点上来讲，大家可能在过去几年其实看到这个势头并不是说完全 surprise。但是我觉得能够 confirm 这一点。如果说明天 data break 上市的话，它的市值是应该铁板钉钉超过。这一点我觉得也就是在这个大会上大家才恍然大悟，从这一点上来讲，我觉得 snowfall 还是非常勇猛的。

当然了，这种故事都会有交错的，相信 snowflake 也会继续努力吧。所以说等到 data break 上市那一天，鹿死谁手可能还稍微早了一点。但是这是一个很有趣的一个竞争。

我补充一点，就是为什么 the great 这么有战斗力呢？我觉得这是跟他的一个开源的属性有关。因为他从很多开源同质的竞品当中厮杀出来。早前他同 horton work caldera 这些数据的前辈大厂之间，所以 hadoop 跟 Spark 之争打赢了。后面 hadar 社区又推了 taes，那么继续 Spark 继续打赢了。所以我觉得开源，大家认为开源就好像没有竞争，一团和气。

不是的，开源的我认为它的激烈竞争的程度是更加激烈。你在开源卷完了再去卷闭源，基本上还是有这个战斗力和竞争的。只要你的商业模式不出错，那么你的开源的公司它的这个战斗力，它的这个后劲儿，我觉得都是挺足。

的对 jack 你刚才讲的，其实这一次大会上面你看到的其实是有两个不同的点。一个是 A I for data 和 data for A I 这其实代表了两个不同的产品，或者是两个不同的一个方向。我不知道这块儿能不能帮我们再解释一下，这到底是分别代表了什么。

你从传统的模式 A I 的角度来说的话，大家聊的比较多的都是 data for I 因为 data 是源头， garbage in garbage out。大家一直在讨论数据质量。那么数据这个具体的形态对 A I 模式的来说的话，主要体现在两个方面，一个是 feature，一个是 label。

因为很多的模式 learning 是基于 supervise 模式 learning，很多的算法是基于这个，包括 deep learning。所以说他需要从原始的数据中产生大量的有价值的 label 和 feature，再开始进行模式 learning 的一系列的 life cycle。比如开始 train，然后出完了以后要做 experimental，然后开始做 serving？在 serving 的过程中的话，它可能涉及到 real time feature，包括 real time 的 label 都要进去，然后再做 inference。这个是传统来说对 data for A I 的一个诉求，就是希望 data 整理好，有比较好的质量。在这个好的质量的数据之上产生高质量的 label 和 feature，供给到模型用来去做训练，来去做 driven。

就是 service G I 的到来产生了两个比较重大的变化。第一它对 data for A I 的这个形态发生了一些改变。比方说以前我们做 deep learning，包括 tradition 的 M L，我们就要去基于大量的这种数据进行训练。因为模型当时的参数比较小，他的自学习或者是泛化的能力稍微差一点。这个时候他需要用大量的数据去建立知识。但是 G A I 的模型一上来就是我们所说的大模型，现在想这三个 billion 都是大家说小模型。你再往两年前推三个 billion 的模型，很多公司都没有三个 billion 的模型，对吧？所以说一下子模型它本身的张力和泛化能力很强之后，他对数据的诉求就是另外一个方向。

在早期 ChatGPT 出现之后，很多公司采取 retrain 的方式。这个时候他要对数据去做准备。但是做准备的时候，对数据进行高质量的数据的整理，一条并没有什么特别大的变化，只不过可能就是对非结构化数据处理会多一点。但是真正世界上能够开始做垂顺，产生自己大模型的公司，确实是非常少的。

回到甲方的角度，真正的就是很多大规模的企业来说，他们没有必要去搞自己的大模型。所以他们更多倾向于做 3Q在已经有的一个纯纯的模型上面做 3Q但是这个 3Q对 data for A I 的变化影响极其巨大。因为以前都是按几个 T 甚至好几百个 T 的数据进行训练。但如果进行翻送的话，这个数据量一下子就急剧的缩减。可能几十 K 的数据作为你的 training take inside 翻译的数据就可以了。但是要求这几十 K 的数据是 high quality labor 的数据。

不论你是通过 reinforce learning human feedback 还是 reinforce learning A I feedback 产生的这个高质量的标签化的数据，供给到 3Q模型去产生 specific 的 task。这样对我们这个 data 的生成或 data 的处理就产生比较重大的影响。甚至有一段时间大家在讨论还需不需要做这种非常重的 feature 安全原因了。因为感觉它的必要性就不是那么大。

另外一个就是说其实供给大模型的时候要转成 proof，是一个类似于这种 N L P 的结构了。要有一定的 pattern。它对数据的整理，数据的输出的方式也发生了变化。所以我觉得从这个角度来说， data for A I 发生了很多的变化。

对接来说。但是我从这次会上来看的话，这两家公司都没有很多的在这个话题上进行深入的分享，或者是主题上的发布。他们把重心都放在了另外一个层面，就是如何把 data 作为一个阵地。因为刚才徐老师分享的特别对，就是这个洞察就是现在从企业界来说，真正上到生产上的，大家觉得比较 conversible 的解决方案。一个是 customer service，就是客服。通过这种 G I 的技术能够提升 agent Operational efficiency，这是面向的是 agent，因为 agent 在很多公司都是很大的一个 cost 的群体，希望通过它来降成本。还有一个就是徐老师说的 employ facing productivity，这个时候就是 data 所谓的 data GPT， data copilot， data agent 这个概念就出来了。但是这两个公司他觉得这是一个非常重要的产品发展的创新方向。

所以说 data c 提出来 data intelligent platform，你要仔细看一下 data intelligent platform 它没有很多的强调 data for A I 反而是强调的 A I for data。怎么样把 A I 拿到他们的这个 data platform 里面进行 upgrade，把他们的组件变得更加智能化，提供一些更加高级的帮助。 Data automation data 它的这个功能。 Snowflake 也差不多，他就提出了 cortex A I。

Cortex A I 就有有点像 data brick 提出的 data intellect form，那个引擎叫 data base I Q，就是类似于这一层，就通过这种大模型 G I 的或者是模式能力的方式，能够反向的引导 data platform 本身的一些数据仓库、 search，包括一些 U I， SQL editor，包括 B I， dashboard 这些逐渐的智能化。所以我是总结来说，我就看到的是他们更多的突出的是如何把 A I 带到 data 的世界中，影响 data。但是我觉得从他们的战略发展来说，对他们来说是个合适的方向。因为他们就可以转型，不光是一个 data 的 company，也可以做一个 data 和 A I 的 company。

我就补充一点， data A I 和 A F data 其实更像是一个螺旋上升的一个 feedback loop。为什么呢？就是说 date for a 是说我要解决 A I 当中各种各样的从训练到 prom 到最后的推理，包括 agent 这样一系列当中的数据问题。反过来说，我们现在有更好的模型，更好的这种应用。反过来用 A I 的能力能够反哺数据系统。

现在是这两条线，前面一条线， data a 是一个长期的持续的过程。反过来这条线 A I for data，因为最近因为 G N A 的兴起之后，我们有在大模型能力上有一波崛起，所以大家可能在这个点上会比较关注。所以这也是为什么我们看在两个会上看到 A F data 很多的 feature。但是同时在另外有一条线上， data fy 也是非常重要的。

刚才 jack 也提到了，其实我们在新的 fine tune，然后包括我们的 engineer，包括现在最新的这些 reg system，其实有一个需求就是我们在 large larger model 或者在大模型这个领域，我们不仅要的是一个模型，我们要的是一个复杂系统，一个 compound system。这个复杂系统里面就不光是大模型，不光是这上面简单的应用，而且它是一个 framework。这个 framework 里面有一个单独的类型，就是要处理它的相应的数据。那把我们现在企业里面海量的 data lake 里面的数据能够转成除了 vector store 里面的这些小量的数据之外，还能够跟我们海量的数据库当中的数据结合。

其实这个也是在推理端和应用端，其实现在急需要解决的一些问题。同时其实 on struct data 有大量的痛点需要解决。因为我们现在的 transformer 这些模型里面处理大部分的都是 document 的类型。实际上还有物理世界的很多的图片，包括这种三弟的感知，位置的这种信息等等。其实这些时候还有很大的瓶颈。因为有的人说，我们这一波的 A I 革命的瓶颈，其实最后的瓶颈是在 data。我们能不能能够把真实的这个物理世界中的 data 让模型能去理解，甚至我们的合成数据最后能不能产生 power 和 magic。我觉得这个是实际上反而可能是一个更大的一个主题，或者是未来更大的一个价值。

因为刚才提醒我了，就是 data 和 A I 的这个融合有一些新的形态，也不是新的形态，但是大家都往这个方向去发展，就是这个 search 或者叫 semantic search。 Semantic search 是一个非常好的一个 A I for data 的一个形态。因为为什么呢？它是把几个要素都能够整合在一起。第一 data 需要去整理加工之后，做 embedding 的一个基础，无论是你要做 market dimensional 这种还是 non structure data，都要做大量的数据准备和兴起。第二就开始做 evidence embedding，其实是一个非常的，我们从这个拉砖要来说，就是 ebel ding 是一个非常重要的多模态的整理过程。无论你是什么类型的数据，通过一白净化打造一个多维的向量空间，能够实现多模态的归一化的处理，这是非常重要的。这个时候就开始做 embedding。

这时候 data for a 的重点就开始从以前的形态，数据格式形态转换成怎么去做一个。 Embedding 的一个 data platform 去支持。怎么去生成 embedding。那用什么样的 embedding 的模型去产生这个 embedding？因为以前的数 data generation 都是靠 computer 去产生的， aggregation service query. 但是 embedding 是应该说是把数据生成的隐形从计算引擎变成了 A I 产生的最后的这个数据变成了 embedding。然后 embedding 把它存储在具体的这个向量数据库或者是具体的数据库形态中，然后发展。

然后之后为什么说 3 matic 测试是个很好的结合呢？因为 3 matic 4是经常被用到刚才俊平说的这个 rag 的解决方案中。它不光是搜索，它还要做 augmentation。大家现在已经形成了这种态势，我需要去搜索，我需要去 query，但是我对 query 的有更高的要求和 query 的输入有更高的要求。 Query 的输入简单来说就 NLP 更加的自然，自然语言交互，它的输出要求更加的贴合我的意图。

这个时候拉着的 model 其实在两个头，一头一尾发生了重要的影响。就是他首先理解你的语义 query understanding，把你的 N L P 的理解的非常好，然后转换成一个具体的 query 的一个 embedding 的 query。然后这时候去找 in bedding 生成这样一个最后的 A N 的 search 对吧？这样一个 search query，然后通过 A N 去找到这个相关的知识，这个设计上做的事情，但是还没有完。拿到这个相应的设置的知识之后，要进行拉钩 model，再进行加工，形成最后的非常好的格式化的一个结果。我觉得看到这个 data 和 A I 融合的过程中，比较主流的一个方案就是把 data A I 通过一般这个方式结合起来，通过 symmetry search 作为出口，变成一种 data service， data product 的形态。

具体回到这个 data break 和 snowman flake 都有具体的解决方案。比如说 snowden ke 就叫 cortex，然后他重点打的是 cortex search，它在 kindle 上做的两个 demo。有一个 demo 他非常自信，他是随机请了场下的一个观众把他叫上来一起来演示 demo。你要知道在这种场景下，他必须要有足够的信心。而且 snow flick 在收购这个层面上很有意思，他第一个收购的 A I 公司是一个叫 nova 的公司，这家公司专门做 search 的。相反于 data break，他收购的公司是 mosk ai musa a 也是非常强的 research 的 background，然后他们做了 model，这是非常的，当时业界都是非常排名非常靠前，但是他们不是做 search。我这次在开会的时候，我就特别关注这个细节，我就说 data break 的 search 到底是怎么做的。

然后我这里跟大家分享一下 data break 和 snowflake 在 semantic 事实上的一个重大的战略上的区别。 Snowflake 是把自己的数据库改造成了 vest D B，这个等于他把自己的内核加了一个 vector data type。无论怎么加，大家可能说这个东西怎么样，但是很多数据库都改自己成 vex D B 了，对吧？但是他自己就把自己改成 Y C D B。他解决了这个 west D B 最核心的 A N N 的 search，包括 west D B 存储的形态。然后他又收购了一家公司专门做 search。然后他有自己的 largely model 的 team，而且做了自己的 artic model。他这套解决方案成型了之后，我觉得质量上来说，包括它的生态的整合上面来说是比较到位的。

到 da break，我当时在会场上花了一个半小时跟 data break 的专家在一起。我就想了解一下他们三个四是怎么做的。然后我得到的消息是这个 semantic 设置的这个解决方案大部分是 music music A I 自己做。

然后比如说一个细节， vecht D B 是基于什么来实现的？结论就是字眼。然后我说这个跟 Spark 有关系吗？因为 Spark 对 snow fork 来说， snowflake 是 snow flake database，那 Spark 对 dead rick 来说是 kernel，说没有关系，这个 weh D B 跟 Spark 没有任何关系，是独立的两条线。我就感觉到这两个公司在处理咱们这个设施上的时候，战略还是略有不同的。当然了都有各自的一些考虑了。但是无论如何，回到俊平刚才那个观点，我觉得 summer tic 设计是一个 data for A I A S data 一个非常重要的一个突破口。

因为像有一些初创公司，像是 cohere，或者是像是 adapt，他们其实也是在做 rag，然后也是在做 semantic search。所以他们的这个竞争优势到底是在哪里？

Semantic 设置，我个人觉得有几个竞争要素。第一就是 emitting 的模型。其实大家很多时候都认为 OpenAI 的 embedding 模型是最好的，但实际上专门还有一个榜单在比 evidence 模型，不是指这个大的 foundation model。那么 OpenAI 的模型都排在十名以外的那就是有些时候卷的话，卷的是 embedding 模型，因为 emda 模型不是很好做，要做到很好的话，第二就是关于整个的 embedding 的一个核心，就是这个 weft D B 或者是叫向量数据库。这个内核是怎么样？它的 A N 的算法， A N 的效率，包括扩展性上，并发性上这些东西。所以这是为什么有一波创业公司做的就是 Y C B B 对吧？因为他们要做这个生态，我觉得这是第二个。

第三个就是所谓的 marty agent frame 和 rug。我可以回答你的问题，但是我要卷的是我能够理解你的问题更好，同时我能回答你的问题更好，我的理解的深度比你还好。这个有些时候不是靠一个模型能解决的那为什么现在 market agent 比较火？就是因为大家希望用一把一些复杂的问题分解成几个简单的问题。然后通过不同的 agent 他们的翻修之后的这些能力解决特定的问题。

当然了可能有一个核心的模型，比如说 coherence 或者是 adapt，他们可能会使用 G P，他们口号的应该不会使用，但是 adapt 可能会用 GPT4 做这个 reasoning，做 coordinator 的肉。但是还有一些小模型去做辅助 code，因为本身他自己就做大模型，那他可以用自己的这个模型去做这个 coding ation。所以我觉得劵这些要素可能都会大家会拼谁做的质量更好。我看到的情况就是包括 data work 和 snow。

现在做 3 matic 测试的公司也非常多，就感觉到了一个什么程度呢？就好像大模型打榜一样，大部分公司能进到 80分以这个阵营，但是你说能做到 95分以上的还是很少。但是这个就不是一个单纯的大模型的竞争，而是一个端到端的系统优化，甚至结合很多领域特定的经验去做的。所以说大家可能现在在拼的是这方面。

好，非常谢谢两位，非常谢谢徐老师。我们今天其实连线也比较晚了，大家都已经是半夜了。

谢谢君平，谢谢大家，晚安，拜拜。

谢谢各位，谢谢各位。

这就是我们今天的 words next 科技早知道。欢迎大家在评论区和我们留言互动，加入到科技和创新的下一步讨论中来。另外如果你想支持我们在播客内容上的探索和创新，欢迎大家加入我们的生动胡同会员计划。详细的加入方式和信息请查看本期节目的 so no，我们下期再见。

S8E10 | AI 喧嚣之下，数据双巨头的隐秘战争｜硅谷徐老师 48:28 Share

What's Next｜科技早知道

Deep Dive

Shownotes Transcript

S8E10 | AI 喧嚣之下，数据双巨头的隐秘战争｜硅谷徐老师