欢迎来到会友标局这是一档蚂蚁集团出品的播客栏目我们会和各位心疼老友分享关于蚂蚁的一切和你一起探索科技与商业的未来世界哈喽大家好我是丁酱欢迎大家来到第九季的 What's Next 科技早知道和全球创新第一时间同步
Hello 大家好 欢迎来到我们今天的科技早知我们以往其实是聊 AI 模型有多强应用这些方面我们聊了非常的多但是今年我感觉其实我们一直没有聊的就是数据 AI 起来之后它底层的数据有没有改变然后对数据库行业有没有什么新的变化那像原来可能是这种非常干净然后有非常结构化的数据是不是已经就变化了或者已经不够用了那现在动不动就是可能很多图片啊
语音甚至有的是这种实施数据流但这样子的新的一些市场的要求对于数据库行业有没有一些什么新的挑战今天我们就请来了 Oceanbase 的 CTO 杨川慧然后日造总然后来跟我们聊聊这个话题虽然说可能我们聊数据库一般来说不是一个特别面向大众的还是一个比较干货的话题但我也希望今天我们能够
跟日造总把这个话题聊得稍微轻松一些那我先来介绍一下日造总他之前是在百度开发过云计算的整个架构云计算分布式系统然后后面其实就是加入了 Oceanbase 的团队然后是这个 Oceanbase 的创始成员之一做分布式数据库大概有接近 20 年了从零到一落地了蚂蚁集团服务器
对就从零到一去把 Oceanbase 由一个刚开始是一个技术产品然后慢慢到一个这种商业产品就经历了整个发展的一个阶段那我们再回到今天的 AI 的一个主题的方向那现在在 AI 的时代对数据是不是有一些不同的这种要求和这不同的一些挑战 AI 时代大家对数据的需求其实是以前的需求的一个延展
就以前的时候我们做交易也好做分析也好他处理的数据都叫结构化数据所谓的结构化其实就是打标过的数据比如说一张图片来了之后这张图片它到底里面有什么样的一个有价值的信息我是通过人工的方式现在可以用 AI
把它里面有价值的东西抽取出来然后打标存成一个表格这是以前处理的这个数据那 AIS 带来了之后呢除了这些打标之后的数据也有很多是这种半结构化或者是一些无结构化的数据那这些数据的话
以前可能这些数据就丢掉了现在我们有一些强大的 AI 技术可以用一种自动化的方式去直接处理或者说把它用 AI 打标的方式把它变成这种结构化的数据这个方式就对这个数据的
底座带来了一个很大的一个变化第一个变化是数据底座要处理这个数据的种类数据的类型它变多了因为它原先处理打标过的几个化吗那现在很多其他的半几个化跟一些无几个化也需要处理
第二个是它对数据的规模也变大了因为 AI 的应用它是每年都在爆发未来还会是一个每年非常高的速度在去增长第三个是这种数据使用的方式也会发生一些变化原来我用这种打标过的数据都是在数据库里面都是用 C 口 SQL 它是一种结构化的查询语言我们以前在大学的时候只要学过计算机的人应该都会写 C 口
但是在 AI 时代的话它好多时候怎么去处理这些无结构化数据半结构化数据它有的时候是需要混合查询的因为它有的数据可能是这种像 SEQ 处理的结构化数据有一些是半结构化无结构化数据它要在一种查询里面查询很多种不同的这种数据类型需要支持这样的一种混合负载的处理所以有数据规模的变化这个数据维度数据种类的一个变化也包括这个查询负载的一个变化挑战蛮大的
对因为我们其实在想说现在整个在国内做大模型其实大家真正跑出来有落地商业模型的其实并不是很多可能 AI coding 我们前几期不是聊过了吗大家觉得这个是一个确定的赛道大家总会你不管是公司付钱还是开发者自己付钱他总是其实是验证过了咱们数据赛道其实是不是也是另外一个非常确定的领域
数据赛道我觉得首先是非常确定的因为它是不同的层次就比如说 AI 编程包括 AI 去做营销 AI 去做安全它其实是在上层的应用层那数据赛道它其实在中间的 pass 层最底层是 ice 层 ice 层就是做大模型大模型首先肯定是非常确定的只要我们相信 AI 未来会好对吧它是非常确定的
然后在网上的 pass 成也是确定的因为不管应用怎么变最后一定要有数据处理的能力 pass 成的难点在于说它会相对来讲会比较集中在几家企业手上可能应用成的话它会比较分散 pass 成也是确定的只是谁能跑出来谁很大这是不确定的
我觉得可能下面得请赵总帮我们来给几个案例吧因为好像我看到咱们很多企业其实过去它并不是没有数据它数据可能是就是没有整理过的数据它没有结构化它有很多这种所谓的叫做数据债没有办法能够做分析没有办法能够这个实时的做一些很多其他的工作我不知道现在这块是跟以前变化在哪里
就今天我们真的把企业的数据用起来你会面临大家都知道的像数据孤岛的一些问题数据规模的一些问题数据安全的一些问题历史遗留系统 legacy system 等等一系列的一些问题这些问题仍然在但是今天有一个不一样的变化在于说我们的系统处理的能力增强了
这些系统处理能力增强既包括像 Oceanbase 这样的一些分布式的能力它得到了增强因为我们有分布式的这个系统有办法通过分布式的方式一体化的去处理各种不同的工作负载所以我可以把这些数据都放在 Oceanbase 一套系统里面来不需要去单独建很多个不一样的系统那变得更简单这是一类第二类是 AIAI 其实更偏这种怎么去处理数据怎么去做计算
没有大模型之前可能我们针对不同的数据我们需要写不同的 AI 的算法不同的场景需要一种 AI 的算法这是很麻烦的大圆模型它最大的一个好处它是一种比较基础的一种方式能够处理所有的场景
它的泛化能力做得比较好所以因为它的泛化能力做得比较好所以它比较容易能够去实现这些数据处理的一个自动化对这是两个技术上的又还不提到这个自然语言然后通过自然语言来处理这些需求是吗对因为这个数据本身它里面就有文字嘛那那个文字就是自然语言如果有 AI 的话我去直接用 AI 处理这些原始的数据不就相当于在处理这个自然语言吗
所以以前我处理这些自来语言就是可能说做风控的我要写一个算法做营销的写一个算法但他这种方式的话他是都是需要靠程序员的没有办法做自动化大语言模型的 AI 来了以后这个门槛就变得特别的低相当于他把 AI 这件事情数据处理这件事情变得更加的普惠
并不是还要等技术团队需求往上面排时间表就可以自己直接操作了有的时候可能这个例子比如说我们以前想做一个这种报表我是个业务人员往往我是没法做报表的我需要先提一个需求
把这个需求提给一个专门叫 BI 的一个程序员对吧 BI 程序员帮我做完报表最后我才能看到这个效果这里面交互是蛮复杂的就每个公司都有很多这样的一些人如果我大眼模型做得很好的话可能说我要做报表我自己通过自来语言可能就做了当然他不可能今天还没有办法做到 100%都用自来语言来做可能有百分之假设有一半的场景他可能用自来语言的方式就能达到
这个业务人员想要的一个效果那就避免去做编程可能未来老板也是不太需要层层汇报老板直接输入一个需求要看哪的数据就是直接打哪了所以刚刚是不是连分析师的工作也没了对我觉得不管是分析师也好包括程序员很多的工作它会被重构可能有些工作尤其是一些重复性的工作它可能确实会减少的但是
但是我觉得大家也不用担心因为这些工作几件事一定会有其他的一些更有创意的工作这个我是确定的其实有一部分是特别需要数据它的准确度是非常高的可能像是金融方面的这种高频次的这种处理但我感觉好像前者是 AI 的这种幻觉或者 AI 的精确度可能并不能够完全处理到那一部分的业务是吗在高频交易这块其实还是没有特别多的业务或者需求
首先不管 AI 怎么去发展 AI 也不是万能的因为 AI 它是一个大圆模型它本质上是预测下一个 token 预测下一个 token 它的效率是比较低的所以 AI 还是适合用在它擅长的场景
比如说 ai 用在做一些总结做一些这种文本的生成做一些这种没有办法有规则的一些场景他没有办法用人工的去拿到一些规则只能自动处理的这样的一些场景这些场景是非常适合用 ai 的那这些场景也往往都是一些这种无极客化的一些数据的场景那如果有很多的一些场景他已经很好的实现了这种信息化或者实现了打标比如说这种交易的场景甚至包括部分的分析的场景
他已经做好了结构化其实用这种 C 口用这种数据库的一些传统的使用处理的方式他不管是准确性还是这个成本啊都要比以前好非常非常多但是在这个刚刚讲的前者就是讲的在处理交易这块其实 AI 往后走可能会不会有一些这个对他的助力呢
就如果是做这个交易本身我觉得它是一个完全确定性可能说一行数据都不能丢这样的一个场景那这里面的话 AI 去做这个引擎肯定是不合适的但是 AI 基本上对包括做交易本身它里面也会有一些辅助性的工作也会有一些价值的比如说我们要做一个交易系统
引擎肯定是一个数据库对吧但是我们怎么拿到这些数据库的结构化的数据这些结构化的数据也是通过一些信息化的系统把它拿到的这里面是能够大量的去用 AI 的能力去给它提效的
我们做一个引擎它做好了这个引擎周边还有很多的一些工具这些工具可能是帮助用户更好的去使用这个引擎的帮助 DBA 开发的帮助我们做运维的帮助我们可能更快去理解这些引擎的这些东西的话它可以用 AI 去帮着去提效的所以现在可能还是以怎么样通过 AI 对数据提效的这个角度可能更多一点它本身在分析上面我们还是正在探索
对因为 AI 它我把 AI 还是看成一种叫 copy 了这样的一种模式它更多的时候它是相当于是人类或者是我是这些系统的一个助手它没有办法这个完全替代这些系统它能够替代的只是那些对准确的要求比较低相对来讲人类并不擅长的场景它是能替代的但是大部分这种人类已经做得很好的尤其是结构化数据这一类的场景啊
肯定是这是一种辅助还不行还不能完全替代 AI 现在应用也很多大家对数据库的这种要求也更多了但是不是是 AI for data 还是 Data for AI 这个您怎么看
我觉得其实是双向的首先其实 ai 的核心其实两块嘛一块是这个模型本身尤其是我们发现类似 deepsig 类似千问这种他是一家真正去做这个基础大模型的公司做模型的预训练他的模型本身是很有价值的
另外一块其实就是怎么去处理数据因为只有把数据跟模型结合在一起最终才能真的把 AI 在企业里面跟用起来这里面到底是 AI for data 还是 data for AI 我觉得两个都有了一方面你需要把一些 data 的能力需要处理好 data 把有价值的这些 data 以类似提示词或者是微调的一些方式输入到模型里面帮着模型变得更准确
那另一方面它确实 AI 也能去辅助这个 data 因为我 data 在做处理的时候以前我的很多的一些这种 592 数据我是基本上没有办法去很好的处理就人工标注吧对 人工标注其实很麻烦嘛那有了 AI 以后它好多这种人工的事情可以变得自动化
可能也有什么像是自动诊断其实这一部分就能提交不少对自动诊断包括这种自动运维也包括我们要学习一个新东西学习一个新东西往往都是需要有这个领域特定的知识的
以前怎么办以前 DBA 会告诉我们说我现在要下载你的文档然后来开始去从文档里面找我想要的东西这是以前干的事情有了 AI 以后可能我们学习一个新东西我就给他构建一个知识库就好了他就开始问问题我需要什么就回答什么
它比以前要方便很多很多明白就现在其实像大模型公司它也慢慢在增强他们的数据方面的能力像不是前段时间 OpenAI 也是在说把 GPT 的那个 RAC 他们的这个记忆其实提升了不少就大家最后还是增强的还是一个数据因为用户终端用户的数据所以在这块是不是您也看到了更多的业务从这个 AI 公司这边来
是的我觉得首先所有的数据公司它本质上也是个 AI 公司所有的 AI 公司本质上也是个数据公司就数据跟 AI 永远都是不分的只不过这些公司大家会去做数据跟 AI 的不同阶段的事情大冒险公司它更多它是做这个
数据跟 AI 的数据共有数据就公网上的数据的一个预处理的这件事情他因为他主要是做预训练嘛要一个基础模型那这种偏数据类的公司呢他其实也是 AI 公司那他做的是这个预训练之后后训练包括微调包括强化学习啊也包括这种我们叫 RAC RAG 就用数据去增强他的模型因为这些数据呢他往往是
企业的一些敏感的私有的数据其实在大模型做这种基础预训的时候是拿不到的对您刚刚讲到其实这个数据公司更天然适合这个拥抱 AI 如果跟大模型公司相比的话对现在这种 AI 时代对于数据公司甚至是对于这个 Oceanbase 是什么样的一个机会呢
我认为其实大模型公司也有分为几类有一类还是做基础模型的公司比如说我们 DeepSeek 包括 Qianwen 包括 OpenAI 他们本质上是做最有挑战性的基模这一部分这一部分的话他们可能还是会比较专注的它有点像是做数据加数据乘以 AI 的一个爱思程除了基模以外的其他的公司不管它原来是做模型的还是做数据的
其实从抽象的角度它有点像是做这个 Data 乘以 AI 的 Path 乘相当于说是有了这个基模以后我怎么把这个基模应用到各个行业各个领域那应用到各个行业各个领域的话最核心的点就是要把这个数据跟 AI 结合在一起
那第一 AI 很多时候都是开源的它的最核心的能力确实是掌握在一些做基模的公司手上那怎么用起来呢其实这个关键是怎么把这个开源的这些模型跟企业的数据处理能力结合在一起是不是中国已经跳过了所谓这种中间界的时代就 AI 时代来临之后它很多中间层的这些技术服务商或者他可能就不复存在了这个边界就越来越模糊了
我觉得 AI 肯定确实会把我们 IT 行业的分工边界变得更加的模糊因为我们发现可能说一家大模型的公司他都能直接去对客他不会像以前一样我是先是一个 S 层机器然后再一个 pass 层可能会有些中间件再往上应用层应用层又分好几类可能是先是一些这种通用的这种 SaaS 再往上是可知独立部署的一些应用 AI 明显会打破这个边界
AI 因为它把很多的事情变得机器能够自动处理了机器能够自动处理它以前的分层是为了使用人类的从机器的角度它不需要分层机器 readable 跟 human readable 这是两个概念所以当边界变得更加模糊之后
我觉得一方面肯定对中国的企业是一个机会因为在以前那种分工的模式之下这个中国的很多软件公司他的客户他是上一层的软件公司这个上一层软件公司付费意愿是比较弱的那当把这个边界模糊之后呢大家能够找到更多的一些机会去直面一些中断的用户那这个时候呢相对来讲我们 2C 的付费意识是比以前要好得多的
所以整体是带来了一个更好的一个机会吧因为从这个用户的角度大家肯定在将来是想把这个大模型给用起来的嘛那几个方式一个方式直接掉大模型但直接掉大模型对于严肃的这个场景是不太现实的因为客户的这些数据啊他首先就不愿意去放到公网里面去
那他一定会有自己的一个大模型那自己的大模型可能是放在公营部署也可能是放在线下部署那有了自己大模型之后呢他接下来就是要怎么把这个自己的大模型在自己这家企业用起来那怎么用起来呢他就需要把自己的数据给处理好那这个时候有两类公司一类是原来干大模型预训练的但是后来呢反正他就不干预训练了开始去做这种数据处理
还有一类公司是原来做数据处理的现在还是帮客户做数据处理并且把大模型给用起来从客户的一个积累也好包括技术的积累也好肯定是做数据的公司在这方面的实力要强很多的因为客户需要的就是做数据处理客户需要的不是做公网的数据处理是做企业自己的数据处理它跟 OB 这样的以前做的事情是比较相似的
您觉得现在这样子 AI 乘以 data 这个领域是未来主要的业务会来自于像中小企业这样的需求会更多呢可能还是会是大厂因为感觉好像大厂这块大家的竞争也非常厉害每一个大厂都有自己的云服务云生态对我不知道您怎么未来看这种竞争的格局的
我是觉得说今天 AI 它跟以前的数据库以前的 data 它的格局会比较相似的最后一定会有这些最大的这些企业包括中等的这些企业跟中小企业对于这种要像 OSB 这样我们希望成为世界级的一个数据库这样的或者叫数据底座这样的一个厂商来讲我们肯定是
大中小都得做那最终往往提供服务呢它往往会比较有优势的场景可能是那种中等往上这样的一些企业这是我们会更有优势的一些企业就可能有这种高并发的这种业务的其实只能是中等往上的企业才有这样的需求也包括这个因为一体化它就不仅仅是高并发嘛一体化也包括我是各种不同的一个工作负载
但是这些最大的一些企业它有的时候会有自己的一些开发团队它会自己定制一些对它来讲最优但是没有办法通用的解决方案只要是通用的解决方案它往往会最大的那几个去掉中等跟中等往上这是利润的主要部分中小企业这是生态的主要部分
数据库是这样数据底座也都是这样一样的其实这两年我觉得 Oceanbase 发展还是蛮快的尤其是我们从 2020 年 6 月份开始从这个蚂蚁集团独立出来成为一家对外提供数据库服务的公司之后其实从这个技术的产品技术的一个角度其实我们一直在做一个叫一体化数据库
我们以前做数据库有做交易的有做分析的做交易就用交易的数据库做分析就用专门的分析的数据库 Oceanbase 我们希望用一个一体化的方式用一套架构来同时支持做交易做分析包括我们未来可能会有一些做 AI 这种 AI 时代的这种多种模型的一个工作负载
都放在一套引擎里面做到今天为止 Ocean Base 它最早是只是在蚂蚁集团在支付宝到了现在的话一开始是内部的很大的问题和需求然后把它变成了一个产品对 这个数据库其实它也没有什么特别大的一个窍门它的本质上我叫应用驱动技术创新它的理论可能是五六十年前三四十年前就慢慢在图理奖得主都是三四十年前得出来的
慢慢它就需要用这种最顶尖压力最大的应用比如说双 11 去打磨这样的一个数据库的技术慢慢通过应用驱动创新当时是把我们的分布式的能力给打磨出来了因为当时是移动互联网移动互联网它的特点就是它的请求量特别大它的并发量很高所以为什么中国的分布式数据库做得很好
接下来可能我们现在其实已经有除了支付宝以外有超过 2000 家这种企业在把 Oceanbase 用在它的一个核心系统里面了这里面涉及的行业也蛮多的所谓金融 政企 物流 打车基本上每一个包括我们每个的听众我觉得你肯定会用到 Oceanbase 的服务
其实我们节目之前也请过 DataBricks 然后也有聊过很多 Snowflake 我不知道这两年其实他们在 AI 领域也是不断地在攻城掠地然后像是这个 Snowflake 它其实是一个这种
不断在扩自己的生态的这样的一种状况然后包括 Databricks 其实也收购了像是 Mosaic ML 这样的这个产品所以我不知道他们其实是走的还是蛮早的但他们会不会也有会有一些这种盲区或者大家的这个路线是怎么样的如果是跟 Oceanbase 比的话
我觉得其实三家最典型的公司一家是 Oracle 它原来是做交易为主可能看起来跟 OceanWaves 更像一点它也是在打磨一些 AI 的能力另外一家是 Snowflake 做这种云上的书仓还有一家是 DWX 它其实原先是做大数据的做有点像是数据中台它也在收购一些大模型做一些 AI 的能力
我刚才其实讲一个观点叫每一家数据公司他也是一家数据层 AI 或者是 AI 的公司其实数据公司跟 AI 公司他在未来我觉得只要是最 top 的一定是分不开的不管你原来做交易还是做分析还是做大数据最终你一定是一个 data 跟 AI 的一个结合那每家公司呢他最终会有每家公司擅长的一些东西比如说 orago 他原先在这个交易这个场景他有很多 EO 的一些客户那这些客户的话
如果 Ologo 的 AI 做的还可以理论上他肯定优先会选 Ologo 应用的一个产品因为能跟他以前的一些这种能力结合在一起因为大家都用 MySQL 用惯了就已经是这样子了对数据已经都在他那里了所以很多时候其实我们数据为什么做数据公司在 AI 时的很有竞争力其中有一个很关键的点就在于说数据搬不走数据要搬它比搬计算要难很多
做 snowflake 他做分析他做分析他有做分析的生存指导那 data blockers 他已经做大数据肯定了大数据天然也是做一些机器学习的只不过以前的机器学习呢他是偏这种传统的一些方式就面向不同的场景会有不同的算法
现在大圆模型泛化能力要做得更好那 Ocean Base 我们肯定也是一样第一我们有很好的一个这种 Install Base 我们会有一些能力是像 Oroco 跟 Snowflake 跟 DWC 都没有的我们最主要的能力有两块第一是分布式的一个原生的能力我们叫原生分布式这一块我们是世界领先的那第二块呢我们叫一个一体化的一个能力
我们能够在一套引擎里面同时处理这种交易分析包括一些这种多模片半结构化数据的一些处理那这样的一些能力我觉得在 AI 时代可能是代表未来的一个趋势的因为在传统的一个时代这个信息时代它这个交易分析跟这种大数据分的是比较开的
但到了 AI 时代好多时候反正也是新的业务场景第一是新的业务场景第二这个时候像 Oceanbase 这样的一些很好的一体化的基础设施已经出来了从用户的角度来讲他不怎么关心到底这是 TP 这是交易这是分析这是大数据他希望你都给我做掉这个时候对于 Oceanbase 来讲我们就面临一个更大的机会因为就是一个能帮用户简化基础战能让开发者更简单的一个机会
但您觉得这是一个共识吗还是一个非共识我觉得从开发者的视角来看是一个共识但是从企业的角度来讲不全是因为有的企业它做不了一体化因为一体化它其实对技术的挑战是比较大的
因为以前我们做一个这种 standalone 的一个系统你只需要做一个模块相当于今天我们要做一个系统要把很多个模块都融合在一起融合 10 个模块它的难度不是乘以 10 可能是乘以 100 甚至乘以 1000 再加上要做这种混合搜索等等这些东西就涉及到很多不同的技术所以我们有个理念叫把简单留给用户把复杂留给我们自己就他其实能把这个事情做简单是因为复杂留给了我们自己
但是呢中国很多的一些包括做数据类的一些研发的公司啊很少有像 Oceanbase 这样有一个这么强大的一个研发团队可能是几百上千号能投入进去去做一件事情做 15 年基本上除了 OB 以外估计也找不到第二家所以呢相对来讲我觉得我们机会会大一些但是也有一些其他的企业也会有机会的大家应该是一起做
海外我觉得也分第一是亚洲人比如日本韩国东亚三国其实他跟中国人习惯蛮相似的亚洲人往往都喜欢一体化的一些产品但是欧美人坦率来讲他跟亚洲人习惯还不完全一样是欧美人他目前来看还是喜欢用特定的系统做特定的事我的一个观察
从这个数据库研发本身来讲研发实力来讲 Oceanbase 在全球是最顶级的对我们的这个研发能力啊包括这个投入啊基本上也是一个顶配我其实认识一些 snowflake 的一些偏华人的员工啊他们到了 snowflake 以后他们都跟我讲
欧币的技术要强很多但是技术强包括以前比如说我们新能源车技术也很强电池也很强技术强到别人认为你是标准技术强到一个商品强这个过程是很大的一个 gap 的所以我觉得今天你说纯粹这些技术性能指标这个研发的迭代的一个效率
欧币就是最顶级的但是能不能建成这个生态那就看我们未来几年的一个发展对当你开新能源车开习惯了之后你不太会回到这个传统的汽车的时代但是确实别人先做的是传统的汽车所以怎么去控制这个车都是一些机械的一些方式用电气的方式他也是后来才去取代的虽然他更符合用户的一个天然的习惯但是他就替代的花了很长的时间让大家去习惯
咱们中国其实也是大家用户消费习惯更容易变化的一个地方而且我觉得中国的创新其实要领先于全球迭代的也很快迭代的非常快一体化的这样子的数据库它是一个听起来很好它是共识那为什么可能机会是只属于 OB 的
也不能完全说机会只属于欧币吧就是首先我觉得一体化一定是用户的一个需求但是它改变了今天行业的一些分工因为今天我们的行业从这个分工的角度来讲还是这个以前美国人他最早做数据库那也不能创造出来可能每家公司会有自己做交易的一些团队也会有做分析的一些团队还会有一个做大数据的他其实都是美国定义的这个全球标准但是从这个开发者的视角来讲啊
我做一个应用其实我不想这么麻烦的所以我觉得我们要基于 AI 时代也包括基于像 DeepSync 千万这样的一些技术合在一起最终慢慢的也建立一些更适合开发者包括更适合人类的一个正常的逻辑
的一个这种不一样的标准吧对但是标准之争其实很难那这个一体化这样的一些标准符合了用户的需求那这个机会呢属于欧币也属于其他的我们想把这个事情做得更简单一点对因为我知道咱们其实一体化并不是今年才提出的并不是也是只有 AI 之后才提出的这样子一个新的策略为什么好像就把它又重新拿出来在 AI 这个时代下面再来讲
其实 OB 的话我们一直都是坚持的是一个一体化这样的一个策略的有了 AI 时代之后我们要处理的数据它会由这种结构化半结构化延伸到一些无结构化数据的处理但是我们还是想要用一套这样的一个引擎去处理这种结构化半结化到无结化数据所以还是一个一体化的一个策略
为什么会一直去做这样的一个一体化的一个策略呢因为这个一体化它对用户变得更简单了它能够帮助用户去简化技术战能够用户写一个查询就能去访问不同的一个工作负载您给我具体举个例子吧就比如说可能原来在双十一这个时候然后这个我又要同时并发我还要随时看数据是这样子的一个场景吗就是我双十一的时候同时并发又要看数据这其实是一体化的处理交易跟分析
未来随着这种多模态的一些数据的话可能说我还要一体化的处理这种分析跟偏这种 AI 的一些查询偏 AI 的查询有的时候可能是一些这种向量的一些查询一些搜索的一些查询举个例子比如说我们只要是做 AI 都会有一个东西叫 AI 的 agent
为了做 AI agent 的话它里面的一个这种查询就是一些混合查询不是一个对单一这种向量数据库或者单一的一个这种交易数据库的一个查询假设我想同做一个 AI agent 这个 AI agent 我想去找到我们附近评分在 4 分以上的我比较喜欢的餐馆就这么简单的一个查询这里面就涉及到两类数据第一类数据是 4 分以上这是一个结构化的数据有点像这个找交易
还有一类是这种我喜欢的我喜欢这个东西它不是个结构化的信息是限定义的限定义的对它可能是一个这种可以用 AI 去看啥叫喜欢它就把它给做成一个向量来把它表示出来的一个东西所以如果我有了这种一体化的产品我可以用一条社会语句一条查询就完成这样的一个工作如果没有这样的一个产品其实对开发者来讲是很复杂的
他需要部署好几套不同的系统需要去做不同的运维需要去做开发查四分以上的再查这个喜欢了之后还得做合并还得写一些这种软件写一些这种算法这个是我们讲的一个逻辑叫把简单留给用户留给开发者把复杂留给我们自己
当然这里面所谓的把复杂留给我们自己其实是有一个比较深层次的含义的因为我们让用户变简单了那总有人是代价对吧那我们就代价那这个我们需要在一套引擎里面处理各种不同的工作负载这些工作负载怎么做到最优每一种这个工作负载都不太一样的
那也可能涉及到这不同的工作负载之间到底选哪种工作负载以及这些工作负载怎么去组合这里面也涉及到很多的一些技术这些技术都是我们要在这个引擎里面把它给包掉包掉了之后开发者才见得
对您刚刚讲其实整个 OB 它慢慢在把自己整个组织架构变成一个 AI 的公司它其实是一个延伸并不是一个转型或者怎么样为什么不开始说我们可能先从产品角度来试一试或者先从一个什么先建一个 AI 组我们来试一试就是
就是我们首先我们不把我们叫一个 AI 公司我们把我们叫一个 Data 成 AI 公司就是我们之所以能做这样的一些数据基础设施首先是因为我们的 Data 的能力所以我们所谓的这个 Data 成 AI 是在我们 Data 的基础之上用我们的 Data 的优势去把这个 EU 的 AI 的一些现有的一些好的一些工具好的一些成果融入进来帮助客户更好的处理他原先处理不了的数据
这么一看你就会发现它其实自然就是一种处理的一个能力的一个自然的一个延伸跟拓展所以因为是延伸跟拓展所以我们的组织结构不应该建一个新的组织说做一件新的事情而是所谓的老的组织都应该去延伸去扩大我们的一个能够做的一个事情的一个面而且您好像也是把数据库然后变成了一个数据底座就这样子一个文字上面一个转化但它其实是在战略上面其实是有蛮多深意的
因为我们都知道大家在大学的时候就学过数据库只要讲到数据库大家的脑海里面的第一印象就是做交易或者做分析的但是在 AI 时代我们要把数据处理这个能力做一定的延伸所以我们干脆先从这个名词这里定义这里先给它延伸掉否则只要跟客户说只要跟我们的包括我们内部人员说说起来也非常的难对只要一讲数据库大家就知道你是干这个的你是干交易的你是干分析的
当我们说数据底座的时候他就问啥叫数据底座然后我们有一只解释的机会这叫数据底座是在销售上面一个非常好的策略所以你刚刚讲的其实这样子一个战略上的延伸或者是一个在名词上面的迭代但是从技术上面来看的话它是怎么样的一个迭代或者有没有这样子的过程当中有没有一个挑战
对其实还是有蛮多技术挑战的它其实是一个多模数据库的一个这样的一个概念它不仅仅是只是交易只是分析它其他的这种不同的数据模型也都要能够支持要在一套系统里面去做这么多种不同的模型而且底层要共享一个
分布式存储的一个架构这本身就是一个很大的一个技术挑战另外一块的话我们有了这种多种的数据模型之后我们需要支持 AI 时代的一个混合搜索
这里面到底怎么把搜索查询做得更高效以前数据库里面有一个东西叫优化器怎么把优化器选出最好的一个执行计划这些东西也都是一些大家正在探索的一些问题了所以有没有一个具体的案例
我来举一个这种混合说出的案例比如说我们现在想要给北京市东城区所有年龄在 15 岁到 25 岁的男士发一封根据他的一个性格生成的用大圆模型生成的一封邮件如果说我们是用多种不同的系统的话我们首先要去找到这样的一些人他年龄是什么样啊
他在哪里然后他是男的还是女的这是以前的数据库里面的查询找到这些人以后把这些人的一些信息给带出来然后输入到大模型里面去最终才能去发邮件这个过程对于开发者来讲是非常复杂的
如果有这种混合搜索的话我们需要干的事情我只是在欧选辈子这样一套系统里面写一条社会语句这条社会语句就是把查找这些人以及给这些人根据他的一个比如说性格发送自动申请的邮件全部给做掉
这个东西对用户其实是变得特别的简单了因为用户统一了基础站用户的话他也统一了开发语言他只需要写一条语句查到简单了都是自然语言听起来这口因为它有一部分是这种数据库的查询
有一部分是相当于掉了一个大元模型的一个推理但是呢这个对 OceanBase 本身来讲我们变复杂了我需要又要做保存这些结构化的数据人民啊等等一系列的东西这是要精确的也得保存一些大元模型这样的一些能力这两个都弄在一起之后呢 CQ 优化器它也需要去看到底怎么去算才是最高效的其实都是一些技术的问题要去解决掉
还有根据性格的这一部分对所以他就可能之前本来说是有好几步的工作就一步就可以把它现在完成了而且可能再往后发展甚至是这个自然语言就可以直接跟数据库来交互对那这个是下一步吗这个我觉得我们核心还是让这个 OceanBase 在所有的企业去使用
因为对于我们这样的一个数据库也好数据底座也好其实最关键的是一个生态生态就意味着说到底是几千家还是几万家还是几百万家在用 OceanPace 这样的一个产品等到我们这个生态不断的成熟我们用户越来越多的时候我们就会根据我们的用户的一个需求来去做我们的功能的排期我觉得很多时候它都是一个优先级的问题是不是下一步取决于我们的用户到底是不是最紧急的需求
对那可能如果是在开源这个生态的支持上面现在您看的是哪一家做得更好一些从开源的角度啊中美肯定是有差距的因为美国的产品呢就是世界的 Oceanbase 是中国最流行的开源数据库我们在华人社区还是一个知名的世界级数据库但是呢我们在全球的角度来讲我们还需要破圈所以在开源这块这个您是怎么看的因为这 Oceanbase 其实是也是一个开源的产品
开源的话是 Oceanbase 的一个最核心的一个策略了因为我们这样的一个数据库跟数据底座它能不能成功其实就是生态做的有多大首先 Oceanbase 我们已经做了有 15 年的一个时间就是我们未来可能还会再做 15 年甚至更多
这样的一个产品之所以会做这么久是因为我们还是想做成一个世界级的开源数据库想做成世界级的影响力就必须走开源开放的一个路线不只是中国的这些企业中国的用户也包括海外的企业海外的用户都来去
比较方便的来去使用我们这样的一个产品我对 Oceanbase 开源我还是很有信心的因为刚才我们也讲到了就是 MySQL 这样的一个生态体系里面 MySQL 本身它被 Oracle 收购之后其实发展是比较慢的那 Oceanbase 能够填补整个生态里面 AI 时代兼容 MySQL 这样数据库的一个空白这是对我们来讲一个特别大的机会
可能出到海外它的竞争环境可能就更不一样了就比如说是也有一些强劲的对手当然咱们可能会有一些哪些差异化的优势我觉得有几点就第一点是一体化的一个能力就我刚才讲能在一套系统里面处理各种不同的工作负载这个
海外的产品它往往做不到这样的一个能力可能就是先在某一个细分领域先聚焦把这个做到最好对他们往往在某一个细分领域聚焦做好了之后他们就能活得很好但是中国的产品很难中国的产品一般来讲它要做得比海外的产品要好很多因为同样的一件事情我以前算过一只账就是做同样一件事情在美国它能赚 20 块钱软件中国只能赚 1 块钱
所以这就是为什么我们刚才也提到为什么 SaaS 很难做起来并不是汇率的问题不是汇率的问题不是汇率汇率只有 7 对吧这是第一个点一体化的能力第二个点是我们的这种对数据的处理的能力我们不管是小数据还是大数据我们都能在一套系统里面去把它给处理掉这个在 AI 时代尤其重要因为 AI 时代它数据量变大了嘛
而且要真的要做到混合负载的话它的数据种类也变多了它数据需求是无止境的 MySQL 单机它根本就搞不定第三类是我们的性价比就如果你原先用 MySQL 或者用其他的一些产品只要搬到 Ocean Base 里面来
马上帮你降本增销所以这几个点合在一起我觉得我们的产品竞争力在全球是很强的需要的是一个改变心智的过程因为今天全球的一些企业他往往都觉得美国的是好的是不是好的反正认为他是好的
但是这里面改变新字也不全是靠欧币一家企业也包括我们中国的很多的其他其他的一些包括我们今天看新能源汽车明显就是新生的势能很多都用我们的新能源汽车但是你要放到 5 年前大家会觉得应该用中国的新能源汽车吗不会所以我觉得有一个需要过程
但是开源其实是不是一个比较好的更加容易建立 community 但可能就得花一点时间对 开源而且是更加容易建立信任尤其是今天这样的一个世界的一个形式所以未来您是觉得 OB 它可能就是未来的 AI 时代的 MySQL 的
这样子一个愿景吗我觉得肯定我们叫 AI 时代的数据底座 MySQL 只是打个比方就是我们希望还是成为 AI 时代的下一代的数据底座真的能像这种 MySQL PostgreSQL 一样成为世界级流行的一个开源的数据底座这是我们的一个愿景它要成为这样的底座可能我们使用 OceanBase 的企业要达到千万级
千万家企业都去用 Oceanbase 构建它 AI 时代的数据地座这个挑战是比较大的好像是不是东南亚有一些国家你们已经出海到那里了然后其实是有一些客户在那边其实我们在东南亚尤其是东南亚的一个支付领域 Oceanbase 是做得特别的领先的就是东南亚它有很多的国家它每个国家也有一些当那个国家的一个本地版的支付宝
对这个是不是也是蚂蚁集团整个出海的战略其中之一你们可以抱团集中出海因为抱团出海的核心我觉得就是要形成一个势能最终大家要做这种不管是软件还是其他的一些产品整个中国的企业要抱团出来有一家企业就出来其实蛮难的就是我前一段时间我在带 OB 海外的业务我们跟很多客户聊第一个客户都会觉得说哇
Oceanbase 这么厉害的一个产品它能做到把所有的工作负载都给接住并且还具有一个很好的一个扩展性跟稳定性然后性价比也很好他们很想用但是 Oceanbase 在当地的一个知名度包括生态还是不够的因为它要用 Oceanbase 的话虽然是个好东西但是它要把它原来那个东西搬到 Oceanbase 里面来这个搬的成本太高了
然后当地的开发人员不像中国有大量的工程师当地要找到一个能搬数据库的一个工程师是很难的所以最终我觉得中国企业整个要在海外取得一个更大的成功一定是要靠所有企业一起抱团
对因为我们今天其实是应该这两天早咖啡吧我们另外一档早间的那个资讯的节目其实也在说现在滴滴美团出海到巴西然后这个墨西哥其实很大程度上发现他们的这个支付金融设施是非常不健全的然后甚至是可能只有百分之不到十的当地的居民他是没有账号的就是银行账号的
而且他们就没有办法说是直接给他们进行付款然后当然了这个乘坐的这些人或者是买外卖的这些人也没有办法直接用这个付款所以其实是整个的我们在中国可能待了太久觉得很多事情是理所当然但是海外的这样的机会或者工作还要很多
我觉得也是所有中国企业的一个机会因为可能再过 5 年大家就会发现可能像您刚才提到了什么巴西南美等等很多的国家的基础设施它可能是一个当地的公司做的但是你会发现那个公司的背后可能好多是华人因为中国整个包括华人包括中国人其实在不断的去走品牌出来基础出来这个过程是发展得非常快的这几年
特别是可能在过去两年 AI 除外也是一个特别火热的话题对 AI 除外可能是一个更大的机会我们以前软件除外有一个比较大的挑战在于说中国我们的软件行业真正领先的技术其实没有那么多的
软件它要做到领先一个核心是应用驱动技术创新就你有最领先的应用你才能做出最领先的软件所以我们为什么在分布式数据铺领先因为我们的应用对但是 AI 不一样 AI 它是一个更大的场景这个场景整体中国跟美国两个国家明显是要领先全球的
中国跟美国可能就是第一名第二名这样的一个程度从这个角度来讲 AI 整个出海包括 AI 下面的数据公司包括 AI 上面的一些应用公司等等合在一起这个机会要比以前软件出海要大很多对刚刚其实咱们也讲了中国其实是没有 SaaS 行业的对所以这个是不是也是中国开发者或者中国的软件创业公司他们更加好的一个机会就是大家一起抱团我们出海做全球的生意
我觉得第一是 AI 来临之后对这种 SaaS 类的企业在国内也会有个更大的一个机会因为通过 AI 这样的一些工具它可能会把原来 SaaS 里面需要做定制的东西变得更可以自动化的去做处理了以前我们国内做 SaaS 有个比较大的挑战就是客户的需求很高
他往往需要定制成他想要的一个服务就变成了一个服务型公司并不是一个 SaaS 公司并不是一个产品型的公司那是 AI 他能把部分服务型公司他做的一些事情变成产品型这个也是一个机会再加上刚才讲的这个随着出海那这里面合在一起会有一个比较大的一个爆发这次您在发布会上发布的是哪些东西可不可以给我们聊一下对
分为几块吧第一块还是 Oceanbase 数据库本身的一个能力包括我们以前大家对 Oceanbase 认知是做交易做得很好今天其实 Oceanbase 做这个分析我们也做得很好可能这一块我们会有一些比较大的一些发布也包括我们会发布我们叫存储计算分离在云上把它给很好的给用起来做这种 serverless
做弹性扩容弹性缩容这是数据库本身的一块那第二块呢是数据跟 ai 结合在一起那数据跟 ai 结合在一起的话就包括我这个向量数据库包括这种混合检索的一个能力 ocean base 的向量数据库呢其实也已经做到了从这个性能啊包括成本啊都是业界一流了这个的话在发布会之前可能大家了解的比较少那我们这次发布会也发布了这样的一些产品第三块呢我们也会有一些
比如说是更偏 AI 的一些 Lag 的一些服务通过 Lag 这样的一些能力我们发布了一个产品叫 PowerLag 让用户我们的开发者能够非常简单的直接使用 Oceanbase 来做 Lag 最后我们在请您给未来五年看到了跟 OB 一样同时看到了这样的机会的开发者或者创业者您觉得现在是进入数据行业的好时机吗
我觉得肯定是因为现在是一个 data 乘以 AI 的一个时代 AI 的应用也好包括数据类的应用肯定是在爆发而且现在还是一个比较早期的一个阶段我想对这些新入行的一些不管是企业还是开发者说我觉得我们一定要用一个比较开放的心态去学数据学 AI 用数据用 AI
好了那我们今天的节目也差不多了非常谢谢日照总今天来我们的节目做客就是如果大家对发布会发布什么更细节的东西然后今天我们没有聊到了也可以去我们 show note 到时候点击我们的链接去看好今天就到这里了谢谢那本期的会友标局就聊到这里啦如果喜欢我们欢迎点赞
感谢收听我们下期再会啦