We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

#138. 数据库与大模型的协奏曲：从智能代理到优化查询

2025/6/12

牛油果烤面包

AI Deep Dive AI Chapters Transcript

People

黄

黄东旭

Topics

黄东旭: 我认为大语言模型与数据库关系密切，尤其体现在智能代理方面。早期ChatGT就像一个智能聊天助手，但现在智能代理AI开始与现实工作融合。如何提供正确的上下文信息，对AI个人助理至关重要，数据库因此扮演重要角色。要让AI做好事情，必须提供精准的相关信息和指令。好的AI代理应能根据个人偏好推荐个性化的服务。大语言模型提供模糊性交互，彻底改变了人与计算机的交互方式。代理型AI应用越来越火，关键在于数据。我希望利用大语言模型做一个数字化的个人助理，从各种数据源获取信息。AI代理需要访问多种数据源，提供丰富的上下文信息。AI需要跨越多种数据去查询，以提供丰富的上下文。AI节省了人工找数据的过程，能访问更多数据，进行深度思考。实时数据和数据新鲜度对AI应用至关重要。在线数据库和离线数据仓库的边界会变得模糊。交易型数据库与分析型数据库的边界将模糊，AI不区分大数据与小数据。实时的写入或事务能力将成为未来数据库的标配。某些场景对AI访问的数据有较高要求，如医疗行业，对数据准确性和幻觉容忍度低。云基础设施是技术大趋势，提供多租户的弹性存储能力。极致的多租户是未来趋势，每个人都可能在云上拥有自己的数据存储空间。未来AI代理会在大平台上进行数据共享和交互。未来会是一两个大平台占据垄断地位。AI在云原生技术中扮演加速器角色，放大数据的弹性和碎片化场景。AI的使用场景能够将已有的云技术潜力高度放大。现在每个人都有一个针对自身上下文和新鲜数据的推荐系统。大模型能理解半结构化数据，无需按特定格式喂数据。现在的大语言模型能根据精确的上下文提供建议，不再是猜测。OpenAI和DataBricks都在收购数据库公司，尤其是提供在线数据库能力的厂商。在人工智能代理应用中，关键字匹配只是检索方式之一，还包括相似性搜索、精准匹配等。多种数据检索方式综合，为大模型提供完整、正确、相关的上下文。未来数据库应提供所有服务，不应限制自身类型。大模型与数据库软件之间的沟通方式应具有灵活性、高度抽象性和准确性。SQL是适合大模型与数据库沟通的语言，因为它能被人类审核。大模型访问数据库的语言需准确完备，语法灵活，SQL符合这些条件。SQL已成为事实标准，被大模型训练到脑子里，这是优势。向量数据库提供模糊查询，适合AI使用。SQL的挑战在于数据库厂商能否提供足够的能力满足所有搜索需求。希望将知识图谱、向量、全文检索融入统一的SQL接口，工程难度较大。

Deep Dive

Chapters

本节探讨了智能代理AI对数据库应用带来的变革，特别是AI如何从简单的文本生成走向智能代理，以及在与数据库系统深度融合中展现出的新能力。重点关注AI如何通过查询优化，提升信息获取效率，并改变人机交互方式。

AI智能代理从聊天助手进化为个人助理，处理更复杂的任务。
AI需要访问多种数据源，包括结构化和非结构化数据，以提供更精准的上下文。
AI改变了人与软件的交互方式，提供更自然、更灵活的体验。
AI对数据库提出了更高的要求，例如实时数据访问和更高的更新频率。

Shownotes Transcript

本期节目我们再次请到了 Pintab 公司的 CTO 黄东旭今天我们聊了聊大语言模型对数据库应用和数据库研发带来了怎样的改变这里是牛油果烤面包大家好,我是斯特亚特

我是 David 今天我们有幸请到了我们的返场嘉宾黄东旭大家好上次我们讲了一集分布式数据库那集叫分布式数据库我们这是好长时间了差不多两年多了对快三年了对这三年的最大的变化就是领源模型占领世界所以我们聊聊数据库跟大源模型相关的话题大源模型跟数据库有关系吗关系挺大的尤其是在我觉得现在 Genetic 的怎么翻译代理 AI

智能代理智能代理大家可能还记得在 2022 年年底当时 ChatGT 刚出来的时候他就像一个智能的聊天助手一样但是你会发现他只能去聊一些这种互联网上有的知识或者说跟你聊天交互式的维基百科可以

可以这么说只是可能更灵活一点还还就可以做点什么色彩组成之类的那是的做点商业不一定准但是明显这一年大家如果关注这个 it 圈就会发现大家开始在慢慢去聊人工智能能不能作为这种个人助理去做一些跟你自己相关的事情比如说帮你去买买机票帮你去分析你的总结邮件或者说帮你去约一约日历的这些事件什么的所以

从今年开始其实大家可以看到有越来越多的这种单元模型的能力跟这些现实的这些工作开始融合在一起所以我觉得对今年大趋势这里面就会发现怎么去提供一个正确的上下文怎么去提供跟你相关的信息就变成特别重要的一个话题了所以这里面数据库就会扮演了一个非常特别和

重要的一个位置那为什么为什么个人叫什么个人助理跟代理的 agent 我不知道叫什么为什么这个东西需要知道个人的一些信息个人的会比较上下文这大元模型它可能是把整个互联网的知识浓缩在一起变成了一个脑子就相当于一个人但它可能跟你其实没有什么关系但是它很聪明

想象一下你是一个公司的老板你招聘了一个非常聪明的年轻人但是他对你这个公司对你这个人一点都不了解他其实也是做不好什么事情的所以你让他去做好事情的前提就是你能不能去提供精准的跟你自己相关的以及你想要什么这些指令给他他才能让他

的聪明才智或者说灵活性能够有一个很好的发挥是这样的我一直以为他们是好你要买机票买个机票他不需要知道我任何使用买个机票买个北京到台北的机票那我举个例子特别好玩的我经常到纽约出差我在西海岸我经常飞纽约但我飞纽约有个特点我从来都是只坐晚上的航班

主要他能睡觉你知道吗你去做山谷藏是吧什么藏就不提了但 anyway 正好是吧这是我个人习惯一个好的 AI agent 他应该就能在帮我去买机票的时候知道

东旭特别 prefer 这个晚上从西安出发就是白天到的这种航班他绝对不会给我去推这种早上或者下午出发的可能这个一天就浪费了但是可能另外换到另外一个人比如斯德加特你就比较喜欢这个白天出发肯定绝对避免行行行那他就会给你推荐这样的所以我觉得这种个性化的上下文

其实是说的很有道理我这么一说我突然觉得你要知道我寄哪个航空公司的里程一看我们的阶级差别是吧我每次要跟人说我订这个机票我要最好寄这个公司里程如果寄不到寄什么里程最好什么时间怎么样确实每次要说一堆好像很烦是吧要知道我就不用说了

是的而且我觉得大圆模型现在有一个特别好的能力就是它提供了这种模糊性就是过去其实你用传统软件可能在界面上你点点点或者说你买机票还是买机票这个例子你可能得到什么 booking 或者是得到这些网站上按照它的对携程它的网页设计就是这样了它的流程也就是这样了但你在跟大圆模型去交互的时候你就是像咱正常说话聊天这样是吧

帮我买一机票去纽约他说给我可能买好了这个体验这个都棒是吧所以其实我觉得为什么说这种代理型的人工智能应用现在越来越火因为它其实彻底改变了这种人和计算机和软件交互的方式但是这里面的关键还是像我说的数据

这个有做出来的吗我觉得现在可能开始慢慢有一点这个苗头了其实这种出 C 端的或者说叫消费者端的可能少一些但是我自己体验在企业市场或者说在一些比如像一些办公辅助这些

比如说销售管理或者什么邮件助理会议机要这种场景其实已经对已经还开始有一些产品出现了好了我们扯远了刚才东西说这在数据上提高了要求是吧对的是什么样的要求我还是以一个实际的例子来去说一下因为可能给上一期没有听过我上一期的听众朋友做一个铺垫我是 Pincap 的 CTOPincap 是一个做数据库以及数据库服务的公司

我们其实收买的软件其实就是数据库软件数据库软件的一个首先本质上来说是一个面向企业服务的我的客户其实都是一个企业

我现在其实已经有非常多的这些企业客户我个人平时的工作很多时候相当于因为你这公司老板你必须得去看我每一个客户的进展情况或者说哪一些项目进展的顺利或者不顺利我的哪个销售平时有没有摸鱼这个平时在干嘛我其实很需要监工是吧不要说这么难听是吧这个帮助大家进步以前很多这种事情我都是需要去招一个这种我的个人助理

是吧天天就可能我说我要一个什么报表这个小助理就跑过去这个团队收集数据做报表给我写报告不同的团队也会写周报是吧斯维亚特戴维你们可能也是非常熟悉每周可能 team leader 的一个重要这个小助长的重要工作就是写周报写给他老板看我现在其实就有一个需求我想用一个大圆模型来去

首先这些什么会议记录各个小小组的周报还有一些我的销售拜访数据我的日历行程这些其实全都在那数据全都在那我就希望能够去做一个数字化的这个代理我就问一下我最近一个礼拜最重要的客户是哪些最大的风险有哪些是吧这个团队比如说我团队最重要的工作是哪些谁在负责什么事情

这种交互式的这种体验其实是我特别想要的而且我也不想说每一次我有个什么要求就去麻烦就去问我的助理或者问各种团队一圈所以他人工智能会怎么样他会在内部文档里去看一圈给你总结一下吗这边就说到第一个关于数据库现在我觉得从数据的角度发生了变化

以前我们做数据库或者说做大数据平台的开发者可能做这个数据库软件的最终的对象是程序员应用开发者或者 DBA 或者数据分析师

但是仔细想想如果要完成我刚才那个需求我的数据的面向的对象和客户其实是模型代言模型要作为一个访问数据的发起者是吧他要访问我的邮件数据他要访问我的文板数据他要访问我的销售数据各种各样的数据源他可能有一些数据是结构化数据就像数据库的这种一个个表格的数据一样有一些是一些非结构化的数据

比如说一些 PDF 像一些 PPT 甚至像一些散落在各种各样的地方的一些奇怪的东西什么日历聊天记录什么的所以我觉得第一个点就是现在我们这些数据的访问在 AI 这种代理型 AI 的前提之下它是有很多种不同的数据源

这都是要去查询的要提供一个比较丰富的上下文你必须得去跨越多种数据去查询这是第一个为什么 AI 就需要多个查询我们人类就不是因为人类它太慢了就这么说其实也是要访问多种数据比如刚才我那个助理的场景是吧就像我说帮我去看一下我最近一个礼拜最勤奋的销售是谁

可能我的小助理第一他会去看销售的拜访记录他也会去看什么聊天记录他也会去看考勤记录本身他也是要去查询各种各样的地方只是过去这些事情你都是跟你的小助理说了一句话他可能两天以后给你一个报告实际上他也是在去 touch 各种各样的底层的数据所以我是觉得 AI 在这个里面其实

这么说他节省了这个人的这一部分到处去找数据的过程所以他会访问更频繁他需要数据量数据量更大访问量更大他有可能能够 touch 更多的原来做不到读这么多数据就好像你去看比如说

Chad GP 的 deep search,或者什么 deep research,deep research,一下子给你弄了好几百个深度思考,那我们这查了好几百个网站,怎么也得一个小时,对,而且第二个,我在实践我自己的数据个人小助理的项目之中发现,实时的数据,或者说数据的新鲜度会变成一个特别重要的要求,

比如说过去我们经常说大数据或者说离线大分析可能都是在讲说我今天我可能要看个离线的报表从这个宏观的数据里面得到一些什么行业趋势或者说一些大面上的报告

但是对于 AI 我经常会问一些问题就刚才我说的最近谁最努力或者说最近哪个客户最有风险都是注意最近其实越近的数据我觉得是这个或者说价值是越高的所以这个里边我是觉得能不能让 AI 去访问到这种实时的数据或者说你的数据源能不能支持这种实时的更新实时的写入其实对你最终的 AI 的体验

会有差别很大那就是落实在数据库的实现上会带来什么样的挑战第一个挑战就是在线的这种数据库跟离线的数据仓库的边界会模糊

这个是我觉得很包括最近其实像 Databricks 不是收购了那个 NeonDB 包括也传言 OpenAI 也可能会收购某一家我就不说谁了但以前他其实也收购了 Rocksat 是吧这个可能大家也都知道其实大家发现这种实时的能力其实过去

我们经常会说在线数据库就是用来存这些 transaction 交易或者说这个存进去不错就行了高吞吐高性能分析的事就让这个离线的数据仓库什么 OLAP 这种数据库里面去做就是分析的型数据库数据仓库搭数据来去搞

但现在就 AI 它也没有什么概念什么叫这个大数据什么叫小数据是吧所以在这个里面我觉得又会慢慢的边界交易型数据库跟分析型数据库的边界会模糊所以这个是我看到的一个比较大的一个趋势对那就是模糊的结果对于比如说数据库的架构会有怎么样的一个不一样化或者说这个东西紫

自己的愿景认为它应该会有怎样的变化我觉得第一个大的愿景就是首先这种实时的写入或者 transaction 失误的能力基本上会变成

未来数据库的一个标配因为其实像刚才我说的它要支持这种实质的写入同时你要保证这个更新和写入是正确的这件事情其实在传统的数据库里边基本上已经被解决了但是过去很长时间在一些离线的数据分析的这种技术里边

其实没有的所以我觉得从这个工程层面上这些传统数据库的一些好的东西会融入到新的加工里面对但是就是说你说事务处理这件事情我们上次也讲到了事务这种你需要比如说一个人转一个人给另外一个人转一百块钱那这个东西是你不能同时看到他们多一百也不能同时看到他们少一百但是对于这些 AI 或者说这人工智能的

访问的数据需要有这么高的要求吗我觉得分场景而且我见过有一些场景是真的有这个要求比如说我有个客户他是做医疗行业的医疗行业里面的这些对数据的准确性以及对人工智能本身的幻觉它容忍度是非常低的

所以我个人觉得可能没有像传统的银行这样我必须在一毫秒之内保证转账完全失败可能没有这么强的需求了但是对于数据的一致性你别给我搞错别给我丢这个我觉得底线肯定还是要有的这是第一个第二个我是觉得云基础设施

这可能说点技术现在大家可能看到新一代的可能尤其是跟 AI 结合的比较紧的这些数据库基本都在追求一个在云上提供云源声的存储这种纯算分离

的架构反正基本已经变成一个主流了所以我这里就不展开因为咱们这是一个科普向的节目我就不展开怎么这个存算分离这么硬核的东西了反正我是觉得基于云上提供这种多组户的弹性的储蓄库能力其实是也是一个技术的一个大趋势因为你

不在云上你很难去实现刚才我说的这种存储和这种实时的分析都结合在一起同时那又能提供一个比较低成本的一个方式去做对所以云原生会是一个特别大的一个方向第三个我觉得很大的趋势极致的多住户

多众户就是 multitended 因为其实以前我们在去思考数据库或者数据库软件可能你就想象一个软件一个光盘装上去它给你一个操作接口就完了但是现在我觉得在尤其跟 AI 的这些这种结合会让每一个人你想象一下全世界可能 60 亿个人未来我觉得每个人都会有自己的一个数据存储的一个地方

就想象一下 Jobbox 是吧每个人都可能会有一个自己的云盘白色软盘是但是我觉得像这种结构化数据或者个人的数据每个人可能都会有一个你一生的账本它可能存储在某一个云上的某一个地方但是这个账本就是你自己一个人你想象一下作为这个背后这个账本的提供商你的系统必须能够去支撑 60 亿个人 60 亿人口每个人都要有一个这个而且每一个人的数据可能都是千人千面的

所以这就涉及到你怎么去设计一个这样的大型的系统针对每一个人都可以去提供这种个性化的存储所以租户就是说每个人吗对每个人我觉得是每个人甚至可能每一个实体不一定是人但是

甚至你肯定可以你的手机游戏账户可能就有一个你就不同身份你跟人可以有好多所以他们都要存因为多数会他们要存在同一个数据库里他可能需要他存在同一个平台里一会儿我说为什么同一个平台里但是他可能存储的这个数据是你个人的数据

举一个例子我平时特别喜欢音乐可能就在我个人的数据库里可能专门就会有一个我听过的歌或者说我看过的电影这样的一个数据库但可能斯图亚特你比较喜欢游戏那你可能是今天我玩了什么游戏我玩了什么什么样的比如说 Pokemon Go 你的 Life Journey 你的日历跟我的日历是完全不一样的每个人可能都会有自己的这套东西但是它一定会在一个大平台上为什么比如说

我要跟苏莎特你一起去旅行或者说发生了什么一些交互可能我的 AI agent 在未来就会跟你的 AI agent 他会互相的先沟通一下

对这里面如果它在同一个平台里面这个数据的 sharing 和过去想会变得非常简单对所以说东旭认为未来会是一个大平台或一两三个大平台占据垄断地位了这么一个是的我是这么觉得至少在从基础设施层面上会有这样的一个趋势我想问个小白的问题好

刚才都是你提到说未来就是因为 AI 这个浪潮导致存算分离包括多租户的在云端的云原生的系统会变得越普遍那我的问题是你刚才提到这些技术貌似它也不是很新的技术说它不是很新云概念已经吵了很长时间了亚马逊谷歌 Microsoft 这些公司它云厂商已经存在很长时间了包括存算分离它也不是一个新的技术那为什么随着 AI 这波浪潮来了

那这些技术又被变得被重视起来或者说他们有了更大的这种趋利 boost 对这个快好问题第一我觉得是这样的你说的没错这些技术其实已经都在那里了

我个人觉得 AI 在其中扮演的这个角色更像一个加速器其实你的这个感受我也是认同的因为以前大家其实并没有太理解这种云原生或者说可能更是在一个数据库的小圈子里面觉得这个是一个弹性和成本都很好的一个方案

但是我觉得正好在 AI 的这个时代里边对于这种数据的弹性和碎片化的场景被 AI 极大的放大了什么叫碎片化刚才我说到每个人都会有每个人自己的 data

以前其实大家想象一下大数据或者说做这种数据仓库或者说数据库的分析它是因为我们没有办法去利用我们自己每一个人的碎片的数据所以才有大数据技术把这种各个零散的数据汇集在了一起你才通过什么大数据的方案去提取出一些这种 chained 或者说报告或者分析但现在其实

你想你用 AI 每一个人都可以有一个针对碎片个人的碎片化数据利用的能力这个正好跟云的这个理念是一致的极致的弹性是吧是能对得上的所以我觉得它可能革命的点并不是在于这些技术是不是有一个新的技术而是说 AI 的这个使用场景能够去把原来已有的这些云的技术的潜力就高度的放大了

所有的这些小模块或者说我们需要的技术其实已经在那了只是 AI 通过一个是大家都能够理解同时这个场景有非常好的方式去把这些砖块给组合起来对不对

其实刚才东旭说的从我的理解来说在我前雇主的工作经历来看其实已经有很长时间了因为前雇主是一个以推荐为主的公司就各种各样推荐这个推荐这个那你会发现我们做

属于酷谬又有个新的用例你会发现过去本质上说他们说的这个是一个用户的一个画像这个是一个用户过去访问过的东西的记录这个是过去给他用户看过的反正就是一个一个家你会发现他最终来说无论怎么说他们最终的

使用这些数据的人都是 AI 没有人在乎没有人看你一个人的画像是什么因为趋势我觉得在过去比如说至少十多年以来只是现在会有一点点不一样以前我们的这些推荐系统或者说做这种推荐的它可能是一个预训链的一个大的一个模型可能根据每个人一些特征给你推一些东西

那个模型可能是已经训练好的或者说也是半静态的一个东西但现在有点不一样了现在有点像是说我每一个人都有一个针对他自己上下文以及新鲜数据的推荐系统

而且这个推荐系统非常懂人性而且还能用一些你可能想象不到的方式来跟你交互所以这一点还是带来挺多不一样对我觉得可能大模型这是我猜的我已经与世隔绝了这个大模型和过去前一代机器学习那些数据我说我们现在用的一个都是都是给机器学习他们那些数据大部分都是高度的结构化的对

实际上他们之所以有这么一个数据他们已经在他们的机器学习系统已经可以使用这个了所以他加了一个可以使用了模型和这个数据同时

眼镜新的大模型实在可能不是这样大模型它的能力很强对你给它一个包括是一些自然人员处理的半结构化的包括就是扔出去一些什么东西它都可以理解它都可以从里面提取你不需要按照它的喜好给它做成它完全

喂到他嘴里你不用想他到底有什么能力只要是这个人有关的信息把它放上去只要能够处理他都可以或者我用一个更好理解的一个点总结一下应该说的就是过去的推荐系统他看你这个人给你推荐东西他其实本质上是靠猜是吧靠猜但是现在的大约模型如果你给他的上下文是足够精确或者说是你个人的 data

他就不是菜了他可能会给你一个根据就像人一样给你一个建议所以还这里面差别还挺大的所以现在的这些人工智能代理他们的做法都是他开启一个新的一个每个请求他起一个新的先读一下先看一下你的请求寻找一下跟你相关的信息

搜索一下找出来读一读放在一起再读一读再搜一圈再读一读你说的非常对就这样子的吧是的你其实刚才说到了现在的这些代理型应用的核心架构了它其实每一次问题过来就像你说的拆解一下根据这个问题找到相关的信息读一遍再问你一下你觉得 OK 它继续在一步步的这么

构建上下文再给你 feedback 在这样的一个过程那这个对于我们说 deep research 我们使用的系统我们知道它多数时候使用的可能是叫什么网络搜索 Y

web search 啊网络搜索普通的网络搜索关键词那对于这种个人的职能代理呢他是他没有一个像搜索引擎这样系统给你做好这种是吧那那是这个问题给数据库系统做了吗还是是的所以真的哦对所以为什么刚才说到像 OpenAI 包括 DataBricks 其实都开始在收购一些数据库公司尤其是提供

在线服务或者说这种传统意义上的在线数据库能力的这种厂商对那过去的比如说网站搜索它有一整套比如信息检索上个大学课新年左右有一整套什么倒拍表类似于这套东西那在这种个人化搜索的时代那还是使用同一套技术吗还是会有一些这样的地方这个好问题这里我再稍微科普一下刚才其实斯图亚提到了这种

全文检索或者说倒排它其实是像大家用 Google 一样是一个关键字通过关键字来去查找相关的信息我觉得在人工智能代理的这样的应用里边关键字匹配只是其中一种检索方式它可能还要提供这种相似性搜索比如向量搜索两个语义之间是不是接近这又是一种匹配方式还有一些比如说

精准匹配的请求例如我就想知道我最近十天都干了些什么事情这就是一个精准的时间范围的查询是吧这个就不是关键字了这就是一个时间范围所以还有可能知识突破是吧我想知道我问的这个问题里边涉及到的概念以及跟这个概念相关的其他的一些概念是吧它可能不一定是这个文字匹配它可能只是有相关性

也有比如说还有一部分数据的请求是来自于 memory 记忆系统这个大运模型过去跟你一直在交互对你的偏好对你这个人的这些理解所以其实你会看到它是多种不同的这个检索数据的方式综合在一起

目标是为了提供给单元模型一个更加完整和正确以及相关的上下文所以以前我们在思考数据库的时候总是在陷入在说我要提供一个全文检索我要提供一个事务查询我需要提供一个时序分析

但是现在如果从 AI 使用数据的角度来说这些边界不仅像刚才我说的交易型跟分析型这样被模糊就是数据类型以及查询方式也在被模糊

对所以这个是我现在一个比较强的感受那就是说那对于数据库来讲会有什么变化它会提供所有的服务吗还是第一个大的趋势变化我觉得会的未来数据库它应该要提供所有的服务如果是你是一个给这个大元模型提供数据服务的一个东西一个数据平台如果你的目标是立志于给我们的 AI 这个大人提供更完整的数据的话你不应该把自己限制成我是一个什么数据库了

这是第一个我觉得一个特别大的变化第二个就是用什么样的语言刚才我其实说到有这么多种自然语言是人类跟大语言模型的这个语言但是你要想大语言模型它其实没有必要跟数据库沟通还要用自然语言你说是不是

对吧因为自然语言是一个漏洞百出各种各样的模糊它其实没有办法去提供准确的数据的所以其实反而大元模型跟数据库软件之间的这个沟通方式应该是一个具有灵活性高度的这个抽象同时又是准确的一种数据访问语言

这个语言是什么我觉得是 SQL 中序一直是 SQL 的对啊我一直是 SQL 的一个大粉丝因为你想想我站在大元模型的角度首先这个假设我们不是 SQL 我们假设我们现在脑补了一种另外一种新的一个语言好这个语言需要满足以下几个条件第一个条件就是它要能够被人类审核

比如说你人一看到因为经常我们会发现大圆模型大家想一想如果假设不是 Sql 因为刚才其实斯图加特说我是一直 Sql 的粉丝你一直说我是 Sql 的粉丝好假设我们不是 Sql 我们假设有一种 brand 完全新的一种语言这种语言是大圆模型跟数据库交互的一个语言好这个语言需要满足几种条件

第一个条件就是它要被人类能够审核仔细想因为代言模型经常会有幻觉如果它回答的这个问题回答的方式不对

作为人你第一反应就是说我要看你这是拿到什么样的数据你这数据是怎么给我返回的所以他去访问数据以及这个数据库给他返回的这个语言必须得是人类能返回的人类能够读懂的因为你这样才能够评估他的工作的正确性这是第一个第二个这个语言得是准确和完备的它不能是一个像自然语言一样

有模糊性比如说你去查询一个数据库查询两次跟你返回的不一样这个就是不准确的要满足准确性第三个它要满足这个语法要有足够的灵活度灵活度就是当你提供一个非常稀奇古怪的需求它要能通过这个语言把你的需求给描述出来

所以你会发现目前我们有的所有的这些编程语言也好或者说访问数据的方式也好你这么一组合下来发现 SQL 这个符合刚才我说那几个条件的前两年 Sigma 有一次出现了

找那个最开始设计 SQL 的人来讲了一次他说他们最开始设计 SQL 这个语言的时候他们的基本想法就是让它成为一个和自然语言非常近的一个语言就是普通人很容易的可以学会他们说他们好像还跑到什么大学还是什么地方让他们去写 SQL 看看能不能很自然地写 SQL 所以你看他们都是 slash 是 where 什么都是一些可以自然语言的这个想法

对但我觉得在 AI 时代有一点不一样的就是因为 SEQ 已经成为事实标准了所以它出现在了无数的这些训练级里边已经被大人模型训练到脑子里了所以这个是一个优势比如说我今天发明一种新的语言我可能还要去训练一个新的模型让他去理解这个语言

所以 C 口已经在那了对刚才这个东西说到了向量数据库这个玩意儿非常好玩是个啥玩意儿我尝试用这个普通人能听懂的这个方式去跟大家科普一下向量数据库向量的作用就是能够提供一个模糊查询的方式你可以通过一些模糊的语义来去查询它会告诉你跟这个语义相似的一些数据库里的东西就有点像

语义搜索能够给书信库提供的语义搜索能力对这就是上量的所以现在要不然这个东西现在这么的火是吧是非常的适合于 AI 使用还算

就是 CQO 它是不是能够满足刚才东旭你提到的所有的这种搜索的应用场景就包括比如说我不仅搜一个关键字我要搜这种一个一段时间内的精确搜索我要搜这种这是图谱的检索我甚至要满足限量检索这也要那 CQO 作为一个这样的一个目前的事实上的对去描述这样的搜索行为那它能够满足这些它的语法的灵活性能够包含你刚才说那些功能

相当于它语言的设计是可以满足你感染需求的现在的挑战是数据库实现数据库的这些厂商你能不能提供这些能力

就比如说像 C++是吧标准有这么多你可以把很多能力放在 C++标准里边但是编译器其实看你编译器的实现有些能力你编译器现在大概情况就是这样我们因为我们自己做数据库的所以我是相当于我希望能够去把刚才我说的知识图谱项量全文检索都融入在一套统一的 C 口的接口之下这个是可以做的只是说会工程难度会比较大

好那我们聊了很多新一代原模型的时代对这些数据库的

挑战我们就聊聊数据库研发本身这个是吧对于全世界各个领域都是有翻天不复的变化对于数据库本身肯定也会有一遍对我们先说简单的大家都知道肯定必须要做的一件事情所有公司都必须要做的事情用自然语言用人说话来指挥数据库不是 CQ 这有点反的不是写 CQ 因为说话这方面那个东西有什么

心得吗或者对这个趋势有什么感想吗我觉得这个趋势是对的用 AI 来去写 CQ 这个方向是对的但是就像我刚才说的人会越来越少的去直接的去写和看 CQ 最后可能越来越多的都是人描述清楚你要干嘛由 AI 写 CQAI 去执行在数据库上执行拿到结果最后再返回给你所以相当于 CQ 的那一部分会被隐藏掉这就意味着

比如说可能需要首先我觉得这是个大的方向未来可能越来越多的场景会是这么去用数据库的所以这就意味着代言模型本身要去写 Zico 以及理解你的数据的

比如说结构的信息以及不同数据库之间的一些能力的差别这块能力需要被提升所以我们其实自己也在训练一些还不行是吧还不行需要去写很多的商量文甚至一些微条对很多针对性的微条让这个大元模型能够理解你的数据以及写出正确的 sql 所以我觉得趋势是有趋势但是还有很长的路要走那

那现在方向是把这些特征都放在上下文里是吗还是说他把模型要重新专门地训练两种其实都有我们自己的实践其实是你刚才说的第二种把在上下文里面去放我要告诉你我接下来要查询什么样的数据这些数据的表长得什么样子大概每一类的什么意思可能这些都是要提前标注好

在你的上下文里面这样才能让这个代孕模型生成出更加准确的 query 所以但是关于语言本身的特性事故本身的特性那里面呢对那在模型里面那比如说你们要推出什么新特性你要把模型再微调一次来就真的对会的每次发布一个版本还要微调一下模型对这就为什么现在我的一个趋势或者说我的一个愿景

我尽量我的 CQ 这层能力是统一的就像我刚才说的我的所有的特性功能都已经定好了就这样只是说表结构设计可能有些变化或者说我的查询性能有些变化或者成本有所降低但是尽量不会说我去把我的语法或者说我的这些功能有太大的变化对

OK 就尽量还是这 SQL 的好处已经很多年了要改变更多的顺利是是是而且现在有一个好处以前大家去实现这种灵活的东西总会问一个问题就你这些性能怎么办或者说你这数据量大了怎么办但我觉得现在有个特别好的点第一像我刚才说的大多数的这种分析场景都是对于碎片化的数据做分析

因为以前的场景是大数据做分析但现在是小数据做分析所以我这个性能根本其实不是数据库本身的性能已经不再是平静就大圆模型本身才是平静了所以对这一点上我觉得还是跟以前很不一样有意思另外一个如果做数据库的人来说非常直接的你什么时候数据库性能不好了查询性能不好了

就会被一些比如说数学观察员 DBA 骂是不知道加索引对

90%真的 90%就是都是索引加错或者什么硬的结束这肯定这件事肯定要软对于大模型因为过去就有那些系统专门做一些事情但是好像系统推广也都比较一般一些这个大模型时代有没有什么变化吗我现在其实老实讲我公司内部正有一支做 research 的团队现在做研究的在做这个方向就是怎么去

相当于我把一些诊断的信息或者说一些系统的运行状态就是原始数据我就丢给大圆模型让大圆模型来去判断一下我的业务的国际或者说业务的 SQL 能不能写得更好当目前来说效果一般只能说这个让我觉得非常惊讶因为大圆模型理解 SQL 应该还比较容易它理解 SQL 容易但是

但你也是搞过数据库你知道的那你是知道的每一家数据库的实现的方式是很不一样的比如说像 MySQL 里面它对应一种查询它可能会优先选择这种计划就因为一条 Sql 你可能有无数种方执行的方式每一种数据库执行的方式是不一样的所以带来的优化的方向是不一样

所以有时候我自己我看着我们的数据库的行为都有点挠头说明很自动化了对对对所以像一些这种

对于你系统本身的这些理解的知识其实在大型模型里面它可能没有那么深的这种实战经验所以它只能给你一些非常 general 或者通用的优化的建议但这些建议可能很多时候它不一定管用所以简单来说简单一句话现在用 AI 直接让它去做这种推荐和修改什么的都会陷入到一种情况简单的谁都能搞定

但是难的大家都搞不定都不行对你就简单的他就知道 where 什么他知道你 where 这个是所言一看你没用所言最后一看我也知道没用所言是吧所以我觉得这模式其实在很多用比如说 AI 智能客服这些场景里面都很相似就是相当于 80%的简单问题让 AI 搞应该都没事但是一些真正难的问题你可能还是得上人但是我对方向是比较乐观的

随着你 AI 的镇定的能力越来越强以及对你的系统越来越了解你给了更多的商家人他的商家人通链越来越大你可以给他塞更多的东西的时候那我觉得这个问题应该正能解决而且在这个里边还有一个技巧就是我现在非常克制自己不要把我太多的经验告诉 AI 因为我把我自己太多的经验告诉 AI 其实反而是在限制 AI 的

就发展就是要让他自己无间都学习出来是发现规律对对对我不要告诉他太多答案因为有时候我答案也是错的我就先自他发挥了对那这个我简单的我说完这个有没有什么我们不知道的不容易想到这些大模型技术用的数据科学总统场景是吧我现在在用它做一件非常好玩的事情因为咱都做数据部开发的其实经常有个场景是说我要

做一些性能优化是吧性能优化其实过去是一个非常 boring 非常无聊的一个事情可能我想到一个优化的 idea 我可能搭一个环境去跑 Gantt Mark 这样的基准测试发现不好你再去分析再去改代码再去跑基准测试就很像不停地考试但你目标是去考一个最高分

我现在在让 AI 做一件事情把所有的去优化考试评估再优化的过程变成一个通用的搜索算法让 AI 去自动的启发式的去尝试各种各样的优化的方向可能这十条方向它自己去找到一条最通用或者说最好的数据库性能优化的路径

为什么呢因为我希望把这个过程做成一个强化学习的一个系统因为数据库性能这件事情其实是一个非常好定义奖励函数的场景奖励函数其实就是好高分同时测试全都通过对这个是我最近在做的一件还挺好玩的事情这看听上去是一个非常宏大的愿景能够帮你做开发了

那一定的那这是我的终极目标看上去是看上来祝你好运如果这个东西搞成了咱们可能就要退休了我还以为说这搞成了你们员工也很多都失业了我有一堆事情要他们做你这写了这么多成本估算有没有异常检测这些还聊吗这个时间可能不太够了我觉得这一点还有一个场景还挺有意思的我们经常有些客户就是去

采购我们的软件之前都会问我这个 workload 或者说我这个应用用到你这个东西上我要一年给你多少钱过去可能我们都得一堆老专家给你做个估算说算一算但是就是 AI 可能就给你填个文件根据这个文件 AI 就给你一个比较合理的一个估算所以他算的有老专家好吗

我觉得差不多了这么好主持人因为我们其实经常我发现可能 80%的这种场景用户的需求都差不多所以对就这么说老专家也能干这些事尤其是这些老专家靠经验以及不需要太多思考的场景 AI 都干得很好对

就是不太复杂同时吃经验这种这种事其实 AI 都干得不错最后我非常感兴趣想聊一聊这个东旭作为 CTO 这个 OO 级别的这个人怎么看待这个 AI 辅助研发或者说 AI 取代工程师这件事情在你们公司有

有自上而下推用比如说像 cursor 这些东西是自上而下从我开始底层员工都不高兴了是吧你们要自上而下高兴得很那这是自下而上反正上下都是因为我也是程序员你要想我也写了这么多年程序这么说其实我先说一点背景 Tinkhub 的几个 founder 都是程序员都是开发者的背景我们其实搞这个公司有一个

理念我们一定要写出好的软件让我们的用户像我们这样的工程师平时搞基础设施的这种数据库的工程师平时能多睡多去摸鱼这个多睡几个觉什么的不然老是这个系统不稳定

整天要半夜起来加班就很烦所以我们的理想就是让程序员多放假所以像 Cursor 这样的这种说广告是吧对确实是所以像 Cursor 这样提升这种生产力的我们肯定是比较欢迎的而且老实讲这种事情都不用说你直接一去看我靠现在还没用上 Cursor 或者说一些 AI 的辅助 Copilot 的这些

工程师你可能还要去关注一下大哥你为什么不用这个你是觉得有什么不好是不是有 performance 问题是是是但我从我个人的经验去说在我们公司自己的推广经验第一我是觉得他是对于这种 full stack 的全站工程师是比较友好的有一些比如说你可能让一个全站工程师快去做一个原型做个网站或者说做一个内部用的小服务

这种事情这个 AI Copiler 能够十倍以上的提升效率包括我其实我现在基本上工作都是做 Prototype 在 Prototype 那就是 AI 反正是我很好的助理我算了一下我一天可能完全八小时都在跟 AI 交互用 Cursor 来写代码可能一天能够产出八千到一万行代码

Cost 能产出这些我可能 accept 掉 40%到 50%这样的也是大纸千行的所以想想这个效率是很可怕的以前如果你没有人工智能的时候你可能这个能写个三五百行已经彻底了我看到了但现在直接把这个提成了一个数量级但他比较擅长那些

胶水扣的以及前端的代码就是你因为我觉得咱们这个前端开发社区真的造了太多稀奇古怪的轮子了解怎么用了是而且 AI

经常会给你去推荐一些这种烂大街的技术战它对于一些具体问题复杂问题难的问题它很难能搞定但是对于这种烂大街的技术 Ruby on RailsReact 这个前端的这些东西 Node 它写了飞棋所以而且还有一点我经常发现

AI 给出的这个方案经常是在那种编程面试 interview 里经常学校面试其实比较多就看他的训练材料非常 foreign 的一些假大空的一些方案这是第二个我个人觉得有一些成员他会

尤其是像我刚才说的那些做那种高清监的就是数据库最核心最内核的那些老专家

他多少会有点抵制这个您说我吗老专家对咱这个就不要对号入座听众朋友不要对号入座更多的时候当然他们的说法也是对的就像我刚才说的很多场景下 DI 给出的方案其实方向不是那么太对或者说当方向不对的时候你就发现根本就是在胡说八道

所以这些老专家可能有时候有点人类中心主义或者说有点缺乏耐心就包括最近那个 Java 之父 Gosselin 还出来说 AI 是城市人最大的骗局之一什么的对所以会有一点点 Ego 在里面了我没有 Ego 但是我是觉得它不行我确实是觉得 AI 不行我经常很拼命的要给它提示自然写出来它就写不出来

这点我一会儿还要再说这么说你要像现在大家很流行 vibe coding 中文叫什么叫氛围编程

其实分别编程并不是甩手掌柜式编程你可能要写比如说以前你可能要花在去写代码和思考的时间你现在要变成把提示词和项目的配置类似这种点 cursor 这样的项目上下文你得好好去写一下你可能时间都是花在这些东西上面它也是需要系统学一学的因为以前我一开始也是你 cursor 帮我去做一个跟它一样的网站

就这种提词词那是不行的如果你要去做一些比较重要的这些或者说比较复杂的东西的时候我都提示好多次都不太行那我教你个技巧经常时候是这样的

你就可以看看你写的提示词里面有时候写的特别长或者说它自动在帮你生成这些提示词或者思考过程的时候它里面的信息是有 conflict 有冲突就比如说你前面告诉他你要这么做你可能让他写的太长了在后面说你要用另外一个方法做所以有时候有一些

就是自己跟自己打架的这些矛盾的点你把这些点解决了他可能就就会好可能还需要更多练习我们都是给 AI 打工的现在对另外一个站在 CTO 的角度比较 concern 合规出去安全这块

尤其是现在综合能力最强的像比如说 ChatGPT 这些 GPT 4.1 或者说 GPT 01, 02, 03 这些顶级的模型它可能都要把你的数据发到 OpenAI 的服务器上但是有一些刚才我说我在做我一些个人助理的这种应用的时候我希望能够让 AI 访问我的一些最最关键最最机密的数据但这些数据虽然 OpenAI 一直号称说我不看你的数据

但是我还是不想让它去离开我自己的网络环境里所以我觉得在这一点上 DeepSeek R1 出来是一个很利好的一个事情包括千问现在这些开人的这个很强的 TL1 的这种模型我觉得基本已经符合我去构建刚才我说的那种企业里边比较有用的这种

代理型应用的能力了但是比较起币源的最顶级的像 Anthropic 跟 OPI 的顶级的模型我觉得还是有差距的所以这个里面反正我现在属于

在真正投入使用之前我要等到这个开源的机种模型能够强到一定程度所以说还是要各个企业还是要最终有自己的模型自己也不一定是自己做的模型就是自己部署的模型自己控制的对是的可能很多公司已经都有这个是现在可能属于大家属于一个跟不上掉队的状态不想那么多了是吧对但是可能过段时间大家认为这件事情是一个

平常的技术以后就要想这个问题据个简单例子就像我现在大家都用 Gmail 用 Google 专家桶怎么邮件好像我也不觉得把我的邮件放在 Google 的服务器里有什么问题等等以后普及到那个程度的时候可能大家就有点不一样另外第二个点就是刚才我说的现在因为企业里面使用这些 AI 的方式还太初级了太入门了

就是这些可能一些简单的场景老实讲你用 Napseeker 也差不多但是呢我觉得进入深水区或者说在面临更复杂的场景的时候那还是等等这个 R2 我觉得现在的模型还是差了点对

所以除了写代码像 Cursor,Nobality 这些你没有推其他的 AI 工具吗给程序员我自己在用但是我没有这个大推过看来这公司还是比较温柔的但是我有一个事是要求所有人在你的自我评估就是做 review 的时候你一定要去强调你用 AI 在干嘛

比如说你这么厉害的那没办法对有很多人他是没有办法有 open-minded 去用你必须得通过领导或者说公司制度去强退的甚至我会要求我的前台我的 HR 来你们说一说你们用这个 AI 都怎么去提升你的动作效率那非常容易把简历让 XGBT 总结一下你看你是下意识的就 get 这个点但是我可以跟你说有很多可能非技术背景的同学他可能一开始都不是转运的

就很多时候我看很多普通的非 IT 背景的人的工作方式有时候我就觉得这个东西你不应该先去问一问 AI 吗对但是你真的要去点播一下说你看可以这么怎么用他说哇靠还能这么用对所以千万不要把自己你们这种高端人才的作业方式

普遍到扩展到普通大众上但我比较惊讶的是 CTO 居然还可以就是说把你的影响力扩展到前台 HR 我觉得你的影响力也非常我是 Founder 所以还有点不一样对现在有很多的公司的高层他们有这种想法觉得过两年程序员都有的公司就不说某些大公司就直接说说这件事情了我觉得这个歪理邪说这个邪道第一

我是很赞同这种说我用 AI 写代码我就比如提升了 30%的效率我就开了 30%的人这绝对不是人能提供的价值其实还是有是 AI 很多是不能提供的而且我相信比如说你一个组里边一定会有就算 AI 能提升你 30%的这个工作效率但一定会有新的事情新的挑战只有人能够去搞定

第二人跟人之间的合作还是有很多 chemistry 的就比如说大家一起 team building 大家一起玩在一起工作可能还会有更多这种激发创造力的事情出现所以人还是很复杂的一个东西千万不要一听就是一个还是一个快速扩张系的公司你要想那些平台系的公司可能不那么像但是我觉得像你说的那些引号那些公司

他们就算没有 AI 我觉得他们的内部的工作效率要是说怎么说真的开掉开掉个 30%的人可能也没啥影响可能下得更高是吧可能 AI 是个很好的理由而已

有很多比较极端的公司你招一个人要证明 AI 不能做这件事情我觉得这个太扯了这非常八股文你知道吗这种路定下去就像我刚才说的那条 AI 怎么帮助到你这个问题跟 AI 怎么去你怎么去证明你自己比 AI 强我觉得这两个完全不同方向的一个问题就是第一个问题我问的那个问题是更想说你把 AI 当做你的朋友或者助手

另外一个问题就是你怎么证明你不能被 AI 取代这有点像把你跟 AI 放在一个对立面来去考虑所以我觉得这个问题最后最后变成大家为了保住自己的工作去开始写一些八股文出来所以我是绝对不会这么去至少在网上公司里我会这样

好那我们还有东西还有什么要聊的吗想聊的吗我觉得最后一个小点现在整个行业我觉得有一个非常不好的歪风邪气所有的东西我都要冠上一个 AI 我要冠上一个感觉什么东西只要加上 AI 就变成一个更先进更理性或者说更加牛逼的东西

现在不想来都没人用了但我觉得这个有点过于 hype 就这么说我之前其实听到应该张一鸣的一个采访里面他提到一段话我觉得说得特别好他当时是上下文这样的他说有一种走捷径的方式对事物的这种过度抽象对方法论的迷恋过度的追求他自己的这个感受其实很多方法论其实是没那么有用的

而且大多数情况下如果你对一个事情抽象就相当于给你的这个思维和思考方式加杠杆但是你要想这杠杆加对了还好如果这个杠杆加错了那可能它造成了影响和这个就是造成了损失也可能是加了杠杆我觉得现在咱们对所有的事情都加上 AIAI 其实也是有点像这样的一个杠杆

就是你所谓的 all in 所有东西都简化到说这个 AI 是 AI 能干还是我能干

就所有的这些问题都变成了这个 AI or not AI 的这个事情的时候是不是也是一种思维上的懒惰或者说一种走捷径的方式走对了那大家很好但走错了那我觉得就其实是一个挺大的一个泡沫我们还是要从问题出发不要从技术出发对另外一点我觉得更深的就是要以人为本出发对人就是这都是工具都是服务人的

在哪天如果 AGI 觉醒咱都去做电池了那可能那也没办法但至少今天我觉得还是我们不要用一个技术来找问题还是要从问题出发来看看用什么最正确的技术来解决问题是的你说的很好那我们最后我们经常会问一些建议问题这种东西认为未来如果你要做数据库研发需要一个什么样的

素质比如说现在在校的学生或者是想转行做数据绘画研发的人他们需要一些什么样的素质跟过去有什么不一样我觉得现在的工具非常多就比如像刚才说的 Cursor 或者说比如说像一些帮你去解决一些 Boring Problem 的这些 AI 工具很多很好所以可能对于

年轻人重要的更重要的能力你得见过世面你得知道怎么去评估 AI 给你的这些答案

当然这个能力怎么构建我还不知道比如说 AI 在给你生成一堆烂大街的方案的时候你能够一眼看出这个方案不够优雅品味不行这个还是有点难的怎么能看出哪个所以我觉得那对顺着你这个说我觉得你提到的非常好都看是经典的东西

可能你不用非得自己写个 Linux 或者不一定自己写个 DocsDB 是吧但是你得看一下咱大师写的为什么这么思考为什么这么去做我觉得就是培养好系统的品味

会变得太重要了有品位先从 RoxTV 开始了那我们今天就这样非常感谢这个东西今天来到我们节目的反场嘉宾带来精彩内容跟我们聊一聊人工智能和数码库的关系就喜欢我们节目请在各大泛用型播客平台订阅和收听那我们就欢迎来到期谢谢拜拜拜拜

嗯

#138. 数据库与大模型的协奏曲：从智能代理到优化查询 58:23 Share

牛油果烤面包

Deep Dive

Shownotes Transcript

#138. 数据库与大模型的协奏曲：从智能代理到优化查询