We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Data Management for Enterprise LLMs

2025/2/7

AI + a16z

AI Deep Dive AI Chapters Transcript

People

Derek Harris

George Fraser

Guido Appenzeller

Topics

George Fraser: 数据准备的核心在于从业务中获取上下文,理解数据的真实含义。我发现,数据准备不仅仅是技术问题,更多时候需要深入业务,与相关人员沟通,理解数据背后的逻辑和规则。例如,Salesforce 中两个字段有时会同时存在数值,需要理解其背后的业务规则。我认为,未来的解决方案可能需要一个 LLM 代理,能够主动提问,澄清数据含义,最终简化数据视图。数据准备的本质是创建一个简化的世界视图,掩盖原始数据集中那些公司特有的、难以理解的特性。这不仅仅是数据问题,很多时候需要推动组织变革,才能从根本上解决问题。 Guido Appenzeller: 我认为在大型企业中,对于“收入”一词可能有多种不同的定义,AI 尚未理解这些语义,因此仍需要人工参与。例如,企业内部不同部门,如销售、财务、税务等,对收入的定义和计算方式可能存在差异。AI 目前还无法理解这些细微的语义差别,因此在数据准备和分析过程中,仍然需要人工的参与和判断,以确保数据的准确性和一致性。

Deep Dive

Chapters

This chapter explores how generative AI, particularly LLMs, impacts enterprise data management. It highlights the increasing importance of handling unstructured text data and the potential for LLMs to improve enterprise search. The discussion emphasizes the importance of using existing data infrastructure for AI projects, rather than creating entirely new stacks.

Generative AI enables processing of unstructured text data.
LLMs enhance enterprise search capabilities.
Reusing existing data infrastructure is recommended for AI projects.

Shownotes Transcript

如果你看看人们在数据准备中实际做的工作,大部分工作都是从业务中收集上下文。你必须四处走动,与人们交谈,找出,“嘿,这个字段是什么意思?”Salesforce中有两个字段,有时一个字段已填充,有时另一个字段已填充。为什么会这样?我怀疑解决这个问题的方案

实际上需要一个LLM代理,它四处询问人们问题,以澄清事情并简化他们正在查看的数据。当你进行数据准备时,从根本上说你正在做的事情就是试图创建一个简化的世界视图,掩盖原始数据集中存在的这些特质,这些特质总是高度公司特定且根本无法自我解释。你不能只看数据就能弄明白。这实际上不是数据准备问题。你必须改变组织。

您好,感谢收听A16Z AI播客。我是德里克·哈里斯,本周我与Fivetran创始人兼首席执行官乔治·弗雷泽以及A16Z合伙人圭多·奥本塞勒一起讨论了LLM时代的数据库架构和数据管理。如果您是正在考虑如何将语言模型集成到现有环境中的企业组织,好消息是,在乔治看来,您可能不需要做太多改变。

谢谢。

虽然老式的仪表板在某些圈子里可能名声不好,但它们理论上确实清楚地表明了对业务而言重要的内容。但是,一万名员工提示语言模型可以构建一万个不同的案例来支持他们自己的想法。所有这些,加上从SQL的起源到未来数据工程技能的一切,都在这些披露之后。

提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对A16Z基金的任何投资者或潜在投资者。更多详情,请访问a16z.com/disclosures。

那么,首先,乔治,你能从一万英尺的高度解释一下,在过去几年里,你如何看待生成式AI改变了你的世界,就客户想要做什么、他们正在追求的项目类型而言?总的来说,如果你从2021年到2022年、2023年,现在到2025年,情况如何?在Fibetran,我们移动数据。

代表大约70万客户,具体取决于您为客户设置的阈值。而且,你知道,我们为人们解决的问题在过去12年里都是一样的,那就是将所有数据放在一个地方。人们用这些数据做了很多事情。他们对这些数据做的最常见的事情可能是销售报告。AI工作负载是人们使用数据的新方法。真正令人兴奋的是,我们终于可以对文本数据做些什么了。Fivetran拥有......

自2015年我在Salesforce编写的第一个连接器以来,一直在交付大量文本数据。从那时起,我们就一直在同步笔记。过去,你对非结构化文本无能为力。现在,非结构化文本是机器可读的,这是一个非常深刻的演变。这是一个

但它是一个深刻的演变方式,对于试图利用他们拥有的数据的企业来说,他们实际上可以对非结构化文本数据做些什么。例如,在Fivetran,我们有一个内部知识库搜索机器人。因为作为Fivetran销售工程师或客户服务代表,你必须熟悉我们连接的这一大批系统,因为我们是数据移动者,我们与所有这些来源和目的地进行对话,有

比任何人都能记住的细节还要多。因此,我们拥有这个工具,它可以索引所有内部文档、通过支持票证和Slack对话以及类似性质的事情。它就像一个大脑,你可以问它任何问题,例如,我该如何配置,你知道,Oracle数据库,这个版本,这个等等,以便将Fivetran连接到它。这是一个非常有用的工具。它由完全相同的数据仓库、完全相同的表提供支持,对吧?

与其他所有内容一样,与我们分析堆栈的其余部分一样。如果我错了,请纠正我,但是非结构化数据在过去曾经是部分大数据运动存在的理由,对吧?我的意思是,当我们查看像Hadoop或其他一些系统时,对吧?我的意思是,我认为非结构化数据是其中很大一部分。这就像......老实说,大数据运动就像一场人们醒来的集体疯狂噩梦。

这是一件如此疯狂的事情。我的意思是,我们可以花一整小时来谈论这件事,但这一切都始于对谷歌的羡慕。你知道,谷歌创建了MapReduce,这是一个糟糕的系统。就像他们今天不使用它一样。学术界和工业界的所有数据库管理人员都看到了这一点,他们说,“自20世纪80年代以来,我们就有比这更好的系统了。他们在谷歌那边到底在做什么?”然后每个人都复制了它。

因为他们认为谷歌正在这样做,这肯定是个好主意。然后我认为人们正在寻找一个理由,这是一种寻找问题的解决方案。因此,他们开始尝试寻找非结构化数据来存储在这个系统中。在我们完成的许多外卖中,我们看到的最奇特的事情之一,因为我们已经替换了许多这样的系统,是人们会做这样的事情:他们会调用Salesforce,他们会获取API响应,并将其作为文本块存储在

在一个文件中。我们看到这一点,我们只是想,“你在做什么?”你试图为你的锤子找到一颗钉子。它是一个具有已知结构的JSON响应,对其进行解析并将其转换为表,这就是它所代表的内容。整个大数据运动中有很多愚蠢的事情。就像人们寻找使用这个工具的理由一样,但就像我说的,别让我开始,因为我会一直说下去。

我想我想要表达的是,答案就像,“好吧,也许只是把它提供给LLM并以这种意义上使用这些数据,而不是试图建立一个运动

围绕这个想法。好吧,现在我们可以获取真正的非结构化数据了。我们确实有一些东西,例如消息中的评论、文档、内部Google文档演示文稿。我们实际上可以对它们做些什么并解释它们。我们可以综合,我们可以理解它们。我们可以说诸如“本文档具有语义含义,与其他文档的主题相似”之类的话。并且

我们可以综合和总结它们,这太神奇了。而在此之前,我们对这些信息几乎无能为力。这些文档中有很多有用的信息。而且,你知道,这一切都还处于起步阶段。明天这一切都可能改变。我们对所有这些事情都还处于非常早期的阶段。但从数据管理的角度来看,这意味着实际上有可能对主要文本数据做些什么

我们有能力聚合很多,但我们只是无法对它做太多事情。你提到销售报告是人们使用数据的第一件事,至少你的客户是这样使用的。我的意思是,随着LLM的出现,这种情况是否发生了变化,或者只是被放大了?人们只是想做更多类型的销售报告吗?或者人们是否将此视为一个机会来做一些不同的事情?

用他们的数据?因为正如你提到的,你实际上可以聚合和利用这些文本数据。所以在数据管理和分析领域存在一件有趣的事情,那就是关于人们实际如何使用数据存在一种沉默的共谋。所以,

95% 的人所做的事情几十年来一直都是一样的。有些人花了他们的整个职业生涯基本上在不同的公司一遍又一遍地构建相同的报告。这没有什么错。这些东西非常有用。仅仅因为它们没有不同并不意味着它们没有用。我希望

在让我们称之为企业数据仓库(这是一个人们总是试图逃避的术语,但我认为这是一个很好的术语)中,主要的负载将继续是报告。人们想知道他们的公司发生了什么。我们会达到我们的目标吗?库存是一件大事。管理库存一直并将继续是一项

一项巨大的工作量。AI将成为这些系统的新工作负载。它非常令人兴奋,而且是新的。所以很多人都在谈论它,它将非常有价值。我们还处于早期阶段,但我认为它永远不会代表这些系统的主要工作负载。

它是系统中的另一个参与者,并且有很多现有的参与者,而现有的参与者将继续非常有价值。在我看来,我们在AI中看到的一个新领域是一种重塑的企业搜索,我基本上现在可以使用AI进行更复杂的查询。我可以使用它来聚合数据,在具有不同模式的存储库(包括非结构化数据)上汇总数据。是

这对你的业务意味着什么?我的意思是,这肯定带来了巨大的挑战。如果我想,因为我们突然搜索存储在许多不同孤岛中、具有许多不同访问机制的内容。我认为,这是今天发生的最常见的事情。我们看到了很多这样的情况,我们自己也在这样做。我前面提到的在Fivetran投入生产一年多的那个工具就是一个例子。它是我们内部网络上的企业搜索。

人们问问题。很多问题都与Fivetran有关。我们进行数据移动,我们连接到数据源,目的地通常很容易。目的地非常强大,并且可以接受数据。来源是挑剔的部分。所以很多都是这样的形式,例如,“我如何连接到这个来源?”“我如何配置这个数据库以便我可以读取更改日志”等等。它非常有用。有趣的是,当我们建立它时,我们所需的大部分数据

已经存在于我们现有的数据仓库中。这并不意味着这些挑战很容易。让我告诉你,正确地将来自整个企业的数据复制到单个数据存储中非常困难。存在绝对令人难以置信的偶然复杂性。但是,无论您是复制代表您支付处理器中交易的数字,还是复制代表交易的文本,挑战都是一样的

在您的支持系统中回复客户的问题,如何基本上询问来源自上次检查以来发生了哪些变化这一根本性挑战是相同的。所以从Fivetran的角度来看,基本上只是列的类型不同。当我们构建这个系统时,我们是在我们已经用来为

我们所有其他报告提供支持的完全相同的表和完全相同的数据库管理系统之上构建的。我强烈建议人们这样做。我认为人们犯的一个错误是,他们说,“我要做一个AI项目。我需要一个全新的堆栈。”你不需要。从数据管理层来看,如果可能的话,你希望使用你已经用来为所有其他企业数据工作负载提供支持的相同系统。因为

即使结果非常不同,将所有数据放在一个地方的内部挑战非常相似。现在,在处理PDF和图像等方面有一些不同之处。那里肯定有一些新的挑战。但是你想要的大量数据实际上已经以纯文本形式存在于某个地方。你只需要连接到正确的系统。这可能是一个愚蠢的问题,或者至少是幼稚的,但是LLM适合企业数据生态系统中的什么位置?

架构,对吧?如果您谈论的是传统数据堆栈,那么我该如何想象LLM适合其中的位置以及该过程的外观?如果我们有ETL,然后是ELT,那么是否有一些新的东西,例如将其馈送到该工作流程的LLM部分?我很想知道你如何从概念上思考这个问题。

好吧,ETL这个词被用来表示多种含义。有时它意味着从源系统中获取数据并复制它,这就是我们所做的。然后有时它意味着将数据转换为更易于使用的格式。LLM实际上甚至比这更下游。所以你需要将所有数据放在一个地方。你通常需要将其转换为对你想要做的任何事情都更方便的格式。然后

你的LLM将在那时出现。因此,它可能会使用大量文本数据,这些数据位于你企业数据集的高度转换版本的列中。它将在类似于RAG(我根本不建议这是历史的终结,但这可能是人们今天做的最常见的事情)中进行操作。

LLM将索引这些数据,然后它将在某种提示检索时再次读取这些数据。因此,它在堆栈中的位置与BI工具相同,但它并不是用户界面,而是在那个阶段。

那么在转换阶段呢?LLM或AI是否改变了我们对数据转换的思考方式,因为这可能是一个猿类问题,但在清理数据、将其放入表中、添加结构方面,否则你会回忆起数据科学家说,“大约80% 是数据整理和数据清理,然后大约20% 是实际进行数据科学的部分”。这是否完全改变了对该过程的难度或变化程度的计算?

这就是我认为占据了。好吧,这取决于你的意思。如果你正在做一个项目,你的目标是让数据被LLM用作某种基于知识的搜索项目的一部分,那么你将以不同的方式转换数据以实现该目标。尽管许多挑战是相同的,但最大的挑战仍然是权限。谁有权读取什么?

而且,我们用于管理关系数据的工具非常适合确定权限。权限是高度相关的。这是一个很好的理由,可以使用你已经用来为基于LLM的工作负载提供支持的数据平台。因为你已经完成的大量工作来获取有关谁在你的公司工作以及......

每个人的工作角色是什么,他们可能可以访问什么,他们可能应该可以访问什么,这在你的LLM工作流程中与在你的收入仪表板中完全相同,或者高度重叠,对吧?很多相同的工作都需要在那里完成。现在,如果你问,LLM能否在进行数据准备时完成数据工程师的工作?

据我所知,还没有。我认为这样做的主要挑战是,如果你看看人们在数据准备中实际做的工作,

它主要是从业务中收集上下文。你必须四处走动,与人们交谈,找出,“嘿,这个字段是什么意思?”Salesforce中有两个字段,有时一个字段已填充,有时另一个字段已填充。为什么会这样?人们在做什么,为什么?谁知道呢?

我们可能需要,你知道,像人类一样的机器人,他们可以四处走动办公室来解决这个问题。这可能有点夸张,但我怀疑解决这个问题的方案实际上需要一个LLM代理,它四处询问人们问题,以澄清事情并简化他们正在查看的数据。当你进行数据准备时,从根本上说你正在做的事情就是试图创建一个简化的世界观

掩盖原始数据集中存在的这些特质,这些特质总是高度公司特定且根本无法自我解释。你不能只看数据就能弄明白。你必须与人们交谈才能理解为什么是这样。我认为这实际上是一个非常好的观点。我见过一些初创公司举这个例子:这里有一个AI应用程序。我只是要求它给我一个收入表,它就会返回一个结果。

如果你在一个大型企业工作,我想说可能有一打或更多不同的定义,也许有两打不同的“收入”定义,对吧?这是针对内部销售佣金的吗?这是针对上市公司报告的吗?这是针对我们的税务人员的吗?这是对业务部门的分配吗?所有这些不同的指标都是不同的。其中涉及如此多的语义,我认为AI还没有理解。我们仍然需要人工参与。

是的,为了解决这些问题,你通常无法采取行动。这实际上不是数据准备问题。你必须改变组织。我给你一个完美的例子。你刚才提到了收入的定义。所以去年,直到现在,Fivetran对收入有三个定义。好吧,这很好。实际上,就公司而言,我们有差距收入。

我们有ARR,它消除了差距收入中许多令人讨厌的会计方面,并让你更直接地了解业务状况。然后我们有这个叫做模型ARR的结构,它消除了ARR中某些非经常性信号。

使其更清晰,以便你可以每月更清晰地了解业务状况。模型ARR和ARR之间最重要的区别在于它考虑了月份长度。Fivetran采用基于消费的定价。因此,如果月份长10%,就像1月比2月长10%,那么它的收入将增加约10%。嗯,

我们想将三个定义减少到两个定义。为了做到这一点,我们不得不改变我们的销售补偿规则,因为销售人员的报酬是基于ARR,而不是基于模型ARR。我们想要获得模型ARR的那些特性,但我们只想要两个定义。完美的例子。AI不仅无法做到这一点,数据工程师也无法做到这一点。我必须这样做。我必须说,“猜猜看?明年。

你的报酬将基于,你知道,收入,消除了月份长度和其他一些因素的影响。但我们也必须,你知道,我们必须使模型AR定义更简单一些,以便我们可以为此目的使用它。这里存在妥协的因素,但这就像一个完美的例子。很多,很多数据问题实际上都是组织问题。

必须由领导者解决。数据很复杂,因为某个地方有人没有做出明确的选择,即我是否想这样做或那样做?我认为我可能也要谈到的是,你是否看到公司开始建立某种卫生或基础设施。我在想

如果自动驾驶汽车要成为现实,对吧?就像,你知道,变得无处不在。就像你必须建立基础设施,电动汽车或自动驾驶汽车,就此而言。就像你必须建立基础设施来重新调整你做事的方式,以便它们能够在道路和区域上实际运行。这是一个很大的规模。我的意思是,现在AI可能已经到了我们实际上必须整理好我们的数据的地步。

如果我是一家大型企业,也许我开始使用这种想法来格式化内容,即这是数据的最终目的地。是的,你必须使业务适应AI。完全正确。我的意思是,这种现象经常出现。它无处不在。你知道,这项新技术。电子商务就是这样。为了适应电子商务,许多公司必须做的一件事是他们必须拥有技术。

更少的SKU,因为需要随时在多个仓库中备货。对。因此,他们必须做出这些非常艰难的选择。就像,“听着,你是否想要一个人们可以实际购买你的产品并使其有意义的网站?或者你是否想继续拥有所有这些不同的、高度独特的SKU?”你不能两者兼得。在许多情况下,答案是那些愿意做出这些权衡的企业蓬勃发展,呃,

并且发展壮大,而那些不愿意的企业则没有。所以,是的,很难预测确切的方式,但我相信我们将看到许多例子,为了利用AI,你必须实际改变你的业务运作方式,使其对AI友好。人们很难接受这一点,你知道,他们多年来一直以某种方式做事。并且

这就像,“好吧,你以前没错,但现在你错了。现在你需要以不同的方式去做,否则你将无法真正利用这项新技术。”因此,在这方面,你是否认为AI和LLM(特别是)是一种数据技术,还是一种更高级别的业务技术,如果这说得通的话?因为电子商务是一场转变,但我不知道数据领域是否也存在强制进行这些类型更改的不同转变,或者这是否是近一段时间以来第一次......好吧,我的意思是......

语言模型就像这种交叉变化,它将影响世界上的每一个生命元素。

我认为许多最重要的应用将出现在消费者类型的应用程序中。我认为它们在商业中的许多应用将是人们只是在他们的业务中使用像ChatGPT这样的产品。所以他们并没有真正参与AI的生产。他们只是其他人生产的工具的消费者,对吧?但也会有这样一种情况,人们会将AI用于他们自己的数据,并使用

Fivetran参与的很大一部分与以前我们交付数据以服务分析的方式相同。我们现在也正在交付数据以服务AI。这可能有点偏离主题,但就像几年前我和你一起讨论过一篇关于为什么SQL需要软件库的文章,我认为是

标题是什么。所以我很想知道,因为我认为这是LLM早期的商业圣杯之一,即我们基本上将取消SQL,对吧?我们将能够进行自然语言到SQL查询,诸如此类的事情。我的意思是,这可能回到数据转换问题,但你是否设想了一个世界,在这个世界中,数据库是

工程师,对吧,数据库管理员,无论如何,这些角色中的任何一个都会发生变化或发展,因为同样,LLM已经,缺乏更好的术语,使其他人能够从这些东西中提取信息或以其他方式与它们交互。首先,这极其具有讽刺意味,因为SQL的设计尽可能接近自然语言。

实际上,SQL中的一些缺陷就是因为这个目标。它非常冗长。语法非常庞大。有很多例外,它不是一种非常规则的编程语言。所有这些都是因为人们试图使其像自然语言一样,但尽管做出了这些努力,它不像自然语言。我个人的观点是,自然语言到SQL是

认为这将是一件大事的人误解了这些问题的难点。难点在于将你的数据整理成一个数据模型,

这是明智和简单的。一旦你有了那个表或那个具有单一收入概念的维度模式,或者也许只有两个,并且具有对诸如“这是企业公司还是商业公司?”之类的明确定义。一旦你澄清了所有这些并简化了它,你就可以把它放在一个菜单中,每个项目都有一个,人们将非常乐意去勾选复选框并创建他们想要的报告。

这就是BI工具。另一种方法是我可以写一段文字来描述我想要什么。我认为这会发生,而且它会很有用,但这并不具有革命性。它解决的是问题中最简单的一部分。

问题的难点在于所有这些底层,所有必须完成的工作。它之所以困难的部分原因是它非常特定于公司。而且它不断变化。将数据从系统中提取出来时进行综合的规则

进入这个高度策划的模型必须不断更新,因为业务运作方式正在发展。我认为如果我可以补充一点,我认为这里还有一个方面。告诉我你是否认为这是正确的。我们在编程语言中看到的是,从自然语言翻译到编程语言实际上非常困难。问题不在于

编程,我的意思是,为什么编程语言很难?它们之所以困难,不是因为有人试图使它们变得困难。它们从根本上来说是困难的,因为我们需要一种方法来解释

精确地表达某些东西,没有任何歧义。这需要一种非常形式化的方法来编写它,对吧?因此,难点基本上在于处理所有边缘情况以及在这种情况下你应该如何表现。编程语言是精确的。自然语言通常并不精确。我认为我们在SQL中也看到了一些类似的东西。像一个简单的SQL查询,是的,没有问题,我可以用英语来描述。如果数据表示良好,它将起作用。

一个复杂的SQL查询与连接,或者如果我找不到另一个列中的值会发生什么,对吧?如果我有一个查找错误,并且有很多边缘情况,我认为很难用自然语言全面描述。我完全同意这个框架。在编程中,它们仍然是相当革命性的。像Copilot和Cursor这样的工具

你绝对是对的,它们不会帮助你解决最重要的问题,那就是如何精确地陈述你的问题和目标。但是,如果你是一个学习阶段的人,它们会帮助你。它们将有助于使编程的学习曲线变得更加平缓。我100%同意。是的。然后它们做的另一件事是库。

即使你知道你想做什么,我应该使用哪个库来帮助我完成这个任务?我应该向哪些函数传递哪些参数以及按什么顺序?这些语言模型实际上已经恢复了我编程的习惯。有很多事情我会像一个小型的Python笔记本一样交付给我在Fivetran的团队,比如,这是我想要你做的。而我之所以能够做到这一点,是因为大部分代码都是由这些LLM编写的。

对于某些事情来说,对我来说,仅仅编写少量代码来解释我的需求(借助LLM),并尝试与分析团队中的某人来回沟通,效率要高得多,因为这些通常是数据驱动的。我给你举个例子。去年,我有一个假设。我认为,你知道,我认为Fivetran可能......

当客户连接一个新的数据库并且复制所有现有数据需要很长时间时,会损失相当多的收入。有时可能需要几周时间,但我敢打赌,我们会损失很多收入,因为人们放弃了等待。我们可以关注这些问题并努力做得更好。但首先我想检验一下这个假设,比如,你知道,这是一个大问题吗?我们如何才能知道它是否会好转?

所以我确切地知道我想做什么。我想做一个Kaplan-Meier模型,这是来自科学的概念。但在我成为科技CEO之前,我是一名科学家。我想,我想做一个Kaplan-Meier模型,来研究等待同步完成的客户的存活率,因为这将给我一个非常精确的答案,说明这个问题有多大。但我从未在Python中做过这个。而且

所以我只是问了Chad GBT,我说,这就是我想做的。我有客户,这就是它的工作原理。我想做一个Kaplan-Meier模型。这个事件代表死亡。Kaplan-Meier模型用于临床试验中的人的存活率。这个事件代表右删失,然后就完成了。我的意思是,它第一次就成功了。我编写了一段代码,你知道,它表明,如果我们能够加快速度,这可能是一个巨大的机会。我说,好的,这是问题的定义。我

我希望我们进行一些更改以使这些事情更快。然后我们将重新运行此分析。这正是我们判断它是否有效的方法。如果没有语言模型,我将永远无法做到这一点。我学习Python的终身API将花费太多时间。我不会那样做。但在语言模型的帮助下,这是一个非常不同的计算。我认为这样的故事正在发生

在每家公司中。因此,它们作为编程中的生产力增强工具是革命性的。它们不会解决精确陈述你想要做什么的问题。但是,如果你能解决这个问题,它们就能解决很多其他问题。因此,你能够在不求助于数据分析师或不必去其他地方的情况下解决这个问题。总是有这样的说法,我们想要做出数据驱动的决策,对吧?我们希望公司中的每个人都能做出数据驱动的决策,并且

我认为一直有一个目标是拓宽对这些工具或技能的访问,这些工具或技能可能实际上并没有发生。从这个意义上说,你是否看到越来越多的公司内部人员,以及大型企业内部人员,现在能够查询数据、运行这些报告或执行他们可能已经想到的想法,否则,同样,将需要很长时间才能通过传统渠道引入工程人员、数据分析师或其他团队?

是的,我认为生产力要高得多。如果你的问题很精确,那么将它转换成SQL查询或Python脚本比以前容易得多。这意味着会有更多的人这样做。这是一把双刃剑。你知道,人们用两种方式使用数据。他们用它来寻求真相。

他们用它来证明他们本来就想做的事情是正确的。他们大多做第二件事。因此,更多的消费者数据可能是一股善恶的力量。是的。

那不是我的下一个问题。我的问题是,缺点是什么?或者当您扩大访问权限并且更多人这样做时,递减收益从何开始?是的,我的意思是,挑战是动机推理,倾听。你越深入挖掘数据,动机推理的危险就越大。我们都会遇到这种情况。如果你认为自己不受它的影响,你就是最糟糕的。这就是我们构建仪表板的原因之一。仪表板不仅仅是因为我们不能让每个人都编写自己的SQL查询。即使我们可以让每个人都编写自己的SQL查询,

我们仍然希望有很多仪表板,因为仪表板的部分目的是说,这就是我希望你查看数据的方式。我希望你以这种方式看待它,而不是其他方式。否则,每个人都会有自己版本的现实。

所以如果我仔细考虑一下,像我们看到的下一代推理模型,比如推理LLM,在那里并不特别危险。我可以告诉他们,找到一个好的故事线和推理来证明我的观点,而与数据实际所说的内容无关。这真的很有趣。是的。你知道什么很有趣吗?我实际上做过。

最近。所以,如果你的月份好或坏,通常会发生一件事,那就是人们总是喜欢推测季节性。他们说,好吧,现在是八月,所以人们都在度假。好吧,现在是二月,每个人都过了假期高峰期,他们正在为新年做准备。而且99%的情况下,这些都是胡说八道。这些趋势不会重复出现。在Fivetran,

我们唯一拥有真正可重复季节性的月份是二月,因为它天数较少,以及十二月,因为圣诞节真的很糟糕。所有其他假期,我们都看不到它们。多年来,它们在数据中并不始终如一地低,对吧?但是人们喜欢推测季节性。这就像他们的默认选择。如果这个月略高或略低,他们会说,一定是某种季节性。对吧?

所以我给公司写了一份备忘录,标题是《Fivetrain不是农场》。我做的一件事是让ChatGPT提出每个月都会因为季节性而更好或更坏的原因。它做了一个小表格,并提出了一个解释,说明为什么这个月因为季节性而好或坏。它们都非常合理。因此,你绝对可以使用LLM作为一种令人惊叹的动机工具。

推理引擎。但是你可以反过来利用它来做好事,比如提醒自己,嘿,你看,对于各种情况,我都可以提出这样的故事。总有一种方法可以为这件事或那件事提出论点。这很好地提醒了我们,实际上有多难

弄清真相,了解世界是如何运作的,以及克服我们自己对动机推理的倾向。如果我们回到,也许是更像这个的基础设施架构部分,并在这里采取更广泛的视角,我们有上一代,比方说,数据行业赢家,缺乏更好的说法,对吧?这可能是Five Trans,可能包括在内,Databricks,Snowflake,这些公司。你是否看到在LLM层又出现了一组不同的参与者或公司

基本上,数据和LLM的联系,对吧?我的意思是,是否有空间容纳一种新型公司?我只是好奇这些新型公司,这些新创始人将如何与上一波进入的公司的创始人不同。所以有些人试图为AI创建Fivetran。我目前的看法是,数据堆栈的前几层看起来非常相似。

如果工作负载是AI,你仍然必须解决基本上相同的几组问题。现在,也许我正在进行动机推理,说明为什么我的公司会成功,但我试图以开放的心态认真研究这个问题。在移动文件方面,基本上是图像等方面,有一些狭隘的例外。我们正在努力扩展我们的产品以涵盖这些案例。但我确实认为,那些最初的几个阶段看起来基本上是一样的。我认为

大多数公司应该将与AI相同的数据平台用作数据存储库。你应该拥有一个企业数据存储库,它可以同时为你的传统分析工作负载和你的AI工作负载提供数据。如果你的RAG管道的第一个阶段是select star from......

你只是从那个数据仓库中读取所有数据,这很好。这不是最有效的方法。你可以构建一个高度优化的数据平台来更有效地执行此步骤。但是猜猜怎么了?该过程的后续步骤

工作负载比该查询贵1000倍。因此,这不是你应该关注优化的位置。然后之后会发生什么,这就像狂野西部一样,现在一切都开放供探索。企业将如何使用AI来处理

他们自己的数据。目前最先进的技术是,你构建一个RAG聊天机器人,用于回答有关你的内部知识库的问题。包括Fivetran在内,很多人都在这样做。这非常有用。我认为这不是历史的终结。我认为还会有更多的事情发生,包括我们现在无法预料的事情。这非常酷,而且非常令人兴奋。所以答案基本上是相同的公司?好吧,我区分了第一阶段和后续阶段,对吧?所以从记录系统到......

到中央数据存储,包含有关公司中所有内容的所有数据,我认为这些大多将是相同的参与者。我们看到数据湖泊是一个主要的兴起趋势,但它与AI本身并没有什么关系。这只是计算与存储分离的下一个逻辑步骤。它也对传统分析有益。之后的一切都完全开放。

并且有很多参与者跨越了这一点,对吧?像Databricks、Snowflake、Google Cloud、BigQuery这样的公司,他们构建的系统可以完成存储部分。然后他们还处理这些数据。因此,他们在第二部分的成功程度各不相同。但我认为第二部分也完全是开放的。其他人可以进来创建一家新公司,这家公司将位于你的公司之上。

数据湖、数据仓库,无论你想称之为什幺,并利用其中的数据做一些令人惊叹的事情。那可能是一家现在甚至还不存在的公司。因为工作负载的整个方面完全不同。好的。这说得通。好的。好奇你们两位在这里总结一下,比如,五年后,如果我是一名数据架构师、数据工程师、数据分析师,哪些技能比以往任何时候都更重要?哪些技能,你知道,也许是相关的?是的。

或者至少是过时的。我来试一试。让我们从编码开始。我认为编码仍然很重要。不是因为你可能写的代码更少,而是你让AI为你编写更多代码,但你仍然需要了解AI的作用。如果AI陷入困境,你希望能够把它从困境中解救出来。

我认为更高级别的架构概念理解更重要,因为执行的次数更少。你可以更多地关注策略和架构部分。我认为了解如何精确地指定你对模型的需求将变得非常重要。因此,每个工程师都需要比今天更像产品经理,因为你想要忙碌。你现在有了这个。

你知道,聪明的实习生之类的东西可以帮助你处理一些事情,但前提是你必须给他们一个非常清晰的解释,说明你想要什么。是的,我完全同意。能够精确地陈述你想要什么,能够精确地思考,比以往任何时候都更有价值,比以往任何时候都更有杠杆作用,掌握语法,掌握现有的库系列,其价值远不如以前。许多职业道路都是......

现在比以前更容易获得。如果你拥有第一部分,你就可以获得需要第二部分技能的工作,并且可以使用AI来弥合你的技能差距,并使陡峭的学习曲线变得更加平缓。这就是本集的全部内容。我们希望你学到了一些东西。我们希望你喜欢这一集。如果你做了这两件事中的任何一件,我们希望你在你选择的平台上对播客进行评分和评论。下周见,保重。

Data Management for Enterprise LLMs 38:12 Share

AI + a16z

Deep Dive

Shownotes Transcript

Data Management for Enterprise LLMs