We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

879: Serverless, Parallel, and AI-Assisted: The Future of Data Science is Here, with Zerve’s Dr. Greg Michaelson

2025/4/15

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript

People

Greg Michelson

Topics

Greg Michelson: Zerve平台在过去一年中取得了显著进展，推出了许多新功能，例如Fleet功能，它利用无服务器技术实现了代码执行的大规模并行化，极大地提高了处理速度，尤其是在处理大型语言模型调用时，无需编写额外的代码，也不会增加成本。此外，Zerve集成的AI助手可以帮助用户编写代码、构建模块，并简化了整个编码过程。Zerve的图架构允许同时运行多个代码块，支持多人协同工作，提高了团队协作效率。Zerve并非低代码/无代码工具，而是代码优先的数据科学环境，它通过协作式图环境和并行化等特性，帮助代码优先的数据团队将模型开发周期缩短多达9倍。每个节点都是一个代码窗口，用户可以全屏查看代码、输入和输出，方便代码预览和调试。Zerve支持与多种大型语言模型交互，包括OpenAI、AWS Bedrock和Hugging Face，用户可以根据自身需求和数据安全考虑选择合适的模型。Zerve的AI助手是一个可以操作画布的代理，可以根据自然语言指令创建整个项目工作流程，极大地提高了开发效率。 Jon Krohn: 作为主持人，Jon Krohn主要负责引导话题，提出问题，并对Greg Michelson的回答进行总结和补充。他从用户的角度出发，提出了许多实际问题，例如如何理解Zerve的DAG架构，如何集成LLM，以及如何解决SaaS公司面临的挑战等。

Deep Dive

Shownotes Transcript

这是第 879 集，与 Zerve 的联合创始人 Greg Michelson 博士一起。今天的节目由 AWS 最新一代 AI 芯片 Tranium 2 和戴尔 AI 工厂与 NVIDIA 赞助。

欢迎收听 Super Data Science Podcast，这是数据科学行业收听率最高的播客。每周，我们都会为您带来有趣且鼓舞人心的人物和理念，探索机器学习、人工智能和相关技术的尖端领域，这些技术正在使我们的世界变得更好。我是您的主持人 John Krohn。感谢您今天加入我。现在，让我们化繁为简。

欢迎回到 Super Data Science Podcast，今天，技术含量高且非常幽默的 Greg Michelson 博士将首次重返本节目。Greg 是 Zerve 的联合创始人，这是一个非常酷的平台，用于开发和交付人工智能产品，该平台在一年前的这个播客上公开发布。

他之前在 DataRobot 担任首席客户官七年，并在 Travelers Insurance 担任分析和研究高级总监四年。他在获得阿拉巴马大学应用统计学博士学位的同时，还是一名浸信会牧师。

今天的节目侧重于技术方面，因此最受数据科学家、AI 或 ML 工程师和软件开发人员等实践者欢迎。但 Greg 是一位极具吸引力的沟通者，浸信会的背景派上了用场，任何对数据科学实践如何迅速发生变革感兴趣的人都可以欣赏今天的节目。

在节目中，Greg 详细介绍了 Zerv 基于协作图的编码环境在过去一年中的发展成熟情况，包括其革命性的舰队功能，该功能允许以无额外成本的方式大规模并行化代码执行。

他讨论了人工智能助理如何通过帮助构建、编辑和连接您的数据科学项目来改变编码体验，为什么大型语言模型的兴起可能会给许多 SaaS 企业带来麻烦，因为内部构建解决方案变得越来越可行，以及公司如何使用 RAG（检索增强生成）来创建更强大的 AI 应用程序。好了，准备好收听这个娱乐性和教育性兼具的节目了吗？让我们开始吧。♪

Greg，欢迎回到 Super Data Science Podcast。很高兴再次见到你。你这次从哪里打电话来的？我在家。我在内华达州埃尔科。非常好。这是一个小镇。我们距离盐湖城以西约三个小时的路程。酷。所以这是最近的城市，例如，你离拉斯维加斯很远。拉斯维加斯在南边约八个小时的路程。哦，是的。是的，然后里诺可能在西边四个小时的路程。所以我们位于里诺和盐湖城之间。

事实证明，埃尔科是美国的黄金开采之都。哦，真的吗？很多人没听说过它，但他们在这里从地下挖出了大量的黄金。不是开玩笑吧。直到今天。是的。还在继续。真酷。好吧，你知道，我们仍然需要它。所以我们仍然非常需要它。呃，

我想黄金实际上有实际应用，但我认为大部分都用于珠宝，我想有些人也……我不知道。我认为大部分可能用于电子产品。哦，是的。是的。我不知道。我在这里完全是出于无知。好吧，听众可以让我们知道。在这里运用达克效应。是的。是的，我们现在不会……我们现在不会做研究来弄清楚这一点。但这与数据科学的关系不够密切。

是的，这是乔·罗根风格的。自从你一年前参加节目以来发生了什么？我听说你有一些重要的个人新闻，实际上是内华达州风格的个人新闻。什么？

好吧，我上周结婚了。去了法院，第二次结婚了。很好。恭喜。恭喜，Greg。谢谢。这是个好消息。正如我所说，大约一年前我们邀请你参加了节目。那是第 753 集。因此，在那一集中，我们的听众确实对 Zerve 的情况有了一个概述。但我了解到，从那时起，你们发布了许多新功能。

是的，这是疯狂的一年。我们做了一些非常基础的事情，例如与 GitHub 和 Bitbucket 集成等等。

但我们还添加了一个名为“舰队”的功能，该功能将于本周发布。这是一种使用无服务器技术大规模并行化代码执行的方法。因此，您可以，例如，假设您想调用大型语言模型，但您想调用一千次。

你知道，它们很慢，对吧？每个人都使用过 ChatGPT。你知道，你可以输入它，问它一个问题。它可能需要 20、30、40 秒才能返回。因此，如果您尝试这样做一千次，则按顺序执行会很痛苦，但是……

因此，您可以进行多处理或类似操作，但是然后您必须管理池并弄清楚……那里存在编码挑战。也许对于专家来说这不是一个挑战，但这需要不止一行代码。但是 Zerv 是一个基于块的，你已经看到了。代码被排列为 DAG。因此，每个块在……

当您执行它时，会启动无服务器计算并执行。事实证明，通过启动大量无服务器计算来并行化非常容易。好处是，您不必编写任何代码来执行此操作。而且不会花费更多，因为计算量相同。它只是同时发生。所以舰队非常棒。

然后是我们的 AI 助理，它可以帮助您在应用程序中编写代码，可以构建自己的块，可以执行一些这样的操作。这是一种现代编码，因为大型语言模型确实彻底改变了人们编写代码的方式。这与过去完全不同。

同样的努力。所以，一些非常非常酷的东西。百分之百。因此，Zerve 总体上是关于使创建代码更快、更容易理解、更容易协作的。因此，我们将深入探讨这些细节，例如 AI 系统，它可以进一步加速这一过程。我们将讨论大型语言模型以及这种并行化、无服务器方面的优势。但是

首先，对于那些没有收听第 753 集的听众，我们应该更详细地向他们介绍一下。所以现在我们知道它是一个有向无环图。所以也许我们应该稍微解释一下这个术语。例如，所以有向无环图，基本上就是它在术语中所说的那样。但要分解一下，您有一个图，这意味着您有节点和连接这些节点的边。

它是定向的，这意味着您具有一定的流程。这不仅仅是图中的点相互连接，这意味着，哦，这些都是我的朋友，他们在图中相互连接。不，它是定向的。在图中的所有节点之间存在某种信息流。所以它就像 L

概述一个过程，例如数据科学过程、数据建模过程、数据工程过程，所有这些都可以是 DAG 中的节点和定向边。然后是那里的最后一个术语，A，表示在您的有向图中任何地方都没有循环。你

明白了。是的，这是一个很好的描述。是的。在 Zerv 的图中，我们称之为画布，代码位于图中的节点中，然后连接表示

数据和内存流，对吧？因此，如果我执行我的第一个块，它是一个对 Snowflake 数据库的 SQL 查询，那么创建的数据帧将沿着该节点传递到后续块。您可以分叉并从 1 到 2，然后您可以合并并从 2 到 1，依此类推。

这种架构的优点是您可以同时运行任意数量的块。因此，您可以让多个人在同一个画布上同时运行代码，使用 Python、R、SQL 编写代码。这是一种非常疯狂的混合匹配环境，任何人都可以做任何事情。这真的很酷。

这是它的一个很酷的地方。它让我想起了转变，我不记得我在 753 集中是否说过这个。所以如果我再次重复这个比喻，我向听过那一集的听众道歉。但是 Zerv 让我想起了从使用您互相发送的 Microsoft Docs 的转变，您完全无法跟踪您使用的版本。有人正在处理……你知道，你有一个大型法律文件。

而您的法律团队正在进行更正，而他们的法律团队正在进行更正，您正在阅读它并做笔记。然后合并就变成了噩梦。值得。

在数据科学中，它是否与 Google Docs 做了同样的事情，即您可以突然一起协作处理同一个法律文件？您可以看到……你知道有人正在打字，您可以看到他们正在留下评论。您可以实时执行操作。您可能同时进行 Zoom 通话并讨论它。因此，Zerve 允许 Google Docs 提供的相同类型的交互性、可见性和并行化。

是的，完全正确。因此，如果您曾经在 Jupyter Notebook 中工作过，那么您就会知道共享和协作处理它们是一场噩梦，对吧？就像，哦，提交。而且，每次您打开它时，元数据都会发生变化。因此，是的，您最终会遇到大量的合并冲突等等，这是一场噩梦。

因此，您最终会得到这样的文件，例如，“文档最终版”、“文档最终最终版”、“文档最终最终最终版”，例如“这次真的最终版，使用这个”。所以文件名本身就很有趣。

是的。因此，使用 Zerv 等工具的最终效果是，根据您的资料，您将不得不向我解释这一点，它说它使代码优先的数据团队能够将周期时间缩短多达九倍。关于这一点，有两件事很有趣。首先是代码优先的数据团队。当您描述 DAG 时，它听起来像是一个低代码、无代码工具。

但事实上，我们正在谈论的是赋能代码优先的数据团队。这是首先要澄清的一点。然后，Zerv 如何使代码优先的数据团队能够将模型开发周期时间缩短多达……是的，基本上是 10 倍？好吧，是的，代码优先，它绝对不是无代码、低代码工具。尽管大型语言模型使这种情况变得有点模糊。2010 年代确实是低代码、无代码工具的时代。

我在 DataRobot 工作过，你知道，它是最初的低代码、无代码数据科学工具之一。我在那里工作了大约七年。我认为每个人都几乎已经意识到，低代码、无代码……皇帝没有穿衣服。

呃，你知道，每当你遇到一个复杂的问题时，你都会……你会超过低代码、无代码工具所能做的事情的界限。而且你会……这就是为什么像 DataRobot 购买了……一个笔记本环境，Databricks 引入了笔记本环境。他们都在转向编码环境，因为他们意识到，实际上从数据中创造价值的只有专家，那些编写代码的人。

因此，我们一开始就是一个编码环境，一个您可以编写代码的地方。

我们仍然是。就像我们一样，没有发生转变。我们是一个编码环境，但是现在有了大型语言模型，它……你知道，它不是完全相同的东西。就像你不再像以前那样编写代码，你坐在空白的……空白屏幕前，只是输入代码。相反，你是在向大型语言模型描述你想要构建的内容。然后你获取该代码，也许你会调整它，或者你可能会与大型语言模型交互以使其执行你想要的操作。所以它仍然非常非常基于代码，但是它……

这是一种不同的体验。在过去的两三年里，编码变化如此之快，这真是太疯狂了。当然。它已经完全改变了。它确实允许从未编写过代码的人突然能够进入其中。我们最近与 Natalie Monbiot 做了一期节目。那是第 873 集。在那期节目中，她谈到了她从未学习过如何成为一名开发人员，但现在她可以使用 Claude 或 ChatGPT 等工具并能够自己生成代码。现在，这很有趣，因为

它不像你今天可能希望的那样易于使用，她描述了她如何……她就像，好吧，酷。我可以编写代码。但随后她很快意识到，好吧，你知道吗？实际上，我还需要同时阅读一本 Python 入门书籍。是的。是的，有……你不能和你的奶奶一起坐下来做这件事。对。但是你知道，一段时间后，奶奶可能会学会，你知道，但是仍然……仍然有专家价值，你仍然需要知道如何阅读它等等，尤其是在项目变得更加复杂的时候。你知道，这对于入门来说很好。但是，在某些时候，你知道，我们还没有达到不需要任何专业知识的地步。我认为在一段时间内我们都不会达到。

因此，我很容易想象在 Zerv 等工具中如何安排您的有向无环图，以便您接收一些数据输入或多个数据输入。您分别对这些流中的每一个进行数据预处理。因为它们是不同的东西，例如一个是天气，另一个是股票价格，另一个是图像，您有所有这些需要完全不同类型的数据预处理的不同数据流。因此，看到它在 Zerv DAG 中布局是有意义的。

然后你谈到了如何在 DAG 中有多个流相互组合或彼此分叉。例如，如果您有三个数据输入，您可能希望将它们全部输入到相同的模型中。您将它们合并到一个节点上，然后让它们流入神经网络或类似的东西。这很容易让我和我们的听众想象出来。那么代码组件是如何工作的呢？

在这种环境中体现？你如何看待它？- 你如何看待代码？- 是的，就像，你知道，如果你有这些节点，我觉得现在这是一个愚蠢的问题，但你知道，就像，你点击一个节点，然后你会看到节点下的一些代码吗？- 当然。所以节点本身就是一个文本编辑器。这是一个代码窗口。我们使用 Monaco，它是开源的。它与 VS Code 使用的代码编辑器相同。

因此，每个节点都是一个小文本窗口。事实证明，当我们查看人们使用它的方式时，他们实际上会进入全屏模式。因此，对于每个节点，您可以单击进入全屏模式，这将为您提供……想象一下，在这个特定块上有一个抬头显示。例如，中心区域是实际代码。

然后在屏幕左侧，您有所有输入，例如从上游块输入的数据。然后您在屏幕右侧拥有所有输出。因此，您可以……在 Zerv 中工作的一件很酷的事情是，如果我运行我的代码并且我说我对数据帧做了一些事情，也许我将变量从字符转换为数字或类似的东西，那么我可以单击左侧的它并进行预览。我可以单击右侧的它并进行预览。我可以比较我的代码实际上做了什么

而无需键入诸如打印 df.head 之类的内容，你知道，所有这些东西才能实际看到它。因为，你知道，如果我回头看看……过去我工作过的笔记本或项目，它们到处都是。这是一个关于……好的，我如何删除所有打印语句的整个任务？因为我需要查看我的变量。所以是的，能够预览是很棒的。本期 Super Data Science 播客由 AWS Tranium 2 赞助，AWS Tranium 2 是 AWS 最新一代 AI 芯片。

AWS Tranium 2 实例提供 20.8 petaflops 的计算能力，而新的 Tranium 2 Ultra 服务器将 64 个芯片组合在一起，在一个节点中实现超过 83 petaflops 的计算能力。专为当今最大的 AI 模型而设计。

这些实例相对于 GPU 替代方案，价格性能提高了 30% 到 40%。这就是为什么从 Anthropic 和 Databricks 等巨头到 Poolside 等尖端初创公司，各行各业的公司都选择 Tranium 2 来为其下一代 AI 工作负载提供动力。通过我们节目说明中的链接，了解 AWS Tranium 2 如何改变您的 AI 工作负载。好了，现在回到节目。

- 那么，让我们进一步讨论大型语言模型的方面。所以你刚才稍微谈到了这一点。许多公司都在努力将大型语言模型

应用到他们的业务中。部分原因是，尽管作为数据科学家或软件开发人员，当您在公司之外处理自己的项目时，您可以获得显而易见的好处，但这对于公司来说是一场斗争。让公司难以处理的部分原因是，他们担心他们的知识产权。他们担心发送他们的公司软件，如果他们是软件公司，最有可能发送他们最有价值的 IP，只是发送它

到 OpenAI。在一个提示中。是的，在一个提示中。是的，完全正确。而且应该如此。是的。那么，您现在如何解决将大型语言模型集成到产品中的问题？实际上，以您刚才的方式……这是一个术语。我刚刚意识到节点和代码押韵得如此之好。你谈论无代码环境。你创建了一个节点代码环境。是的。

我非常感谢这一点，实际上。这是一个代码节点。是的。然后你如何将大型语言模型集成到你的代码节点中？这些是如何体现的？你如何体验它们？然后公司如何才能放心使用它们？是的，这里有很多话要说。目前在 Observe 中与大型语言模型交互实际上有三个选项。好吧，四个。

首先是 OpenAI。所以最终，OpenAI 的模型是最好的。至少根据我的经验，它们比所有开源模型都要好。我不确定我是否相信所有关于评估大型语言模型性能以及哪些模型给出更好答案的基准测试。

但无论如何，我们有 OpenAI，而且你知道，如果你与 ChatGPT 交互，那么你正在将东西发送到 OpenAI，而且没有办法避免这种情况。因此，许多人不习惯这样做。因此，我们还与 AWS bedrock 集成，这是亚马逊托管的大型语言模型服务。他们围绕此做了一些安全工作，因此这些模型是开源的或由亚马逊托管。

AWS。因此，你知道，如果你信任 AWS，你的所有数据都存储在那里，你知道吗？所以，所以也许你对 IP 问题更放心一些。然后是第三个是 Hugging Face。因此，现有的开源模型，您可以实际在您的项目中实例化它们并使用 GPU。因此，为了使该事物实际物理地托管在您的环境中，以便您将提示发送给自己，并且

我想好处是您可以进行一些微调。您可以真正地使这些模型成为您自己的模型。因此，Zerv 旨在进行自托管。因此，所有数据和所有计算都存储在您的环境中。因此，您有一些选择，好的，我将提示发送到哪里？我需要……风险低吗，我可以使用 OpenAI 吗？我是否对 Bedrock 感到满意？

或者我想在我的基础设施上实际托管这些东西吗？很高兴您提供这种灵活性。因此，这似乎适合每个人。如果他们正在本地运行 Hugging Face 模型，那么设置起来是否更复杂，或者这与使用 OpenAI API 一样简单、一样易于使用吗？是的，如果你能看到它，那么你就可以与它对话。因此，如果它托管在其他地方，它不必托管在 Zorv 中。

尽管，是的，我想这取决于基础设施。这很复杂。我们所做的一切都是无服务器的。因此，您没有像长期运行的服务器一样。因此，以这种方式操作可能更具成本效益。

但是，你知道，这是一个复杂的对话。因此，您可能正在运行 Kubernetes 堆栈，并且您拥有现有的硬件等等。因此，它不会……你知道，所有这些东西。所以，是的，我们与每位客户合作，以确定他们的情况，例如，他们希望他们的数据存储在哪里？他们想使用什么计算？哪个云提供商？所有这些东西都需要弄清楚。完美。听起来不错。好的。然后是我的最后一个问题。

自从你上次参加节目以来，Zerv 中的新功能是，你谈到了拥有一个 AI 助理。那么，这与……是一样的吗？这是帮助您生成代码的大型语言模型，还是其他东西，一种自然语言的对话式东西？是的，它不同。我们开始构建的第一个大型语言模型集成是我们所谓的 Gen AI 块。

因此，在这些块中，您不是键入代码，而是键入提示。这些提示可以是动态的。因此，您可以将代码块连接到 Gen AI 块并将一些变量传递给它，您希望将这些变量包含在提示中以获取该查询。然后您可以获取该查询的输出并使用它

在下游。这些是内部的。AI 助理高于此。因此，您有一个提示，例如一个文本字段，一个交互，一个与大型语言模型的聊天空间，其中 AI 助理实际上是一个代理，它可以对您的画布执行操作。

所以我可能会说，嘿，为我构建一个画布，它……你知道……它获取这个数据帧，你可以引用 Snowflake 集群或 Databricks 设置或任何其他东西中的表，你知道……为我编写一个执行……的分析，你知道……然后它实际上会围绕它创建一个计划，然后……实际上它能够创建块并连接它们等等，所以

所以是的，AI 助理实际上是一个可以为您执行操作的代理。您可以指导它编辑项目的不同部分或创建新的部分。听起来很酷。听起来真的很酷。因此，您可能拥有……因此，如果您有三个用户，三个用户实时协作在一个 Zerf 画布上，您可以拥有三个用户加上他们的三个助手，他们都在生成节点并弄清楚这些流程如何在一些复杂的机器学习流程中工作。

是的，完全正确。很好。好的。所以现在开始感觉我们正在谈论数据科学的一个全新时代。就像 Zerve 处于领先地位一样。

构建这个新的工业化数据科学，而不是更精细的数据科学，在该科学中，个人独自在 Jupyter Notebook 中工作，输入代码的每个字符。是的，本地。完全正确。所以现在这是数据科学的这种工业化，它涉及采用平台，

机器学习运营系统和自动化。Zerve 在其中扮演什么角色？显然，您在 DataRobot 工作的多年经验中积累了大量关于自动化事物的经验。因此，请告诉我们您如何看待这种转变的发生，组织如何

最好利用这种转变并在开发和部署 AI 项目方面取得更大的成功？是的，我们认为自己是某种全栈式数据科学环境。我们不做硬件和数据仓库类型的工作，但我们会连接到所有这些解决方案。但是我们做的其他所有事情，你知道，我们已经尝试过 AI 的操作系统这个术语

就我们如何谈论自己而言，但我们确实做了所有事情，因此您可以连接到数据，您可以探索，您可以创建可视化，您可以发布报告……你知道，我们与许多仪表板集成，我刚刚为我演讲的会议制作了一个 AWS QuickSight 仪表板，您可以训练模型，您可以使用 GPU，您可以

然后，当涉及到部署时，您可以非常轻松地构建您自己的 API，您可以将其托管在 Zerv 中或下载并带到其他地方。您可以使用 SageMaker 部署。您可以安排作业，例如……

这些数据科学项目的整个生命周期都内置在一个应用程序中，您可以使用任何您想要的语言来执行此操作。因此，您可以让您的数据工程师编写 SQL。您可以让您的老派统计人员编写 R 代码。您可以让您的机器学习工程师使用 Python，并且所有这些都与 GitHub 或 Bitbucket 或您使用的任何

源代码控制同步，因此，如果您知道您有一位工程师在后面，并且他们想留在 VS Code 中，那就没问题，你知道，它……它全部整合到 GitHub 上，所以是的，它很棒，它是全栈式的。非常酷……是的，关于我的问题的任何想法……

我不知道您是否对试图利用这种转变的组织有任何指导。所以，你知道，它可能是Zerve，也可能是其他一些以某种方式使数据科学工业化的工具。组织如何才能成功地采用这些工具，利用它们将更多有利可图的AI项目付诸实践？是的，绝对有这种……

企业总是不得不权衡构建与购买，对吧？有数百万家供应商在做数百万件不同的事情。而且，你知道，有些组织会说，好吧，我们会去购买它。另一些组织则会说，好吧，让我们组建一个团队来构建一些东西。所以当你走这条路时，你仍然会有这种权衡，但是大型语言模型让构建变得如此容易，

我认为现在构建与购买的计算与几年前大不相同。构建的成本要比购买这些东西便宜得多。事实上，我认为这对许多构建定制用例类型解决方案的SaaS供应商来说是一种生存危机。

然后向他们收费。是的，谁知道几年后这个领域会是什么样子。我认为这对风险投资领域肯定有影响，对软件即服务领域也有影响。是的，看看会发生什么将会很有趣。是的，很有趣。一切都在快速发展。因此，希望人们能够利用他们最喜欢的“数据科学播客”来掌握所有这些事情。你之前提到过……

Zurb如何与现有数据堆栈集成。这种灵活性，对我来说似乎很明显，但也许你可以举一些具体的例子，也许是你现有的客户，或者你在职业生涯中的一些经验，说明为什么能够与如此广泛的不同类型的数据堆栈集成非常重要。你看到人们使用的主要数据堆栈是什么？是的，在所有这些不同的堆栈中拥有灵活性的优势是什么？数据堆栈是指像Snowflake Databricks这样的仓库类型的东西吗？是的，没错。是的，我的意思是，我认为这是一种狗尾续貂的情况。在选择用于存储和交互数据的应用程序方面有很多考虑因素。

不仅仅是，好吧，我的数据科学在哪里发生？你还需要与你的财务系统以及实际与你的数据交互的所有不同应用程序集成。这不仅仅是数据科学。还有更多的事情发生在那里。因此，数据科学家通常无法决定

你知道，使用什么存储，尤其是在大型组织中，他们已经存储了多年数据的情况下。因此，存在根深蒂固的遗留系统来存储数据。因此，较新的公司倾向于使用Databricks、Snowflake等。而较老的公司可能拥有，你甚至可能会在大型银行看到大型机，或者，你知道，无论是什么。所以，

我们的方法是，人们的数据将存在于它们所在的位置。而且，你知道，你可以通过代码访问它。所以无论在哪里，我们都希望你能够访问它。

本期Super Data Science播客由戴尔AI工厂与英伟达联合赞助，戴尔AI工厂与英伟达提供全面的AI技术组合、经过验证的交钥匙解决方案以及专家服务，帮助您更快地实现AI成果。通过戴尔广泛的AI基础设施和服务以及英伟达行业领先的加速计算，扩展您的企业规模的AI和生成式AI。它

是一个完整的堆栈，包括GPU和网络，以及英伟达AI企业软件、英伟达推理微服务、模型和代理蓝图。访问www.dell.com/superdatascience了解更多信息。网址是dell.com/superdatascience。

不错。好的。那么，让我们谈谈一个利用所有这些数据堆栈的应用程序。你可以在任何类型的数据库中存储大量信息，而今天一个非常流行的技术，我认为在2024年甚至更流行，那就是RAG（检索增强生成）的概念。但这确实是一项强大的技术。我和我工作的公司有很多利用RAG的成功经验。所以

例如，一个具体的例子可以说明我在联合创办的一家公司Nebula中RAG的价值，他们是一个人力资源平台，允许你在几秒钟内搜索美国所有人的职业档案。所以你说的可能是数亿个职业档案，每个职业档案都是一个充满自然语言的文档。

所以我们可以预先计算向量。因此，你可以使用某种深度学习模型，今天通常是大型语言模型。因此，你可以将这数亿个文档中的自然语言编码成向量，只是一系列数字。

因此，这数亿个文档中的每一个都被编码为一个向量。所以你可以想象，你最终会得到一个巨大的表格，比如说有1亿行，代表我数据库中1亿个档案中的每一个。然后你有了

你认为对你的向量空间重要的列数。所以基本上，这是一个经典的计算机科学权衡，你可以将列数加倍，但这将使所需的计算量加倍。所以你会为你的特定应用程序找到一个最佳点。是的，所以你可能有64或128或3000列，这取决于你的需求。

但基本上，你最终会得到1亿行，大约数百或数千列，代表这些1亿个文档在你高维空间中的位置，在你100维或1000维或3000维空间中的位置，这在我刚才的小例子中是最高的数字。所以你预先计算所有这些。

然后用户进入平台。在Nebula，我们的例子是，我想在纽约雇佣一名数据科学家。然后我们可以将其实时转换为毫秒级的向量，并在1亿个档案中找到相关的文档。并且

是的，然后你可以使用今天的巨大上下文窗口，你可以获取所有这些文档，例如返回的前100个文档，将它们全部放入生成式大型语言模型的巨大上下文窗口中。然后生成式LLM可以回答问题或从这100个文档中提取信息，这是一项非常强大的技术。

绝对值得人们探索。可能有些听众会说，我知道John，我知道RAG是什么。但对于那些不知道的人来说，绝对值得探索和理解。所以，

Zerv使RAG能够扩展。它会自动分配计算工作负载，因为RAG有很多方面可能非常技术性，而且很难做好。那么，Zerv并行化这些RAG工作流程的方法与你独自尝试这样做相比如何？如果你试图自己弄清楚我刚才描述的所有内容，那会怎么样？是的……

每个例子都不同。我们与一个做媒体推荐的组织合作过，那里也有一些类似的东西。所以你会想输入，你知道，像为我推荐体育回归电影之类的。他们会回来说，你应该看《洛奇》，你知道，无论是什么。

但事实证明，天真地查询这些大型语言模型通常会给你不太好的结果。所以，我记得一个例子，我们给它喂了《沙丘》，你知道，电影《沙丘》。我喜欢《沙丘》。给我更多类似的电影。它最终给出了前五名回应。其中四个是《沙丘》的其他版本。

所以我当时想，好吧，这不太理想。所以我们最终在RAG方面做了类似的事情，我们去获取，你知道，像顶级播客和《纽约时报》评论。我们引入了各种其他文档来添加到

到上下文窗口中，就像你说的那样，我们将所有内容重新组合成一个推荐，然后效果明显更好。它包括视频游戏、播客、书籍、杂志等等。不仅仅是电影。所以它变得更生动、更丰富的推荐来源。

所以是的，RAG非常方便。能够以Canvas风格的图表将其布局为DAG，可以很容易地看到发生了什么。它使实验如何工作变得非常快。然后在一定程度上——就像你的例子中，你有1亿人在处理所有这些东西，并行化对于许多不同的用例至关重要。

所以我们最近完成的一个用例是尝试根据音频文件评估呼叫中心的性能。

uh，例如与客户的mp3文件录音的音频录音，就像在银行一样，你知道，这是一大堆处理，将所有录音转换成文本，然后你可以将其传递给大型语言模型，你需要能够进行并行化，否则它会花费你，你知道，这是……这是不可行的

所以并行化对于许多这些用例来说至关重要。但这并不一定只是大型语言模型。它可能是其他类型的繁重计算负载。我们对实际并行化的负载类型并不挑剔。

我们只是让它易于操作。好的。是的，这很酷，Greg。所以我这里还有另一个很棒的妙语。除了你的代码注释，你有没有意识到你有RAGDAG？

哦，我不讨厌这个。这肯定会被重复使用。是的，在我看来，关键是，无论是RAG DAG还是其他某种高计算负载DAG，Zerv所做的一个关键的奇妙之处在于它自动分配这些工作负载，这很酷。不错。所以数据科学家，甚至是我自己，都难以处理的另一件棘手的事情是

是部署AI模型。几十年来，对我来说一直很直观的事情是打开

某种IDE、Jupyter Notebook之类的东西，开始输入一些数据，进行一些EDA，并构建模型。但是对我来说并不直观的事情是，这可能只是因为我没有做那么多，有幸在机器学习工程师或软件开发人员、后端工程师工作的公司工作，他们会获取我创建的模型权重，并将它们放入生产系统。所以

在一个较小的团队或对软件工程师需求很大的团队中，这种情况经常发生，最终创建模型的数据科学家可能会比部署的软件工程师多很多公司。这会造成瓶颈。ZURV内置的API构建器和GPU管理器如何消除这些障碍？

是的，这不仅仅是瓶颈。这也是一种有问题的依赖关系，因为归根结底，部署这些东西的软件开发人员可能不是数据科学家。因此，他们并不明显地理解应该做什么。而且，你知道，这种事情有很多微妙之处。因此，你很容易在这里引入错误。

所以，是的。所以如果你考虑部署过程，并且，你知道，有很多障碍需要克服。如果你曾经收到过Jupyter笔记本的Slack或电子邮件并尝试运行它，你就会知道其中的一些障碍。对吧，就像你安装了错误版本的这个包。哦，你必须pip安装一堆其他东西才能使其工作。所以你可能会花一个小时的时间试图让你的……

试图让代码运行，假设你拥有数据，并且所有文件夹和文件路径都相同，所有这些东西。所以，你知道，归根结底，数据科学家今天花费大部分时间做的事情是构建原型。然后这些原型会被交给另一个团队来重新编码

在另一个环境中，你知道，Docker化和部署以及管理服务器等等。但对我来说，数据科学家并不明显地知道如何做到这一点。而且他们显然没有权限在基础设施等方面做这些事情。所以Zerf有点像，

处理所有这些问题。因此，Observe中的每个画布都有一个支持它的Docker容器。因此，登录到该画布的任何人都无需担心依赖项，因为所有这些都保存在该项目中。因此，这些环境是可重用和可共享的，依此类推。所以如果我想使用与另一个项目相同的Docker容器启动一个新项目，这很容易做到。所以，你知道，当你的团队新来了一名数据科学家时，他们不必在第一周就安装Python，并确保一切正常，哦，我们使用的是NumPy 0.19，而你安装的是0.23。而且这些对话都不需要再发生了，因为我们管理着所有这些。

然后假设我训练了一个随机森林。我的意思是，你提到了使用你的权重。就像我训练线性模型或逻辑回归之类的，那么它可能只是一个需要传递的权重向量。但如果它是一个更复杂的模型，比如随机森林或XG Boost或神经网络之类的，那么它就不像只是将一些权重放入公式那么简单。

这是一个更复杂的事情。然后你必须弄清楚，好吧，我将序列化这个模型，将其腌制，然后转储所有依赖项并将其Docker化，然后将该东西传递出去。这也在许多数据科学家的技能范围之外。所以Zerv处理所有这些。因此，Zerv中的每个块在执行时都会创建你所处理的所有变量的序列化版本。

所以如果我在模型或块中训练了一个随机森林，那么它就在那里，并且可以访问。所以我可以从外部访问它，使用像API这样的东西。我可以在其他层中引用它。所以当要制作API时，也许我想制作一个POST路由，在那里我发送预测器列的有效负载。

然后我想要来自该随机森林的预测。那么，我就说，嘿，还记得那个随机森林吗？我只是指向它，而不必弄清楚如何打包它以便将其部署为API。所以我们……

我们处理所有这些事情。然后当你部署和服务时，你也不必担心基础设施问题，因为我们所有的API都使用lambda，就像无服务器技术一样，所以你没有长期运行的服务存在。它就在那里。因此，许多基础设施方面、DevOps方面以及可能让你绊倒的挑剔的工程方面的事情，都是我们已经处理过的事情，以便用户易于使用。

这意味着数据科学家可以开始部署他们自己的东西。但在某些组织中，他们可能仍然不被允许。然后我们有一个移交系统，可以很容易地将数据科学家完成的事情（顺便说一句，他们不再构建原型了）传递给其他团队来实际进行部署。太棒了。

太棒了。这听起来确实对我有用。我相信很多数据科学家都在帮助我将我的模型投入生产，并对它们充满信心。我喜欢你如何将它颠倒过来，让我对自己的技能感觉更好一些，关于我所拥有的技能，而软件工程师在理解我构建的模型方面可能没有。所以我真的很感激。

我认为这是我与Zerve直接相关的问题的结尾。但当我更广泛地过渡时，有人今天如何开始使用Zerve？一位听到Zerve提供的所有这些很棒的功能的听众，这种全新的数据科学工作方式，他们今天如何才能掌握并开始使用它？

好吧，我们有一个免费层，人们可以进入并使用。所以你拥有所有的灵活性和功能。在计算等方面有一些限制。我们最初有一个免费层，但由于比特币矿工，我们不得不关闭它一段时间。他们有点疯狂。所以我们不得不关闭它并构建一些控制措施等等。但免费层又回来了。

因此，任何人都可以登录并尝试一下。该死的比特币矿工。他们不会毁掉什么？所以，是的，现在超越Zerve的具体问题或与Zerve直接相关的任何问题。你在本期节目中早些时候提到过，AI如何杀死，大型语言模型如何杀死许多SaaS，软件即服务企业。因此，像Klarna这样的公司正在沟通

正在结合AI标准化和简化来关闭SaaS提供商。具体来说，他们说，我的意思是，他们在Inc.com上有一段具体的引言，我一定会把它放在节目说明中。同样，微软首席执行官萨蒂亚·纳德拉预测，业务逻辑将从SaaS应用程序转移到AI代理。所以……

听起来你与Klarna和萨蒂亚·纳德拉的想法一样，认为随着LLM赋能他们，内部流程可以简化、标准化，许多不同的SaaS供应商可以被移除，从而降低成本。我还想快速强调一下其他观点。例如，Zoho的首席执行官

认为，相反，AI将推动新的垂直SaaS公司，因为你会遇到新的问题需要解决。所以我们很想听听你对此的看法，也许哪些SaaS企业应该最担心。是的，我认为这回到了构建与购买的整个问题。内部构建东西变得如此容易。所以

你知道，没有人会出去说，好吧，让我们，你知道，像Salesforce这样的CRM系统。没有人会冒险说，好吧，我将从头开始重建Salesforce。尽管作为Salesforce的用户，我带着一些遗憾这么说。所以，你知道，存在一些大型复杂的系统。一个组织不太可能重建这种东西。

但是有很多供应商在做一些事情，如果组织想内部构建，很容易做到。所以我认为较新的东西，更尖端的东西，每个SaaS公司似乎都在将生成式AI添加到他们的产品中。但我认为在简单的附加组件（你添加一个提示，一个可以写提示的地方）之间存在差异。

这就像是一毛钱一打，与深度集成的SaaS产品相比，有时，当代理开始做一些直观的事情，并且只是有效工作时，这些事情有时看起来确实很神奇。所以，所以是的，很难说会发生什么，但我只是看到组织现在更容易构建自己的东西。在我看来，这对许多软件供应商来说将是一个真正的问题。

谢谢。

但是无论你是谁，如果你正在寻找一个团队，该团队将软件开发和机器学习方面的数十年商业经验与在所有尖端方法（包括生成式AI、多代理系统和RAG）方面的国际认可的专业知识相结合，那么你已经找到了我们。我们在整个项目生命周期中拥有丰富的经验，从问题范围界定和概念验证到高容量生产部署。如果你想成为我们的首批客户之一，请访问whycarrot.com并点击“与我们合作”。

告诉我们我们如何提供帮助。再次强调，网址是Ycaret，Y-C-A-R-R-O-T.com。对于那些SaaS供应商来说，棘手的事情似乎是，他们不想支付每月费用，这只是一个固定费用。相反，我们现在已经习惯了调用API并根据我们发送或从该API接收到的令牌数量付费。

作为AI产品的开发人员以及软件企业或一般企业的决策者，我们越来越习惯于这种基于我具体需求的消费型经济模式，而不是基于订阅的模式。我将举一个有趣的例子。我的一个朋友Sean Kosla，一位才华横溢的软件开发人员，

他构建了一个非常简单的用户界面，看起来与ChatGPT完全一样，或者非常接近。你知道，它与ChatGPT具有相同的外观和感觉。但是，他没有为ChatGPT+支付每月20美元的订阅费用，而是使用了该平台。

简单的界面，他在后端调用OpenAI模型。他说，我使用OpenAI API的成本从每月20美元降到了每月2美元。是的，这是一个有趣的事情。我现在就让你说话。我已经说了太久了。是的，我认为我使用过类似的东西，一个名为Typing Mind的产品，我认为是这个名字。它正在做同样的事情。你输入一个OpenAI密钥，然后你可能每天花费20美分或类似的东西。

当然，我使用的是OpenAI每月200美元的计划。我也是。我也是。我喜欢它。太棒了。我的意思是，我可以理解听众。我最近专门为此做了一期节目。所以那一期的节目编号是870号。所以我在那一期节目中提出了论点。听起来你完全同意。是的，我知道它很贵。每月200美元听起来很多。

但是一旦你开始使用它，有很多日常用例，它为我创建的单个报告，我当时想，这对我来说值200美元。我一个月可以做100次。所以这是一个明智的选择。

是的，完全正确。我昨天在上面，我正在查看，我让它审查并缩短一份文档，以便对其进行初步处理。它打开了一个画布模式，这很有趣。我不能，我没有，我无法弄清楚如何实际使用它，但看起来你可以实时编辑文档，同时它也在编辑它，并以某种方式一起工作。我没有时间去探索它，但是是的，他们一直在发布新东西。这很酷。是的，他们是的。

嗯，是的，我认为我打断了你。你当时正在谈论Typing Mind。这只是另一个，只是一个产品，呃，我，我认为是这个名字。我可能是错的，但是，但是是的，我会尝试找到它并将其包含在节目说明中。嗯，但是，呃，这在那里确实很有趣。对我来说也是如此，就像我刚才描述的Sean Gosling一样，嗯，

他说，你为什么不使用这个？我只是给你另一个登录名。他说，你在这里做这件事对我来说没有任何成本。但我当时想，呃，但它能像这样进行深入研究吗？他说，不，不能这样做。是的。

所以，是的，所以我认为这绝对值得。它具有高度的交互性。就像你说的那样，我还没有看到那个画布。但是，你知道，交互的水平，它在我开始进行长时间的研究请求之前问我澄清一些关键点的方式，甚至只是它提出的问题，我都觉得这些问题很深刻，而且正是你作为受过良好教育的分析师应该提出的问题。

或被要求承担这项任务的博士生或博士毕业生。除了我们已经讨论过的广泛主题之外，另一个与我们刚才讨论过的一些工具相关的重大主题，例如LLM，你都将其整合到Zerve中，我们也通过像AchatGPT、ProSubscription和DeepResearch这样的东西在我们的专业和个人生活中使用，

在全球范围内，已经花费了数十亿美元来开发这些LLM，包括基于LLM的服务和项目。但是今天围绕偏差和不准确性仍然存在一些缺点。LLM，你知道，我开始注意到它的频率越来越低，以至于……

我开始信任AI系统，这可能是有风险的。所以当他们经常，你知道，不准确或有偏差时，我当时想，你知道，你，你一直在寻找这些问题。但是，呃，

但是现在我很少看到这些，特别是像Deep Research或O1或O3 mini或Deep Seek R1这样的模型，它可以迭代其响应并进行事实核查。它似乎总是正确的。

这可能是个不同的问题。好吧，我的意思是，这很有趣。大约六个月前，我试图编写一些代码来做一些事情，我想使用OpenAI API的API来提交图像。

并让它编辑图像，这是他们当时无法做到的事情。事实上，我不知道他们现在是否能做到。我不太做图像方面的事情，但我向ChatGPT要了一些代码来做这件事，它凭空发明了一个不存在的API。

它就像，“哦，这是这样做的代码。”我毫不怀疑，当他们引入这个功能时，这段代码会运行。但是，不，它只是编造的。它完全是幻觉，因为它们想要非常有帮助。但我发现这些模型的一个特点是，如果它们第一次就做对了，或者至少接近正确，你可能就没事了。但是，你知道，我给他们提出了一些问题，就像。

好吧，它根本就没做对。然后我就想，好吧，没希望了。就像你走另一条路或者什么。因为如果它们做不对，那么，至少就我的经验而言，它们不容易纠正。是的，这完全说得通。说到你发明了一个类似的API调用，我最近在使用Deep Research时也有过这样的经历，当时我试图使用O1模型。至少在我一两周前做这件事的时候，

事实证明，O1还没有访问互联网。或者说是O3？哦，是O1 Pro。我试图使用的正是O1 Pro。所以我当时想，我想把它作为一个大问题。我想在我的Deep Research中让OpenAI能给我的最庞大的模型在后端运行。

事实证明，至少在我运行它的时候，它还没有访问互联网。所以如果我使用像O3 Mini High这样的东西，我可以访问互联网，但O1 Pro不行。但我当时并不知道这一点。所以我提供了一个链接。我说，访问这个链接并总结信息等等。

幸运的是，我至少有那个痕迹。当你使用Deep Research时，它有点像对它在思考什么的解释。所以在它思考的内容中，它就像，“因为我没有互联网访问权限，所以我只会假设那里有什么样的东西。”我说，“不，那就像。”所以至少我能看到它有那个痕迹，否则仅仅根据输出本身，你就会觉得，“哦，酷。”

这说得通。所以如果我没有去查看网站或查看痕迹，我就会完全被误导。是的，所以很有趣，我们确实仍然存在这些问题。是的，我不知道。你对我们如何才能应对这种棘手的情况有什么见解吗？因此，随着我们越来越多地自动化判断和决策，我们应该如何平衡人类和人工智能评估过程中发生的这些偏差，以创建更公平、更透明的系统？

是的，我做了很多迭代的工作。我感兴趣的一个有趣的项目是，我想弄清楚模型是否对其自身的答案有偏见，例如，它们是否认为自己的答案比其他大型语言模型的答案更好。

所以我构建了一个项目，我要求大约100个SAT作文题，比如给我列出一些作文题。然后我把这些作文题交给大型语言模型，并要求它们回答这些问题。

所以有数百个答案来自，我想我使用了四个不同的大型语言模型。然后我让这四个大型语言模型对这四个答案进行评分，比如对它们进行排名，哪个答案最好。所以这里还有数百个请求。

然后我把它画出来，看看，你知道，GPT喜欢泰坦还是，你知道，无论什么，对吧？喜欢评估它们。这真的很有趣，而且非常不稳定。我可以重新运行该分析，它会，它会，它是，它会发生巨大变化。但似乎并没有偏见，就好像ChatGPT喜欢它自己的答案，诸如此类的事情。但是就比如，

我发现使用LLM来评估来自LLM的答案非常有效。所以他们现在在幕后进行的那种迭代的事情，有点明确地做了这件事。我上周在爱尔兰的AWS大会上听了一个演讲，他们谈到了

蒸馏模型，你有一个教师模型和一个学生模型。你有点像，有点像强化学习那样，它们，它们在那里进行。我不了解它的具体细节。我没有研究过，但这又是另一件有趣的事情。所以让模型相互对抗，一种好警察坏警察的情况，或者你可能有一个廉价模型和一个昂贵模型。

你使用廉价模型来评估你的答案，只有当答案看起来有点可疑时，你才调用昂贵的模型，诸如此类的事情。是的，所以我想，LLM委员会，我想，是可行的办法。回答得很好。当我问这个问题时，我想，这可能是一个非常离谱的问题，格雷格可能没有任何想法。你做到了。这是一个非常好的答案。我认为这绝对正确。一个LLM委员会

根据你的具体用例，可能有巧妙的方法来做到这一点。就像你刚才说的那样，对于大多数用例使用廉价的LLM，然后另一个廉价的LLM来评估它，并引入一个更昂贵的LLM来处理那些更棘手的情况。——是的，我认为需要进行大量的研究来弄清楚最有效的委员会结构是什么。但我认为把它想象成一个委员会实际上是一个非常有趣的比喻来解决这个问题。——问问你最喜欢的三个LLM如何解决这个问题。

所以现在对于数据科学家来说，这是一个激动人心的时刻，因为我们现在拥有所有这些工具，例如Zerv，它允许我们部署模型，比以往任何时候都更容易地并行化模型，比以往任何时候都更容易地协作进行数据科学工作流程。

不用深入你的专有计划，我不是要求你深入讨论。我只是，你知道，一般来说，格雷格，你一定花时间思考这一切的未来走向。比如，你认为五年后、十年后、二十年后，数据科学家或软件开发人员的工作流程是什么样的？

是的，太疯狂了。我现在不看五年后，而是一年后。它发展得太快了。按照目前的情况，任何五年预测都不会可靠。我们试图保持灵活，因为这些模型越来越好。我认为大型语言模型是，它们将成为工程领域、数据科学领域前进的核心。

所以我认为我们现在最重要的优先事项是构建你所能构建的最好的AI辅助编码体验，以便它变得非常简化，并且用户只需键入他们想要的内容，然后就能得到它。

所以，你知道，这就是，这就是我们所走的道路。我们非常关注数据领域。所以，你知道，我们就像，我们没有关注，你知道，JavaScript或，你知道，任何其他，因为有很多编程语言，你可以在那里做同样的事情。但我们非常关注数据领域，因为我认为那是，好吧，我的意思是，那是我们正在与之合作的受众，代码优先的数据用户。是的。

但是是的，我们想要构建你可能所能构建的最好的AI驱动的编码环境。很好。听起来很棒。未来令人兴奋，毫无疑问。而且发展迅速。你不会试图对五年或十年计划进行推测是有道理的。假设我们不是都在领取普遍基本收入，而只是在公园里画画。这是十年预测。和我们的狗一起玩耍。是的。

是的，也许是五年预测。太酷了。我想我们很快就会再次与你联系。能让你上节目总是很有趣。我今天很开心。我真的很喜欢这个。所以也许我们将来会在不久的将来再次与你联系。我们将看看你的预测是如何实现的。与此同时，如果你愿意，我们需要你再推荐一本书。啊，小说还是非小说？非小说。

呃，任何首先想到的。我刚刚读完一本名为《米奇七号》的书。呃，这很有趣，因为我在我的推荐列表上看到了它，它一定是因为它即将被拍成电影，但罗伯特·帕丁森应该在这本书中扮演主角，它还没有上映，但我真的很喜欢它。它是一个关于一个人的故事。他们开发了这项技术来铭刻你的意识并保存它。

所以在一次危险的任务中，他们拥有所谓的消耗品，这些人基本上是不朽的，但他们不是不朽的，因为你每次他们死后都会重新打印他们的身体。

呃，因为它科幻，所以读起来很有趣，轻松愉快，我想。很好。听起来很有趣。好的。然后对于那些喜欢你的幽默和你在数据科学领域深刻见解的听众，他们应该如何在这一集之后关注你？呃，我在领英上。嗯，我最近没有做太多TikTok的事情。自从，呃，呃，我卖掉我的连环剧业务以来。嗯，是的，我在领英上。

你总能在那里看到我。尝试不时发布有趣的项目，有趣的东西。当然还有Zerve。是的，是的，是的。所以我们将，可能还有其他Greg Michelsons，所以我们将通过在领英上的节目说明中提供指向Zerve的Greg Michelson的特定链接来消除歧义。尽管你也可以直接输入。这似乎在领英上消除Greg Michelson Zerve的歧义效果很好，我相信它会奏效。

太棒了，格雷格。非常感谢你参加节目。是的，正如我所说，希望我们很快就能再次与你联系。今天真的很喜欢这个。一直很高兴。谢谢你的邀请。

格雷格·迈克尔森博士真是个好人。在今天的节目中，他介绍了Zerv如何在一个有向无环图DAG中组织代码，其中节点包含代码、代码节点，边显示数据流，从而能够跨Python、SQL和R进行实时协作。他谈到了他们的新舰队功能以及它如何使用无服务器技术并行化代码执行，从而大大减少了LLM调用等任务的处理时间，而无需额外的代码。

他还谈到了Zerv的AI助手现在如何充当代理，根据自然语言指令创建整个项目工作流程。格雷格预测，随着LLM使定制开发越来越容易获得，许多SaaS企业可能会面临生存威胁，因为公司发现构建解决方案比购买解决方案更便宜。在使用LLM时，格雷格建议使用委员会方法

其中多个模型相互评估彼此的输出，以减少偏差并提高准确性。与往常一样，你可以在superdatascience.com/879上获得所有节目说明，包括本集的文字记录、视频录制、节目中提到的任何材料、格雷格社交媒体资料的网址以及我在superdatascience.com/879上的资料。

下个月，如果你想亲自与我见面，而不是仅仅在社交媒体上见面，我很乐意在现实生活中与你在东部开放数据科学大会ODSC East上见面，

该会议将于5月13日至15日在波士顿举行。我将主持主题演讲，以及我的老朋友和同事、非凡的埃德·唐纳。如果你还没有听过他的演讲，你一定要去听。说真的，我们将提供为期四小时的Python动手培训，以演示如何设计、训练和部署用于现实生活应用的尖端多智能体AI系统。

好的。感谢Super Data Science播客团队的所有成员，我们的播客经理Sonia Breivich，我们的媒体编辑Mario Pombo，我们的合作伙伴经理Natalie Zheisky，我们的研究员Serge Massis，我们的撰稿人Zahra Karcheh博士以及我们的创始人Kirill Eremenko。

感谢他们为我们制作了另一集精彩且具有教育意义的节目。为了让超级团队为你制作这个免费播客，我们非常感谢我们的赞助商。听众，你可以通过查看我们赞助商的链接来支持这个节目。点击他们的链接。它们在节目说明中。如果你想自己赞助一集……

你可以访问johnkrone.com/podcast获取一些相关信息。否则，请通过与喜欢收听或观看节目的朋友分享本集来支持我们。在你最喜欢的播客平台或YouTube上评价本集。如果你还不是订阅者，请订阅。将视频编辑成短片。

任何你想要做的。但最重要的是，我希望你能继续收听。我很感激你的收听，我希望我能继续制作你多年来喜爱的节目。直到下次，继续努力吧，我期待着很快与你一起再次享受Super Data Science播客。

879: Serverless, Parallel, and AI-Assisted: The Future of Data Science is Here, with Zerve’s Dr. Greg Michaelson 01:07:14 Share

Super Data Science: ML & AI Podcast with Jon Krohn

Deep Dive

Shownotes Transcript

879: Serverless, Parallel, and AI-Assisted: The Future of Data Science is Here, with Zerve’s Dr. Greg Michaelson