We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 894: In Case You Missed It in May 2025

894: In Case You Missed It in May 2025

2025/6/6
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript
People
J
Jeroen Janssens
J
John Roese
M
Martin Brunthaler
M
Mary Spio
T
Thijs Newdorp
Topics
John Roese: 作为戴尔的全球首席技术官和首席AI官,我认为企业应用AI包含两个关键部分。第一部分是利用专有数据,这是企业差异化的重要来源。第二部分是数字化企业内部的独特技能。RAG-based Chatbot是一种工具,可以解锁和利用我们的专有数据,使我们能够通过生成式界面提问和回答任何问题。而AI Agent则更进一步,它不仅仅是解锁数据,而是数字化技能,实现工作的自主分发。我设想AI Agent可以自主运行,无需人工干预,只需设定目标即可。当然,目前的AI Agent还不能完全替代人类,它们只能在特定领域执行任务,但它们代表了企业AI应用的未来方向。我认为,将专有数据和独特技能相结合,将深刻地改变大多数企业,为企业带来前所未有的发展机遇。

Deep Dive

Shownotes Transcript

这是第 894 集,我们五月份错过的内容。欢迎回到超级数据科学播客。我是你的主持人,乔恩·克罗恩。这是一期“你可能错过了”的节目,重点介绍了过去一个月我们在节目中进行的最佳对话。在我五月份的四个亮点中的第一个亮点中,我采访了戴尔科技集团的全球首席技术官兼首席人工智能官乔恩·罗斯。多么棒的嘉宾啊。

约翰和我曾在第 887 集中就多智能体团队、量子计算和未来的工作进行了详细的讨论。在这个片段中,我请他定义两个术语:“人工智能代理”和“基于 RAG 的聊天机器人”。让我们谈谈在生成式人工智能之后出现的下一个自然步骤,那就是代理系统。因为随着

生成式人工智能变得足够强大,大型语言模型变得足够可靠。我们开始越来越依赖它们自己。约翰,你对代理的定义是什么?是的,我将给你一个更宏观的视角,然后我会定义代理。所以人工智能是

附加到企业中,将人工智能应用于企业实际上有两个不同的部分,我们到目前为止只完成了一个部分,代理是第二个部分,原因在于企业的差异化来源,我们在业界很多人在过去几年里都说过这一点,即使人们不一定会注意,但有两个部分构成了一个企业,真正的核心差异化来源是

第一个是你的专有数据。你知道别人不知道的事情。这实际上非常强大。这就是为什么你不与他人分享你的专有数据的原因。我的客户名单非常有价值。我的源代码非常有价值。这些都是可持续的差异化来源。即使人员发生变化,品牌发生变化,世界发生变化,拥有专有数据都非常非常重要。

第二个差异化来源是贵组织中独特的技能,你们拥有比其他人做得更好的人。在戴尔,我们拥有世界上最好的热和冷却人员,世界上最好的客户端开发人员,世界上最好的存储软件开发人员。其结果是,这转化为更好的产品、有趣的创新和专利。因此,如果这是两个差异化来源,

而我们正在进行的旅程是将人工智能应用于企业。而这两件事才是最重要的。这很有趣,因为在生成式人工智能的最初几年里,我们实际上是追求第一个目标的。聊天机器人、RAG 系统,所有这些都只是允许我们从专有数据中解锁和创造价值的工具。什么是基于 RAG 的聊天机器人?

它是一个利用专有数据进行生成的工具。你可以获取你所有的服务信息,如果我以原始格式提供给你,它将毫无价值。如果我将其嵌入向量数据库,并通过生成式界面呈现给你,你可以对我知道的任何事情提出并回答任何问题。

这令人难以置信地强大,我们现在已经在业界大规模地进行了大约一年的时间,它正在改变一切。我们从中获得了巨大的价值。事实上,我们几乎所有投入生产的项目都是这样。它们是一种生成式能力,可以以前所未有的方式解锁我们的专有数据,从而改变生产力曲线。这很好。代理并非如此。代理追求第二个目标。它们是关于技能的数字化。

它们是关于这样说的:“我不只是对解锁数据感兴趣,我对分配工作感兴趣。”

我实际上想要一个人工智能,它甚至不需要我执行任务,它可以自主运行。它可以在没有人为干预的情况下运行。事实上,我甚至不会告诉它如何完成这项工作。我只是要给它一个目标,然后让它去做。我这样做是为了与我需要的技能保持一致。例如,当我们考虑企业中的代理时,现在有两种观点

当前的思想,一种思想认为代理将取代能够做所有事情的多维人类,即通用人工智能和超级人工智能,我们距离这个目标还有很长的路要走。代理的现实情况是,它们实际上是对更狭窄技能的数字化。我用自动驾驶汽车的例子来说明这一点,我今天还没有一辆可以在任何情况下驾驶并成功导航的自动驾驶汽车,我们所拥有的自动驾驶汽车是在旧金山和其他地方,如果你对其进行地理围栏,如果你缩小范围

我们在火车和机场看到了这一点。它们没有司机,因为它只有一项工作。它在终端之间移动,无需人为干预。这就是代理正在发生的事情。第一代代理正在说:“我可以承担一项任务,一项技能吗?”

我可以将其转移到人工智能中,不是作为一个人使用的工具,而是作为该技能的自主体现,我可以告诉它做某事。我可以给它一个目标,它足够聪明,能够弄清楚如何通过该目标进行推理。它可以访问一组数据,并且可以提供与人类为该特定技能所做的结果相同或更好的结果。是的。

是的,实际上可能有人正在做这些具体的工作,他们可能不再做了,因为代理可以吸收它们。但是你没有一个全面发展的实体,它相当于一个能够做很多不同事情的完整的人。想想你生活中能做多少不同的事情?好吧,今天,代理的表现形式可能可以挑选其中的一些。但他们不能做的是挑选所有这些,并创造一个完全……

相当于你整个全面发展的人,包括你的伦理道德。这是一个非常困难的问题。那是通用人工智能和超级人工智能,一条不同的道路。因此,底线是,你采用这两种技术,第一代生成式人工智能,我们称之为反应式人工智能,人类参与其中,人类要求人工智能做某事,它会立即做出回应。但最终,人类是工作的执行者,而这些是围绕人类的工具。

然后你转向这种第二代代理人工智能,它们是互补的。现在你处于一种人类参与循环的情况。他们是主管。他们所做的只是创建目标和委派工作。现在人工智能能够独立地承担这项任务,弄清楚它,并继续执行它,甚至永久地执行它。它可能永远不会回到人类那里,因为它已经被委派到机器之下。区分这些如此重要的原因是,首先,它们甚至不是同一种技术。

虽然这个宇宙的中心是一个大型语言模型,周围有一些数据,这是一个非常静态的数据集。代理环境拥有大型语言模型,但它们用于等式的一部分。它们充当某种大脑,但它有一个身体。它有一个知识图谱,它在其中创建自己的数据表示,它表示它所学到的知识、记忆和技能的演变。它周围有接口,允许它接触现实世界,这被称为工具使用和功能服务,它实际上可以

去激活一个工具并与世界互动并感知事物。非常不同的技术架构,坦率地说,这是合适的,因为它正在解决一个不同的问题。现在,展望未来的企业,好吧,仍然拥有专有数据,仍然拥有独特的技能,只是现在我有一条途径可以将两者数字化。这将深刻地改变大多数企业。

约翰谈到了人工智能的未来在于人工智能代理和基于 RAG 的聊天机器人等工具之间的互连性,我建议收听整集节目,以了解更多关于约翰的团队如何在戴尔应用此类集成的信息。根据社交媒体的回应,听众绝对喜欢那一集。好的,我的下一个片段来自第 885 集,嘉宾是杰罗恩·詹森斯和蒂斯·纽多普。

在我节目中进行过的最生动的对话之一中,我们讨论了合著者最新的关于 Polars 的 O'Reilly 书籍,以及他们与荷兰主要公用事业公司 Alliander 的合作如何帮助他们编写《Python Polars:权威指南》。在节目的早期,你提到过 Polars 的一个现实世界中的实现,也许,正如你所说,也许是 Polars 有史以来第一个生产实例。我理解正确吗,那就是 Alliander?我可能把它的发音弄错了。

是的,Alliander。它是荷兰的一个电网供应商。此外,我相信他们还为荷兰三分之一到一半地区的电力和天然气提供基础设施。因此,它是荷兰最大的公用事业公司。我甚至说不出来荷兰。我的荷兰语发音有多糟糕。荷兰语。实际上更容易,不是吗?是的。

对我们来说是的。哦,这就是你说的。我很好奇。这些荷兰在哪里?我从未听说过那个国家。是的,所以告诉我们关于那个项目的情况,以及它是什么样的。实际上,了解一下在编写这本书和从事该项目方面是否有重叠之处会很有趣。编写一本关于 Polars 的书是否有助于现实世界的实现?无论如何,这是一个有趣的问题。是的。是的。所以这里的故事起源是

蒂斯和我,我们都对 Polars 非常兴奋。我们正在写一本关于它的书。然后突然之间,很明显在 Alliander,

我们需要加快管道速度,对吧?我们需要降低成本。我们需要处理更多的数据。而在当前状态下,这是不可能的。这不仅是 Python 和 pandas 的组合,还有我们的代码。所以它非常低效,给你一个想法。我们在一台拥有超过 700 吉字节 RAM 的单个 AWS 实例上运行它。

700 吉字节的 RAM。所以,是的,我们可以为你提供一个链接,其中包含更多关于此的背景故事以及一些实际数字。但我们非常兴奋,我们想,“嘿,让我们试试这个。让我们这样做。”起初,团队非常犹豫,对吧?我们有两个人,或者实际上是三个人。我们还有一位同事,三个人。

推广在 Xomnia 开发的 Polars。所以他们非常怀疑,这是可以理解的。所以为了说服他们,我们所做的是只承担一小段代码,一些唾手可得的成果,并对其进行基准测试,并将 Pandas 代码重新实现到 Polars 中,然后只显示数字。

到那时,他们立即相信了,对吧,这确实快得多,使用的内存也少得多。让我们试试这个。让我们通过翻译,逐段地承担这个巨大的代码库,不是一对一的翻译,因为你不能那样做。你真的必须考虑输入和输出,然后以惯用的方式进行操作,对吧?你不能只将 pandas 翻译成 Polars。

而且,你知道,我认为我们花了,什么,六个月,一年?

我甚至不记得了。但最终,我当时离开了那个客户。但有一刻是这样的,“好吧,我们现在可以摆脱 R 和 pandas 作为这个项目的依赖项了。”从那以后,它一直运行得很顺利。是的,绝对的。是的,我认为最终,一开始工作的规模大约是 500 吉字节,仅用于该任务。

进行一次计算,我们将其缩小到,这既是实现 Polars 的结果,也是因为我们在重新调整项目中使用的代码结构时,我们将其从 500 吉字节缩小到 40 吉字节,这使得现在的计算更容易多了,而且

所以你问题的第二部分是,好吧,这如何相互影响,写作和投入生产?这是一种完美的匹配,因为当你需要投入生产时,当你有一个需要解决的实际问题时,这也是你开始注意到限制的时候,对吧?或者可能是前后不一致或缺少功能,对吧?

例如,有一种带有权重的随机抽样。这是你可以在 pandas 中做的事情。你只需给它另一列来指示抽样的权重。这可能是,甚至直到现在,Polars 还没有的东西。幸运的是,这是我们必须进行的临时分析。但那时,它清楚地表明了 Polars 能做什么和不能做什么。

此外,当你写作时,你开始从更高的层次看待事物。所以有时我们会注意到命名上的不一致或缺少方法。例如,“为什么 XOR 运算没有内联运算符?”这是没有人会想到的事情。但是当你需要在你的书中添加一个表格时,

你需要填写所有部分,这时你就会开始注意到这些事情。所以我们能够

此外,你知道,在此过程中向 Polars 本身提交了一些问题,甚至还有一些拉取请求。从非虚构写作转向 Seek,C-E-E-K,一个具有 VR 功能的新教育平台。在第 889 集中,我与 Seek 的创始人、航天工程师玛丽·斯皮奥谈到了 Seek 振兴我们学习方式和使全球都能获得专业教育的潜力。Seek 的另一个真正酷炫之处在于

它可能,我的意思是,像 Seek 这样的平台或 VR 总体上,它如何帮助教育。例如,在美国,从幼儿园到 12 年级(小学和中学)的教师短缺 40 万人。高等教育机构也将面临即将到来的短缺,因为这些劳动力异常年长。因此,大学和大学的教师将要退休。

因此,教育未能吸引和留住教师,并且存在导致学生长期处于劣势的公平问题。

你之前曾描述过,一位教授可以通过 SEEK 教授 10 万名学生。那么,你认为 VR、SEEK 在改善教育成果方面将产生哪些长期影响?是的。我们认为它有多种方式,对吧?因为现在,就像你说的那样,短缺,我在某个地方看到一个统计数据,是这样的,

你知道,欧洲需要这么多。北美需要这么多。总共大约是 460 万。然后它说非洲需要奇迹,因为当你看看世界其他地区时,短缺是如此严重。因此,像 SEEK 这样的平台,我们允许一个人能够教授英语。

你知道,大规模地,所以他们可以虚拟地展示他们的课程。然后人们也可以体验它。我们之所以得到像 evitals 这样的公司关注的原因是,这是一个全新的行业。对。例如,你有了大量的

我们所知的许多当前工作的流离失所。他们还必须为所有这些新的自动驾驶汽车、所有这些由于自动化而出现的新的行业培训人员。例如,你需要 10 万人

在未来几年内需要飞行员,EVA 12 飞行员,这意味着你必须培训一百万人。你不能让一百万人乘坐这些非常昂贵的飞机。这也非常危险。这对人来说是一种危险,对飞机来说也是一种风险。但是

在 Seek 上,你可以让一百万人同时使用 VR 头显进行培训。他们能够,所以这个人能够真正扩展自己,并让所有这些人在世界各地接受培训。这就是我们今天正在构建的内容。这不仅仅是一个示例场景。我们正在与领先的公司合作。

你知道,电动飞机公司,他们正在蓬勃发展。对。他们有大量的积压订单,因为现在,当你看到用于物流和交付等的燃油飞机或直升机时。

每小时的燃油成本约为 4000 美元。每小时的成本约为 300 美元。因此,即使对环境有益,对企业也有益,这就是他们有如此大量积压订单以及他们需要大规模培训人员的原因。而这些是你无法通过物理方式完成的事情,这就是我们的平台现在需求量很大的原因。然后是 VR 的另一个方面,

大脑还没有发展出区分你在 VR 中所做的事情的能力。我们第一次创造了记忆,对吧?所以这几乎就像你真的在驾驶飞机一样。这几乎就像你真的在移动……

设备并做所有这些事情一样。所以你正在构建记忆,这意味着你正在构建经验。所以你现在可以第一天就出现,现在能够在直升机上进行训练,因为你已经获得了在进入真实环境之前所需的数千小时或任何小时数。

同样的道理也适用于小学教育、初等教育。对于 CPR,我们为儿童医院构建了成人、婴儿和儿童 CPR。有趣的是,这是针对新妈妈的,因为实际上在我进行 CPR 计划之前,我甚至不知道婴儿、儿童和成人 CPR 之间有什么区别。很多新妈妈也不知道,你知道。所以……

通过戴上头显,他们能够学习和训练,并且比观看视频更有信心,因为他们实际上正在抱着婴儿,并且他们正在,你知道,做所有不同的动作。而且,你知道,我们合作的临床医生和急救医疗技术人员也感觉更有能力。

浸信会健康中心之所以关注护理住院医师,是因为护士之间存在如此巨大的差距。今天护士的平均年龄是 50 岁。这就是差距有多大,因为很多人只待一两年就离开了。人员流动率如此之高的原因不是因为能力,而是信心。你知道,很多护士天生就非常非常

非常关心人。所以他们中的很多人害怕他们不想伤害别人。所以现在能够学习和犯错误,他们不想在真人身上犯错误。所以现在他们可以犯错误,他们可以练习,他们可以在 VR 中做所有这些事情,并更有信心能够在现实生活中做到这一点。然后还有其他领域,你只需要……

需要在 VR 中而不是在现场进行,例如插管,对吧?他们正在学习如何将导管插入某人的喉咙。很多时候,他们会刺穿喉咙。今天,一些医院用来训练的方法是雇佣低收入人群并支付给他们

然后他们可以测试,你知道,在他们身上进行插管。哦,我的天哪。为了 50 美元刺穿他们的器官。我的意思是,不是我。我不想那样做。是的。不幸的是,呃,你有,你知道,无家可归者,老年人,有些人也在……上进行测试,呃,

而且,你知道,为了训练护士如何进行插管。是的。哦,我的天哪。这太令人震惊了。VR 绝对看起来是一种更人道的方式来学习。是的。你可以做到这一点,而不会有刺穿任何人器官的风险。是的。能够犯错误并从中学习是教育的核心部分。从过去的错误中学习也是经营企业中不可避免的一部分。

我们有在家收听的听众。我们的许多听众要么是实践型数据科学从业者,例如机器学习工程师、人工智能工程师、数据科学家本身,要么是对构建利用生成式人工智能的产品或公司的感兴趣的人。

在 Adverity 实施像数据对话这样的产品时,你学到了哪些经验教训?你需要做什么?在引入大型语言模型并使对话能够有效地与数据协同工作之前,你需要提前安排好所有事情?你刚才谈到了

如果没有这种对话,你通常会看到的问题,人们有一个仪表板,它不是你需要的准确信息,它的输出过于固定,因此人们最终会深入到原始源数据中去尝试真正找到答案,这会给数据分析团队增加压力。所以我了解能够与你的数据分析师进行对话的所有优势

但是,你们 Adverity,如果我们的听众想要进行类似的转变,他们需要做些什么才能使这种对话方面奏效?我认为一个非常关键的部分是底层数据的质量。因此,每个来源,以及数据质量的许多方面,如果你愿意的话,从学术的角度来看,你可以列出这些方面。但从更实际的角度来看,

你需要一个完整的数据集,并且与你拥有的所有各种来源非常吻合。因此,协调在此也发挥着作用。我们实际上在我们的平台中构建了一个数据质量组件,它可以帮助你监控数据中可能出现的所有问题。市场营销中存在特定数据质量监控器。例如,存在名为命名约定的概念,用于活动名称。

我们可以以智能的方式监控和处理这些问题。但也有一些简单的事情,例如,如果你从数据库或 REST API 中引入通用来源,你需要对齐所有数据类型,例如,需要对齐日期格式。例如,你希望所有数据都与 UTC 协调一致。你需要清理一些东西。这也是通常通过拆分、组合各种来源以及所有这些事情进行一些转换的原因。

但我认为正确地获得质量非常关键。你需要收到警报。如果出现问题,你想防止出现某种,不是说脏的,而是有问题的,数据集进入你的生产环境。我认为我们可以在这个学科中提供很大的帮助。你可以通过拥有这些类型的数据质量报告来帮助这个学科

内置到平台中。是的,还有对此的多层方法。因此,我们始终保留一个原始数据集,然后可以将其用作迭代转换的起点,例如。你总是可以回到之前的状态并改进你的转换。今天也有一个 AI 系统可以帮助你编写这些转换。但是如果你,这对于这些类型的通用来源总是非常有用,但是你可以,你知道,

这是一种简化的数据整理练习,如果你愿意的话。然后,一旦你对这一点感到满意,就会有一个组件帮助你监控数据在系统中流动的质量。有异常检测以及你想要监控的所有内容。对,对,对。是的,因此内置的异常检测将是关键。当你考虑时,怎么样

你可以从对话界面中获得大量的功能。当你设计一个对话产品时,你如何……

你如何确定,好吧,这是我们将支持或不支持的事情的范围?然后你如何为决定支持的功能范围选择正确的大型语言模型?是的,让我们从那里开始。我还有更多后续问题,但我感觉这是一个很好的起点。是的,我认为这很有用。

也许还有一点需要补充到上一个问题,在质量方面,就像我已经说过的,数据字典、描述、血统的理解也至关重要。这还涉及到我们对话界面的设计以及人们如何与之互动。我们迭代非常快。所以我们正在经历

我想说的是一个相当快节奏的开发周期,每周添加功能。我们有一个专门的团队负责基准测试和分析响应的质量。所以我们正在使用……

框架来监控这一点。数据科学团队正在对……进行持续测试,你知道,我们有一组预定义的响应,我们期望从我们的问题中得到这些响应,我们可以监控这些响应并在我们前进的过程中改进和测试模型。公平地说,目前的计划是我们致力于一个模型,但也有计划对我们能力的不同方面使用不同的模型。

例如,我们可以使用不同的模型来编译我们的 SQL 查询,使用不同的模型来进行问题的预检资格认证,使用不同的模型来进行实际对话。所以是的,这也是可能的。很好,很好。所以我认为像,你知道……

我问你的问题有点棘手,因为我试图弄清楚人们需要做些什么才能像你一样构建这些类型的对话界面,但显然其中涉及专有内容。是的,我认为在构建方面没有商业秘密,如果你愿意的话,很多……

以及他们提供的 API 类型在它们的功能方面是相似的。你会看到所有模型都达到相同的能力。而且,你知道,基本上排行榜每隔一个月就会改变,你会看到另一个领导者,但每个人都在赶上相同的质量状态,如果你愿意的话。

我认为最终取决于你如何将组件组合在一起,以在它的基础上创建一个引人入胜和令人兴奋的用例。我认为就从技术角度来看它是如何工作的,这非常简单。你可以将用户输入限定为一种类型的提问,选择你想要运行的模型。

基本上用系统提示和关于模型的其他信息来提供它,这对于正确获得答案至关重要。我用它来创建一个 SQL 查询,验证它实际上是一个可以执行的有效查询,然后触发

在本期“如果你错过了”节目中,Jon Krohn 摘录了2025年5月嘉宾访谈的片段。从AI代理集成和基于RAG的聊天机器人到虚拟现实头显教育和数据协调,本期节目探讨了行业领导者如何开发能够改进运营、教育、医疗和营销的工具和技术。重点片段来自戴尔科技集团全球首席技术官兼首席人工智能官John Roese(第887集)、Posit, PBC高级开发者关系工程师Jeroen Janssens和Xomnia首席数据科学家Thijs Nieuwdorp(第885集)、CEEK创始人Mary Spio(第889集)以及Adverity联合创始人兼首席技术官Martin Brunthaler(第891集)。

<raw_text>0 发出查询,使用数据进行一些基本分析,并为用户创建一个体面、不错的答案。对我们来说,用例围绕我们从这种回应中生成的表格展开。因为我们的方法是,首先,在民主化方面,我们的目标是业务的两个方面,一个是IT,另一个是业务用户。