We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

862: In Case You Missed It in January 2025

2025/2/14

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive Transcript

People

Azeem Azhar

Brooke Hopkins

Florian Neukart

Hadelin de Ponteves

Jon Krohn

Kirill Eremenko

Topics

Jon Krohn: 我认为2025年人工智能的发展将继续快速推进，但这种能力是否可持续是一个值得思考的问题。我们需要关注技术变革的速度，并为未来做好准备。 Azeem Azhar: 我认为人类难以理解指数增长，常常以线性思维看待问题。企业和决策者应该理解指数过程，避免线性思维，回归第一性原理思考，以更好地为未来的技术变革做好准备。同时，在规划和建模时，应使用动态百分比而非线性增长，并考虑反馈循环。回顾自己如何适应指数级技术变革，可以帮助我们更好地进行规划和预测。我们需要认识到变化并适应它，鼓励反馈循环是确保模型和算法朝着正确方向发展的好方法。

Deep Dive

Shownotes Transcript

在本期“如果你错过了它”节目中，Jon Krohn 分享了他过去四周最喜欢的片段。他与 Azeem Azhar、Florian Neukart、Kirill Eremenko、Hadelin de Ponteves 和 Brooke Hopkins 讨论了 2025 年人工智能的未来发展，从量子计算和可定制工具到方便的清单以及指数数学如何帮助我们保持对人工智能快速发展的清醒认识。附加材料：www.superdatascience.com/862是否有兴趣赞助 SuperDataScience 播客节目？请发送电子邮件至 [email protected] 获取赞助信息。</context> <raw_text>0 这是第 862 集，我们 1 月份的“如果你错过了它”节目。各位听众，情人节快乐，欢迎回到 Super Data Science 播客。我是你们和蔼可亲的主持人 John Krohn。这是一期“如果你错过了它”的节目，重点介绍了过去一个月我们在节目中进行的对话的最佳部分。

2025 年，新年伊始，1 月份，我在节目中的谈话重点关注未来几年的发展趋势。人工智能的发展继续突飞猛进，但这种强大的力量是否可持续呢？在第 855 集中，我问了著名的未来学家 Azim Azhar，科技的指数级变化将如何从根本上影响我们的未来。因此，继这个指数增长的想法之后，我将谈谈

人类似乎，也许火鸡也一样，似乎不太擅长

想象他们正处于这条指数曲线之上。例如，另一位著名的未来学家雷·库兹韦尔说，我们对未来的直觉是线性的，但正如我们在这期关于 Zim 的节目中已经讨论的那样，IT 的现实是指数级的。同样，在你的书中，

你在第三章中谈到，例如，2020 年左右席卷全球的 COVID 大流行，正经历着指数级增长。

但我亲身经历了这一点，你知道，看着，你知道，我每天可能一百次，每天可能一百次刷新纽约州有多少新增感染病例。即使像我这样有大量统计背景的人，你知道，做了十年的数据科学家，

即使对我来说，也很难理解这种指数变化是如何发生的。所以

是的。鉴于即使是专家也很难预测指数增长或对指数增长有直觉，企业、政策制定者和我们的听众如何才能更好地为未来的技术转变做好准备？我同意。很难在你的脑海中将这种变化的速度标准化和合理化。我不

我认为这很常见。一个非常简单的指数过程是复利。几乎我们所有人开始为养老金或 401k 或任何其他事情储蓄都太晚了。开始的最佳时间是 23 岁时，你只需每月存 10 美元，知道它会产生复利。我认为我们很多人都有罪，我也是。我认为

有些公司已经将这种可能性内化了。我认为，随着科技产业走出湾区，它已经很大程度上做到了这一点。他们一直依赖于对摩尔定律的理解，摩尔定律不断降低价格，而且你不会真的

系统性地耗尽容量或计算能力。你可能会遇到无法快速安装机器、硬盘或存储空间的瓶颈期，但总的来说，你不会这样做。所以我认为，理解这一点的一种方法是理解这些过程，并理解这些过程绝对存在。我认为这对

当你试图理解这个世界时，让人们以线性思维思考是毫无帮助的。我仍然看到这种情况。我相信当你帮助客户或工作中的人时，你也会看到这种情况，你看到他们的商业计划，它显示出一种固定的增量增长，而没有任何东西以这种方式增长。除了我们的生日，从一到二到三到四之外，所有事物都遵循逻辑 S 曲线的阶段，其中包含一个逐渐减弱的指数阶段。

所以我认为很多工具都在手边，但这确实很难。你需要在这些时刻做的是也许回到第一性原理的思考，也许说，看，我们使用的启发式方法就是这样。它们在一个移动速度不那么快的世界中非常有用。但在一个移动速度如此之快的世界中，我们必须回到启发式方法。对不起，请原谅我，第一性原理的思考。有趣的是，约翰，

大多数收听本播客的人都会经历指数级技术，因为他们会经历每两年升级一次 iPhone 或 Android 手机，并获得两倍的计算能力，而花费的美元却相同。如果他们是数据科学家，他们会经历

他们的数据阵列或数据湖从千兆字节到 100 千兆字节到 10 太字节再到拍字节及以上，对吧？他们亲眼目睹了这一切。然而，它仍然变得相当困难。我认为回到第一性原理是一种非常有用的方法。是的，是的，是的。因此，就人们可以做的事情而言，在这种情况下，第一性原理的想法，就是字面上的为自己勾画

这些变化，并思考你如何适应这些变化，并根据这些变化做出预测？是的，我认为这是一个非常好的方法。我的意思是，当我做自己的规划并建立业务可能走向何方或使用情况可能走向何方的模型时，我已经做了 20 多年了，我从未……

输入线性增长，例如它将增加 20，它将增加 20。我一直输入动态百分比，因为百分比是复合的。如果推动这些指数级增长的因素之一是反馈循环。所以某事物加速的原因，让我们想想硅芯片，对吧？为什么在 80 年代、90 年代和 2000 年代

芯片变得更好更快？这是因为存在反馈循环。当英特尔推出新芯片时，它允许微软在 Windows 上提供更好的工具

这给了人们升级电脑的动力，这将资金投入系统，这使得英特尔能够开发出新的芯片，这使得微软能够推出更多功能。这种反馈循环会加速。因此，有时当我做计划时，我也会尝试加入这些类型的反馈循环，因为反馈循环的结果通常是

一条最终具有这种起飞质量的曲线。在很多地方，你最终会得到这些线性预测。如果你坐在那里，并且在想，听着，我需要为明年的 S3 存储提交预算请求。我还需要对接下来一年、再接下来一年以及再接下来一年会发生什么给出一些指示。

如果它呈线性增长，我认为你正在根据证据向我们展示的内容做出极其极端的假设。因此，你必须回顾并开始说，我该如何提出更现实的假设，即使这会让财务总监感到害怕，因为这就是历史向我们展示的。正如 Azeem 所说，认识到变化非常重要，这样我们才能适应它。鼓励反馈循环是确保你的模型和算法朝着正确方向发展的一种好方法。现在，

量子机器学习正在开辟更多解决计算难题和模拟世界的方法。在第 851 集中，我和 Florian Neukart 博士谈论了量子计算如何不断突破极限。现在我们对理论和量子计算的特殊功能有了一些了解。那么，你能举一个实际的例子吗？也许是优化问题？这似乎是你们 TerraQuantum 做的事情。所以某种

某种对于经典计算机来说难以处理的实际问题，但也可以通过一些量子计算来解决。听起来通常是一个混合系统。我们如何才能有一个提供一些价值的现实世界应用程序。是的。有很多。所以我们研究的这三个分支，每个从事量子计算的人都做，是机器学习，正如你所说，优化，然后是模拟。

优化中一个一开始听起来很无聊的问题是调度。但这对于无论你拥有多么强大的经典计算机都是无法解决的。因此，挑战是多方面的。调度出现在生产中。调度出现在生产中。

医院，当你必须为护士和医生制定计划时。调度出现在电动汽车的计算机中，当你想要优化子程序以降低功耗时。

我们与一家汽车公司（大众汽车）合作完成的一项工作是生产调度问题。想象一下，你有一些车辆从生产线出来，然后所有这些车辆都必须经过一些测试。

理想情况下，我可以对每辆车进行所有测试。但现实情况是你没有足够的时间，你没有足够的人，而且并非所有进行车辆测试的人都拥有相同的技能。特别是如果它是排放测试。我的意思是，你真的必须跳过几辆车。

是的，那个。当然，你可以计划其中一些测试，因为你会收到报告，现场错误。车间会报告，好吧，我有几个客户抱怨漏水。所以每当下雨时，车内就会被淋湿。然后你进行防水测试。但是还有 250 多个测试类别，每个测试类别都有子测试。所以

现在的问题是，鉴于今天可用的员工、生产人员和技能，我如何才能最大限度地增加所有这些车辆的测试数量？这是一个非常复杂的调度问题。但正如我之前所说，相同的算法可以应用于车辆中子程序的调度。

在电动汽车中，你想要最小化功耗，那么也许你有两个使用相同数据的子程序。因此，与其加载到内存中，删除它并再次加载它，不如让我按顺序执行这些子程序并按顺序访问数据，然后再删除它。所以这些是可以应用的地方。

一开始听起来并不令人兴奋。你会想知道，这真的是我需要量子计算的地方吗？但你确实需要，因为最终，使用经典的非量子算法，你唯一能做的就是启发式方法并进行近似。所以你永远无法确定。这真的是吗？

我能找到的最佳解决方案。我必须承认，即使使用量子计算机，你也无法确定，但你可以做的是比较经典算法和量子算法。如果量子算法给我一个更好的解决方案，那么这就是我选择的那个。

其他问题在物流方面，我们做了很多物流优化问题，例如，你有一支车队必须通过枢纽网络运输货物，例如食物，食物会腐烂，你必须在下午 1 点到 3 点之间让车辆 1 号到达某个枢纽，否则食物就会有问题，例如

那么，你如何优化我运输车队中的车辆数量，最大限度地减少我有效地通过网络运输所有货物所需的车辆数量？或者换句话说，我如何减少空驶里程？空驶里程是指我的卡车只是从 A 到 B，但没有任何负载。那么我该如何避免这种情况呢？这也是我们与客户一起解决的问题之一。

然后它涵盖了卫星星座的优化（我们已经做过），财务优化。因此，你想要预测市场行为，你想要进行抵押品优化，你想要进行奇异期权定价，你想要进行机器学习，你想要学习得更好，进行更好的图像分类。所有这些事情都受益于混合量子计算。

从今天仍然相对小众但超级酷的量子计算来看，我们现在转向许多本节目听众每天都在面临的挑战，因为每天都会发布许多新的基础模型，例如大型语言模型。在第 853 集中，我和我的 Super Data Science 同事 Kirill Aromenko 和 Adeline de Pontev 坐在一起，浏览他们提供的清单，以帮助企业主为他们的需求选择完美的 AI 模型。

早些时候，我谈到了大型语言模型是如何成为所有现有基础模型的一个子集的。所以听起来对于那种医疗应用来说，除非它还需要视觉才能阅读癌症扫描，好吧，让我们假设最初的应用只是基础模型的自然语言输入和输出。在这种情况下，我们可以说，好吧，我可以使用大型语言模型。你如何选择

所以也许它有点模糊，你处于你可以选择的各种可能的基础模型的空间内。可能有一些这样的事情，你可以说，好吧，如果我想要文本输入和文本输出，我想要一个 LLM。但更具体地说，你如何从所有可用的基础模型中进行选择呢？所以在 LLM 的类别中，有数千种可能的选项。你如何为你的应用程序选择合适的选项？

绝对正确，约翰。有趣的是，我们现在如此被选择所宠坏，尽管两年前半，根本没有这样的东西，对吧？即使两年前，也没有……

或者你才刚刚开始使用基础模型、LLM 等等，现在已经有数千个了，正如你所说，有很多因素，我们将重点介绍 12 个。你不必死记硬背，但看看哪些与你作为听众相关，哪些与你的业务最相关，哪些对你业务来说最重要，你可能需要考虑的第一个因素是成本，因为使用这些模型会产生成本，而且

它们的定价不同。所以你想把它作为一个起点。然后是模态，约翰，你提到了，我们谈论的是什么……

我们谈论的是什么数据？我们谈论的是文本数据、视频数据、图像数据等等。所以你想要什么输出，什么输入？你想要什么输出？诸如此类的事情。因此，不同的模型设计用于不同的用途。你也需要立即检查一下。定制选项。所以我们将在本节后面进一步讨论定制。

你需要，一旦你意识到定制选项，一旦我们讨论了它们，你就会知道你的业务需要哪些。然后你会看看基础模型提供哪些支持。

推理选项。推理基本上是在你部署模型之后，所以有训练，这是前三个步骤，然后有微调，这也算作训练。但是然后是推理。一旦你部署了模型，它是如何使用的？它是立即使用的吗？如果你正在开发一个游戏应用程序，你希望基础模型集成到你的实时游戏中，用户在其中相互玩耍以获得某种用户体验。

你希望它立即产生输出。甚至不能有一秒钟的延迟。这是一个选项。然后可能会有同步推理，你向模型提供一些数据，然后它在五分钟内给你一个答案。也许还有一个批量转换，它稍后在后台完成。所以我们也将在本节中进一步讨论这个问题。基本上，你需要了解与你的用例相关的推理选项。

一般来说，一般来说，这与推理选项有关，但基本上就像用户会得到什么延迟以及模型如何响应

响应，它响应的速度有多快。对于延迟，如果你想与基础模型实时对话，它需要具有非常低的延迟，这样感觉就像是一次自然的对话，例如。是的，完全正确。这是一个很好的例子。架构更高级一些。在某些情况下，你可能需要了解底层架构的知识，因为这会影响你如何定制模型或你可以从中获得什么性能。通常，对于更技术性的用户来说，这是一个更技术性的考虑因素。

性能基准。所以这些模型有很多……分数排行榜、记分牌。Ed Donner 几集前参加了节目，他是……8、4、7。是的，他谈到了……排行榜。我对此笑了。是的。所以有很多排行榜，并且有很多基准可以用来比较这些模型，甚至在你定制它们之前。我们不是在谈论你对……的评估

微调或定制模型。我们正在谈论对蛋糕底层蛋糕的评估。即使它们也有自己的评估。它们在一般语言和一般图像任务等方面的表现如何？所以你可能想考虑这些。所以你可能想要高性能模型

但这会花费你很多钱。在你的用例中，你可能对平均性能感到满意，因为它不是关键的业务关键，或者你不需要那么高的准确性。然后你可能能够获得更便宜的模型，因为你不需要这种超高的准确性。你还需要考虑语言。如果你使用语言模型，它支持哪些语言，例如人类语言？

大小和复杂性，还有多少参数，小型语言模型近年来变得越来越流行。你能使用小型语言模型吗？你需要使用大型语言模型吗？这是另一个考虑因素，它也是一个更技术性的考虑因素。扩展模型的能力，这是一个重要的考虑因素，我可能想象业务用户

不是技术精通的人可能会忽略这一点，这基本上意味着，好吧，你将现在部署一个模型，你可以将其用于你的 10,000 个用户，但如果你的业务增长到 100,000 个用户怎么办？你将如何扩展它？你将通过……

花钱吗？你将像底层服务器的大小一样吗？还是有办法通过微调它并以某种方式更改底层架构来扩展它？这是一个非常技术性的考虑因素，但它可能是业务增长的瓶颈。

最后两个是，最后但并非最不重要的是合规性和许可协议。也很重要。就像在某些司法管辖区一样，对合规性有一定的合规性要求

或如何处理数据，甚至人工智能。围绕人工智能和许可的规定越来越多。当然，这些模型带有许可证。你将如何使用以确保欧洲符合你从提供商那里获得的许可证？最后的考虑是环境考虑。听起来可能很奇怪，但如果你仔细想想，

这些模型，为了预训练它们，需要大量的计算机，训练这些模型会消耗大量的能量。所以你可能想研究一下，好吧，我是否支持一个具有环保意识的组织？他们使用的是正确的芯片吗？稍后在本课程中，我们将对芯片发表一些评论。

他们，你知道，即使是这个模型的推理？这个模型在推理过程中是否高效？我将使用很多电力还是像我一样少？

我可以使用另一个模型。就是这样。这些是 12 个考虑因素，也许并非所有这些都适用于你的业务、你的用例，但这些是企业在选择基础模型时往往会注意的主要因素。谢谢 Kiril。最后，你再次在本课程后面泄露了这一点，因为我认为你最近录制了太多课程。但是是的，事实上，在本集后面，我们将讨论芯片。

是的，所以为了回顾这 12 个基础模型选择标准，你提到了成本、模态、定制、推理选项、延迟、架构、性能基准、语言、大小和复杂性、扩展能力、合规性和许可协议，最后是环境考虑因素。这里有很多东西。

我很想听听你对此的看法。特别是如果有一些方法可以跨越所有这些维度，我的意思是，你从哪里开始？你如何，你如何开始缩小范围？我的意思是，我觉得现在我知道了这 12 个维度，

做出选择的标准，我觉得我比以前更迷茫了。-是的，没错。当我开始构建一个新的生成式 AI 应用程序并必须选择一个基础模型时，我一开始也有同样的感觉。

根据我的经验，这与数据集格式有很大关系，因为不同的基础模型期望不同的数据集格式，尤其是在你微调它们时。例如，我会告诉你我最近的经验。我做了另一个微调实验。

我认为是在亚马逊 Titan 模型之一上。是的，它是亚马逊的基础模型之一，顺便说一句，它刚刚发布了他们全新的基础模型 Nova。所以我迫不及待地想测试它们。但是是的，当时我选择了亚马逊 Titan 基础模型，因为我使用的数据集……

再次增强基础模型的知识，非常适合亚马逊 Titan 模型。

所以我选择了这个。如果数据集格式不同，它也可能是不同的。但是是的，它确实取决于你正在进行的实验。这取决于目标。所以这是一个你需要考虑的额外标准，需要考虑在内。当我创建这个聊天机器人医生时，这次，是的，正如我之前所说，这是一个 LAMA 模型。我再次选择这个是因为格式问题。

所以，是的，根据我的经验，你知道，在实践经验中，这将与你用于实现知识或进行微调甚至机架的数据集有很大关系，我们将在本集后面讨论。是的。这听起来像是我在给你们加油，我确实在给你们加油，但我这样做不仅仅是因为这个。但是这种艰难的决定，试图弄清楚应该使用哪种基础模型是。

有效地做出这种选择可能很大程度上取决于像你们这样的人，你们两个人，他们一直在关注所有最新的基础模型。因此，这是一个与你的新公司 Bravo Tech 合作的绝佳机会，能够，你知道，例如，你在节目开头提供的三个小时，其中很大一部分可能花在了弄清楚应该为这个特定用例使用哪种基础模型上。绝对的。

太棒了。是的，谢谢，约翰。

是自定义指标。因此，在标准指标（仅仅是准确性）没有用处的复杂场景中，可能存在这种情况。我的意思是，这将是一件。你如何在场景中

这不像数学测试。对谈话的评分不像数学测试那样有一个正确的答案。你只需要得到一些整数或一些浮点数，然后你就会说，好吧，这就是正确的答案。算法做得很好。当你有一个代理处理一项复杂的任务时，会涉及到无限多的可变性。

其中，你知道，它可以有无限多种正确的方法。甚至不包括它也可能出错的无限多种方法。

那么，你使用什么类型的指标来评估代理是否正确执行？然后也许在此基础上，你的客户可能需要哪些类型的自定义指标？我认为你完全正确，很难找到这条界限：这是客观上好的对话，这是客观上失败的对话，而它是一个频谱对话。

因此，我们发现有效的方法是分层指标。能够运行一套完整的指标，然后查看这些指标中的趋势。这也允许你进行权衡。也许你在指令遵循方面稍微差一点，但你得到了你最关心的 100% 正确的案例。因为你对所有这些案例的表现如何的分布不像机器学习那样，你只关心

你知道，得到 99% 的例子是正确的。因为如果你得到最常用的案例是错误的，那么即使你得到其他 99% 的案例是正确的，也没有关系，因为当有人试图预约时，他们会失败。因此，我们看到这些模式很重要，与其他传统的软件应用程序、机器学习应用程序甚至机器人技术不同。另一部分是能够展示

通过使用各种指标，你可以创建一个关于系统如何运行的完整画面。例如，简短的对话本身并不坏，但如果目标没有实现并且代理应该采取的步骤没有执行，那么这是一个客观上糟糕的对话。因此，你可以通过这些指标过滤来确定潜在的真正失败或误报是

或误判等等，你可以通过过滤这些指标来找出哪些是值得调查的。所以我认为，虽然我们的目标是为诸如“它是否遵循了工作流程？”之类的所有自动化指标提供服务。“对话是否成功完成？”“所有正确的函数调用是否都带有正确的参数？”

我认为总会有空间，我认为，进行人工审查并真正深入研究这些示例。问题是，你如何才能最有效地利用这段时间？这并不是说你永远不会查看所有这些示例，而是你正在查看最有趣的示例。很好。非常酷。这是一个关于优先考虑什么的很好的例子。你能否给出具体的指标示例？例如，评估性能最常见的指标是什么？

是的，我们有一个指标可以让你确定你是否正在遵循工作流程。对于在 JSON 中描述的给定工作流程，这在许多不同的语音平台中非常常见，

你能否确定你是否正在遵循该工作流程中概述的这些步骤，并在对话中确定你何时没有达到这些步骤？我认为这非常有用，尤其是在面向目标的代理试图完成任务的情况下。通常，如果他们错过了该工作流程中的一个步骤，这将是一个非常好的指标，表明任务没有正确完成。

例如，如果您正在预约，为了使用一个一致的例子，如果您正在预约，它会询问电子邮件和他们想要预约的日期，但他们忘记询问电话号码，那么这项任务从技术上讲已经完成了，但并没有正确完成，因为它错过了工作流程中的这个关键步骤。

另一个有趣的指标是我们所做的，然后我们还在监控中动态创建这些工作流程，以便您可以看到您的座席在生产中实际经历的工作流程，并查看其频率是否与您的预期相符，或者您是否看到了新的用例或新的用户行为模式。我们还有关于函数调用的指标。所以，是的，

您知道，为这些不同的工具调用调用正确的参数，所有这些都是可自定义配置的。

这里有趣的是，我认为我们试图使我们所有的指标都无参考。有两种类型的指标。有基于参考的和无参考的。基于参考的是您有预期输出并且必须使用黄金数据集来管理该预期输出并将其作为您的代理行为变化的指标。无参考的，我们根据对话的上下文推断正确的答案应该是怎样的。

我认为对于大型语言模型来说，无参考评估非常有用，因为它的非确定性性质，而传统的单元测试和软件都是基于参考的，对吧？很容易对 API 调用的外观做出一些断言。

但对于语音和聊天代理来说，更是如此，对话可以以多种不同的方式进行。当您更改提示、更改模型或更改基础设施时，这种情况就会发生变化。因此，拥有无参考指标或至少强大的子集和依赖于这些指标的测试集对于能够快速迭代非常重要。

因此，我们尝试进行函数调用，为函数调用创建无参考评估。例如，如果我们正在下单，我们可以根据用户订单中描述的内容确认是否进行了正确的函数调用吗？这两件事应该根据提示和一组启发式方法相匹配。因此，这为用户提供了更大的灵活性。

这些只是两个例子。我们实际上一直在构建很多针对新用例的指标，并从使用现成模型的地图上提取它们，从自动驾驶中汲取灵感，例如，我们可以衡量代理性能与人类性能相比吗？例如，如果代理执行任务的时间更长

或执行任务的时间更短。这是一个有趣的线索。它本身并不一定是好是坏，但如果代理执行任务的时间长得多，最终却没有执行或重复很多次，则表明您的代理正在兜圈子。好了，这就是今天的“如果您错过了”剧集的全部内容。请务必不要错过我们即将推出的任何精彩剧集。

如果您还没有订阅此播客，请订阅。但最重要的是，请继续收听。直到下次，继续在那里摇滚。我期待着很快与您一起再次享受超级数据科学播客。

862: In Case You Missed It in January 2025 31:51 Share

Super Data Science: ML & AI Podcast with Jon Krohn

Deep Dive

Shownotes Transcript

862: In Case You Missed It in January 2025