We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

867: LLMs and Agents Are Overhyped, with Dr. Andriy Burkov

2025/3/4

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript

People

Andriy Burkov

Topics

Andriy Burkov: 大型语言模型(LLM)在处理与训练数据相似的问题(in-distribution)方面表现出色，但在实际应用中，我们难以判断业务问题是否属于此类。因此，LLM在生产环境中可能出现无法预测的错误，导致用户不满和声誉受损。在将基于LLM的系统投入生产环境之前，必须谨慎评估其风险，因为这可能导致声誉受损和客户流失。多智能体系统，特别是基于LLM的系统，难以调试，因为各个智能体独立运行，难以同步调试。LLM作为黑盒，无法进行内部调试，因此基于LLM的多个智能体协同工作时，调试难度极高。要创建可靠的、可用于生产环境的多智能体系统，需要类似于人类水平的通用人工智能(AGI)，但目前尚未实现。实现AGI的关键在于理解人类能够进行无限期规划的机制，这与其他动物不同。要实现通用人工智能(AGI)，需要理解人类无限期规划能力背后的机制。实现通用人工智能(AGI)可能需要更复杂的模型架构，例如模拟人脑不同模块的功能，而不是简单地扩展单一架构。要避免聊天机器人产生幻觉，关键在于不使用大型语言模型生成输出，而是使用其他方法，例如检索增强生成(RAG)或预定义模板。DeepSeq通过降低训练成本、公开其方法、降低推理成本以及消除对人工专家在训练数据创建中的需求，彻底改变了大型语言模型领域。大型语言模型的“开放权重”并不等同于开源，因为要完全复现模型，不仅需要权重，还需要训练数据。大型语言模型在机器学习项目生命周期中起着双重作用：它们可以用于快速原型设计，但对于生产环境中的关键组件，仍然需要传统的机器学习开发流程。 Jon Krohn: (主要为引导问题和总结，此处不展开)

Deep Dive

Shownotes Transcript

关于代理人工智能、AGI和不会产生幻觉的聊天机器人的现实：安德里·布尔科夫与乔恩·克罗恩讨论2025年的人工智能。布尔科夫博士以其简洁的机器学习建模书籍而闻名，他也是一位人工智能影响者，他还谈到了该系列的最新出版物《一百页的语言学习模型书籍》。其他资料：www.superdatascience.com/867本期节目由戴尔人工智能工厂与英伟达联合赞助。有兴趣赞助SuperDataScience播客节目？请发送电子邮件至[email protected]获取赞助信息。</context> <raw_text>0 这是第867集，与Talent Neuron的机器学习主管安德里·贝尔科夫博士的对话。本期节目由戴尔人工智能工厂与英伟达联合赞助。

欢迎收听Super Data Science播客，这是数据科学行业收听率最高的播客。每周，我们都会为您带来有趣且鼓舞人心的人物和理念，探索机器学习、人工智能和相关技术的尖端领域，这些技术正在使我们的世界变得更好。我是您的主持人约翰·克罗恩。感谢您今天加入我。现在，让我们化繁为简。

欢迎回到Super Data Science播客。今天的节目不容错过，我们将与超级著名的机器学习作者安德里·贝尔科夫博士进行对话，他很少接受采访。安德里撰写了不可或缺的《100页机器学习书籍》，这本书似乎摆放在每个数据科学家和机器学习工程师的书架上。他在领英上有近90万人订阅了他的关于人工智能的新闻通讯。这太疯狂了。

他是Talent Neuron的机器学习主管，Talent Neuron是一家全球劳动力市场分析提供商。他经营着自己的图书出版公司True Positive。他之前曾在Gartner、富士通等公司担任数据科学和机器学习职位。他拥有魁北克拉瓦尔大学计算机科学博士学位，专业方向为人工智能，15年前他的博士论文重点研究多智能体决策。

安德烈的最新著作《100页语言模型书籍》几周前出版，已经在网上获得了好评如潮。我将亲自寄送五本《100页语言模型书籍》实体书给那些评论或转发我今天在我的个人领英账户上发布的关于安德里节目的帖子的人。只需在您的评论或转发中提到您想要这本书即可。我将在下周举行抽奖，选出五位获奖者，所以您必须在3月9日星期日之前参与这个图书竞赛。

尽管布尔科夫博士是一位技术型人才，但今天的节目大部分内容应该会吸引任何对人工智能感兴趣的人，尽管其中一些部分会特别吸引实践型机器学习从业者。

在今天的节目中，安德里详细解释了他为什么认为人工智能智能体注定会失败，他如何通过故意避免大型语言模型来创建一个永不产生幻觉的聊天机器人，他为什么认为DeepSeek击败了OpenAI Anthropic等湾区人工智能领导者，以及是什么使人类智能与所有其他动物的智能不同，以及人工智能研究人员需要破解这一点才能在机器中获得人类水平的智能。好了，准备好收听这精彩的节目了吗？让我们开始吧。

- 安德里，欢迎来到Super Data Science播客。多年来我一直想邀请你参加，所以今天终于能请你来到节目中，我非常高兴。安德里，你今天从哪里打电话来的？- 嗨，约翰，感谢你的邀请。我从加拿大魁北克市给你打电话。

非常好。魁北克市曾经是……我是在多伦多长大的。当我们在高中时，当我们开始……当人们开始年满18岁时，魁北克的法定饮酒年龄是18岁。但在安大略省，是19岁。所以我们会组织……我们会……在安大略省，我们有三月假期，这是……

这是三月中旬的一周假期，每个人都会组织大约十几辆校车从安大略省开车到魁北克市，这样我们就可以利用那里18岁的饮酒年龄了。他们接受你的安大略……

安大略省身份证作为证明。是的，当然，当然。是的，我的女儿们就像……我有两个女儿，18岁和17岁，所以大女儿，她在计算她可以进入酒类商店并随意点酒的日子。而且她……

朋友们，我知道他们非常自豪，因为他们可以在18岁开始饮酒，但在美国，我认为是20岁，21岁。21岁，没错，就是这样。是的。所以你会看到来自佛蒙特州的人开车到魁北克，因为他们之间有三年差距。这是一件更重要的事情。大学生利用这一点。

是的，但我认为我从那以后就没回去过。那是很久以前的事了，现在已经20年前了，我那时还在利用这一点。但我没有回去，这太糟糕了，因为魁北克市很漂亮。我认为它是北美唯一拥有那种欧洲氛围的城市，因为它仍然保留着最初的城墙，那时你需要城墙来保护自己免受美国人的侵害。是的。

来自美国人或任何想要征服你首先征服的领土的人。对，没错。没错。或者夺回本来就属于他们的土地，也许吧。是的。

但也许这堵墙又要派上用场了，因为最近美国传出的言论。是的，很好。在蒙特利尔，老蒙特利尔有一小部分地方也感觉很古老。但是，围绕市中心的这堵墙，使它与众不同。

就像有很多餐馆，人们走在街上，汽车很少见，所以它很好，尤其是在冬天，他们总是……你知道，他们会安装一些装置，比如用不同颜色照亮的冰雕，所以它真的……就像明信片一样，你可以拍下照片，然后把它们发送到任何你想发送的地方，就像明信片一样

对于我们所有寻找冬季完美Instagram打卡地点的听众来说，非常适合Instagram。虽然我可能会建议在温暖的夏季参观。是的。

很好。所以你有两种选择。所以，是的，听众们，这条消息没有得到魁北克旅游局的赞助或支持，但我们强烈建议您去魁北克市看看，那里是北美一个独特的城市。好了，安德里，让我们谈谈可能更直接关系到我们听众的话题。

你在自动化数据分析、机器学习、自然语言处理方面拥有超过15年的实践经验。你目前是Talent Neuron的机器学习主管。这是一个用于全球劳动力市场情报的数据平台。因此，它可以帮助企业做出劳动力决策。然而，

你最出名的是你畅销的三部曲简洁机器学习建模书籍。所以有《100页机器学习书籍》，我经常在世界各地看到它摆放在人们的书架上，那些是数据科学家或机器学习工程师。我看到你的第一本书《100页机器学习书籍》摆放在他们的书架上。现在，你的最新作品《100页语言模型书籍》已经出版。它才一个月大，而且

在这本新书《100页语言模型书籍》的前言中，你描述了你对文本的兴趣是如何发展起来的，以及从文本中提取意义的复杂性是如何激发你决心破解它的。那么，你能带我们了解一下你今天对语言建模的兴趣吗？

以及我们离破解它还有多远。是的，好吧，我应该更正一件事。所以它不是三部曲或三部曲，对不起。是的，三部曲。所以它就像一部带有衍生作品的双部曲，因为我从《100页机器学习书籍》开始，我没有想过要写其他的东西，因为我

我认为如果我写一本100页的机器学习书籍，然后我继续写关于机器学习的东西，这将是一种技巧，这将是，好吧，是的，所以你，它实际上并不只有100页。所以实际上它就像……呃……比这多得多。所以，嗯……

但是后来新冠疫情发生了，我只是寻找一些项目来做，因为我们都待在家里，无事可做。所以我决定写一本关于机器学习工程的书。所以它不是关于机器学习的，而是更多地关于如何将它应用于解决实际业务问题。

大型语言模型出现了。大型语言模型，对我来说，就像……对我来说，这是一个完全……

不同的故事。就像，是的，它仍然是机器学习，但它本身非常重要。在过去两年中，自ChatGPT发布以来，无论是科学还是工程方面，都发生了如此多的新发展，以至于我

就像写一本只关于语言模型的书不会是一种技巧，而且我还想避免写另一本关于大型语言模型的书，因为如果你今天去亚马逊，你会看到可能有几十本，甚至可能数百本关于大型语言模型的书，所以我想要展示该领域的进展，就像语言模型是如何发展的，因为可能99%的人

两年前才因为ChatGPT而听说过语言模型。但围绕语言模型的科学自上世纪60年代就存在了。所以人们总是尝试，我的意思是科学家们总是试图创造一些算法，让机器像人类一样交流。

过去最成功的方法是我们所说的基于计数的语言模型。这些基本上只是统计数据。所以你取一个大型文本集合，然后取我们所说的n-gram，比如单词序列，然后你计算单词“马”在n-gram“她骑着”之前的次数。

所以，你说，好吧，“她骑着”在这个集合中后面跟着“马”一百次。“她骑着”后面跟着“车”，我不知道，70次。所以如果你想让机器生成文本，它只会找到计数最高的单词，然后它会生成“她骑着一匹马”。

这种方法相当成功，但它的问题是它扩展性很差，因为你需要计算所有可能的n-gram的所有可能的统计数据。如果你想让你的模型准确，你的n-gram应该很长。例如，你应该能够像今天一样，你输入一千个单词，你想让模型生成下一个单词。所以如果你想计算一千个单词的所有可能的n-gram，它的体积增长非常快。所以这些基于计数的模型，顺便说一句，它们仍然被用在我们的智能手机中。例如，当你给你朋友打字时，假设你经常打字，好吧，我们今晚做什么？

所以它会记住“我们今晚做什么”，并且它会记住“晚上”经常跟随这些词，并且它会建议你作为第一个选项。所以对于这一点，神经网络没有被使用。这将是矫枉过正，而且这将非常慢，因为你必须每次都重新训练神经网络。但是基于计数的模型在非常短的上下文中，它们工作得很好。

所以我的书就像……它是从哪里开始到我们今天所处位置的历史。而我对这个主题的个人迷恋始于我开始工作……

1998年开始使用互联网。那时我18岁。所以互联网就像……真的……一种新事物。实际上很少有人使用它。甚至在我的城市塞瓦斯托波尔，找到一个……

呃，电话线，没有噪音，你知道，呃，以前你必须拨号，呃，调制解调器，呃，你必须拨号。所以如果有噪音，连接就会中断。所以只是为了我，呃……

运营固定电话的公司，他们，好吧，不仅仅是为了我，而是，你知道，对于一些需要这种稳定连接的人群，他们创建了一条特殊的固定电话线路，以便我们可以连接。所以，是的，当我连接到互联网时，我的痴迷就像，有如此多的信息，但你真的必须，你知道，手动提取它。所以你去一个网站，阅读它或复制一些东西，保存它。

所以我认为如果我们可以自动化这个过程，这将创造一种互联的自动化信息交换。

所以，是的，我开始创建一些刮取器，就像一个机器人，它可以访问某个网站，检测到发生了某些新事件，出现了一些新信息，提取它并向我发送电子邮件。就像，好吧，这个信息，例如，我对游戏感兴趣，有一个网站发布了一些关于如何解决问题的文章。

这个游戏或这个特定游戏系列的历史。我很想知道它是如何工作的，但他们没有任何，你知道，警报，比如，“好吧，你订阅，我们会给你发送电子邮件。”所以我必须真正刮取他们网站的补充内容，这就是我开始的方式。

本期Super Data Science播客由戴尔人工智能工厂与英伟达联合赞助，这两家值得信赖的技术领导者携手提供全面的安全人工智能解决方案，可定制适用于任何企业。戴尔人工智能工厂与英伟达拥有从台式机到数据中心再到云端的针对人工智能工作负载量身定制的产品、解决方案和服务组合，为人工智能无缝地为您工作铺平了道路。

集成的戴尔和英伟达功能可以加速您的人工智能驱动型用例，集成您的数据和工作流程，并使您能够设计自己的人工智能旅程，以实现可重复、可扩展的结果。访问www.dell.com/superdatascience了解更多信息。网址是dell.com/superdatascience。

哦，这有很多历史。今天，你已经将其扩展到了惊人的程度。你不再需要担心固定电话线路上的噪音了。在Talent Neuron，你每天收集超过7亿个职位发布数据点。然后你使用语言建模方法来提供见解，你之前说过，每天9500万个预测……

基于7亿个职位发布数据点。显然，每个职位发布都包含大量信息。那么，你能告诉我们更多关于这项工作的信息吗？显然，你可能无法深入了解专有细节，但可以将……

你一直在做的事情的历史，你在书中介绍的内容与你今天正在做的事情联系起来？- 是的，这就是为什么实际上我……顺便说一句，我在Talent Neuron工作，但我并没有加入Talent Neuron。我加入了一家名为Wanted Analytics的公司，这是一家由当地人Jan De Lille创建的魁北克市当地公司，他是魁北克市的一名企业家。

当我加入时，我们大约有40人，可能大约30人。两年后，该公司被一家名为CB的美国跨国咨询公司收购。

我们在CB旗下工作了大约一两年。然后CB被Gartner收购。所以我们在Gartner旗下工作了另外两三年。现在Gartner……两年前，Gartner将……

我们的业务作为独立实体出售，这就是我最终在TalentNode工作的原因。基本上，我没有换椅子就换了四家公司。这很有趣。是的，我们拥有的产品基于……目标是为……

负责招聘或企业员工规划的人员提供可操作的见解。我们是这样做的：我们有机器人会访问不同的……

公司网站、招聘网站、一些聚合器、申请人跟踪系统，这些来源包含职位。我们称它们为职位，就像职位发布一样，当你找工作时，你会打开一些东西，上面写着职位名称是这样的，这是描述、条件等等。所以我们每天下载这些职位发布……

我认为今天大约有35000个，40000个这样的机器人。这些机器人并不智能。它们是固定的。基本上，它们知道特定网站是如何工作的。所以它们知道点击什么才能进入哪个页面。它们检测到某些内容发生了变化，然后根据一些预定义的规则下载。在我的大部分工作中，

所以我在公司里的历史，我的团队负责职位下载后的处理。当职位已经存在于你的数据库中，并且你必须对其进行规范化或从中提取某些内容时。所以我们参与了各种各样的项目。例如，一个典型的职位发布包含技能。

所以我们创建了一个系统，可以检测职位发布中的不同技能，提取它们，规范化它们，因为有时它写的是，例如，我不知道，JavaScript脚本。有时是JS，有时是JavaScript一个词。所以我们需要检测它们都是相同的技能。

有时很有趣，当他们说你必须擅长Word时。在这种情况下，Excel实际上不是一项技能，但Word是。所以这里有很多有趣的自然语言处理挑战。

所以，自从第一个语言模型发布以来，你可能知道BERT、Roberta，就像谷歌发布的第一个转换器一样……好吧，谷歌发布了BERT，然后Facebook发布了Roberta。所以，这些是……我们所说的编码器语言模型，所以它们不能……

说话。好吧，它们不能用于生成文本，但它们非常了解文本。所以我们在大约2018年、2019年采用了第一个转换器，例如，预测行业。所以就像……

这份工作谈论的是公司，从公司的描述中，模型可以预测它属于哪个行业，或者这些模型也作为分类器很好，如果我们想区分一个上下文中的“excel”与不同上下文中的“excel”，我们可以训练这样的转换器来实际读取不仅仅是单词“excel”本身，而是它在文本中的周围环境……

并做出预测。然后它就变成了多语言的。就像以前一样，从历史上看，机器学习是单语言的。所以如果，比如说，你想要你的……

例如，我们有一个薪资提取器。所以我们支持大约25种不同的语言。所以过去，对于每种语言，我们都为这种特定语言创建了一个薪资提取器。所以我们真的需要用中文、日语、俄语等等来标记示例。但现在今天，这一切都简化了很多。同样，这只是最近的趋势，大多数正在发布的模型……

它们现在都是多语言的。对我来说，就像五年前，我可能不会感到惊讶，但十年前，如果你告诉我，你知道，同一个模型可以接受任何语言，并输出任何你想要的语言，你会说，不，这太疯狂了。它不可能这样工作。但今天，这就是我们所拥有的。现在，例如，对于我们添加的每个新国家/地区的薪资提取，

我们不再手动标记这些新语言的数据了。我们可能根本不标记。我们只是重复使用其他语言的已标记数据来训练这种新语言的模型，因为薪资就是薪资。所以无论你用什么语言来描述它，它仍然是薪资。而且现在的模型非常强大，可以跨语言进行泛化。

所以这是下载后的处理，但现在我们也做了很多我们所说的下载前的处理。例如，我提到的那些访问某个网站并查找要下载的职位的机器人。所以现在我们正在开发一个系统，可以从头开始自动构建这些机器人。基本上，你只需要说，这是公司网站的主URL。

去查找职业部分，确定他们的列表在哪里，比如所有职位链接在哪里。

查找创建规则以从该列表中提取不同的元素，例如标题、位置、发布日期，然后单击这些链接，可视化描述并提取描述本身，如果它包含任何其他属性，例如行业或福利等等，也为提取这些内容创建规则，所以现在我们不会……

不必手动创建这些脚本或机器人，因为从历史上看，这对于我们的软件工程师来说非常困难，因为所有网站都不同，它们使用不同的技术由不同的人编程。有些程序编写的很好，有些程序编写的不好，有些非常难看。所以我们的开发人员真的很难创建这些脚本，而且……

特别是，网站上的一些小改动，机器人就无法再收集信息了。所以你必须打开脚本，查看内部发生了什么，为什么它不再工作等等。现在，有了这个自动脚本创建功能，我们可以至少……至少自动化一半的网站，就像完全自动化一样，对于另一半，

它仍然是手动工作，但我们将这些网站视为具有挑战性的。挑战通常对人类来说比例行公事更有趣。是的，你在这里很好地举例说明了大型语言模型革命为我们解锁的各种能力。现在有很多事情可以用自动化方式完成。就像你刚才说的那样，一半的……

一半的时间你可以自动识别网站上的格式应该是什么样的，并下载它，而不是必须手动编码它。我相信这个百分比在未来几年会越来越高。好吧，是的，但兴奋的结果，我认为可能……好吧，你肯定关注了这个媒体趋势……

围绕人工智能的狂热和炒作，自动化智能体将为我们解决问题。正如我提到的，我们现在在尝试使用大型语言模型开箱即用方面拥有丰富的经验。

帮助我们组织或提取信息。在现实中，它并不像演示中那样美好。问题是，大型语言模型在我们将称为“分布内”的问题上非常擅长。“分布内”意味着你要求它解决的问题与……

与训练大型语言模型时看到的数据相似。

特别是对于企业来说，这个问题可能对于个人来说问题较小，但对于企业来说，问题是我们不知道什么是分布内，什么不是分布内。因为要知道这一点，你实际上必须访问用于训练模型的整个数据集。而这个数据集是隐藏的。除了少数例外，

所有大型语言模型，包括我们所说的开放权重的大型语言模型，它们并不是真正开放的。是的，你可以使用它们。你甚至通常不必为它们付费。是的。但你无法真正判断你的特定业务问题是否在分布内。所以你可以测试。

假设你开发了一个基于大型语言模型的系统，你提供了一些测试，一些输入，它很酷。你给它一个问题，它解决了，你看到了解决方案，它是有意义的。

但是当你将其投入生产，并且开始出现真实情况时，不是那些来自你脑海中你认为是良好测试的情况，而是真实数据。而这些真实数据可能与你认为……

你认为生产中的数据看起来像什么不一致。在这种情况下，大型语言模型可能会变得任意错误或做出错误的决定，输出错误的信息。因为我们没有任何检测机制，

当然，我们没有任何预防机制。所以当你将基于大型语言模型的系统投入生产时，噩梦就开始了。因为当你编码、在受控环境中进行测试并且你很高兴时，一切都很顺利。但是当你将其投入生产时。生产意味着什么？生产意味着在用户面前。

这就是你开始遇到麻烦的地方，用户会生气，你会说，好吧，我们会解决它。但你不知道如何解决它，因为你是盲目的。

你知道它不起作用，但你不知道该怎么做才能让它工作，因为它与分布有多接近。也许它足够接近，你只需要添加几个示例来微调它就可以了。或者也许这个用例与分布相差甚远，无论你给出多少示例，总会有……

仍然不起作用的情况。所以这就是我真正建议任何拥有决策权并收听本播客的人在实际决定将基于大型语言模型的东西放在用户面前之前要三思而后行，甚至要反复思考，因为……

它听起来可能很酷，就像，哦，看，我们使用了大型语言模型。但随后他们失去了声誉和愤怒的客户。这不是你会觉得很酷的事情。

人工智能正在改变我们做生意的方式。然而，我们需要的人工智能解决方案不仅要有雄心壮志，而且还要实用和适应性强。这就是Domo的人工智能和数据产品平台的用武之地。有了Domo，你和你的团队可以将人工智能和数据转化为创新的用途，从而产生可衡量的影响。

虽然许多公司专注于狭窄的应用或单模型解决方案，但Domo的一体化平台更加强大，具有值得信赖的人工智能结果，安全的连接、准备和自动化工作流程的人工智能智能体，帮助你和你的团队轻松地获得见解、接收警报并采取行动，通过根据你的角色量身定制的引导式应用程序。该平台提供灵活的选择，可以选择使用哪些人工智能模型。

Domo超越了生产力。它改变了你的流程，帮助你做出更明智、更快速的决策，并推动真正的增长。世界上最好的公司都依赖Domo来做出更明智的决策。了解如何利用Domo释放数据的全部潜力。要了解更多信息，请访问ai.domo.com。网址是ai.domo.com。

是的，深入探讨你刚才提到的关于智能体的一些局限性，你在我们录制本节目之前给我发了一封电子邮件。我实际上……我措手不及。你说了一些类似的话，

智能体不会起飞。在这个每个人都在谈论智能体的时代，举几个例子，英伟达首席执行官黄仁勋最近在消费电子展上表示，这是人工智能智能体之年，2025年是人工智能智能体之年。Salesforce首席执行官马克·贝尼奥夫同样看好，他预测人工智能智能体很快就会接管劳动力。

吴恩达、安德烈·卡帕西，他们都说代理人工智能将彻底改变劳动力，并为AGI铺平道路。但是，当我和你通过电子邮件讨论节目中可以涵盖的潜在主题时，你对我说，人工智能智能体不会起飞。所以我对此感到非常惊讶。我的意思是，我知道你可能的意思是它们不会工作。

是的。

然后你继续说，虽然多个智能体一起工作，多智能体系统是无法调试的。所以，我不知道，你想不想更深入地探讨一下这个问题？好吧，我有几点评论。首先，卡帕西，我非常尊重他，而且

他在选择措辞方面非常谨慎。所以他从不说类似的话，好吧，智能体将取代人类。他发布他的想法，就像它可能是怎样的，但他从不预测它会真正发生。但你提到的那些人，例如，英伟达首席执行官，好吧，我们应该明白，这些人说话时，他们说的不是……

他们全心全意地这样做。他们作为一家大型公司的代表发言，应该对股东负责。如果说某些话能提高他们的股价，而且在法律允许范围内，

他们就会这样做。所以他知道，如果你说今年代理商将会大行其道，这对投资者来说意味着你需要购买更多GPU，因为如果每个人都在运行代理商而你没有GPU来运行它们，那么你就会输。所以说这样的话对他的特定业务非常有利。

Salesforce也是一样。他们刚开始的时候就说，好的，传统的软件已经死了。

现在是软件即服务，他们甚至还有一个标志，上面写着软件，就像交叉一样，好吧，让我们继续，但是传统的软件并没有消失。是的，有很多sass，但是也有很多传统的软件，现在他们卖，他们说，好吧。sass已经死了，现在是代理商了，会发生吗？

我真的很怀疑。是的，在某些用例中，代理商可能会很好。同样，如果我们从分布式和非分布式角度来看待这个问题，那么一些用例。所以你能想到的代理商最好的用例是收集信息的代理商。

比如，像在网上搜索，找到一些有趣的文档，一些与你的业务相关的文档，用于决策，并将其提取出来，汇总成一些报告，然后发送给一些决策者。它之所以有效，是因为LLM是在网络数据上训练的。所以对它们来说，网络数据最接近行业。

到理论上你能得到的分布式数据。所以当然，如果你说我的代理商是爬取网络的代理商，并且，并且

提取相关的文本片段，是的，为什么不呢？它可能有效。这是一个巨大的用例吗？每个人都需要爬取网络并提取相关信息的代理商吗？有些人可能需要，有些人可能不需要。有些人可能会说，我可以直接搜索我需要的信息。或者例如，我使用Google Alerts，每当有人在网上提到我的书时，我都会收到提醒。

这是一个代理商吗？有人可能会说这是一个代理商，但这只是一个在Google索引上运行搜索的cron作业。所以这些人，他们感兴趣的是推广他们的业务，这就是他们所说的。但是

谈到多代理系统，我的博士学位是多代理系统。所以如果我理解AI中的某些东西，有人可能会说它是多代理系统。所以多代理系统和任何分布式系统最大的挑战在于调试它们。调试很难，因为它是一个多方面的，就像当你调试一个典型的软件时，

比如，我不知道你是否有编码经验。例如，某个函数不起作用，或者代码进入该函数然后崩溃。那么你该怎么办？

你运行调试器，你说你在你的函数中设置一个断点，然后你运行代码。代码运行直到到达断点，然后它停止。然后你就可以下一步、下一步、下一步，像一步一步地执行每个命令或操作。通过这样做，你还可以观察环境中所有变量的值是如何变化的。

这就是作为一个人，你可以检测到某些东西是错误的，这就是你将如何更新你的代码的方式。现在想象一下，你对你的一个代理商这样做。

然后还有25个代理商仍然在做一些事情。你不能同时停止所有这些代理商，好吗？因为它们都是独立的软件片段，所以当你在尝试调试其中一个时，它们仍然会运行。而当你实际控制的时候

但是对于基于LLM的代理商，你根本无法控制它们。你无法调试LLM。LLM是一个神经网络。它是一个黑盒子。里面没有什么可以让你查看，说，哦，为什么信息流在这个神经网络的这个特定部分？这不是它的工作方式。它要么有效，要么无效。所以想象一下，如果你有……

20个或50个这样的代理商，当它们尤其相互交互时，因为调试25个独立的代理商是一回事，但是当它们都协同工作以提供一些最终结果时，那就太疯狂了，调试分布式系统之所以困难，就是因为这一点，所以它不是

异步的。所以就像每个进程都独立于其他进程运行一样。你真的不能真正地停止整个系统并进行调试。这就是为什么我对代理商非常怀疑。正如我所说，对于某些非常具体的用例，它会有效。但是想象一下，你有一些代理应该导航你的

内网，不是互联网，而是你的内网，以及你拥有的所有这些遗留软件。你有一些软件包含你员工的薪水和绩效等等。你有一个带有SharePoint的软件，其中包含一些过时的信息。你拥有你的Git代码。你拥有你的文档，所有的一切。你把代理放在那里，

而且他们对你的任何内部系统一无所知。他们第一次看到它们。你认为仅仅是告诉他们，好吧，你是一个有帮助的、智能的代理。你可以浏览我的内网中的不同应用程序并查找并修复问题。来吧，让我们现实一点。他们很快就会碰壁的。

好的。是的，这是一个令人信服的论点。所以我们的研究员Serge Massis，他有一个问题要问你，你知道，这可能是一个棘手的问题，因为可能没有答案。也许

多代理系统根本无法调试。但是，你知道，鉴于你在这个领域的博士学位，你可能对我们可以用来创建用于复杂任务的强大甚至可解释的AI系统的某种替代架构或设计原则有一些见解。

好吧，我认为如果我们现实一点，那么任何多代理系统都必须让你完全控制系统中的每个参与者。好吧，我们可以称它们为代理，好吗？所以如果你可以控制每个代理，你可以设计一个特定的调度和特定的通信交换协议，这将允许你检测代理

错误或异常行为。例如，你可以分析代理如何交换信息，这些包中有什么内容，并检测到某些东西是不正常的。

所以对于LLM，正如我所说，这些是黑盒子，所以你真的无法控制它们如何思考，如何做出决策等等。所以我认为，如果我们想现实一点，将来会有一些代理为我们工作，我们可以安心睡觉，而不用担心它们会启动一些核电站，

输入一些核代码并发射核导弹。我认为，是的，它应该类似于他们所说的AGI，即人工通用智能，其中

至少我们可以像信任普通人类一样信任这个AGI。你知道，例如在安全领域，你想保护某个重要的物体，或者你想控制对某个重要公文包的访问，

永远不会只有一个人，好吗？而且我们经常在电影中看到，仅仅是打开一扇门，两个人必须相隔相当长的距离，这样一个人就不能使用两把钥匙，然后两个人必须同时转动这两把钥匙。为什么要这样做？

这样做是因为我们人类是不可靠的。好的。所以如果我们想要一些安全的东西，一些稳定的东西，我们可以卖给我们的客户的东西，并且，你知道，说它是一件好东西。

它应该像基于人类的系统一样可靠。但是今天，没有人会争论我们谈论的那些代理，它们远没有像人类那样可靠。所以在这种情况发生之前，使用这样的代理构建多代理系统，就是一个灾难的秘诀。所以在未来的某个时候，我们将拥有这个AGI平台。

AGI，我们将看看我们是否可以信任它，以及我们是否可以创建类似于基于人类的系统的系统，你知道，通过增加人员数量来提高安全级别，但不是今天。据我所知，今天没有人清楚地知道如何实现这个未来，让这些AGI成为真实的东西，而不是，你知道，科幻小说中的东西。

渴望了解大型语言模型和生成式AI，但不知道从哪里开始？查看我的全面两小时培训，该培训可在YouTube上完整观看。是的，这意味着它不仅完全免费，而且没有广告。它是一个纯粹的教育资源。在培训中，我们将介绍深度学习转换器架构以及这些架构如何实现最先进LLM的非凡能力。

而且这不仅仅是理论。我的动手代码演示，其中包含Hugging Face和PyTorch Lightning Python库，将指导你完成LLM开发的整个生命周期，从训练到实际部署。今天就在YouTube上查看我的大型语言模型生成式AI动手培训。我们在节目说明中为你提供了一个链接。

在你作为现实世界AI系统开发人员的工作中，以及通过你撰写的书籍，以及你最近在语言模型方面积累的大量专业知识来撰写这本关于语言模型的书，你可能对AGI以及何时能够实现AGI有有趣的看法。你刚才提到我们将来可能会拥有它。你想对时间表做任何猜测吗？我说我们将来可能会拥有它……

就像说我们将来可能会拥有瞬间移动，而且它可能会有效一样。所以，是的，它可以有效，因为如果我们人类是有意识的，那么自然界中的一些东西发生了变化。我的意思是，与我们的前辈相比，发生了变化。

所以我们在某种程度上进化成了人类。因为最大的区别是什么，人类与其他动物最大的区别是什么？人类可以无限期地进行规划。所以一些猴子，比如黑猩猩和最发达的猴子，

它们可以使用工具，因为以前人们认为只有人类才能使用工具。但是现在，经过几十年的研究，我们知道即使是一些鸟类也可以使用工具。例如，我认为是乌鸦，它们有一个坚果，它们可以从高处扔下它。

然后它掉下来，然后它裂开了，即使它们生活在城市里，它们也可以等待汽车，所以它们等待汽车，然后它们扔下坚果，汽车碾过坚果，坚果就碎了，所以它们使用工具

一些猴子甚至可以使用工具。所以对于大多数动物来说，它们在此刻使用工具。所以它们不会把工具留到明天。但是一些猴子实际上会，例如，你给一只猴子一根棍子。

而且只有用这根棍子，她才能拿到香蕉。所以她会拿到香蕉，当她睡觉的时候，她会把这根棍子

放在肚子下面睡觉，因为她知道明天她也需要香蕉。所以这意味着一些动物可以计划未来的某一天，两天，但是如果你超过三到四天不给它们香蕉，它就会扔掉棍子。它不会认为也许五天后香蕉会回来。但是人类……

会想我会继续保留这根棍子，因为谁知道呢。我们甚至可以计划很多年，比如几百年，几千年。今天我们考虑拯救地球。所以我们考虑减少塑料的消耗，我们考虑……

全球变暖问题。我们为什么要这样做？比如，我们可能在接下来的60、70、80年内就会死去。地球仍然会很好。我们这样做是为了下一代，为了我们的孩子，为了他们的孩子，等等。所以这就是我们通过进化设法获得的东西。所以现在的问题是，我们如何获得这个AGI？所以基本上，答案是，

就像我们内部有什么不同之处，让我们成为无限期的规划者，而不是地球上其他任何生物？如果我们能回答这个问题，我认为这将可能是最大的突破，因为这是我们的LLM或你谈论的任何神经网络所不具备的东西。

它们没有真正规划的能力。所以它们是反应性的。你问一个问题，它给你一个答案。即使你称它为代理，它们也没有真正的代理能力。这是因为它们可能充当代理，因为在系统提示中你说了，

你是一个代理，你的目标是为你的用户提供关于特定主题的最佳信息。但是这种代理能力并非来自代理本身。它来自你。所以你指示它成为一个代理。并且由于LLM并不真正理解它在做什么，它只是生成文本。

有时这种代理能力会被违反。所以它不会做你想让它做的事情，你无法真正解释为什么。所以它就像一个黑盒子，它要么有效，要么无效，你不知道为什么。所以如果我们回答这个根本性问题，是什么让我们成为无限期的规划者，

我认为这将使我们更接近AGI。——是的，我怀疑答案的一部分在于我们的前额叶皮层以及人类相对于其他灵长类动物拥有的前额叶皮层的比例。

这使我们能够通过我们的其他感觉皮层在较长的时间内保持一个循环，这让我想到我之前在这个节目中谈到过的一点，那就是在我看来，对你来说也可能是这样，破解AGI可能需要以比仅仅扩大单一类型的架构（如转换器）更复杂的方式对神经解剖结构进行建模。

大脑，也许是人脑，我们可能需要有不同类型的模块，这样我们就可以拥有类似于前额叶皮层的东西，它可以进行你所描述的这种无限期规划。所以你必须，你会有不同的部分……

通过大型连接进行预先规划，而不是仅仅允许所有模型权重以非常精细的方式在整个皮层中以相同的方式学习，在整个神经网络中以相同的方式学习。是的，这不仅仅是，好吧，我简化了一点，说这只是让我们与众不同的一件事。但另一件事是

人类拥有而LLM例如没有的。那就是人类在某种程度上对他们知道什么和不知道什么有一种感觉。好的，例如，我问你关于，我不知道，关于天文学，好吗？或者关于宇宙、恒星或星系。

如果这不是你的领域，你会告诉我，你知道，安德烈，我喜欢谈论这些话题，但是如果对你来说这是非常重要的，你可能应该咨询专家，因为我只能说，你知道，行星围绕恒星旋转。这就是我知道的。但是LLM没有这种机制来检测

你所询问的内容是否不在其训练数据中，或者在其中，但细节级别不足以使其产生值得分享的观点。所以它仍然会回答你。例如，几天前我用这个OpenAI的O3 Mini做了一个测试，我想看看，因为……

所有模型，所有LLM，它们都在网络数据上进行训练。在网络上，有很多关于我的第一本书的信息。但是我的第三本书刚刚出版，所以信息真的很少。我相信它们的截止日期早于本书的发布日期，所以它们根本不应该知道任何关于它的信息。所以我问O3 Mini，我的100页语言模型书好吗？

有趣的是，以前你无法看到这一点。目前，它们显示了它们所谓的思维链，即在它们提供答案之前的内部讨论。

我读了这个思维链，它很有趣。它首先说，好吧，所以他问这本书，但是这本书看起来与之前的书非常不同。所以它可能是一本新书。好吧，我对这本书了解多少？不多。好吧，那么我对之前的书了解多少？哦，之前的书是XYZ。

所以这个讨论，然后它开始发布最终答案，其中它只是说，是的，这本新书非常好。它受到专家和读者的赞扬，并且以非常好的方式传递内容。我心想，这是从哪里来的？它只是编造的。

推荐，它基于其内部讨论，其中它说：“是的，但我对这本书没有任何信息，但是鉴于Burkov拥有良好的声誉，这就是我可能会说的。”但是它不会在正式答案中告诉你这是纯粹的推测。

它回答这个问题就像它是真实的一样。所以这就是LLM无法真正理解我确信这一点之间的区别。我对这一点不太确定。我完全……

我可能完全错了。所以同样，如果我们能解决这个问题，这将是通往AGI的额外下一步。所以该模型可以可靠地进行自我观察和自我批评。所以说我很乐意帮助你，但是在这里我觉得我处于一个领域

我不可靠。顺便说一句，他们，他们，他们尝试，他们尝试微调模型来说明这一点，嗯，

但这行不通。所以基本上，例如，一些模型，特别是中国公司发布的一些模型。所以他们决定微调他们的模型来说，我不知道这个人。所以以前，例如，你可以在网上找到关于你的信息。所以你可以问一个模型John Krohn是谁。

它可能会说，好吧，他是一个播客主持人，作家。但它也可能说你是一个像我一样的乌克兰足球运动员。

所以为了避免，你知道，被嘲笑。所以人们在谷歌上搜索他们，人们问他们自己。他们知道信息，一些信息是在线上的，但它完全是编造的。所以他们决定他们将微调他们的模型来说，我对这个人一无所知。他们通过给出非常著名人物的名字来微调它，

然后他们说，“让我们去回答。”然后他们给出一些随机的名字，那些在网上不存在或足迹很小的人。然后他们说，“回答，我不知道。”但这很有趣，因为我问，“Andrey Burkov是谁？”它说，“我第一次听到这个名字，什么都不知道。”然后我说，“谁写了100页的机器学习书？”“哦，是Andrey Burkov写的。”就像，“你刚才还说你不知道。”

所以不，他们尝试，你知道，围绕它创建一些技巧，但这并不是真正训练模型来识别它在哪里可能出错。我最近注意到云输出中出现了一个相关的技巧，其中

你可以看出它可能不是LLM的核心部分，但同样，是他们附加在顶部的某些东西，我现在经常在云响应中看到诸如“这是一个相对利基的话题。我没有那么多信息。你可能需要仔细检查一下。”之类的内容，我发现他们对此非常保守，我经常在关于我不认为特别利基的事情的问题上得到这样的答案。

所以也许他们需要在那里进行一些微调。这种问题似乎是这些大型LLM培训师正在努力解决的问题，他们可能都在采用不同类型的方法。你实际上……

你在LinkedIn上写道，你开发了一个不会产生幻觉的企业聊天机器人，这似乎与此相关。所以是的，幻觉，对LLM一无所知的事情充满信心，似乎你在这里取得了一些成就。那么你是如何做到这一点的呢？好吧，是的，让聊天机器人不会产生幻觉的唯一方法

是不使用LLM来生成输出。所以

我们都知道RAG，即检索增强生成，可以显著降低幻觉的程度。所以，例如，如果你问关于机器学习的问题，并且你从维基百科中提取了机器学习文章的数据，并且你根据这篇文章来回答用户的问题，那么你说出完全错误信息的可能性

很小，仍然存在可能性，嗯，但很小，例如，我不知道，与不进行任何检索直接回答相比，你可能会有20%到30%的时间产生幻觉，但是使用检索增强生成，可能只有1%到2%，所以它仍然存在，但不是很多

很多。所以我们决定做的是，我们决定排除任何产生幻觉的可能性。所以基本上我们的聊天机器人，它不是开放域聊天机器人。对于任何机器学习团队来说，当他们处理封闭域与开放域时，这是一个很大的优势。所以例如，OpenAI、Anthropic、Google、Gemini，

他们都在开放域工作。他们没有机会为每种可能的答案创建某种模板，某种固定模板。

但是如果你处理封闭域，比如我们的，我们的SaaS可以回答用户的问题。例如，芝加哥Java开发人员的顶级技能是什么？在旧金山招聘注册护士的难度有多大？

所以所有这些信息都可以直接从我们的内部API中提取。例如，你提供职业，你提供位置ID，然后你调用关于薪水的API。所以它获取你的职业，它获取你的位置，它从索引中提取薪水分布，然后你只需……

向用户显示它。所以我们决定做的是，我们决定创建一组预定义的模板。例如，好的，所以你正在寻找旧金山护士的平均工资。旧金山护士的平均工资是，然后有一个数字占位符。我们从API中提取这个数字并显示它。所以

这里产生幻觉的可能性为零。我们解释用户输入的方式可能会出错。但是因为我们总是显示我们所有的解释，例如，假设用户说有人拥有JS技能。所以在我们向用户显示任何数字之前，我们需要规范化，我们需要将这个JS

转换为我们内部的技能分类法。所以我们获取这个JS，然后我们使用我们内部的技能规范器，它说，好的，JS，它是技能编号1、2、3。

所以我们向用户显示，好的，所以你正在寻找拥有JavaScript技能的人。所以用户确切地看到他们的输入是如何被机器理解的。然后用户看到输出，输出也直接来自数据库。所以没有幻觉。当你看到某个数字时。

你不确定这个数字是否代表你所要求的内容，或者它是否代表与你所要求的内容完全不同的内容。但在我们的例子中，因为它是一个封闭域，我们说，好的，职业代码A，技能编号1、2、3，位置是旧金山，加利福尼亚州，美国。它们都以不同的方式显示，我们称之为药丸，就像它们都是你看到的规范化标签一样。

然后你看到一个数字。所以是的，这个数字可能是错误的，但是这个数字可能是错误的，不是因为我们编造了它，而是因为与你的搜索相对应的职位分布

没有反映现实。但是如果你直接使用传统UI使用系统，你也会得到完全相同的错误答案。所以你在聊天机器人中看到的内容与你如果没有使用聊天机器人会在平台上看到的内容之间存在一一对应关系。这就是我们所说的零幻觉。但是当然，错误

错误总是可能存在的，但是一些错误我们可以控制，而另一些错误则来自我们在网上收集的数据。而这些数据永远不会100%完美。对。当然。是的。

所以这是一个有趣的方法。为了避免幻觉而避免使用LLM。是的，我们在过程中使用了LLM。所以我们使用LLM来理解用户输入，因为用户输入只是一个字符串。但是我们需要将这个字符串转换为某种结构化格式。

然后，我们需要规范化这个结构中的每一部分。所以是的，LLM用于理解，而不是用于告知。明白了，明白了。这听起来像是在节目的开头，你谈到了Bert和Roberta，用于将自然语言编码成某种其他表示。所以这是一个有趣的回调。在我们结束本集之前，我觉得我们必须谈谈DeepSeq。是的，是的。是的。

这是现在每个人都在谈论的事情。所以，呃，

你在电子邮件中写信给我说DeepSeq击败了OpenAI和Anthropic。你这是什么意思？好吧，我上周发布了一篇文章，所以我会建议大家阅读更多细节。我认为DeepSeq可能是自ChatGPT发布以来发生在语言模型身上最重要的事情。

它不是从方面来说，好吧，这个模型击败了那个模型。我们已经看到了很多例子，当一些新模型击败之前的模型时，然后创建之前模型的公司发布了一些新的东西，现在它又是最先进的。所以它不是在这个意义上。它更多的是在DeepSeq所做的意义上，他们，好吧，我可能会列举一下。所以他们做的第一件事

他们使用非常小的预算训练了一个最先进的模型。所以以前人们认为需要2000万、3000万、5000万美元来训练某种模型的新版本，现在可能只需要500万到1000万美元。所以大约减少了500%。这是一个。

但是同样，如果他们只为自己保留这一点，那么每个人都会说，好吧，他们很幸运，他们没有在他们的模型上花费很多，但是呢？其他人有钱，所以没有什么变化。但是他们所做的，他们实际上向每个人展示了如何做同样的事情，比如，

作为食谱，一步一步地。所以现在你不仅知道一个非常有竞争力的模型可以用少量预算创建，现在你也可以自己创建一个。所以他们发布了这份公开的技术报告，你已经在网上找到了几个R1.0和R1.0训练的独立实现。所以任何人都可以做到。这是第二点。

第三点是，它们不仅训练成本更低，运行成本也更低。所以如果你比较一下OpenAI的O1定价，大约是每百万输出token 60美元。

60美元。所以，大概，我不知道，你会花五分钟与它交谈，例如，谈论某本书或某篇文章，你会在五分钟内支付60美元。而DeepSeq显示的是，他们的模型，他们每百万输出token收费2美元。所以同样，就像，

成本降低了30倍。所以不仅任何人都可以训练它，而且任何人都可以运行它，而且它会非常高效。所以如果你把这一切都考虑进去，他们就把最先进的AI给了任何人，给了你的兄弟，给了你的祖母。所以他们可以

制作它并拥有它，这就是被认为是打开眼睛或熵秘密调味料的原因，

最后一点，不仅仅是因为当你创建语言模型时，不仅仅是关于计算，也不仅仅是关于知道怎么做。它还关乎拥有正确的数据。数据总是我们所说的模式。像OpenAI和Anthropic这样的公司，他们在为模型微调创建高质量数据方面投入了大量资金。因为当你只是预训练它时，它不会说话。

它只是一个预测下一个词的模型。然后你必须把它转换成一个聊天机器人。所以它接收问题并输出答案。然后你还要把它转换成一个问题解决者。所以不仅仅是你提出问题并期望答案，你还必须进行某种多步骤交互，例如，与LLM共同解决编码问题。为了让LLM像这样工作，你需要这些问题解决的例子

对话。而这些例子不应该是一些随机的东西。它们应该真正切中要害。好的。好的。让我们解决这个具体问题。为了创建这样的例子，你需要主题专家。拥有这样的主题专家来创建数百个，甚至数千个，甚至数十万个这样的例子，这是一笔巨大的投资。所以我认为他们仅仅在获取这些对话方面就投入了数十亿美元。

现在，DeepSeq已经证明你不需要那样做。所以基本上，他们训练R1的方法是基于解决方案的自动化验证。例如，假设你要求它生成一些代码。

它生成这段代码，而不是像以前那样，你会要求主题专家查看代码并说，“是的，这是有道理的，”或者“不，我不喜欢它。它太长了。”他们运行代码，一旦代码执行完毕，他们就获取输出

然后将其与真实值进行比较。所以应该是什么输出，或者只是它编译了，就是这样。它是一个强化学习的信号，它说1是编译的，0是崩溃的。相同的格式。所以他们有一个数学问题。他们知道答案是42。好的。他们要求他们训练的LLM生成一堆解决方案。

如果其中一个给出42，他们就说1。对于其余的，它是0。对于逻辑来说，也是一样的事情。你可以创建一个逻辑推导，就像你有一个假设，然后你试图推导出这个假设，这个结论是否正确。你可以验证逻辑，所以你可以自动创建这个任务。同样，你的LLM试图解决这个逻辑问题。

输出是凶手是厨师。所以你看输出是否是厨师，你说1，奖励是1，因为它是厨师。如果它是其他的东西，奖励是0。所以创建这样的例子非常简单。例如，你拿一个GitHub仓库

你从中隐藏一个类，然后你要求LLM填充这个类。所以从头开始编写它。然后你编译完整的报告。如果它编译成功，很好，奖励是1。如果它没有编译成功，奖励是0。所以你不需要在这个流程中的任何地方使用主题专家。所以他们完全自动地创建了数十万个，接近一百万个这样的例子。同样，

它消除了以前只有拥有巨额预算的公司才能获得的模式。现在，你可以在家重新创建这个训练集，并以你的名字命名R1。所以他们消除了最大参与者所拥有的任何竞争优势。他们拥有这种优势

两年了。我甚至记得一年前，在每个人离开之前，OpenAI的人接受采访，一些记者问他们，好吧，你们看到了开源LLM的巨大发展。你们是否担心它们甚至可能会破坏你们的商业模式？他们嘲笑说，哼，不，有人在家用微薄的预算工作，他们能做的事情太多了。他们没有数据，他们没有计算能力。而现在他们提到的所有东西都不复存在了。所以现在我们又回到了原点。接下来是什么？所以这是R1所做的最大的革命，我认为，模型本身很好，但这并不是关于模型。而是关于

OpenLLM的概念发生了根本性的变化，以及它现在能做什么。

说得很好。你之前提到了开放权重的LLM，例如Meta的LAMA模型就是开放权重的。它们不是开源的，因为你无法看到源代码。你会说DeepSeek的这些模型实际上是开源的吗？我对这个问题的个人看法比其他人严格得多。例如，Yann LeCun称LAMA为开源模型。根据我的定义，因为LLM

开源是什么意思？不是从正式定义的角度，而是从实际应用的角度。在软件中，开源意味着任何人都可以独立地复制你的软件

。所以你把源代码放在网上，任何人都可以下载它，调整它，稍微适应一下他们的系统，运行并获得与你相同的软件。但是对于LLM来说，情况并非如此。所以你不能只拿模型本身

并在本地运行它，并说你复制了它。不。模块本身类似于二进制文件。例如，你下载，我不知道，GIMP，开源图形编辑器。所以如果你只是下载二进制文件，它就不是开源的。或者你下载Adobe Acrobat，或者你下载Word。

你可以在你的机器上运行它，但你不会称它为开源。你可以使用它。你可以访问它的二进制文件，但你不能调整它。你不能更新它并使其不同。这就是开源的含义。所以对于开放模型，如果你想复制这个模型

在家，你需要的不仅仅是使用的代码，你还需要使用的数据，因为没有数据，模型就什么都不是。

从这个角度来看，这些开放权重模型是开放权重的，但它们不是开源的。我一开始就提到了，有一些模型，也许是几个模型，不仅是开放权重的，你还可以下载用于训练它的完整训练数据集。不幸的是，

它并没有成为发布新模型的标准做法。所以这些带有开放数据集的模型在今天已经不再具有竞争力了。所以如果你想，你可以获取数据集，你可以基于它训练一个新模型。但是同样，根据今天的标准，今天预训练的典型数据集在

可能在15到20万亿个token之间，所以如果你下载一些公开可用的数据集，

它可能只有4到5万亿个token，所以你不能指望在数据少四倍的情况下达到最先进的水平，说得很好。在我让你走之前，我们确实有一些观众的问题，所以我们实际上得到了一个很长的一个问题，所以我在一周前我们录制节目之前发布了你会来节目的消息，就像我对一些即将到来的嘉宾一样

Dmitry Petukhov，他是莫斯科的一名欺诈预防数据科学家，

他说他以前不知道你。所以他感谢我们，感谢这个播客，为他的书单带来了另一个有趣的人物和新的补充。所以你可以期待Dimitri在那里购买一些书。然后他说一个相关的问题浮现在他的脑海中。他说，现在有很多关于颠覆性内容的讨论。

以及语言模型和生成式AI对社会，特别是对技术的影响。所以对我来说，在我们今天的谈话中，Andre，这似乎与你所描述的事情有关，例如，你在Talent Neuron之前只关注下载后，但现在你也可以将LLM应用于下载前方面。

无论如何，然后他的问题是，我很想听听Andre对这些转变已经产生了什么影响以及将继续对所谓的传统机器学习项目生命周期产生什么影响的想法。他将传统周期描述为数据收集、质量检查、模型开发、验证、部署、监控，然后庆祝结果。那么，LLM、生成式AI是如何扰乱

传统的机器学习项目生命周期，以及它可能会如何继续扰乱？我可以告诉你……Dmitry是名字，对吧？Dmitry，是的。是的，Dmitry。好的，我可以告诉Dmitry，也许今年，也许明年的一部分时间，人们仍然会……

假装LLM开箱即用就能足够好地工作，我们不需要遵循传统的机器学习过程，在这个过程中，你收集数据，选择架构，训练，调整超参数，测试，如果发现你的初始方法不好，就返回。

一段时间内，人们仍然会追随炒作，说，好吧，我们不需要再训练了。但是同样，我的团队，我有，我们是四个人。我们都是亲力亲为的。我最初的立场是，好吧，

因为LLM可以开箱即用地做很多事情，我们应该改变我们处理项目的方式。所以我们应该从传统的基于训练的方法转向提示工程，可能还有他们所说的少样本学习或少样本提示，就像你直接在提示中添加示例并以此来调整模型的性能一样。

我们的结论是，这种方法只在开始时有其优势。例如，你想构建一个复杂的系统。例如，我解释过的系统，我们有一些AI访问公司网站，它必须弄清楚如何创建一个机器人来收集数据。

从中获取数据。所以在这样一个复杂的系统中，你需要多个地方放置机器学习。例如，你需要检测要点击哪个链接才能到达职业部分。

你需要一些分类器来告诉你是否在应该在的地方，而不是在其他地方。你需要一个模型来说，好吧，我看到了职位名称。我看到了位置。我看到了X、Y、Z。所以对于所有这些，你需要模型。所以想象一下，例如，五年前，

你开始这样一个项目。在每个你需要某种基于AI的决策的地方，你都必须收集数据，

实现开发模型的完整过程，只是为了把它放在一个地方。现在你可能有5、10、15个地方需要做出这样的决定。所以在你可以交付之前，不是交付，而是构思原型模型之前

你必须从头开始解决大约15个机器学习问题。这太疯狂了。对于更大的团队来说，这可能需要数年时间。例如，你可以通过增加人员来水平扩展。它可以扩展。我们是四个人。就像我们不能，你知道，克隆一切。

更多的人来并行训练所有这些模型。对我们来说，这将需要数年时间才能开发出来。现在，由于LLM，我们可以用我们刚刚指导的LLM来替换所有这些需要决策的地方。就像你应该预测这是否是职位名称一样。

这使得创建最小可行产品（如果你愿意的话）或某种类似生产的原型变得非常快。

但是当你真正想要投入生产时，你不会容忍在这个地方有30%的错误，在这个地方有25%的错误，在这个地方有40%的错误，因为错误具有累积的特性。所以如果你在这里做出15%的错误预测，然后在这里做出15%，然后在这里做出15%，那么它会使你到达目的地的机会非常快地趋于零。

所以这就是LLM在快速原型设计方面很酷的地方。你不需要训练你的模型。你可以直接指导LLM。但是当你真正想要投入生产时，你必须调查所有占位符LLM中，哪些是性能最弱的LLM。

最弱的，你怎么称呼它，链条中最薄弱的环节。你必须用一个你真正控制的真实分类器来替换链条中最薄弱的环节。你实际上可以确定你可以达到95%的准确率，如果需要的话，可以达到99%的准确率。

为此，你将从头开始创建一个模型。你不需要一直使用LLM，或者你可以微调LLM，但要以真正的机器学习意义上进行。所以你收集一个数据集，你实际上执行学习迭代，并且你看到模型在

保留集（例如验证集）上的表现如何，一旦你满意了，你就说，好的，这个部分现在按预期工作了，所以你已经可以在生产中运行你的系统了，但这将是一种

工作的原型或alpha beta版本，无论你想怎么称呼它，然后在未来，你将用实际的机器学习模型替换这些关键部分，所以LLM在快速原型设计方面很酷，它们在……你知道……

交互式问题解决方面很酷，例如，如果我尝试这个，如果我尝试那个，但是当你投入生产时，你真的会想要遵循一个严格的机器学习过程

说得很好。对我们许多正在开发机器学习管道的听众来说，你在一个关键主题上做了很好的总结。现在，就像你说的那样，拥有一个四人团队必须开发的15个模型，这在以前是难以处理的。现在你可以想出正确的提示

砰，你就能获得某种程度的准确性，在某些情况下，开箱即用是可以接受的。- 它很便宜。就像你什么也没花，却得到了一些东西。这已经比零好多了，对吧？- 是的，完全正确。

好的，Andre，这是一集精彩的节目。我今天真的非常享受从你那里学习。你真的很聪明。太棒了。在我让你走之前，我总是要求我的客人推荐一本书。好吧，我应该说我更像是一个作家而不是读者。我十几岁的时候真的非常喜欢阅读。我爸爸收藏了大量的书籍。

科幻小说和历史书籍。所以我读了很多书，但是自从我搬家后，我没有自己的图书馆，除了可能存放我的书的盗版副本的那个图书馆。我把它们都留着。我认为对我影响最大的是《小王子》，

我甚至在我的新书中引用了《小王子》中的一句话，王子对狐狸说

语言是误解的根源。我真的很觉得它对这本书来说非常到位，因为是的，你构建了这些语言模型，但它们可能会制造比解决更多的问题。不仅仅是因为这个原因，但我认为《小王子》对我来说，它是一个提醒，成年人仍然可以在心中保持童心。对我来说，它尤其引起共鸣，因为我仍然感觉自己像22岁、25岁，尽管我已经43岁了。所以我已经有了长大的孩子，但是当我阅读《小王子》时，不是有时，而是每次都会让我想要哭泣，因为我真的很能感受到这种，你知道，

成年人，一个困在成年人生活中的孩子的氛围。

是的，这本书对我来说也是一本影响巨大的书。我最近越来越尝试用它来指导我的职业决策，在我的生活中拥有更多游戏感，并更多地问一些问题，例如，“我最喜欢的颜色是什么？”而不是，“这能带来多少收入？”对吧。

但是是的，除了《小王子》之外，这是一个很棒的建议。你当然也，我会总结一下。所以我描述它为三部曲是我的错误。所以我们有两部曲，我不知道两部曲的等价词是什么。一部带有衍生作品的两部曲。当我与我的孩子们交谈时，总是这样，

他们说，这本书是关于什么的？我说，第二本？不，那是第三本。如果你数书的话，那是第三本，但它是系列中的第二本。是的，所以这是一部两部曲。是的，所以在你的100页的书系列中，你有一本标志性的100页机器学习书，现在还有你全新的100页语言模型书。

是的，如果人们感兴趣的话，这部不属于三部曲的衍生作品，但却是你的第三本书，是《机器学习工程》这本书，人们可以深入研究它，学习如何使用机器学习来大规模解决业务问题。是的，你提供的书很棒。感谢你今天在播客中对各种各样的

及时话题提供的精彩见解，Andrey。希望你的下一本书出版时。我已经在思考了，但我应该停一下，因为写书非常累人。尤其是当你挑战自己，书应该小巧，但不能肤浅的时候。所以这很累人。我花了九个月的时间写这本书。所以我认为我会休息几个月，然后我……

是的，一定要休息一下。但是我，你知道，如果几年后你完成了另一本书，我们很乐意再次邀请你参加节目讨论。你有一个公开的邀请。所以Andre，人们在这一集之后最好的联系你的方式是什么？

哦，找到我不难。所以你可以在谷歌上搜索我的名字，Andrey Burkov，你就会找到我的领英个人资料和我的推特个人资料的链接。所以在领英上，我更像，怎么说，专业人士。所以我尽量过滤我发布的内容。在推特上，我更像我自己，因为推特大多是匿名的。所以

我可以分享一些东西，而不会与我的雇主联系起来。在Gartner工作时尤其困难，因为Gartner对在线形象有严格的要求。所以我必须非常限制自己发布的内容。但是现在，因为我们不再是Gartner了，所以即使在领英上，我也更加开放。但是如果你真的想阅读我未经过滤的意识流，请加入我的推特。

是的，Andre，非常感谢。希望我们将来能再次与你联系。谢谢你，John。很高兴和你在一起。感谢你的提问。与Andre Berkoff博士的精彩一集。在节目中，他讲述了AI代理面临的根本性挑战。当它们一起工作时，它们无法有效地进行调试。它们缺乏真正的能动性，并且难以处理训练数据中没有的非分布式任务。

他还谈到了LLM如何出色地用于ML系统的快速原型设计，但生产级应用程序仍然需要针对关键组件使用传统的ML开发流程。他详细介绍了他是如何在Talent Neuron聊天机器人中实现零幻觉的，方法是仅使用LLM来理解用户输入，同时依赖结构化数据和预定义模板来生成响应。

他谈到了DeepSeq如何通过将模型训练成本降低500%、公开其方法、将推理成本降低30倍以及消除训练数据创建中对人类专家的需求来彻底改变该领域。

他还谈到了人类和AI之间的关键区别在于我们能够无限地规划未来并准确评估我们知道和不知道的东西。与往常一样，你可以在superdatascience.com/867上获得所有节目笔记，包括本集的文字记录、视频录制、节目中提到的任何材料、Andre的社交媒体个人资料的网址以及我自己的网址。

是的，我已经说了几个星期了，但现在只剩下两周了。我将在弗吉尼亚州里士满的RVA Tech Data + AI峰会上发言。在那里与你现实生活中见面将非常棒。有很多优秀的演讲者。所以这将是一个向你展示的好机会，特别是如果你在里士满地区的话。在那里见到你将非常棒。

当然，感谢Super Data Science播客团队的所有成员，我们的播客经理Sonia Braevich，媒体编辑Mario Pombo，合作伙伴经理Natalie Zheisky，研究员Serge Massis，撰稿人Zahra Karchei博士，以及不能忘记我们的创始人Kirill Aramenko。感谢他们为我们今天制作了另一集精彩的节目。为了让超级团队为你制作这个免费播客，我们非常感谢我们的赞助商。你可以通过查看赞助商的链接来支持这个节目，你可以在节目笔记中找到这些链接。

如果你自己有兴趣赞助一集节目，你可以通过访问johnkrone.com/podcast获取详细信息。否则，分享、评论、订阅、将我们的视频编辑成短视频（如果你愿意的话）。但最重要的是，继续收听。我很感激你的收听，并希望我能继续制作你多年来喜爱的节目。直到下次，继续在那里摇滚吧。我期待着再次享受Super Data Science播客。

867: LLMs and Agents Are Overhyped, with Dr. Andriy Burkov 01:33:12 Share

Super Data Science: ML & AI Podcast with Jon Krohn

Deep Dive

Shownotes Transcript

867: LLMs and Agents Are Overhyped, with Dr. Andriy Burkov