We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

847: AI Engineering 101, with Ed Donner

2024/12/24

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Insights AI Chapters Transcript

People

Ed Donner

John Krohn

Topics

John Krohn: 本期节目中，Ed Donner 详细介绍了 AI 工程师（也称为 LLM 工程师）的角色，并提供数据表明 AI 工程师的需求与数据科学家相当。 Ed Donner: AI 工程师是一个混合型角色，它融合了数据科学家、软件工程师和机器学习工程师的技能。目前，美国约有 4000 个 LLM 工程师职位空缺，与数据科学家的职位空缺数量大致相同。AI 工程师的首要任务是为特定问题选择合适的 LLM。在选择 LLM 时，需要考虑数据质量和数量、评估标准以及预算、时间等非功能性因素。在构建 LLM 之前，最好先构建一个基线模型，以便进行比较和评估。选择 LLM 时，首先要决定使用闭源模型还是开源模型。通常建议先从闭源模型（如 GPT-4.0）开始进行原型设计，然后根据实际情况（如拥有大量专有数据、隐私要求或高推理成本）再考虑开源模型。AI 工程师使用 RAG、微调和自主式 AI 等技术来优化模型应用。 Ed Donner: 选择模型和技术通常需要进行反复试验。AI 工程师有时也负责模型的生产化部署，可以使用 Modal.com 等平台进行无服务器 AI 模型部署，也可以使用 Docker 和 Kubernetes 等技术构建完整的生产服务。对于自主式 AI 系统，可以使用专门的平台进行部署。

Deep Dive

Key Insights

What does an AI engineer do?

An AI engineer is a hybrid role combining data science, software engineering, and ML engineering. They select models, optimize them for specific tasks using techniques like fine-tuning and RAG, and deploy them into production. Their responsibilities include choosing the right LLM, building baseline models, and ensuring models meet business requirements.

Why are AI engineers in high demand?

AI engineers are in demand because they bridge the gap between data science, software engineering, and ML engineering. There are currently around 4,000 job openings for LLM engineers in the U.S., comparable to the number of data science jobs.

How do AI engineers decide which LLM to use?

AI engineers evaluate models based on data quality, evaluation criteria, and non-functional requirements like budget and time to market. They often start with closed-source models like GPT-4 for prototyping and may switch to open-source models if proprietary data or privacy concerns are involved.

What are some key techniques used by AI engineers?

Key techniques include fine-tuning models with domain-specific data, RAG (Retrieval Augmented Generation) for enhancing responses with relevant context, and agentic AI for creating autonomous, proactive systems that can solve complex problems and use tools.

What is RAG in AI engineering?

RAG (Retrieval Augmented Generation) is a technique where an LLM retrieves relevant documents or information from a database to improve its responses. It involves encoding the query into a vector and finding the closest matching documents to provide context to the model.

What is agentic AI?

Agentic AI refers to systems that can autonomously solve complex problems by breaking them into smaller steps, using tools, and even acting proactively beyond a single interaction. For example, an agentic AI could detect a price drop for a flight and notify the user without being prompted.

What are some important benchmarks for evaluating LLMs?

Important benchmarks include GPQA (Google Proof Question and Answers) for expert-level knowledge, MMLU Pro for language understanding, and BBHard (Big Bench Hard) for testing advanced capabilities like sarcasm detection. These benchmarks help evaluate model performance across various tasks.

How can AI engineers deploy models into production?

AI engineers can deploy models using platforms like modal.com for serverless deployment, Lightning Studios for seamless prototyping to production, or Docker and Kubernetes for full production services. For agentic AI, platforms like LandGraph and Crew AI Enterprise can be used to deploy multi-agent systems.

What is the Outsmart game, and how does it evaluate LLMs?

Outsmart is a game where four LLMs compete against each other in a strategic environment. Each model starts with 12 coins and must decide whom to take coins from and whom to give coins to, using private messages to strategize. The game evaluates how well models can form alliances and outsmart each other, providing an ELO rating based on their performance.

What are some useful leaderboards for selecting LLMs?

Useful leaderboards include Hugging Face's open LLM leaderboard, Vellum.ai for cost and context window comparisons, and LMArena.ai (formerly LMSYS) for head-to-head human evaluations. These leaderboards help compare models based on performance, cost, and hardware requirements.

Chapters

The podcast starts by defining the role of an AI engineer, highlighting its hybrid nature, combining data science, software engineering, and ML engineering. The high demand for AI engineers is discussed, emphasizing the similarities in job openings when compared to data scientists.

AI engineering is a hybrid role combining data science, software engineering, and ML engineering.
There are approximately 4,000 job openings for AI engineers in the US, comparable to the number of data scientist openings.
AI engineers select models, apply techniques like RAG and agentic AI, and deploy models into production.

Shownotes Transcript

这是第 847 集，与 Nebula 联合创始人兼首席技术官 Ed Donner 共同探讨。欢迎收听 Super Data Science Podcast，这是数据科学行业收听率最高的播客。每周，我们都会为您带来有趣且鼓舞人心的人物和理念，探索机器学习、人工智能和相关技术的尖端领域，这些技术正在使我们的世界变得更美好。我是您的主持人 John Krohn。感谢您今天加入我。现在，让我们化繁为简。

欢迎回到 Super Data Science Podcast。与这位才华横溢且沟通能力极强的思想家共事十年后，我终于非常荣幸地向大家介绍非凡的 Edward Donner。Ed 是 Nebula.io 的联合创始人兼首席技术官，这是一个利用生成式 AI 和编码 AI 来寻找、理解、参与和管理人才的平台。

此前，他是名为 Untappd 的 AI 初创公司的联合创始人兼首席执行官，该公司于 2020 年被收购。在成为科技企业家之前，Ed 曾领导华尔街的技术团队 15 年，最后在摩根大通担任董事总经理，领导着一个由 300 名软件工程师组成的团队。他拥有牛津大学物理学硕士学位。

今天的节目最吸引动手实践者，特别是那些有兴趣成为 AI 工程师或提升其 AI 工程技能的人。在今天的节目中，Ed 详细介绍了 AI 工程师（也称为 LLM 工程师）是什么。他向我们介绍了表明 AI 工程师如今需求量与数据科学家一样大的数据。

他谈到了 AI 工程师每天实际的工作内容，AI 工程师如何决定为特定任务选择哪些 LLM，包括开放源代码与闭源代码模型的考虑、选择什么模型大小以及遵循什么排行榜。他提供了高效训练和部署 LLM 的工具，并向我们介绍了与 LLM 相关的技术，包括 RAG 和自主式 AI。好了，准备好收听这精彩的一集了吗？让我们开始吧。♪

Ed，欢迎来到 Super Data Science Podcast。对我来说，这一刻等候已久。我们并肩工作了十年。John，能来到这个播客真是太高兴了。这也非常超现实，因为我看过很多集。我与你互动了很多。

现在感觉这一切真的发生了。我真正在播客里了。

对于收听的听众来说，你们可能会欣赏到很棒的音质。如果您观看的是 YouTube 版本，则可以欣赏到很棒的视频质量，因为我们现在人都在纽约。

我们在这里一起工作了十年。所以，请告诉我们一些关于你的背景、我们如何相遇以及是什么让你现在开始创作关于 AI 工程和 LLM 的内容。哦，当然。我想关于我的主要事情就是我是一个书呆子。我是一个技术人员，我是一个软件开发人员，我是一个软件开发人员，而且我也擅长人员管理。

我开始我的职业生涯，我的大部分职业生涯都在摩根大通工作

在风险管理技术方面。我一开始是一名程序员，这是我非常喜欢的事情。但是很快，我发现自己进入了中层管理的行列。在那里，我身处 PowerPoint 和电子表格的世界。有些人会说，在我的职业生涯中，我意识到这就是我的宿命，而且我从来都不擅长编程。而我感觉恰恰相反。我觉得这不是我的宿命。我注定要编程。所以我离开了摩根大通，

当时，我想我领导着一个大约 300 人的团队，除了 PowerPoint 和电子表格什么都不做。我离开了，回到我的公寓编程，并创办了一家名为 Untapped 的小型 AI 初创公司。不知何故，我设法说服你和我一起做这件事。

因此，我们建立了这家初创公司，它致力于将 AI 模型应用于人才领域。当时我们正在使用一些深度神经网络，并自问自答，这些模型在理解语言细微之处方面非常有效。

我们可以用它来编码一个优秀招聘人员的思维过程吗？获取一些查看某人职业生涯的东西，而不是寻找关键词之类的东西，而是寻找模式，理解他们带来的技能，并将他们与工作匹配起来。

所以我们用它建立了 Untapped。几年前，我们被收购了，这对我们来说是一个美好的时刻。然后，作为母公司的一部分，我们剥离了我们的第二家初创公司。我们是 nebula.io 的联合创始人，它也正在将 AI 应用于人才领域。

没错。我确实喜欢讲述我们如何相遇的故事，那就是我们都去了牛津大学的同一个学院。牛津大学由 39 个学院组成。如果你去牛津，你必须也是其中一个学院的成员。因此，作为一名本科生，你实际上是申请学院本身。作为一名研究生，就像我当时去牛津一样，

你被大学录取，然后你选择你最喜欢的两个学院，并希望你能得到其中一个。我得到了我的首选，那就是麦格达伦学院。你也是麦格达伦学院的校友。

人们试图拼写它。看起来应该是 Magdalene，但这是古老的拉丁语发音。虽然这现在有点题外话，但我经常思考的是我们如何知道人们如何发音？我们如何知道古典希腊语或古典拉丁语是如何发音的？这是一个谜。是的。

总之，这完全是题外话。但是是的，我们都是同一个麦格达伦学院的校友，麦格达伦学院在纽约有一个非常活跃的校友社区。十年前，我想应该是 2014 年左右，我们在曼哈顿东村的一个小花园里的一次校友活动上相遇了。

我喜欢你的活力。你当时刚离开摩根大通，并且对你正在做的事情感到非常兴奋。我知道你是一位才华横溢的技术创始人，我想与你一起工作。

从那以后的十年里，一切都非常出色。正如你所知，还有一个附带故事，那就是我是一个可怕的内向者，我绝对讨厌参加这类社交活动。我父亲看到纽约有一个麦格达伦学院的社交活动。他打电话给我，说：“这是你应该参加的那种活动。”我说：“这些社交活动总是没用的。社交活动从来没有什么好处。”

他说：“好吧，我和你做一个交易。参加这次社交活动。如果没有什么好处，你就再也不用参加其他的了。但只要参加这次。”我参加了那次社交活动。我遇到的第一个人就是 John。几个月后，John 来到了 Untappd。现在我必须参加每一次社交活动。

是的，没错。我不一定会讲到故事的这一部分。如果你要在广播中透露这一点，你也必须在广播中告诉我们你的中间名。绝不可能。所以这个谜团仍在继续。好的，是的，这令人兴奋。最近，你一直在创作内容，这太棒了。我去过你在 O'Reilly 项目中的一些现场培训。

以及 O'Reilly 平台。你开发了一个 Udemy 课程（我们在节目说明中提供了链接），名为《LLM 工程：掌握 AI 和大型语言模型》。这是一本畅销书。所以，首先我要说的是

我受到一位我认识的人的鼓励，他是一位技艺精湛、技艺精湛的教育家，他非常擅长以每个人都能理解的方式解释极其复杂的事情，而且非常容易理解。当然，是的，我指的是你。

你在这方面真的很棒，这是我多年来看到你做的事情，我对此感到非常惊讶。我记得我多年前在 IBM 也做过技术培训，我曾经非常喜欢它。这真的很有趣。解释事情真的很有趣。你鼓励我尝试一下，我做了，我参加了一些 O'Reilly 活动，我非常喜欢它们。

所以现在，是的，我有这个 Udemy 课程。有趣的是，我意识到有一种新型的工作几乎是从无到有出现的。我称之为 LLM 工程师的工作，但有时也称为 AI 工程师或 AI 架构师。

如果你登录 LinkedIn 并进行搜索，你会发现目前美国大约有 4000 个 LLM 工程师的职位空缺，

而数据科学的职位空缺为 4800 个。所以大约是，这真的很相似。我不知道。这太疯狂了。这是一个非常，这是一种混合型工作。这是一份兼具数据科学家、软件工程师和部分我们可能称之为 LM 工程师或 ML 工程师的工作，即部署模型到生产环境中的人。它有点融合了这三者，呃，

这种新的角色，了解如何选择模型、如何将它们与 RAG 和自主式 AI 等技术结合使用，然后如何将它们部署到生产环境中的人。这是一个全新的类别。所以我认为，是否有已经涵盖这个最佳点的培训？我找不到任何东西。所以我决定创建这个 Udemy 课程。而且

是的，这太棒了。它真的起飞了。它已经存在大约六七周了。是的，到目前为止已经有 14000 人参加了。我的意思是，根据你指数级的观看次数。我不知道我是否会在相同的时间范围内获得这样的数字。我认为这只是时间问题，你就会超过我。这是一个如此热门的话题，而且这是一个如此好的课程。你还可以

通过将其作为现场培训提供，你可以获得关于内容的实时反馈，找出哪些内容有效，找出如何更好地解释事情。因此，人们现在在 Udemy 上获得了这种经过精心润色的材料。是的，当然。Aradi 平台确实给了我这个机会，观看你的许多培训也给了我这个机会，正如我所说，这绝对是现象级的。所以我认为我打断了你，你当时正在解释

什么是 AI 工程师。你谈到了它如何融合了数据科学、软件工程和 ML 工程。还有什么？就日常任务而言，它还包括什么？AI 或 LLM 工程师的职责是什么？AI 工程师首先要做的是选择他们将用于解决问题的模型，即 LLM。事实证明，这可能是我被问到的最常见的问题，你可能也被问到很多次，那就是，比如，

比如，什么是最好的模型？什么是最好的 LLM？当然，答案是没有一个最好的 LLM。对于手头的任务，有合适的 LLM 可用。而且，你知道，你必须首先真正理解需求。第一步是深入研究业务需求，并以此来指导你的决策过程。通常，你至少要考虑三大类事情。

首先，你查看数据。数据的质量和数量如何？它是结构化的还是非结构化的？你真的要了解你正在使用的数据。

然后你查看评估标准。你将使用什么来决定这个模型是否适合用途，是否解决了问题？我在这里并不是在考虑交叉熵损失之类的模型指标。我考虑的是业务结果指标。就我们 Nebula 而言，合适的人是否被选拔到合适的工作岗位？但要考虑你试图通过商业解决方案实现的目标，并找到衡量这些目标的指标。

然后是第三类非功能性内容。预算，你能在培训上花多少钱？你能在推理上花多少钱？你的上市时间是多少？你下个月需要吗？还是你可以花六个月的时间来构建它？这确实有助于指导你使用闭源还是开源，并帮助你做出许多这些决定。

但通常在执行任何操作之前，在构建任何 LLM 之前，第一步是构建一个基线模型，这通常根本不是 LLM。

我不知道你是否记得在 Untappd 的时候，在我们使用深度神经网络之前，我们实际上是从启发式模型开始的，它就像一堆 if 语句的笨拙代码。但这给了我们一个起点。我认为我们从未将其投入生产，但它给了我们一些我们可以用来衡量结果的东西。

然后，我记得你构建了一个逻辑回归模型，如果你记得的话。有趣的是，在 Untappd 的时候，我们正在构建这些自然语言处理模型，以找出谁最适合某个角色，Untappd 的这段时间与深度学习突然出现并易于使用的时间段相吻合。所以……

虽然在使用大型 LLM 之前构建基线模型并进行测试是一个好主意，这对于你拥有的某些用例来说可能有点过头。另一个限制是，这取决于你拥有多少数据。尽管 LLM 已经改变了这一点，因为 LLM 在少量数据的情况下也能表现良好。你甚至可以用相对少量的数据来微调它们。但历史上曾经是这种情况

如果你拥有较少的数据，你会使用更简单的模型。在 Untapped 平台的早期，在没有任何用户的情况下，你没有任何实际数据可用，这是有道理的。现在很有趣，因为你实际上可以问 LLM，对这个简介进行评分。那是你当时必须做的特征工程，你编写函数来传递任何被传递到模型中的文档

以提取，好的，软件工程师，这个描述中是否提到了这个字符字符串？然后，好的，我们将二进制 yes 放入此软件工程师列中。所以很明显，这非常简单，但它确实走了一些路，即使是那种异端模型。对。它可以帮助你，它给你一个基线。它让你了解这是低标准，并且

然后，当你努力构建更细致的 LLM 时，你可以看到好处，你可以看到你在该基线上的改进。我认为今天你不会推荐构建启发式自然 LLM。不会，但也许可以从传统的机器学习模型开始。从逻辑回归模型开始是个好主意。当然。

作为 Super Data Science 的听众，你可能不仅对 ML 和 AI 模型等数据驱动功能感兴趣，而且还对底层数据本身感兴趣。如果是这样，请查看 Data Citizens Dialogues，这是一个由 Colibra（领先的数据智能平台）的人员带来的具有前瞻性的播客。

在这个节目中，你将直接听到来自行业巨头、创新者和来自 Databricks、Adobe 和德勤等一些世界最大公司的高管的第一手资料，因为他们深入探讨了数据领域最热门的话题。你将深入了解数据治理和数据共享等广泛主题，以及对诸如“我们如何确保全球范围内的数据可读性？”等具体细微问题的答案。

对于那些对数据质量、数据治理和数据智能感兴趣的人来说，我发现 Data Citizens Dialogues 是对这个播客的良好补充，因为这些话题我不会在这个节目中深入探讨。因此，虽然数据可能正在塑造我们的世界，但 Data Citizens Dialogues 正在塑造对话。在 Apple、Spotify、YouTube 或你获取播客的任何地方关注 Data Citizens Dialogues。

酷。好的。所以是的，所以你说我打断了你，在你甚至选择 LLM 之前，你有一个基线模型来进行测试，看看如何给自己一个简单的基线，然后选择 LLM 是下一步。那么，你首先必须选择是走闭源路线还是开源路线。这是一个重要的决策点。我会说几乎总是

第一个答案是先从闭源开始。没错。就像开始一样，当然，使用像 GPT-4 或 Mini 这样的模型……我甚至会说，我建议从最昂贵的模型开始。因为你，你知道，一开始要在你自己身上进行大量的原型设计，成本……

使用最强大的 GPT-4.0 将是微不足道的，看看你是否可以在那里做到这一点，然后也许检查一下，一旦你考虑投入生产，你认为你会有很多用户。但实际上，我们最近与 Andrew Ng 的采访中说，

他说，你知道，就让它保持在那个非常昂贵的模型上。因为他就像，你构建的几乎所有概念验证，即使你将它们部署到生产环境中，如果你一开始在生产环境中运行的成本只有几十美元，你将非常幸运。对。

因此，你不必担心通过切换到 GPT-4.0 Mini 来花费美元或几十美元。无论如何，这只是一个观点。不，当然。当然，这是完全有道理的。我认为有些情况下你会转向开源，也许有些情况下你会从开源开始。

显然，最常见的一个以及指导我们在 Nebula 的一个情况是，你拥有大量专有数据，这些数据中包含细微的信息。我们想微调一个我们相信能够超越前沿的模型，因为我们拥有这个专有数据集。这显然是一个很好的理由。你仍然可能会从 GPT-4.0 开始，但随后你会用它来训练模型。

另一种非常常见的情况是，如果你有私有数据，你有敏感数据，你不想将这些数据发送给第三方。你不想让它离开你的基础设施，尽管你可能会从某种 OpenAI 企业协议中获得一些保证。但在这些情况下，你仍然希望使用开源，将数据保存在本地并在你的模型上运行它。

可能有些情况下，在推理时你非常关注 API 成本，因此你可以通过运行开源模型来降低成本。然后我能想到的最后一件事是，如果你试图构建在设备上运行或无需网络连接即可运行的模型，那么同样，当然，你需要使用可能不是 LLM，而是 SLM，例如 Lama 3.2 之类的小型语言模型。

不错。我想也许要补充一点，你说你可以节省开源的钱，这在推理时进行大量调用时尤其如此。如果你要在推理时进行少量调用，那么启动一个运行 GPU 的服务器来运行该开源模型最终可能会更昂贵。

比调用闭源模型，只是 API。当然，这取决于参数的数量。如果事实证明你的问题可以用小型模型解决，那么它可能会相当便宜。但如果你开始谈论 LAMA 3.1 405B，那么是的，使用 GPC 4.0 可能更便宜。是的，除非你有大量的流量。这里还有一些其他的技术，你想谈谈 AI 工程师使用这些技术

例如 rag、微调、自主式 AI。这些都是当今非常流行的术语。是的，当然。选择模型后，AI 工程师的下一步是确定，好的，我们将如何优化将此模型应用于手头的难题？当然，然后世界分为两部分。你可以进行训练时间优化，也可以进行推理时间优化。而且

训练优化。这就是我们开始的地方。大约一年半前，所有的人都在做这件事。我们都在微调模型。我们正在使用 Qlora 来微调开源模型。你也可以微调闭源模型。

但在过去一年半的时间里，人们越来越多地使用推理时间技术来更好地优化你的模型以适应手头的难题。我认为这方面的鼻祖可能是多轮提示，我们很久以前都在做，给出许多例子，将其提供给模型，并说，嘿，这里有一些例子。现在，这是你被问到的新问题。

然后出现了 RAG，你将问题查找你的数据库，好的，我是否有可以提供给模型的信息，这将有助于它回答这个问题？RAG 有很多花哨的东西。你可以使用许多技术来更好地选择最有可能对模型有用的信息，使其偏向于给出高精度结果。

RAG 有很多种形式。有一种分层 RAG，你对你的向量存储进行多次查询以获取更大、更广泛的文档，然后是更精细的部分。这对我来说是新闻。酷。例如，假设你有一家航空公司，有一个聊天机器人，有人问这样的问题，你知道，我今年圣诞节要去巴黎。圣诞节期间我在巴黎可以做什么？

也许首先，将进行 RAG 查询以检索所有关于前往巴黎的信息。将返回大量信息。然后，第二个查询将选择节日季节的活动，以便它在上下文中更精确一些。所以第二个是在第一轮返回的文档上进行 RAG。我明白了。这很酷。

实际上还有另一种与之类似的方法，称为查询条件 RAG，这有点类似于我们在 Nebula 做的事情，那就是你从用户那里获取原始查询，比如我

我想去巴黎做与假期相关的事情。你将其传递给 LLM，并让 LLM 将其改写成最适用于 RAG 查询你的向量数据存储的查询形式。因此，在你查找数据存储之前，这会给你大约两轮。再次提高你提供给模型的上下文精度。

是的，非常酷。这对于我们在 Nebula 的工作肯定非常有效。我认为我们可能没有提到的一件事是 RAG 代表检索增强生成。这意味着它是生成式 AI，但你通过检索相关文档、可能来自数十亿甚至数万亿文档的庞大存储库中相关信息来增强你的响应。你可以有效地搜索这些文档。

当然。正如你所说，通常你这样做的方法是，你将问题传递给能够将该问题（文本块）转换为一系列数字的编码器 LLM。你可以将这些数字序列视为某种多维空间中的一个点，它在某种程度上反映了该文本的含义。

如果你还获取了你所有的数百万个文档，并且你还为每个文档找到了相关的向量，那么 RAG 背后的想法就是你只需找到最接近你提出的问题的文档。你获取这些文档，并将它们放入提示中，并对 LLM 说，嘿，让我提供一些上下文，这可能有助于你回答这个问题。这就是这个想法。谢谢，Jan。

然后是微调和自主式 AI，我认为是剩下的。你想稍后再深入研究这些吗？不，不，当然。它们都是我们可以花一整集播客来讨论的话题，当然，任何一个话题都可以。它们都很有趣。自主式 AI 当然现在很流行。这是一个如此热门的话题。自主式 AI 是一种技术。当你认为，好的，自主式 AI 对我来说有效时，有一些标志性情况。为什么？

其中之一是当你遇到一个复杂的问题时，很明显，将其分解成一系列更小的步骤是有意义的，每个步骤都定义明确，并且共同可以解决更大的问题。当然，这听起来像是自主式 AI。

另一个明显的情况是，当你想能够使用工具时，例如，假设你正在编写一个将生成一些代码的模型。你可能希望能够调用一个工具来执行该代码，然后告知 LLM 它是否有效，它可以使用该工具来迭代该解决方案。

你可能使用自主式 AI 的第三种情况可能最难解释。这是你试图解决一个问题的情况，在这种情况下，LLM 需要超越与用户的聊天的结构。它比这有更长的寿命。它具有一定的自主存在性。也许为了使其具体化，一个例子可能是，再次，如果我们考虑这家航空公司，

与用户进行这样的对话，用户会说：“我想在假期去巴黎。我能做什么？”他们进行了这样的对话。也许几天后，LLM 检测到去巴黎的机票价格下降了 100 美元，它可能会

主动向同一用户发送短信，说：我注意到机票价格下降了。您现在对在巴黎度过圣诞假期感兴趣吗？所以从这个角度来看，它有一种超越这次聊天对话的存在。这听起来像，好吧，这是一个自主的 AI 解决方案。是的。我认为关键的区别在于，自主式 AI 允许您主动而不是被动。所以

如果您在非自主环境中使用 LLM，例如转到 ChatGPT 并输入查询，它会对您的查询做出反应。

正如您所说的那样，用自主系统主动抓取网络以寻找交易、注意到价格下降并通知您的示例完美地说明了这一点。这确实是一种很好的解释方式，可以肯定。然后，自主式 AI 最近出现了一个非常相似的细微差别，那就是推理框架的出现。

这也许只是应用自主式 AI 的一种方式。但这些框架能够多次调用（通常是调用相同的 LLM）来引导它完成推理过程，非常类似于我们看到 O1 预览如何推理特定主题的方式。因此，推理框架是 AI 工程师可以用来尝试从其模型中获得更多信息的另一种技术。

您是否曾经感到孤立，周围的人不分享您对数据科学和技术的热情？您是否希望与更多志同道合的人联系？别再犹豫了。Super Data Science 社区是连接、互动和与 600 多名数据科学、机器学习和 AI 专业人士交流想法的理想场所。除了人脉网络外，您还可以通过导师计划获得直接的职业支持，经验丰富的成员帮助初学者学习。什么

无论您是想学习、合作还是提升职业生涯，我们的社区都能帮助您取得成功。加入 Kirill、Adelant、我和数百名每天都联系的其他成员。立即开始您的免费 14 天试用，网址为 superdatascience.com，并成为社区的一员。非常酷。因此，我们已经稍微谈到了模型选择的工作方式。

往往是 AI 工程师最重要的角色之一，才能使应用程序有效。我们已经稍微谈到了在闭源模型和开源模型之间进行选择。您还有什么想在这方面介绍的吗？我认为可能更多地讨论该开源部分以及我非常喜欢讨论的内容，即基准测试和排行榜等。我真的很喜欢这个。

所以，是的，我个人发现，当我第一次尝试为某个问题找到合适的开源模型时，我感到非常不知所措，因为有很多这样的模型。除了使用所有这些模型进行原型设计之外，很难确定哪个模型适合我尝试使用的任务。

当然，您首先访问的地方是 Hugging Face 的开放式 LLM 排行榜，这是一个宝贵的有用信息宝库。但同样，它也有很多内容。因此，当您调出它并看到所有这些信息时，我总是首先做的事情之一就是选中该框以在表格中显示参数数量，因为您需要将自己定位在比较相同的事物上，并查看正在比较的模型大小。我还使用过滤器进行缩放。

然后，您需要查看不同的基准测试，并确定哪些基准测试与我尝试解决的问题最相关。

基准测试有很多问题。有很多已知的局限性。它们可以被操纵。有很多污染的例子。人们对基准测试进行了过度拟合。但即便如此，它们仍然可以为您提供正在使用的内容的合理指示。因此，它们为您选择模型提供了良好的基础。

如果我可以直接进入其中一个，那么我可能最喜欢的基准测试是 GPQA，它代表 Google 证明问题和答案，这是一个非常有趣的基准测试。他们在一年多前的一篇论文中提出了这个指标。他们在 11 月 23 日发表了它。其想法是他们想提出一个遥不可及的指标。

一些模型在很长一段时间内都无法解决的问题。你知道，我们想在这里设定一个非常高的标准。这就是当时的思路。因此，他们提出了 GPQA。其想法是，它包含 448 个关于物理、生物和化学的难题，攻读博士学位或拥有博士学位的人应该能够解决。事实上，如果您把它交给人们

那些级别的人，他们在 GPQA 测试中的平均得分约为 65%。因此，65% 就像专家级人类水平。

如果您把它交给像我这样没有博士学位的人，然后说，好吧，就是这样。您可以使用 Google。您可以花半小时，只要您想，就可以浏览 Google，找出这些问题的答案。

那么人们的得分将为 35%，惨淡的 35%。——这里的一个关键点是，当您谈到我们没有让任何博士说，好吧，有人拥有生物学博士学位，并用化学博士学位的问题来测试他们时。就像这 448 个难题科学问题在您获得 65% 的博士级人类时被隔离一样

这不仅仅是，哦，这个人有博士学位，因此他们非常聪明，可以解答所有这些问题。就像，不，他们可以解答其学科的科学问题的子集。完全正确。65% 的时间。当这第一次出现时，这似乎是一个遥不可及的目标。

然后，Claude 3.5 Sonnet 在今年早些时候问世，其得分约为 59%。人们都震惊了。哇。它已经接近人类专家水平了。然后，几周前，新的 Claude 3.5 Sonnet 问世，其得分恰好为 65%。它与专家级人类水平相当。这简直是，太离谱了。太壮观了。呃，

然后，是的，我想这对您来说不是什么新闻，但 O1 预览当然打破了所有这些数字。O1 预览的得分已经超过 70%。在这些科目中，它超过了博士水平。它只是一个预览模型。它只是一个预览模型。

我们相信猎户座即将到来。这就是谣言告诉我们的。告诉我关于猎户座的信息。猎户座显然是 GPT-5 的代号，或者可能是 O2，无论它是什么。显然，OpenAI 的下一个模型的代号为猎户座。事实上，我认为最近的猜测是，人们开始看到这些模型的收益递减。彭博社的一篇文章暗示猎户座

也许我们不会像预期的那样被 OpenAI 的下一个模型所震撼。令人惊讶的是，当 3.5 Sonic 一段时间前问世时，Claude 3.5 Opus 仍然没有问世。我们仍在使用 3.0 Opus。因此，我们想知道这是否是由于它尚未准备好，尚未达到该水平。

但无论如何，下一代模型肯定会进一步推动 GPQA。我完全忘记了 Opus 的事情。因为 Claude 的大小方式，您有俳句，这是他们的轻量级模型，有点像 GPT-40 Mini。

然后是十四行诗。在我的脑海里，因为我一直在使用 Cloud 3.5 Sonnet，它非常棒，并且在许多任务上的表现都优于 Cloud 3.0 Opus，所以我完全忘记了 Opus，那就是更大的模型，我们仍在等待它。是的，是的。

但人们说，新的一年年初的几个月，我们将期待猎户座和下一个 Anthropic 模型。我相信这些基准测试将再次被打破。然后，如果您查看 Hugging Face 排行榜上的开源模型，您会发现它们尚未达到这个水平。这并不令人惊讶，

我认为目前的获胜模型（这种情况一直在变化）是阿里云的 QEN 2.5 模型。在 GPQA 中，它是领先者。它的得分为约 22%，所以它甚至不接近，甚至没有达到我的水平。这里有一些拼写，供我们所有的听众参考，因为我们在视频版本中也没有文字显示在屏幕上。

因此，猎户座不像爱尔兰的姓氏。它就像猎户座的腰带，O-R-I-O-N。然后，您刚才提到的阿里巴巴的 Quen 是 Q-W-E-N，就像 Gwen，但用 Q。它是 Quen 2.5。

是的，目前，其 320 亿版本在 GPQA 中得分最高。但这些事情一直在变化，这就是为什么非常值得收藏 Hugging Face LLM 排行榜的原因。我想我们可以在播客笔记中添加一些书签。是的，当然可以添加到节目说明中。很好，因为我有……

大约八九个我经常访问的排行榜书签。它们是如此令人难以置信的资源。如果您将您的八九个发送给我们，我们将把它们放在那里。或者，您可以创建一个小的 GitHub gist，其中包含您的八个，我们可以链接到它。您的选择。我们将看看会发生什么。想办法解决。我会发给你的。

是的，如果我可以放纵自己再浏览几个我喜欢的指标，那就是提到一些基准测试很有趣。因此，在 Hugging Face 上您还会看到一个名为 MUSR（M-U-S-R）的指标，它代表多步软推理。

同样，这也是这些指标中的另一个。现在是关于思考难题。会向模型提出一些问题。我最喜欢听到的一个问题是，他们会得到一千字的谋杀悬念短篇故事。他们必须回答谁是动机

手段和机会。很好。是的，很棒吗？呃，所以您会看到 Musa 的结果。因此，如果您正在寻找推理能力，这就是您要查看的内容。嗯，然后是，嗯，

名为 MMLU Pro 的基准测试。MMLU 是一种非常著名的指标，广泛用于语言理解，但它相当有名。大规模多任务语言理解，是的。完全正确。它因存在一定的污染以及指标中的歧义而受到批评。

但 Hugging Face 现在使用一个名为 MMLU Pro 的指标，它解决了这些问题，并且是一个更好的指标。因此，如果您正在寻找能够展示语言理解能力的模型，那么这就是您要查看的指标。然后，还有一个指标，然后我就停止讨论指标了，它被称为 BBHard。BBHard 代表 Big Bench Hard，也是……

所以这是他们两年前提出的另一个指标。其想法再次是，这将测试未来的能力，测试 LLM 今天无法做到但我们希望有一天能够做到的事情。这是对 LLM 在所有现有基准测试中得分达到 90 年代的事实的回应。

一个例子，其中一个问题类别是关于识别文本中是否存在讽刺意味。你知道，这是一个非常巧妙、细致的测试，几年前，LLM 真的难以应对。

截至目前，Claude 3.5 Sonnet 的得分为 93%。令人难以置信。因此，这种未来的能力已经成为现在的能力。是的，它的发展速度非常快，这使得 AI 工程或 LLM 工程成为一个非常有趣的领域。而且显然创造了所有这些工作，与我们拥有的数据科学家职位数量不相上下。当然。

Hugging Face 上还有一个完全不同的排行榜，许多人并不了解，它非常有用，我觉得告诉人们这件事是在做一件公益事业。它被称为 Hugging Face LM Perth 排行榜。

这是一个排行榜，可以帮助您了解在不同硬件上使用不同大小模型的硬件要求、时间和延迟。如果您访问此排行榜，那里有很多信息，但您必须知道有一个名为“查找最佳模型”的单独选项卡。您必须单击该选项卡。这就是所有神奇之处发生的地方。这是精彩的部分。它会显示一个散点图。

所以这是一个散点图，其中散点图中的每个点都代表一个模型。x 轴是延迟，即模型需要多长时间才能做出响应。y 轴是准确性，即针对基准测试的性能。每个点都有一个大小，标记的大小。标记的大小是它占用的 GPU RAM 量。

您会看到所有现有的模型，您可以将鼠标悬停在它们上面并获取有关它们的信息。这意味着，如果您有特定的硬件设置，您有一个带有 40 GB GPU RAM 的特定盒子，并且需要它在特定时间内做出响应，您可以简单地查看此图表并选择您可以使用的模型。这是一个非常有用的资源。非常酷。现在，在像我们在 Nebula 中这样的情况下……

我们有一个全新的任务类型，也许我们有一些竞争对手也在尝试做类似的事情。回到未开发的示例，即使在今天，我们的大部分 AI 研发仍然涉及为合适的工作找到合适的人。想象一下，如果我们能够回到五年前，展示我们现在取得的成果，我们会完全被震惊。LLM

在其中扮演着重要角色。它们不是万能的。还有其他技巧。但 LLM 在为我们的用户提供出色的匹配结果方面发挥着重要作用。那么，您知道，我们到目前为止一直在谈论排行榜，但这些排行榜是相对通用的智能。是的，当您遇到像我们这样的特定问题时，您有什么想法吗？是的，你会怎么做？

简短的答案是，数据科学家喜欢称之为经验性的，他们有时会这么说。这听起来如此复杂。是的，没错。这是一个您必须学会对高级管理人员、高管说的词。您说，好吧，这是经验性的。或者，活跃的研究领域是另一个小表达。但这意味着其中涉及大量的反复试验。

您将要做的很多事情是，您将查看这些基准测试，这些基准测试可能会帮助您找到三到四个模型。也许您是从微软的 Fi 和谷歌的 Gemma 开始的，还有其他几个，也许是阿里云的 Quen 和 Meta 的 Lama。然后，您将使用一部分数据构建原型，并根据我们一开始讨论的一些结果指标对其进行衡量。

您将使用它来帮助指导您做出选择哪个模型的决定。同样的情况也适用于不同的技术。例如，当您考虑，好吧，我是否要进行微调，在训练时工作？或者我是否要在推理时工作，使用 RAG，使用自主式 AI？这同样取决于一些经验性工作，一些反复试验，但是

有一些经验法则。如果您专注于尝试提高准确性和专业技能，那么它往往倾向于 RAG。我们之前讨论过一些关于自主式 AI 的要点。因此，您将使用它们来指导您，但最终还是要进行反复试验。尝试一些事情，看看您会得到什么结果。我想在这种情况下，我会补充几点。您可能需要创建一个测试集，这取决于任务，您可能需要手动创建它。

或者您可能需要，您实际上可以使用一些最先进的专有 LLM 或非常大的 Lama 3.1 405B 来生成与您的测试用例相关的合成数据。在这种情况下，我要建议您注意的一件事是，确保您的模拟数据

涵盖您预计用户将使用的各种用例。因此，如果您天真地转向 Cloud 3.5 Sonnet 并说，您知道，我们的问题类型，例如，我想创建一个工作和候选人的测试集，我希望您能够，您知道，想出一个合理的评分，您知道，它们彼此匹配的程度如何。如果您只是天真地这样做，

您最终可能会陷入您可能希望所有样本都来自的整个样本空间的相对较小的一部分。因此，我们在 Nebula 自己利用的一个很酷的技巧是使用真实的平台数据来启动模拟。因此，也许您有用户进来。因此，在我们的例子中，用户可能会进来并说，为我在纽约找一个数据科学家。

这对于测试我们的测试数据集来说不是一个非常丰富的查询，但我们可以将其作为起点，作为信息的一部分，然后 Cloud 3.5 Sonnet 或任何专有 API 或您知道，您可以用来模拟数据的某些大型开源模型可以创建数据科学家简介，可以创建数据科学家工作来进行匹配或相关的要评分的工作。对。

然后您就会真正了解，好吧，这些是我们拥有的用户。他们涵盖了这些行业，并且您获得了代表您的用户群正在寻找的内容的良好范围的种子。这完全说得通。有一些公司专门帮助完成此过程，包括生成合成数据和构建真实数据集。所以有

scale ai 和 scalecom，这方面做得非常好，这就是他们所做的，这也给了我一个机会来提到他们也有一个排行榜，我是一个排行榜迷，所以，所以，排行榜排行榜，所以有一个名为 SEAL 排行榜的排行榜，他们制作了这个排行榜，其目的是关于……

专门将模型应用于业务问题。他们有很多这样的模型。他们衡量的事情，例如，他们有一个专门用于工具使用的模型，这非常有趣，哪些模型更擅长使用工具。他们还有一个非常有趣的模型，称为对抗鲁棒性。

这专门用于测试模型，以查看它们在拒绝回答不当问题和不被误导方面有多好。这尤其重要和相关，因为例如，如果您正在处理

您将用作航空公司客户支持聊天机器人的聊天机器人。您想确保人们不会能够制造炸弹，让它制造炸弹或制造一些非常容易成为模因并会令人尴尬的东西，并将其发布到各地。因此，知道您选择的是在对抗鲁棒性方面很强的模型，这非常有帮助。

因此，scale.com 生成测试数据，这非常有用，并且还有一些很棒的特定于业务的排行榜。

渴望了解大型语言模型和生成式 AI 但不知道从哪里开始？查看我的综合两小时培训，该培训可在 YouTube 上完整观看。是的，这意味着它不仅完全免费，而且也是无广告的。它是一个纯粹的教育资源。在培训中，我们将介绍深度学习转换器架构以及这些架构如何实现最先进 LLM 的非凡能力。

它不仅仅是理论。我的动手代码演示（其中包含 Hugging Face 和 PyTorch Lightning Python 库）将指导您完成 LLM 开发的整个生命周期，从训练到实际部署。立即在 YouTube 上查看我的大型语言模型生成式 AI 动手培训。我们在节目说明中为您提供了一个链接。很好。S-E-A-L。还有什么我们必须了解的排行榜，爱德华？哇。

如果您要打开这扇门。让我看看。是的，有一个叫做 Vellum 的。事实上，我会说 Vellum.ai 排行榜是第一个。这是我的第一个书签。这是我的第一个书签。这是我第一个打开的，因为 Vellum 拥有的东西很难找到，

对于所有主要的尖端模型，每百万输入标记的成本、每百万输出标记的成本以及上下文窗口大小。我实际上看到它不在镜头内，但在镜头外，有一台笔记本电脑。

爱德华在录制时留下的打开的笔记本电脑。它位于 Vellum 页面上。所以我已经注意到了。它具有上下文窗口、模型名称和以百万标记为单位的输入成本。这很有趣，因为当您描述这一点时，我想，我们是否已经在节目中讨论过这个？为什么我对 Vellum 如此熟悉？这是因为我一直都在您的肩膀上阅读它。我是一个排行榜迷。

就在那里，总是在我的笔记本电脑上。所以是的，Valium AI，它非常有用。它也有一些其他的东西。它具有我们之前提到的 BB hard 指标。呃，

未来的能力。将 Vellum 与 Hugging Face 等进行比较的一大优点是，在 Vellum 中，您可以同时看到开源和闭源。因此，您可以看到一些大型开源模型（例如您提到的 Lama 405B）正在与尖端模型竞争。它正在排行榜上不断攀升。因此，从这个角度来看，它非常有用。我认为，哦，还有几个

排行榜。因此，Hugging Face 有一个大型代码排行榜，您可以在其中查看模型在编写代码方面的能力。它不仅涵盖 Python 编码（这是许多人知道的指标），还包括 Java 编码、JavaScript 和 C++。所以这是另一个非常好的。然后 Hugging Face 有大量的排行榜。他们有医疗模型的排行榜，这些模型专门用于医疗领域。它有金融服务

排行榜、不同的口语语言，例如西班牙语、韩语和日语，以及视觉生成排行榜。因此，Hugging Face 有大量的排行榜。非常好。我确实看到您的列表上还有一个我想提到的，那就是 LMSYS。是的。L-M-S-Y-S，这真的很酷，因为那个

评估是通过一对一的比较进行的，其中人类用户会根据他们提出的查询评估输出 A 或输出 B 是否更好。这是一个更昂贵的排行榜，需要收集这些数据。我不是说您一定是在付钱给用户来，但这是劳动密集型的。这需要付出很多努力，但它提供了与数据相关的独特视角。

相对于其他许多排行榜而言。我们实际上有一整集是关于这个的。Joey Gonzalez 教授参加了节目，我不知道，现在可能大约一年前了。因此，我们将节目说明中提供一个链接，供人们查看该集。

我可以提到他们实际上已经改名了。它不再被称为 LMSYS。最近，他们刚刚改名，正如您所看到的，它被称为 LMArena.ai。这是 LMSYS 的新名称。这是一个更好的名字。是的。

这是一个更好的名字，但 LMSYS 就像我们一样，它已经存在了这么长时间，每个人都知道 LMSYS，所以很难改变它。但是，是的，它现在被称为 lmarina.ai。如果您现在去那里，这对社区中的每个人来说都是一件非常棒的事情。我们都可以通过自己动手和浏览并对模型进行投票来为这个竞技场做出贡献。我相信截至目前，

顶级位置将属于 Gemini 1.5 flash 的最新版本，Gemini 获胜。它直接跃居榜首。对不起。Gemini 1.5 pro 直接跃居榜首。嗯，人们认为这可能是 Gemini 2 的预览版本，预计将在下个月左右发布。哦，

因此，在我们录制节目的时间点，当您收听本节目时，它可能已经被取代了。但截至目前，它位居榜首。好吧，所有这些关于其他排行榜和评估 LLM 的竞赛的讨论，您自己也提出了一种创新的指标，一种创新的测试方法。

LLM 质量。您想告诉我们吗？好吧，感谢您提出这个问题。所以这是一个我做的非常有趣的项目。它给我带来了极大的快乐，因为我是一个排行榜迷。我决定自己也尝试一下。我曾经想过让模型互相竞争

制定一些非常简单的规则，这意味着模型，您将有四个模型互相对抗。他们将获得一定数量的硬币。事实上，他们一开始有 12 个硬币。在每一轮中，他们必须选择从其他玩家中拿走一枚硬币，并将一枚硬币送给其他玩家。但在他们做出决定之前，他们有机会通过向他们发送消息与所有其他玩家私下交谈。

他们接收信息，并据此决定选择谁以及给予谁。他们可以建立联盟，可以联合起来对付其他模型，如果两个参与者，两个LLM决定联合起来对付同一个模型，那么他们会得到额外的硬币奖励。因此，他们有动力尝试建立联盟。

呃，你可以去，所以它被称为Outsmart，这就是我给它起的名字，因为模型会互相超越，我已经运行它了，我想我会把链接放在节目说明中。

是的，很多人运行并玩过它。其中一件非常有趣的事情是你可以看到轨迹。你可以看到他们对所有其他模型所说的话，以及他们分享的私人策略。他们被告知其他模型不会被告知策略。这只是为了他们自己的记录。所以他们可以说明他们在做什么。

他们确实会制定计划。他们所做的事情肯定很阴险。更强大的模型往往表现更好。我喜欢看看，通过这种规则结构，它是否能够将更强大的模型与更弱的模型区分开来。你会看到那里有一个排行榜可以查看，你可以自己玩游戏，看看它们如何互相算计。制作它非常有趣。老实说，这真是一种乐趣。

- 酷，那么当我访问Outsmart并玩它时，我能做什么？我能改变什么作为用户？- 你实际上只需要启动游戏。

- 启动游戏。所以你不会选择LLM？- 不，但我鼓励大家，你可以下载代码，然后输入你自己的密钥并选择LLM。但由于它使用我的密钥，我在它的公共互联网版本中使用的是廉价模型。但它非常容易下载并且非常易于配置，因此你可以自己运行它来尝试不同的模型。

是的，作为一个旁观者，你可以启动游戏，然后观看它们竞争。你可以观看它们彼此发送的消息，因为它们会互相攻击。然后你的游戏结果会被记录下来，并添加到不同模型的ELO评级中。非常酷。是的，这让我们很好地了解了我们可以用来评估和选择适合我们任务的LLM的各种方法。

我们讨论了闭源、开源。我们讨论了各种排行榜，包括你自己的。一旦你选择了模型并将其应用于问题，你知道你想使用哪个模型，

AI工程师做什么？他们是否将其交给另一个团队进行生产化？这是一个很好的问题。答案是这取决于具体情况。不同组织的界限不同，但AI工程师或AI工程团队也负责模型的生产化正变得越来越普遍。同样，这也有许多不同的方法。

一种非常流行且我喜欢的方案是使用像modal.com这样的产品，我们在Nebula中使用它。这是一个最棒的平台。它被称为无服务器AI平台。它允许你部署你的模型，以便它在云端运行。

你可以通过端点调用它。但你也可以只使用Python代码。使用Python代码，你可以运行你的代码，它可以本地运行你的模型，也可以调用云端。代码看起来几乎相同。所以感觉就像你只是在本地运行某些东西一样。事实上，它正在调用云端。

modal的伟大创新在于你只为模型实际运行的时钟周期付费。当你调用它时，它会启动，你开始付费。然后它会处理你的请求。如果其他请求进来，它会保持运行几分钟，然后它会平静地关闭，然后你停止付费。当然，这在创业领域非常非常有用。

我们邀请过Modal的首席执行官Eric Bernhardson来参加节目。他坐在你坐的地方。我们做了一期节目，现在可能已经两年了。同样，我们会在节目说明中为你提供这些信息。Eric Bernhardson，一个才华横溢的人。事实上，他最近在LinkedIn上发布了他过去一年的GitHub贡献。人们在他们的GitHub个人资料上显示的7x52矩阵。

这让你感觉很傻。哇。就像每天一样。他是一个超额完成任务的人。我坐在神圣的地方。太棒了。Modal是一个很棒的产品。如果有人没有玩过，你可以玩，因为你还可以获得

我认为每个月有30美元的免费积分。所以如果你在那里尝试使用模型，没有任何借口。它非常容易，而且可以免费尝试在无服务器模型端点上运行模型。是的，他使部署模型到生产环境变得非常容易。

这是一种方法。还有一些其他的类似产品，但我认为其他的你不能以这种方式付费。我认为他们没有这种创新。但是Hugging Face Endpoints非常有用。RunPod也是一个不错的选择。事实上，我认为你最近邀请了Luca Antiga来自Lightning.ai。

他们有Lightning Studios，它允许你部署到他们的云端，这是另一个很棒的平台。是的，Lightning Studios使在类似Jupyter Notebook的环境中进行原型设计变得容易，有点像在Colab中，如果你想为你的任务使用强大的云端GPU，你可以非常快速地使用它们，但是你可以无缝地将其转换为生产应用程序。他们在那里做着很酷的工作。我相信我们也会在节目说明中为你提供Luca Antica的节目。

然后还有，所以AI工程师还可以更全面地进行部署。那就是如果你负责构建rag管道，例如如果你在推理时间和训练时间都进行了优化，并且你已经内置了，呃，

围绕它的功能，那么这可能是你负责部署整个服务的事情。这可能是你放入Docker容器中的东西，你正在AWS或GCP上部署Kubernetes，并且你负责整个生产服务。它可能有多个工程团队正在调用的端点。这也是另一种模型。

然后更进一步，如果你正在使用代理并且你已经构建了一个代理AI平台，你可能有一个环境，一个代理环境，你有多个代理协同工作，你可能需要负责部署所有这些。

一些代理平台为你提供了一种将其部署到其云端的方法。例如，LandGraph有一个LandGraph平台，允许你将你的完整代理集部署到他们的云端。

Crew AI有Crew AI Enterprise，这是另一个。因此，你可以使用这些生产企业代理平台来在生产环境中运行你的代理。精彩的节目，Ed。我知道会是这样的。

嗯，如果人们想继续学习AI工程或在该领域追求职业生涯，那么在本期节目之后，他们下一步应该做什么？当然，我会完全厚颜无耻地宣传一下我制作的这个Udemy课程。制作这个课程非常有趣，这是一种享受。呃，正如我所说，你鼓励我这样做，我非常感激，呃，

我觉得我发现了这个差距，因为我没有看到其他课程能够让你对所有这些不同的方面有如此全面的了解，包括选择合适的模型、训练时间优化、推理时间优化和部署、RAG、代理AI。所以完整的课程都在Udemy课程中。是的，我希望一些人能看看。

是的，再次强调，这是LLM工程，掌握AI和大型语言模型。我们会在节目说明中提供Udemy课程的链接。是的，对不起，我打断了你。太棒了。我会稍微不那么厚颜无耻地宣传一下，但我会大力宣传另一个Udemy课程，那就是你关于机器学习数学基础的Udemy课程。

我只是觉得，这又是那些非同寻常的事情之一。就像一个惊人的，如此宝贵的教育资料宝库，这是需要在大学学习这种东西的事情。你需要投入大量的时间和金钱才能学习关于深度学习的这种基础信息。

所有这些都是可用的。事实上，我认为在你的YouTube上，你拥有大部分内容。许多内容是免费的。然后，如果你想做练习和笔记，那么你在YouTube上会有增值服务。是的，完全正确。所以我的机器学习基础课程，我已经

我有一个录音棚录制的版本，大型教育巨头Pearson为我支付了在录音棚里度过四个漫长的周末的费用。大约有15天的录音时间，诸如此类。然后他们有一个专业的制作团队将它转换成令人惊叹的高质量专业录音，这些录音完全可用。整个课程现在都可以在O'Reilly平台上获得。

他们还非常慷慨地给了我一个独特而不同寻常的例外，他们允许我使用网络摄像头在家录制相同的材料

并将其发布到YouTube和这个Udemy课程。现在，这样做以及我自己做的缺点是我只完成了一半。所以线性代数已经涵盖了，微积分也涵盖了，还有一点概率论。但是还有很多概率论、统计学和数据结构与算法需要加入。所以计算机科学还需要加入YouTube和Udemy。但是是的，所有这些都在YouTube上免费提供。

我们会在节目说明中提供链接。YouTube版本和Udemy版本之间唯一的区别是，如果你想稍微支持我一下，那么你可以在YouTube上购买它。这很好。但是你也可以在Udemy版本中获得完全解答的解决方案。但是所有教育内容都在其中。

我几乎不需要告诉你的听众这一点，但是老实说，你在这方面非常擅长，能够将事情分解成小块并在此基础上构建。我已经看到你解释了很多次事情，这只是一个巨大的资源。谢谢你，Ed。我真的很感激。实际上，作为听众，你可能会有一个问题，那就是当LLM可以做很多事情的时候，为什么我还需要学习机器学习的数学基础？当你构建LLM时，这太神奇了

训练或部署生产AI系统，有很多机会。如果你能够深入了解这些东西是如何工作的以及如何部署它们，你最终可以获得一些巧妙的东西，这些东西将特定于你的应用程序，并且实际上会给你带来护城河以及公司。绝对的。拥有这个基础非常重要。你看到那些没有这个基础的人

特别是如果你在训练中遇到问题，或者你开始看到收益递减，而你又没有那种可以依靠的基础，那么就会困难得多。完全正确。好的。然后是我对所有客人的两个问题。你有没有给我们推荐一本书？

好吧。我的意思是，我做好了准备。我不知道。假装你不知道。首先，我应该说我非常讨厌阅读。我是一个非常糟糕的读者。你可以在健身房听有声书。我这样做了一段时间，但还不够。我来自一个全是狂热读者的家庭。他们是真正的多产读者。我是家族中的科学家，而他们都是非常，他们的技能非常高超。所以当我们进行每周的家庭Zoom会议时，他们真的被分成两半。

家庭Zoom会议的前半部分是每个人都在问我技术支持问题。为什么Wi-Fi这么奇怪？为什么我看不到我的电子邮件？这是前半部分。然后后半部分是关于，哦，这是一本好书，真好。我家族里的其他人似乎每周至少能读完一本书。他们确实做到了。他们确实会强迫我时不时地阅读。而且

我最近读的东西，那是六个月前的事了，但仍然相当近，是一本名为《克拉拉与太阳》的书。对。如果你知道的话。我知道。我开始读了。它真的……所以它是石黑一雄写的。是的。而且它……

在某些方面，它不是科幻小说，但它肯定有科幻元素。但他不是科幻作家。他还写了《长日留痕》，这是一本非常著名的获奖书籍。但它是关于一个类人机器人的。故事设定在未来。类人机器人被称为AF，即人工朋友。而且

它是从这个人工朋友的第一人称视角写的，这非常有力。关于它如此令人震惊的事情是这本书是在

大约在ChatGPT发布前一年写的。所以它早于。我的意思是，现在这种事情更多的是我们所有人都在思考的事情，但它早于ChatGPT，这使得它更加贴切。而且它真的很有感染力。就像我敦促你读完它一样。我会继续读下去的。哦，是的，很棒。真的很棒。好的，然后因为我们快没时间了，在自然光下录制，虽然有趣的是，当我这么说的时候，一盏灯亮了，

这也是日落的标志。不，我是按计划来的。难以置信。虽然不够亮，无法照亮我们脸上的摄像头。所以最后一个问题是，人们应该如何在节目结束后与你联系或关注你的工作？好的，谢谢你问这个问题。对我来说，这很简单。最好的联系方式是通过Facebook。

我非常喜欢在LinkedIn上与人联系。你听到有些人说，你知道，如果你想在LinkedIn上与我联系，那么写一些简短的内容说明你在哪里听到的等等。我这样做。我不是那样的人。我就像，我是一个，我是一个LinkedIn董事会。你是一只狮子。是的。

我不知道。我不记得它的缩写是什么，但是如果你的LinkedIn描述中全部大写的LION，这意味着你接受所有请求。我明白了。那么我就是其中之一。我不能挑剔。我完全开放接受所有LinkedIn请求。请尽管来吧。我喜欢成为社区的一员。

如果这让你感兴趣，如果AI工程领域看起来很有趣，并且你有一些职业问题，那么我随时都可以让你随时提出问题。我也反应很快。如果你有想法，如果你正在做一些涉及LLM的工作，并且你在想，我应该使用哪个模型？我应该参考哪个排行榜？诸如此类的事情，那么请与我联系。我喜欢

参与这些事情。所以通过LinkedIn与我联系。这是最好的方式。非常慷慨。非常慷慨的提议，也非常慷慨地与我们在这里共度了如此宝贵的时间。谢谢你，Ed，感谢你精彩的节目。在合作十年之后，能邀请你参加节目真是太好了。能参加节目真是太好了。我知道我会玩得很开心，而且我确实玩得很开心。谢谢你，John。谢谢你邀请我。这真的太好了。

今天能与你分享令人难以置信的Ed Donner真是太好了。在今天的节目中，Ed介绍了AI工程作为一个混合角色，它结合了数据科学、软件工程和ML工程技能，在美国大约有4000个当前职位空缺，与数据科学家的职位空缺数量不相上下。他谈到，在选择LLM时，你应该考虑从闭源模型（如GPT-4-0）开始进行原型设计，然后如果你的数据专有、隐私要求高或推理成本高，则可以转向开源选项。

他向我们介绍了AI工程中的关键技术，包括使用特定领域的数据微调模型、RAG（检索增强生成）用于使用相关上下文增强响应、代理AI用于自主主动系统。他还谈到了评估模型的重要基准，例如用于测试专家级知识的GPQA、用于语言理解的MMLU Pro以及用于测试高级能力的Big Bench Hard（BB Hard）。

最后，他向我们介绍了AI系统的部署选项，包括用于无服务器部署的modal.com、用于无缝原型设计到生产的Lightning Studios、用于完整生产服务的Docker和Kubernetes以及用于代理AI部署的专用平台。与往常一样，你可以在superdatascience.com/847上获得所有节目说明，包括本期节目的文字记录、视频录制、节目中提到的任何材料、Ed的社交媒体资料的网址以及我自己的网址。

当然，感谢Super Data Science播客团队的所有成员，我们的播客经理Sonja Brajovic，

我们的媒体编辑Mario Pombo，我们的合作伙伴经理Natalie Zheisky，研究员Serge Massis，我们的撰稿人Zahra Karchei博士和Sylvia Ogweng，以及我们的创始人Kirill Aromenko。感谢所有这些人员为我们制作了另一期精彩的节目。为了让超级团队为你制作这个免费播客，我们非常感谢我们的赞助商。你可以通过查看节目说明中的赞助商链接来支持这个节目。而且

如果你自己有兴趣赞助一期节目，你可以通过访问johnkrone.com/podcast获得如何操作的详细信息。

否则，请与那些喜欢学习AI工程的人分享本期节目。在你最喜欢的播客平台或YouTube上评价这个节目。显然，如果你还不是订阅者，请订阅。但最重要的是，我希望你能继续收听未来的更多节目。我很感激你的收听。我希望我能继续制作你多年来喜爱的节目。直到下次，继续努力吧。我期待着很快与你一起再次享受Super Data Science播客。

847: AI Engineering 101, with Ed Donner 01:12:14 Share