We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Finding Nemotron

2025/7/2

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript

People

Joey Conway

Topics

Joey Conway: 我个人对机器学习和人工智能感到兴奋，并且认为NVIDIA在这个领域处于非常有利的位置。我在NVIDIA专注于非视觉工作负载，例如自然语言处理，并且见证了过去五年中语言模型的巨大进步。我的软件开发背景、对新技术的熟悉以及对新机会的兴奋，使我能够在NVIDIA很好地发展。我对我们目前所处的这个伟大的转折点感到非常兴奋，并且有很多有趣的事情可以讨论。

Deep Dive

Chapters

This chapter explores the landscape of open foundation models, NVIDIA's contributions to the field, and the significance of reasoning capabilities in AI. It highlights the benefits of open-source models for enterprises and the community.

NVIDIA's long-standing commitment to publishing open-source models and data sets.
The importance of reasoning in handling complex queries and achieving higher accuracy in AI applications.
The role of open-source contributions in accelerating AI technology development.

Shownotes Transcript

在本集中，我们与Joey Conway坐下来探讨NVIDIA的开源AI，从基于Llama构建的专注于推理的Nemotron模型到极速的Parakeet语音模型。我们讨论了开放式基础模型的价值所在，企业如何考虑部署多模型策略，以及为什么推理正成为现实世界AI应用中的关键差异化因素。特色： Joey Conway – 领英 Chris Benson – 网站、领英、Bluesky、GitHub、X 链接： Llama Nemotron Ultra NVIDIA Llama Nemotron Ultra开放模型提供突破性的推理精度 AI的独立分析 Parakeet模型 Parakeet排行榜在此处和此处试用Llama-3.1-Nemotron-Ultra-253B-v1模型</context> <raw_text>0 欢迎收听Practical AI播客，我们将深入探讨人工智能的实际应用以及它如何塑造我们的生活、工作和创造方式。我们的目标是帮助使AI技术对每个人都实用、高效且易于访问。无论您是开发者、商业领袖，还是只是对炒作背后的技术感到好奇，您都来对了地方。请务必通过LinkedIn、X或Blue Sky与我们联系，随时了解剧集发布、

幕后内容和AI见解。您可以在practicalai.fm了解更多信息。现在，让我们开始节目。♪

欢迎收听Practical AI播客的另一集。我是您的主持人Chris Benson。今天我们邀请了一位来自NVIDIA的优秀嘉宾。正如大家所知，我们之前也邀请过其他嘉宾。今天，我想介绍Joey Conway，他是NVIDIA AI模型产品管理高级总监。欢迎来到节目，Joey。

是的，谢谢Chris。很高兴来到这里。我期待着这次谈话。我知道我们将讨论你们最近发布的几个模型。但在我们讨论之前，我一直想了解一下，你的背景，你是如何来到NVIDIA的，特别是，你所从事的工作领域。我很想知道你是如何进入这个领域的，以及你工作的独特之处。是的，是的。

我认为从我的背景来看，我过去做过一些软件开发，也做过一些产品管理。我认为在回顾过去，比如说10年前，未来令人兴奋的事情，

我个人非常兴奋的一件事是机器学习和人工智能。我认为在寻找机会时，NVIDIA，这几乎是十年前的事了，NVIDIA处于一个绝佳的位置，他们参与了很多事情，而且事情才刚刚开始。所以我得到了一个加入NVIDIA的绝佳机会。然后在这里，公司从事各种令人惊叹的技术。我认为我们团队关注的一个领域是可访问性。

基本上是非视觉工作负载。所以我们很多年前就开始做BERT和NLP之类的事情，也许还有更简单的语言模型，可以对意图进行分类等等。我认为我们已经在这个领域努力了一段时间，并且我们很高兴看到在过去的，比如说五年里，取得了巨大的研究成果和突破，我认为这使得

我们将会说指数级的改进，并将其带入更主流的用例。所以我认为，在我这边，熟悉软件开发并对新技术感到自在，然后是对新机会和成长空间的兴奋，NVIDIA在这方面做得非常好。所以我认为这是一种同时发生的几种因素的结合。如果你问

也许五六年以前，当我们第一次开始这段旅程时，我可能不会猜到我们会到达现在这样一个伟大的拐点。但我们很高兴来到这里，并且有很多有趣的事情发生，我们可以讨论。

明白了。我知道今天我们将深入探讨，我希望你能向听众介绍一下我们宣布的两个模型。但如果你能稍微介绍一下它们，并介绍一下当今开放式基础模型的现状，

以及人工智能研究目前所处的位置，以及NVIDIA为何在这个时候发布这些模型。它们与其他所有模型的不同之处是什么，以及为什么你们在开放与封闭方面做出了一些选择，诸如此类的问题。所以，如果你能告诉我们这些模型的信息。是的，我很乐意从现状或世界现状开始，我也可以在那里提供一些背景信息。所以

在NVIDIA方面，我们多年来一直在致力于发布模型，并提供开放权重检查点，并在某种程度上提供数据集。

已经相当长一段时间了，五年、六年、七年，甚至可能更长。我们也训练了许多大型语言模型。我试图回忆起正式名称，我认为是Megatron LM或Megatron NLG。它有一些变体，但这可能是四五年前的事了。我们这么做有几个原因。一个是我们想了解如何充分利用我们的基础设施，

所以从计算、存储和网络方面来看，我们还想验证软件堆栈，并确保软件运行良好。所以我们自己做。我们在此过程中学到了很多东西，我们可以改进。然后我们也这样做，因为我们希望社区从中受益并学习。所以我们发布所有这些软件、这些技术、这些论文，我们这样做是为了让其他人更有信心，并且可以从比我们更好的起点开始。

所以我们多年来一直在许多不同的领域这样做。例如语音或转录、大型语言模型，甚至是较小的语言模型，例如BERT。所以我们已经做了很长时间了。我认为与此同时，这个领域有很多公司，他们都有不同的商业模式，我们的目标是支持他们。所以我认为……

在语言模型领域出现了一些重要的时刻。我可能会说BERT是几年前的一个重要时刻。那是我们达到一个拐点的时候，语言模型可以完成以前无法完成的基本分类任务。所以能够从人们的打字或说话中解析语言，并能够帮助

理解他们的需求、他们正在寻找什么、他们正在请求什么类型的操作。这是一个伟大的突破时刻，我们对此感到非常高兴。我们发布了许多软件来支持它，并确保它在我们的基础设施上高效运行，人们可以从中受益。我认为对世界来说，另一个重要的时刻可能是ChatGPT。我认为看到这一切发生，我们非常兴奋，并且

OpenAI是一个很棒的合作伙伴。所以当这种情况发生时，这是一个转折点，许多人开始意识到可能的潜力。这背后进行了惊人的研究。所以这是沿途的另一个重要里程碑。所以当这些事情发生时，我们总是在问我们如何才能提供帮助。所以我们如何才能帮助更多的人利用这些技术并从中受益。

所以当ChatGPT出现时，许多公司开始询问他们如何利用这些技术。当我们在该领域工作时，我们喜欢支持我们的合作伙伴，我们认为公司使用它们是很好的。

我们开始发现，并非每家公司都能使用一些现有的解决方案。所以场景是，比如说，一家公司拥有他们不想离开其场所的专有知识产权，他们需要将其保留在场所内。可能会有这样的场景，他们想要控制模型、模型架构。他们想要控制输入的数据，以及他们微调的内容。

所以在这些场景中，几年前有很多开源贡献。许多公司正在训练基础模型，我们对此感到非常兴奋。所以我们尽最大努力支持这一点，包括我们发布的软件，以确保它运行良好，所有这些合作伙伴都可以构建最好的模型。我们自己也做了一些这样的事情，以确保

我们不仅仅是为他人发布东西，我们自己也使用它来确保它运行良好。我们总是试图不断扩展规模。所以我们总是试图突破可能的极限。所以在这种更广泛的努力中，我们发现有机会为之做出贡献。所以说，新的基础设施出现时，我们有时可能是第一个向人们展示如何做到这一点的人。

就我们一直在做的长期大规模贡献而言，这是我们继续参与该领域的动机和原因之一。所以从几年前许多公司和合作伙伴发布开放模型的时刻到今天，我们看到的最大突破可能是发生在一月或二月左右，即开放权重模型现在支持推理能力。

这得益于DeepSeek作为该领域的领导者之一，能够添加推理能力，这意味着我们可以处理复杂的查询，并且现在可以开始分解它们、思考它们，并提出以前无法提出的答案。以前，我们通常只有一个问题输入和一个答案输出，我们必须快速完成。现在有了推理，模型可以花一些时间来思考。

所以这可能是我们非常兴奋看到的下一个重要里程碑。也是我们在这个时间点发布模型的主要原因之一，即希望帮助推动这项技术发展。我很想知道，这引发了一个问题，这是一个非常棒的回答，顺便说一句。这里有很多内容我想和你深入探讨。

我认为首先，我们现在经常听到各种组织谈论推理。很高兴从你这里听到。但我认为这是一个短语，在生成模型的背景下，推理是什么意思？

你能谈谈一下，从NVIDIA的角度来看，在这个语境下“推理”这个词是什么意思吗？在这种情况下，推理与我们从NVIDIA和其他组织看到的能够完成惊人任务但并非一定被归类为推理模型的一些强大模型有何不同？是的。

我可以在这里给出一些答案。我认为社区中对定义有一些差异，但我认为我会尝试分享我看到最一致的地方。所以也许我会回顾几个阶段。所以我认为，四五年前，当我们拥有这些模型时，我们会说像GPT类型的架构，它们是

自回归的，这意味着它们会经历一个循环。所以它们会生成一个句子的一个词，然后将其反馈，生成下一个词，下一个词。这是一种技术，他们用来生成段落和我们以前从未见过的这种长篇生成内容。

这使它们能够写句子，写故事。在那样的最初阶段，我们面临的挑战是它只会做，比如说，下一个词的预测。我们难以控制它，引导它，指导它，以及保持这些答案的高精度。

所以OpenAI在ChatGPT中取得的一个重大突破，全世界都体验到了，那就是你可以告诉模型或给它更好的指导和方向，它会遵守。所以每个人都对诸如对齐和强化学习之类的技术印象深刻并感到兴奋，

这是一个了不起的突破。我认为我们都从这项技术中受益。然后下一阶段允许我们使用这些模型，而不是仅仅做下一个标记。它们现在实际上会坚持我们提出的主题。所以它们可以遵循指示。如果你说，现在把你的故事改成要点格式，或者做一个引言、正文和结论，它现在实际上会这样做，而不是仅仅给你下一个词和一个大段落。

所以这是沿途的一个重大突破。今年，推理的重大突破，我们这样看待它，就是有一些问题或挑战，模型直到今天才能解决。我们看到的推理是，还有一整套我们以前无法解决的问题和挑战。

以及背后的基本原理，然后我会举一些例子。以前，当我们与模型互动时，我们通常会给它一个

提示，所以你给它一个问题，或者你可以在提示中给出一些例子，然后是一个问题。你可以说，你知道，我想做数学题。这里有一些关于数学如何运作的例子，现在这里有一个数学问题。模型在这方面做得相当好。然而，我们看到的是，问题越复杂，模型在第一次尝试中解决它的难度就越大。

所以人们经常会给它这些复杂的查询，比如一个文字题。你知道，我们可以用两列火车以不同的速度相互驶近的经典例子。以及你必须经历的推理，比如第一列火车以这个速度行驶。第二列火车以那个速度行驶。它们的方向是什么？它们的速率是多少？比如然后逐步进行并提出需要回答该问题的四五个子问题的能力。

模型在这方面做得并不好。通常我们必须做的是，我们必须手动地或尝试使用另一个模型将问题分解成子问题，然后尝试找到使用不同模型来回答每个子问题的方法。有很多手动缝合和临时工作需要完成。

有了推理，现在最大的突破是，我们现在能够在训练时围绕这项技能进行训练，我们向它们展示这里有一个问题。然后是分解它的不同方法。这些有时被称为推理轨迹，我们展示了有多种方法可以解决它。但是我们将所有这些例子都放在那里。然后我们给出答案。以前，它非常关注的是这里有一个问题，这里有一个答案。这就是我们教模型的方式。

但如果你考虑人们如何学习，这很有道理，你知道，当你做数学题时，得到正确答案总是好的。但有时，仅仅理解如何解决问题比得到正确答案更好。所以推理的重大突破在于我们现在可以教模型。这里有一种思考复杂问题的方法，能够不仅给出正确的答案，而且给出你用来得出正确答案的所有支持性思想和过程。

这适用于科学领域，例如生物学、化学、物理学，适用于数学，适用于软件开发。它应该适用于大多数领域。这是我们以前无法很好地解决的下一层挑战性问题。

在开放空间中，这些都是数据和如何教模型的技术以及人们可以下载和使用的最终检查点方面的一大突破。所以从我的角度来看，这非常令人着迷。我认为这是我听过的关于现代语境下推理是什么的最佳解释。

你能稍微深入介绍一下实际的模型本身，并为每个模型描述它们如何融入生态系统，它们试图解决什么问题？我知道至少有一个是推理模型，并谈谈，你知道，为什么选择它们而不是其他一些模型，它们在各自的子类型生态系统中，你能介绍一下模型本身吗？

是的。就我们在NVIDIA所做的工作以及我们想要贡献的内容而言，有一个很棒的……

蓬勃发展的开放权重模型社区。有很多优秀的合作伙伴，从中国到美国到欧洲。我认为我们在亚洲的其他地区。我们非常高兴看到这些生态系统不断发展壮大。在NVIDIA，我们想要关注的是我们知道人们很难解决的一些更难的问题，并且以一种能够使所有社区受益的方式来解决这些问题。

所以在看到开放权重模型能力不断提高的过程中，我们试图思考所有技术和技能，以创建更好的推理模型。所以我们的重点是，我们希望能够利用开放社区中最好的东西，并使其变得更好。所以你会看到，随着我们的发展，一个主题是，我们不断评估开放社区中最好的东西，以及我们如何改进它。

所以在我们决定发布这些模型之前，我会在高层次上分享一些关键技术，这些技术是关于我们可以在哪里做出贡献的思考。然后我会解释我们发布的模型以及我们为什么这样做。这太完美了。

是的，很好。所以在思考社区中现有的东西时，我们意识到，虽然有一些很棒的开放权重模型，但数据集并不一定都是开放的，工具也不一定都存在，技术也不一定像我们希望的那样透明或公开发布。

在思考这些挑战时，我们采用了创建模型的生命周期。比如说，你从一些数据开始，从一些架构开始，然后最后，你生成一个检查点，人们可以去部署和使用它，并在商业环境中从中获益。

所以在沿着这条道路前进的过程中，我们在预训练方面看到了一些东西，它通常是一组大型的未标记数据，我们用它来教模型关于世界、语言和内容的一般知识和技能。在这方面，没有那么多开放数据。而且如何做到这一点的技术并不像我们希望的那样公开或发布。所以这是我们考虑的一个地方。

我们考虑的下一个阶段是，一旦这个基础模型具有一些关于世界和能力的知识，人们通常会采用它并对其进行微调，或者使其成为如何与人互动或如何解决特定领域问题的专家。

所以我们想重点关注我们认为对企业公司很重要的内容。所以我们认为对社区和企业公司非常有帮助的一些技能，这正是我们在该领域的重点，即企业采用和增长，包括能够处理科学问答问题、数学、编码、工具调用或指令遵循，以及进行对话。

这些是我们认为企业将从中受益最多的几个关键领域。而这些挑战的另一方面是，在企业环境中，他们非常期待得到最正确的答案。他们希望避免幻觉或不正确的答案。他们希望模型遵循指示。如果我要求三个要点，我希望它是三个要点，而不是五个，也不是一段话。

然后在科学问答方面，还有一整个领域的公司正在从事药物研发或其他相当技术性的领域的工作，他们有复杂的问题，可以从模型的推理能力中获益，能够思考并有更多时间来运行这些推理调用，并反思和解决复杂挑战。所以这些是——在准确性方面，我们希望使这些能力和技能更易于社区获得。

然后在基础设施方面，我们知道这些模型非常强大。有了推理，我们引入的另一个挑战是它需要更多的计算和更多的迭代。所以每次生成一个标记，都需要一些计算。当你思考时，它会生成更多标记。

所以这里的挑战是，模型思考得越多，计算量就越大，潜在的成本就越高。但好处和突破在于，我们现在可以回答以前无法回答的更复杂的问题。所以我们想考虑如何优化模型以提高计算效率，这样当最终客户想要解决更复杂的问题时，我们实际上不会增加所有成本。所以这些是我们正在思考的关键挑战集。

所以在我们与Nemotron系列模型一起踏上这段旅程时，我们在3月份开始发布的内容以及我们开始庆祝这项事业的内容是我们所说的Llama Nemotron，这意味着我们从一个基础Llama模型开始，然后我们使用了社区中最好的开放数据

模型和数据集。所以我们从许多公共模型中提取数据，例如Mistral，例如我们自己的Nemotron，以及DeepSeq和Quen，这些模型在开放社区中取得了惊人的突破。我们使用这些数据来收集最好的数据和最好的知识，然后采用我们开放的软件堆栈中的一些最先进的训练技术，称为Nemo Framework，

并且我们能够利用LAMA模型来提高它们的推理能力，并能够在这些领域发布并赢得许多排行榜。在此过程中，我们所做的其他工作是缩小模型架构。所以我们所说的神经架构搜索，能够利用LAMA作为一种惊人且相当常见和流行的Transformer架构模型

我们能够通过一些方法来缩小模型架构，同时保持相同的精度。这也有助于降低成本和计算量。所以与此同时，我们引入了推理并使模型更强大。它也使速度变慢了一些。所以我们能够缩小模型架构，以尽可能保持速度。

最后，我们发布了三个模型系列。我们有一个我们称之为nano的模型，它通常是一个相当小的模型，可以安装在较小的数据中心GPU上。然后我们有super，它位于中间。它

适合一个更常见的大型数据中心GPU，例如H100或A100。然后我们有Ultra，这是该系列的第三个模型。Ultra适合在一个节点内，所以是八个H100或八个A100 GPU。Ultra通常是显示最佳能力、最先进精度的模型。

然后nano和super通常是我们看到大多数人开始使用、投入生产、构建和微调的基础。所以当我们发布这个系列的三个模型时，我们也发布了我们用来对它们进行后训练的数据。所以我们发布的所有这些数据都是开源的，并且可以获得。这包括所有数学和科学问答、聊天、指令遵循、推理和

非推理。所以我们在这里想要做的一件巧妙的事情是，以前，开放的模型要么是推理的，要么是非推理的，它们是单独的模型。我们可以理解企业部署两个模型的工作量是部署一个模型的两倍。所以我们第一次发布这些模型时所做的一件事就是将它们放入一个模型中。

这样一来，你可以问模型，你能推理一下吗？这更复杂。我愿意花时间和精力来投资答案。或者这是一个非常简单的答案，比如2加2等于几。你不需要推理。只要给我答案，不要在上面花费计算资源。所以我们发布了支持这种能力的数据集以及模型检查点。然后是我们在Nemo框架内部使用的一些软件，例如Nemo RL，我们也发布了其中的训练技术。并且

所以所有这些都构成了我们称之为NVIDIA Nemotron的模型、数据和工具系列。明白了。仅供参考，我们经常为了让人们了解大小和GPU，会谈论输入参数。你能为这三个版本分配输入参数吗？我们说nano是80亿个参数还是类似的东西？我会让你来处理这个。是的，并且……

我会告诉你我们今天所处的位置，以及我们对未来发展方向的一些看法。所以我们今天所处的位置是，对于nano，它是一个80亿参数的模型。我们确实刚刚发布了一个较小的40亿参数的变体，但我们可能会期望今天保持在80亿参数的大小。

当它是一个密集的模型架构时。那里的基本原理是，我们的目标是，比如说，一个24GB的NVIDIA GPU，大约是内存容量。在这个大小范围内，我们希望最大限度地提高精度能力。所以大概……

80亿个密集参数可能是我们将要保持在这个范围内的。在super方面，我们的目标是一个更常见且更大的数据中心GPU，例如具有80GB容量的H100或180GB的A。所以在那个空间中，我们预计大约500亿个密集模型参数将是最合适的，我们发布了一个490亿参数的模型。所以我们将来可能会保持在这个范围内。在ultra方面，我们发布的

我应该提到，这些都是Lama的变体。例如Nano是8B，我们将其精简到4B，但我们意识到在小规模下推理的能力，存在一些挑战，所以8B做得相当好。在super方面，我们从Lama 70B开始，这是一个很好的大小，但我们希望它适合一个GPU，所以我们将其精简到49B。在ultra方面，我们从去年夏天的Lama 405B开始，

以FP8精度运行大致适合一个节点。但我们的目标是看看我们能否缩小它并保持精度，因为一个节点仍然是一个相当大的部署空间。所以对于我们的ultra，我们在密集方面有2530亿个参数。所以它大致适合四个，大约是半个节点。

所以我们对这些突破感到兴奋，因为它确实与运行模型所需的成本有关。并且我们正在取得相同甚至更好的精度。我认为未来，

这方面可能会有一些变化。我认为英伟达最近在研究方面发表了一些关于混合密集架构的论文，其中有一些技术，比如，SSMs 或 Mamba 风格的架构，我们可以使输出生成更高效，并且

我们预计，随着推理的发展，更长的推理轨迹和思考能力，输出生成将继续成为更大的挑战。因此，我认为我们可能会看到，在我们这边，比如说，在未来使用一些最新的研究数据的新迭代中，输出生成的吞吐量速度提高 10% 到 15%。

然后，另一个令人兴奋的事情是我们期待的专家混合方面，我们预计在大规模情况下。所以可能在大约超大规模的范围内，我们已经看到很多社区，比如 Lama 4，DeepSeek 和 Quinn，它们都使用了专家混合，尤其是在大规模情况下。

我们预计这将成为未来的新趋势，并且我们认为我们也可能参与到这个领域，在大规模情况下。专家混合使我们能够获得更高的准确性，也使我们能够在更大的规模下提高推理效率。

我很好奇，正如你所说，你们是在 Lama 3.1 的基础上构建的，随着你们的进展，你们是否意识到，你和 Meta 团队（生产 Lama 的团队）是否在未来的目标特性和性能指标上是一致的？因为有很多不同的资源分配场所。

努力？你们是否非常一致，或者你们发现自己与 Meta 有所偏离？作为两个大型公司，你们是合作伙伴，一起工作，至少在基础层面都生产同类开源产品，这是如何运作的？你们之间是否有任何合作，或者你们只是各自说，我要去做我自己的事情，并在此基础上进行构建

因为到目前为止，他们已经构建了最适合你们想要构建的下一个基础。是的，Meta 是一个伟大的合作伙伴。所以我们确实以许多不同的方式与他们紧密合作。因此，我们一直对所有 Lama 的工作感到非常兴奋，大约一个半月前，他们举办了一个 LamaCon 会议。我们非常支持。我认为在他们的主题演讲中，

你会看到有一张关于 Lama Nemotron 的幻灯片，庆祝一些合作和成就。因此，我认为肯定存在重叠，而这些是我们尽可能尝试合作的地方。我认为他们也非常关注推理等挑战以及一些企业用例。因此，我们总是很高兴看到 Lama 的下一个迭代，因为它为我们提供了更好的起点，让我们思考还能在哪里做出贡献。

因此，我认为未来，这将继续是一次伟大的合作。我认为我们总是期待他们的模型的下一个版本发布。我们在我们的软件堆栈中庆祝它们，确保它们高效运行，并且我们可以帮助企业直接部署它们。然后，我们在 Nemotron 方面尝试看看我们还能从社区的其他地方和一些技术中贡献什么，以及我们可以取得什么样的突破。

因此，我认为未来我们可能会看到差异的地方可能是模型架构。我认为这些可能是不同研究突破在不同时间点出现的地方。因此，我认为那里可能存在时间差异。就准确性或能力而言，一般来说，我们正在关注非常相似的成就类型。因此，我认为这将感觉更像是增量增长，比如说，每隔几个月。并且

因此，我认为那将是我们发布所有数据的地方。我们以这样一种方式制作它，以便每个人都能从中受益。因此，我预计未来，我们将看到更多成就。除此之外，我认为

我们努力的一部分，我们上周在欧洲巴黎举行了一次会议，在那里我们宣布与欧洲的一些模型构建者建立合作伙伴关系，超过 10 个。因此，我们在那里目标也是尝试启用类似的生态系统，在欧洲有许多不同的语言、文化和历史。

因此，我们希望能够看到发生的事情，以及我们在那里合作伙伴非常兴奋能够投资和做的事情是，采用这些模型、这些技术和数据集，并将推理带到波兰语或……

那里的不同语言和地区，其中一些语言和地区更细致复杂。他们拥有历史和文化，而我们拥有通用的技能。因此，我认为未来，我们预计将在社区中看到更多这样的情况，某些国家、某些语言和文化的人们可以从首先在英语中发生的许多突破中受益。

这样他们就可以掌握这些技能。因为有些事情通常是可转移的，比如数学，一般来说，在各种语言中都相当一致。软件开发是另一个这样的例子。因此，我们非常乐观地认为，在英语中完成的工作以及我们发布的数据集应该能够帮助，比如说，引导，这么说吧，其他语言，并使它们能够运行起来。因此，每个这样的国家和领域……

都有他们可以庆祝的点，以及他们可以采用的地方，以及不同的挑战或障碍，比如说科学问题，用波兰语回答，例如，他们正在努力解决。因此，我认为这将是我们预计会看到大量增长的地方，我们对此感到兴奋。

好的。所以，Joey，这是一个对模型的很好的介绍，并对它们进行了阐述。为了在我们深入研究它们时进一步构建，我认为这在行业中经常被认为是，也许取决于组织。也许是竞争，你知道，竞争。但是，正如你已经很好地阐述的那样，今天在组织之间也存在明确的伙伴关系感。

因此，如果您现在正在收听此节目，并且您对 Nematron 非常感兴趣，也许您已经在您的组织中部署了 Lama 3.1，

人们应该如何，你可能拥有专有的，你可能拥有，你知道，来自，你知道，Gemini 或 chat GBT 或其他任何东西也部署了。那么，你在这里制作的模型，人们应该如何看待它，从某种意义上说，它是，

你知道，显然进展一直在取得，模型也在相互构建。因此，我认为每个人都相当习惯于这样一个事实，即你正在迭代你组织中部署的模型。但是现在，你知道，当你查看 Nematron 时，你可能拥有法律模型。

他们应该在哪里考虑 Lama？他们应该在哪里考虑 Nematron？他们可能在哪里考虑其他事情？当他们拥有所有这些不同的专有和开放选项时，你如何融入某人的业务？你会对此给出什么样的指导？是的，我会给出两个答案。我认为我会谈谈我们如何看待

评估模型和理解能力。然后，第二，我会专门回答 Nematron 的问题。我认为一般来说，我们鼓励人们拥有的思维模型是将模型视为某种类似于数字员工的东西。就像有一套他们被教导的技能和能力，他们接受过训练，以及他们真正擅长的事情。

因此，这些可能来自 OpenAI 或 Gemini 或 Cloud。那里有令人惊叹的模型。它们可能来自 Lama。它们可能来自 Mistral、Quen、DeepSeek。有很多选择。我认为我们内部的思考方式以及我们鼓励客户思考的方式是，所有这些模型都接受过不同数据集、不同技能集的训练。有一些事情是他们的发布者引以为豪并感到兴奋的。

主要的挑战通常是让公司了解这些模型的优势所在，然后将它们与内部使用这些模型的机会相匹配。我认为这就是更大的练习，知道这些迭代将继续发生。我们真的希望企业能够适应

这种发现和机会匹配过程。为此，我们发布了一套名为 Nemo Microservices 的独立软件，其中包含一些评估技术和工具，以及一些让企业采用内部数据并从中创建评估集的方法

因此，我认为这是一个很好的地方，我们希望看到更多的人能够投资，因为就像你面试员工一样，你正在寻找一套技能和能力。你应该能够面试模型。因此，我们希望这将是人们随着时间的推移会越来越适应的事情。然后是关于 Nematron 的第二部分，我们对 Nematron 感到非常兴奋的地方将围绕企业代理任务，并且

因此，如果有一些场景，你试图查看诸如复杂工具调用之类的事情，或者有一些场景，你拥有更复杂的查询，这些查询将受益于推理能力，这意味着你有一个查询，可能需要从不同的数据源或使用诸如计算器加搜索加数据检索之类的东西来回答。在这些更复杂的场景中，我认为我们非常兴奋，Nematron 应该是那里最好的模型之一。

我们鼓励人们考虑的其他事情是您将在哪里部署它。如果您对数据有限制，或者对您的计算能力有限制，也许它必须在本地，或者必须在特定地理区域，或者如果存在监管限制。我认为 Nemotron 系列模型提供了很大的灵活性，能够将它们移动到您需要的地方，无论是本地还是跨云，还是不同类型的云部署在不同类型的区域。

因此，这些可能是我们鼓励人们考虑使用它们的两大关键地方。我认为我们经常看到许多企业使用多种模型。我认为这通常是我们鼓励人们思考的方式，因为人们通常认为，哦，我正在使用 OpenAI，我已经准备好了。然后他们没有意识到可能还有一组不同的问题或不同的挑战，可以使用另一种解决方案来解决。

因此，我们的观点是，我们预计用例和机会将会增长。我们不认为这是一个固定的馅饼。就像每天我们都看到越来越多的模型可以解决的地方，以及越来越多的增长机会。因此，我们预计最终，将会有一个世界，那里有许多不同的模型一起处理不同的任务。

企业可以找到最适合他们的模型。他们甚至可能会采用 Nemotron 模型并对其进行微调。他们可能会说，嘿，这是一个它真正擅长的任务，比如工具调用，但我实际上拥有我公司内部的所有内部 API，我自己的内部工具。它需要成为这些方面的专家。因此，

他们可以采用我们发布的一些数据集，将其与他们可以使用一些 Nemo 软件创建的数据集混合，然后对其进行微调。然后，这个 Nemotron 变体成为他们在其内部工具领域进行工具调用的专家。他们甚至仍然可以在工作流程中使用 OpenAI 或 Gemini。因此，我认为我们看到一个世界，所有这些模型都一起使用来帮助解决业务问题和结果。

我喜欢这个。我认为这很棒。我认为这就是我们要去的地方。但我认为很多并非像英伟达这样的 AI 全球领先组织的组织正在努力找到进入这个领域的方法。他们已经开始使用一个或多个模型，并且正在努力提高他们的 AI 成熟度水平，即他们如何使他们的内部流程与

与我们拥有的这种多模型未来相一致。因此，我认为在这个领域有很多故事正在展开。我想快速提到的其中一件事，并不是为了让你偏离 Nematron，但你也知道，你们还有一个名为 Parakeet 的新语音模型。我想知道你是否也愿意谈谈这个，并分享一下它是什么，以及它也适合在哪里。是的。

我们做了很多工作，英伟达也发布了很多研究成果，它涵盖了模型架构、类型、用例和数据集。在语音领域，我们也已经工作了很长时间。在转录领域，挑战往往是，我们能否跨不同的口音和方言、跨不同的语言准确地转录音频，我们能否做到非常快速和高效？

因此，就我们一直在发布的内容而言，我们多年来一直在努力。在 Hugging Face 上有一个很棒的排行榜，我认为叫做 OpenASR，它是一个英语数据集和英语用例。我们一直在努力改进在那里发布的模型。

因此，我认为你通常会看到我们在前 10 名中占据大多数，使用不同版本的模型。我们经常与其他公司争夺第一名，我们很高兴看到社区推动事情向前发展，我们将继续努力。

但我认为我们在该领域取得的最新突破，我们对此感到兴奋的是，在 Parakeet 方面，有一些架构改进为我们带来了显著的飞跃。我想花一点时间谈谈这些，我可以在此处深入一点技术细节。在 Parakeet 方面，它基本上是基于快速 conformer 架构的，它改进了来自 Google 的原始 conformer。

我们感到兴奋的是，就模型架构而言，你也会看到我们对 LLMs 也这样做，我们经常探索模型架构空间，就什么是 GPU 上最计算效率而言。因此，在 Parakeet 方面，我们对深度可分离卷积下采样的方式进行了一些更改，基本上意味着

在输入开始时，有一些巧妙的方法可以缩小输入，以便我们可以减少一些计算成本，因为更长的音频片段被流入，并且我们可以控制内存。因此，通过这样做，我们能够看到推理速度大约提高了 2 到 3 倍，这意味着我们可以在相同的时间内摄取 2 到 3 倍的音频并进行转录，而不会降低音频质量。

然后我们还做了其他工作。那里还有很多巧妙的工作，比如更改注意力窗口以使其更全局化。然后我们还做了一些关于帧处理的工作。因此，能够将音频分割成块，并将音频正确地分割成块

所以我有一长串我们在那里完成的伟大的事情。我还想提几件事。我们在模型架构的解码器部分做了一些工作。我们有一套名为 CUDA 图的软件，我们可以使用它来获取更小的内核，并在 GPU 上更有效地调度它们。这同样也为我们带来了大约 3 倍的速度提升。

因此，我认为最终，你会注意到，尤其是在那个开放的 ASR 排行榜上，那里的实时音频 RTF 系数相当高，尤其与那里的替代方案相比。这是因为我们花费了大量时间，并且对如何在 GPU 上做到这一点有很多见解。我们尝试以一种我们可以打开并发布的方式来做到这一点。因此，理想情况下，其他公司和合作伙伴可以采用这些技术，并将它们纳入他们构建和发布的模型中。

令人着迷。好吧，我很感激这一点。感谢你阐述了这一点。当我们开始结束时，我知道我们已经深入探讨了未来以及事情的发展方向等等。但我很好奇，你知道，从你的角度来看，你坐在那里推动英伟达的这些努力向前发展，你正在寻找，我的意思是，这

在我看来，这可能是历史上最令人着迷的时期，当你想到，我的意思是，世界上正在发生各种事情，但在技术领域，人工智能和相关技术的开发正在越来越快，越来越广泛。当你想到未来时，你知道，我经常说，你知道，就像你晚上睡觉或一天结束时洗热水澡时，你正在

你的想法会去哪里？你对未来几年的可能性感到兴奋的是什么？你认为今天不可能实现的是什么？如果你只是作为最后的思考分享一下你在这个领域的愿望，我将非常感激。是的。是的。

我认为我会进入稍微更高层次的抽象，然后将其联系起来。我认为未来，我们真正感到兴奋的是拥有一个数字员工或数字员工队伍来帮助现有员工的想法。因此，我们认为未来，我们将继续让人们在伟大的公司做伟大的工作，然后用数字员工来增强和改进这项工作。因此，在对世界的未来展望中，比如说，我

我们与这些数字员工互动，无论是为了简单的事情，例如从公司的复杂系统中检索信息，进行简单的数据分析，还是为了更复杂的事情，例如能够进行预测或帮助预测未来即将发生的事情。我认为在让这些数字员工解决更复杂的任务方面，将会有一个巨大的空间。

并且能够在公司之间雇用或租用它们。你可以想象，在某些行业中，人们是他们领域的专家。他们可能会将数字员工租给其他公司，这些公司将它们作为依赖项或合作伙伴来构建产品。

因此，在这种未来世界中，所有这些数字员工或代理商一起工作，我们认为支持 Nemotron 之类的东西，能够提高单个模型、多个模型和整个生态系统的功能。所有这些最终都有助于我们获得更准确、更高效的数字员工。

还有一整套软件围绕着不仅仅是模型，而是让多个模型一起工作。当你拥有基于这些模型的数字员工时，还有一整套其他的挑战。你如何保持它们的最新状态？

你如何确保它们保持最新？他们了解有关您业务的最新信息，如果您的供应链发生变化或您的库存发生变化。因此，那里存在机会。我们正在研究数据飞轮，一个月前我们发布了一套名为 Nemo Microservices 的软件，以帮助人们采用这些数字员工，并使其在与企业知识和数据变化的交互方面保持最新和近期。但我认为未来，我们对这个领域非常兴奋，因为通常有很多……

当今许多困难或平凡的挑战和任务阻止我们去做我们更兴奋的事情，或者在我们增加更多价值的地方。我认为我们所有人都在日常生活中都能与之产生共鸣。因此，我认为未来，我们预计这些数字代理或员工将能够帮助我们显著地克服许多我们不得不做的事情，因为我们

系统很难，或者技术很难，或者事情没有像可能的那样好地构建。然后更多地关注我们可以前进、推动业务发展并为社区和经济做出更大贡献的更令人兴奋的地方。你那里有一个令人惊叹的愿景。我喜欢这个。嗯，

感谢你分享。在你结束这里之前，你再次给了我更多需要思考的事情。所以，我只想非常感谢你，Joey，来到节目中，分享你的见解，并告诉我们你在这里的新模型。我希望当你下次想要分享一些东西时，你会回来，并与我们的观众分享。非常感谢你。是的，听起来不错。感谢你的邀请。谢谢。

好了，这是我们本周的节目。如果您还没有查看我们的网站，请访问 practicalai.fm，并确保在 LinkedIn、X 或 Blue Sky 上与我们联系。您会看到我们发布与最新人工智能发展相关的见解，我们很乐意让您加入对话。感谢我们的合作伙伴 PredictionGuard 为该节目提供运营支持。请访问 predictionguard.com 查看他们的信息。另外，感谢 Breakmaster Cylinder 提供的节拍，感谢您的收听。现在就到这里。

但你下周会再次听到我们的声音。

Finding Nemotron 46:23 Share

Practical AI: Machine Learning, Data Science, LLM

Deep Dive

Shownotes Transcript

Finding Nemotron