We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Why Your GPUs Only Run at 10%! - CentML CEO Explains

2024/11/13

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Gennady Pekhimenko

Topics

Gennady Pekhimenko在访谈中主要讨论了AI系统优化和企业实施中的挑战，特别是GPU利用率低下的问题。他指出，许多公司只能达到10%的GPU效率，这其中存在许多原因，例如软件栈的低效、模型与硬件的不匹配以及对硬件资源的浪费等。他介绍了CentML公司致力于解决这些问题，通过优化机器学习工作负载（训练和推理），使其易于使用、廉价且高效。他认为，开源模型的快速发展正在缩小与专有模型之间的差距，这对于企业级AI应用的广泛采用至关重要。他还讨论了团队建设、组织结构、AI模型的推理能力、以及AI系统可靠性等问题。他认为，未来的发展方向是构建基于基础模型的应用，而非仅仅是新的基础模型，并且需要构建能够可靠地运行复杂系统的基础设施。他强调了成本效益的重要性，认为企业应该选择最经济高效的模型和解决方案。他还谈到了与云提供商的合作，以及如何利用机器学习编译器等技术来提高计算效率。最后，他还谈到了MLPerf基准测试的重要性，以及学术界和工业界在AI研究中的合作。 Gennady Pekhimenko还详细解释了“暗硅”的概念，即由于功耗限制而无法充分利用的芯片计算资源。他指出，现代芯片拥有大量的晶体管，但由于功耗限制，无法同时运行所有晶体管。这需要更智能的硬件利用方式，例如降低频率或动态分配资源。他认为，充分利用GPU的计算能力需要考虑功耗和散热限制，并介绍了CentML公司在该领域的一些技术突破，例如同时运行训练和推理工作负载。他认为，Python等高级语言虽然易于使用，但效率低下，而C++等低级语言虽然效率高，但难以使用。因此，需要开发更自动化、更智能的编译器来优化模型和硬件之间的匹配。他认为，未来的AI系统将更加复杂，需要能够可靠地运行复杂的系统，例如由多个Agent和模型组成的系统。他还强调了监控和调试的重要性，认为需要构建能够监控和调试复杂AI系统的工具。

Deep Dive

Chapters

Open-source models are rapidly improving, closing the gap with proprietary models. This wider access benefits developers and the broader AI community, fostering innovation and value creation. Building sophisticated systems on top of these models is now a critical focus.

Open-source models are rapidly improving and closing the gap with proprietary models.
Wider access to models benefits the AI community and fosters innovation.
Focus is shifting towards building applications and sophisticated systems on top of existing models.

Shownotes Transcript

https://centml.ai/pricing/

MLST 也由 Tufa AI Labs 赞助 - https://tufalabs.ai/ 他们正在招聘精通机器学习的工程师/研究人员，以从事 ARC 工作并构建 AGI！

https://www.dropbox.com/scl/fi/w9kbpso7fawtm286kkp6j/Gennady.pdf?rlkey=aqjqmncx3kjnatk2il1gbgknk&st=2a9mccj8&dl=0

1. AI战略和领导力 [00:00:00] 1.1 技术领导力和公司结构 [00:09:55] 1.2 开源与专有AI模型 [00:16:04] 1.3 硬件和系统架构挑战 [00:23:37] 1.4 企业AI实施和优化 [00:35:30] 1.5 AI推理能力和局限性

[00:38:45] 2.1 AI系统计算和认知局限性 [00:42:40] 2.2 人机语言模型通信适应性和模式 [00:46:18] 2.3 AI辅助软件开发挑战 [00:47:55] 2.4 AI时代软件工程职业的未来 [00:49:49] 2.5 企业AI采用挑战和实施

[00:54:41] 3.1 MLOps演进和平台集中化 [00:55:43] 3.2 硬件优化和性能限制 [01:05:24] 3.3 机器学习编译器优化和Python性能 [01:15:57] 3.4 企业机器学习部署和云提供商合作

[01:27:05] 4.1 多云机器学习基础设施和优化 [01:29:45] 4.2 AI代理系统和生产就绪性 [01:32:00] 4.3 RAG实施和微调考虑因素 [01:33:45] 4.4 分布式AI系统架构和Ray框架

[01:37:55] 5.1 MLPerf基准测试的起源和演变 [01:43:15] 5.2 MLPerf方法论和行业影响 [01:50:17] 5.3 AI学术研究与工业实施 [01:58:59] 5.4 AI研究历史和安全问题

所以，各位，我们大概是想在IT的基础上构建一些东西，对吧？我实际上认为，无论我们在那个三明治（IT）上构建什么，都会很有价值。不，如果模型明天被替换，比如用另一个模型取代注意力机制，我不知道，比如一些人们讨论的太空模型，就像一样，其他人说这将成为使用，但这只会是阻塞性替换，对吧？

你只会替换三明治里的一个模型。另一个看起来在三明治里。是的，IT会改变硬件的实现方式。但大部分情况下，这会让我们，硬件人员和编译器人员看到。

世界其他地区甚至不需要担心IT，对吧？他们只会得到更好的、高质量的回应，对吧？所以对我来说，重要的是我们不要只关注模型本身，而要关注我们贡献的整个堆栈。

人们仍然可以开发新的模型，构建新事物，但是如果堆栈成熟，人们就能从中获得价值，这会更好，对吧？如果你只投入精力去构建更好的基础模型，最终人们不会从中受益，对吧？我们只会浪费大量资源，而没有真正有形的成果，对吧。所以我不担心模型会出来。我认为，从系统角度来看，我们会做得更好，对吧，比我们以前在多少方面做得更好。

堆栈中是否存在耦合。你知道，我们喜欢认为我们正在构建这些独立的计算原子。你知道，我们可以构建在IT之上，构建在IT之上。但是，一定存在一些非常复杂的行为，你知道，什么出现了，以及整体系统作为交换这些组件的函数所具有的特性。

这个问题在非常低的层次上有许多不同的层面。我们的代理，比如，在幕后运行的是什么。其他核心，对吧？就像，并且实际硬件上运行。所以入口，它们是芯片，这个芯片与一些前通信媒介通信。

所以IT可以是，你知道，内部互连，比如任何东西，对吧，或者IT可以连接多个节点，可以是疯狂的，或者像蜜蜂一样的卡，或者像谷歌现在使用的专有光学互连。最终，在那个层面上，这些实体就像一个硬件组件，对吧？我们以某种方式编程它们，并且它们的交互非常可预测，对吧？它们知道它们会以我们编程的方式行事。

它们具有一定的复杂性，这并非很多不确定性，但这些非常重复。就像你设置训练和推理工作负载一样，即使你运行了数十亿个示例，所有轮次都更像是一样的。波动非常小。

存在一些事情，比如频率。它们可能会波动，但几乎所有其他事情都是固定的。所以在这里，在我们使用智力或所有编译器等东西编程芯片之后，事情是可以预测的。

但是，思考人们可以用这些硬件和软件做的事情是令人兴奋的，这些事情是不可预测的。所以由代理和其他参与者和模型构建的复合系统或一般系统可能是非常不可预测的，非常令人兴奋。这是一个非常开放的领域，我不会假装自己是专家。

但我认为这是一个非常有前景的领域。甚至很难想象界限在哪里，硬件我们知道有一定的限制。我们可以实现的技术，在芯片完全利用之后，你达到最大值，对吧？即使是80%，你知道，你也可以获得更多的力量。

但是，硬件的使用是无限的。没有限制。我们只需要确保人们的创造力不会受到该堆栈复杂性的限制。你只需要确保即使孩子们也能用它进行实验。所以，我认为很多人说ChatGPT的美丽之处就在于此。

例如，许多人从未意识到这项技术，比如我使用GPT来使用Python接口，我以前就觉得这些模型很酷，对吧？可能不如专有模型好，但非常强大，对吧？但对于其他人来说，这太令人震惊了，因为他们以前在类似于谷歌搜索的东西中看到过类似的东西，对吧？所以，无论使用什么系统，在幕后运行的系统必须具有易于操作的界面。

并且它不必像谷歌搜索那样，而是我们的声音。就像操纵世界其他地区潜在的可能性和现实一样。所有这些都是非常好的事情，对吧？这就是我认为这变得非常开放、非常不可预测，以及人类可以用它构建什么的地方。

关于可预测性，在硬件层面快速说明一下，我在ICML上采访了Cohere的某人，他们发表了一篇论文，指出在不同的硬件上运行模型时存在差异。我不知道你是否看过。显然，差异可能很大，尤其是在诸如风扇之类的长期事物上，你是否见过类似的东西？所以你的意思是……

结果取决于你运行它的硬件？是的，是的。

不同。

这里有两件事，很多人没有意识到，你澄清了，首先，我们现在运行的训练方式，即使在GPU上，忘记不同的硬件，就像标准的GPU一样。这相当不可预测，对吧？有公司会发现，如果你多次运行实验，结果会不同。

人们不明白为什么这是我们操纵浮点数方式的基础，对吧？所以就像每次运行时，如果你以不同的顺序相加相同的数字，结果会四舍五入不同，并且对神经网络来说，这很容易让它朝一个方向或另一个方向发展，因为它是一个非常多维的问题。所以这是一个问题。

在相同的硬件上运行相同的实验，在不同的硬件上会有更多差异，因为它们可以轻松使用非常不同的过程。所以我不认为，例如，我们运行实验。我的研究小组和公司都在使用Nvidia GPU、谷歌TPU和训练芯片，从根本上讲，你可以获得非常相似的模型收敛，所有这些模型，对吧？但是你需要小心精度等等，对吧？

所以我不认为硬件有什么错。硬件做的是你为它构建的东西，对吧？它通常具有一定的精度。

但是，如果你选择一个精度低且非常关注收敛的硬件，你可能会得到非常不同的结果。我不认为硬件从根本上改变了计算方式。是的，计算不是完全确定的。对吧。因此，你不能期望完全相同的结果，就像如果你问同一个问题，即使它使用相同的提示，检查GPT也不会以相同的方式回应。

是的，这很有趣。你知道，当我们构建普通的计算机应用程序时，使用C++或其他任何东西，我们告诉自己，我们可以验证它，我们可以测试它，它是确定的。现在我们正在构建下一代应用程序，构建AI应用程序，它们的行为越来越复杂，我们让它们成长，我们没有设计它们，这意味着我们开始构建基于代理的系统等等。你认为这看起来怎么样？

这是一个非常有趣的问题。同时具有挑战性，想想像汽车这样的关键领域。例如，他们更喜欢为汽车中构建的每个小部件提供证明。

现在你给他们一个说所有东西都可能并且不确定的东西，对吧？这可能会改变这种行为。所以这具有挑战性，并且在使用AI的某些领域，例如驾驶，非常难以销售，对吧？所以我们再次需要找到一种方法，将这些错误保持在边界内。

或者，例如，我们确保使用确定性的精度，或者限制芯片的一些性能特征，但确保线程以相同的顺序运行，所以所有内容都以相同的顺序运行，并且你使用int8之类的精度和浮点集，然后事情变得不确定，对吧？你需要进行某些更改，但如果发生这种情况，你将失去很多性能。因此，在某些关键领域，这可能是结果。

在其他情况下，我认为我们只是在神经网络周围建立理论，使其更健壮，能够处理噪声。社区中有一些非常棒的论文，人们尝试稳定训练过程和模型，使其对噪声不那么敏感。所以总的来说，像这样，解决预测结果可靠性的问题需要解决几个问题。并且，你知道，所有这些都非常。

回到开放源代码问题，在继续之前快速说明一下。你认为使用像Llama和Mistral这样的模型会带来什么影响？

我确实看到了它们的巨大价值，不仅因为这对我和少数其他像我这样的公司非常有价值，而且我认为这对我们的客户来说也是可用的。我认为，对于许多企业来说，它们对于AI实际上为世界带来重大价值至关重要。

所以，当开源公司或谷歌受益并投资于，你知道，像这样的闪亮玩具时，他们可以烧掉数十亿美元而没有结果，我认为对我来说。除非对像财富500强公司这样的第二波采用者有益，否则我认为这还没有成功。这些公司通常没有像我提到的这些公司那样多的专家，他们是第一波。

因此，他们中的大多数可能不会自己构建基础模型。他们也有很多敏感数据。所以结合这两点，他们要么选择将敏感数据提供给其他人，比如另一个超级公司，要么开始构建自己的AI，或者利用开源模型并走一条需要更少专业知识的道路，比如微调模型以适应他们自己的数据。这样，他们会产生更多的知识产权。

对吧？我认为现在越来越多的公司朝着这个方向发展。这就是为什么像Llama和Mistral这样的模型不仅存在，而且在性能方面与像GPT-4这样的模型相当，非常重要，因为人们可以在其上构建专用模型，对吧。

并且不依赖于任何特定公司发明的技术，他们可以构建自己的知识产权。他们对自己的业务更有信心，因为他们控制着内部系统，对吧。所以他们不觉得自己的业务完全依赖于它。

他们必须将客户数据提供给不太可靠的东西，你知道，这使得企业更容易采用这项技术。这非常重要，因为他们会看到所有这些风险，这需要很长时间才能采用云计算，并且并非所有数据都仍然在云端，你可能知道，对吧。

同样，人们希望自己也能从这项技术中受益，并且可以构建自己的知识产权。所以我认为拥有开源模型对于这一点至关重要。所以像Llama、Mistral和其他模型，以及Falcon，对于这种趋势的存在以及人们实际……你认为性能情况如何？

有趣的是，OpenAI改变了叙事，从我们正在构建能够推理和做任何事情的AGI系统，到新版本。他们发布了一个微调API。

这暗示着，如果你给我们几千个标记图像示例，它会做得更好。当然，这与微调相同，对吧？你可以只提供几千个关于你想要的东西的示例。我认为，通过增加特定性，你可以让它针对该应用程序的性能甚至比GPT更好。

是的，所以很明显，每个人都会在第一年适应这种现实。调整也会最终归结于你是否愿意将这些数据提供给他们，视觉数据点，可能包含敏感数据，而不是敏感的辩论数据。

这取决于模型的易用性，如果人们知道存在可靠且由社区验证的开源解决方案，并且质量相当，那么如果质量相当，你可能会选择它，而无需承担额外的风险，对吧？至少对我来说，这将是不同的情况，如果存在巨大的性能、质量或差距。

但我认为，正如我之前所说，这个差距正在缩小，现在甚至很难保存。在某些基准测试中，Llama 3甚至比GPT-4更好。当然，他们也在不断改进，但你也在不断改进你的模型。

我过去几年看到的是，这个差距一直在缩小，对吧？我认为开源模型之间的差距不会扩大，对吧？并且存在一个持续的趋势。

我不知道你是否有关于它是如何完成的有趣的想法，但人们正在谈论在Llama上进行预训练或类似的东西。你认为在像Llama这样的模型上可以做到吗？

这是一个很好的问题。我认为这绝对是一个进步，这很好，我有点像从用户的角度来看待它，对吧，而无需深入研究。有趣的是，对于需要花费很多时间思考的事情，我给你一个非常基本的答案，GPT-4会给你一个更好的答案，对吧？是的，我认为这很有趣。但是，还有其他一些逻辑问题，非常有趣，关于我们如何做到这一点，对吧？所以对我来说，这是一个进步，但很难说世界其他地区与之相差多少。

你知道，存在这些缩放定律，你可以介绍它们，但它们似乎表明几乎没有上限。我们可以扩展数据，我们可以扩展训练，我们可以扩展模型大小。现在他们说我们可以扩展推理计算。你知道，几乎没有限制，你对此有何看法？

嗯，我认为其中一部分是令人悲伤的，并且更多地是为了投资者而不是工程师和科学家而做的，他们会明白所有这些指数定律都有限制，对吧？而且你通常会在相对较晚的时候遇到它们。嗯，我认为现实是，训练杀死了能力定律，以某种方式开始下降，对吧？受到人们准备用于基本数据的可用数据量的限制。

我们有时没有足够的计算机，并且会明白，添加额外数据带来的许多好处并非高质量数据变得非常微弱甚至有害，对吧？所以就像我最近看到的一个基准测试，就像今天早上一样，它并非总是坏事，例如，一个 130 亿参数的 Llama 模型，旧的基准测试表现更差，比 10 亿参数的 Llama 模型差，对吧？所以这意味着那样。

这不仅仅关乎规模，数据质量、清理方式以及训练和强制训练过程非常重要。推理也是如此。我认为这里没有无限的杀伤力，对吧？最终，你可以扩展模型，并不断改进。

关于这个问题的潜在含义是，你真的需要它吗？我见过一些基准测试，我可以加快速度，你知道，它们对 Llama 模型的影响是 50 倍。但是当我查看基线时，它已经达到了人类可以理解的水平，比我们所能阅读的速度还要快，对吧？它的好处是什么，对吧？所以，非常重要的是要始终将事情放在适当的背景中。

这对我有何益处？如果你不仅提高了推理延迟，而且以最具成本效益的方式做到这一点，那就更有意义了，因为最终，这是模型采用的非常重要的因素。所以，这不是关于我们可以扩展模型的推理能力有多远，以及我们可以运行多大的模型的问题。

而是这些模型是否能够很好地完成工作，以及你是否能够以成本效益的方式做到这一点，因为客户想要的是这一点。最终，他们将运行可用的最大模型。他们将运行最优秀、最小且最有效的模型，以完成他们的工作，对吧？这就是最重要的。

我认为这并没有得到足够的关注，因为它听起来不像谈论最终可能最大的模型那样性感。这是客户想要的。所以他们只想确保他们以最小的成本获得最佳质量。

是的，但是我正在观看 Lex Fridman 对 Anthropic 团队的采访，他们谈论了他们如何设计来容纳大量模型。所以，就像有一个表模型，然后有一个播放模型，而且它们并没有均匀地使用你的。我当时想，哦，他们只是使用一个大型模型，然后只是在整个代码文件中生成。

因此，我认为如果我们有更多的吞吐量，那就太好了，因为我可以更快地生成代码。但是，为了使其可靠地工作，他们不得不进行所有这些优化，使用诸如推测性解码和将代码文件划分为所有这些不同片段并并行运行它，甚至在推测性解码中，你就像并行运行一个较小的模型，因为他们说代码的熵较低或其他什么。这只是我脑海中的一种想法。哦，我们只需要一个大型模型，它们就会做所有事情。但实际上，许多创新都源于你专注于特定任务并对其进行优化。

是的，是的。我们许多人真正理解的是你所说的，最终，这就是价值所在。价值并非来自随机选择一个指标并进行基准测试，而是实际上在多种约束下工作。这实际上要困难得多，因为如果你只有一个指标，那就容易得多。你可以说，哦，你需要足够快，并且具有良好的思考能力，并且尽可能便宜。

以及低功耗和低排放，以及存在的旧约束，对吧？最终，当所有这些都扩展时，约束就会出现，对吧？你将看到功率限制、计算限制，人们必须遵守这些限制，对吧？所以你需要构建一个系统优化，知道这些约束即将到来。

并且在许多现实案例中，情况并非如此：哦，在最好的、最昂贵的可用芯片上我能做到最好？公司会说，我有一些在本地计算机上的计算资源，我有一些在云上的计算资源，我有一些数据科学家和产品团队给我的所有这些不同工作负载。

我该如何最好地运行它们？无论什么对本地计算机至关重要，都应该在本地计算机上运行，无论什么可以写入云，都应该写入云，无论什么可以自由地去任何地方，都应该去那里。这将告诉你如何协调这些内容以及如何处理这种复杂性。这远远超出了仅仅优化单个模型以获得单个指标，对吧？这就是我们在公司中构建的内容，我们试图帮助人们解决多种不同复杂性矩阵的问题。这才是典型的企业或成熟公司的工作方式，而不是像有人计划使用一个模型那样。

所以我采访了 Sarah Karidi，他可能是最大的语言模型怀疑论者之一。他发表了所有这些论文，你知道，测试、自我激发、链式思维等等。他使用的是积木世界问题，这是一个规划问题。

他发现，当你做积木世界问题时，如果你更改令牌，它仍然是同一个问题，但你只是随机地扰乱令牌，或者他将随机描述放入令牌中，突然模型就不起作用了，因为他表示它们基本上只是近似信息处理系统。但是，他似乎改变了立场。我很惊讶他表示，哦，现在它们在琐碎的性能方面没有问题。

它们有时可以提前多步解决积木世界问题。我尝试过一些 NP 难题，对于非常小的问题规模，它仍然做了一些事情。所以它正在做一些事情，什么是推理，它实际上在做什么？

我遇到了一个更复杂的问题。我认为经典的语言模型中缺少的一件事是，它可以从世界中记住什么，就像一个伟大的过滤器，可以从自然语言中记住很多东西。

但是对我来说，它永远无法以任何复杂的方式进行推理，就像你在一些演示文稿中看到的良好示例一样，它可以很好地进行三位数乘法，就像一个好的日志一样，它会记住很多案例，但是它无法进行适当的多步骤推理。这缺少了，并且有人总是试图围绕推理和方面构建模型，但我感觉这两个阵营并没有真正进行太多交流。但现在很难很好地结合起来。

我认为这可能是朝着正确方向迈出的一步，所有这些单一模型，是的，对于一些非常基本的事情，它正在开始思考，但同时，它实际上开始以人类的方式进行一些基本的推理，对吧？这很好，对吧？它不仅仅是记忆事物并过滤它们，因为我们的大脑也不是所有方面都如此复杂，大脑的一些部分类似于动物，它们正在进行面部、你知道，目标检测，对吧？你不需要任何复杂的推理。

你需要快速完成。所以你想快速完成，对吧？这就是关键。

并且大脑中有一些部分负责这一点，但另一些部分在后来进化，实际上可以进行基本的数学运算等等，对吧？所以这需要更多。就像如何教孩子一样。

就像我有一些小孩子们一样。就像我一样。你会意识到，就像他们会在很小的时候学习目标检测，并且他们非常擅长它，他们不需要一百万个例子。

你只需要向他们展示几个例子，他们就能理解，对吧？这是改进这些模型的另一个方向。但是，教他们需要很多例子，对吧？

这需要很多例子才能解决任何分析问题，这是一个非常长期的过程。我认为这里的情况就是这样。我们需要开发能够做到这一点的 AI。

我认为除了推理能力之外，现代语言模型中缺少的一点是将你连接到世界其他地方。我认为现在阻碍训练过程的是它没有上下文。它不明白世界是什么样子。

因此，它可能会犯非常基本的错误，这些错误本可以避免。如果模型能够感知世界，收集输入并相应地调整，对吧？它没有这种经验。因此，许多事情看起来仍然像愚蠢或迟钝的，我认为这是另一个缺失的方面。所以，推理能力绝对是，但还有与我们人类一样连接到物理世界，随着我们添加更多传感器并能够感知世界并以某种方式拥有世界概念，这将有助于极大地改进这些模型的质量。

是的，我完全同意你关于融入的重要性。我认为这归结于语义差距。很明显，我们有能力达到语义，因为有大量发生在我们之外的事情或事件链，这有助于我们理解和实际上进行认知，但是还有另一件事是，我看到这些语言模型中存在一个真正的模糊性问题，即使有时我可以得到正确的答案，但它只是因为它没有理解你，因为你随着时间的推移变得更擅长提示。

当然，你会学习如何以某种方式指定，它只能朝这个方向移动，它只能在蓝宝石和你知道之间移动，你随着时间的推移变得更擅长它。但是我们有处理模糊性的非凡能力。这是人类认知的真正标志。

我还没有真正看到这一点，因为我认为当我们克服这种语义差距和模糊性差距时，模型可能会有更大的自主性。但是我想评论的另一件事是，除了这种语义差距之外，我认为可能存在计算差距。我的同事凯斯·多格尔总是努力指出这些东西不是图灵机。

是的，你知道，就像存在一种与图灵机不同的类型，这意味着存在一些计算空间，它们无法通过梯度下降来学习，更不用说执行了。你认为这有什么意义吗？或者你是否属于那些说，好吧，实际上在实践中并不重要，因为我们可以构建功能齐全的系统的人？

我认为可能更倾向于第二种观点。我不认为存在无法学习的根本限制，对吧？我认为我们的大脑没有计算机方面。

我们只是拥有一个非常好的学习系统，对吧？我不认为有任何我们无法模仿或扩展的东西。这非常复杂，需要多年时间。

我不认为我们明年就会有通用人工智能，但我认为它的根本可以学习，可以改进，我们可以从我们与世界互动的方式以及我们作为人类学习的方式中看到这一点。

并且许多这些内容也可以改进我们构建的模型。此外，它们还拥有我们没有的能力，例如，它们可以记住你看到的一切，对吧？它们不像我们那样容易忘记事情，对吧？我们有处理世界复杂性的绝佳方式。

它会很好地过滤事物，但由于这样，它会失去一些上下文。但是，你知道，机器想要的是，对吧？这就像某种精度。所以这里有一些权衡。

我认为我们从根本上具有计算所需一切的能力。我不认为存在像，是的，也许某些事情是梯度下降而不是完美的。我们会做到的。当然，可以做得更好。

对我来说，作为一名计算机架构师，我更关心如何计算，而不是计算什么。我认为，当我想到我们的大脑消耗了多少能量时，我们非常低效。这就是现代数据中心中训练过程消耗的能量，对吧？

我们开始谈论核反应堆了。你知道，美国，我认为这还不够远，等等，我的意思是，它有点令人震惊。

好吧，我们采取了相当激进的方式。我们朝着一个方向前进，我们可能需要进行一些调整，对吧？这意味着我们需要学习如何以不那么激进的方式处理数字，而不必考虑你在做什么。

你需要有选择性。它有许多不同的维度，即数据、你计算的内容以及是否重复使用相同的计算。例如，现在，所有基础模型都从互联网上获得的所有内容开始，并将其视为类似的任务。

我认为这相当重复，我会说，一遍又一遍地做同样的事情。希望你可以在监控模式下做到这一点。因此，未来的模型不是从头开始构建的，而是从先前的知识库中构建的，对吧？你只是在添加，对吧？我认为这将非常非常重要。是的，是的。

我的脑海中有很多事情，只是为了弥合我们之前所做的差距。你知道，存在这种模糊性，并且在这次采访的开始，在某种程度上，这有点令人紧张，因为我可以朝任何方向发展。就像与语言模型进行长时间对话一样，随着时间的推移，相互理解会增加，因为这几乎就像条目减少了，在已走过的道路上，这与没有讨论的情况类似。

现在，这个模型也能像你训练模型一样训练你，引导你朝着他们理解的方式去提问。迈克很快意识到，如果你不以正确的方式提出问题并获得高质量的答案，那么就无法达到预期的效果。但是，如果你学习了与这个模型沟通的协议和方法，你就能很快得到你想要的东西。所以这非常令人印象深刻。人类也会受到行为排放的影响。

是的。没错。所以关键在于知道该问什么问题，对吧？这在软件工程中非常常见。所以，这些课程的参与者们观察到，我不知道这是不是真的，但他们说代码的熵较低。你知道，我最近也注意到这一点，你把大量的代码放在一起，它们就会直接形成某种理解，但是，如果你要求一个来自脸书的七级工程师去做这件事，他们会知道他们在构建什么，他们会使用正确类型的抽象。他们会以正确的方式设计事物。认为任何人都可以进去随便写一些软件，因为软件会准确地返回你要求的东西，这通常是错误的做法。

是的，我不认为这是一种误解。人们说他们会取代人类的工作，我认为我的观点是，这仍然是一个非常高质量的辅助系统。

所以，你仍然需要设计，你需要知道缺少什么。但是，例如，你不需要记住这个特定的算法来做到这一点，你知道，像最好的，所有最好的遍历所有最好的图，对吧？你只需要大致记住它应该是什么样子，以及大致的复杂性。

然后你只需要提出一个问题，就能得到代码。所以，与其费尽心思地写代码并调试代码，不如直接获得一些非常基本的概念。在很多情况下，作为软件工程师，我们反复地处理数据，以获得更好的结果。

而这个模型从我们做这些事情中学习，以及如何最好地完成这些事情。所以，你不需要成为最好的模型来完成这项任务，因为有成千上万的人比你做得更好，而这些知识已经成为公司的一部分，会提供给你。所以，我们将开始构建非常好的、可靠的组件。

但是，如果没有顶层的架构设计，那么你问它构建操作系统，那可就难了，对吧？这不仅仅是添加一些循环，而是涉及相当复杂的知识。

但是，如果你想构建一个非常基本的，你知道，操作页面，对吧？你不需要学习那些标准。E、P、S。所有这些都将存在，因为它们非常标准。所以，这将节省大量学习这些东西的时间，对吧？是的，如果有什么错误，并且从根本上影响了它的核心基础，那么它就会建议每个人都这样做，对吧？但是，就像任何库一样，库也有同样的问题，就像每个人都会被怀疑一样，所以我仍然认为所有这些编码工作还没有被取代，而只是在最好的情况下提供非常有力的帮助。

是的，这个模型也表明，目前编码仍然是人类的辅助工作。所以，课程参与者们所说的问题之一是验证问题。所以，你告诉它做某事。

你问它正确的问题。现在我们需要一些创新的方法来区分许多文件，因为我可能生成了四百行代码，它们获得了类似于获取B的经验。我们有这种多文件差异的经验，它在五十年间没有改变。

现在，我们可能会有多层辅助系统，帮助我们专注于发生变化的部分。所以，我们正在成为验证者。但是，我们仍然不希望系统每次都彻底改变代码库。

你知道，约翰，约翰提交了一些更改。现在，这些更改遍及五十个文件，这会产生理解债务，因为现在所有其他开发人员都需要弄清楚发生了什么。所以，拥有一个被每个人都理解的模块化架构是有意义的。即使我们可能引入了效率低下，我们也会以有针对性的方式进行更改，因为我们不会最大限度地减少损害。

是的，我们完全正确，设计就像一些工程，设计一个功能良好、高效且可扩展的复杂系统是一门艺术，对吧？你需要做到这一点。

嗯，我认为我们还没有达到可以委派该责任的阶段，所以我们委派了一些更基础的工作，嗯，你知道，给人们，嗯，你知道，这其中确实存在一些风险，这可能会影响到你的工作，嗯，我认为我看到了这一点。但是，多年来，我们依靠人们在开发过程中不断学习，初级工程师们不会参与整个系统的设计，对吧？他们从基础任务中学习。

现在，如果我们开始使用一些功能，这些功能将被不同类型的辅助系统所取代，对吧？我们需要确保我们有良好的基本学习曲线。如果你想培养一批建筑师，就像那些构建系统的人，从所有三个级别一直到L A或七级或L A，对吧？我们只想确保他们能够在新的环境中成长，在这个环境中，许多基础知识都被自动工具所取代。

我认为这值得怀疑，我们只需要找到一种方法来做到这一点。整个流程都需要改变。想想面试流程是否需要改变。现在，我们在很大程度上测试人们对基本概念的记忆，对吧？为什么还需要你？你需要更多地测试设计技能，例如如何使用这些组件，而不是记住最佳算法。

是的。而且还有监控。我上次跟你说过，我非常喜欢这个演员，你必须成为监控方面的专家。

所以，所有演员都在记录他们的活动，它们将在不同的顺序中同步发生。你知道，我们需要构建下一代平台，只是为了弄清楚系统到底在做什么。而且它也更灵活，对吧？因为我们可以进行模拟和反事实分析，以及其他各种操作。

但是，我们正在远离这种传统的软件工程方法，这就是我想谈论的，因为企业采用，你知道，企业已经以某种方式构建软件很长时间了。有一些方法可以使其更容易访问，例如低代码和无代码平台等等。他们开始采用人工智能，你知道，你看到了什么？企业采用人工智能的情况如何？

是的，我们作为一家公司看到了很多事情，这让我能够从公司的角度获得一些经验。我们与企业部门交谈的大多数公司，对吧？他们的董事会都非常有远见。他们看到了这项技术的潜在价值。

他们通常已经拨出预算，开始在内部部署这项技术。事情变得复杂的地方在于，第一个用例是什么。他们有时也缺乏对这项技术的正确概念理解，对吧？因为通常情况下，公司内部的人会说，好吧，让我们开始在内部使用人工智能，做出决定，然后他们开始从内部组织中招募一些人。

一个数据科学家，可以帮助采用这项技术，这个科学家对这项技术很兴奋，但是他们以前从未构建过复杂的系统。而且，这是YouTube，所以所有这些复杂性，我们以前从未作为科学家构建过复杂的系统，对吧？在人工智能领域，我们需要自己去做。

而这本身就非常复杂，要让系统适应它非常困难。而且你还需要在你的组织中找到一个杀手级用例，来证明你的存在。所以很容易有人说，哦，给我五百万美元，训练另一个针对公司业务的GPT。

我们自己也开发了一个模型，在我们的AP中。这很好，但是这个模型对公司的帮助是否比以后使用的人工智能模型更好？

然后，你应该做微调。然后，如果你进行微调，谁来准备数据？选择哪些是有用的，哪些是敏感的，哪些是非敏感的数据，所有这些都需要解决。所以，在如何采用这项技术方面存在很多挑战。好消息是，似乎每个人都同意现在必须使用它，对吧？

人们确实看到了它的价值，这不像只是炒作，我们不知道该怎么做。人们普遍感觉它会在某些不同的用例中帮助他们，并且他们会进入企业的不同部门，金融部门，当然还有汽车行业，他们都看到了这项技术的价值。但是，复杂的是，确切的第一个用例是什么，以及在确定了用例之后，如何进行实施和开发，因为他们以前通常没有能力充分地做到这一点。

记住，他们不是，嗯，你知道，人工智能领域的先驱公司，他们只是拿到了一个新玩具，他们有一些专家，但其他人不是。所以，像我们这样的公司，CentML，实际上正在努力弥合这些差距，对他们来说，最大的差距之一是如何从中心位置构建系统。

我们有基础模型，我们有数据。谁来帮助我们利用数据，获得知识产权，并帮助我们部署这些模型？

这也会提高成本效率，对吧？我们还看到的是，成功使用过这项技术的人，感觉他们不会再回头。他们可能会批评它不可靠，并抱怨这些问题。

但是，例如，如果你以前花了一千万美元来寻找组织，比如从他们的银行对账单中找到，现在你使用一个模型来做这件事，而这个模型只花了两百万美元，你作为一家优化公司，会抱怨两百万美元太贵了，但是你知道，你可能会回到用人来做这件事的十百万美元的开支，对吧？你会尝试优化你拥有的东西，但是你已经迈出了这一步。没有回头路，你总是会使用某种人工智能，某种形式的自动化，因为你永远不会再用人来做这件事，对吧？因为人也有自己的缺点。

是的，当你使用人工智能时，你开始忘记了，哦，是的，哈尔康吃得很好。问题是人类也会编造事情，哈尔康有时也会吃，也会犯错误，对吧？所以，是的，存在挑战，但我们需要承认这些挑战。

我们需要为企业采用人工智能制定一个良好的路线图，对吧？我认为现在的好消息是，许多组织普遍认为，你需要成为人工智能的一部分，用例自然而然地出现。当你仔细观察时，这不是随机选择的，你与团队成员交谈，看看你的数据在哪里，你的公司独特的优势在哪里，并尝试调整它，帮助它发挥作用，对吧？我们现在与企业进行的大多数对话，在最初的几次对话中，他们都同意这样做，对吧？这实际上是相对顺利的，挑战在于，他们以前从未做过这件事。

我发现的一件事是，当你有良好的软件工程文化时，其他问题就会减少。所以，你知道，我们从独立的、孤狼式的数据科学家，到开始思考机器学习开发，再到开始思考数据架构、数据工程等联合方法。从理论上讲，这听起来都很好。

然后我们开始构建模板，标准化它们，开发框架。我们说，伙计们，每个人都需要使用这个框架。现在我们开始组建团队来构建它。

如果你使用这个模板，那么一切都会好起来。当然，这不会发生，因为人们倾向于只为他们自己构建应用程序。所以这是一个很大的转变。

它是否正在朝着集中化的方向发展，即拥有功能和平台？例如，如果我正在处理定价，我可能有一个团队，他们的工作是维护这个定价平台，并且它有一个标准的API作为接口。当它由中心管理时，他们会使其非常优化，这似乎是一个非常困难的步骤。

是的。所以，我认为，当你谈论这个管理平台时，就像现在很多人支持的那样，我认为这只是一个步骤，这不是最终解决方案。

我不认为这可能是错的，但我没有看到很多人想用一个大型语言模型来做所有事情。我只是看到少数人。这只是系统的一个构建模块，对吧？我认为这些系统将包含许多这样的构建模块，以及许多专门化的系统来完成所需的工作。你可能需要在每个组件周围建立一些轨道，你需要很多东西。所以，这比仅仅说，让我们拿一个模型，然后在某个地方运行和部署它要复杂得多，对吧？

所以，我认为未来你需要做的是构建一个能够可靠地运行这些复杂系统的基础设施，对吧？所以，基本上，系统将由多个代理（例如）和多个不同模型组成，所有这些模型都可能与不同的知识库（例如知识库或类似的东西）连接，人们可以使用这些知识库。

所以，你需要构建一个非常不同的视角，让这些系统能够真正地像插件一样使用组件。用不同的方式玩弄它们。测试，就像中心一样，你需要构建的不仅仅是测试一个单一模型X，然后另一个模型Y，而是测试两个系统相互作用，所以你想让两个完全不同的系统相互作用，看看它们的表现如何。

情况也相当复杂。记住，基于单一输入的交互式事物可能是非确定性的，你无法据此断定一个系统优于另一个。你需要一个非常复杂的测试环境。

那么，如何让事情表现得易于测试？例如，如何衡量速度提升、IT成本降低？记住，多方向、多目标的问题要复杂得多，对吧？因此，你需要确保环境具有良好的特性，并且你可以充分了解哪些方法对你有利，对吧？我认为这是一个非常令人兴奋的研究领域，我相信社区会随着时间的推移而发展。

上次我们谈话时，你使用了“暗硅”这个术语，我认为这非常有趣。

你指的是什么？但从简单的概念来看，你可以这样思考：想象一下，你有一个可以提供给芯片的电力预算，对吧？但是，你有能力在该芯片上放置更多的晶体管。

因此，你必须生活在一个这样的世界里：在任何时候，你都不能为所有晶体管供电。你只需要为其中一部分供电。你必须决定哪些部分不值得供电。很长一段时间以来，人们都认为我们永远不会构建这样的东西。

我们总是希望在CPU中包含所有内容，在芯片中包含所有内容，对吧？但是，在某些时候，随着摩尔定律和其他限制因素的终结，尤其是在计算机芯片方面，我们无法保持功率恒定，同时提高晶体管的尺寸。为什么这是个问题？这意味着我作为一家硬件公司，仍然希望销售更大的芯片，拥有更多的晶体管。

但是，它们没有足够的电力来供电。因此，要么必须使它们在物理上越来越大，或者如果受到物理尺寸、成本和空间限制以及互连的限制，我必须限制供电。因此，暗硅有很多不同的形式，例如这种限制。

要么降低运行频率。因此，并非完全关闭某些芯片部分，而是降低其频率，对吧？或者，基本上，我们必须优化资源。从计算机芯片的角度来看，我们已经谈论过手机了。它们在电力方面受到很大的限制。

例如，在手机上非常常见的是，你有一些可用的内存带宽，但你只能在很短的时间内使用它，否则就会耗尽电力或发热，对吧？因此，没有硬件可以让人们充分利用所有功能。这意味着你需要变得更聪明，才能更好地利用这些硬件。这个问题并没有消失。现在的芯片非常强大。

例如，在视频芯片中，对吧？深入了解这些芯片非常有趣，因为所有公开信息都表明，它们包含许多不同的精度支持和许多不同的专用组件，对吧？例如，即使只考虑浮点运算，你也有单精度浮点运算和半精度浮点运算，对吧？它们结合在一起，以便两个半精度浮点运算可以生成一个双精度浮点运算的输出。然后还有四倍精度浮点运算，还有其他精度。

还有一个名为张量核心的专用单元。它们不使用向量指令，而是使用直接矩阵乘法。所有这些都是独立的单元。

大多数时候，你的软件并没有编写为使用所有这些功能。这意味着什么？这意味着许多资源可能会被浪费，无论你是关闭更多部分还是降低频率，计算机架构师必须做出一个非常棘手的问题，因为电力成为许多组件的限制因素，对吧？因此，这是一个非常有趣的问题，任何设计现代芯片的人都需要处理和优先考虑一个组件而不是另一个组件，一个组件的功率而不是另一个组件的功率。

这里的问题一部分是人们没有意识到我们正在浪费多少计算能力。为什么会出现这种情况？

在我职业生涯的早期，我刚完成博士学位，在微软研究院工作，当时，我看到很多人对训练大型模型很兴奋。我们谈论的是2016年和2017年，那已经过去一段时间了。

当时，人们使用NVIDIA的GPU。但是，在之前的那些一代GPU（例如，在100系列之前）中，情况如何？100系列当时刚刚发布，基本上，人们排队等待这些芯片。

我当时觉得很有趣，因为我是一个优化人员，我非常想知道这些框架（例如，当时人们使用的TensorFlow）运行得有多好。我获得了访问权限，并分析了一些人们正在运行的工作负载。

我发现，这些工作负载的利用率很容易只有10%。我回到人们身边，问他们是否了解这些工作负载。芯片的利用率很容易只有其潜力的十分之一。他们对我说的话感到困惑，因为对于大多数人来说，这听起来很荒谬。

你指的是GPU运行，但利用率很低？这是理解人们从软件的角度思考计算机系统，而不是从硬件的角度思考计算机系统，以及这种思维方式的差距的一种方式。到目前为止，要达到99%的芯片利用率仍然非常困难。

通常，当你看到这种情况时，这意味着有人在撒谎，或者只是在告诉你一部分可能的情况，对吧？这是一个巨大的机会，可以充分利用这些计算能力，而浪费的计算能力有很多来源。

GPU甚至不总是运行，因为你的模型可能在CPU上运行，然后将内核移动到GPU，对吧？当你这样做时，会有某些时间段内核不在GPU上。因此，你需要让它正确地进行流水线处理。

你总是让GPU运行，但它并不总是处于最佳状态。然后，另一个问题是，当你运行时，你可能没有充分利用可用计算能力，因为芯片具有如此多的计算能力，而模型是灵活且不同的，并不总是完美地映射到你的需求。这意味着有很多浪费，有很多不同的浪费来源。

即使你看到了这一点，你仍然可能只使用一种精度或一种类型的计算单元。但是，在视频中，你必须充分利用整个芯片的所有功能，以便所有其他功能也能以最佳状态运行。你只是浪费了计算能力，没有运行线程，对吧？是的，这是非常重要的一点。

记住，这里还有一个挑战，当我们谈论功率限制和暗硅时，如果你让所有内容都运行，你可能会过热，因为芯片无法很好地散热。因此，你需要非常小心，不要做得太多，并且以一种聪明的方式去做。这是一个非常有趣的问题，但有很多机会可以利用。

我们公司的一些研究成果实际上为用户带来了好处。例如，我真的很喜欢我们最近发表的一篇论文，它将在几个月内发表。你可以在同一芯片上同时运行训练和推理。

关键在于利用所有浪费的资源，以及使用其他未使用的精度。你基本上可以几乎免费地连续运行训练和推理，对吧？如果你的系统能够正确地协调所有内容，这是可能的，对吧？这是一个可以利用的巨大潜力。

是的，这太棒了，太棒了。我的意思是，很容易认为我们有这些非常高级的抽象，例如Python，当然，许多深度学习并不在Python上运行，但是，正如你所知，Python效率极低。但是，与此同时，它使计算民主化，对吧？这意味着很多人可以编写Python代码，但是，你谈论的是比这更细微的东西。我认为，当我们开始从系统角度思考时，当我们拥有一个大型系统，并且在这个系统中有多个不同的工作负载时，我们可以开始进行优化，而如果我们单独考虑它们，这些优化是不可能的。

完全正确。我很高兴你提到了高层，因为我认为，当我们谈论暗硅时，我开始更多地关注底层，但实际上，在高层也可以做很多事情。我记得我们的科学顾问之一大卫·帕克森，他展示了在模式中乘法指标下降的例子。

这很糟糕。首先，优化并查看结果，然后优化到硅层，差异可能达到三个或四个数量级，对吧？因此，这种方法效率很低，但使用起来却很容易。开发需要良好的技能。

因此，一些使用Python和C++访问系统的系统非常高效，因为它们隐藏了所有需要显式计算的内容，并将其运行在堆栈上，就像你使用该接口一样。但是，在底层，有简单的库，你不需要担心所有这些复杂性，它都隐藏起来了。这很好。

这也很关键，因为编写所有内容都使用C++并不是一种好的方法，如果你想让这项技术被更广泛的受众采用。我们公司的一些发明也围绕着自动编译器开发。例如，在NVIDIA，多年来，人们编写了精心设计的内核，以获得最佳性能，这被认为是最佳方法。

但是，几年前，我们意识到这不是一种可持续的方法，因为有如此多的内核和针对不同硬件的各种目标，所有这些都非常多样化。因此，我们必须倡导，你知道吗，你实际上应该使用机器学习编译器来实现自动化。在这种情况下，你仍然需要提供当前想要的内容，但使用模式接口来提供输入。

但是，所有复杂的底层代码，甚至OPTX代码，都是自动生成的，对吧？这可行，而且现在人们从中受益。我认为像谷歌这样的公司构建的编译器也能够以更自动化的方式有效地执行这些操作。

现在，这是你实际拥有的产品之一。你可以将它插入你的PyTorch代码中。你只需要添加几行代码，就可以编译模型，并指定你想要应用哪些优化，它将使模型运行得更快。你能详细介绍一下吗？

是的，我再次看到，几年前，编译器系统开始发展，并开始对其他人开放，以便他们可以参与开发。有使用名为Gal的编译器的可能性，对吧？因此，它允许你将模型作为输入，并使用你自己的后端与其他内容进行交互。

因此，我们多伦多研究小组和我们的公司支持并开发了新的机器学习编译器，它允许你通过一行代码来显著优化模型。从那时起，许多人开始朝着这个方向发展，该领域的一个非常成功的项目也是尝试编译器。因此，人们意识到，手动编写内核不是一种可行的方法，你需要一种更自动化的方式。

我只想提醒你，这只是拼图的一部分。我们谈论的是模型的内核级优化，而不是整个模型的优化。因此，生成式工作负载使这个过程更加复杂，为什么？因为它们通常需要动态形状，而编译器在这方面做得并不好。优化一些具有随机边界的循环非常困难。

这非常困难，对吧？因此，基本上，这使得编译器优化变得困难，但仍然是一个可解决的问题。我们公司也解决了如何在我们的系统中高效地运行动态形状工作负载的问题，对吧？但是，这是底层，对吧？为什么这很重要？因为它促进了其他人对该项目或任何Pythonic系统的贡献，对吧？我认为人们意识到这是前进的方向，并且许多人为此做出了贡献。我认为现在该领域得到了非常强有力的支持，包括个人。我非常支持在机器学习编译器周围建立的开源社区。

你知道，像C++一样，我们有几个编译器，如果我在Mac上编译某些内容，我每次都使用相同的编译器。但是，我发现机器学习工作负载要复杂得多。因此，针对特定任务有特定的优化。你能解释一下吗？

是的，这非常重要。例如，即使是训练和推理，它们也是非常不同的工作负载，人们会说，它们不是非常相似吗？就像你做很多矩阵乘法等等，答案是，是的，有一些共同点，但是两者之间有很多不同之处，规模和所有这些都非常重要，并且更细致地考虑如何针对特定目标进行优化。

例如，你的目标可能是吞吐量、时间成本，或者更常见的是两者兼而有之，那么你就可以使用各种技巧来平衡这些因素。这些技巧通常不会让所有事情变得更糟。它是一种权衡，例如。

你今天提到了推测性解码，这是一个非常酷的技巧，但没有免费的午餐。推测性解码意味着你在某个地方进行推测性操作。这意味着你必须消耗一些计算能力，而这些计算能力本来可以用于其他用途。

为什么你的GPU只运行10%？- CentML首席执行官解释本期*赞助节目*中，多伦多大学（UofT）CentML首席执行官Gennady Pekhimenko教授深入探讨了AI系统优化和企业实施。从NVIDIA的技术领导力模式到开源AI的兴起，Pekhimenko分享了关于弥合学术研究与工业应用之间差距的见解。了解“暗硅”，机器学习工作负载中GPU利用率的挑战，以及现代企业如何优化其AI基础设施。对话探讨了为什么一些公司只能实现10%的GPU效率，以及改进AI系统性能的实用解决方案。对于任何对企业AI和硬件优化的技术基础感兴趣的人来说，这是一场必看的节目。

https://centml.ai/pricing/

MLST 也由 Tufa AI Labs 赞助 - https://tufalabs.ai/ 他们正在招聘精通机器学习的工程师/研究人员，以从事 ARC 工作并构建 AGI！

https://www.dropbox.com/scl/fi/w9kbpso7fawtm286kkp6j/Gennady.pdf?rlkey=aqjqmncx3kjnatk2il1gbgknk&st=2a9mccj8&dl=0

[01:27:05] 4.1 多云机器学习基础设施和优化 [01:29:45] 4.2 AI代理系统和生产就绪性 [01:32:00] 4.3 RAG实施和微调考虑因素 [01:33:45] 4.4 分布式AI系统架构和Ray框架

[01:37:55] 5.1 MLPerf基准测试的起源和演变 [01:43:15] 5.2 MLPerf方法论和行业影响 [01:50:17] 5.3 AI学术研究与工业实施 [01:58:59] 5.4 AI研究历史和安全问题

他们是否能在云端部署，这始终是一个问题，有点像嵌入到一个云中。但我认为你可以提升一个抽象层次，因为拥有这种对硬件的回声式优化很棒。所以你拥有一个非常智能的系统，可以优化在集群上运行的硬件。

但是，原则上，你可以在云层上做到这一点吗？所以你可以通过设置集群来进行成本优化，你知道，在 AWS 上。以及在谷歌或类似平台上。

从技术上讲，这是可能的，现在已经在单个云中进行多集群操作，例如在单个区域内。但原则上，这可以在不同云之间完成。问题在于集群之间如何通信，成本、最新入站流量和出站流量。

你知道，这可能很昂贵，对吧？但是从技术上讲，这是可以做到的。一开始你提出的重要问题是，如何集成所有这些不同的基础设施。

我想说，这存在一定程度的复杂性，但并非巨大，因为最终会在容器级别选择一个抽象层次，对吧？所以它们都以某种形式支持容器，这是一个非常基本的概念。因此，我们确保部署的内容都基于容器的概念，并且我们可以在此基础上构建。

这意味着我们可以轻松地在 GCP、AWS 和 Azure 之间切换。然后，所有其他需要支持这些基本单元的云提供商，只需在前面支持这些基本单元即可，这足以让我们在此基础上构建。所以真正只有少数专业的云提供商是超大型的，而其他所有云提供商，从所有层面上来看，都比较相似。它们都提供裸金属访问，我们可以很好地管理它们。

是的，我认为一部分原因是你需要这种实用主义，因为你需要将模型部署在数据所在的位置附近。例如，我认为你可以在 Snowflake 中构建，并且从数据库查询中，你可以实际调用集群并执行情感分析或其他操作。但是，为了使这些架构高效运行，你实际上还需要尊重数据架构的边界。

是的，我们绝对支持。你提到了这种情况，是的，我们也与 Snowflake 合作。并且我们可以在市场上提供，以便我们可以加速客户的模型。

我们为什么要这样做？因为有些人真的喜欢 Snowflake 基础设施，数据已经在那里，他们更喜欢在数据所在的位置附近执行操作，而不是将数据移动到不同的云提供商。因此，我们为他们提供了这种灵活性，但他们可以运行任何模型和任何构建在标准机器学习模型之上的应用程序，这些模型位于他们的数据所在的位置。所以这对于他们来说很方便。

现在让我们转到代理讨论。我对代理非常兴奋。我的意思是，我并非以AGI或奇点的方式感到兴奋。我只是喜欢构建分布式同步系统，我认为这非常令人兴奋。我认为将计算同步单元视为应用程序级别的同步单元，当然，使用共享计算结构（你们正在做的事情），我认为这种软件工程范式将如何改变事物？

是的，我绝对赞同。我也喜欢构建同步的分布式系统。这非常令人兴奋，因为它再次打开了一扇大门。

回到我上周参加的活动。智能应用是一个由 AWS 和微软组织的非常棒的活动。很明显。

很多人都在四处走动，说，关于代理怎么样？你们在做什么？你们在做什么？这个领域，每个人都对它充满热情。

他们对RAG（检索增强生成）的热情，就像我六个月前一样，对吧？但你需要找到使用它的杀手级用例。问题似乎是它不像我们预期的那样广泛用于生产，所以它还比较早期。

另一件事是，人们听到一些很棒的词语，想要将它用于所有事情。所以，当他们谈论代理时，它几乎变成了应用程序本身。所以这并没有什么帮助，你需要理解你想要实现什么样的智能，以及你所说的代理的总体含义。

但我认为这是我们应该前进的方向。如果将来我们只是在各个地方运行生成式模型，并且仍然有人的参与，我不会那么兴奋。我希望系统能够排除人的参与。

设计师可以监督整个过程，但不要参与到每一场对话中，这就像管理一家公司一样。如果我作为 CEO，必须参与到每一场会议中，只是为了协调与所有人的沟通，那很快就会导致公司失败，我需要依靠他们能够在没有我的情况下进行适当的会议和沟通，并高效地完成工作。我不需要在那里，也不需要成为瓶颈。

这非常有趣。如何从这些代理系统中构建一个复杂的系统，这令人兴奋，但仍有许多实际案例需要验证。人们谈论微调，它在一定程度上被使用，但它并没有解决所有问题。

事实证明，这些模型的微调也不便宜，对吧？你仍然需要数百个案例进行微调，并且需要专业知识来完成。所以很多人觉得，即使是微调，现在对他们来说可能也过于昂贵。

然后 RAG 出现了，它在某些方面有所帮助。但你意识到，RAG 并非没有微调那么好。人们认为它在某些方面有所帮助，但并非万能。

但无论如何，我们已经看到了人们从中受益的实际用例，但这并非该概念的全部答案。它只是拼图中可以根据用例受益的部分。但最终，随着你构建更令人兴奋的东西，并将其称为代理，我认为每个人都开始谈论代理系统。我失去了思路。

最近有多少初创公司声称自己拥有，以及有多少资金涌入该领域？但我仍然希望看到客户告诉我，我们构建的系统会让他们兴奋。记住，我们谈论的是企业客户。

这些人总是对新事物持谨慎态度，所以我还没有看到大规模采用。这需要时间，我认为我们作为 CentML 需要做好准备。这有助于我们与这些生成式初创公司互动，因为它们是技术创新的推动者，但最终，收入和技术的未来取决于企业采用。

我认为企业采用和云提供商的采用是使用它的关键，在我看来，现在很多都是实验性质的。

我与一些公司谈过，他们正在开发代理，并问，你们需要我们的帮助吗？你们需要优化吗？他们正在尝试。

他们说，不，所有事情都是一些零星的请求。我们调用了 GPT 的 API。显然，它还没有达到我们可以提供帮助的规模，对吧？通常，证明某些事情可以实现是一个重要的步骤，但它还不是大规模应用的步骤。

但是，我仍然非常欣赏你们的方法论，即构建一个大型分布式同步系统，并使用模式。我正在查看日志，其中有一个日志记录代理，你可以开始看到可以优化的模式，在构建这些 AI 应用程序时，你以前无法做到。

我注意到，如果你尝试以整体方式执行此操作，复杂性会迅速增加，即使使用 Ray 系统，如果你正在构建一个信息属性系统，通常你将组合查询自动完成系统，然后是排序系统，并与所有这些不同的异构数据源进行交互。该系统的足迹非常复杂，难以监控和部署等等。人们不使用代理系统的原因是，我认为从零到一的过程实际上更复杂。

你知道，当你查看 Twitter 和 LinkedIn 等这些大型全球分布式系统时，他们已经在做了。所以我们几乎需要告诉人们，你需要从构建这些分布式系统开始。我知道这需要一定的学习曲线。

这需要一段时间，但你需要这样做。当然，我们需要新的方法。我不知道我们是否需要一种新的编程语言或构建这些系统的某种新方法。我的意思是，它可能是什么样子？

是的。我认为我们有几个不同的方向可以探索。我看到一些尝试解决这个问题的尝试，在伯克利大学确实有一些人。

我在该领域看到了一些工作，例如在复合系统上进行工作，这在以前是很有前途的。我也与我的研究生谈过，这可能是接下来要研究的有趣的大问题。我认为我们需要，不仅仅是编程模型，我们需要一个新的抽象层次来处理这些系统。你绝对正确，我们不仅需要工作，还需要识别事物。

我们需要能够监控和调试它们，就像记住，如果你构建系统，你永远不会足够聪明来构建它，你永远不会足够聪明来调试它，对吧？所以这不仅仅是构建系统的问题，你将构建具有你肯定需要能够监控和调试的缺陷的系统。

所有同步分布式系统都难以调试，对吧，使其具有确定性。这是我们多年来在生产工作中遇到的已知问题。所以，我们基本上需要确保将其作为系统的一部分构建，具有可扩展的监控功能，并且我们可以以合理的开销进行调试。

所有这些仍然是一个开放的问题，对吧？我认为我们从构建经典分布式系统中学到的东西会有所帮助，但最终它们将是，首先，我相信这些系统将非常、非常复杂。所以我相信它们将由在 CPU、GPU 和其他加速器（如 GPU）和其他组件上运行的东西组成。

因为最终，每个部分可能都在不同的环境中运行，对吧？特定模型可能位于某个云提供商上，并需要进行协调。所以这将类似于构建必须在全球范围内协调的软件，可能在不同的云环境中运行。

你还想确保你构建了智能的迁移版本，对吧？人们在传统的 CPU 世界中研究过这个问题。但现在你需要在生成式领域中做到这一点。

你需要确保你拥有不同的检查机制，以及许多需要做的事情。确保管理这种复杂性是一个非常开放、有趣的问题，构建这样的产品非常有趣，这对未来的研究生来说也是非常有趣的项目，在我看来，对吧？会有很多令人兴奋的事情出现。我只是触及了系统层面的方面。我相信在生成式领域中，我们可以构建很多令人兴奋的东西。

是的，当然，没有免费的午餐。总会有瓶颈。我喜欢那本书，《神话般的月》。

我曾经说过，即使你有一个完美分割的任务，你仍然会遇到这种曲线，对吧？你可能会增加更多开发人员来解决问题，但速度不会加快。我相信会有类似的瓶颈，但仍然很酷，拥有大量工程师可以独立工作并独立部署在系统不同单元上。这非常令人兴奋。

但我想要转到 MLPerf 和 MLCommons。

所以你现在是 MLPerf 和 MLCommons 的创始成员。

这都与在 AI 中进行基准测试有关。你能告诉我们更多吗？

是的。首先，构建它的动机是什么？在创建它之前，我的旅程是这样的，所以，正如我所说，在 2016 年，我在微软研究院，对吧？我想了解利用率问题，这些工作运行得有多好，因为我有一种理论，即那些构建这些系统的人。

许多大规模实验实际上从未自己构建过复杂的系统。所以他们从未关注过这一点，事实证明这是真的。然后，在 2016 年至 2017 年，几乎每个人都声称，但随后出现了某些东西。

比其他人更好，当这种情况发生时，你知道有人在欢呼，但在大多数情况下，每个人都在作弊，因为他们使用不同的数据集或非传统方法，有很多方法可以绕过系统。我们已经看到在世界各地，在 70 年代和 80 年代 CPU 出现爆炸式增长时，人们构建了基准测试，这有助于构建它。并且有些人显然没有这种经验。

所以我认为似乎没有这样的基准测试。当我开始在多伦多大学的学术生涯时，我的第一批四名研究生都在为 AI 构建基准测试。我说，嘿，系统专家，我无法优化，直到我知道发生了什么。

我需要知道，现在我们可以做什么，什么不是问题？有不同的数据集和模型，我不理解。

每个人都在网上声称一些荒谬的事情。这不可能是真的。所以我们开始研究这个问题。

然后发布了第一个基准测试套件，称为 TBD。所以当时它正在为深度学习构建基准测试，但它也...

这个项目被称为 TBD，因为模型在每次最终迭代时都会快速变化。有一个新模型需要排除，所以它总是需要完成。

所以我们称之为 ATVD。我认为它仍然很受欢迎。网站可能还在某个地方运行。所以我们将 D、B 和 D 公开给公众。为此，我与谷歌的朋友们讨论了关于不同研究主题的潜在合作。

我在做的一些很酷的事情中提到，哦，我喜欢为一个里程碑式的基准测试做这件事，然后——其中一位是 TPC 架构师之一的 Cliff Yan。这非常相关。我们和斯坦福之间正在进行一些未公布的讨论。

但你的反馈似乎很好。你想合作吗？你想自己做吗？我几乎愿意合作，我不知道你们在做这件事。

这就是我加入这个领域的方式。然后在几封邮件之后，我们在斯坦福举行了第一次会议。这对我来说非常重要。

我们正在谈论 2008 年，所有事情都不是个人。所以我经常飞来飞去，然后我们与一小群人会面，试图确定基准测试应该是什么。它与传统的 CPU 工作负载非常不同，与之前任何基准测试都非常不同，规模也完全不同。

有训练，有影响。有如此多的不同用例，大规模、小规模，各种类别，很难选择一个特定的东西来衡量。所以我们坐下来，开始组建工作组，开始制定方法。

我的研究生们构建了几个早期基准测试和操作。我们贡献了第一个语音基准测试，在深度语音方面取得了进展。很多工作最初是由学术界完成的，包括来自伯克利的专家，以及来自所有你能想到的工业公司的专家。

我开始时大约有 50 个人在房间里，现在我想会有成千上万的人，许多参与者都希望快速获得可用资源。

起初，学术界和工业界各占一半，但很明显，随着时间的推移，它似乎越来越受工业界主导。这是一个庞大的组织，对人们做了很多好事。

它提供了适当的衡量标准，让你知道你在哪里，你不能说我比谷歌视频更好，如果你声称你的代码通过了 MLPerf 基准测试并发布了结果，那么你真的想脱颖而出。我通常会回答不，你肯定在某个地方作弊。所以现在这些说法逐渐消失了，人们基本上不再声称这些了，因为人们知道现实是什么样子。

我们面临一个很大的问题，基准测试并不能代表实际工作负载。人们已经谈论过这个问题，在 MLPerf 领域和类似领域。那么，你如何结束呢？当然，基准测试也会变得更好，当它们成为一种看起来不错的衡量标准时，我们如何让它们保持真实？

这是一个人们几十年来一直在努力解决的难题。问题是，你能让它们完美吗？我只是想让它们在它们应该合理的情况下表现良好。所以基本上，当我们构建它们时，不，我不能让它们完美，这是一个过于复杂的问题。

但我将努力让它们可靠、公平，因为另一种选择是一个在线的西部狂野，每个人都声称自己比其他人好，潜在客户迷失在可能实现的目标中。所以基本上，有各种基准测试，公司可以根据自己的意愿选择如何展示他们的基准测试，他们想要多诚实。我们制定规则，让游戏规则在例如训练方面变得合理和诚实。

我们意识到一些公司拥有比其他公司更多的资源，因此他们可以在收敛方面获胜，仅仅是因为他们有更好的超参数调整，他们可以花数百万美元提前找到正确的超参数，从而更快地收敛。为了使事情更公平，我们说，如果有人这样做，其他人可以窃取你的超参数和中间运行结果。所以如果你滥用这一点，比如一家大型公司，在视频领域，如果你这样做，那也没关系。

根据规则，这是完全合法的，但其他人可以使用你使用的相同超参数，这样我们就能尽可能地平衡游戏规则。很明显，像英伟达和谷歌这样的公司仍然有更多资源来进行超参数调整。但与此同时，重要的是要让每个人都尽可能平等。

这就是为什么我们认为 MLPerf 非常成功，大型公司会提交他们的结果，小型实体甚至学术界也会提交一些结果。再次强调，这离完美还很远，但我们试图跟上潮流。例如，这个 MLPerf 基准测试包含一个具有 7000 万参数的模型。

这并不是 Lama 模型的最佳版本，但下一个改进版本在 2 月份将拥有 4500 亿个参数，作为推理任务。所以 MLPerf 的目标从来都不是发布最先进、最快、最强大的模型，而是让社区认为它是一个稳定的起点，可以获得非常好的模型。这意味着到那时可能会有另一个更好的模型，但我们仍然可以对芯片和软件进行基准测试，这在某种程度上是合理的。所以这里没有奇迹。

我们没有解决所有基准测试问题，你仍然可以雇佣 100 名开发人员并手动调整模型以获得出色的结果。然后你的客户会带来一个完全不同的模型，并且性能很差。这就是现实。

一家公司，对吧？我们无法阻止这种情况发生，但我们为人们提供了一个平台来展示他们代表性模型的结果。由于有如此多的模型和不同的基准测试，性能作弊变得越来越困难。

我们之前谈论过一些好的、困难的事情，因为你可以承诺准确性，但我们往往会优化标题指标，然后可能在性能方面有所损失。但是你是否注意到提交的模型多样性实际上已经影响了基准测试的演变？

绝对是这种情况，我显然已经运营公司超过两年了，或者说没有像以前那样密切地参与其中。但我清楚地看到社区正在发展。它创造了许多不同的阵营，人们做算法，甚至开始做数据基准测试。

具体来说，一些人正在进行存储基准测试，以及系统的所有不同方面。所以，他们分成了不同的工作组，以及如何管理如此多参与者的复杂性。我在不同阶段参与了几个不同的工作组，显然在学术界帮助推广和宣传结果方面有所贡献。

我认为如果问我哪里更完美、更普遍、更成功，那就是这里。我会告诉你为什么，现在你看到约翰逊在视频中发布的声明，你就会想，这些数字是什么？这就是他们说的。

他们没有引用视频中获得的任何特殊数字。他们引用了 MLPerf 的结果，对吧？这有充分的理由，对吧？因为这不是英伟达单方面衡量的，而是由他们的同行和竞争对手衡量的。这并不完美，对吧？但其他人仍然可以查看你的数字，并以某种程度重现你的工作。

所以，所有这些结果都公开发布，实际上推动了科学的进一步发展，因为所有这些对世界其他地方都是可见的，这非常重要。它也会影响公司的命运。

我记得有一个例子，其中一个关于硬件的例子。Totus 决定参与其中，他们做得很好，但结果不如其他一些人好，所以他们提出了解决方案，结果并不理想。

投资者说，我们不相信任何人。他们撤回了资金，对吧？逐渐地，对吧？所以这是一个强大的工具，对吧？而且它比以前更重要，因为以前他们想告诉投资者他们比其他人更好。

但现在他们来了，进行了测量，看到了结果。他们可能仍然拥有一个好的系统，但他们会说，比谷歌 TPU 差两倍。因此，他们只是放弃了。

这不是一个积极的过程。这非常重要，因为验证你所声称的良好性能非常困难。以及你拥有什么类型的系统，我认为在那之后，关于性能的虚假声明数量急剧下降。

因为如果你声称如此，人们会检查你的数字，对吧？如果你做得这么好，为什么我没有提交我的结果？甚至在人们开始开源之前，但当人们开始开源时，没有适当的方法，无论有多少不同的结果，我们获得的净结果都是不同的数据集，这会影响性能。

并且总有一些方法论上的问题。一切都在控制之下，对吧？所以我们限制了你可以作弊的变量数量，所以我们得到了所有最佳参数，但你可以用这些问题来欺骗其他人。

所以我想知道你对当前行业研究的看法。我们上次谈论过布朗·特威德，我认为他与其他一些人有点争论，但他基本上说，你看，我们实际上有数百万甚至可能超过数百万的用户使用我们的产品，作为一名学者，你只需要说服你的委员会和审稿人，但你如何区分你所做的工业研究与学术研究？

是的，我一生中都喜欢站在两边。我很高兴我的家人也支持我。这对你来说是否真的产生了影响？所以这有原因。

所以学术界的好处在于你可以专注于干净、美好的想法，没有任何工业偏见。以及立即可交付的成果，对吧？记住，我们最终需要盈利。

我们需要产生收入。很多决定都必须基于此，这在学术界既好又坏，同时解决问题，对吧？我们通常非常诚实。我们应该非常诚实地处理这些事情。

当然，你可以批评学术系统，以及如何选择论文，但这取决于社区。我实际上属于一些顶级会议的社区，为了进入，你需要 5 到 9 位审稿人接受你的论文，对吧？所以这实际上并没有那么随机，对吧？进入顶级会议的门槛实际上相当高。

这与一个拥有数万份提交和数千篇被接受论文的社区大相径庭，但这只是不同社区之间的差异。所以我不认为说所有人的论文接受标准都低是公平的，但这非常重要，因为创新来自那里。记住，行业并没有真正发明这些东西。

许多先进技术，比如深度学习，很多都是学术界发明的，因为学术界有想法，有潜力，并构建了这些东西，并且不需要大量的资源来实现。行业擅长将这些技术转化为技能，当人们意识到深度学习的潜力时，微软研究院、谷歌等公司开始关注并开始大规模推广这项技术。

例如，谷歌在注意力模型方面做出了贡献，对吧？发明和开创，我利用了这些，并开始进一步发展。所以，行业可以做很多好事。

所以，我认为行业始终很重要，因为我认为在学术界，存在这样的问题：你可以专注于解决不相关的问题。如果你像一些人一样，只是选择一个看起来很酷的问题，然后解决它并发表论文。

我从未喜欢过自己，总有一些事情困扰着我。我总是想靠近有趣的事情，因为这个人有正确的问题要解决。这就是为什么在我的职业生涯中，我总是至少有一只脚踏在工业界。

正确的说法是，工业界有正确的方法，对吧？因为我想了解真正存在的问题，对吧？这就是贡献的方式。这就是演变，以及行业通常拥有正确的问题，但他们并不总是拥有解决这些问题的精力和工程重点。他们解决的是满足客户需求并满足下个截止日期的问题。

这就是为什么多年来我一直在从工业界获取问题并在学术界解决它们，对吧？然后我必须稍微改变一下重点，因为我意识到解决方案与存在的问题有关。

工业界无法扩展到企业级质量。学术界，这就是学术界的局限性。我可以雇佣 20 名研究生，但我不可能雇佣 50 名，他们不会产生所需的成果。

他们有不同的目标，发表论文，获得学位和证书，而不是实际构建产品，对吧？我们做了一些小产品，但这是一个非常紧密的界限。所以我在微观层面上达到了一个阶段，我构建了一些非常有趣的东西。

现在，IT 变得实用。我意识到我的 IT 方式与其他人不同，他们似乎不太重视我，他们认为我不重要。所以我认为我最好建立自己的公司，并以正确的方式做 IT，对吧？还要记住，我曾经是所有 GPT 的一部分。

两者之间存在非常好的互动，对吧？我认为两者都需要彼此。所以这不像所有研究人员都像研究人员一样经常搬家。

我一直认为我们还需要世界上最好的实验室之一，就像你们知道的那些糟糕的实验室一样。我喜欢所有这些实验室战争，就像一个优秀的研究生想要去的地方，在那里开发新事物。总是很高兴确保我们有这样的东西。

微软研究院一段时间以来就是这样。我希望我们也能拥有这样的时刻。我希望有人会这样做，我认为在一定程度上，他们已经做到了，并且在该领域推动了许多激进的东西，比如在 AI 领域。

但我认为我更希望看到这一点超越 AI 领域，也出现在其他领域。我认为这两个领域之间的这种互动非常重要。我认为我一生都在两边徘徊，但始终保持着与另一边的联系。

您如何看待探索与利用之间的权衡？我一直觉得存在一个吸引力盆地，即使您知道它被称为 IT 的艰难方式彩票。我想我们现在谈论的是，如此多的深度学习革命都受到了投资、研究和硬件等因素的影响。您可以构建整个有向无环图，并在其上进行大量研究生研究。但是您认为仅仅让一些随机的人从事完全疯狂的想法是否可能导致一些东西？

您需要谨慎地选择这些疯狂的人。我认为您需要一些这样的东西。记住，这可能是日本获得诺贝尔奖的原因之一，对吧？

哦，是的。

对每个人来说都是一项伟大的成就，就像你们知道的那些杰夫一样，但再次谈到这一点，例如，在某些时候，美国人可能并不相信整个 AI 领域，我很高兴加拿大愿意投资这些疯狂的想法，并看到其潜力，并坚持足够长的时间，直到它们达到实际可行并改变世界的阶段，对吧？所以您需要这样的人，基础研究必须存在，但您还需要看到它是否有机会。

这就像一个疯狂的人，您可以让每个人都这样做，应该有一个选择过程，选择那些有机会以某种方式改变世界的人，并给他们资源来实现。当有这些赠款时，就会发生这种情况。这就是为什么行业也会资助研究赠款，并让我们有机会创新，对吧？我从谷歌、脸书和其他地方获得了其中一些奖项。

这对于在其他人负担不起的领域进行高级研究来说也是一个非常有用的工具，因为您有预算，对吧？但在探索方面，我认为这是一个很好的问题，总体而言。我认为即使在现在的小空间里，我们也有类似之处。我实际上认为在训练上花钱是探索，而利用影响力和部署是利用。很长一段时间以来，我非常困惑，我们主要是在没有利用的情况下进行探索。

并且在某些时候，这应该改变，对吧？人们必须开始实际部署模型，我很高兴看到从去年开始，在合理的规模上开始发生，并且今年也发生了很大的变化，我在英伟达和其他公司的报告中看到了明显的转变，人们想要部署更多。我们已经达到一个阶段，是的，训练可能是免费的。训练可能只有世界上几十家公司能做到，而微调可能只有几百家公司能做到。

而世界其他地区将使用这些微调模型和 RAG，并在此基础上构建，这不会限制创造力，对世界来说仍然是一件好事。但我认为有人需要说，我们不需要删除，不需要重新训练十倍，一遍又一遍地做同样的事情。事情应该以更有效的方式构建。

想象一下回到 80 年代。我认为 Hinton 在多伦多甚至在那时也是这样，对吧？我不知道他什么时候搬走了。想象一下告诉他所有这些工作，嗯，他可能会有不同的看法。我们正在谈论研究生，不可避免地会深入研究新网络。想象一下告诉他，他将获得诺贝尔奖。

是的，但是如果你告诉他他会获得诺贝尔物理学奖，他可能会打哈欠。是的，但这是一个有趣的问题，因为他一直是风暴的预言家，从他的整个职业生涯中就可以看出。

但是，我认为我将能够让他印象深刻，对吧？就像它只是，我想，我上次和他谈话，在从多伦多飞往旧金山的一趟航班上，他非常担心这些想法会走向何方，因为这些模型似乎以非常快的速度改进，我们也需要非常小心它们会带我们去哪里。所以我对它的强大功能有非常合理的担忧，对吧？所以有点像这个故事。

而开放式超参数就像核弹一样，对吧？发明了它，但无法控制它。再次，现在这个领域掌握在世界手中，您可以做出贡献，但您无法控制。

您可以表达担忧，但您需要说服其他人。您无法控制技术。如果不对其进行普及，它永远不会成为现在的样子。

但我认为这必须以某种方式发生，就像我所做的那样，后来发生了。但它必须被发明出来。这需要运气。

我们需要学习。我们正在寻找不同的学习方式，对吧？这对于拥有这样的东西至关重要。

是的，关于 Hinton 的担忧很有趣，在某种程度上，没有人不同意。我认为每个人都同意这是具有变革意义的。

世界上的技术将永远不会再相同。我认为左派认为它正在改变，您知道，这可能会减少我们的自主权，或者它可能会以某种方式极大地改变社会。当然，有些人认为它可能会递归地自我改进并成为超级智能或类似的东西。但每个人似乎都同意这是一项非常具有变革意义的技术。

谈论这个问题很困难。很长一段时间以来，我倾向于相信，如果只是高估了它，那么它是否真的像看起来的那样大？作为一名科学家，我知道它背后有真正的内容，但炒作总是围绕着它。

现在，是的，我确实认为它具有变革意义。我们永远不会再一样，对吧？您无法忘记我们学到的东西。

我们能够用这项技术做很多事情。告诉所有学生，他们可以使用 ChatGPT 通过考试，这不再存在了。他们需要记住并掌握一些东西，这些东西他们无法再回到过去，对吧？忘记它。

所以从本质上讲，技术已经存在了。我们只需要了解如何操作它，对吧？我不认为公平地说，人类从未经历过任何如此具有破坏性的东西。

我们之前经历过工业革命，对吧？人们也担心机器，就像 80 年代的那些图片一样，高中老师在白宫抗议，他们认为不应该允许高中使用计算器，因为孩子们会停止学习和计算。

他们不会像以前那样聪明。事实是，这是一种感知，这是一种危险。现在我们笑了，但唯一的方法就是采用它，并了解如何使用它，就像现在教孩子们在适当的时候、适当的年龄使用计算器一样，对吧？但我们不会试图超越计算器。

所以我认为 AI 也将长期存在。我个人不认为我们离超级智能还很近，对吧？是的，这是一种令人兴奋的技术，但还有很多缺失的部分。

很难说要多久才能从它获得真正的智能，但它已经非常强大，并且说这将是一个渐进的过程。我不认为我们会在某天醒来，它就会被终止，一切都将被捕获，我们突然发现智能超出了控制范围。您必须像我们一样构建这个智能过程，在我看来，这是构建它的早期阶段。

有趣的是，我们的看法随着时间的推移而发生了变化，因为我们有类似的事情。我认为在 1700 年代后期，人们认为如果我们能制造出能够击败人类的国际象棋计算机，那么它将具有普遍的智能。当然，随着经验的积累，我们改变了思考方式。

但是，关于这个问题的最后一点，您知道，就像物理学一样，因为您可以将深度学习视为一种物理形式，并了解物理学是什么。它是在模拟我们生活的世界。但是，克罗姆斯基说他认为这些语言模型不是语言学理论，因为它们不会。

您知道，理论应该解释它，应该通过关节来划分世界，并实际告诉您它是什么以及它不是什么。您如何看待它作为一种科学形式？您认为它合法吗？

它是合法的。总的来说，我喜欢将这些词用于学科，例如物理学、生物学、计算机科学，特别是这些例子，因为我认为这些是最大的突破发生的地方，在某个狭窄领域很聪明，但在不同领域之间，它需要更大的视野。

我对整个领域感到非常兴奋，获得认可的奖项是一个值得肯定的奖项，对吧？但我认为，事实上，我们现在都对这项技术感到兴奋。人们想要认可它，因为它具有变革意义，对吧？再次，人们正在发明，如果您的生物学和物理学元素值得认可，那么发明方法论或测量工具，甚至模型和模拟工具的人也一样重要。

例如，当我们考虑大脑时，从物理角度研究大脑很重要，但我们能做的只有这么多，但建模也是如此，因为建模允许我们做在物理世界中永远无法做到的事情。所以，尤其是在它被证明如此具有破坏性时，这一点很重要，对吧？它不再仅仅是一个小实验，它实际上以我们以前难以想象的方式改变了世界。如果您十年前问某人这项技术会多么具有破坏性，那将很难想象，对吧？

您认为，例如，在视频中，您认为他们的股价会继续上涨吗？您认为计算需求和 GPU 需求会继续爆炸式增长，还是会达到稳定状态？

这是一个很好的问题。简短的回答是，例如，我自己持有了一些股票，并且仍然关注英伟达的讨论，所以我仍然相信它们会增长。我认为这在某种程度上是有意义的。

所以我可以提出任何解释，但这确实是现实。我自己正在做的事情，如何应对一个棘手的问题，对吧？但我确实认为他们现在所处的位置是值得的，因为他们很早就相信这项技术。

所以他们很幸运，当时的价格最终证明是正确的。但很多人错过了这些机会，他们没有理解并利用它，并对软件和系统投入了巨大的投资，而不仅仅是建造机器，这是公司和创始人对真正需要的理解。

我认为这将带来更大的好处。它们能走多远取决于很多事情，股价在很大程度上取决于人们的预期。有时他们会显示出惊人的数字，人们会说，“天哪，他们现在还没有增长”。

所以他们表现不好。这太荒谬了。他们的收入和其他一切都在以惊人的速度增长，但第二天股价可能会下跌。

我将这种情况视为荒谬。股票交易中有很多赌博。但我认为，作为一家公司，他们有机会成为该领域的变革性公司。

但我认为他们未来不会是唯一一家硬件供应商。我们现在看到的其他硬件供应商也会出现。因此，世界可以利用所有这些。但我预计在未来三年内，我会这么说，对吧？

我认为，通过视频看到任何人在顶部，我认为他们将在未来几年成为该领域的优势参与者，并且在未来几年内，我不会轻易看到任何人超越他们，但我不知道这对股票和预期意味着什么，但我认为他们将成为一段时间内最优秀的公司之一，原因如下。

Gennady，我很享受这次谈话。非常感谢您。关注家园。如果您想在加拿大工作，请与 sendml 联系。我相信你们正在招聘优秀人才。

一直在增长，一直在招聘。所以请联系。

非常感谢您。很高兴认识您。

我也一样，谢谢。

Why Your GPUs Only Run at 10%! - CentML CEO Explains 02:08:40 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Why Your GPUs Only Run at 10%! - CentML CEO Explains