We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Why Your GPUs are underutilised for AI - CentML CEO Explains

Why Your GPUs are underutilised for AI - CentML CEO Explains

2024/11/13
logo of podcast Machine Learning Street Talk (MLST)

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript
People
G
Gennady Pekhimenko
Topics
Gennady Pekhimenko 认为,AI 系统的优化和企业应用是当前 AI 领域的关键问题。他指出,许多企业在使用 GPU 进行机器学习工作负载时,利用率很低,仅达到 10% 左右。这主要是因为缺乏有效的系统优化策略。他介绍了 CentML 公司致力于优化机器学习工作负载,目标是提高易用性、降低成本和提高效率。他还比较了开源模型和闭源模型的优缺点,认为开源模型正在快速发展,并逐渐缩小与闭源模型的差距,这有利于社会和 AI 领域的发展。开源模型的普及降低了企业采用 AI 技术的门槛,并允许企业保护自身数据,构建自己的知识产权。在谈到技术领导力时,他认为 CEO 应具备足够的专业技术知识,能够理解团队的能力和构建内容,并能够与客户和投资者有效沟通。他还强调了团队建设的重要性,认为团队建设是一个复杂的工程问题,需要找到有效的管理方法,并建立可扩展的团队。他认为 NVIDIA 的扁平化组织结构使其运作更接近初创公司,效率更高。在讨论模型架构时,他认为目前没有明显的模型架构能够替代基于 Transformer 的注意力机制,未来的发展重点是基于现有基础模型构建更复杂的系统。他还讨论了 AI 系统的非确定性问题,以及如何提高 AI 系统的可靠性和可解释性。他认为,AI 系统的优化需要考虑多个因素,例如成本、性能、功耗和散热等,并需要找到最佳的权衡点。他还介绍了 CentML 公司在优化 AI 系统方面的一些技术成果,例如同时进行训练和推理等。在谈到企业采用 AI 时,他认为企业普遍认识到 AI 的价值,但面临着如何选择合适的应用场景和实施方案的挑战。他认为,CentML 公司能够帮助企业克服 AI 系统构建和部署的挑战,并降低成本。他还讨论了与云服务提供商的合作关系,以及如何优化多云环境下的 AI 系统。最后,他还谈到了 MLPerf 基准测试的重要性,以及如何提高基准测试的公平性和可靠性。 Gennady Pekhimenko 还深入探讨了 AI 系统的推理能力和局限性,以及如何提高 AI 系统的可靠性和可解释性。他认为,现代 AI 模型缺乏复杂的推理能力和与现实世界的连接能力,这限制了其发展。他认为,未来的 AI 系统需要具备更强的推理能力、更强的与现实世界的连接能力,以及更强的鲁棒性和可解释性。他还讨论了 AI 系统的计算能力和局限性,以及如何构建图灵完备的 AI 系统。他认为,当前 AI 模型的计算效率非常低,需要改进。他还讨论了 AI 辅助软件开发的挑战,以及如何提高软件开发效率。他认为,AI 可以帮助软件工程师提高效率,但不能完全取代其设计能力。他还讨论了企业采用 AI 的挑战,以及如何提高企业采用 AI 的效率。他认为,企业需要了解模型部署的复杂性,并选择合适的工具和方法。他还讨论了与云服务提供商的合作关系,以及如何优化多云环境下的 AI 系统。最后,他还谈到了 MLPerf 基准测试的重要性,以及如何提高基准测试的公平性和可靠性。

Deep Dive

Chapters
Discussions on NVIDIA's technical leadership, corporate structure, and the potential for other hardware providers to challenge their dominance.
  • NVIDIA's success is attributed to their engineering culture and early investment in AI technology.
  • The company's organizational structure allows them to operate more like a startup despite their scale.
  • While NVIDIA is currently dominant, there is potential for other hardware providers to emerge.

Shownotes Transcript

https://centml.ai/pricing/

MLST 还得到了 Tufa AI Labs 的赞助 - https://tufalabs.ai/ 他们正在招聘精通机器学习的工程师/研究人员,以从事 ARC 工作并构建 AGI!

https://www.dropbox.com/scl/fi/w9kbpso7fawtm286kkp6j/Gennady.pdf?rlkey=aqjqmncx3kjnatk2il1gbgknk&st=2a9mccj8&dl=0

1. AI战略和领导力 [00:00:00] 1.1 技术领导力和公司结构 [00:09:55] 1.2 开源AI模型与专有AI模型 [00:16:04] 1.3 硬件和系统架构挑战 [00:23:37] 1.4 企业AI实施和优化 [00:35:30] 1.5 AI推理能力和局限性

[00:38:45] 2.1 AI系统计算和认知局限性 [00:42:40] 2.2 人机语言模型通信适应性和模式 [00:46:18] 2.3 AI辅助软件开发挑战 [00:47:55] 2.4 AI时代软件工程职业的未来 [00:49:49] 2.5 企业AI采用挑战和实施

[00:54:41] 3.1 MLOps演进和平台集中化 [00:55:43] 3.2 硬件优化和性能限制 [01:05:24] 3.3 机器学习编译器优化和Python性能 [01:15:57] 3.4 企业机器学习部署和云提供商合作

[01:27:05] 4.1 多云机器学习基础设施和优化 [01:29:45] 4.2 AI代理系统和生产就绪性 [01:32:00] 4.3 RAG实施和微调考虑因素 [01:33:45] 4.4 分布式AI系统架构和Ray框架

[01:37:55] 5.1 MLPerf基准测试的起源和演变 [01:43:15] 5.2 MLPerf方法论和行业影响 [01:50:17] 5.3 AI学术研究与工业实施 [01:58:59] 5.4 AI研究历史和安全问题

所以,各位,我们大概是想在IT的基础上构建一些东西,对吧?我实际上认为,无论我们在那个“三明治”上构建什么,也就是我们所说的IT,都会很有价值。不,关于模型,如果明天有人用另一个模型取代它,比如,用另一种模型取代注意力机制,我不知道,比如,你知道,空间模型,一些人们讨论的空间模型,就像一样,其他人说这将成为使用,但这只会是一种阻塞性的替代,对吧?

你只会替换三明治里的一个模型。在三明治里再看看另一个。是的,IT会改变硬件的实现方式。但大部分情况下,这会让我们,硬件人员和编译器人员看到。

世界其他地方甚至不需要担心IT,对吧?他们只会得到更好的、更高质量的回应,对吧?所以对我来说,非常重要的是,我们不要只关注模型本身,而要关注我们所做贡献的其他部分。

人们仍然可以开发新的模型,构建新事物,但是如果这个堆栈成熟了,那么人们就能从中获得价值,这会更好,对吧?如果你只投入精力去构建更好的基础模型,那么最终,人们不会从中受益,对吧?我们只会浪费大量资源,而没有真正切实的成果,对吧。所以我不担心模型会出来。我认为,从系统角度来看,我们会做得更好,对吧,比我们以前在多少方面做得更好。

堆栈中是否存在耦合。你知道,我们喜欢认为我们正在构建这些小的解耦计算原子。你知道,我们可以建立在IT之上,建立在IT之上。但是,一定存在一些非常复杂的行为,你知道,什么出现了,以及整体系统作为交换这些组件的函数所具有的特性。

这个问题有很多不同的层次,在非常低的层次上。我们的代理,比如,在幕后运行的是什么。其他核心,对吧?就像,并且它运行在实际硬件上。所以这些实体,它们是芯片,这个芯片与某种前通信媒介进行通信。

所以IT可以是,你知道,内部互连,比如任何东西,对吧,或者IT可以连接多个节点,这些节点可以是疯狂的,或者像蜜蜂一样,或者像谷歌现在正在使用的专有光学互连。最终,在那个层次上,这些实体就像一个硬件组件,对吧?我们以某种方式编程它们,并且它们的交互非常可预测,对吧?它们知道它们会以我们编程的方式行事。

它们具有一定的复杂性,这并不是很多不确定性,但是这些都是非常重复的。就像你设置训练工作和推理工作负载一样,即使你运行了数十亿个示例,所有轮次都更像是一样的。波动非常小。

存在一些事情,比如频率。它们可能会波动,但几乎所有其他事情都是固定的。所以在这里,一旦我们使用智力或所有编译器等东西编程了芯片,事情就是可预测的。

但是,思考人们可以用这些硬件和软件做的事情是令人兴奋的,这些硬件和软件是,嗯,不太可预测的。所以由代理和其他参与者和模型构建的复合系统或一般系统可能非常不可预测,非常令人兴奋。所以这是一个非常开放的领域,我不会假装自己是专家。

但我认为这是一个非常有前途的领域。甚至很难想象界限在哪里,硬件我们知道有一定的限制。我们可以实现的技术,在芯片完全利用后,达到最大值,对吧?即使是80%,你知道,你也可以获得更多的力量。

但是,硬件的使用,天是极限。没有限制。所以我们只需要确保人们的创造力不会受到该堆栈复杂性的限制。你只需要确保即使是孩子们也能用它进行实验。所以,我认为很多人说,ChatGPT的魅力就在于此。

例如,许多人从未意识到这项技术,比如我使用GPT来自己使用Python接口,我以前就觉得这些模型很酷,对吧?可能不如专有模型好,但非常强大,对吧?但对于其他人来说,这真是令人震惊,因为他们以前在类似于谷歌搜索的东西中看到过类似的东西,对吧?所以,无论使用什么系统,嗯,幕后运行的系统必须具有易于操作的界面。

并且它不必像谷歌搜索那样,它就像我们的声音。它就像操纵世界其他人的潜力和现实。所有这些都是非常好的事情,对吧?这就是我认为这变得非常开放、非常不可预测,以及人类可以用它构建什么的地方。

关于可预测性,在硬件层面快速谈一下,我在ICML上采访了Cohere的某人,他们发表了一篇论文,说在不同的硬件上运行模型时存在差异。我不知道你是否看过。显然,差异可能很大,尤其是在诸如风扇之类的长期事物上,你是否见过类似的东西?所以你的意思是……

结果取决于你运行它的硬件?是的,是的。

不同。

这里有两件事,很多人没有意识到,你澄清了,首先,我们现在运行的训练方式,即使在GPU上。忘记不同的硬件,就像标准的GPU一样。它相当不可预测,对吧?有公司会发现,如果你多次运行实验,结果会不同。

人们不明白为什么这是我们操作浮点数方式的基础,对吧?所以就像每次运行时,如果你以不同的顺序相加相同的数字,结果会四舍五入,不同,并且对于神经网络来说,这很容易让它朝一个方向或另一个方向发展,因为它是一个非常多维的问题。所以这是一个问题。

在相同的硬件上运行相同的实验,在不同的硬件上可能会有更多差异,因为它们可以轻松地使用非常不同的过程。所以我不认为,例如,嗯,我们运行实验。我的,嗯,公司和研究小组都在使用Nvidia GPU、MD GPU、谷歌TPU以及其他训练芯片,从根本上讲,你可以获得非常相似的模型收敛,所有这些模型,对吧?但是你需要小心精度等等,对吧?

所以我不认为硬件有什么错。硬件做的是你为它构建的东西,对吧?它通常具有一定的精度。

但是,如果你选择一个精度较低的硬件,并且非常小心收敛,你可能会得到非常不同的结果。我不认为硬件从根本上改变了计算方式。是的,计算不是完全确定的。对吧。因此,你不能期望完全相同的,嗯,如果问同样的问题,那么GPU不会以相同的方式响应,即使它使用相同的提示。

是的,这很有趣。你知道,当我们使用C++或其他东西构建普通计算机应用程序时,我们告诉自己,我们可以验证它,我们可以测试它,它是确定的。现在我们正在构建下一代应用程序,构建AI应用程序,它们的行为越来越复杂,我们正在发展它们,我们没有设计它们,这意味着我们开始构建基于代理的系统等等。你觉得这看起来怎么样?

这是一个非常有趣的问题。同时具有挑战性,想想像汽车这样的关键领域。例如,他们更喜欢为汽车中构建的每个小部件提供证明。

现在你给他们一个说所有东西都可能并且不确定的东西,对吧?这可能会改变这种行为。所以这具有挑战性,并且在使用AI的某些领域,例如驾驶,非常难以销售,对吧?所以,我们再次需要找到一种方法,将这些错误保持在边界内。

或者,例如,我们确保使用确定性的精度,或者限制芯片的一些性能特征,但确保线程以相同的顺序运行,所以所有内容都以相同的顺序运行,并且你使用int8之类的精度,而不是浮点,然后事情就变得不确定了,对吧?你需要进行某些更改,但如果发生这种情况,你就会失去很多性能。因此,在某些关键领域,这可能是结果。

在其他情况下,我认为我们只是在神经网络周围建立理论,以便它们更能容忍噪声。社区中有一些非常棒的论文,人们尝试稳定训练过程和模型,使其对噪声不太敏感。所以,总的来说,像这样,需要解决一些问题,以提高预测结果的可靠性。嗯,你知道,所有这些都是非常重要的。

回到开放源代码问题,在继续之前快速谈一下。你认为使用像Llama和Mistral这样的模型会带来什么影响?

我确实看到了它们的巨大价值,不仅因为这对我和少数几家像我这样的公司非常有价值,而且我认为它对我们的客户来说也是可用的。我认为,为什么我看到如此多的企业,我认为它们对于AI实际上为世界带来重大价值至关重要。

所以,再次,当开源公司或谷歌受益并投资于,你知道,并拥有像一个漂亮的玩具一样,他们可以烧掉数十亿美元而没有结果,我认为对我来说。除非对像财富500强公司这样的第二波采用者有益,否则我认为这还算不上成功。这些公司通常没有像我提到的这些公司那样多的专家,他们是第一波。

因此,他们中的大多数可能不会自己构建基础模型。他们也有很多敏感数据。所以结合这两点,你会发现他们要么选择将敏感数据提供给其他人,比如另一个超级大公司,要么开始构建自己的AI,或者利用开源模型并走一条需要更少专业知识的道路,比如微调模型以适应他们自己的数据。这样,他们会产生更多的知识产权。

对吧?我认为现在越来越多的公司朝着这个方向发展。这就是为什么拥有像Llama和Mistral这样的模型,不仅存在,而且在性能方面与像GPT-4这样的模型相当,非常重要,因为人们可以在其上构建专用模型,对吧。

并且不依赖于任何特定公司发明的技术,他们可以构建自己的知识产权。他们会感觉更好,因为他们控制着内部的东西,对吧。所以他们不会觉得他们的业务完全依赖于它。

他们必须将客户数据提供给可能不太可靠的东西。这使得企业更容易采用这项技术。这非常重要,因为他们以前需要很长时间才能采用云计算,并且并非所有数据都仍然在云端,你可能知道,对吧。

同样,人们希望自己也能从这项技术中受益,并且可以构建自己的知识产权。所以我认为拥有开源模型非常重要。所以像Llama、Mistral和其他模型,以及Falcon,对于这种趋势的存在以及人们实际……但你认为性能格局如何?

有趣的是,OpenAI改变了叙事,从我们正在构建能够推理和做任何事情的AGI系统,到新版本。他们发布了一个微调API。

这暗示着,如果你给我们几千个标记图像示例,它会做得更好。当然,这与微调是一样的,对吧?你可以只提供几千个关于你想要的东西的示例。我想通过增加特定性,你可以让它针对该应用程序做得比GPT更好,甚至更可靠。

是的,所以很明显,每个人都会在第一年适应这种现实。调整也会最终归结于你是否愿意将这些数据提供给他们,视觉数据点,可能包含敏感数据,而不是敏感的辩论数据。

这取决于模型的易用性,如果人们知道存在可靠且经过社区验证的开源解决方案,可以代替它,如果质量相当,那么你可能会选择它,对吧,而无需承担额外的风险,对吧?至少对我来说,情况会不同,如果存在巨大的性能、质量或其他差距。

但我认为,正如我之前所说,这个差距正在缩小,现在甚至很难衡量。在某些基准测试中,Llama 3甚至比GPT-4更好。当然,他们也在不断改进,但你也在不断改进你的模型。

我过去几年看到的,这个差距一直在缩小,对吧?我认为开源模型之间的差距不会扩大,对吧?并且存在一个持续的趋势。

我不知道你是否有关于它是如何完成的有趣的想法,但人们正在谈论在模型上进行预训练或类似的东西。你认为在像Llama这样的模型上可以做到吗?

这是一个很好的问题。我认为这绝对是一个进步,这很好,我有点像从用户的角度来看待它,对吧,而无需深入研究,有趣的是,对于需要花费很多时间思考的事情,我给你一个非常基本的答案,而GPT-4会给你一个更好的答案,对吧?是的,我认为这很有趣。但是,还有其他一些逻辑问题,非常有趣,关于我们如何做到这一点,对吧?所以对我来说,这是一个进步,但很难说世界其他地方与之相差多少。

你知道,存在这些缩放定律,你可以介绍它们是什么,但它们似乎表明几乎没有上限。我们可以扩展数据,我们可以扩展训练,我们可以扩展模型大小。现在他们说我们可以扩展推理计算。你知道,几乎没有限制,你对此有何看法?

嗯,我认为其中一部分是令人悲伤的,并且更多地是为了投资者而不是工程师和科学家而做的。他们会明白所有这些指数定律都有限度,对吧?而且你通常会在相对较晚的时候遇到它们。嗯,我认为现实是,训练杀死了能力定律,以某种方式开始下降,对吧?受人们准备用于基本数据的可用数据量限制。

我们有时没有足够的计算机,并且会明白,添加额外数据带来的许多好处并不高。高质量数据变得非常微弱,甚至有害,对吧?所以就像我最近在早上看到的某个基准测试一样,这并非总是坏事。大型语言模型(例如,130亿参数的LaMDA)的旧版本性能比10亿参数的LaMDA版本差,对吧?所以这意味着这样。

这不仅仅关乎规模,数据质量、清理方式以及训练和强制训练过程非常重要。推理也是如此。我认为这里没有无限的杀伤力,对吧?最终,你可以扩展模型,并不断改进。

关于这个问题的潜在含义是,你真的需要它吗?我见过一些基准测试,可以将LaMDA模型的速度提高50倍。但是,当我查看基线时,它已经达到了人类可以理解的水平,比我们所能阅读的还要快,对吧?那有什么好处呢?所以,非常重要的一点是,始终将事情放在适当的背景下。

这对我有何益处?如果你不仅提高推理延迟,而且以最具成本效益的方式做到这一点,那就更有意义了,因为最终,这是模型采用的非常重要的因素。所以,问题不在于我们可以扩展模型的推理能力,以及我们可以运行多大的模型。

问题在于这些模型是否能够很好地完成工作,以及你是否能够以成本效益的方式做到这一点,因为客户想要的是这一点。最终,他们将运行可用的最大模型。他们将运行最优秀、最小且最有效的模型,以完成他们的工作,对吧?这才是最重要的。

我认为这并没有得到足够的关注,因为它不像谈论最终可能最大的模型那样性感。这是客户想要的。所以他们只想确保以最少的资金获得最佳质量。

是的,但是我最近在观看莱克斯·弗里曼对库尔赛团队的采访,听到他们如何设计来容纳大量模型非常有趣。所以,就像有一个标签模型,然后有一个播放模型,而且它们并没有均匀地使用。我当时想,哦,他们只是使用一个大型模型,然后只是在整个代码文件中生成。

因此,我认为如果我们有更多的吞吐量,那就太好了,因为我可以更快地生成代码。但是,为了使其可靠地工作,他们不得不进行所有这些优化,使用诸如推测性解码和将代码文件划分为所有这些不同片段并并行运行它,甚至在推测性解码中,你就像并行运行一个较小的模型,因为他们说代码的熵较低,或者其他什么。这只是我脑海中的一种想法。哦,我们只需要一个大型模型,它们就会做所有的事情。但实际上,许多创新都源于你专注于特定任务并对其进行优化。

是的,是的。我们许多人真正理解的是,正如你所说,最终,价值来自这里。价值并非来自随机选择一个指标并进行基准测试。实际上,在多个约束条件下工作要困难得多。如果你只有一个指标,那就容易得多。你可以说,哦,你需要足够快,并且具有良好的性能,并且尽可能便宜。

以及低功耗和低排放,这些都是存在的约束,对吧?最终,当所有这些都扩展时,约束就会出现,对吧?你将看到功率限制、计算限制,人们必须遵守这些限制,对吧?所以,你实际上需要构建一个系统优化,知道这些约束即将到来。

并且,在许多现实案例中,情况并非如此:哦,在最好的、最昂贵的可用芯片上我能做到最好?一家公司可能会说,我有一些在本地计算机上的计算资源,我有一些在云上的计算资源,我有一些数据科学家和产品团队给我的所有这些不同工作负载。

对我来说,最好的方法是什么?无论什么对本地计算机至关重要,都应该在本地计算机上运行;无论什么可以写到云上,都应该写到云上;无论什么可以自由地去任何地方,都应该去那里。这需要你解决这种复杂性,以及如何处理它。这远远超出了仅仅优化单个模型以获得单个指标,对吧?这就是我们在公司中构建的内容,我们试图帮助人们解决多个不同复杂性矩阵的问题。这才是典型的企业或成熟公司的工作方式,而不是像有人计划使用一个模型那样。

我采访了萨拉·卡拉迪,他曾是最大的语言模型怀疑论者之一。他发表了所有这些论文,对吧?测试、自我激发、链式思维等等。他使用的是积木世界问题,这是一个规划问题。

他发现,当你做积木世界问题时,如果你更改令牌,它仍然是同一个问题,但你只是随机地改变令牌,或者他将随机描述放入令牌中,突然模型就无法工作了,因为他表示它们基本上只是近似信息处理系统。但是,他似乎改变了主意。我感到惊讶,他似乎在说,哦,看,它们现在在琐碎的性能方面没有问题。

它们有时可以提前许多步骤解决积木世界问题。我尝试过一些NP难问题,对于非常小的问题规模,它仍然做了一些事情。所以,它在做一些事情,什么是推理,它实际上在做什么?

我遇到了一个更复杂的问题。我认为经典的语言模型中缺少的一点是,它无法从世界中记住什么,就像一个伟大的过滤器,从自然语言中记住很多东西。

但对我来说,它永远无法以任何复杂的方式进行推理,就像你在一些演示文稿中看到的良好示例一样,它无法很好地进行三位数乘法,就像一个好的日志一样。它会记住很多案例,但它无法进行适当的多步骤推理。这缺少了,并且有人总是试图围绕推理和方面构建模型,但我感觉这两个阵营并没有真正进行太多交流。但现在很难很好地结合起来。

我认为这可能是朝着正确方向迈出的一步,使用一个模型,是的,对于一些非常基本的事情,它正在开始思考,但同时,它实际上开始以某种方式看起来更像人类,它们实际上开始进行一些基本的推理,对吧?这很好,对吧?它不仅仅是记忆事物并过滤它们,因为我们的大脑也不是所有方面都如此复杂,大脑的一些部分类似于动物,它们在做面部、你知道,目标检测,对吧?你不需要任何复杂的推理。

你需要快速完成。所以,你想要什么,对吧?这是关键。

并且大脑中有一些部分负责这一点,但另一些部分在后来发展,并且进化得可以进行基本的数学运算等等,对吧?所以,这需要更多。就像如何教孩子一样。

就像我有一些小孩子们一样。就像我一样。你会意识到,就像他们会在很小的时候学习目标检测,并且他们非常擅长它,他们不需要一百万个例子。

你只需要向他们展示几个例子,他们就能理解,对吧?这是改进这些模型的另一个方向。但是,教他们需要很多例子,对吧?

这需要很多例子才能解决任何分析问题,这是一个非常长期的过程。我认为这是这里的情况。我们需要开发能够做到这一点的AI。

我认为除了推理能力之外,现代语言模型中缺少的一点是与世界其他部分的连接。我认为现在阻碍训练过程的是它没有上下文。它不明白世界是什么样的。

因此,它可能会犯一些非常基本的错误,这些错误本可以避免。如果模型能够感知世界,收集输入并相应地调整,对吧?它没有这种经验。因此,许多事情看起来仍然很愚蠢或迟钝。我认为这是另一个缺失的方面。所以,推理能力绝对是关键,但能够与我们人类所拥有的物理世界建立联系,因为我们添加了更多传感器并能够感知世界,并以某种方式拥有世界的概念,这对于改进这些模型的质量将大有帮助。

是的,我完全同意你关于融入的重要性。我认为这归结于语义差距。很明显,我们有能力达到语义,因为有大量发生在我们之外的事情,这有助于我们理解和实际进行认知。但是,另一个问题是,我在这类语言模型中看到的模糊性问题,即使有时我可以得到正确的答案,但它只是因为它没有理解你,因为你随着时间的推移变得更擅长提示。

当然,你会学习如何以某种方式指定,它只能朝这个方向移动,它只能在蓝宝石和你知道之间移动,你随着时间的推移变得更擅长它。但是,我们有处理模糊性的非凡能力。这是人类认知的真正标志。

我还没有真正看到这一点,因为我认为当我们克服这种语义差距和模糊性差距时,模型可能会有更大的自主性。但是,我想评论的另一件事是,除了这种语义差距之外,我认为可能存在计算差距。我的同事凯斯·多格尔总是努力指出这些东西并非图灵机。

是的,你知道,就像存在某种不同类型,这意味着存在一些计算空间,它们无法通过梯度下降学习,更不用说执行了。你认为这有什么意义吗?或者你是否属于那些说,好吧,实际上在实践中并不重要,因为我们可以构建功能齐全的系统的人?

我认为可能更倾向于第二种观点。我不认为我们对无法学习的内容有任何根本限制,对吧?我认为我们的大脑没有计算机方面。

我们只是拥有一个非常好的学习系统,对吧?我不认为有任何我们无法模仿或扩展的东西。这非常复杂,需要多年时间。

我不认为我们明年就能拥有通用人工智能,但我认为它的基本原理可以学习,可以改进,我们可以从我们与世界互动的方式以及我们作为人类的学习方式中看到这一点。

并且,我们构建的模型也可以从中受益。此外,它们还拥有我们不具备的能力,例如,它们可以记住你看到的一切,对吧?它们不像我们那样容易忘记事情,对吧?我们有处理世界复杂性的绝佳方式。

它会很好地过滤掉事物,但由于这样,它会失去一些上下文。但是,你知道,机器想要的是,对吧?就像某种精度。所以,这里存在一些权衡。

我认为我们基本上有能力计算我们所需的一切。我不认为存在像,是的,也许某些事情可以通过梯度下降来完成,但并非完美。我们肯定会做到更好。

对我来说,作为一名计算机架构师,我更关心的是如何计算,而不是计算什么。我认为,当我想到我们的大脑消耗了多少能量时,我们非常低效。这是现代数据中心中训练过程消耗的能量,对吧?

我们开始谈论核反应堆了。你知道,美国,我认为这还不够远,等等,我的意思是,这有点令人震惊。

好吧,我们采取了相当激进的方式。我们朝着一个方向前进,我们可能需要进行一些调整,对吧?这意味着我们需要学习如何以不那么激进的方式处理数字,而不必考虑你在做什么。

你需要有选择性。它有许多不同的维度,数据是什么,你计算的是什么,以及你是否没有重复太多次相同的计算。例如,现在,所有基础模型都从互联网上获取的所有内容开始,并将其视为类似的任务。

我认为这相当重复,我会说,一遍又一遍地做同样的事情。希望你可以在监控模式下做到这一点。所以,未来的模型不是从头开始构建的,而是从先前的知识库中构建的,对吧?你只是在添加,对吧?我认为这将非常非常重要。

关于我脑海中有很多事情,只是为了弥合我们之前所讨论的内容之间的差距。你知道,存在这种模糊性问题,并且在这次采访的开始,在某种程度上,这有点令人紧张,因为我可以朝任何方向发展。就像与语言模型进行长时间对话一样,随着对话的进行,相互理解会增加,因为这几乎就像条目减少了,在一条已走过的道路上,而没有讨论,情况也是如此。

现在,这个模型也能像你训练模型一样训练你,引导你朝着他们理解的方式提问。迈克很快意识到,如果你不以正确的方式提出问题并获得高质量的答案,那么就无法达到预期的效果。但是,如果你学习了与这个模型沟通的协议和方法,你就能很快得到你想要的东西。所以这非常令人印象深刻。人类也会受到行为排放的影响。

是的。没错。所以关键在于知道该问什么问题,这在软件工程中很常见。所以,这些课程的参与者们观察到,我不知道这是不是真的,但他们说代码的熵较低。你知道,我最近也注意到这一点,你把大量的代码放在一起,它们会直接以某种方式形成理解,但是,如果你要求一个来自脸书的七级工程师去做这件事,他们会知道他们在构建什么,他们会使用正确类型的抽象。他们会以正确的方式设计事物。认为任何人都可以进去编写一些软件,因为软件会准确地返回你要求的东西,这通常是错误的做法。

是的,我不认为这是正确的。人们说他们会取代人类的工作,我认为这是一种误解。我认为这仍然是一个非常高质量的辅助系统。

所以,你仍然需要设计,你需要知道缺少什么。但是,例如,你不需要记住这个特定的算法来做到这一点,你知道,像最好的,所有最好的遍历所有最好的图,对吧?你只需要大致记住它应该是什么样子,以及大致的复杂性。

然后你只需要提出一个问题,就能得到代码。所以,与其费尽心思地编写和调试代码,不如直接获得一些基本概念。当我们作为软件工程师处理数据时,我们经常重复做一些事情。

而这个模型从我们做这些事情中学习,以及最好的做法是什么。所以你不需要成为最好的模型来完成这项任务,因为有成千上万的人比你做得更好,并且这些知识已经成为公司的一部分,会提供给你。所以,我们将开始构建非常好的、可靠的部分。

但是,如果没有顶层的架构设计,那么你问它构建操作系统,那可就难了。这不仅仅是添加一些循环,而是涉及相当复杂的知识。

但是,如果你想构建一个非常基本的,你知道,操作页面,那么你不需要学习那些标准。E、P、S。所有这些都将存在,因为它非常标准。所以这将节省大量学习这些东西的时间,对吧?是的,如果有什么错误,并且从根本上影响了核心基础,那么它会建议每个人都这样做,对吧?但是,就像任何库一样,库也有同样的问题,就像每个人都会被怀疑一样。所以,我认为所有这些编码工作还没有被取代,但只是在最好的情况下提供非常有力的帮助。

是的,这个模型也表明,目前编码仍然是人类的辅助。所以,课程参与者们提到的一个问题是验证问题。所以,你告诉它做某事。

你问它正确的问题。现在我们需要一些创新的方法来区分许多文件,因为我可能生成了四百行代码,并且它们获得了类似于获取B的经验。我们有这种多文件差异经验,它在五十年间没有改变。

现在,我们可能会有多层辅助,帮助我们专注于变化的部分。所以我们正在成为验证者。但是,我们不希望系统每次都破坏代码库。

你知道,约翰,约翰提交了一些更改。现在,这些更改遍及五十个文件,这会产生理解债务,因为现在所有其他开发人员都需要弄清楚发生了什么。所以,拥有一个被每个人理解的模块化架构是有意义的。即使我们可能引入了效率低下,我们也会以有针对性的方式进行更改,因为我们不会最大限度地减少损害。

是的,我们完全正确,设计就像一些工程,设计一个功能良好、高效且可扩展的复杂系统是一门艺术,你需要做到这一点。

我不认为我们已经到了可以委派这项责任的阶段,所以我们委派了一些额外的任务,你知道,给人们。当然,这与你开始接触到这些东西时相关的风险。我认为我看到了这一点。但是,多年来,我们依靠人们在飞行中进行开发,初级工程师们不会参与整个系统的设计,他们会学习一些基本的任务。

现在,如果我们开始使用一些功能,这些功能将被不同类型的辅助所取代。我们需要确保我们有一个良好的基本学习曲线。如果你想培养一批建筑师,那些构建系统的人,从所有三个级别一直到L A或七级或L A,对吧?我们只想确保他们能够在新的环境中成长,在这个环境中,许多基本技能将被自动工具取代。

我认为这值得怀疑,我们只需要找到一种方法来做到这一点。整个流程都需要改变。想想面试流程是否需要改变。现在,我们在很大程度上测试人们对基本概念的记忆,现在为什么还需要你呢?你需要更多地测试设计技能,例如如何使用这些组件,而不是记住最佳算法。

是的,还有监控。我上次谈话时说过,我非常喜欢这个演员,你必须成为监控方面的专家。

所以,所有演员都在记录他们的活动,它们将在不同的顺序中同步发生。你知道,我们需要构建下一代平台,只是为了弄清楚系统到底在做什么。而且它也更灵活,对吧?因为我们可以进行模拟和反事实分析,以及其他各种操作。

但是,我们正在远离这种传统的软件工程方法,这就是我想谈论的,因为企业采用,目前企业一直在以某种方式构建软件很长时间了。有一些方法可以使其更容易访问,例如低代码和无代码平台等等。他们开始采用人工智能,你看到了什么?企业采用人工智能的情况如何?

是的,我们作为一家公司看到了很多事情,这帮助我积累了一些经验。我们与企业部门交谈的大多数公司,他们的董事会都对此感兴趣。他们看到了这项技术的潜在价值。

他们通常已经拨出预算,开始在内部部署这项技术。事情变得复杂的地方在于,第一个用例是什么。他们有时也没有正确的概念理解,这项技术是什么,不是什么,对吧?通常,公司内部的人会说,好吧,让我们开始在内部使用人工智能,做出决定,然后开始从内部组织中招募一些人。

一个数据科学家,可以帮助采用这项技术,这个科学家对这项技术很兴奋,但是他们以前从未构建过复杂的系统。此外,这是一个YouTube视频,所以所有这些复杂性,我们以前从未作为科学家构建过复杂的系统,对吧?在人工智能领域,我们需要自己去做。

而这本身就非常复杂,要适应这个系统非常困难。你还要在你的组织中找到杀手级应用,来证明你的存在。所以很容易有人说,给我五百万美元,训练另一个针对公司业务的GPT。

我们自己也开发了一个模型。这很好,但是这个模型对公司的帮助是否比以后使用的人工智能模型更好?

然后,你应该做微调。如果你进行微调,谁来准备数据?选择哪些是有用的,哪些是敏感的,哪些是非敏感的数据,所有这些都需要解决。所以,在如何采用这项技术方面有很多挑战。好消息是,似乎每个人都同意现在需要使用它,对吧?

人们确实看到了它的价值,这不像只是炒作,人们普遍感觉它会在某些不同的用例中帮助他们,并且他们会进入企业的不同部门,金融部门,当然还有汽车行业,他们都看到了这项技术的价值。但是,复杂的是,确切的第一个用例是什么,以及在确定了用例之后,如何进行实施和开发,因为他们以前通常没有能力充分地做到这一点。

记住,他们不是,你知道,人工智能领域的先驱公司,他们只是拿到了一个新玩具,他们有一些专家,但其他人不是。像我们这样的公司,实际上正在努力弥合这些差距,对他们来说,最大的差距之一是如何以一种集中式的方式构建系统,从他们的数据中构建系统。

我们有基础模型,我们有数据。谁来帮助我们利用数据,获得知识产权,并帮助我们部署这些模型?

这也会提高成本效率,对吧?我们还看到,成功使用过这项技术的人,感觉他们不会再回头。他们可能会批评它不可靠,并抱怨这些问题。

但是,例如,如果你以前花了一千万美元来寻找组织,比如从他们的银行对账单中寻找,现在你使用一个模型来做这件事,而这个模型只花了两百万美元,你作为一家优化公司,会抱怨两百万美元太贵了,但是你知道,你可能会回到用人来做这件事的十百万美元的开支。你会尝试优化你拥有的东西,但是你已经迈出了这一步。没有回头路,你总是会使用某种人工智能,某种形式的自动化,因为你永远不会再用人来做这件事,对吧?因为它有自己的缺点。

是的,你开始忘记使用人工智能时,你会说,哦,是的,哈尔康吃得好。问题是人类也会编造事情,哈尔康有时也会吃,也会犯错误,对吧?所以,是的,有挑战,但我们需要承认这些挑战。

我们需要为企业采用人工智能建立一个良好的路线图。我认为现在的好消息是,许多组织普遍认为,你需要成为人工智能的一部分,用例自然会出现。当你仔细观察时,这不是随机选择的,你与团队成员交谈,看看你的数据在哪里,你的公司独特的优势在哪里,并尝试调整和加强它,对吧?我们现在与企业进行的大多数对话,在最初的几次对话中,他们是否真的想这样做,他们都同意了,对吧?这实际上是相对顺利的,挑战在于,第一步究竟是什么,因为他们以前从未做过。

我发现的一件事是,当你有良好的软件工程文化时,其他问题就会减少。所以,你知道,我们从独立的、孤狼式的数据科学家,到开始思考机器学习开发,再到开始思考数据架构、数据工程的联合方法,等等。从原则上讲,这听起来都很好。

然后我们开始构建模板,整理它们,开发框架。我们说,伙计们,每个人都需要使用这个框架。现在我们开始组建团队来构建它。

如果你使用这个模板,那么一切都会好起来。当然,这不会发生,因为人们倾向于只为他们自己构建应用程序。这是一个巨大的进步。

它是否正在朝着集中化的方向发展,考虑拥有功能和平台?例如,如果我正在处理定价,我可能有一个团队,他们的工作是维护这个定价平台,并且它有一个固定的API作为标准接口。当它由中心管理时,他们会使其非常优化,这似乎是一个非常困难的步骤。

是的。所以,我认为,当你谈论这个管理平台时,就像现在很多人支持的那样,我认为这只是一个步骤,这不是最终解决方案。

我不认为这可能是错的,但我没有看到很多人只想使用大型语言模型来做所有事情。我只是看到少数人。这只是系统的一个构建模块,对吧?我认为这些系统将包含许多这样的构建模块,以及许多专门的系统来完成所需的工作。你可能需要在每个组件周围建立一些轨道,你需要很多东西。所以,这比仅仅说,让我们拿一个模型,然后在某个地方运行和部署它要复杂得多,对吧?

所以,我认为未来你需要做的是构建一个能够可靠运行这些复杂系统的基础设施,对吧?所以,基本上,系统将由多个代理(例如)和多个不同模型组成,所有这些模型都可能与不同的知识库(例如知识库或类似的东西)连接,人们可以使用这些知识库。

所以,你需要构建一个非常不同的视角,让这些系统能够真正地像插件一样使用组件。用不同的方式玩弄它们。测试,就像中心一样,你需要构建的不仅仅是测试一个单一模型X,而是测试两个系统相互作用,所以你想让两个完全不同的系统相互作用,看看它们的表现如何。

情况也相当复杂。记住,基于单一输入的交互式事物可能是非确定性的,你无法据此断定一个系统优于另一个。你需要一个非常复杂的测试环境。

那么,如何让事情表现得易于测试?例如,如何衡量速度提升、IT成本降低?记住,多方向、多目标的问题要复杂得多,对吧?因此,你需要确保环境具有良好的特性,并且你可以充分了解哪些方法对你有利,对吧?我认为这是一个非常令人兴奋的研究领域,我相信社区会随着时间的推移而发展。

上次我们谈话时,你使用了“暗硅”这个术语,我认为这非常有趣。

你指的是什么?但从简单的概念来看,你可以这样思考:想象一下,你有一个可以分配给芯片的电力预算,但你可以在这块芯片上放置更多的晶体管。

因此,你必须生活在一个这样的世界里:在任何时候,你都不能为所有晶体管供电。你只需要为其中一部分供电。你必须决定哪些部分不值得供电。很长一段时间以来,人们都认为我们永远不会构建这样的东西。

我们总是试图在CPU中包含所有内容,在芯片中包含所有内容,对吧?但是,在某些时候,随着摩尔定律和其他限制因素的终结,尤其是在计算机芯片方面,我们无法保持功率不变,同时提高晶体管的尺寸。为什么这是个问题?这意味着我作为一家硬件公司,仍然希望销售更大的芯片,拥有更多的晶体管。

但是,它们没有足够的电力来供电。因此,要么必须使它们在物理上越来越大,或者如果受到物理尺寸、成本和空间限制以及互连的限制,我必须限制供电。因此,暗硅有许多不同的形式,例如这种限制。

要么降低运行频率。因此,并非完全关闭某些芯片部分,而是降低某些部分的频率,对吧?或者,基本上,我们必须优化资源。从计算机芯片的角度来看,我们已经谈论过手机了。它们在电力方面受到很大的限制。

例如,在手机上非常常见的是,你有一些可用的内存带宽,但你只能在很短的时间内使用它,否则就会耗尽电力或过热。因此,并非所有硬件都能被充分利用。这意味着你需要更聪明地使用这些硬件。这个问题并没有消失。现在的芯片非常强大。

例如,在视频芯片中,对吧?深入了解这些芯片非常有趣,因为所有公开信息都已知,它包含许多不同的精度支持和许多不同的专用组件,对吧?例如,即使只考虑浮点运算,你也有单精度浮点运算和半精度浮点运算,对吧?它们结合在一起,以便两个半精度浮点运算可以生成一个双精度浮点运算的输出。然后还有四倍精度浮点运算,还有其他精度。

还有一个名为张量核心的专用单元。它们不使用向量指令,而是使用直接矩阵乘法。所有这些都是独立的单元。

大多数时候,你的软件并没有编写为使用所有这些资源。这意味着什么?这意味着许多资源可能会被浪费,无论你是关闭部分电源还是降低频率,计算机架构师必须做出一个非常棘手的问题,因为电力成为许多组件的限制因素,对吧?因此,这是一个非常有趣的问题,任何设计现代芯片的人都需要处理和优先考虑一个组件而不是另一个组件,一个组件的功率而不是另一个组件的功率。

这里的问题一部分是人们没有意识到我们正在浪费多少计算能力。为什么会出现这种情况?

在我职业生涯的早期,我刚完成博士学位,在微软研究院工作时,我看到很多人对训练大型模型很兴奋。我们谈论的是2016年和2017年,这已经有一段时间了。

当时人们使用NVIDIA的GPU。但是,在之前的那些一代GPU(例如,在P100之前)中,情况如何?P100当时刚刚发布,基本上有一大批人都在等待这些芯片。

我当时觉得很有趣,因为我是一个优化人员,我非常想知道这些框架(例如,当时人们使用的TensorFlow)运行得有多好。我获得了访问权限,并分析了一些人们运行的工作负载。

我发现GPU的利用率很容易只有10%。我回到那些人面前,问他们是否了解运行这些工作负载时的情况。芯片的利用率很容易只有其潜力的十分之一。他们对我说的话感到困惑,因为对于大多数人来说,这是一个荒谬的主张。

你指的是GPU运行但未充分利用?因此,这是理解和衡量人们从一个工作单元到另一个工作单元,从一个系统到另一个系统,以及人们如何思考计算机的方式。直到今天,实际上很难达到99%的芯片利用率。

通常,当你看到这种情况时,这意味着矩阵中有人在欺骗你,只是告诉你一部分可能的情况,对吧?这是一个巨大的机会,可以充分利用所有这些计算能力,并且浪费的原因有很多。

GPU甚至不总是运行,因为你的模型可能在CPU上运行,然后将内核移动到GPU,对吧?当你这样做时,会有某些时间段内核不在GPU上。因此,你需要正确地进行管道化。

你总是让GPU运行,但它并不总是处于最佳状态。然后,另一个问题是,当你运行时,你可能没有充分利用可用计算资源,因为芯片具有如此多的计算能力,而模型是灵活且不同的,并不总是完美地映射到你的需求。这意味着有很多浪费,有很多不同的浪费来源。

即使你看到了这一点,你仍然可能只使用一种精度或一种类型的计算单元。但是,在视频中,你必须充分利用整个芯片的所有功能,以便所有其他功能都能以最大功率运行。你只是浪费了计算能力,没有运行线程,对吧?是的,这是非常重要的一点。

记住,这里还有一个挑战,当我们谈论功率限制和暗硅时,如果你让所有内容都运行,你可能会过热,因为芯片无法很好地散热。因此,你需要非常小心,不要做得太过分,并且以一种聪明的方式去做。这是一个非常有趣的问题,但有很多机会可以利用。

我们公司的一些研究成果实际上为用户带来了好处。例如,我真的很喜欢我们最近发表的一篇论文,它将在几个月内发表。你可以在同一芯片上同时运行训练和推理。

关键在于利用所有被浪费的资源,以及使用其他未充分利用的精度。你基本上可以几乎免费地连续运行训练和推理,对吧?如果你的系统能够正确地组织起来。这是一个可以利用的机会。

是的,这太棒了,太棒了。我的意思是,很容易认为我们有这些非常高级的抽象,例如Python,当然,许多深度学习并不在Python上运行,但是,正如你所知,Python效率极低。但是,与此同时,它使计算民主化,对吧?这意味着很多人可以编写Python代码,但是你谈论的是比这更细微的东西。我认为,当我们开始系统地思考这个问题时,当我们拥有一个大型系统并且有各种不同的工作负载时,我们可以开始进行优化,而如果我们单独考虑它们,这些优化是不可能的。

完全正确。我很高兴你提到了高层,我认为因为我们谈论暗硅,我开始更多地关注低层,因为在高层可以做很多事情。我记得我们的科学顾问之一大卫·帕克森,他展示了在模式中乘法指标下降的例子。

这很糟糕。正确优化并向下优化到硅,差异可以达到三个或四个数量级,对吧?因此,Python效率很低,但使用起来很容易。而开发需要技能。

因此,一些使用Python和C++访问系统的系统非常高效,因为它们隐藏了所有需要显式计算的内容,并将其运行在堆栈上,就像你使用该接口一样。但是,在最底层,有库和函数,你不需要担心所有这些复杂性,它都隐藏起来了。这很好。

这很重要,因为这会影响其采用率。同样重要的是,用C++编写所有内容,如果你想让这项技术被更广泛的受众采用,这不是正确的方法。我们公司的一些发明也围绕着自动编译器开发。例如,在NVIDIA,多年来,人们编写了精心设计的内核以获得最佳性能,这被认为是最佳方法。

但是,几年前,我们意识到这不是一种可持续的方法,因为有如此多的内核和针对不同硬件的优化,所有这些都非常多样化。因此,我们必须倡导使用机器学习编译器来自动化此过程。在这种情况下,你仍然需要提供当前想要的内容,但使用模式接口来提供输入。

但是,所有复杂的底层代码,甚至OPTX代码,都是自动生成的,对吧?这是可行的,人们从中受益,现在正在使用。我认为像谷歌这样的公司构建的编译器也能够以更自动化的方式有效地执行这些操作。

现在,这是你实际拥有的产品之一。你可以将它插入你的PyTorch代码中。你只需要添加几行代码,就可以编译模型,并指定你想要应用哪些优化,它将使模型运行得更快。你能详细说明一下吗?

是的,我再次看到这一点,几年前,编译器系统开始发展,并开始对其他人开放,以便他们参与开发。有使用名为Gal的编译器的可能性,对吧?因此,它允许你将模型作为输入,并使用你自己的后端与其他内容进行交互。

因此,多伦多大学的研究小组和我们公司支持并开发了新的机器学习编译器,它允许你通过一行代码显著优化代码。从那时起,许多人朝着这个方向发展,该领域的一个非常成功的项目也是尝试编译器。因此,人们意识到手动编写内核不是正确的方法,你需要一种更自动化的方式。

我只想提醒你,这只是拼图的一部分。我们谈论的是模型的内核级优化,而不是整个模型的优化。因此,生成式工作负载使这一过程更加复杂,为什么?因为它们通常需要动态形状,而编译器对此并不擅长。优化一些具有随机边界的循环非常困难。

这非常困难,对吧?因此,基本上,这使得编译器优化变得困难,但仍然是一个可解决的问题,我们公司也解决了如何在我们的系统中高效地运行动态形状工作负载的问题,对吧?但是,这在低层,对吧?为什么这很重要?因为它促进了其他人参与到这个项目或任何Pythonic系统中的成功,对吧?我认为人们意识到这是正确的方法,并且许多人参与其中。我认为现在该领域得到了很好的支持,包括个人。我非常支持在机器学习编译器周围建立的开源社区。

你知道,像C++一样,我们有几个编译器,如果我在Mac上编译某些内容,我每次都使用相同的编译器。但是,我发现机器学习工作负载要复杂得多。因此,针对特定任务有特定的优化。你能解释一下吗?

是的,这非常重要,例如,即使是训练和推理,它们是不同的工作负载,人们会说,它们不是非常相似吗?就像做很多矩阵乘法等等,答案是肯定的,有一些共同点,但是两者之间有很多不同之处,规模和所有这些都非常重要,以及如何针对特定目标进行优化。

例如,你的目标可能是吞吐量、时间成本,或者更常见的是两者兼而有之,那么你就可以使用各种技巧来平衡它们。这些技巧通常不会让所有事情变得更糟。它是一种权衡,一种为了获得某些东西而牺牲某些东西的方式。

你今天提到了推测性解码,这是一个非常酷的技巧,但没有免费的午餐。推测性解码意味着你在某个地方进行推测性操作。这意味着你必须消耗一些计算资源,而这些资源可以用于其他用途。

为什么你的GPU在AI方面利用率低?CentML首席执行官解释 本期*赞助节目*中,多伦多大学(UofT)CentML首席执行官Gennady Pekhimenko教授深入探讨了AI系统优化和企业实施。从英伟达的技术领导力模式到开源AI的兴起,Pekhimenko分享了弥合学术研究与工业应用之间差距的见解。他探讨了“暗硅”,机器学习工作负载中GPU利用率的挑战,以及现代企业如何优化其AI基础设施。对话探讨了为什么一些公司只能实现10%的GPU效率,以及提高AI系统性能的实用解决方案。对于任何对企业AI和硬件优化的技术基础感兴趣的人来说,这是一场必看的节目。

https://centml.ai/pricing/

MLST 也由 Tufa AI Labs 赞助 - https://tufalabs.ai/ 他们正在招聘精通机器学习的工程师/研究人员,以从事 ARC 工作并构建 AGI!

https://www.dropbox.com/scl/fi/w9kbpso7fawtm286kkp6j/Gennady.pdf?rlkey=aqjqmncx3kjnatk2il1gbgknk&st=2a9mccj8&dl=0

1. AI战略和领导力 [00:00:00] 1.1 技术领导力和公司结构 [00:09:55] 1.2 开源与专有AI模型 [00:16:04] 1.3 硬件和系统架构挑战 [00:23:37] 1.4 企业AI实施和优化 [00:35:30] 1.5 AI推理能力和局限性

[00:38:45] 2.1 AI系统计算和认知局限性 [00:42:40] 2.2 人机语言模型通信适应性和模式 [00:46:18] 2.3 AI辅助软件开发挑战 [00:47:55] 2.4 AI时代软件工程职业的未来 [00:49:49] 2.5 企业AI采用挑战和实施

[00:54:41] 3.1 MLOps演进和平台集中化 [00:55:43] 3.2 硬件优化和性能限制 [01:05:24] 3.3 机器学习编译器优化和Python性能 [01:15:57] 3.4 企业机器学习部署和云提供商合作

[01:27:05] 4.1 多云机器学习基础设施和优化 [01:29:45] 4.2 AI代理系统和生产就绪性 [01:32:00] 4.3 RAG实施和微调考虑因素 [01:33:45] 4.4 分布式AI系统架构和Ray框架

[01:37:55] 5.1 MLPerf基准测试的起源和演变 [01:43:15] 5.2 MLPerf方法论和行业影响 [01:50:17] 5.3 AI学术研究与工业实施 [01:58:59] 5.4 AI研究历史和安全问题

他们是否能在云端拥有每日处理能力,这始终是一个问题,有点像嵌入到一个云中。但我认为你可以提升一个抽象层次,因为拥有这种对硬件的回声式优化很棒。所以你拥有一个非常智能的系统,可以优化在集群上运行的硬件。

但是,原则上,你可以在云层上做到这一点吗?所以你可以通过设置集群来进行成本优化,你知道,在 AWS 上。以及在谷歌或类似平台上。

从技术上讲,这是可能的,现在已经在单个云中进行多集群操作,例如在单个区域内。但原则上,这可以在不同云之间完成。问题在于集群之间如何通信,成本、最新入站流量和出站流量。

你知道,这可能很昂贵,对吧?但是从技术上讲,这是可以做到的。一开始你提出的重要问题是,如何与所有这些不同的基础设施集成。

我想说,这存在一定程度的复杂性,但不会很严重,因为最终会在容器级别选择一个抽象层次,对吧?所以它们都以某种形式支持容器,这是一个非常基本的概念。因此,我们确保部署的内容仅基于容器的概念,并且我们可以在此基础上构建。

这意味着我们可以轻松地在 GCP、AWS 和 Azure 之间切换。然后,所有其他需要直接访问金属服务器的供应商只需要支持这些基本单元,这足以让我们在此基础上构建。所以真正只有少数专业的云提供商是超级复杂的,而从所有层面的角度来看,其他供应商都比较相似。它们都提供裸金属访问,我们可以很好地管理它们。

是的,我认为其中一部分原因是你需要这种实用主义,因为你需要将模型部署在数据所在的位置附近。例如,我认为你可以在 Snowflake 中构建,并且从数据库查询中,你可以实际调用集群并执行情感分析或其他操作。但是,为了使这些架构高效运行,你实际上还需要尊重数据架构的边界。

是的,我们绝对支持。你提到了这种情况,是的,我们也与 Snowflake 合作。并且我们可以在市场上提供,以便我们可以加速客户的模型。

我们为什么要这样做?因为有些人真的喜欢 Snowflake 基础设施,数据已经在那里,他们更喜欢在数据所在的位置附近执行操作。而不是将数据移动到不同的云提供商。因此,我们为他们提供了这种灵活性,但他们可以运行任何模型和任何构建在标准机器学习模型之上的应用程序,这些模型位于他们的数据所在的位置。所以这对于他们来说很方便。

现在让我们转到代理讨论。我对代理非常兴奋。我的意思是,我对此感到兴奋,而不是那种你知道的奇点 AGI 的方式。我只是兴奋于构建分布式同步系统的方式,我认为这非常令人兴奋。我认为将计算同步单元视为应用程序级别的概念,当然,使用共享计算结构(你们正在做的事情),我认为这非常酷。你认为这种软件工程范式会如何改变事情?

是的,我绝对赞同。我也喜欢构建同步的分布式系统。这非常令人兴奋,再次打开了一扇大门。

回到我上周参加的活动。智能应用是一个由 AWS 和微软组织的非常棒的活动。很明显。

很多人都在四处走动,说,关于代理怎么样?你们在做什么?你们在做什么?这个领域,每个人都对它充满热情。

他们对 RAG(六个月前)感到兴奋,就像我一样。但问题是,它似乎还没有像我们预期的那样广泛地用于生产环境,所以还为时过早。

另一件事是,当人们听到一些很棒的词语时,他们想将它用于所有事情。所以,当他们谈论代理时,它几乎变成了应用程序本身。所以这并没有什么帮助,你需要理解你想要实现什么样的智能,以及你所说的代理的总体含义。

但我认为这是我们应该前进的方向。如果将来我们只是在各个地方运行生成式模型,并且仍然有用户参与,我认为这效率不高。我希望系统能够排除用户参与和人类干预。

设计师可以监督和指导流程,但不要参与到每一场对话中,这与管理公司一样。如果我作为 CEO 需要参与到每一场会议中,只是为了协调与所有人的沟通,那公司很快就会失败,我需要依靠他们能够在没有我的情况下进行适当的会议和沟通,并高效地完成工作。我不需要在那里,也不需要成为瓶颈。

这很有趣。如何从这些代理系统中构建一个复杂的系统,这令人兴奋,但仍有许多实际案例需要证明。记住,人们谈论微调,它在一定程度上被使用,但它并没有解决所有问题。

事实证明,这些模型的微调也不便宜,对吧?你仍然需要数百个案例来进行微调,并且需要专业知识来完成。所以很多人觉得,现在微调可能对我来说太贵了。

然后 RAG 出现了,它在某些方面有所帮助。但你意识到,RAG 并非没有微调那么好。人们认为它在某些方面有所帮助,但并非万能药。

但无论如何,我们已经看到了人们从中受益的实际案例,但这不仅仅是这个概念本身的答案。它只是拼图的各个部分,根据用例可以带来好处。但最终,随着你构建更令人兴奋的东西,并将其称为代理,我认为每个人都开始谈论代理系统。我失去了思路。

最近有多少初创公司声称自己拥有并筹集资金?但我仍然希望看到客户告诉我,我们构建的系统会让他们兴奋。记住,我们谈论的是企业客户。

这些人总是对新事物持谨慎态度,所以我还没有看到他们大规模采用。这需要时间,我认为我们作为 CentML 需要做好准备。这有助于我们与这些生成式初创公司互动,因为它们是技术创新的推动者,但最终,收入和技术的未来取决于企业采用。

我认为企业采用和云提供商的采用是关键,在我看来,现在我们应该关注这些方面。我认为很多都是实验性质的。

我与一些公司谈过,他们正在开发代理,并问他们是否需要我们的帮助,是否需要优化。他们正在尝试。

他们说,不,一切都是一些零星的请求。我们只是在幕后调用 GPT,就像 OpenAI 的 API 一样。显然,它还没有达到我们可以提供帮助的规模,对吧?通常,证明某些事情可以实现是一个重要的步骤,但它还不是一个规模化的步骤。

但是,我仍然非常欣赏你们的方法论,例如,假设我构建了一个大型分布式同步系统,并使用行为模式。我正在查看日志,其中有一个日志记录代理,你可以开始看到可以优化的模式,而以前在构建这些 AI 应用程序时你无法做到这一点。

我注意到,如果你尝试以整体方式执行此操作,复杂性会迅速增加,即使使用 Ray 系统,如果你正在构建一个信息属性系统,通常你将组合查询自动完成系统,然后是排序系统,并且你正在与所有这些不同的异构数据源进行交互。该系统的足迹非常复杂,难以监控和部署等等。人们不使用代理系统的原因是,我认为从零到一的过程实际上更复杂。

你知道,当你查看 Twitter 和 LinkedIn 等这些大型全球分布式系统时,他们已经在做了。所以我们几乎需要告诉人们,你需要从构建这些分布式系统开始。我知道这需要一定的学习曲线。

这需要一段时间,但你需要这样做。当然,我们需要新的突破。我不知道我们是否需要一种新的编程语言或构建这些系统的某种新方法。这是什么样的?

是的。我认为我们有几个不同的方向可以探索。我看到一些尝试解决这个问题的尝试,在伯克利大学确实有一些人。

我在该领域看到了一些工作,例如,在复合系统上进行工作,这在以前是很有希望的。我也与我的研究生谈过,这可能是接下来要解决的有趣的大问题。我认为我们需要,不仅仅是编程模型,我们需要一个新的抽象层次来处理这些系统。你绝对是对的,我们不仅需要工作,还需要识别问题。

我们需要能够监控和调试它们,就像记住,如果你构建系统,你永远不会足够聪明来构建它,对吧?你永远不会足够聪明来调试它,对吧?所以,这不仅仅是构建系统的问题,你将构建具有你肯定需要能够监控和调试的缺陷的系统。

所有同步分布式系统都难以调试,对吧,使其具有确定性。这是我们多年来在生产工作中遇到的已知问题。所以,我们基本上需要确保将其作为系统的一部分构建,具有可扩展的监控功能,并且我们可以以合理的开销对其进行调试。

所有这些仍然是一个开放的问题,对吧?我认为我们从构建经典分布式系统中学到的东西会有所帮助,但最终它们将是,首先,我相信这些系统将非常、非常复杂。所以我相信它们将由在 CPU、GPU 和其他加速器(如 GPU)和其他组件上运行的东西组成。

因为我可能会发现每个部分都在不同的环境中运行,对吧?特定模型可能位于某个云提供商上,并且需要进行协调。所以这将类似于构建必须在全球范围内协调的软件,可能在不同的云环境中运行。

你还想确保你构建了智能的迁移版本,对吧?人们在传统的 CPU 世界中一直在研究这个问题。但现在你需要在生成式领域中做到这一点。

你需要确保你拥有检查机制,以及许多需要做的事情。确保管理这种复杂性是一个非常开放、有趣的问题,构建这样的产品非常有趣,这对未来的研究生来说也是非常有趣的项目,在我看来,对吧?会有很多令人兴奋的事情出现。我只是触及了系统层面的方面。我相信在生成式领域中,人们会对可以用这些东西构建的东西感到兴奋。

是的,当然,没有免费的午餐。总会有瓶颈。我喜欢那本书,《神话般的月》。

我曾经说过,即使你有一个完美分割的任务,你仍然会遇到这种曲线,对吧?你可能会增加越来越多的开发人员来解决问题,但速度不会加快。我相信会有类似的瓶颈,但仍然很酷,拥有大量工程师可以独立工作并独立部署在系统不同单元上。这令人兴奋。

但我想要转到 MLPerf 和 MLCommons。

所以你现在是 MLPerf 和 MLCommons 的创始成员。

现在,这都与在生成式 AI 中进行基准测试有关。你能告诉我们更多吗?

是的。首先,构建它的动机是什么?在它出现之前,我的旅程就是这样。所以,正如我所说,在 2016 年,我在微软研究院工作,对吧?我想了解利用率问题,这些工作运行得有多好,因为我有一种理论,即运行这些工作的团队。

许多大规模实验的人实际上从未自己构建过复杂的系统。所以他们从未关注过这一点,事实证明这是真的。然后,在 2016 年至 2017 年,几乎每个人都声称,但随后出现了某些声称比其他人更好的情况。

当这种情况发生时,你知道,有人欢呼,但在大多数情况下,每个人都在作弊,因为他们使用不同的数据集或非传统方法,有很多方法可以绕过系统。我们已经看到世界各地出现过这种情况,例如,在 70 年代和 80 年代,CPU 的爆炸式增长,当时有一个名为 SPEC 的基准测试,有助于构建它。并且有些人显然没有这种经验。

所以我认为似乎没有这样的基准测试。所以当我开始在多伦多大学的学术生涯时,我的第一批四名研究生都在为生成式 AI 构建基准测试。他们说,嘿,系统专家,我无法优化,直到我知道发生了什么。

我需要知道,现在我们可以做什么,什么不是问题?有不同的数据集和模型,我不理解。

每个人都在网上声称一些荒谬的事情。这不可能是真的。所以我们开始研究这个问题。

然后发布了第一个基准测试套件,称为 TBD。所以当时它为生成式 AI 构建了一个基准测试,但它也...

这个项目被称为 TBD,因为模型在每次最终迭代时都会快速变化。每次都有新模型需要排除,所以它总是需要完成。

所以我们称之为 ATV D。我认为它仍然很受欢迎。网站可能还在某个地方运行。所以我们将 D、B 和 D 公开给公众。此外,我与谷歌的朋友讨论了在不同研究主题上的潜在合作。

我在谈论我正在做的所有很棒的事情中提到过,例如,我喜欢为一个里程碑式的基准测试做准备,然后,其中一位名叫 Cliff Yan 的人士,他是 TPC 的架构师之一,这非常相关。我们正在讨论斯坦福大学和我们之间正在进行但尚未公布的事情。

但是,您的反馈似乎很好。您想合作吗?您想自己做吗?我几乎愿意合作,我不知道你们在做这件事。

这就是我开始参与基准测试的原因。几个月后通过电子邮件沟通,我们第一次在斯坦福大学见面。这非常棒。

我们正在谈论 2008 年的基准测试,但并非每个人都是个人。所以我经常飞来飞去,然后与小组会面,以确定基准测试应该是什么。它与传统的 CPU 工作负载非常不同,与之前任何基准测试都非常不同,规模也完全不同。

有训练、有影响力。有如此多的不同用例,大规模和小规模,各种类别,很难选择一个特定的东西来衡量。所以我们坐下来,开始组建工作组,开始制定方法。

我的研究生构建了几个早期基准测试和操作。我们贡献了第一个语音基准测试,在深度语音方面取得了进展。很多工作最初是由学术界完成的,包括来自伯克利等机构的人员,以及来自所有你能想到的工业公司的毕业生。

我开始时大约有 50 人在房间里,现在我想会有成千上万的人,许多参与者都希望快速获得可用的人员。

起初,学术界和工业界各占一半,但很明显,随着时间的推移,它开始由工业界主导。这是一个庞大的组织,对人们做了很多好事。

它提供了适当的衡量标准,让你知道你在哪里,你不能说自己比谷歌视频更好,如果你声称你的代码通过了 MLPerf 基准测试并发布了结果,那么你真的想脱颖而出。我通常会回答“不”,你肯定在某个地方作弊。所以现在这些说法逐渐消失了,人们基本上不再声称这些了,因为人们知道现实是什么样子。

我们面临一个很大的问题,即基准测试并不代表实际工作负载。人们已经谈论过这个问题,在 MLPerf 等领域,以及如何解决这个问题。当然,基准测试也会变得更好,当它们成为一种看起来不错的衡量标准时,我们如何才能使它们更可靠?

这是一个人们几十年来一直在努力解决的难题。问题是,你能让它们完美吗?我只是想让它们在它们应该合理的情况下表现良好。所以基本上,当我们构建它们时,答案是否定的,我无法让它们完美,这是一个过于复杂的问题。

但我将努力让它们可靠、公平,因为另一种选择是存在于线上的“西部狂野”,每个人都声称自己比其他人更好,潜在客户迷失在可能实现的目标中。所以基本上,有各种基准测试,公司可以选择如何展示它们的基准测试,以及它们想要诚实到什么程度。我们制定规则,让比赛环境合理、诚实,例如,在训练方面。

我们意识到一些公司拥有比其他公司更多的资源,因此他们可能只是因为更好的超参数调整和数百万美元的投入而更快地收敛。为了使事情更公平,我们说,如果有人这样做,其他人可以窃取你的超参数并提交中间运行结果。所以,如果你是大型公司,例如视频或超大规模公司,那么这样做是可以的。

根据规则,这是完全合法的,但其他人可以使用你使用的相同超参数,以便我们尽可能地使比赛环境公平。当然,像英伟达和谷歌这样的公司仍然有更多资源来进行超参数调整。但与此同时,重要的是要让每个人都尽可能平等。

这就是为什么我们认为在基准测试中取得成功非常重要,大型公司会提交结果,小型实体甚至学术界也会提交一些结果。这离完美还很远,但我们试图跟上。例如,这个 MLPerf 基准测试包含一个具有 7000 万参数的模型。

这并不是该模型的最佳版本,但下一个版本可能会有 4000 亿个参数。因此,MLPerf 的目标从来都不是发布最先进、最快、最强大的模型,而是让社区认为它是一个稳定的起点,可以获得非常好的模型。这意味着到那时可能会有另一个更好的模型,但基准测试仍然可以衡量芯片和软件的性能,这非常合理。所以没有奇迹。

我们无法解决所有基准测试问题,你仍然可以雇佣 100 名开发人员并手动调整模型以获得出色的结果。然后你的客户会带来一个完全不同的模型,性能却很差。这就是现实。

这是公司的问题,对吧?我们无法阻止这种情况发生,但我们为人们提供了一个平台来展示他们模型的代表性结果。随着不同基准测试中模型数量的增加,进行性能作弊变得越来越困难。

我们之前谈论过一些好的、困难的事情,因为你可能会承诺准确性,但我们倾向于优化标题指标,然后可能在性能方面有所损失。但是你是否注意到提交的模型多样性实际上影响了基准测试的演变?

绝对是这种情况,我显然已经经营公司超过两年了,或者说没有像以前那样密切地参与基准测试。但我清楚地看到社区正在发展。它创造了不同的阵营,人们开始做算法,甚至开始做数据基准测试。

具体来说,有许多人正在进行存储基准测试,以及系统的所有不同方面。所以,他们分成了不同的工作组,以及如何管理如此多参与者的复杂性。我在不同阶段参与了几个不同的工作组,显然在学术界中帮助推广和促进研究。

我认为如果问我哪里更完美、更普遍、更成功,那就是基准测试。我会告诉你为什么,因为现在你看到约翰逊在视频中发布的声明,你就会想,这些数字是什么?他们正在引用这些数字。

他们没有引用视频中获得的任何特殊数字。他们正在引用 MLPerf 的结果,对吧?这有充分的理由,对吧?因为这不是英伟达单方面衡量的,而是由其同行和竞争对手衡量的。这并不完美,对吧?但其他人仍然可以查看你的数字,并尝试重现你在做的事情。

所以,所有这些信息都是公开的,实际上推动了科学的进一步发展,因为所有这些信息对世界其他地方都是可见的,这非常重要。它也会影响公司的命运。

我记得有一个例子,其中一家公司在硬件方面参与其中,他们做得很好,价格也很便宜,但结果不如其他公司,所以他们提出了解决方案,但结果并不理想。

投资者说,我们不相信任何人。他们撤回了资金,对吧?逐渐地,对吧?所以这是一个强大的工具,对吧?而且它比以前更重要,因为以前他们想告诉投资者他们比其他人更好。

但现在他们来了,进行了测量,他们看到自己可能仍然拥有一个不错的系统,但他们会说比谷歌 TPU 慢两倍。因此,他们只是放弃了。

这不是一个积极的过程。这非常重要,因为验证你声称的良好性能非常困难。以及你拥有什么类型的系统,我认为在那之后,关于性能的虚假声明数量急剧减少。

因为如果你声称如此,人们会检查你的数字,对吧?如果你做得很好,为什么不提交它?即使在人们开始开源之前,但当人们开始开源时,如果没有适当的方法,那么有多少不同的结果集对性能的影响就无关紧要了。

并且总有一些方法论上的问题。一切都在控制之下,对吧?所以我们限制了你可以作弊的变量数量,所以我们得到了所有最佳参数,但你仍然可以利用这些问题来作弊。

所以我想知道您对当前行业研究的看法。我们上次谈到过布朗·特威德,我认为他与其他一些人发生了争执,但他基本上说,你看,我们实际上有数百万用户使用我们的产品,作为一名学者,你只需要说服审稿人,但你如何比较你正在进行的工业研究与学术研究?

是的,我一生中都喜欢站在两边。我很高兴我的家人也支持我。这对你来说是否真的有影响?所以这有原因。

所以学术界的好处在于你可以专注于干净、美好的想法,没有任何工业偏见。以及立即可交付的成果,对吧?记住,我们最终需要盈利。

我们需要产生收入。很多决定都必须基于此,这在学术界中既好又坏,同时解决问题,对吧?我们通常非常诚实。我们应该非常诚实地处理这些事情。

当然,你可以批评学术系统,以及如何选择论文,但这取决于社区。我实际上属于一些顶级会议的社区,为了进入,你需要 5 到 9 位审稿人同意你的论文,对吧?所以这实际上并没有那么随机,对吧?进入顶级会议的门槛实际上相当高。

这与拥有数万份提交和数千篇被接受论文的会议大相径庭,但这只是不同社区之间的差异。我认为说所有人的接受标准都低是不公平的,但这是非常重要的,因为创新来自那里。记住,行业并没有真正发明这些东西。

许多先进技术,例如深度学习,以及许多其他技术,实际上是在学术界发明的,因为学术界思考了这些技术,并相信它们有潜力,并构建了它们,并且不需要大量的资源来实现它们。工业界擅长将这些技术转化为技能,所以当人们意识到深度学习的潜力时,微软研究和谷歌等公司开始关注并开始扩大这项技术。

例如,谷歌在注意力模型方面做出了贡献,对吧?发明和开创,我利用了这些知识,并开始进一步发展。所以,工业界可以做很多事情。

所以,工业界一直很重要,因为我相信在学术界,存在这样的情况:你可以专注于解决不相关的问题。如果你像一些人一样,只是选择一个看起来很酷的问题,然后解决它并发表论文。

我从未喜欢过自己,总有一些事情困扰着我。我总是想靠近有趣的事情,因为这个人有正确的问题要解决。这就是为什么在我的职业生涯中,我总是至少有一只脚踏入工业界。

正确的说法是,工业界有正确的问题,对吧?我想了解实际存在的问题,对吧?这就是贡献的方式。这就是演变,以及工业界通常拥有正确的问题,但他们并不总是拥有解决这些问题的精力和工程重点。他们解决的是满足客户需求并满足下个截止日期的问题。

这就是为什么多年来我一直从工业界获取问题并在学术界解决它们的原因,对吧?然后我必须稍微改变重点,因为我意识到解决方案与问题本身有关。

工业界无法扩展到企业级质量。学术界,这就是学术界的局限性。我可以雇佣 20 名研究生,但我不可能雇佣 50 名,他们不会产生所需的成果。

他们有不同的目标,即发表论文以获得学位和硕士学位,而不是实际构建产品,对吧?我们做了一些小产品,但这是一个非常紧密的界限。所以我到达了微观层面,我构建了一些非常有趣的东西。

现在,IT 变得实用。我意识到我的 IT 工作方式与其他人不同,他们似乎不太重视我。所以我认为我最好建立自己的公司,并以正确的方式开展工作,对吧?还要记住,我曾经是一个 GPT。

这两个领域之间存在非常好的互动,对吧?我认为两者都需要彼此。所以这并非所有研究人员都像研究人员那样频繁地从研究领域转移到另一个领域。

我一直认为,我们还需要在世界上拥有最好的领先实验室之一,就像你们知道的那些糟糕的实验室一样。我喜欢所有这些实验室战争,就像一个更优秀的研究生想要去的地方,并开发新的东西。总是很高兴确保我们拥有这样的东西。

微软研究院一段时间以来就是这样。我希望我们也能拥有这样的时刻。我希望有人会这样做,我认为在一定程度上,通过眼睛和推动大量激进的东西,例如在 AI 空间中,他们已经做到了。

但我认为我更希望看到这一点超越眼睛,也出现在其他领域。我认为这两个领域之间的这种互动非常重要。我认为我一生都在两边徘徊,但始终保持着与另一边的联系。

您如何看待探索与利用之间的权衡?我一直觉得存在一个吸引力盆地,即使您知道它被称为 IT 的艰难方式彩票。我想我们现在谈论的是,深度学习革命在很大程度上受到了投资、研究和硬件等因素的影响。您可以构建整个有向无环图,并在其上进行大量研究生研究。但是您认为仅仅让一些随机的人从事完全疯狂的想法是否可能导致一些结果?

您需要谨慎地选择这些疯狂的人。我认为您需要其中一些。记住,这可能是日本获得诺贝尔奖的原因之一,对吧?

哦,是的。

对每个人来说都是一项伟大的成就,就像你们知道的那些杰夫一样,但再次谈到这一点,例如,在某些时候,美国可能并不相信整个 AI 领域,我很高兴加拿大愿意投资这些疯狂的想法,并看到其潜力,并足够长时间地相信,直到它们达到实际可行并改变世界的阶段,对吧?所以您需要这样的人,基础研究必须存在,但您还需要看到它是否有机会。

这就像一个疯狂的人,您可以让每个人都这样做,应该有一个选择过程,选择那些有机会以某种方式改变世界的人,并给他们资源来实现。当有这些赠款时,就会发生这种情况。这就是为什么行业也会向研究赠款提供资金,并让我们有机会创新,对吧?我从谷歌、脸书和其他地方获得了其中一些奖项。

它也是一个非常有用的工具,可以进行其他领域无法负担的先进研究,因为您有预算,对吧?但在探索方面,我认为这是一个很好的问题,总体而言。我认为我们现在在小空间中拥有的东西甚至有相似之处。我实际上认为在训练上花钱是探索,并利用影响力和部署利用。很长一段时间以来,我非常困惑,我们主要是在没有利用的情况下进行探索。

并且在某些时候,这应该改变,对吧?人们必须开始实际部署模型,我很高兴看到从去年开始,在合理的规模上,以及今年,在英伟达报告和其他报告中,我看到了明显的转变,人们想要部署更多。我们已经达到一个阶段,是的,训练可能是免费的。世界上可能只有十几个公司可以进行训练,而可能只有几百个公司可以进行微调。

世界其他地区将使用这些微调模型和 RAG,并在此基础上构建,这不会限制创造力,对世界来说仍然是一件好事。但我认为,有人需要说,我们不需要重新训练十倍,一遍又一遍地做同样的事情。事情应该以更有效的方式构建。

想象一下回到 80 年代。我认为 Hinton 在多伦多甚至在那时也是如此,对吧?我不知道他什么时候搬过去的。想象一下,如果告诉他所有这些工作,他可能会有点惊讶,我们正在进行相反的对话。我们正在谈论研究生,不可避免地会深入研究新网络。想象一下告诉他,他将获得诺贝尔奖。

是的,但是如果告诉他我们将获得诺贝尔物理学奖,他可能会打哈欠。但是,是的,这是一个有趣的问题,他一直是风暴的先驱,从他整个职业生涯中就可以看出。

但是,我觉得我可能会给他留下深刻印象,对吧?就像它只是,我想,我最后一次和他谈话,是在从多伦多飞往旧金山的一趟航班上,他非常担心这些想法会走向何方,因为这些模型似乎以非常快的速度改进,我们也需要非常小心地考虑它们会带我们去哪里。所以我对它的强大功能有非常合理的担忧,对吧?所以有点像这个故事。

而开放式超参数就像核弹一样,对吧?发明了它,但无法控制它。再次,现在这个领域掌握在世界手中,您可以做出贡献,但您无法控制。

您可以表达担忧,但您需要说服其他人。您无法控制技术。如果不对其进行普及,它永远不会成为现在的样子。

但我认为这必须以某种方式发生,就像我所做的那样,后来发生了。但它必须被发明出来。这需要运气。

我们需要学习。我们正在寻找不同的学习方式,对吧?这对于拥有这样的东西至关重要。

是的,关于 Hinton 的担忧很有趣,在某种程度上,没有人不同意。我认为每个人都同意这是具有变革意义的。

世界上的技术将永远不会再相同。我认为左边的那些人认为它正在改变,您知道,这可能会减少我们的自主权,或者它可能会以某种方式极大地改变社会。当然,有些人认为它可能会递归地自我改进,并成为超级智能或类似的东西。但每个人似乎都同意这是一项非常具有变革意义的技术。

谈论这个问题很困难。就像很长一段时间以来,我倾向于相信,如果只是高估了它,那它就是大规模采矿,还是真的像看起来的那样?作为一名科学家,我知道它背后有真正的物质,它总是被炒作,但它背后有真正的物质。

现在,是的,我越来越觉得它具有变革意义。我们永远不会再一样,对吧?您无法忘记我们学到的东西。

我们能够用这项技术做很多事情。告诉学生们使用 ChatGPT 来通过考试,这已经不存在了。他们需要记住并掌握一些东西,这些东西他们无法再回到过去,对吧?忘记它。

所以,从本质上讲,技术已经存在。我们只需要了解如何操作它,对吧?我不认为公平地说,人类从未经历过任何如此具有破坏性的东西。

我们之前经历过工业革命,对吧?人们也担心机器,就像 80 年代的那些图片一样,高中老师在白宫抗议,他们认为不应该允许高中使用计算器,因为孩子们会停止学习和计算。

他们不会像以前那样聪明。事实是,这是一种感知,这是一种危险。现在我们笑了,但唯一的方法就是采用它,并了解如何使用它,就像现在教孩子们在适当的时候、适当的年龄使用计算器一样,对吧?但我们不会试图超越计算器。

所以我认为 AI 也将长期存在这种情况。我个人不认为我们离超级智能还很近,对吧?是的,这是一项令人兴奋的技术,可以玩耍,但还有很多缺失的部分。

很难说要多久才能从它获得任何形式的真正智能,但它已经非常强大,并且说这将是一个渐进的过程。我不觉得我们会在某天醒来,它就会被终止,一切都将被捕获,我们突然发现智能超出了控制范围。您必须像我们一样构建这个智能过程,在我看来,这是构建它的早期阶段。

有趣的是,我们的看法随着时间的推移而发生了变化,因为曾经发生过类似的事情。我认为在 1700 年代后期,人们认为如果我们能制造出能够击败人类的国际象棋计算机,那么它就是通用的智能。当然,通过经验,我们改变了思考方式。

但是,关于这一点的最后一点,您知道,就像物理学一样,因为您可以将深度学习视为一种物理形式,并了解物理学是什么。它是在模拟我们生活的世界。但是,克里斯·斯基说他认为这些语言模型不是语言学理论,因为它们不会。

您知道,理论应该解释它,应该通过关节来划分世界,并实际告诉您一些关于它不是什么以及它是什么的信息。您如何看待它作为一种科学形式?您认为它合法吗?

它是合法的。总的来说,我喜欢将这些词用于学科,例如物理学、生物学、计算机科学,特别是这些例子,因为我认为这些是最大的突破发生的地方,在某个狭窄领域很聪明,但在不同领域之间,它需要更大的视野。

我对整个领域感到非常兴奋,获得认可的奖项是一个值得肯定的奖项,对吧?但我认为,事实上,我们现在都对这项技术感到兴奋。人们想要认可它,因为它具有变革意义,对吧?再次,如果您的生物学和物理学元素值得认可,那么发明其方法论或测量工具,甚至模型和模拟工具的人也一样重要。

例如,当我们考虑大脑时,从物理角度研究大脑很重要,但我们能做的只有这么多,但建模也是如此,因为建模允许我们做一些在物理世界中永远无法做到的事情。所以,尤其是在它被证明如此具有破坏性时,这一点很重要,对吧?它不会仅仅成为一个微小的实验,它实际上会以我们之前难以想象的方式改变世界。如果您十年前问某人这项技术会多么具有破坏性,那将很难想象,对吧?

您认为,例如,在视频中,您认为他们的股价会继续上涨吗?您认为计算需求和 GPU 需求会继续爆炸式增长,还是会达到稳定状态?

这是一个很好的问题。简短的回答是,例如,我自己持有了一些股票,并且仍然关注英伟达的讨论,所以我仍然相信它们会增长。我认为这在某种程度上是有意义的。

所以,我可以提出任何解释,但这确实是现实。我自己正在做的事情,如何应对一个棘手的问题,对吧?但我确实认为他们现在所处的位置是值得的,因为他们很早就相信这项技术。

所以他们很幸运,当时的价格最终证明是正确的。但很多人错过了这些机会,他们没有理解并利用它,并对软件和系统投入了大量资金,这不仅仅是建造船只,而是公司和创始人对真正需要的深刻理解。

我认为这将带来更大的好处。它们能走多远取决于很多事情,股价在很大程度上取决于人们的预期。有时他们会显示出惊人的数字,人们会说,“天哪,他们现在还没有增长”。

所以他们表现不好。这太荒谬了。他们的收入和其他一切都在以巨大的速度增长,但第二天股价可能会下跌。

我将这种情况视为荒谬。股票交易中有很多赌博。但我认为,作为一家公司,他们有机会成为该领域的变革性公司。

但我认为他们未来不会是唯一一家硬件供应商。我们现在看到的其他硬件供应商也会出现。因此,世界可以利用所有这些。但我预计在未来三年内,我会这么说,对吧?

我认为,通过视频看到任何人在顶部,我认为他们将在未来几年,甚至在未来几年内成为该领域的领先参与者。我不会轻易看到有人超越他们,但我不知道这对股票和预期意味着什么,但我认为他们将是该领域最顶尖的公司之一,并且有充分的理由。

盖尼,我很享受这次谈话。非常感谢您。关注家园。如果您想在加拿大工作,请与 sendml 联系。我相信你们正在招聘优秀人才。

正在增长,一直在招聘。请与我们联系。

非常感谢您。很高兴认识您。

我也一样,谢谢。