The current training paradigm assumes that all GPUs must communicate very fast, which is only feasible in a centralized data center setup. This assumption was made in the early 90s and has persisted due to the convenience of having all GPUs in one place.
The bandwidth on the internet is much smaller than the bandwidth between GPUs in a centralized data center, making it difficult to synchronize training across distributed systems.
DisTrO allows GPUs to train independently and only share the most important insights, reducing the need for high-speed interconnects and enabling training over standard internet connections.
DisTrO reduces bandwidth requirements by 857 times compared to traditional methods, making it possible for small teams and individuals to train models using peer-to-peer networks, democratizing AI innovation.
The fear that major open-source AI providers might stop releasing models like Llama 4 prompted the question: 'Is there a way to make Llama 4 ourselves without 20,000 H100s?' This led to the development of DisTrO.
DisTrO requires 857 times less bandwidth and can perform equivalently to traditional methods, making it possible to train models over standard internet connections instead of high-speed interconnects.
DisTrO could enable a global community to train AI models collaboratively, breaking the monopoly of large organizations with massive compute resources and high-speed interconnects.
While DisTrO reduces the need for high-speed interconnects, NVIDIA's CUDA stack and GPU hardware remain essential. The shift could lead to a redesign of chips, focusing more on VRAM and processing power rather than interconnects.
Traditional methods require all GPUs to synchronize after each training step, while DisTrO allows GPUs to train independently and only share key insights, reducing the need for high-speed communication.
The community's willingness to contribute their GPUs and computational power is crucial. DisTrO's success depends on activating this willingness into actual action, enabling decentralized training on a global scale.
所以假设明天每家公司都说我们不能再发布开源模型了。对不起,我们只是觉得这不好做生意。在开源人工智能领域,我们会处于什么境地?哪些技术问题会阻止我们自己复制它?事实证明,真正的大问题是,在训练模型方面,目前的范例要求训练模型的所有GPU都必须在同一个房间里。
技术栈的增长方式假设所有训练模型的小型大脑都能以非常快的速度相互通信。如果您是一个可以将其放入一个数据中心的单一实体,那就没问题了。
但是我们,以及开源人工智能运动的集体“我们”,并不是一个实体。那么,我们如何合作才能真正训练一个我们都拥有的最先进人工智能呢?事实证明,目前人工智能领域的大多数假设都是这样做的产物。所以有人可能在90年代初做出了一个假设,每个人都一直沿用至今,而我们现在可以重新审视它,看看这些假设,并发现这里实际上有很多增长空间。
再次感谢您收听A16Z人工智能播客。我是德里克。您即将听到A16Z普通合伙人安杰内·米塔与来自Noose的鲍文·庞和杰弗里·库斯内尔之间的一场非常有趣的讨论。如果您想在谷歌上搜索,那就是N-O-U-S,Noose Research。
他们在采访中更详细地讨论了这一点,但如果您不熟悉NOOSE,简而言之,它是一个由致力于通过开源项目使尖端人工智能更容易获得的小型研究团队。例如,他们不受限制的HERMES模型在AI构建者社区中非常受欢迎。然而,促成此次讨论的催化剂是该团队最近发布的一篇关于名为DISTRO的项目的论文。DISTRO是一种用于在分布式基础设施上训练AI模型的算法,它利用公共互联网。下载速度为100兆,上传速度为10兆。
NUS团队声称,Distro所需的带宽比标准分布式训练方法少857倍,并且在最佳参数调整下可以表现得更好。当然,任何密切关注人工智能的人都知道,即使是训练一个相当规模的模型通常也需要的那种设置,对于除最大规模的商店以外的所有商店来说,都是成本和技能上的障碍。
而其中很大一部分是实现集群中GPU之间尽可能快的通信,这就是为什么网络在AI系统架构中扮演如此重要角色的原因。尽管Distro还处于早期研究阶段,但其前景应该很明确:允许小型团队使用点对点网络训练模型,就像SETI@Home或Folding@Home在其各自领域所做的那样,这可以帮助打破99%无法访问海量计算资源或不想受大型AI实验室限制的构建者的AI创新。
因此,有了这个背景,以下是安杰内特、杰夫和鲍文讨论Noose、Distro等等。它以杰夫解释Noose试图做什么以及团队的非正统起源故事以及他们在Reddit上如何相遇开始。
提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对A16Z基金的任何投资者或潜在投资者。更多详情,请访问a16z.com/disclosures。
Nuce Research是一项开源AI加速工作。因此,我们的目标是加速人工智能的发展,并以惠及每个人的方式做到这一点。当我们说惠及每个人时,这不仅仅意味着每个人都可以使用它,就好像它是一个我们带来的产品一样,而是每个人也可以接触到它背后的技术。
所以,如果您只想使用AI,您可以直接使用AI。如果您想打开代码并查看和使用代码,我们相信这与提供实际使用的访问权限一样重要,同时也向所有人提供底层技术。我们已经看到开源创新推动了技术栈的倍增。每个想学习做某事的孩子都是从在互联网上获得的开源免费的东西开始的,当他们10岁、12岁的时候,我能做什么?触摸什么东西?
因此,我们的目标是确保这种变革性技术的构建块保持开放,并且我们能够进行研究,将最先进的人工智能带给每个人。
你们在路线图或你们已经决定专注于实现目标的里程碑方面试图做什么?我认为就我在Nuus的工作而言,我们正在进行基础研究。我们试图尽可能少地使用计算来突破界限,这与其他人的做法相反。我们真的,真的很分裂,就像,
各种各样的人,对吧?这就像,这不是一个中心化的、真正有凝聚力的群体,我们在同时做很多事情。所以我们探索了很多替代方案。我认为我们尝试做了很多很酷的事情。这很有趣,因为现在的人工智能领域,如果你从科学的角度来看,
不像许多其他高度僵化的科学领域。所以,如果你想从事生物学或化学研究,你必须经历学术过程,也许你会获得博士学位,然后也许如果你学习很长时间,你就可以对知识宝库做出微小的贡献。
我们现在很幸运,因为人工智能作为一门科学还处于非常新的阶段,它确实拥有广阔的绿色领域。与许多其他科学领域不同,如果你观察某些东西,并且你认为,“为什么没有人做过X、Y和Z?”不幸的是,原因通常是有人尝试过,并且有一个原因导致它不起作用。这并不是人工智能目前的游戏状态。真的,你几乎可以随便选择任何东西,并在这一领域进行具有开创性的新研究。因此,因为我们拥有这一点,我们现在正处于那个时代和那个空间,我们汇集了许多对世界有不同看法的人,也许由于某种原因没有走传统的学术道路,你知道,并不是要贬低它,而是你典型的斯坦福大学、麻省理工学院的那种道路。我们将其他不同的群体聚集在一起,我们说正在发生一件令人难以置信的事情,我们可以进行研究并为每个人取得根本性突破
你可以按照你自己的方式去做,而不仅仅是作为机器的一个整体部分。所以我们认为自己非常个人主义和个性化,而不是我们是一个组织。但这就是我们正在做的。我们现在正处于一个独特的时代和空间,所以我们正在利用这一点。——你们是怎么走到这一步的?你们的背景是什么?——实际上,我在底特律长大,在汽车行业工作了大约15年,从事自动驾驶等工作。实际上,我做了15年,
我喜欢它,但我实际上并不是一个汽车迷。在某个时候,我实际上被加密货币迷住了。我正在研究我的关于Zcash(一种加密货币)的硕士研究,但这有点像静态的。我最终发现了以太坊,这是一个可编程的区块链。我想,这太棒了。
所以我开始在晚上编写所有这些智能合约代码,同时我还继续我的工作,我的妻子只是说,这就是你所爱的。你知道我的意思吗?就像,这就是你所爱的。她真的给了我动力,让我觉得,你为什么不去做呢?所以我花了,我放弃了朝九晚五的工作,医疗保健,所有这些,都放弃了,为了自己创业,跟随我的兴趣,看看
它把我带到了哪里。在这个过程中,我发现我一直与人工智能相关,因为我们之前的公司客户正在做自动驾驶。然后我看到我只是在互联网上,当我第一次看到稳定扩散时。
我想,这里正在发生一些事情,我需要弄清楚发生了什么。所以通过这种好奇心和惊奇,就像,我需要真正理解它是如何工作的,并花了一年的时间来学习关于现代实际人工智能的一切,包括它背后的数学,以及它背后的一切。
我现在有这种自由能够做到这一点。通过这种好奇心和惊奇,我是那些想要接触我使用的技术的人之一。我想能够逐步浏览代码,因为这是我通过逐步浏览代码与世界互动的方式。
当时我发现ChatGPT已经问世了,我正在寻找,我想,当时的开源人工智能状态远远落后于封闭的竞争对手。我只是觉得,我们怎么能,像我这样的开源人士,我们怎么能达到OpenAI和其他一些地方正在发生的事情的顶峰呢?
我只是说,好吧,有些什么东西阻止了这种情况?从科学的角度来看,我们有没有理由不能拥有这个?事实证明,只是一些人需要做这项工作。但是,我们从一开始,我只是Discord上的一个匿名人士,做一些研究和分享,开始与其他志同道合的人分享。有人邀请我加入这个名为News Research的Discord。它只是,
其他匿名人士闲逛、交换想法,从那时起就变成了我们今天的样子。这就是它从这里到那里的开始方式。——你们是怎么认识的?你们的记录是什么?你们是怎么陷入其中的?——是的,对我来说,这是一个很长的故事,但首先,你知道,当我还是个孩子的时候,
我真的很喜欢摆弄东西。我喜欢玩具,电子玩具。有一些像乐高一样的电子玩具,你可以用乐高积木之类的来创建电路,用乐高积木创建一个调幅收音机,这些类型的玩具对我来说非常有趣,因为我喜欢摆弄。所以当我上大学的时候,我想用电脑,因为电脑就像
你可以做任何事情。这就是技术的承诺,那就是使用计算机,你基本上可以做人类可以做的任何事情,这基本上是我的梦想。
令人惊讶的是,当我上大学的时候,我的第一门课,实际上是我的第一门课之一,是一门编程课。老师是一位名叫亚伦·科维尔的人,他在第一节课上向我们展示了机器学习可以做什么。他向我们展示了关于生成模型的幻灯片。那是10年前的事了。
那太神奇了。我从未见过这样的事情,比如计算机如何生成图像。那是在2014年左右。那时是Gans。Gans是最新的东西。没有人知道Gans,但他知道。他向我们展示了关于机器学习生成模型的一些非常疯狂的幻灯片。我想,我必须学习这个。然后我就开始学习机器学习。我还获得了计算机图形学和机器学习方面的硕士学位,因为我一直很喜欢
电脑游戏。我想做一个游戏或某种东西。但是随着人工智能的发展以及ChatGPD和这些稳定扩散模型的出现,我想,是的,这就是未来。
生成模型将改变世界,我真的很想成为其中的一员。然后我做了一些自由职业的研究工作,我遇到了杰夫。我们实际上是在Reddit上认识的。我们正在研究同一个领域,我在Reddit上发布了一篇关于我们本地羊驼的帖子,他发布了一篇帖子,我还记得我当时要去取披萨,我刚收到一封电子邮件,我打开它,他刚刚给我发了一封冷邮件,说:“嘿,我看到了你写的所有这些东西。我也有一些新的结果,让我们一起看看。”
从那时起,就变成了我们今天的样子。也许首先讨论一下你们早期的一些工作会有所帮助。你们在Distro之前发布了哪些项目?我们最出名的是我们的Hermes系列AI模型,这些模型是我们训练的,它们是某种意义上的
中立对齐的。所以我们不会,这不像我们正在制作未经审查的模型,我们喜欢认为,哦,你需要用它做所有这些可怕的事情,而是它是一系列AI模型,用户指导模型做什么,模型就会感觉模型会这样做。
所以这可能与其他一些封闭的提供商形成对比,他们必须在模型周围设置这些防护栏。这些防护栏的存在可能有充分的理由,特别是作为一家中心化的美国公司,也许,诸如此类。但有趣的是,今天人们互动的大多数AI模型都扮演着我们所说的“乐于助人的助手”的角色。
我使用过聊天机器人,无助无害的助手,人工智能的前台秘书。这是一种非常中立的方法,它会说,“哦,这是一个好主意。你考虑过这个吗?这很好。”但它已经被采用到这个特定的角色中。我们试图做的就是制作可以按照你推导出的任何角色进行指导的模型。
所以我们说,与其训练模型成为在这些约束下工作的助手,尽你所能帮助他们。我们制作的模型是,接受用户所说的内容并采用该世界观。真正地采用用户希望你采用的世界观
给定作为先验的事物来说是真理,然后从那里展开场景。现在,显然,无助无害的助手是AI模型可以扮演的角色之一,但并非所有角色都是如此。对。当然,我们也试图创造这种表现力。它来自于我们采取的这种个人主义方法,即每个人
都应该能够以一种不会对你进行道德说教的方式与系统互动,而是赋予你作为一个人成为更好的人的能力。我实际上对语言模型感到兴奋,因为我喜欢科幻和奇幻故事,但我是一个糟糕的作家。这些帮助我写我自己的故事,并想出我自己的故事情节。
现在,如果我尝试用其他模型这样做,他们可能会说,好吧,我不能,那是受版权保护的材料。我不能,你知道我的意思吗?但是我们制作的这些模型帮助我表达自己。所以我们试图制作这样的模型,无论你在哪里,它们都会帮助你表达和成为你的延伸。然后我们也做过其他的研究,比如基础研究。所以我们
我们只是在研究特定的技术问题。这里的鲍文是我们开发的一种名为YARN的方法的主要作者,我们发布并研究了这种方法。你现在使用的每个模型都使用了它
一切,Chachi-Piti、Lama、DeepSeek,所有这些,它们都使用了我们在纱线论文中开创的方法。这源于这样一个想法,即当时的开源人工智能只有这些非常非常狭窄的上下文窗口。就像他们只能处理你与他们交谈的一小段文本一样。之后模型就会失忆。
我们正在研究OpenAI在ChatGPT中拥有的内容,他们可以接受大约4000个单词。现在,唯一可以接受大约500个单词的开源模型。我们想,我们怎么能把这个带给每个人?我们想把它带给每个人。所以我们只是做了
技术研究,以消除那些阻止我们向所有人提供当前最先进技术的障碍。所以我们在这方面做研究。我们也有我们的模型,这就是我们之前所处的状态。但是当涉及到Distro时,我们也有同样的态度,那就是什么阻止了开源社区从头开始创建他们自己的最先进人工智能?
至少在开源世界中,我们非常依赖于几个组织的善意。其中排名第一的可能是Meta。他们对Lama模型所做的事情非常出色。我喜欢马克。但我们观察了世界,我们说,如果他不能再那样做了怎么办?
这甚至可能与他无关,你知道,特别是。围绕着这件事,在法律领域发生了很多事情。所以我们说,好吧,假设明天每家公司都说我们不能再发布开源模型了。对不起。我们只是觉得这不好做生意。你知道,这不像是一件反面事情,但这只是坏生意。在开源人工智能领域,我们会处于什么境地?
那么,哪些技术问题会阻止我们自己复制它呢?事实证明,真正的大问题是,在训练模型方面,训练模型的当前范例要求训练模型的所有GPU,这些进行训练的计算机,都必须在同一个房间里。
这看起来非常违反直觉,但这只是一个冷酷的事实。而这个冷酷的事实是因为技术栈的增长方式,它假设所有训练模型的小型大脑都能以非常快的速度相互通信。最简单的方法是它们可以非常快速地相互通信,并且能够进行训练。如果您将其全部放入仓库中,并且如果您是一个可以
将所有GPU放入一个数据中心的单一实体,当然,您会将所有GPU放入一个数据中心,这是您的数据中心,一切都很顺利。但是我们,以及开源人工智能运动的集体“我们”,并不是一个实体。那么,我们如何合作才能真正训练一个我们都拥有的最先进人工智能呢?
有一些技术问题最终导致这样一个事实,即互联网上的带宽远小于这些在这些数据中心进行训练的GPU之间的带宽。这可能是或可能不是无法克服的。事实上,很长一段时间以来,人们认为这是无法克服的,实际上没有办法做到这一点。但是我们,鲍文也可以谈谈这个,事实证明,目前人工智能领域的大多数假设都是
这就是事情的处理方式,当时并没有那么多精力和关注。所以有人可能在90年代初做出了一个假设,每个人都一直沿用至今。而我们现在可以重新审视它,看看这些假设,并发现这里实际上有很多增长空间。
像你们这样的研究团队可以研究很多不同的问题。你们决定研究什么问题的标准是什么?我认为最大的标准是这项研究应该尽可能的基础,因为当你进入工程、实际训练或实际数据收集时,这需要非常大的规模。对。作为一个小型团队,你无法达到这个规模。
所以如果我们看看所有非常数学化的东西,你可以调整,很多超参数都可以改变,那么这真的很好,因为我们可以进行更小的实验并从中迭代。
而且正是那些像10倍的能量提升一样的东西。是的。就像如果你看看所有障碍,然后你意识到有一个小小的承重部件,如果我们能解决它,那么它上面的所有其他东西都会崩溃。现在,那些我们没有规模去到达山顶的东西,因为我们没有20000台最昂贵的计算机。但事实证明,如果我们只是敲掉Django集底部的一块小砖头,整个东西就会崩溃。
并且寻找那些重要的部分,如果我们只是把这一个部分拿出来并解决它,它将为开源领域的参与者带来10倍或100倍的倍增器。在Hermes的情况下,你觉得这项工作试图解决的瓶颈是什么?这尤其与数据的收集方式有关。
早期的模型,特别是像CHEP、GPT 3.5,都是通过大量的人类数据、人类数据收集进行训练的。人类数据收集非常缓慢。它非常昂贵。如果你想在当时制作一个模型,这个想法是你必须花很多钱来获得这些经过人工整理的数据,这非常缓慢。所以Hermes非常早地提出了可以使用合成数据的想法。
也就是说,你可以通过使用AI模型生成单词和文本,然后用该输出训练新的AI模型来制作更好的模型。这现在已经被完全接受了,每个人都在这样做。但在两到三年以前,这是一个巨大的悬而未决的问题,即这是否真的
不会仅仅是导致崩溃的还原论事物。学生如何才能超越老师的问题?我们说,但我们没有访问能够让我们获得所有人类数据的资源。我喜欢告诉我们的团队,我们就像阿波罗13号的宇航员,他们把所有东西都倒在桌子上,对吧?他们说,我们必须只用这些东西让它适合这个。
这就是我们看待世界的方式。假设我们只有桌上的东西。我们如何才能让所有这些碎片组合在一起,就像,你知道,让我们往返月球?对。什么时候开始讨论从处理数据瓶颈转向训练瓶颈(从某种意义上说,Distro就是如此)?在我的脑海里,如果你把模型的AI生产流水线想象成
第一英里、中间英里、最后一英里,你们一开始就处理最后一英里。-是的,是的。-对吧?-然后是第一英里。-是的,是的。-Distro是一种第一英里的努力。你们是什么时候开始将注意力转移到这一点上的?为什么?然后Distro背后的核心思想是什么?-我认为我们并没有转移,更像是我们有很多人在做不同的事情,然后我们优先考虑那些我们认为最有希望的事情。所以每个人都在关注
一切。然后我们有了这个显示出很多前景的数据管道,我们研究它,现在它就像这个节目一样。所以数据收集数据部分仍在进行中,对吧?它仍在改进中,Hermes 4可能会非常棒。现在我们还有一个团队,比如我的团队,负责Distro。
它是并行的,对吧?所以其他的想法可能会出现,我们会让另一个团队来处理它。是的,但它的开始真的是这个想法:如果我们没有Lama 4怎么办?没错。这是一个我们正在重视的挑战。如果我们没有Lama 4怎么办?这就像一个生存威胁,对吧?这就像一个实际的生存威胁,因为封闭的提供商将继续变得更好,而我们会
在很多方面都陷入困境。所以我们问自己,我们有没有什么真正的理由不能自己制作Llama呢?确实有一个原因,那就是我们没有20000个H100。我们没有,我认为埃隆现在有100000个H100。所以我们现在没有。如果上帝保佑,溪流不涨,也许有一天我们会拥有,但我们现在没有。所以我们说,但是我们有什么呢?我们有一个庞大的活跃社区。
他们热衷于想做这件事,并且愿意贡献他们的GPU、他们的力量,如果他们能够做到的话。如果他们能够做到的话。所以我们有愿意的社区,但我们没有能力将这种意愿转化为实际行动。那么,让我们看看吧。为什么它不能工作呢?事实证明,人们长期以来一直在尝试这样做,但这些非常具体的技术问题使得它难以处理。
有一个名为Big Science的组织制作了Hive Mind,他们致力于尝试这样做,但他们有技术限制,因为他们无法
通过互联网发送所有信息。人们连接的唯一方式是通过互联网。因此,任何不通过互联网共享的东西都不会起作用。这就是最初的假设:如果我们没有Lama 4怎么办?然后,我们有什么可以用来创建Lama 4的东西吗?如果我们不能,那么如果我们只解决了那个技术问题,那么我们社区的大坝现在就可以流动并真正解决这个问题。总而言之,Distro是一项研究。
表明可以使用标准互联网连接训练高能力模型,对吧?与现状相反,现状是高速互连,而模型的性能没有大幅下降。你认为这是一个大致公平的总结吗?我们会说,实际上性能是等效的。
所以在声称这一点之前,我们做了很多实验来确保这一点。所以我们做了很多实验,以确保它实际上并没有更好,但对于相同的带宽来说更好,因为现在你只需要1000倍的带宽。对。
没有人对那种权衡取舍的东西感兴趣,呃,你可以做到,但它并不那么好。它必须像A1一样好。它需要和集中的方式一样好。没有星号。然后你就不必做了。它不必在数据中心里。所以基准测试相当令人印象深刻。但在我们谈到这一点之前,你能否解释一下,对于那些可能不太熟悉AI基础设施的听众来说,为什么你们……
展示了一种使用日常互联网连接训练模型的方法很重要。是的,LAMA 405B是在一个拥有约40000个H100的大型数据中心中训练的。这些数据中心高度互联,并消耗大量电力,因为每个GPU都需要连接到其他每个GPU。因此,如果您有40000个GPU,那么这就是二次缩放,对吧?您添加的每个GPU,您都必须连接到越来越多的GPU,以便
这需要大量的电力、大量的冷却以及其他一切。基本上,要训练这些模型,您需要GPU之间的高速互连。但我们发现,当我们训练越来越大的模型时,
您实际上需要在GPU之间传输的数据变得越来越少。它并没有变小,但对于模型的大小而言,随着模型的增长,通信的大小增长速度较慢。它增长得没有那么快。因此,您不需要那些大型互连。您可能可以拥有四个数据中心或十个数据中心,这些数据中心通过互联网隔开,并训练
使用这些数据中心的相同等效网络。如果您将此边界推向极端,那么您可以使用您的家用电脑、您的4090或4080,任何消费级GPU,甚至您的苹果手机、您的手机、您的笔记本电脑,每个人都可能连接到这个巨大的物联网网络中,该网络训练这个单一网络,对吧?所以只是为了让人们了解这种变化有多么巨大
那是。您认为当今世界上有多少组织有能力训练与LAMA规模相当的本地模型?您提到了大约40000个H100,对吧?我的意思是,可能只有我一只手上的几个数字,而且可能不会用完我的所有手指。你知道吗?是的。我的意思是,基本上你有OpenAI、Anthropic、Meta、X、Google,然后你有一些,Mistral,然后是DeepSeek,以及其他一些可能像某个
国家正在支持它。但当然,我们可以把它们都列出来,而不用耗尽肢体来做到这一点。是的。对。因此,我认为需要在单个位置的GPU之间进行这种高速互连的二阶和三阶效应基本上限制了可以运行这些模型的人数。正确。是的,完全正确。是的,我明白了。因此,你们的见解是,你们找到了一种方法来解耦模型的扩展——你可以说模型的性能与所需的互连的扩展。
你们基本上试图将这两件事解耦。在某种程度上,这几乎变成了一个人的协调问题。如果您是一个单一实体,您与您自己的协调一致。你就像,“是的,我们会做我们想做的。”但即使你
可以,你如何将所有这些人聚集在一起,在一个事情上一起工作?这真的就像,我们认为这仍然需要被发现和研究,它看起来像是一种实现。但是,整个世界可以一起工作来创建一个代表整个世界、每个人都在为之贡献的AI的想法,我的意思是,这其中可能蕴含着巨大的力量。因此,我们有兴趣看看鉴于这一点,这可能会走向何方。
你们是如何开始第一步的?从研究和系统架构的角度来看,第一次训练是什么?你们首先决定做些什么来弄清楚这是否可能?我想我考虑了几个星期,因为在数学方面实际上有很多含义。所以我们在纽约见面。我想我们进行了长时间的讨论,比如,
这甚至可能吗?对。我们得出结论,这应该是可能的,因为神经网络中有一些训练动态可以利用,这允许你做这种事情。但这完全是理论上的。然后我们编写了代码并尝试了它。这是一个非常大的飞跃。我们花了几个月的时间才得到我们的第一个数据点。
这是否真的会实现。实际上,他们有几次错误的开始。结果证明那是错误的。但核心数学属性实际上,很有趣,很多人发现我们人工智能中的所有东西都是90年代发明的,没有人注意到它。或者它是在80年代发明的,它只是一些数学见解,现在我们知道我们所知道的一切,那些可能来自15或20年前的见解,那些人,
当时看起来无关紧要,结果证明当应用于我们所知道的东西时,它们非常强大。然后还有,仅仅是因为我们有很多失败的尝试没有成功。我们说,好吧,让我们继续下一个,我们必须继续前进。你知道,就像要有那种信念。很多这都来自于从
商业角度来看,我们在这个领域所处的位置,能够探索这一点,你知道,并且能够轻松地不必立即交付某些东西,而只是把它做好为止。——我认为对于Distro,我们遇到的不是墙,而是一块防弹玻璃。就像我们看到它在另一边工作的迹象一样。就像我们看到了另一边,但一开始有很多我们无法解决的问题,我们为此工作了几个月。其中一个实际上是规模。
因此,我们取得的最大突破之一就是Jeff在一个更大的模型上进行训练。那是最后一步。这就像我们取得的惊人成果一样。一开始,我们甚至都不相信。就像我们认为这是一个错误,就像我们犯了一些错误,或者我们使用了错误的数据一样。就像太好了,难以置信,对吧?但它最终确实有效,我们做了更多的基准测试。我认为这项工作最终得到了回报。是的。
在您试图从理论转向假设检验的过程中,你们首先尝试检验的第一个主要假设或你们试图衡量的指标是什么,或者你们正在寻找什么迹象表明从实践的角度来看这将有效?一开始我们尝试微调,因为微调非常快。因此,您可以采用一个非常小的模型,并在少量数据上对其进行微调。我发现微调实际上可以减少带宽。
有点不确定,因为很难判断微调的质量。有很多基准测试,但是当你只有十分之一的百分比时,这有意义吗?在这种情况下,你没有很多指标。但是随着我们规模的扩大,当我们开始进行预训练时,当我们拥有越来越多的计算能力时,我们获得了更多的计算能力,那么我们肯定可以说这比之前的更好。——对,明白了。而你们最终发表的结果,
令人震惊。有一个857 X。这是带宽需求减少的最坏情况估计,这是一个保守的估计。这是一个非常保守的估计。带宽减少范围的乐观方面是什么?我认为我们看到了一些迹象表明可能达到2000、3000。因此,即使使用这种方法,并可能使用量化,你知道,人们
就像人们可以用这种方法尝试很多我们没有尝试过的事情一样,对吧?这可能会解锁另一个10倍。所以这可以做到。但我们不能这么说。我会尽量保守。我们希望确保它不会以其他方式降低模型的质量。因为我们拥有的基准测试很棒,但它们只衡量我们衡量的方式。
你能谈谈你们对什么进行了基准测试吗?例如,交叉熵损失,它是模型输出与真实数据(即真实数据)与其预测之间的差异。还有困惑度,它是一种相同的度量,但以不同的方式。还有像HelaSwag、MMLU以及这些类型的问答基准测试。
但这些都相当有限。它们并没有对所有内容进行基准测试。因此,假设将来LM将用于机器人技术,那么这些基准测试将不再重要。因此,很难猜测Distro方法是否会降低未来任何潜在基准测试的性能。我们真的希望这是根本性的,而不是像限制网络到一个子集
潜在的应用程序。我们希望这是优化的,就像一个可以做任何事情的通用优化器一样。但有趣的是,它告诉我们学习中实际发生的事情,我们称之为可测量性问题,或者只是知道模型训练时实际发生的事情,
它表明实际发生的训练过程,也许与其说是整个模型的学习,不如说是学习到了一些关键的见解,这些见解在思想上几乎更狭窄。然后你不会,就像真正重要的事情一样,学习中实际上只有一些重要的信号。这本身就告诉我们一些我们以前不知道的事情。
我们知道,不同节点之间需要通信的只是这几个关键信息。这是必要条件,或者更确切地说,是获得共享所有单元的等效行为的充分条件。
这是一种有价值的见解,可以帮助我们继续理解这些模型学习时实际发生的事情。因为就我们所做的研究而言,它仍然非常像一个概括
巨大的问号,就像这些模型内部实际发生的事情一样。是的,所以这是生成式建模的双刃剑之一,对吧?这是一个根本性的经验空间。是的,它是。你们的结果可能非常令人震惊,当然,我会说社区的主要反应是不相信。是的,是的。我们预料到了。如果你不得不聊天,扮演一个批评者和一个不相信Noosa刚刚完成的事情的人的角色,你今天最大的反对意见是什么?
所以第一个可能是你的基线是错误的。这很容易声称。训练大型语言模型并不容易。这并不像你只做一件事就能得到最好的模型一样,对吧?所以你有很多超参数需要调整。如果我们没有正确地进行参考,
那可能只是碰巧这个节目更好。这可能是因为它实际上更糟糕,而基线比平时更糟糕。对。然后这个节目比最糟糕的事情更好,所以……
所以这是不确定的,对吧?是的。我认为另一个方面是有人会说它不能扩展。好吧,它在较小的规模下有效。如果你把它扩展到万亿,你会得到相同的结果吗?这实际上是,我会说这是一个有效的批评。在我们这个领域有很多错误的开始,人们想出一个主意。它在小规模上有效。但是当你试图把它做大的时候,它更多的是小规模下一些奇怪动态的副产品,这并不是
适用于所有实例、所有大小和所有网络类型。所以像8MW一样,它只适用于所有网络。而transformer,它们一直有效。所以你不想出现一种脆弱的情况,就像Bowen所说的那样,它在这些类型的LLM或这个方面有效,但它不起作用。所以这可能是人们会提出的一个赤裸裸的批评。
会有的。为了用数字来解释这一点,你们进行实验的规模是多少?我们现在已经达到了7B,比如7B模型。所以我们还有很多工作要做。它可能不会无限扩展。但我们从经验上看到的是,随着我们把它做得更大,Distro和NMW之间的差异实际上变得更大。
所以这是非常令人鼓舞的,也就是说,如果你看到它随着规模的扩大开始缩小,你会担心它最终会相等,然后最终可能更糟。但根据我们目前看到的经验,情况并非如此。所以我们非常希望它会继续扩大规模。这就是为什么从实践的角度来看,我们现在想把它带给社区,并说,好吧,让我们一起运行一个巨大的模型,因为我们没有10000个H100来
一次性完成所有工作并证明并确切地知道。我认为我们现在研究的重要部分是证明Distro可以减少通信量,而不是损失差异,因为Distro目前的损失差异就像
它更好,而且是无法解释的。这可能是由于某些副作用造成的,对吧?我们还没有探索过。这可能不是因为我们正在进行压缩。所以,或者可能是,我们不知道。但是重点不应该放在损失差异上,而应该放在压缩部分上。因为随着我们越来越多的扩展模型,你可以压缩更多。
但最后的差异可能会改变,对吧?它可能更宽,也可能更窄。最终这并不重要,只要模型尽可能与ALMW(目前最先进的优化器)等效地训练即可。
而且,你知道,关于基线可能无法复制的批评。我认为自从你们发布Distro以来已经大约一个月半了。社区能够复制基线吗?我们实际上所做的是,我们抛弃了我们所做的一切,并进行了全新的预训练。我们第二次从头开始。
所以我们一直在使用我们自己基于,我们已经实现了两次。一次是我们自己的,一次是在Hugging Face的Nanotron框架内。我们抛弃了一切。我说,好吧,让我们再用一次,它被称为来自Allen AI的Olmo,它具有很高的可重复性,就像他们发布的每个数据索引一样
他们拥有每个标记,所以你可以100%地精确地重现他们所做的一切,直到一切,我们现在在他们的框架中第三次重新实现了它,并且能够精确地重现他们的训练运行,然后再次使用Distro获得了与Natron相同的精确结果,并且
这是一种你必须希望它失败的事情。你必须愿意做可怕的事情,看看它是否会失败。但我们现在已经做了第三次。在我们下个月将要发表的Distro论文中,所有数据现在都来自我们使用的Ulmo框架。哦,太好了。我们会有代码。它也已经——基线不是我们训练的。所以我们从这个Ulmo小组那里获得了基线。
所以这个论点可以解决,对吧?因为我们不是没有想出来。就像他们使用,他们假设我们假设他们正在使用最佳超参数进行训练,因为他们对较小的模型进行了大量的消融研究,然后训练了一个1B,然后我们只是采用了
相同的代码,只将优化器替换为Distro。然后我们看到了完全相同的曲线。然后我实际上相信了,因为我实际上是Distro最大的怀疑者。从一开始,我就认为这不可能,但随着我们看到越来越多的暗示
正如我所说,它就像一块防弹玻璃,对吧?我们撞到了那块玻璃。然后这是真正的突破。然后我们想,是的,这个节目是真的。我们应该宣布它,对吧?是的,我们应该完成论文,并期待最好的结果。
人工智能发展如此之快。关于谁赢谁输等等,存在如此多的不确定性,我看到人们在取得突破或成果时开始减少与社区公开分享的自然趋势。事情变得封闭源代码,人们停止分享。但具有讽刺意味的是,我认为对于Distro这样的努力,像你们一样公开发布开源版本、发表论文、发布前几次消融结果,这使得像ALMO团队、Allen团队这样的人能够对抗性地对你们进行红队测试,并试图证明你们是错的。
这使得Distro的成就更加令人印象深刻,我认为这是一种梦想,对吧?这就像合成数据发生的事情一样。这么久以来,有很多不相信。但是当人们开始复制Hermes的结果时,整个领域突然转向了。
你们正在使用的合成数据方法。所以我的希望是,一些收听这个播客的人会尝试复制并试图证明你们是错的,然后从另一边出来。我们鼓励这样做。我们希望人们尝试使用Distro,因为我们很难考虑所有事情。我们是一个如此小的团队。我们只有这么多想法。有了这个Distro,我真的很希望人们开始看到我们真的已经拔出了积木塔。现在我们必须重新开始思考
这种新的训练方式,它更便宜,更高效,因为你不想在富裕国家拥有巨大的、耗电的数据中心。然后其他人什么都没有。对。然后这件事将允许每个人参与训练。对。这是一种不同的思维方式,真的。是的,如果Distro有效。
一种本能的反应是,“哇,这对英伟达来说太糟糕了。”因为英伟达的企业价值、市值和收入的最大驱动力之一就是这些用于本地数据中心的大规模合同。人们购买10000个、20000个,很快,你提到埃隆购买了100000个H100,位于同一个地方。
这是真的吗?或者你认为Distro这样的东西有效带来的二阶和三阶效应实际上对英伟达和生态系统来说是净正面的吗?这对英伟达来说并不立即那么糟糕,因为要使Distro真正扩展到那些真正非常大的训练运行还需要多年的工作。
我认为英伟达仍然有很多东西,那就是CUDA堆栈,所有GPU硬件,对吧?那些与互连相关的非事物也可以与这个节目一起工作,对吧?对。所以很难说这是否会影响英伟达。我认为更大的影响可能是在社会规模或商业规模上,即这意味着不必由单个实体来做。
即使每个人仍然使用英伟达的芯片来做这件事。那是可能看到更明显影响的第二中间层,因为最终,你仍然必须进行反向传播。你仍然必须加载内存。更早可能发生的事情是英伟达或其他人将制造的芯片类型的重新设计。好吧,在这个模型下,我们可以分配更多VRAM而不是……有一个问题是,在一个芯片上,有多少VRAM与多少处理能力。这可能会改变……
这看起来像什么最佳状态的动态。我认为这可能更像是一个——对他们来说,这也是一个新的元空间。当我听到你谈论如果你的Distro有效的影响时,有很多类比可以与这些早期的家庭分布式系统努力相提并论。如果你还记得,如果你曾经做过在家折叠或——SETI。SETI,是的。在家SETI。这是否曾经是你们正在做的事情的灵感来源的一部分?
是的,当然是的。但我们实际上有趣的是,我们不知道这是否会吸引很多人。就像我们对此感到兴奋一样。但某种程度上在内部,我们一直是对此的批评者。就像,真的有人关心在家训练模型和类似的事情吗?但它现在可能不会产生最大的影响,如果你去和你奶奶谈谈。
关于我们正在做的事情,但肯定有一大批人,他们对此有感觉,并希望成为工作和为人工智能做出贡献的一部分,以及像全世界这样的团队努力。而且,而且这当然是我们内部感到兴奋的事情,但我们不知道它是否真的会流行起来。
而我们一推出它,就像每个人都一样,哦,立刻,在家学习。我想做。就像,我想成为其中的一部分。这其中有一些令人向往的东西,关于触及星辰,成为这其中的一部分,你作为一个人成为这个巨大的事情的一部分,我们希望它会存在,但我们直到我们把它摆出来才不知道。对。目前的Distro实验仍然使用H100。市场价格正在下降一点,但每张卡的价格仍然在30000美元到40000美元之间。
所以它很昂贵,而且很难获得。假设我们可以减轻对所有专用和高度调整的带宽基础设施(特别是互连)的所有需求。你认为,以分布式方式进行训练是否仍然需要高端GPU?
像H100?好吧,我们一直,我认为人们实际上并没有意识到4090和H100在很多方面是相同的卡。你能解释一下吗,你知道,对于房间里不是游戏玩家的人来说,解释一下4090。里面的芯片几乎相同。芯片,实际的计算芯片实际上与H100几乎相同。
而你实际购买的是周围的内存。这实际上是昂贵的部分,他们围绕芯片放置的HBM3内存。所以可能会有一个企业溢价,英伟达知道你需要将它们用于训练,而不是那些只想将它们用于游戏的人。希望这种动态不会因为我们引入了Distro而改变。但是我们因为能够将其广泛分发,
我认为游戏GPU的角度将真正成为最佳选择。只要继续存在高端游戏GPU,并且与高端训练GPU相比,即使它们的速度慢一半或三分之一,
我们可以将许多这样的GPU组合在一起,并在规模上弥补这一点。所以实际上就像,好吧,如果我们短期内只使用游戏GPU。所以我们当然不希望最低可行实体是拥有H100的人。
这几乎排除了所有人。还有苹果公司使用其MLX平台和苹果硅的做法,这太棒了。如果我们可以激活所有这些潜在的计算能力来进行训练,那也是很多。所以我们确保我们编写的代码能够帮助实际进行这种训练,与硬件无关,能够进行通信和操作。你可以让苹果设备和英伟达设备一起训练。这实际上只是为了
实际原因,当训练现在发生时,它假设所有GPU都是相同的,它们都在同一个组织中。所以我们实际上只是编写了这种容错训练代码,其中一个GPU可以宕机,没关系,即使其中一些GPU脱机并且不同,它也会继续训练。如果你只是一个拥有和控制一切的实体,你以前就不会这样做。是的,没有用,对吧?我的意思是
当你看到这项技术被揭示出来时,这是真的,这允许人们考虑新的训练方法的可能性,对吧?这与现状不同。而这些芯片现在可能,像H100和4090一样,H100适合训练,而4090不适合。但是随着人们……
意识到更好的架构、更好的训练代码和不同的LLM训练方式,甚至不同的LLM架构,他们可以开始将这些模型拟合到更小的VRAM或游戏GPU中,对吧?或者可能也有需求压力。因此,如果英伟达看到对互连较少的GPU(如游戏GPU)的需求更大,他们可能会销售更多,生产更多。所以这真的取决于,我认为这真的是一个平衡行为。
随着我们越来越多的推动Distro,人们将开始围绕它开发一个训练生态系统。否则,现在我们必须使用H100。但是如果你不尝试新的东西,你将永远停留在H100上。这是你们的第一次发布。你能解释一下接下来会发生什么吗?你们最大的优先事项是什么?你们认为接下来需要做些什么才能继续积累更多动力?我们将发布论文以及Distro的源代码。
因此,这将允许人们立即开始迭代它。这是十月份的事情。所以ICLR会议,我们也想尝试发表。是的,然后之后的问题实际上是构建一些可以一起使用的东西。所以我们开始编写代码,例如,实际使用Distro会是什么样子
实际上使用Distro来让每个人都能走到一起训练模型,这仍然非常像研究阶段,但如果我们如果我们倒回到我之前所说的,那就是我们查看了我们拥有的东西,那就是我们的社区
对这件事感兴趣的人,一个非常大的社区。这就是我们所拥有的。我们没有的是大量的H100。所以现在我们已经沿着这条路走下去,解决了这个问题,我们现在想把它带回来,说,好吧,这是一个实际的完整堆栈工具,你实际上可以使用它来做这件事,因为我们将要发布的第一个版本将非常学术化。
它将是一篇包含消融证明和参考PyTorch源代码的论文。这就是它实际的工作方式,所有这些东西。但是从一篇学术论文和参考PyTorch代码到……还有一段很长的路要走。
世界上每个人一起训练一个AI模型,对吧?下一阶段是构建它的第二部分。MARK MIRCHANDANI:我明白了。你能谈谈将研究产品化,将其转化为一个实际的优化库,以便在训练运行或训练中非常容易地使用吗?
这就是产品的形状吗?——我不认为它会像一个你可以买到现成的产品,然后放到现有的东西里。我认为这更多的是关于让每个人一起在一个模型上工作意味着什么?你如何奖励他们?你如何让他们真正地接触到它?然后社区所有权甚至意味着什么?所以我们仍然非常,这仍然非常像在产品化的构想阶段。我们很幸运能够处于一个让我们感到舒适的位置
在我们可能积累了所有价值捕获之前发布“秘方”,因为最终它是科学,是数学,是数学方程。就像大莫夫·塔金一样,你试图掌握的星系越多,就会有越多的星系从你的指缝间溜走。所以我们对如何拥有一个可以执行并帮助每个人的工具链有一个很好的想法
一起训练并处理它。在我们向所有人发布源代码之后,我们将发布它。然后这将只是一个过程,看看什么有效,什么无效,因为社区,再次,另一句愚蠢的话,但就像每个人的计划一样,直到它被发布出来并且是真实的,我们才会看到人们实际上想要用它来构建什么。
所以我们也一直对所有东西都采用开源的方式,因为开源社区会给予很多回报。所以一切都是建立在开源的基础上的。所以我们正在回馈开源社区。从长远来看,这将使我们受益,因为LLM将得到更好的训练,人工智能也将发展得更快。我认为这将在短期内允许的一件事是更多实验性架构的实验。如果我们有一个基底
就像我们不得不去获得我们自己的H100才能做到这一点一样。我们实际上出去买了64个我们自己的H100来进行Distro测试。但是下一组对新的架构或新的想法有想法的人,现在他们可以使用这个Distro网络来实际尝试一下。
并拥有进行实验的能力,因为如果你在一个大型组织内部,你有时可能会害怕尝试新的东西,因为我们必须在下个季度推出一些东西。但是现在创造一个环境,就像我之前说的那样,有很多创新空间。你挥动一根棍子,你就会在人工智能领域取得创新。为其他人提供实际访问计算资源来进行这些研究的地方。如果很多人说,嘿,我想尝试这种奇怪的输血,这是一篇来自Meta的论文,我们对此非常兴奋,该模型使用的是bitnet,它有很多奇怪的东西,那么人们就会说,是的,我会把我的——点击这个按钮,这是我的GPU。去吧,用它。现在你已经解决了协调问题,现在我们可以尝试所有这些新东西,看看结果。所以听起来如果你看看——我们称之为前沿模型生产的第一、中、最后一英里。
对吧?第一英里是预训练,中间步骤是后训练和对齐阶段发生的所有事情,最后一英里是推理优化,比如实际托管等等。听起来这篇论文在第一英里取得了突破。你们证明了可以显著减少预训练步骤所需的带宽。当你们发布Distro时,我们讨论过的一件事是,如果它有效,这将对监管产生影响。
所以我知道Distro的巨大挑战的灵感来自于这样一个问题:嘿,如果我们永远得不到开源的Llama 4会发生什么?在不久的将来,Meta决定,嘿,监管风险太高了。论点是,好吧,没关系。
感谢Meta迄今为止所做的一切。现在是社区挺身而出的时候了,运行像Distro这样的系统来允许大规模去中心化训练,对吧?如果假设,根据你们看到的结果,Llama 4没有开源。社区训练一个至少与Llama 3、4或5b一样好的模型还有多远?我认为7b是可以立即实现的。像7b模型,我认为用我们发布的代码的第一个迭代版本来实现并不算太牵强。
可以使用1000个H100来训练7b到大约4万亿个token,只需在runpod上租用它,有人可以做到这一点,对于4或5b,你怎么认为?我认为这仍然是,这仍然是,你知道,像明年这样的环境问题,我们必须在那里做一些
扩展问题,或者不是扩展问题,而是关于如何分割模型的技术问题。因为那时你遇到了一个问题,你必须将模型放在多个GPU上或更多GPU上。当你达到这个阈值时,这些GPU之间需要进行通信才能分割它。我们正在研究激活的工作方式,例如如何分割这些部分以使其工作。因此,要无限地将其扩展到那些超大型模型大小,仍然需要做一些技术工作,但是
没有什么是不可能的。这真的是一个我们需要解决的工程问题。通过将其带给每个人,我非常有信心,有很多像,也有很多令人惊叹的聪明人,他们在所有这些封闭的实验室工作,对吧?他们可以根据自己的意愿做出贡献,不是匿名的,而是在晚上,比如,这是我的想法。我也很喜欢你们正在做的事情。这是一个PR,
在其中实现了张量并行性,你知道,我们希望为这一方面激活很多东西。但似乎我们在开源领域。我们总是像落后一年,一年半,像封闭的提供商一样。如果我必须像估计一下,那将在明年年底,可能不会达到那个规模。
而且,你知道,我花太多时间在本地Llama上了,但让我们假设,你知道,你正在与本地Llama人群交谈,他们不像我一样24/7都在那里,但作为开发人员,他们广泛地对确保开源继续前进感兴趣。他们可以帮助解决哪些问题来加快你们正在谈论的进展?
我认为现在在我们发布它时,会有很多这些开放的工程问题。例如,我们将需要帮助,英伟达有一个名为Nickel的库,它在内部用于实际编排,即使你查看集中式数据中心运行。他们确实,他们创建了这些环和树来尝试有效地移动数据中心周围的数据。他们也使用GPU直接复制
将信息和梯度从GPU复制出来,并将它们流式传输到下一个GPU。我们将不得不抛弃所有这些。我们不能使用它,因为它被设计用于集中式基础设施。所以Distro可能比传统方法慢两到三倍,但这并不是一个要求。这仅仅是因为我们不得不抛弃了很多拐杖,不是拐杖,而是英伟达在其技术堆栈中构建的所有东西。我们将需要
在该站点上复制它。这实际上只是工程工作,但工程工作仍然是工作,需要完成。是的。我们为什么不花几分钟时间来谈谈它实际上是如何工作的,以及在项目期间,你们从工程和技术角度发现了哪些最奇怪的见解?
所以基本上,如果你考虑一下ADAMW的通常训练,那就是你拥有所有这些GPU,它们都有一份模型的副本,就像简单地——让我们考虑最简单的场景。所以他们都有一个模型的副本。当使用不同的数据训练它们时,你希望在最后同步它们。所以假设你给每个GPU一本不同的书,然后你训练一步。所以现在所有的权重都不同了。就像每个人都有一些不同的训练,因为他们看到了不同的书。
现在你想将所有这些GPU同步到单个模型中。所以你必须将整个模型复制到另一个模型中。这就是它如此缓慢并且需要那些高速互连的原因。使用Distro,我们发现我们实际上可以让每个GPU自己进行训练。
所以他们不需要同步,可以这么说。你不需要一遍又一遍地复制模型,这样每个人都保持在相同的状态。你实际上可以只让每个模型用自己的书进行训练。让你训练,然后
每一步,而不是同步,你只需要将你学到的东西,你学到的最重要的事情传输给其他人。所以这有点像你有很多点在云中的空间,每个人都在训练,每个人都在不同的方向前进。然后你有一个试图将它们拉到一起的东西,对吧?试图让它们到达一个点。但它永远不会到达那里,因为你的带宽非常有限。它就像1兆字节。
模型大约是2GB。你每次传输1兆字节。但是有了这1兆字节,你可以尝试让它们在这个云中尽可能接近。在你训练越来越多之后,你开始看到每个模型实际上都以某种意义上训练了相同的数量。就像每个人都在训练。
好像他们在同一点一样。你可以只取其中任何一个模型,它们将具有相似的性能。所以这有点像整个云在空间中一起移动。这就是这个角色工作原理的直觉。但那不是我们最初认为这个角色工作的方式。这是在我们进行了广泛的测试之后,我们实际上查看了,我们查看了权重,我们查看了每个GPU之间的距离,实际距离,我们看到
在训练的某个时刻,它们变得有界。它们停止发散。这就是为什么随着你训练得越来越多,我们认为压缩可以越来越高,因为它们开始发散得越来越少。这个只有一个模型的概念实际上来自于一个工程细节,当人们开始编写神经网络训练代码时,他们只有一个计算机在运行它,你只是在训练一个模型。
只有一个模型。只有一个权重。然后他们说,好吧,我们希望能够更快地训练。我们想训练得更大。但是这样做的方法是将该细节抽象化,你位于多个GPU上的事实就像隐藏了一样。即使现在,也很神奇。你编写你的PyTorch,像PyTorch代码一样训练。你写一行代码,就像,这样做。而且,
这实际上同时发生在40000台不同的计算机上。但是作为开发人员,你就像你只是在训练这个小小的模型一样编写代码。所以这个抽象,只有一个模型正在训练,已经被保留了,对吧?所以现在这个维护的实现是,当你让这些不同的GPU在不同的数据上进行训练时,你必须进行这个所有减少操作,你基本上就像,你去学习,你去学习,然后实际上我们将像把每个人学到的东西都拿走,然后我们将
将它们全部平均在一起,回到同一点。所以就像每个人都朝着自己的方向前进。他们都回到妈妈身边。他们都合并到一个节点中。然后下一步,我们再次出去做。所以使用Distro,我们发现,与其让每个人都回家并将其平均在一起,不如让那些正在寻找损失景观中最低点的每个小节点自由移动。
他们实际上并没有回家并全部同步。他们每个人都有自由移动的空间。但你不想的是自由移动并偏离正轨。但是搜索空间的多样性,我们实际上并没有训练一个,我们打破了正在训练一个模型的范例。实际上有n个模型正在训练,每个模型都可以进行自己的小探索,但在有界空间内。
这样他们就像都在四处寻找,而不是像都回家一样,他们都打电话回家。他们只是说,“这是我从中学到的最好的见解,”而不是说,“让我们合并到一起。”这就是正在发挥作用的动态。但这很有趣,因为这实际上是事后才意识到的。
就像这并不是我们开始时的论点。但是当我们查看它并说,好吧,它更好,我们正在获得更好的损失,我们必须知道为什么。所以我们然后进行了检测,并看到了实际发生的事情,我们发现了这种有界行为,但是探索的多样性实际上是它有效的原因。
我们实际上利用了拥有多个GPU的优势,而不是假设每个人都应该做同样的事情。现在我们只是说每个GPU都有权重的副本,所以让我们以不同的方式探索。让我们做其他可能的事情。我认为这就是这个节目如此成功的原因。这是促成因素之一。这非常违反直觉。你能解释一下吗?
为什么对于那些可能不太熟悉训练模型的人来说,这如此违反直觉?你知道,为什么你实际上可以进行有界搜索会如此令人惊讶?事实上,通常情况下,如果你这样做,他们每个人都会朝着自己的方向前进。这不是你想要的,对吧?因为随着模型变得不同,它们失去了将学到的东西相互沟通的能力。就像他们正在前往自己的国家,他们开始发展自己的语言。如果他们相距太远,他们就无法打电话回家并互相交谈。所以最简单、最容易的事情就是
根本不要让这种情况发生。把每个人都聚集在一起,每个人都只有一个。但是多样化的能力,能够去伦敦待一年,就像,你知道,他们每个人都可以去自己做自己的事情,然后回来并说,这是我学到的东西。不知何故,这比这个单一的东西更好。但是单一的东西实际上就像一个技术
这是因为我们有PyTorch,然后他们喜欢,或者像Keras或其他任何一个。他们说,好吧,如果你愿意,你可以在多个GPU上进行训练,你甚至不必更改你的代码。所以你需要保持只有一个模型的这种范例。这就是我之前谈到的我们一直都在做的事情。现在我们处于特定的规模,我们可以重新考虑这些是否正确。当你们描述事后才意识到实际上让他们所有人打电话回家时
比让他们所有人回家要高效得多。为了完成这个比喻,你能在你的下一个——当你们改进系统时,你们是如何处理谁打电话回家?谁是编排节点、奖励函数、目标函数?谁是管弦乐队的指挥?但是简单地说,就像你使用所有减少操作一样,每个人都与其他人进行通信。
但是在这里,操作只是更小。所以每个人都与其他人进行通信,你试图达成一致,对什么是家达成一致。所以你实际上没有家。所以每个人都在任何国家,但是当他们用少量数据互相打电话时,他们就能理解什么是家。
而且每个人都能在某种意义上待在一起。但这可能甚至不是最佳配置。你知道,我们感兴趣的是,我们正在考虑像异步版本,他们甚至不会每一步都互相打电话回家。而且,你的意思是如果有些人打电话回家给其他人,而其他人不打电话回家?就像,这就是我们兴奋的地方,因为这是一个实验,我们自己无法做到。
所以我们将把它带出来。所以在这个第一个版本中,我们实际上非常保守,我们就像,每个人都与每个人交谈。但这甚至可能不是最佳配置。而且可能是训练会,我们会做,如果试图在世界各地这样做,就会出现延迟问题,对吧?所以是否有可能在
每个大陆上都有一个互连的中心,它们更频繁地进行通信,然后与来自北美到欧洲的更分散的元素进行更少的通信。你有一个美国方面和一个欧洲方面。他们正在进行更多沟通,然后中间的节点进行一些总结。这些都是不同的配置,当你从将它视为一个单一组织执行一项任务的范例中解放出来时,
你会发现一个全新的优化领域。对。在命令与控制的两个方面之间,
和完全的无政府状态。对于下一代,你们是如何处理理想的系统设计,以便有足够的协调,我们称之为连贯性?好吧,显然它受到物理世界的现实的限制。我认为这将是推动它的因素,那就是你从在家的人那里获得了非对称的网络连接。所以像家庭网络连接,例如,通常情况下,你知道,有很多下行带宽,但很少有上行带宽。
所以这就是一个现实主义的考虑。如果我们希望人们在家这样做,那么这是一个我们需要考虑的现实主义的考虑。所以我认为只是在它将由我们从世界继承的网络拓扑的实际事实来驱动。然后我们将不得不针对网络拓扑进行优化。对。我们也没有
主要集中在集中式规模上,我们正朝着无政府状态的方向发展。许多优化算法都是从异步开始的。但这很难实现,因为你会牺牲很多。你会牺牲速度,你会牺牲收敛性。
算法的实际效率。所以从另一边开始,我们只是突破了这个关键障碍,那就是沟通。然后我们可以考虑其他所有可能性。例如,正如你所说,让不同的气泡独立训练
然后偶尔尝试将它们合并在一起。这可能是一个有趣的思路。是的,对过去几年许多去中心化协议发展方式的观察之一是,你通常有一个协议设计,当然,北极星是完全去中心化的,对吧?你没有任何一个节点比其他节点更能够影响共识的结果。实际上,最终发生的事情是,你有一些验证者是验证的大贡献者。
一两个组织或三个,我称之为五个,只有大约五个到十个组织,对吧?他们位于节点验证器的集群上。当他们一起投票时,他们可以引导协议的方向。如果你绘制世界上的数据中心数量与它们拥有的芯片数量的图表,只有少数几个拥有,我们称之为2万个及以上,但尾部相当肥厚。没错。所以在我们到达尾部的最长部分之前,也就是,你知道,个人,
有一群运行数据中心的人,他们可能有2000个H100。你是否期望我们下一步将要做什么,那就是拥有一个跨越,我们称之为100个2000个H100集群的模型是最有可能的下一步,从今天算起一年后是最有可能的状态?
我认为有,你知道,即将出现的是,即使是拥有多个数据中心的集中式参与者,现在也可以更有效地使用它们。只需让n等于2,不,你知道,像n等于2,每个都是网络上的一个节点,整个数据中心。我的意思是,这只是一个解锁,特别是对于许多这些数据中心来说,它们可能有100吉比特的互连
它们自己的数据中心之间,对吧?而且就像你现在可以将这两个中的每一个都视为一个一样,我认为从实际的角度来看,这可能是开始时最大的解锁。但这就是这种方法的特点,它可以去中心化,但不一定必须去中心化。集中式参与者仍然可以,你知道,获得好处,因为他们,为此,或者他们不必再购买InfiniBand了。
当他们布置数据中心时,他们可以使用100吉比特以太网或10吉比特以太网。所以我认为可能会有很多简单的效果很快就会发生,然后是
完全去中心化的梦想可能会进展缓慢,但最终会超越。我认为我们还应该区分不同的,拥有多个可以利用100个的网络,然后拥有一个较小的网络来利用尾部的末端。你有不同的矩形。你可以将它们放入三个矩形中,而不是在中间某个地方有一个正方形。让我们继续讨论社区渴望从你们那里听到的技术细节。
你们还做出了哪些其他最奇怪的发现、决定和权衡?你需要反向传播。反向传播仍然是王者。是的,我们实际上开始研究一种叫做零阶优化的东西,在这种优化中,你不会进行反向传播。
你实际上只通过前向传递来训练模型。因为这就像,我们就像,如果你,因为我们想针对4090。而且,所以我有一个4090,对我来说这意味着什么?好吧,我们不能,我们不能训练这些巨大的模型,但是,如果我们只用前向传递来做呢?所以我们实际上,我们的第一次迭代是零阶优化机制。这是一个非常有趣的领域。
但我们发现反向传播仍然是王者。你确实仍然需要进行反向传播才能找到损失的最佳点。这就像零阶优化就像,什么,像一千?它有效,但就像你需要一千倍或一百倍。是什么,你还记得吗?是的,大约是1000倍。所以这是用于微调的。
而问题是,现在在专用硬件——非专用硬件上,比如英伟达H100,推理时间和反向传播时间几乎相同。它就像——反向传播更慢,但它慢2.8倍,而不是1000倍。所以这个仅推理的零阶优化器,如果你有专门的硬件,比如如果你有一些可以进行10000倍更快推理的硬件——
那么这实际上是有用的。然后你可以只通过前向传递来训练神经网络。然后你估计梯度。这是一个非常粗略的估计。你做了很多前向传递,然后你可以训练这些网络。零阶优化中有趣的是,在某种意义上,将来你可能不需要通用硬件。你可能只需要……
专门用于推理的硬件,然后进行——然后实际上也在上面进行训练。——是的,实际上训练网络。所以你的手机有推理功能,然后偶尔训练一次,对吧?它并不总是。——是的,所以这非常疯狂,因为你基本上是在说你可以释放ASIC的市场
然后实际上也在上面进行训练。——是的,实际上训练网络。所以你的手机有推理功能,然后偶尔训练一次,对吧?它并不总是。——是的,所以这非常疯狂,因为你基本上是在说你可以释放ASIC的市场
关于训练,对吧?ASIC 的流片不像 GPU 那样需要 18 个月,因为它们不需要那么通用。所以它们的流片速度要快得多。因此,您可以更快地更改它们的架构。它们的成本也低得多。这种说法有什么需要注意的地方吗?基本上,只要 Transformer 机制被证明是最有效的负载,那么未来,如果 Distro 继续沿着其路径发展,大多数训练运行实际上都将在 ASIC 上运行,而不是在 GPU 上。这是可能的。我不会马上就假设它。
但在未来,你可能会使用神经网络进行推理前向传递的训练。我们已经看到 Chip McGraw,其他 Chip 制造——那些正在制造仅推理硬件的人。我还认为有很多——所以核心操作仍然是浮点矩阵乘法。有一些像 BitNet 这样的东西,它暗示能够进行非浮点乘法,
这种方法叫做 BitNet,令人惊奇的是,因为所有的权重都是 1、0 或 1,乘法就消失了,它变成了简单的加法,因为所有的乘数系数项都只是 1。所以,然后它只是加法,然后它快得多。所以,你知道,如果使用它,然后你有一个 ace,你可以做一个可以进行一千次推理的 ace,这实际上可以让你像一个乘法尺度。然后
同样的芯片可以用来在设备上进行推理,并以同样的速度进行训练。所以有一种可能性,但从实际的角度来看,就像,我们将提出一种方法,如果全世界都制造我们告诉他们制造的所有芯片,它将是完美的。所以我们必须像,你知道,采取措施。但好处是,将来,如果我们能够建立这个网络,实际上拥有参与者
你就可以把它转移到将来去做。这真的是社区激活的关键,这是关键部分。此外,我还想补充一点,使用推理硬件进行推理硬件训练可以解锁更多功能,因为它不需要比反向传播更快。它只需要足够快,以至于使用它们进行训练是值得的。例如,你的智能手机,你整天都在使用它,对吧?对。
所以在使用它的同时,在你进行推理的同时,你实际上可以保存少量额外的信息并将其发送回来。所以他们可以用它来训练。所以如果这个推理真的非常快,随着越来越多的人使用它,你可能会看到一些公司或一些实体试图利用这些额外的数据进行训练。所以这可能是——训练将是一个副产品
FRANCESC CAMPOY:是的,推理库,就是这样。MARK MANDEL:本质上,推理主宰世界,对吧?这有点像未来。FRANCESC CAMPOY:是的,因为通常人们只训练一次,然后他们进行推理——他们部署模型。每个人都在使用它。就像 ChatGPT,它不是一直在训练。他们可能一直在训练一个模型,但你正在使用的模型并没有在训练。但是通过推理训练,你可以在使用模型的同时训练模型。
好吧,我迫不及待地想看到发布。你想对听众说些什么最后的话吗?一起享受旅程吧。我们正在尝试制作一个代表全世界的 AI,并且对您来说是友好的。所以如果这让你兴奋,就像——让我们制作一个“家园城市”,但用于 AI。让我们制作一个“家园城市”,但用于 AI,是的。
谢谢各位。谢谢。谢谢。感谢你们坚持到最后。我希望我有一个很棒的彩蛋给你们,但让我们现实一点。最好的奖励是知道你现在对人工智能领域的未来走向有了更清晰的了解。如果你愿意,请在您选择的平台上对播客进行评分,并广泛分享。再次感谢您的收听。