(00:00:00) 开场/闲聊 (00:03:07) 回应听众评论/更正 (00:05:13) 赞助商介绍 工具和应用 (00:06:22) Anthropic 的最新 AI 更新可以独立使用计算机 (00:18:09) AI 视频初创公司 Genmo 推出 Mochi 1,这是 Runway、Kling 等开源竞争对手 (00:20:37) Canva 推出闪亮的新文本到图像生成器 (00:23:35) Canva Beta 为 Ideogram 用户带来 Remix、Extend 和 Magic Fill (00:26:16) StabilityAI 发布 Stable Diffusion 3.5 (00:28:27) 将代理工作流程引入 Inflection 以用于企业
应用和业务 (00:32:35) Crusoe 的 340 亿美元合资企业将建立一个 AI 数据中心园区,最多可容纳 10 万个 GPU (00:39:08) 据报道,Anthropic 正在进行早期融资谈判,估值高达 400 亿美元 (00:45:47) 长期政策研究员迈尔斯·布伦达奇离开 OpenAI (00:49:53) NVIDIA 的 Blackwell GB200 AI 服务器将于 12 月准备大规模部署 (00:52:41) 富士康将在墨西哥建造英伟达超级芯片工厂,高管表示 (00:55:27) 马斯克的 AI 初创公司 xAI 推出 API
项目和开源 (00:58:32) INTELLECT-1:第一个分散式 100 亿参数 AI 模型训练 (01:06:34) Meta FAIR 发布八个新的 AI 研究成果——模型、数据集和工具,以激励 AI 社区 (01:10:02) 谷歌 DeepMind 正在开源其 AI 文本水印
研究和进步 (01:13:21) OpenAI 研究人员开发出新的模型,将媒体生成速度提高 50 倍 (01:17:54) 目前有多少 AI 计算能力,以及谁拥有它? (01:25:28) 奖励进步:扩展用于 LLM 推理的自动化流程验证器 (01:33:30) 长上下文检索增强生成的推理扩展
政策和安全 (01:41:50) 宣布我们更新的负责任扩展政策 (01:48:52) Anthropic 正在测试 AI 的破坏能力 (01:56:30) 据报道,OpenAI 要求美国批准能耗巨大的 5GW 数据中心 (02:00:05) 美国调查台积电与华为的交易 (02:03:03) TikTok 所有者字节跳动聘请台积电制造自己的 AI GPU,以摆脱对英伟达的依赖——据报道,该公司已花费超过 20 亿美元购买英伟达 AI GPU
(02:06:37) 节目结束
但是,当你谈到代理工具的使用时,那才是各种最大的IT培训出现的地方。虽然这么说不公平,但这就像一个ergenekon mizer模型,这就是为什么它会涉及到计算机使用能力的原因。但是,与默认设置不同,推断不是代理,当你调用API时。所以这里有一个有趣的细微差别,它不是一个系统,我想,它旨在每次都执行代理功能。
你仍然可以用它像一个普通的模型。但是,它是一个经过优化的模型,擅长代理推理,我想这就是为什么他们仍然使用相同的命名术语,而不是直接进行比较的原因。无论如何,非常令人兴奋。
有很多话要说,但我们应该继续。接下来,我们有一个关于Mochi 1的故事,这是一个由AI视频初创公司Genmo发布的新模型。这是一个开源的竞争对手,与Runway、Kling和其他视频生成器竞争。
因此,它可以在派对2.0许可下使用,这意味着你可以生成。呃,任何人都可以使用这个模型来做任何事情。基本上,你可以下载权重和模型代码。
还有一个沙盒,你可以玩玩。呃,这将是一个启动,以后也能生成更高分辨率的版本。这里有一个不错的输出。显然,它不像其他一些模型那样好,需要一些耐心。
它只会在adp分辨率下输出。明年将会有添加版本输出,你知道,这是一个有趣的举动。我还没有产品,所以他们有点抢先发布了这个开源模型。
是的,这有点有趣,因为他们标记了,你知道,你可以从Hugging Face下载模型权重,尽管它至少需要四块英伟达8100个GPU才能运行,如果你想实际运行它。
所以,你知道,如果你有闲置的100k,那可能是你的市场策略,但是挑战在于,人们经常谈论这一点,但开源的定义,当你有一个如此庞大的模型需要分布式推理时,这是否算作入门门槛很高。显然,首先将模型权重发布出来,我认为是这里的主要胜利。因此,我们可能会看到很多有趣的修改,特别是针对视频生成。
我只是想知道,微调看起来像什么?在这个模型之上的修改生态系统最终会是什么样子?他们将有很大的自由发挥空间,以及自动化大量电影生成、制作等工作。所以,无论如何,这是一个有趣的发布。
我不喜欢第一个故事是关于Canva的,他们有一个闪亮的新文本图像生成器。Canva是一个非常大的工具,用于设计任务,关于这一点。他们现在正在推出Dream Lab,这是一个内置的文本到图像生成器。
呃,Convert收购了Leonardo AI,这是一个用于AI想象力的工具包。它由Olio OS Phoenix模型提供支持。正如你可能想象的那样,这几乎只是一个测试。
嗯,你可以根据各种风格(如费德勒和插图)生成图像描述。呃,这实际上是对现有基于稳定扩散的AI模型的改进。
呃,所以它通常来说质量更好,呃,与我之前看到的相比。他们还更新了其魔法工具包,它将执行各种操作,例如魔法右呃,用于文本生成。所以,在我们看到的趋势中,我想,我们已经看到了这种趋势。基本上,任何软件工具现在都在以各种方式集成AI,我想这可能是收购早期例子,任何AI初创公司将其收购并将其变成一个被很多人使用的重要产品。
是的,这有点有趣。你可以看到这次收购的明确印记,所有这些。是的。你知道,他们提到过的一件事是,用户可能因为价格上涨而感到失望,预计价格会因此上涨。
嗯,在当今时代,你如何提高向客户提供的价格,与投入多少精力来降低成本以进行竞争?以及,嗯,有很多新功能。看到人们对支付更多费用以获得如此多的新功能感到犹豫,这很有趣,但现实是,很多东西都在商品化。
模型本身不再那么重要。越来越重要的是服务模型的基础设施。我们刚刚报道了这个故事。
阅读关于视频生成,以及模型是开源的。一个模型如此之大,需要四块、八块、一百块GPU。想想训练预算需要多少。
完全开源。因此,模型本身的重要性降低了,至少对于这些非前沿模型来说是这样。是的,这变得越来越难。至少,我认为说服客户为这类东西支付巨额资金会越来越难。但是,如果你是一家大型公司,你必须这样做。
所以,看。关于Canva的故事不是关于x的。我当时...
一本关于你的书...
一开始。所以,我们的故事是关于Ideogram中一个新的未来。这将允许Ideogram用户使用Remix、Extend和Magic Fill等功能。所以,这就像一个画布,你可以在上面...
那是...
他们得到它。好的,是的,是的,完全正确。为了制作大量的拼贴画,你可以无限扩展。你可以通过粘贴图像、不断扩展来创建它。所以,这现在是一个工具,我认为在像我的旅程中,至少在网络浏览器上没有本地工具。你看到这个领域持续的竞争。
是的,我真的很想知道市场什么时候会决定图像生成已经解决了,然后我们不再有持续扩展和真正高强度投资的好处,因为现在我们已经有了专门处理文本和视频的文本到视频模型,以及所有这些,我们已经到了预期新发布的任何文本到图像模型都会有这些功能的程度。
所以,我真的很想知道,你知道,我们是否正在饱和这些东西所能创造的价值?我怀疑,或者不是,你总是会惊讶于额外的分辨率或额外的功能如何解锁这些新的利基应用,例如,如果你想让你的文本到图像模型生成一些电路图或其他东西,你想要一切正确。但我认为,对于大多数市场参与者来说,我们可能已经进入了一个价值回报会更有限的阶段。
我很好奇。我想我不知道。但在某个时候,我们什么时候开始烧掉风险投资的资金?嗯,这是一个有趣的问题,值得关注。
是的,完全正确。我认为这很有趣。你知道,你有一些领先的文本到图像公司,比如Journey和Ideogram。
以及提供商,对吧,没有太多失败的案例。有一些,但不是很多。看看风险投资资金何时被烧掉会很有趣,对吧?然后你必须依靠收入来维持。
竞争对手会如何应对?再次谈到文本到图像,我们在这个领域又有一个故事,这次是关于Stable Diffusion 3.5。所以,Stability AI,我一段时间没提他们了,他们正在发布Stable Diffusion 3.5。
再一次,它有三种尺寸,大型、大型Turbo和中型。要点是它在照片级图像方面做得更好。所以,这篇文章的比较对象是Flux 1.1 Pro,看起来比S和C好得多。
免费,就某种意义上来说,它与Flux相当。我想,当我最初在Acx上看到Flux的输出时,它非常令人印象深刻。它确实让我感到兴奋。令人惊讶的是,Stable Diffusion。所以,我想这并不奇怪,我们正在发布它,以保持某种说法。
是的,嗯,这些是Stable Diffusion许可证,对吧?因此,它对非商业用途(包括科学研究)是免费的。对于营收不超过一百万美元的中小型企业也是免费的。
然后,超过这个额度,你需要企业许可证。所以,这有点像新的Stability AI方法,他们必须以某种方式赚钱,如果在Amoud Mos Dac是CEO的日子里,那就不行了。
我们都记得我们在这里报道过它。他们只是在亏钱,现在他们需要找到方法来赚钱。所以,嗯,这显然是试图在这种意义上分割市场。
我实际上不知道...嗯,我不知道我是否看到过关于他们从这些企业许可证中获得的收入的报道。是的,再一次,我指的是在真实性方面更进一步。这很酷。我不知道在完全开源的模型出现之前还有多少步,它不需要这些企业许可证。
然后你又该怎么办?对吧?所以,这可能会真正侵蚀利润率,但对于Stability AI来说,这是一个非常有趣且重要的进步,特别是如果他们试图与其他公司竞争,其他公司正在紧追不舍。
最后一个故事,我们又回到了代理AI,这是关于在Inflection for Enterprise中引入工作流的公告。如果你还记得,我之前提到过,Inflection这家公司收购了Pie,并且非常专注于一种情感智能的消费者产品。
正如我们报道的那样,众所周知,它实际上被微软收购了,它的许多领导层和员工都转到了微软,但Inflection并没有被收购,它仍然是一家独立的公司,同时他们宣布几周前转向企业,推出Inflection Enterprise,现在他们正在为Inflection Enterprise推出代理工作流。所以,这是与另一家公司UI Path合作的,这家公司已经专注于自动化公司流程。所以,这结合了Inflection提供的AI和这种自动化。
嗯,他们发布的公告中没有太多关于实际用途的细节。想象一下,这非常类似于ISUI,或者你想怎么称呼它,它不是一个通用的解决方案,不像一个通用或计算机使用主题的模型。但无论如何,Inflection似乎确实试图进入企业市场,并通过宣布这个代理功能来走一条不同的道路。
是的,这与收购一家名为Boundary的公司的公告一起出现,我以前从未听说过。嗯,我想他们过去可能更多地从事机器人流程自动化(RPA)之类的工作。
他们显然被描述为一支由自动化专家组成的团队,拥有在UI Path集成方面丰富的经验,所以UI Path的合作,Boundary似乎是Inflection和UI Path之间的接口,以及可预见的策略,以实际整合这个博客文章,读起来非常非常企业化。我想读一下这段话,因为它们是听起来最企业化的东西,所以他们说,衡量AI能力的主要指标从一开始就关注智商。Inflection AI从一开始就看到了优先考虑其他形式的智能的价值,并发现了一种方法来让模型体现情商。好的,情商,我有一个超级酷的。但现在我们认为,另一个重要的企业衡量标准应该得到认可。我们称之为行动力(AQ)。
看,这些人真的很聪明。他们有所有智商。
你有智商。他们有情商。也许情商做得不够好。现在我们有了行动力。行动力时代,行动力时代,让我们兴奋起来。无论如何,这就像,我们想创造这个短语,只是为了...无论如何,这是...
是的,实际上,这很有趣,因为它真正突出了Inflection早期非常关注情商。我们正在制作一个儿童机器人,但它是有情感的、智能的,并且会与你互动,让你感觉像一个用户。但这对企业来说并不有趣,对吧?他们不在乎,对吧?所以我们必须做一些有点尴尬的事情,比如,好吧,忘记情商,那是之前的Inflection,它无法赚钱,需要微软收购。现在我们正在做行动力,这完全不同。我们正在通过这种方式塑造自己的品牌。
是的,它暗示着一些真实的东西,对吧?我们实际上...这些是代理,好的,我明白,这只是最企业化的东西,我们必须创造一个新词来描述它。我认为这很有趣。
在应用和业务部分,我们从一个大型硬件故事开始。这是一个价值34亿美元的合资企业,旨在建立一个AI数据中心园区,据报道将由OpenAI使用。
所以,这是一个有点深入的故事,没有出现在头条新闻中,但绝对值得强调。几家公司合作,包括Crucial Energy Systems、Blue or Capital和Primary Digital Infrastructure,将在德克萨斯州建立一个数据中心园区。这刚刚宣布。呃,这将位于德克萨斯州埃布林市,这是一个巨大的项目,占地近一百万平方英尺,拥有10万个GPU和...我想你可能有一些更有趣的细节。
哦,是的,我的意思是,这是一个巨大的交易,从屋顶上看。所以,嗯,首先,嗯,这是如果非要说是第一个,那么它就是第一个拥有10万个B200集群的。所以,B200,我们已经讨论过了。
我试图回忆起我们开始一起做播客的时候,我们谈论的是一个使用10万个GPU来训练GPT的项目。然后我们有了8100,然后有了B200。但基本上,使用了相同的流程。
现在我们有了B200,下一代,功能更强大,性能更好。这是第一个上线的10万个B200集群。大事件。
更大的事件是,不仅仅是规模,还有微软与OpenAI的关系。所以,这个项目来自OpenAI和甲骨文之间的交易。这是微软第一次不是OpenAI的数据中心基础设施供应商。
这是一个非常重要的事件。OpenAI据称直接与甲骨文协商了此事。这似乎是OpenAI的一种观点,即微软的行动速度不够快,无法满足下一阶段规模扩张的需求。所以,OpenAI和微软之间在这件事上存在摩擦?据报道,微软获悉了这些谈判,所以他们正在关注。
但实际上,正如他们所说,他参与的程度相对较低,嗯,所以他们会得到批准,因为协议的性质是跨越OpenAI和OpenAI的。我不能出去与随机的云提供商协商交易,而无需微软的许可。所以,这似乎就是这里发生的事情。
微软,听着,我们不会为你建造这些,但是如果你想出去与甲骨文协商,那就去做吧。值得注意的是,甲骨文在某种程度上与微软竞争。有点奇怪。
嗯,是的,所以最初的建设将是大约5万个B200。所以,这些是...所以,B200,我之前说过。
B200...嗯,所以你现在有单独的GPU,你将这些GPU放在主板上,与CPU一起,然后将它们放在服务器机架中。这个单元被称为B200,对吧?所以,这是B200 GPU的数据中心版本。
这就是为这个项目提供动力的动力。嗯,它似乎将在明年第一季度在新的设施中上线。这很快,对吧?这部分是为了回应,比如埃隆·马斯克正在建造他的10万个8100集群,比任何人之前都更快。
目标是在2025年秋季将这些B200的数量扩展到10万个。这将是一件非常非常重要的事情。
嗯,看来似乎有一个吉瓦。到2026年中期,会有很多能量可用。就像你在谈论,你一个接一个地,这是什么意思?我的意思是,你正在为一个大城市供电,那样的能量。
嗯,所以这里有很多电力交易,嗯,在幕后,并且关键的能源公司,嗯,在能源方面有很多服务指标,这就是为什么它是一个关键的合作伙伴。他们也被称为关键能源公司。只是为了告诉你他们对能源的关注程度。
嗯,最初,他们使用天然气为数据中心供电,嗯,在石油开采过程中燃烧天然气以减少碳排放。现在,他们正在寻找其他类型的电力以更快地扩展,对吧?我们已经讨论了很长时间,我想一年多了,关于核能上线的需求,关于金融天然气想要发挥作用的需求。
但是,所有这些关键的电力需求都需要让一切顺利进行。我认为,这对整个超大规模场景来说意义重大。文章结尾还有一些有趣的传闻,其中关键能源公司的人说,我听说有十个规模较大的项目,比如十吉瓦规模的项目,像这样的建设规模,嗯,这就像一个非常、非常大的项目,你可以想象成那样。
事情可能在2026年左右上线,也许是2027年,具体取决于情况。但是,目前美国电力网中找不到十吉瓦的电力。
所以,这将非常有趣,这将涉及什么,这需要新的电力许可证,这不能很快完成。例如,即使是天然气,你也要花三年时间才能快速完成。
核电站需要十年以上的时间。所以,这确实是一个非常雄心勃勃的项目。如果事实证明会发生这种情况,这只是传闻。无论如何,故事中有很多有趣的信息和八卦,我认为。所以,就是这样,是的,完全正确。
细节有点模糊,所以并没有像OpenAI那样发布任何声明。据我所知,这些公司,包括关键能源公司和其他公司,发布了关于该项目的新闻稿,并讨论了OpenAI可能是最终受益者,甲骨文参与其中,微软的参与度可能没有你预期的那么高,这与OpenAI的关系非常密切。
当然,随着时间的推移,我们可能会了解更多信息,如果这是OpenAI拥有自己计算资源的下一个独立项目,那将是一件大事。这非常重要。接下来,回到正题。正如你提到的,珍妮,他们正试图在OpenAI之后获得资金,并获得资金。据报道,他们正在寻求高达400亿美元的估值。这里没有详细说明,但根据来自信息来源的报道,嗯,根据与公司领导人交谈的匿名现有投资者,目前正在进行早期阶段的谈判,讨论这种可能的估值。所以,这里的情况有点像飞速发展。是的,考虑到OpenAI在之前的融资中估值高达1500亿美元,这是有史以来私营初创企业最高的估值,所以,在这一点上,将他们的估值与OpenAI的估值进行比较,嗯,我感觉有点难以理解。
我认为这里真正有趣的主要指标之一是,如果他们最终获得400亿美元的估值,这将是他们当前营收的50倍。这高于OpenAI在之前的融资中获得的400亿美元估值,对吧?所以,如果Anthropic想要获得400亿美元的估值,他们必须提出的论点是,嗯,实际上,我们未来的潜力或价值的比例更大。
所以,我们有潜力比OpenAI发展得更快,在当前的环境中更具竞争力,尤其是在规模如此重要的领域,对吧?OpenAI的融资规模越大,从规模的角度来看,对他们的风险就越大,而与微软的合作也增加了风险。Anthropic与一些超大型公司,如亚马逊和谷歌,有着更密切的合作关系。
所以,嗯,OpenAI在财务状况上也更好,正如文章中所说,他们的目标是产生大约40亿美元的收入。嗯,这比Anthropic目前的预测高出5倍。嗯,这两家公司显然一直在不断地亏损,因为这是规模竞争的性质。
所以,这让你停下来思考。嗯,在Anthropic发布了3.5版新模型的背景下,他们过去并不想加剧人工智能能力的竞争。嗯,这让你不禁想,嗯,他们是否通常会将这些功能隐藏起来,OpenAI。
我当然在完整版模型1中也做过类似的事情,对吧?Anthropic是否被迫提前发布一些东西。这就是我们在这里看到的OpenAI正在做的事情。
哦,当预览版模型发布时,他们发布了它。你知道,所有这些警告都与3.5版新模型一起发布。我认为我们正在看到一些部署竞争,以多种不同的方式展开。
我恰好知道,这也在数据中心建设层面发生,人们为了获得这些新数据中心的访问权限而忽略了安全性和可靠性问题。如果你们关心美国国家安全,这确实是一个非常大的问题,因为这以多种方式影响着国家安全。嗯,但你看到了,我认为这次融资对Anthropic来说意义重大。
我认为这对Anthropic来说至关重要,他们需要保持足够的竞争力,对吧?他们不能将公司的一半用于支付下一次会议的费用,因为他们接下来要为下一代规模扩张支付什么费用?嗯,我认为这是一个非常重要的问题。这些新投资者将如何稀释他们的股份,以及附加的条件是什么?
等等。我认为,从更广泛的历史背景来看,思考这件事很有趣,在创建强大的模型的过程中,资金和美元是重要的,现在看来,他们不太可能将资金提供给任何新公司,而更有可能像Inflection这样的公司获得更多资金。早期,他们自己训练模型,在模型层级竞争中处于领先地位。现在,当参与者变得非常清晰时,是OpenAI、Anthropic、谷歌、Mistral等公司,似乎不是。
我乐于相信Mistral很快就会退出这场比赛,或者至少在未来几年内退出。这根本不可能。我的意思是,法国希望他们成为国家冠军。但归根结底,我认为我们正在谈论的是烧掉风险投资资金。
嗯,我认为Anthropic很有趣,即使他们没有像DeepMind和OpenAI那样与超大型公司紧密合作,他们的差异化实际上是人才,世界上最优秀的研发人员,在许多情况下,为了这个目的而离开OpenAI。我认为过去一年中我们看到的那些高调离职对Anthropic的前景来说意义重大。所以,我不会完全否定他们。
实际上,我的意思是,我站在Anthropic这边,对吧?我喜欢这家公司。不,我的意思是,我喜欢Anthropic这家公司,我希望他们成功。但这确实是一个重要的问题,安全生态系统中的许多人可能会对Anthropic面临的经济压力而被迫推进能力边界感到不满。所以,我们拭目以待。
我知道,在将这些信息融入公众意识方面,我可能有很多哲学观点。这可能不如OpenAI那样广为人知,对吧?它可能对OpenAI的影响要小得多。
Anthropic是一个大名。它在我们对人工智能新闻和人工智能应用的理解中,与我们认为的OpenAI处于同一水平。因为Anthropic是主要的计算平台,除了谷歌之外,还有其他非初创公司。
所以,竞争非常有趣,因为如果Anthropic无法生存,那么OpenAI这家公司可能会坚持下去。从这个意义上讲,如果Anthropic能够坚持下去,这将非常有趣,看看这个新基金会会发生什么。是的,我认为这与相关的故事有关。
关于OpenAI员工的感受,正如你提到的,我们收到了消息,长期政策研究员Miles Brundage离开了OpenAI。他是OpenAI的高级政策研究员,离开公司是为了从事非营利领域的研发和倡导工作。
这对我来说很有趣,因为Miles在人工智能领域一直是一个标志性人物,他表达了自己的观点,并参与了讨论。他在OpenAI工作了六年。他曾在牛津大学未来人类研究所担任研究员。
自2018年以来,他一直在OpenAI工作。从他的角色来看,他主要关注政策和安全问题。从这个意义上讲,再次看到有人,这次与安全问题没有直接关系,但与政策有关,离开OpenAI去做其他工作,这意义重大。
是的,我从与OpenAI的朋友交谈中了解到,许多人认为Miles是人工智能安全领域真正的信徒,也是公司内部的推动力量。所以,从最近的离职来看,这确实值得关注。你知道,我们已经看到过类似的情况。
还有其他人,我认识的人,他们也认为他非常重视安全问题,并且,嗯,从我听到的公司的信息来看,他非常认真地对待安全问题,然后是John Sherman,他在你离开后接管了超级对齐工作。他也在从事超级对齐工作。嗯,很多安全领域的优秀人才一直在离开,这对于许多人来说一直是一个担忧。但是,Miles写了一篇博文,解释了他离开的原因。
这很有趣,我认为你可以从字里行间看出原因,但他的主要观点是,他希望花更多时间处理影响整个人工智能行业的议题,并拥有更大的自由来发表自己的观点和独立思考。他确实承认OpenAI让他能够做很多事情,但他似乎对事情有自己的看法。他还担心,由于他在OpenAI的职位,人们不太可能认真对待他的观点,因为他有利益相关。
我认为,从外部来看,这是他以及其他人合理的想法。是的,你进入一家公司,你知道,你会有这些想法。所以,我们将拭目以待,看看他的立场是否会发生任何变化,无论是突然变化还是随着时间的推移,因为他离开OpenAI。嗯,他还特别对人工智能能力预测以及未来监管环境和安全评估感兴趣。嗯,但他确实表示,我认为OpenAI仍然是一个令人兴奋的地方,可以开展许多工作。
如果你想从字里行间理解,嗯,可能不是所有类型的。我认为你对安全和安全工作感兴趣。
所以,嗯,你离开是为了做这些事情。嗯,很有趣,嗯,他说,嗯,我很高兴看到团队继续增加对安全、文化和流程的投资。所以,有很多你可以从字里行间了解到的信息。无论如何,阅读这些离职声明总是很难。但是,至少你可以从这些信息中感受到,人们可能对我们之前看到的一些安全和政策叙述感到担忧,或者可能不是。
确实如此,我认为这里没有暗示,对吧?任何人的离开,尤其是像Miles Brundage这样资深的人,很可能都是为了离开高薪职位,在这种情况下,从事非营利工作。这让你对他的决定有一些了解。接下来,我们谈谈硬件和视频。
Blackwell GB200 AI服务器已准备好于12月大规模部署。所以,这就是那里的故事。所以,那里有一些供应链问题。我认为我们之前已经解决了关于缺陷的传闻。但现在看来,我们正朝着2024年第四季度前进,正如你所说,这当然是一次重要的AI计算能力的启动,并将在明年开始出现。是的。
尽管最初人们担心供应链瓶颈会减缓进展,但事实并非如此。最大的问题是他们使用的包装技术。卡兹尔,嗯,这就像一种新的方法,可以将所有必须协同工作才能使芯片正常工作的组件整合在一起。所以,你有你的逻辑,你有你的混合内存,以及如何将它们连接在一起?嗯,嗯,这被称为互连器。
无论如何,细节并不重要。我们希望能够讨论硬件问题,这些问题通常是由于讨论而产生的,嗯,现在已经解决了,现在我们正朝着2024年第四季度大规模生产两种不同版本的GB200芯片的方向发展。所以,嗯,最大的一个是Bianca板。嗯,这是GB200。
基本上,你有一个CPU,一个Grace Hopper CPU,然后你连接两个GB200 GPU。所有这些都位于同一块板上,然后两块板连接在一起。所以,总共有四个GPU,这些GPU可以插入服务器机架中的一个插槽。
然后,根据配置,你可能有8个或更多插槽。但是,嗯,所以这是一个非常重要的新闻,因为我们实际上看到它将在12月开始发货。并且有很多早期客户,包括微软、甲骨文和Meta。
但实际上,由于甲骨文也在其中,我想OpenAI可能直接获得它。所以,这很有趣。嗯,富士康也在参与其中。
我们稍后会详细讨论他们。但是,嗯,一旦你制造了芯片,就有人需要将芯片变成服务器。Rq,实际上,他们已经建立了所有这些基础设施。
这就是富士康的工作。所以,你有芯片制造、芯片封装,然后是富士康的工作,他们基本上只是构建完整的服务器,然后将它们运出。这就是现在正在做的事情。
这就是我们接下来要谈论的话题,富士康正在墨西哥建造一个工厂,用于GB200芯片的封装步骤。富士康,如果你不知道,是一家大型公司。
他们最出名的是苹果产品的关键制造商,负责组装iPhone。现在,他们将为GB200芯片做同样的事情。嗯,我说,我们将建造一个GB200芯片的工厂,它将在墨西哥。
是的,所以其中一个主要挑战。顺便说一句,这很有趣,因为你会在科技新闻中看到很多公司。我们都是科技新闻的低细节版本。
他们会说,是的,富士康负责建造GB200超级芯片。
所以,这就像,这是什么意思?我以为视频负责。然后我以为台积电负责,所以,是的,他们都负责。
嗯,嗯,视频设计了GPU。嗯,所以实际上,GB200芯片在台积电制造,然后它还需要与混合内存结合。
通常,你从现在开始获得它,它基本上是用于此目的的。但它可能是三星或其他公司。所以,混合内存和GPU逻辑结合在一起。
他们可能会在台湾或其他地方的包装设施收到包裹,特别是对于尖端产品,沿海地区主要在台湾。一旦你这样做,你就可以拥有一个随时可用的GPU,以及隐藏的内存。但是你仍然需要将其连接到台湾积体电路制造公司(TSMC)的CPU,无论如何,一些流程也会构建并创建。
这些基本上是包含运行芯片所需所有其他基础设施的电路板。顺便说一句,这包括冷却,例如液冷。
因此,富士康不会这样做。这是下一步。所以当他们说富士康正在建造GPT超级芯片时,他们指的是他们从例如台湾积体电路制造公司(TSMC)获得的封装芯片,然后将它们与所有冷却和能源供应装置结合起来,然后将它们封装到服务器中,这就是他们所做的。这就是这里发生的事情。这是一个大问题,对吗?这是一个非常非常大的问题。这可能是一个热门话题,我完全掌握了它。
放弃我。
我认为我们旨在取悦,但我们希望在这场节目中保持准确性,嗯,所以它将成为全球最大的视频、GPT和超级芯片捆绑制造设施,谢谢你的评论。
很好。该部分的最后一则故事是,XAI正在推出API。XAI一直在开发Rock,这是一个与ChatGPT和密切竞争的项目一段时间了。我们最近也接触过Rock。到目前为止,使用Rock的唯一方法是通过X,通过Twitter。
现在,他们正在做与Charge A、与OpenAI和Prompt做同样的事情,即为其他组织提供使用该工具的途径,通过API。因此,该API将更好地支持Rock,并将以每百万输入令牌5美元,每百万输出令牌15美元的价格提供。它将具有支持函数调用等功能,我认为这将使XAI更直接地与OpenAI和Anthropic竞争。是的,这发生了。
真的更快。我简直不敢相信XAI能够如此迅速地完成这项工作,并且与你想要构建那个疯狂集群的速度一致,嗯,在几个月内,构建速度据称从端到端大约需要三周才能执行构建,真是疯狂的事情,嗯,尽管它还没有上线,但文档中暗示了视觉模型。
它们可以分析文本和图像。因此,预计很快也会上线。我真的很想知道如果XAI API最终整合了代理功能,并且它与X平台原生集成,会发生什么样的完全混乱情况,因为基本上没有,你知道,没有,怎么说呢,它们紧密集成,就像实际情况中的盒子情况一样,这将非常有趣。
他们希望通过API能够更好地了解至少那些机器人,但有点难以调用,嗯,所以存在一些不确定性,关于这个API实际上将使用哪个模型。所以不清楚它是否被称为Rock Beta,对吗?但它可能是Rock,它也可能是Growth Mini。那里有很多不确定性,但我猜我们很快就会弄清楚。
作为比较,在GPT-4中,每百万输入令牌需要2.5美元,每百万令牌需要10美元。所以成本更低,嗯,这个API做得更好。我认为不是,可能不是更好。
我的意思是,我们没有完全可靠的比较,但我认为对于大多数人来说,它仍然不是首选,或者至少在Rock的强大功能方面不是首选。因此,如果Rock无法在定价方面具有竞争力,我不会看到很多人会切换。绝对。
根据用例,可能存在其优势,这是一个很好的观点,价格将面临挑战。
转到项目和开源部分。我们从Intellect开始,这是第一个分布式100亿参数AI模型训练项目。这有点老了,但我认为杰里米,这是你个人正在关注的一个故事,我相信你对此很兴奋。所以该项目构建在开源的DeepMind分布式低通信道方法之上,用于训练,你知道,这告诉我们,训练数十亿参数模型具有挑战性,某种程度上,扩展的瓶颈在于能够训练像这样的庞大模型。目前,像OpenAI这样的公司只能通过访问巨大的数据中心和大量的计算资源来做到这一点。他们使用复杂的架构来组合所有计算资源,并并行训练,嗯,能够在多个不同的分离区域中进行分布式训练,而不是在一个计算源中,这将允许其他组织和公司,没有那么多的集中控制,也可以进行训练,所以杰里米,这是一个很好的总结。我相信你有时间来谈谈,所以请你从这里继续。
哦,是的,我的意思是,首先,我要说,对于任何担心AI政策试图控制这些模型的人来说,这就像一场噩梦。这是我们第一次看到以这种分布式方式训练的100亿参数规模模型。
这就是问题所在,对吗?如果你知道你有一个地方,我不知道,比如东海岸,然后在墨西哥某个地方,能够在所有这些地方进行训练,这将更加难以控制。这并不是这里正在发生的事情,但嗯,但我们正在朝着那个方向前进。
嗯,所以以前,你只有10亿参数模型。所以我们已经完成了,这就像一个微小的扩展,嗯,要观察100亿。所以,嗯,我认为我们已经讨论过这个地方。
这可能是DeepMind用于分布式训练的策略。嗯,你可以想象一下,你有一堆本地连接不太好的计算集群,在训练期间,你基本上将模型权重传递给所有不同的集群。它们将在本地拥有的数据批次上进行训练。
一旦他们完成这一轮训练,让我们说实际上可能会有很多步骤。但无论如何,嗯,他们有一个新的模型,它与旧模型略有不同。参数值存在差异,让我们说它被称为局部梯度。
它不是实际的完整梯度,而是该集群中本地计算的梯度。嗯,然后他们将梯度传回某个中央节点,在那里你对这些梯度进行平均或汇总,以更新整体模型,然后再次将更新发送下去。这里所有的技巧都在于弄清楚如何尽可能多地使用节点上的计算资源,而无需定期与中央节点进行通信,因为这实际上是导致你遇到瓶颈的原因。
当你尝试这些分布式训练方案时,好处是,你不需要将训练数据发送到中央节点。所以,你可以在一定程度上以隐私保护的方式做到这一点。
从某种意义上说,他们只是共享权重更新,而不是数据本身。这很有趣,嗯,所以他们基本上加倍使用这个本地策略,来自DeepMind。本质上,这只是这个方案的一个版本,你利用本地更新的任何特殊优化来使用Adam,并且他们使用Nesterov动量来进行全局更新。
这很重要,因为无论如何,这是一种方法,因为你获得的更新频率较低但规模较大,你需要一种方法来保持训练的稳定性。这就是为什么他们使用Nesterov动量,这是一种更,正如它暗示的那样,动量,嗯,更平滑地训练更高层次的方法。Adam具有这样的功能,我应该说,无论如何,嗯,非常令人印象深刻。
设置这个框架,他们称之为Prime,涉及大量细节工作,嗯,所有类型的动态启动和关闭,他们弄清楚如何灵活地获得计算资源,例如添加或删除计算节点。所以,假设你有一个新的GPU上线并希望为训练过程中的集群做出贡献。你如何启动它,然后在它不再可用时如何关闭它?它实际上是设计用于支持非常动态、非常混乱的训练方案。
他们还拥有各种各样的东西,例如在不同的检查点进行检查,例如以这种非常有条理的方式保存模型的不同检查点,嗯,这很有趣,非常漂亮,令人印象深刻,细节。底线是这种训练方案对政策和开源具有巨大的影响。这将使大规模训练开源模型变得更加容易,嗯,这使得人们更容易在各种不同的异构集群中获取资源,包括计算资源。
完全正确。所以,这意味着你可以组合来自全球各地的计算资源,并拥有地理位置分散的集群协同工作,你可以想象,我猜,开源社区,他们正在尽可能努力地拥有一个巨大的跨,完成所有工作。有趣的是,他们深入细节,他们还链接到一个仪表板,你可以在那里看到,实际上,他们有一个贡献者排行榜,用于计算资源。所以他们有,你知道,排名第一的是RT AI,贡献了288100小时,排名第五的是Hugging Face,贡献了2826小时。
我认为。
他们排名第16位,在360位中。但你知道,概念上,任何人都可以加入并贡献小时数,对吗?你甚至可以查看。有一个训练进度条,几乎达到标记,即,你知道,在1万亿令牌中,进度为23.21%。所以计划是,你知道,你可以让很多人投入资金和资源来训练,比如说,一个1000亿参数模型,否则,当然,你必须像OpenAI那样拥有数百万美元才能尝试。
做一件事,我会说,这种全球分布式训练,使用这样的方案,目前还不太可能,嗯,所以如果你看看像谷歌和Meta这样的大型公司,当他们跨多个集群进行训练时,即使这些集群,它们往往也在地理位置上非常接近,比如彼此相距不超过20英里。
嗯,嗯,这存在各种延迟问题,目前这是一个开放性问题。所以,嗯,存在限制,但嗯,在那些不是的地方,这个方案只是在那些地方接受延迟,这非常有趣,而且相当混乱。它本应如此,这是开源生态系统的一个特征。所以,无论如何,这就是那个。
接下来,我们有一个非常重要的故事。他们发布了大量新内容,8个新的AI研究成果。所以模型、数据集和工具。
其中一个主要内容是Segment Anything模型的升级,现在是2.1,但还有很多其他内容。其中之一是Meta AI Llama,一个集成了语音和文本的开源语言模型,这将使语音生成更自然。他们还提供了一个层跳跃和端到端解决方案,可以加快AI语言模型的生成时间。
他们有Salsa,以及针对基于CLIP的攻击的新代码,用于图形系统语言,一个轻量级的代码库,用于大规模训练语言模型,嗯,还有很多内容。还有3个内容,我想详细介绍每个内容。嗯,但嗯,这里的总结是他们将所有这些内容捆绑在一起,有一个单一的成本效益,其中一些内容,例如Segment Anything 2.1,非常重要,它可以用于各种不同的应用,并产生重大影响。
也许我们应该重点介绍的是一个自我评估工具,这是一种生成合成偏好数据的方法,用于训练奖励模型,从而避免依赖人工注释,这对于能够进行HF非常重要。通过更好的规模能力,增强了能力。但有趣的是,嗯,在网络安全、多重对齐和各个领域,看到了各种不同的方面。
嗯,你知道,多重对齐,嗯,各个领域。Meta正在做出贡献。是的,这有点。
有趣的是,他们决定将所有这些内容捆绑在一起。这使得报告变得更加困难,嗯,我认为这个自我评估工具至少对我来说是最突出的,嗯,所以他们使用NLMs来设置推理轨迹,嗯,一段时间以来,他们称之为迭代自我改进方案,嗯,这是我们经常看到的,其中一个关键用途是OpenAI的Anthropic的Sn3.5新版本,在他们的发布中被标记为,嘿,你实际上可以使用这些数据来训练模型,对吗?对不起,来训练代理模型,以及类似的推测,嗯,我认为相当准确。
OpenAI的模型正在用于训练或用于训练,嗯,Orion模型,它即将发布。我们可能会在不久的将来发布。嗯,以及在9月份进行的训练,人们认为,嗯,使用这些增量代理模型来跟踪推理轨迹,这些轨迹可以用于训练更好的代理模型,你可以看到这如何让你进入一个起飞场景。
嗯,这非常类似于当前的调用方式。嗯,嗯,有趣的是,Meta朝着这个方向发展。他们似乎是最后一家没有听说过进行真正深入代理工作的大公司,虽然我猜,嗯,DeepMind,我们还没有听说过类似于Agent 1的东西。但从表面上看,我相信他们也在开发。
说到DeepMind,接下来是另一则故事。他们正在开源他们的AI文本水印解决方案,即SID。所以你以前讨论过合成,它现在已集成到各种框架中,一篇关于SID的论文已发表在《自然》杂志上。
这是自然杂志上发表的又一篇文章,他们表示分析了大约2000万水印和无水印聊天回复的分数,发现用户在质量和有用性方面没有注意到两者之间的差异。这意味着你可以应用水印,嗯,在文本中留下这种看不见的痕迹,这将使你能够知道它是否来自OpenAI,而不会改变用户体验。你知道,开源解决方案非常值得注意,因为没有标准化的LM输出水印技术,嗯,也许这可以被其他组织采用。
是的,它确实存在局限性。我的意思是,这就像,特别是对于文本生成,我认为这是一个我们必须认识到的关键问题。
因此,如果你写得足够短,就没有机会插入这些标记,这些标记表明这是AI生成的。他们发现,对于文本生成,他们的系统对某些类型的篡改非常有抵抗力。
他们讨论了裁剪文本和编辑或重写文本,但是当使用AI生成的文本时,对不起,当AI生成文本被重写或从一种语言翻译成另一种语言时,你突然失去了这种能力。所以这似乎是一个相当简单的策略来规避这个问题。嗯,你知道,这并不令人惊讶,对吗?就像有太多通用的工具。
你可以让它们相互作用,消除水印,以这种方式,所以即使只是转到另一个工具,并说,例如,你能重写这个吗?你知道,转到谷歌产品以获得高质量文本,然后你就像,我现在可以使用低质量模型来本地重写内容,以消除统计水印。所以,你知道,我认为这是很好的内容。毫无疑问,嗯,但我认为这远非完美,我认为DeepMind显然没有认为这只是2024年事实的一部分,你无法。
期望文本水印像其他水印一样工作。实际上,它所做的只是增加了尝试将内容从AI复制到其他地方的难度,对吗?所以如果你从OpenAI复制粘贴到其他地方,你实际上可以检查水印。
如果你不尝试做一些难以置信的事情,现在可以检查它是否来自OpenAI。所以这绝对有用。而且,看到某种标准或一般来说,任何LM输出都具有某种水印将非常棒。
(00:00:00) 开场/闲聊 (00:03:07) 响应听众评论/更正 (00:05:13) 赞助商阅读 工具和应用 (00:06:22) Anthropic的最新AI更新可以独立使用计算机 (00:18:09) AI视频初创公司Genmo推出了Mochi 1,这是一个开源的Runway、Kling等竞争对手 (00:20:37) Canva拥有一个闪亮的新文本到图像生成器 (00:23:35) Canva Beta为Ideogram用户带来了Remix、Extend和Magic Fill (00:26:16) StabilityAI发布了Stable Diffusion 3.5 (00:28:27) 将代理工作流程引入Inflection以用于企业
应用和业务 (00:32:35) Crusoe的340亿美元合资企业将建立一个AI数据中心园区,最多可配备10万块GPU (00:39:08) 据报道,Anthropic正在进行早期融资谈判,估值高达400亿美元 (00:45:47) 长期政策研究员迈尔斯·布伦达奇离开OpenAI (00:49:53) NVIDIA的Blackwell GB200 AI服务器将于12月准备大规模部署 (00:52:41) 富士康将在墨西哥建立英伟达超级芯片工厂,高管表示 (00:55:27) xAI,埃隆·马斯克的AI初创公司,推出了一个API
项目和开源 (00:58:32) INTELLECT-1:第一个分散式100亿参数AI模型训练 (01:06:34) Meta FAIR发布了八个新的AI研究成果——模型、数据集和工具,以激励AI社区 (01:10:02) Google DeepMind正在开源其AI文本水印
研究和进步 (01:13:21) OpenAI研究人员开发出一种新模型,将媒体生成速度提高了50倍 (01:17:54) 目前有多少AI计算能力,以及谁拥有它? (01:25:28) 奖励进展:扩展用于LLM推理的自动化流程验证器 (01:33:30) 长上下文检索增强生成的推理扩展
政策和安全 (01:41:50) 宣布我们更新的负责任扩展政策 (01:48:52) Anthropic正在测试AI的破坏能力 (01:56:30) 据报道,OpenAI要求美国批准能耗巨大的5GW数据中心 (02:00:05) 美国调查台积电与华为的交易 (02:03:03) TikTok母公司字节跳动聘请台积电制造其自己的AI GPU,以摆脱对英伟达的依赖——据报道,该公司已花费超过20亿美元购买英伟达AI GPU
(02:06:37) 节目结束
(0) 所以,您可以检查一下,如果它假设没有好的温度,并且您可以验证它是否属于AI或其他内容,那么您可以进行研究和投资,并从OpenAI的一篇论文开始。它介绍了一种将生成速度提高50倍的新技术。所以,这并不是他们正在做的事情的精确描述。他们正在寻找的是能够解开和优化一致性模型训练的方法。
因此,对于生成图像的扩散模型,这些工作当然很重要,但是我们遇到的问题是,扩散是一个多步骤过程,用于生成图像或您正在生成的任何内容。这是一个迭代的噪声过程,因此这使得它难以实现快速生成。一致性模型是一种已经存在一段时间的一般技术,它可以实现这一点。因此,您可以使用非常少的迭代(最多一到两次迭代)生成高质量的内容。这篇论文的标题是“简化、稳定和扩展连续时间一致性模型”。
它并没有引入一种新的方法,而是在于将一些想法组合在一起,以便更容易地大规模使用一致性模型。因此,结果是能够以15亿参数的规模训练连续时间一致性模型,并且能够输出高质量图像,这些图像在与扩散模型的质量非常接近的同时,速度更快。文章标题是“十倍、五十倍更快”。
所以,这种推动研究的努力已经持续了一段时间。我相信我们过去曾报道过一致性模型,它是提高图像生成速度的一种非常广泛的方法。而这里,OpenAI正在为这种努力做出贡献。
我认为这很重要,因为15亿参数的模型可以在一台100G的GPU上生成一个样本,而不是8100。所以,我们真的开始看到,如果没有50倍的提升,这将完全无法实现。这将是一个非常重要的工业进步,实际上,我们开始进入使用这种规模的消费级领域,这非常了不起。
您还可以从这里推断出一些内容,例如,15亿参数、100G GPU和每秒生成一个图像。视频生成通常每秒大约有30帧(对于高质量视频)。我们已经能够在单块GPU上实现每秒10帧。这很有趣。
显然,视频生成模型比图像生成模型需要更多的一致性,但我们已经开始进入一个区域,您可以在每秒观看一秒的生成视频,因此您可以有效地流式传输AI生成的视频,并且任何进一步的计算都可以用于进一步优化,例如,您可以使用它们来分析生物反馈,例如,您的瞳孔是否在放大,您与生成内容的互动程度如何。您很快就会进入一个空间,您正在观看实时适应您生物生理反应的视频。
这是一个可能非常有趣,但也可能非常令人担忧的领域,例如,视频成瘾。总之,我认为所有这些都朝着一个方向发展,我们最终会看到它是什么样子。这次50倍的提升是一个非常重要的策略,它将许多现有技术结合在一起,并找出工程方面的问题,这通常是真正的问题所在。您经常会看到一些小规模的论文,但真正的证明在于实施和部署。这非常值得关注。
另一个值得关注的故事,这与我们之前谈论过的Epic AI的研究有关,主要与他们关于参考IBT的训练规模研究有关。
Epic AI的这份新报告涵盖了机器学习硬件,并追踪了从2008年开始使用(如GTX)到今天(如AMD Instinct MI300和NVIDIA GB200)的训练芯片或硬件。Epic AI提供了一个图表,显示了性能随时间的提升。
平均而言,机器学习硬件的性能大约提高了1.3倍,如果从2008年到2024年计算,每2.8年性能就会翻倍。所有相关的指标,例如每美元性能,每年提高了约30%,机器学习硬件的能效每年提高了约50%。所以,吉米,你在这份报告中发现了什么有趣的内容?
是的,我认为谁拥有什么资源的分解非常有趣。
这只是看到所有内容都集中在GPU上,除了谷歌。谷歌拥有大量自己的TPU。他们已经设计了很长时间。
他们很早就开始使用液冷技术,甚至在我开始使用液冷技术之前。总之,谷歌的资源包括大量GPU和他们自己的TPU,这为他们提供了许多优势。他们能够自己设计,这非常困难。有时听起来很简单,但实际上,仅仅为了启动一个设计项目,就需要数百万美元。我们看到很多初创公司在尝试这样做时失败了。
另一个方面是这些资源在不同主要参与者之间的分配情况。基本上,有四家主要参与者拥有几乎所有高度集中的AI硬件资源。谷歌、微软(包括OpenAI和微软),以及亚马逊。
亚马逊排在最后。在这些公司中,前三家公司并不令人惊讶,因为亚马逊在认识到AGI的潜在价值方面一直非常落后。他们内部组建了一个名为“AGI团队”的团队,但我对他们的努力持谨慎态度。如果他们能够迅速取得进展,那将是好事,但目前他们仍然在为进入游戏而付出代价。
(17) (18) (19) (20) (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) (31) (32) (33) (34) (35) (36) (37) (38) (39) (40) (41) (42) (43) (44)
看起来很像所有模型的alpha版本,您正在看到蒙特卡洛研究,它会探索下一步的可能步骤,探索专业。我认为这是这里发生的重要组成部分。众所周知,强化学习在其中发挥作用。显然,开端就对此坦诚相待。我怀疑该方案至少在数量上是这样的。
是的,我认为这是一个很好的比较点,对吧?从这个意义上说,一般来说,在所有方面,以及我认为对于第一次计算机而言,其范式本质上是给出推理步骤,以及每种类型的步骤输出,一些思考片段,以及最终以基于所有片段组合的解决方案结束。
因此,从这个意义上讲,它类似于简单的AlphaGo,您知道,您会向前思考一步、两步、三步,而在简单的Alpaca中,您将训练能够,嗯,我想对于每一步,其影响将如何影响最终结果。因此,当然,必须在其中进行一些组合。好的。
这次还有一个关于推理时间缩放的故事。这篇论文是关于长上下文检索增强生成的推理缩放,所以我们最近一直在谈论它,但它很重要。我认为,当您与企业交谈时,当您观察公司时,您在很多方面都在花钱,这是一种可信赖的AI增强生成,以便能够了解您拥有的文档或用户正在执行的操作的上下文,使用和优化这种AI增强生成非常重要。
因此,本文特别关注长上下文AI增强生成,并探索是否可以通过推理时间计算来提高AI增强生成的性能,因此它回答了AI增强生成如何受益于推理时间计算的缩放,以及是否可以预测给定预算的最佳推理时间计算分配。正如您可能猜到的那样,他们实际上确实对这些问题有一些答案,他们表明,在这些长上下文LLM上扩展推理时间计算,与标准的简单AI增强生成相比,基准测试可以提高多达60%的收益。
我认为这又是另一种让我感到害怕的推理缩放。推理缩放。这可能是目前正在进行的最重要的研究方向,至少在公开可见的方面。即使是AI增强生成,我认为它不是未来,但我们仍然在学习很多关于推理时间计算如何在此处缩放的有趣内容。
因此,通常情况下,当您想要扩展AI增强生成的推理时间计算时,您会怎么做?再次,这是关于拥有一个能够访问数据库以提取相关文档以告知其输出,而不是仅仅输出输出的模型的想法。通常,扩展此方法的方法是让模型调用更多文档。
在上下文窗口中放置更多标记,这些标记只是更多文档的文本。问题是,尽管它可能很快导致早期性能提升,但您的文档实际上可能比增加价值更多地增加上下文窗口中的噪声,因此您的性能实际上可能会在某个阈值以上下降。我们用来解决此问题的策略之一是基于演示的AI增强生成。
所以基本上,这是这样。如果我们可以在我的上下文窗口中放置更多文档,那么我可以做的是包含一些成功检索和生成任务的示例,这些任务在上下文中执行。这基本上只是我们之前见过的相同的老式少量学习策略。向您的模型展示您想要的输出类型,您希望考虑馈送到其中的文档的方式。
然后,将所有这些放入上下文中,实际上向其展示其他AI增强生成查询以及响应以及用于驱动这些响应的文档的完整工作示例,希望通过包含更多这些少量示例,您现在正在填充更多标记,这些标记提供了有关您想要的响应类型的信息。也许这会更好,您确实会看到一些缩放,但它面临类似的问题,即您只能从该过程中获得如此多的额外信息。因此,他们建议这种新方法是,除了增加上下文窗口中的文档数量之外,除了增加此类AI增强生成任务的示例数量之外,也许我们可以找到一种方法来获取我们的输入查询,并假设它是一个相当复杂的查询。
我不知道。我可以对整个文档集进行一些分析,将其分解为更简单的子查询,并使用交错检索来回答这些查询。所以它有点像这样。
代理以复杂任务的方式,可以将其分解为可执行的子任务,除了,实际上,这正是发生的事情,对吧?这是一种代理,其操作空间仅限于检索。代理实际上只能做这些。
但是,您仍然将分解成更小的子组件的工作外包给代理。通过这种迭代方式,您可以构建一个具有交错文档检索的推理链,它弥合了这些多跳查询的组合差距,这些查询具有许多不同的步骤。这允许您的计算机,您的计算机,允许您的模型将更多浮点运算投入到理解问题中,然后再生成最终输出。
这会让您拥有三个不同的参数,现在可以进行缩放,对吧?我们可以考虑缩放文档数量。我们可以考虑缩放上下文示例的数量,就像我们谈论的少量学习内容一样。
然后,我们可以考虑缩放这些推理步骤的数量,允许模型处理或传递问题的程度。事实证明,如果您一起缩放这三件事,那么随着计算扩展的缩放,您将获得AI增强生成性能的几乎线性改进,以及对改进的积极影响。就像我们看到的训练缩放定律和其他推理缩放定律一样。
我认为这很有趣,对吧?因为它以一种有点混乱的方式看待缩放定律。我们有这三种不同的东西,我们可以围绕它们进行操作,以一种巧妙的方式,在某种程度上重现相同的范式前沿。这就像在对数空间中绘制性能改进的直线。我认为这很有趣。再次,这暗示着缩放定律几乎是物理基本原理,即如果您找到一种一致且可靠的方法将计算投入到解决问题中,您将发现以幂律形式出现的可预测模式,以这些缩放定律的形式。因此,这是一篇非常有趣的论文,我认为它再次支持缩放定律的稳健性,即使它适用于像AI增强生成这样的领域,只要您以正确的方式构建问题并从正确的角度看待它。
我认为这很有趣,对吧?缩放在这里也很有趣。因此,他们可以将所有内容组合成一个指标,即有效上下文长度。
所以,我认为这是基本的,您的输入有多少?您正在处理多少文本?正如您可能想象的那样,如果您有更多示例,如果您正在清除文档,如果您正在进行更多迭代,所有这些都会导致您的输入中包含更多文本,然后再输出。
因此,根据经验观察到的定律,您看到的是,随着您将上下文长度从 1000 缩放至 10000,再到 100 万,结合这些单独的测试,您会看到性能的改进,这在某种程度上是正常的。尽管我会说,查看该图,您知道,有很多平均值和正在进行的事情,以获得经验观察结果。因此,它不像复杂性的正常缩放定律那样优雅,这在语言上更清晰。是的,就像什么。
他们正在做的是在提供商空间中进行某种缩放,他们正在做。因此,您有这三件事可以进行缩放,他们尝试对这三件事进行所有不同的组合。然后,对于每个有效上下文长度,他们查看性能最佳的组合。如果您只查看这些,您会得到相当线性的东西,所以是的,这就是我所说的那种混乱,它非常基于经验,但我认为它是一条直线,能力范式前沿在对数空间中呈现出有趣的直线,因此这是似乎出现的稳健真理。
是的,对。好的。政策和安全。我们从Anthropic 开始,他们宣布更新了他们的负责任的缩放策略,您在本集的几次讨论中都提到了这一点。
因此,我们的主题已经拥有这种负责任的缩放策略一段时间了,他们说,您知道,我们将以确保安全并尽量减少风险的方式移动前沿。在这里,他们引入了更多细微差别。可以说,他们采用了一种更灵活的方法来管理AI风险,同时保持仅训练和部署具有充分安全措施的模型的承诺。因此,此更新策略包括新的功能、新的方法、改进的模型能力和安全措施评估流程以及新的治理措施和外部输入。
因此,有一些事情让我感到惊讶。首先,他们包含了一些关于AI安全级别阈值的信息,抱歉,其中一个。因此,Anthropic 采用基于AI安全级别的所有方法。
这些方法直接受到生物安全实验室的启发,这些实验室具有生物安全级别 1、生物安全级别 2 和生物安全级别 3 区域。因此,他们所做的是设定了一系列能力阈值,他们说,如果达到此能力阈值,则您的NASL 为 2,这意味着我们将应用这些缓解策略。他们在这里所做的是告诉我们更多关于其级别 3 的信息。
这基本上可以认为是类似于UKWMD。风险开始成为一个问题。这就是级别 3 的想法,基本概念。
他们说,一旦到达那里,我们将引入访问控制,例如允许对安全措施进行细微调整的分层访问系统。
如果您要进入并调整,例如,您知道,调整器、微调、任何对齐部分,您需要特殊访问权限,并且他们希望建立一个整个系统,以便一个人可以进入并进行调整,这很有意义。还有实时提示完成分类器。顺便说一句,这些东西几乎肯定他们现在已经在做了。
他们只是明确表示,一旦进入该领域,这将是组合的一部分,然后是事后越狱检测。因此,一旦发现越狱,就能够快速修复它,并且还能够对系统进行实时监控。因此,就他们将在级别 3 中做的事情而言,没有什么令人惊讶的。
我认为这里最有趣的事情之一是缺少关于级别 4 的更新。现在,这是一个内部人士的观点,但目前实验室中普遍存在困惑,无需点名道姓,但实验室中普遍存在关于如何制定安全和安全协议的困惑,即使您拥有能够自我执行研究并进行自主研究的模型,我们离这个目标并不遥远。事实上,在 3.5 版本中,您知道,他们已经能够执行一些基本的研发任务,我们告诉研究人员,至少从我的角度来看,在接下来的几个月里,会写更多关于此内容。
但底线是,我们离它并不遥远,并且实际上真的没有计划。我认为随着Anthropic 每季度没有发布一些具体的、真正令人满意的关于整个问题的计划,这一点变得越来越明显。我认为这实际上是Anthropic 的一种值得称赞的做法,他们没有试图向公众隐瞒,而只是说,嘿,这些是我们的缓解措施。
这些将很好。不用担心。他们基本上隐含地承认这是一个未解决的问题。我们没有从其他实验室看到相同的情况,并且最好能明确这些阈值是什么,以及如果我们对策略感到困惑,或者如果我们没有必要的技术来保护这些模型,会发生什么。
级别 4 不在更新列表中,这并非巧合,我认为应该在某种程度上进行解读,但是的,另一件事是他们分享了需要更新安全措施的两种不同情况,其中一种是自主研发。因此,如果一个模型达到该标准,他们说,这将是其当前配置中级别 3 之上的额外内容。然后第二个是七个。
因此,化学、生物、放射和核风险,如果模型能够完全理解,并且有人拥有基本的科技背景,能够创建或部署这些武器,那么我们需要加强安全措施。这种基本的科技背景的警告是相关的,因为我们实际上已经看到模型正在做这些事情。如果您有APH。
D. 开放,我发布了一份报告,我们之前谈论过。即使是今天的模型,即使是昨天的模型,也可能显着提高拥有博士学位的人设计生物武器或取得进展的可能性。
因此,我认为设定这个标准是正确的。如果您仅拥有化学或其他方面的基本知识,并且能够利用这些东西取得进展,那么这将是一个有意义的转变。
是的。是的。总而言之,我认为这是总结,我认为这是 2023 年 9 月发布的初始策略声明。我认为这可能只是因为一段时间过去了,他们找到了各种迭代和改进缩放策略的方法。
他们以博客文章的形式总结了更新内容,但还链接到一个包含非常详细内容的 PDF 文件,例如关于他们计划如何安全地执行这些操作的 22 页非常具体的细节。因此,看到他们继续关注这一点很好。并且很明显,这不仅仅是某种消费性知识,而且还在积极实践中。
实际上,关于Anthropic 的另一个故事是他们正在测试AI的破坏能力。他们发布了一些针对前沿模型的子变体研究,并研究了四种不同的破坏策略。人类决策破坏、代码破坏、沙袋和破坏监督。当然,想法是确保AI无法找到破坏规则或规章的方法,对吧?因此,如果您能破坏限制、破坏人类监督,那么您就可以做一些我们不希望您做的事情。从对这些不同类型的各种测试中得出的主要结论是,当前模型在这些能力方面风险较低。但这确实警告说,随着当前模型的持续改进,我们需要更现实的评估和缓解措施。
实际上,这里有一个有趣的引语,我们认为在不久的将来,在重要组织中广泛开发功能强大且足够强大的模型可能会导致灾难性后果。我认为这很有趣。
当然,不久的将来与Anthropic 设定的大约三年时间线以及可能更短的时间线相符,这实际上是他们正在设计适用于AGI 级别的系统,以检测诸如破坏组织行动和隐藏行为之类的行为,直到部署。如果您与那些担心事件的人交谈,那些从事评估工作的人,例如前沿价值组织,那么Apollo 实际上是一个很好的例子。我们之前谈论过他们的研究。
人们非常担心接下来的一步以及之后的一步,因为我们开始遇到这些影响问题。现在,您在这里谈论的是如何评估一个可能比我们更聪明的模型,它可能比我们拥有更好的情况意识等等。您如何判断该模型是否试图隐瞒能力,不向我们展示它具有我们应该在部署之前消除的某些危险能力?对吧?总的来说,让一个人向您展示他们不知道如何做某事非常困难,因为他们总是可以假装不知道如何做某事,例如,我知道如何开车,但我可以假装不知道如何开车。
那么,你如何在模型主动试图隐藏这一点的情况下,解决这个问题?现在他们的解决方案是,今天的模型可能能够做一些事情。随着模型的改进,它们可能能够做更多的事情,但今天的模型还不能隐藏它们能够做的事情,并且它们没有倾向于隐藏这些事情,随着时间的推移,像权力追求之类的因素会越来越重要,并支配它们的指示,以及类似事情。
1 如果你查看系统卡的开端,你会发现非常不高兴的权力追求行为,这些行为在那里显露出来,并且存在各种情况,其中打开眼睛的人会想要控制机器上的本地软件环境。并且在某些情况下,故意地,像高,这个事实正在做某些事情。所以这根本不像下一个节奏。
2 你将不得不开始思考这类事情。因此,他们在这里进行的实验侧重于非法能力,但如果模型主动试图向你发送信息,你就无法做到这一点。你知道,这里的想法是,如果我们突然看到能力消失了,对吧?大概如果所有模型都达到一定规模,能够做某事,现在它们却做不到,这可能有点退步。
3 所以这里发生了一些事情,但他们做了各种实验。嗯,在一种情况下,他们面临一个复杂的商业决策,其中包含大量背景信息,他们要求人类参与者在模型辅助下做出正确的商业决策,然后他们告诉模型引导人类走向错误的答案,对吧?所以这只是一个能力评估。
4 他们明确地告诉模型去做坏事。这不像模型会自发地试图破坏人类。嗯,他们所有的实验大体上都采取这种形式,即他们明确要求模型做一些坏事,并希望发现,好的,我可以在我们到达模型既能做某事又能隐藏它们能做某事之前做到这一点。排序计量策略。
5 无论如何,对吧?是的,完全正确。这篇论文长达六十页,非常详细地描述了实验。
6 有很多有趣的细节,你无法深入解释,只是为了说明一点,所以他们评估了四类任务,人类决策、破坏。我们每个人都带着一件东西。
7 那天我试图做坏事,所以像偷走人类做出错误的决定,而不会显得可疑。当人类决策代码在内部将错误插入到冷库中时,沙袋就是假装没有注意到危险的逃逸测试,以及破坏监督,即未检测到其他模型的行为。然后他们测试这些坏事。
8 他们是否能够绕过某种监督,所以对于代码破坏,他的人类代码审查和审计。所以他们是否能够做坏事而不会被监督抓住?嗯,对于沙袋,它的资本评估等事情。正如你所说,他们故意尝试引发这些行为。我发现,即使被指示这样做,模型也不太有效,不像你秘密地做坏事,我想这对我们来说是好事。但是,你知道,我们很可能一直在关注任何可能具有误导性或秘密地具有负面影响的模型。
9 是的,我认为在揭示能力、数据方面,重点是嗯,你说的对,就像六十页的论文。有一个日志。嗯,他们发现,即使是当前的模型,在破坏任务中也具有相当不错的表现,尽管它们通常不会完全成功。
10 例如,他们有这个人类操纵评估,我们实际上刚刚谈论过,对吧?就像模型试图引导人类做出错误的决定,基于大量文本,这太大了,无法浏览。但这可能是这些模型在不久的将来可能被使用的场景,对吧?
11 就像人类无法在五分钟内阅读三百页的东西,但我们必须根据这些材料做出决定。他们能够成功地引导人类做出错误的决定,五十六% 的时间,嗯,是的,所以这是一个相当不错的指标。在破坏测试中,模型表明它们可以插入微妙的错误和漏洞,有时这些错误和漏洞可能无法被检测到,并且在相同的评估中表明,模型可以在测试期间隐藏能力,并在以后使用,通常会被检测到。嗯,你已经看到一些提升了。所以,很有趣,不是。
12 地面。再讲几个故事。第一个是关于公开的眼睛要求美国政府改进五千兆瓦的数据中心,据报道。
13 据报道,计划在不同美国城市建造五千兆瓦的 AI 数据中心。你知道,五年,这相当于大约五个核反应堆,可能比整个城市或大约 300 万个家庭消耗更多的能源。所以,你知道,这是一个大问题。
14 我相信这可能是初步阶段,对吧?这是他们正在寻求批准的计划。但是,这表明了公开的眼睛在建造这些数据中心方面的雄心。
15 这是模拟超级雄心勃勃的游戏计划的一部分。嗯,你知道,我们已经谈论过七万亿美元用于芯片。
16 好吧,你知道,这是针对国内能源需求的,嗯,所以据报道,在白宫举行了一次会议,h sam 埃伦在那里,还有很多人,他们公开的眼睛分享了一份文件,为在不同美国州建造五千兆瓦数据中心的安全性作了论证。
17 并且嗯,嗯,声称,所以这里可能考虑的数据中心数量是五到七个,尽管与白宫分享的文件并没有提供这个数字。嗯,所以你知道,他们与一些能源人士交谈,这里有引述。所以我们谈论的任何事情不仅从未做过,而且我不相信它的可行性。
18 而且,作为在这个领域长大的人,工程师当然不可能在能够解决国家安全问题的框架内完成,而且对于核能来说,我目前的感觉是绝对正确的,嗯,问题是美国不知道如何在不到十年内建造核电站,到那时,你知道,五千兆瓦只是不够,或者甚至你知道,你有五个到七个不同的数据中心,每个都有五千兆瓦,这也不够。啊,你需要更多的东西。
19 嗯,为了说明,美国目前大约有 100 个数字的核电装机容量,对吧?所以当你谈论我们只是要增加大约 30% 的所有内容用于 AI 时,这是一个很大的要求。
20 这是经常发生的事情。国家安全需求是你在 wmd 特性执行层面上真正认可的东西。这项技术。
21 我的意思是,我认为这很容易在技术方面做出论证,但现在它不在过渡窗口中。我认为最终这些东西会变得非常嗯嗯,嗯,成为一个热门话题。我们只是还没有完全达到那个阶段,到那时,问题是窗口已经过去很久了,无法建立这种基础设施设置。
22 这就是我们在这里面临的悖论,嗯,以某种方式,你知道,公开。我刚要找到那个五千兆瓦,嗯,使用其他东西的混合。而且我认为这不会全部是核能。
23 在特定城市创建如此规模的数据中心的能力并不容易,对吧?美国的能源网并不容易创建这些类型的设施,这将非常有趣。
24 我想,如果政府合作,会尝试让它发生。接下来,有一个关于美国据报道正在调查 TSMC 与某些人的交易的故事。嗯,FC 实际上最近否认了这些指控,但是,据报道,信息显示,据称 TSMC 与美国。
25 一直在调查此事。我想你对此有更多细节。是的,其中一个。
26 我们过去几个月,我想说过去两年,一直在谈论的是这个想法,是的,你可能有出口管制,这使得例如,英伟达向某些中国公司出售芯片是非法的。但是,这些出口管制通常有漏洞,允许中间人介入,嗯,所以它们不是漏洞,只是执行不力。
27 当你有公司充当中间人来收集这些芯片,然后将它们转售到中国时,这真的很困难。嗯,我们已经看到很多像新加坡的公司,如果我们谈论过澳大利亚的一个。
28 所以这种情况正在发生,而且规模也相当大。嗯,所以这些漏洞百出的出口管制似乎是一个大问题。似乎发生的事情是,TSMC 可能未能对订单进行尽职调查,以防止通过这些中间公司间接获得芯片。
29 如果情况属实,那么这可能会对 TSMC 造成真正的问题。我的意思是,这种杠杆情况真的很复杂。商务部正在进行调查。
30 有核时间线。如果他们决定,好的,是的,你搞砸了,嗯,好的,这是你的选择,嗯,像我们切断你与美国公司的联系这样的强硬选择并不存在。显然,TSMC 知道这场斗争。
31 政府知道我们还需要继续购买这些 TSMC 芯片,这是唯一可以获得的地方。但是,在其中存在一些杠杆。拜登政府计划向 TSMC 提供约 70 亿美元的补贴,以支持他们在晶圆厂的建设。
32 所以,是的,你可以在那里获得一些杠杆。嗯,你想行使这种杠杆吗?因为拥有亚利桑那州的晶圆厂也很重要。美国的国家安全利益。在某种程度上,商务部和 TSMC 之间正在上演一场鸡飞蛋打的游戏,嗯,顺便说一句,具体问题是 TSMC 是否制造了用于 Mate 60 智能手机的芯片。所以,嗯,不一定是,嗯,当然也有 AI 芯片的故事,但 Mate 60 是头条新闻,我认为当杰米·雷蒙迪,商业代表,访问中国时宣布的,就像罗宾·诺·脸一样,嗯,所以你看到了很多内部信息,我认为商务部可以回答一个非常有趣的问题。
33 最后,再次谈到硬件,TikTok 聘请 TSMC 制造自己的 AI GPU 以摆脱对英伟达的依赖。所以,嗯,这让我感到惊讶。我不认为这种发展是可能的,但据报道,他们正在开发两款 AI GPU,他们表示这些 GPU 将于 2026 年投入大规模生产。
34 嗯,我的意思是,TikTok 不是一家硬件公司。他们是一家软件公司,他们表示这些 GPU 是由 Broadcom 设计的。他们希望能够进行生产,因为他们已经花费超过 20 亿美元购买了超过 20 万个英伟达 GPU。如果他们想要更多,这就是为什么他们希望自己制造的原因。
35 是的,我认为这是一个奇怪的情况。我仍在尝试理解这个故事,所以,嗯,所以这很奇怪。你绝对有理由说,哦,很奇怪,TikTok 正在与 TSMC 签约。
36 你知道,我这是什么意思?这里发生了什么?
37 我们只是知道我的意思是 TikTok。
38 是的,是的,不是巢。嗯,是的。所以,主要问题是,你知道,所以嗯,美国现在正在努力阻止中国获得最先进的节点。这基本上意味着制造工艺,允许你设计分辨率非常高的芯片。目前,TSMC 的领先节点是三纳米节点,正在用于 iPhone,五纳米节点和四纳米节点,实际上只是背景中的五纳米工艺。嗯,这些是用于 AI 的。
39 现在,我感到惊讶的是,TikTok 实际上正在寻求使用 TSMC 的先进工艺节点来制造这款新芯片,这本身就很有趣,而且令人担忧,我认为美国政府方面会对此感兴趣。嗯,我的猜测是,他们必须嗯,设计这些芯片,这样它们就不会超过出口管制上限,这大致由 20 纳米芯片定义。
40 所以这可能只是产能问题,嗯,TikTok 不需要通过仅仅使用中国国内的 TSMC 版本来获得所有产能。嗯,所以他们正在将生产外包给 TSMC 本身。只要模型的能力足够低,TSMC 就不必与商务部和美国政府发生冲突。
41 政府的大量供应。嗯,我认为这是一个非常有趣的问题。另外,顺便说一句,因为 TikTok 运行在英伟达硬件上,他们使用的是 CUDA,对吧?他们被困在英伟达软件生态系统中。
42 所以,如果他们要使用自己设计的 GPU,或者至少是 Broadcom 设计的 GPU,他们将不得不开发自己的软件平台,然后以某种方式确保他们的软件堆栈与他们的硬件堆栈兼容。所以,我认为这真的很有趣。是的,我将在本周深入研究这个问题,希望下周有更多内容与大家分享。但是,嗯,是的,从美国政府的角度来看,这将如何被看待,这很有趣。
43 就这样,正如我预测的那样,我们回到了我们的安全和硬件主题。感谢听众,特别是那些坚持到最后的人。
44 一如既往,我们感谢你分享播客、评论和所有这些好东西,我们非常感谢你坚持收听。所以,下周见。我们下周将与杰里米一起回来。希望在接下来的几个月里,我们将看到并享受我们播客的完整版本。
45 在机器和移动的时代,不要放弃你所拥有的。
46 与我一起前进。
47 你的。
48 最后。
49 你需要。点亮夜晚,上周。
50 更多地点,所以很好。两个链条,告诉,交换基础现金,采取冷革命。我说。