We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Sepp Hochreiter - LSTM: The Comeback Story?

2025/2/12

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Sepp Hochreiter

Yannic Kilcher

Topics

Sepp Hochreiter: 我认为大语言模型本质上是一种数据库技术,它通过存储和概括人类知识来工作。虽然它们在捕捉细微的直觉和文化信息方面表现出色,但它们无法产生全新的概念或代码。我认为真正的AI需要具备推理能力,而当前的AI系统只是在重复和组合已有的知识,缺乏真正的创新。我们需要寻找新的方向,将符号和子符号方法结合起来,构建更强大、更鲁棒的AI系统。 Yannic Kilcher: 我同意传统的大语言模型是近似检索引擎,但像O1这样的模型正在尝试进行近似推理,通过在测试时进行计算和搜索多种组合来生成代码。我认为通过加强程序空间,我们可以取得很大的进展。但是,如果需要全新的概念,大语言模型可能无法做到。我们需要构建能够推理的系统,但可能缺少人类拥有的某些特质。

Deep Dive

Chapters

This chapter explores the limitations of Large Language Models (LLMs) in true reasoning and knowledge creation. Hochreiter argues that LLMs excel at information retrieval and combination, but fall short when it comes to generating genuinely novel code or concepts.

LLMs are essentially advanced database technologies, not true AI.
LLMs struggle to produce original code or concepts, relying instead on combinations of existing information.
The ability to create new code and abstractions is crucial for advancing AI.

Shownotes Transcript

我们需要新的方向。大型语言模型并不是我们发展人工智能的途径。语言模型对我来说是一种数据库技术,它不是人工智能。你获取所有以文本形式存在的人类知识,也许也包括代码或其他任何东西,并将它们存储起来。目前,人工智能的推理并不是真正的推理,它是在重复已经见过的推理或代码。

你和Jürgen,你们在某种程度上是连接主义的先驱,你一直是一位神经符号论者。这是为什么呢?

Sepp,很荣幸能邀请你来到MLST。非常感谢你今天加入我们。我很荣幸你能邀请我。哦,别傻了。大型语言模型和深度学习的惊人之处在于,它们捕捉到了许多微妙的直觉、文化信息、创造力等等。所以它们

非常擅长生成程序。问题是,如果我们想进行抽象,我们需要有程序。但问题是,程序从哪里来?如果我们构建能够创建和获取抽象的系统,我们需要构建能够编写自己的程序的系统。仅仅进行一些离散的程序搜索似乎是不可能的,因为它太难了。我对大型语言模型的看法是,大型语言模型对我来说是一种数据库技术。

是的,它不是人工智能。好吧,我认为它是人工智能,但这更像是一种数据库技术。你获取所有以文本形式存在的人类知识,也许也包括代码或其他任何东西,并将它们存储起来。你对它进行泛化,你将它组合起来。你知道,如果今天是星期二,我可以把它替换成星期三,因为这些是星期几

或者名字或数字。这是一种泛化,但这些东西已经存在了。问题是,我们需要新的代码吗?每段代码是否都已经被写在哪里了?你只需要把它组合起来或整合起来。

但是,如果你真的需要想出一个新的代码,一个新的想法,一个新的概念,大型语言模型只能提取它们在训练中已经见过的现有代码。这是不可能的。它们没有经过训练来产生新的东西。因此,它们非常有限。但它们非常强大,因为人工智能需要知识表示。

现在存在幻觉的问题。好的,如何提取知识?同样,对于推理,对于草莓,知识可能已经存在于系统中了。我该如何提取它?这是一个数据库,我不知道如何访问信息。我们需要新的方向。大型语言模型并不是我们长期发展人工智能的途径。这是一个好主意。

数据库技术,它是一种良好的知识表示技术。这对人工智能很重要,但我们必须找到新的方法。我可以稍微挑战一下吗?我完全同意,普通的LLM是近似检索引擎。即使是这样,它们也不是真正的数据库,因为它们具有这种插值特性。

像O1这样的东西,它们是近似推理引擎。因此,它们在测试时进行计算,并搜索许多组合。因为问题是,即使这个东西是一个有限状态自动机,具有固定数量的计算量,进行单次前向传递,但它可以生成代码。而代码包含所有这些可以组合在一起的基本基元。因此,你可以在测试时进行搜索,你可以将程序组合在一起。从某种意义上说,你可以间接地搜索图灵空间,对吧?通过搜索......

程序空间,所以似乎有一些东西,你是在说像o1这样的方法是走不通的,我们需要一些完全不同的东西,还是我们可以稍微调整一下?你可以调整它,你会走得很远,因为你有一个

让我们加强程序空间,因为这非常好。有如此多的程序,如此多的程序组合可以给你一个新的程序。如果你认为它是复杂度的列工作者,它是程序的长度和程序的复杂度。程序,简单的列工作者复杂度的程序已经被存储或组合。但是,如果你必须找到一个需要完全新概念的程序,

无法从现有的程序中组合出来,我认为它做不到。它只能组合它已经看到的东西,大型语言模型在代码上学习过,但它无法提出完全新的代码概念。也许它们不存在。那么,如果你说一切

代码中已经发明的东西,我们只需要组合,没有新的东西,那么我同意你的观点。但是,如果有一些新的东西需要发明,我认为大型语言模型无法发明它。- MLST由Sentinel赞助,Sentinel是一个专门针对AI工作负载优化的计算平台。它们开箱即用地支持所有最新的开源语言模型,例如Lama。你可以选择价格点,选择你想要的模型。

它会启动,它是弹性自动缩放的。你基本上可以按需付费,或者你可以拥有一个始终运行的模型,或者在你不用的时候可以冷冻它。所以,你在等什么?现在就访问sentml.ai注册吧。- 好吧,是的,让我轻轻地推动一下。我认为这是一个关于创造力的讨论。

还有认知觅食,即创造新的知识来解释。还有推理。编程很大程度上是关于推理的。但是,如果你这样做,这样做,这样做,你必须有一些逻辑。但是一个复杂的逻辑,这样你的程序才能工作。绝对的。但是,如果我们说推理是知识获取,

我们需要系统来提出新的抽象。如果我们同意这些抽象可以从系统中已经存在的抽象组合推导出来,所以我们有组合闭包,所以它们确实存在,那么创建抽象更多的是理解如何使用算法找到一个好的抽象的问题。但我认为我们人类拥有的,不仅仅是我们从编码中提取抽象

想法,而是理解世界,拥有所有这些世界知识。我认为仅仅从编码中,你是有限的。我认为我们在进行程序之外的推理能力方面要多得多,但我同意。

在程序中,你可以走得很远。我认为,如果这是一个程序,你需要大量的推理,大量的逻辑才能一步一步地前进,而它不在你的训练数据库中,我认为当前的大型语言模型做不到。现在,我不相信它们真的理解推理这个概念,比如说模仿推理,比如说再现它们已经看到的东西。

但我不知道我是否理解它。有很多例子。你稍微改变一下,然后它们就错了。你能解释一下我们所做的推理(强推理)与我们目前在人工智能中所能做的推理之间的区别吗?我认为在当前的人工智能中,推理并不是真正的推理。它是在重复已经见过的推理或代码,

已经在输入数据中看到并将其组合起来,以及替换一些变量。我们所做的推理,我们有这个推理概念,比如矛盾、归纳,所有这些我们学到的东西。对我们来说,在学校或学习中学习它也很难。但现在我们有了推理概念

我们如何去做,如何构建事物以及如何证明某事是真还是假。所有这些形式系统,你必须有一些形式规则。理论上,LLM可能会学习一些形式规则。

但我可以在非常具体的事情上进行推理并产生新的东西,因为我只应用规则。如果规则在训练数据中,我可以应用它。我也可以将规则应用于新的事物。但在这种推理系统中,我可能可以推理。但如果你转到另一个系统,

- 我想就此说两点。首先,你会认为AlphaZero中的第37步是推理吗?在AlphaZero中,你知道,谷歌的围棋算法创造性地发现了这个令人惊叹的举动—— - 所以现在这是一个举动,好吧。 - 是的,是的。它创造了新的知识。

它设定了事情——它创造了新的知识。但是在这里,有一个亚符号部分。它是蒙特卡洛树搜索。搜索是一个经典的人工智能概念。在蒙特卡洛树搜索结束时,你有了价值函数等等。但它发现了它。但通过检查事物然后评估它,

是的,我认为这是对游戏理解和使用蒙特卡洛树搜索计算未来许多步数的结合。Tufo实验室是一个新的AI研究实验室。我正在苏黎世启动它。它由Paz Ventures资助,也涉及AI。我们正在招聘首席科学家和深度学习工程师研究人员。所以我们是DeepSeq的瑞士版本。

所以是一小群人,非常非常有动力,非常努力工作。我们试图进行一些研究,从LLM和Owen风格的模型开始。我们想反向工程并自己探索这些技术。即使这样,我想你可以说它仍然是一个近似的价值函数。没有正式的保证或任何东西。没错。这是真的。但我完全同意,LLM本身,它们是近似检索引擎,但是......

问题是,我们可以构建系统。我们可以有正式的验证器。例如,我们可以使用lean和cock。我们可以构建这些系统。那么,使用这些系统,我们可以进行推理吗?我认为原则上应该是可能的。我不确定。但我认为推理仅限于......

你在训练数据中看到的领域。有不同的形式系统,形式逻辑。你可以学习一种逻辑。如果它看到了足够的这些规则,我认为它知道什么是变量,它可以改变什么以及它如何产生一些东西。我认为你可以训练一个LLM来学习一种逻辑系统以产生新的逻辑。

但是,你学习的是语法。你没有学习语义。如果我想证明某事,那么你必须采取不同的步骤来进行证明。在这里,我认为他们会挣扎。他们会学习做正式的事情,语法。我有一个句子,我有一个正确的公式,我通过应用规则产生另一个正确的公式。

它已经学习了,它已经看到了,它可以做到。但它不是目标导向的。这是一个一步一步的过程。它们仍然不完美,或者它们仍然......

有时或在大多数情况下不如人类好,这很有趣,我有点同意知识是在目标服务的过程中创造出来的,推理中有一个创造性的组成部分,我们可以构建能够梦想和生成数据的系统,我们可以引导它,其中一些可以来自系统的用户,所以感觉我们可以构建能够推理的系统

但也许它不会拥有我们所拥有的东西。也许我们有一些额外的东西。但我愿意打赌,我应该......

同样对我们来说,你为什么要学习推理?为什么不使用推理系统?为什么不调用子程序?你能证明这一点吗?或者一个理论改进器,一个数学家,诸如此类的东西。你可以学习它。也许学习它也可以。但我没有看到必要性,因为我们也使用工具。为什么不......

未来的AI系统将为所有事情使用工具,用于数学,用于查找知识等等。对我来说,将所有东西都推到一个系统中是愚蠢的,因为我们也没有这样做。我们知道如何使用我们的工具。

不知何故,我觉得这是一个更好的解决方案。自从我们上次谈话以来,过去两年发生了什么?发生了很多事情。例如,我创立了一家公司,NXAI。这是一家致力于工业人工智能的公司。XLSTM也出现了。这种LSTM方法的复兴,现在应该与transformer技术竞争。是的,我们将讨论这个问题。在我们这样做之前,最好先进行一次关于LSTM的智力之旅。

但在我们开始之前,我们还没有真正谈论一些更广泛的东西。与Jürgen一起工作是什么感觉?Jürgen是一个非常特别的人。他非常有感染力。他......

我可以告诉你慕尼黑大学的一个故事,我们都在那里。有一个研讨会,有三个人。一个人试图让所有学生都参与多智能体系统。另一个在空间认知方面。

而Jürgen在神经网络方面。Jürgen来了,说:“哦,我没有准备好。我不知道该怎么办。”然后Jürgen介绍了他的主题。50名学生中有超过一半选择了他的主题。所以你看,他能说服别人,这很有趣。我坐在那里。我做编程。

而Jürgen做他的艺术创作,他画圆圈,从圆圈中出现女人,他做了很多事情。他曾经告诉我,对他来说还不清楚他是否会从事艺术,或者是否会从事科学。但和他在一起总是很有趣,总是。

以防万一观众不知道,当然,你曾在Jürgen手下工作,你们两位都是人工智能领域的先驱。这太疯狂了。但是什么让你在这么多年前就直觉地从事正确的事情?可能,我的意思是,LSDM,代表长短期记忆。Jürgen向我介绍了神经网络,特别是循环神经网络。

但它们不起作用。在我的毕业论文中,他是我的导师。他给了我一些任务。它被称为分块系统,你有一个序列,你可以预测的所有东西,你都可以从序列中删除,因为它无论如何都是可预测的。所以你缩短了序列,你可以运行它。这就是分块系统的想法。

但这是一种解决方案,因为所需的循环神经网络不起作用。然后发生了两件事。首先,我构建了一个神经网络。只有一个权重。

必须调整为一种方式来存储在序列结束时需要的信息。网络无法做到这一点。我做了所有的printf,我在屏幕上进行的所有编码,数字在屏幕上流动,然后看到,嘿,这些数字非常小,这些是梯度。没有权重更新。梯度不存在。

这就是消失梯度的发现。如果你想要一个目标,你想知道需要什么来预测目标,你会在序列结束时进行信用分配。你没有得到信号,梯度消失了。现在我知道为什么循环网络不起作用了。

而解决方案是LSTM,即长短期记忆单元,我构建了一些东西来确保梯度在反向传播时,在反向传递时,不会缩放,保持不变。因此,在序列的开头,

与序列结束时的梯度完全相同。不再有消失梯度了。这就是架构,记忆单元架构,它是LSDM的核心。我发现了LSDM。我把它写进了我的毕业论文。后来,当Juergen回来时,他问我,嘿,你在你的毕业论文中做了一些事情。

我们应该发表它吗?然后我们发表了它。是的,它已成为深度学习历史上被引用次数最多的论文之一。一篇非常非常有影响力的论文。我的意思是,仅仅回顾一下,你认为LSTM的长期影响是什么?

我认为它仍在使用。在我的主题演讲中,我举了一个例子。这个例子来自今年,用于预测洪水或干旱,但特别是洪水。LSTM是谷歌应用程序中的主要模型。同样,对于预测洪水,美国政府和加拿大政府也在使用它。在这里,LSTM比其他任何东西都更好。

比transformer更好等等,OpenAI构建了一个大型LSDM网络作为代理,或者DeepMind的星际争霸AlphaStar是一个大型LSDM网络,LSDM成为直到2017年语言中的主要事物。每个人都将LSDM与注意力机制一起使用,注意力机制与LSDM一起使用,然后

然后一篇论文发表了,注意力机制就是你所需要的一切,这意味着你只需要注意力机制,而不再需要LSTM了。这就是transformer诞生的时刻。这项新技术接管了一切

但LSTM在时间序列预测、强化学习、代理等等方面仍然表现良好。但Transformer在语言方面,尤其是在语言方面更强大。这种情况现在再次改变了,希望如此,但在那时,Transformer接管了一切。所以我们回到了老路。

更好的并行化,你可以向这个模型投入更多的数据,学习更多的数据,所以我们更快,它当时无法竞争,LSTM是如何解决存储新数据和保护已经存储的数据之间的权衡的呢?

这是一个非常有趣的问题。这也是新的XLSTM的优势。这个想法是门控机制。我们有不同的门。也许最重要的事情是输入门。

它会放大或缩小输入的新信息。它可以缩小到零,不存储,或者为一,所有内容都存储。输入门就像一种早期的注意力机制,因为输入门就是注意力机制。你有一个时间序列,要关注哪些序列元素,输入门会做到这一点。

然后是遗忘门。遗忘门会说,已经存储的记忆重要吗?或者我应该缩小它吗?但更重要的是输入门。输入门确实

挑选出要存储的特定序列元素。因此,不相关的物质不会被存储。这是最早的注意力机制之一,但我们称之为门控机制。是的。在我们进入XLSTM之前,因为你当然有这个令人惊叹的新发明,它解决了原始LSTM的许多问题。你能告诉我LSTM与RNN的计算复杂度吗?它们如何比较?

LSTM是一种RNN。是的,普通的,没有门控机制。是的,没有门控机制。而复杂性只是由于这种门控机制而增加,但它仍然是线性的。因为也许最好将其与注意力机制进行比较。注意力机制,如果你有一个新的查询,一个新的信息,你必须回顾所有以前的数据

项,而LSTM只与内存交互,与所有已经存储的内存交互。所以对于一个查询来说,它总是常数,你与内存的交互是常数。注意力机制必须遍历所有

键,并且必须进行这种成对交互。有两个缺点。第一个缺点是计算非常复杂。它在上下文长度上是二次的。第二个缺点是你只有成对交互。你做一个点积和点积的指数,它在softmax中,但你只有成对比较。可以更好地设置更多标记,更多序列元素组合在一起,一个新元素与

我会说这些不同标记的抽象。transformer的两个缺点:计算复杂度加上非常简单的交互。但LSTM就像一个循环神经网络。所有循环神经网络都是线性的。

在序列长度上,在上下文长度上是线性的,LSTM稍微复杂一些,因为它有门控机制,这使得它稍微复杂一些,但它远没有像

具有二次复杂度的transformer那样复杂。你能解释给观众为什么二次的东西,你知道,应该更糟糕的东西,但它实际上运行得更快?这是为什么?它运行得更快是因为它在GPU(图形处理单元)上的实现,所以芯片上的一切都在实现。我们有一些东西,它被称为闪存注意力,这种非常快的注意力机制

你使用硬件优化。

这是一件事。另一件事是你可以并行地做它。我说一个批评者回顾所有键,但它可以同时回顾所有键。你可以并行地做所有事情。你可以提升所有键或整个——比如,假设你有一个序列,你有一个句子,所有单词都同时提升一级。

而循环网络或LSM必须顺序地遍历它。所以首先,建立一个新的内存。接下来,建立一个新的内存,而注意力机制可以并行地提升所有内容。因此,注意力机制

当时比LSDM快得多,因为这种并行性。第二件事是你可以针对GPU进行硬件优化。这两件事,并行化和硬件优化。这给了注意力机制很大的优势。你可以同时训练更多的数据。

而LSM无法与这项技术竞争。你也提到了闪存注意力。你能快速地向观众解释一下吗?这意味着在某些情况下,你实际上不需要进行完全二次的注意力机制吗?

它仍然是二次的,但超级高度优化。对。你使用这种快速内存,缓存中的东西,你使用GPU的寄存器,非常非常快的实体,寄存器中的内存。它仍然具有相同的复杂性,因为它在数学上是二次的,你无法欺骗数学。

但你可以做得超级超级快。闪存注意力超级超级快,因为它经过硬件优化。太棒了。那么你能介绍一下XLSTM,这是一个新的发明,它如何克服原始LSTM的一些问题呢?是的,我先剧透一下。

因为我谈到了闪存注意力,我们在XLSTEM上比闪存注意力更快,无论是在训练还是在推理中,尤其是在推理中很重要。现在我回到XLSTEM。在看到transformer的兴起之后,我们突然想到,首先,

不可能是LSDM,因为ResNet骨干架构构建非常非常大的模型是拥有这种前馈连接的关键,这种许多参数可以存储所有信息,这意味着

构建大型模型重要还是拥有回顾压缩历史的特定技术更重要?我们认为LSDM应该做到这一点。我们提出了一个问题,我们能否像transformer一样扩展LSDM?

并获得transformer的性能。但我们知道LSTM的一些限制,一些缺点。我们已经提到过一次,这是并行化。我们现在也使LSTM并行化了。我们使用了与注意力机制相同的思想来并行化LSTM。但还有另外两个限制。一个限制是——

LSDM无法修改决策。如果你存储了一些东西,然后你看到一些不同的东西出现,你会说,哦,这应该被存储。你无法修改它。我给你举个例子。就像你想找新衣服一样。然后你说,现在我找到了这件衣服,价格是这个。

如果你在互联网上进一步寻找,你会发现新的衣服,甚至更好,加上惊喜。也许衣服应该适合你的鞋子或其他什么。如果你发现更好的东西,你应该扔掉你已经存储的东西。两者都与你的鞋子非常相似,也包括惊喜。

旧的LSTM做不到这一点。如果我发现一个更好的匹配项,我必须记住价格,我必须删除所有内容。ex-LSTM可以做到这一点。而这个想法是指数门控机制。为了修改存储决策,我们使用指数门控机制,这个想法是,如果我发现更好的东西,我会非常大幅度地增加权重,然后对其进行归一化。因此,旧的最佳解决方案的权重会降低。通过这种方式,

我可以找到更好的东西,并丢弃我的旧东西。理论上,遗忘门可以做到这一点,但在实践中,你无法学习遗忘,因为你无法同时学习精确地存储然后在一时间步内遗忘。

但指数门控机制,指数输入门控机制是关键,它说,我有一个更好的东西。忘记之前的所有东西。这给了我们一个优势。所以第二件事是,

矩阵内存,一个大的内存。而原始的LSDM有一个内存,一个标量,一个数字。你只有一个可以存储的数字。你不能存储太多东西。而现在,新的——

LSDM,XLSDM有一个完整的Hopfield网络。我们使用经典的Hopfield网络,它再次流行起来,因为有一件事叫做诺贝尔奖,John Hopfield获得了这个经典Hopfield网络的诺贝尔奖。现在,我们不使用单个标量,而是使用整个Hopfield网络。它就像一个经典的Hopfield网络

加上门控机制,输入门决定我们应该在Hopfield网络中存储什么,遗忘门决定旧的存储项应该降低多少权重。它是一个配备了门控机制的Hopfield网络。所以,如果我们将Hopfield网络的想法与LSTM的想法合并,这给了我们一个具有更强大内存、更大内存的LSTM。所以指数门控机制很重要。

增加内存。而第三个我已经提到了,它是并行化。而这三种成分——

我们用来构建这个新的XLSTM。老实说,我们没有预料到结果会这么好。我想内存机制也让人想起20世纪90年代的快速权重程序员。没错。Jürgen已经做到了这一点。还有其他的,比如Hopfield网络,它总是一个自动产品内存。你有一个内存,你有一个新的......

你有两个向量,一个我们,就像在注意力机制中一样,我们称之为键,另一个我们称之为值,你有一个键和值的自动积,并将其添加到内存中。

这就是这个想法,但我们添加的是一个输入门到这个新添加的项目,以及一个遗忘门到旧的内存。但这是一种已知技术,这种自动产品存储。对于20世纪70年代的冰模型来说,它甚至更古老,已经有了这些想法。

Hopfield网络也使用同样的想法,但快速权重也使用同样的想法。你也可以多解释一下门控机制吗?你说你从sigmoid转移到了指数。当然,在20世纪90年代,人们甚至使用sigmoid和双曲正切作为激活函数。

当时选择 sigmoid 的直觉是什么?更详细一点,指数版本是如何解决问题的?选择 sigmoid 是门控。sigmoid 在 0 和 1 之间。是的。这是自然而然的事情。1 是门打开,所有东西都通过。0 是什么也没有通过,门是关闭的。

而介于两者之间则进行缩放。所以对于段来说,使用门控是很自然的事情。但它有一个问题,如果你遇到一个序列元素,你说,我把它乘以 0.5,比如说,另一个元素来了,说,哦,如果这是 0.5,我应该把它乘以 4。

但这行不通,因为一个段只能到 1。我不能更高。我无法推翻这个。所以段是有限制的,你必须做出决定,但后来它被限制在更高的值。所以指数门控没有限制。

你总是可以做更大的值。但问题是我们以前从未使用过指数激活函数,因为学习会崩溃。但我们必须有第二个要素。一个是指数门控,但它是一种归一化。

你有一个指数项,然后你用这个指数输入门进行归一化。但这就像 softmax。如果你记得 softmax 的工作原理,你会有 e 的某个次方。你有这些指数。然后你除以这些指数的总和。它就像一个滚动 softmax。

因此,我们朝着 LSTM 的注意力方向发展,但它是递归的。但它非常相似。你有一个指数输入门,然后你除以所有输入门的总和。它有点像 softmax,但也有所不同。还有一件事。它改变了溶解动力学。

但我们并不清楚发生了什么。我们只看到如果你有不同的架构,softmax 及其指数函数

对学习动力学有优势,这意味着如果其他系统卡住了,停滞了,不再学习了,有一些梯度峰值可以让 Transformer 学习。我们现在在 XLSTM 中也观察到了同样的现象。修改 SORIS 决策是我们的原因,但学习动力学也

以积极的方式进行了修改。但我们并不完全理解这里到底发生了什么。我认为有一些随机的方向,如果你什么也做不了,你有一些随机的权重更新,可以帮助你推进学习。但这是一种猜测。指数门控再次出现。

矩阵内存并使其并行化。我只是想知道是什么激发了灵感的闪现。我的意思是,如果你能回到过去并告诉你的年轻的自己这件事,你的年轻的自己会说,是的,绝对的,你会在那时这样做吗?是的,但我年轻的自己必须看到几个例子,因为在这个时候,

我们没有这些大型语言模型。我们没有看到指数门控有帮助的问题。

这个大的内存有帮助,因为我们没有这些数据集。我现在只需要说明该做什么,还要说明会有什么数据。然后我会说,是的,当然。我的存储空间这么小。如果你想存储更多,当然你必须这样做。我会看到的,但我还需要对未来即将出现的数据有所了解。在你的论文中,你研究了这些东西如何随着数据和模型大小等进行缩放。你能告诉我一些理论基础吗?

这是一个标准的缩放损失。它不是我们开发的。

你要么做模型参数,要么增加模型参数,它们遵循一定的指数规律,一定的曲线。然后你把它与也遵循一定规律的 Transformer 或基于状态的模型进行比较。然后你可以推断并说,如果你构建更大的模型,

我们也会更好。但这是一种缩放损失,我们使用它,而不是由我们或其他人发明的,这很好,因为你现在可以预测,如果我构建更大的模型,或者如果我使用更多的数据,这些更大的模型将如何表现?你提到了状态空间模型,比如 Mamba。你能对比一下吗?Mamba 是 LSDM 最有竞争力的方法,并且

在我们发表 XLSDM 之后,Mamba 2 推出了。

好的一点是,2 号是 XLSDM 没有输入门。它完全相同,因为它有 E 到 softplus。E 到 softplus 是 sigmoid。你可以计算一下。然后你会看到他们也有这个,对于门控门,他们也有一个输出门。2 号就像一个 XLSDM。

但没有输入门。输入门被省略了。因此,很高兴看到不同的方法有点趋同于相同的架构。

它们不是服务妈妈,因为它们没有 Inbookate。我认为 Inbookate 很重要。所以剩下的架构现在非常非常相似。所以我从状态空间模型开始。我们从 LSTM 开始,从 Hopfield 开始,等等。现在我们越来越趋同于非常相似的架构。你看到行业采用 X-LSTM 的任何迹象吗?是的。首先,X-LSTM 现在更快。

比 FlashAttention 在推理中也更快,在训练中也是如此。我可以告诉你为什么。使用 FlashAttention,你必须将所有上下文内容放入 GPU。我们现在所做的,我们做了 FlashAttention 的块,在块之间,我们做递归的事情。

我们设计了 FlashAttention 的块,以便我们可以在 GPU 上更高效。如果你有更小的块,你就不必挤压它并做低效的事情。你可以精确地让它像缓存一样大。我们使用 FlashAttention。

技术,我们从这些人那里偷来的。但是要做到 FlashAttention 的正确大小才能使其快速。我们做 FlashAttention 递归,FlashAttention 递归。现在我们比在整个上下文中进行整个 FlashAttention 更快了。这在训练中也是如此,在推理中也是如此。这是分块的 FlashAttention,我们这样称呼它,或者我们这样称呼它。这给了我们速度。

我没有想到我们可以在训练中比 FlashAttention 更快。我以为,不可能。但是,嘿,这令人难以置信,太棒了。但是我们推理更快,我们知道因为这里的注意力也变成了自回归的,因为你必须生成一个新词,然后把所有东西

再次推入你的系统。你产生一个新词,你必须把所有东西都推入系统。你可以缓存一些处理过程,是的,你可以快速完成,但注意力不适用于自回归机制。在训练中,你拥有整个序列。

所以我们很快。我们现在更快了。令人难以置信。但在推理方面,我确信我们会更快。这给了我们在不同方面带来优势。首先,我会在语言中提到一些东西。你意识到这个草莓或一件事。哦,是的。它在推理方面做得更多。它思考得更多。是的。在推理方面,我们会快得多。

如果我们在推理方面快 100 倍,我们可以思考 100 倍。这是一个巨大的机会。它对我们有利。它出现得如此美好,因为我们正处于那里。我们在推理方面很快。那会更好。

但这种快速的推理速度也帮助我们走向工业应用,远离语言。语言不是许多行业的核心,不是很多,那里有商人公司。但我现在可以进入机器人领域。

Transformer 用于机器人技术。DeepMind 有一篇论文,特斯拉有一篇论文,但他们都难以应付 Transformer 太慢的问题。是的。有时你必须等待几秒钟才能让代理做出反应。现在我们有了更快的东西。我们还有一个优势。

我们有一个固定的内存。我们提前知道我们的内存有多大。如果我们现在嵌入到嵌入式设备上,我们知道内存有多大。我们将使用这个固定的内存来设计 LSTM。无论序列有多长,你都使用相同的固定内存。如果序列是 100 个序列元素或 1 亿个,你都有相同的内存。我们可以修复内存,而且速度很快。这两点,

让我们在嵌入式方面具有优势。进入机器人领域,甚至已经有人尝试过无人机了。他们在无人机上安装了这些设备,这些 GPU。他们给我们发了邮件。他们不想透露。他们说这是

结果令人难以置信地好得多,而且无人机也在自主飞行,你必须进行实时控制。你不能等到我想,而有了这个练习,它就能工作。我们太棒了。这位家伙也在 NeurIPS 上和我谈过。他们说他们不知道是否想透露,因为它对他们来说太好了。这是一家公司。

但要进入机器人领域,进入无人机领域,也要进入自动驾驶领域。在汽车中,你希望节能。你也要随身携带电池。你希望速度快。你希望简洁。你想要一个小型、强大的系统。在这里,我看到了

使用 XLSTM 的巨大优势。也许甚至可以进入手机,我不确定,我不知道手机的限制,也许这有点牵强,但我们有一个节能的东西,它很快,我们可以控制内存,我们可以为设备设计内存,例如嵌入式设备。你认为 XLSTM 是否让我们更接近类似符号操作的东西?

- 符号操作?- 是的。- 我不知道。我们有一个关于神经符号 AI 的项目。- 是的。- 我会说,从某种意义上说,我认为 XLSTEM 更擅长构建抽象。- 是的。- 我在现有的 AI 系统中缺少的东西

我从未见过一个 AI 系统构建适当的抽象。它总是人为的。他们的语言是人为的。如果你看看 ImageNet,人类把物体放在中间。我想看到一个人工系统提出一个新的概念,而不是人为的。而 XLSTEM,我不知道它是否能做到,但在内存中,通过组合更多的标记,通过组合......

更多来自过去的东西,也许你可以构建一个概念,因为存储一个抽象概念比存储单个项目(如注意力所做的)更有效。如果你可以压缩它到

一些东西,如果你给你儿子寄去海滩、鸡尾酒等等。所以你说,啊,也许有人寄去海滩、假期,这也许是一个抽象的概念。而存储这个可能比存储单个项目更有效。在工业应用中也应该发生同样的事情,你会看到。

概念,你看到结构,你存储结构,而不是单个事物。如果你有正确的抽象,

你押注于泛化,因为如果我们有抽象的概念,将来我们希望再次遇到这些抽象的概念。是的。我之所以这样问,是因为你也有你的符号 AI 论文。我对神经符号架构非常感兴趣,并且有很多方法可以做到这一点。所以在欧洲,我们看到很多人使用 Transformer 来生成程序。有些人只是跳过显式的程序生成,只是让 Transformer 执行类似符号的类型集。

任务和 Transformer 非常有限。它们不能复制,它们不能计数。有很多事情它们做不到。但是你认为 XLSTM 能克服 Transformer 这些明显的计算方面的限制吗?它们可能可以克服其中的一些,但我认为解决方案是将两者结合起来。我认为我们现在拥有的并不是最终的解决方案。我们必须转向符号。

并且已经有一些东西存在了,Transformer 也许正在使用 MATLAB 来求解方程或其他什么,或者正在查询互联网或其他什么。我认为我们需要两者兼顾,因为那里有如此多的符号技术。50 年来,我们一直在开发,我们应该以某种方式将它们整合起来,使用它们。我不知道是否所有东西都是可以学习的。也许原则上,

但现在捷径是使用现有的东西,以正确的方式将它们结合起来。在奥地利,最大的 AI 项目,大约 4000 万欧元,我正在阅读它,是双边 AI。双边是因为将符号 AI 和亚符号 AI 结合在一起。因为正如我在演讲中所说的,缩放已经结束。现在我们必须进入 AI 的工业化,在这里我们需要新的技术。

也许不仅仅来自亚符号方面,来自神经网络方面。也许我们需要来自符号方面的东西来使事物更健壮。因为如果生产过程停止或停滞,那是不应该发生的。因此,你可能需要亚符号方法

集成或围绕亚符号方法,如大型语言模型或其他方法。我完全同意。我认为我们需要构建混合系统。是的。是的。这就是神经符号方法,这就是我们在奥地利在这个大项目中所做的。这很难。我仍然,将这两个社区聚集在一起很难。有时他们不喜欢对方。另一方面,我们有很大的成功故事。另一方面也有其他的成功故事。但我认为这是推进 AI 的一种方式,也是使工业 AI,正如我在演讲中所说的那样,因为对于工业 AI,我们需要符号系统来使其健壮,来保证一些东西。我们现在必须与符号专家合作来推进 AI。我完全同意。所以我们需要形式化验证。

问题是,我们能否鱼与熊掌兼得?因为这些混合神经符号系统的唯一问题是人为工程的程度。我们可以通过某种架构搜索来自动化创建吗?因为我们正在构建这些大型系统,它们有很多、很多组件,很多验证器等等。我们可以自动化多少?

在我们进行神经符号研究的团队中,符号专家说,嘿,我们可能需要机器学习来调整我们符号内容的参数。亚符号专家说,我们可以使用符号作为围绕它的保护层。

他们没有合并它,他们没有集成它。就像学习规则,学习新的符号规则与规则事物。我知道符号是如何运作的,但也许有些规则更好。你必须更好地整合这些东西。但现在这两个群体都在各自的领域思考。

而我缺少这一点。如果有人这样做,我会从这个社区中获取这个,从那个社区中获取那个,将它们粘合在一起,但这很笨拙,不好,不优雅。像我们所做的那样优雅的事情是,我们学习了一些形式系统,但也许学习应该进入形式系统,而形式系统应该......

是一个子组件,一个集成子组件,我不知道,一个大型语言模型或其他什么。现在还没有。这两个群体过于分离。是的,所以在连接主义阵营中,你知道,有 Hinton、Bengio 和 Lacoon。你和 Jürgen,你们在某种程度上是连接主义的先驱,你们是神经符号专家。你们一直都是。为什么是这样?

也许回顾历史,你必须知道德国和奥地利在符号方面非常强大。有这个 Dave Ke 和这个形式系统,许多教授都在做这个。

在美国等等,有一些事情是欧洲开始的,Snowbird 等等。但 Jürgen 是一位,你知道,他仍然是一个沿着不同思路思考的人。并且有一大群......

AI 小组,但它是正式的。但他说,“不,我认为这是神经网络。”当我上大学的时候,我是一个学生,所有事情都很无聊。一些 50 年前、100 年前的定理,所有计算机科学,快速排序,所有这些旧的东西。但随后出现了神经网络的东西,Jürgen 做的。

没有人知道会有什么结果。你学习一些东西。这超级、超级有趣。这也是 Jürgen 的事情。这是一些新的东西,而不是一些非常古老和传统的东西。在我们所在的团队中,我们也阅读科幻小说。

我说,嘿,我有一本新的科幻小说。所以很多想法也来了,比如你如何用世代飞船穿越宇宙,什么可能,什么不可能,好主意。这也是时代,农村网络作为一项新技术和许多创新理念等等。在这里,远离这种传统的符号性事物,

这非常引人入胜,这种新的神经网络的东西。你不知道会有什么结果。你在这里和那里改变一些东西。这令人兴奋。是的,在某种程度上,这是非常博学的。它同时掌握了许多不同领域的知识。当然,Jürgen 谈论过诸如哥德尔机和递归自我改进、人工智能创造力等令人惊叹的想法。从某种意义上说,它们领先于时代。

但你认为事情是否开始向另一个方向转变?我的意思是,我当然看到了,看看 DeepMind,例如,大量更新的符号架构正在出现。我的意思是,你认为意识是否正在发生一些变化?我认为是的。也许它必须如此,因为我认为我们的道路以扩大规模而告终,以使事物变得更大。我不知道这是否是正确的道路,因为它更多的是关于在这些系统中存储更多信息。

你投入更多训练数据来使其更大,但不是更聪明,不是系统。它们并没有不同。它们只是更大。如果这有一个结束......

我们必须更聪明。我认为符号方法或神经符号方法必须出现,因为它给了我们一种方法,因为我不知道亚符号方法,即神经网络,我们应该去哪里?我们应该做什么?我们把它扩大规模。我们现在有了几乎像大脑一样的模型,但缺少一些东西。它不是人类所做的。人类

学习不同,他们用很少的例子学习,他们有其他的抽象能力,他们更具适应性,他们可以计划,而缺少一些东西,缺少一些东西。也许神经符号给了我们缺少的东西。

我们错过了一些东西。我们如何将这些想法融合在一起?所以人们认为系统 1 和系统 2 完全不同,它们可能非常相互关联,你知道,就像很多推理是由感知引导的。我们如何真正将这些想法整合在一起?是的,在 Kahneman 之后,这也很流行,而且它也是图灵奖的演讲,我过去总是使用系统 1 和系统 2。这非常引人注目,但是

我不确定是否有一个明确的分界线。好吧,如果你下棋,现在你开始计划系统 2,也许有一个明确的分界线。但有这个中间的东西,你做的事情,一种直觉,比如打开一扇门,你抓住一样东西,你不会去想它。

但有时你会想一想。我认为这是一个逐渐发生的事情。有时你会计划两步。我应该去这里还是那里?哪个更快?这里,有些人来了。这是一个非常简短的两点思考。对我来说,它并没有那么分离。我立即这样做,我做长时间的思考。

我认为一切都是逐渐发生的。你做的很多事情......

凭直觉,它是系统 1,有时你有一些东西,你真的在思考......但中间有很多东西,如果我离开这里,我会回家吗?我可以直走,也许我会走下去,所以我做了一些决定,这有点计划,它不是......我不认为系统 1 和系统 2 之间有明确的

区别。是的,我同意。我同意。这些系统中的抽象,它们应该总是对人类来说是可以理解的吗?现在,我的意思是,你知道,伊丽莎白·斯佩尔克有这些核心知识先验,你知道,像代理性、空间推理和物体等等。这几乎就像我们已经获得或学习了关于世界如何运作的一些核心基函数,并且

这表明任何推理系统都会将这些简单的先验组合在一起。这就是推理的全部吗?或者你认为 AI 系统可以发现我们无法理解的奇怪的、外星形式的推理吗?

我相信是这样。还有不同的概念。我们发展出的概念、词语等等,对我们有帮助。例如,我刚才说神经网络,也许你有速度、加速度等等。你有这些概念。但如果你现在对它进行线性变换,

你拥有相同的信息,但略微混合在一起。对于神经网络来说,这没有问题,因为使用线性变换你可以进行逆变换。这是相同的信息,只是分布略有不同。也许有时信息分布不同会有所帮助。我认为对我们来说,我们发展出的概念和抽象对我们人类有帮助。

帮助我们从一代到下一代传递经验,我们所学到的东西。

也告知他人,传递食物等等。这是我们做的最重要的事情,因为如果我们的孩子必须学习哪些蘑菇有毒,哪些没有毒,我们孩子身上最多的信息来自上一代。他们去上学等等。我认为我们的语言,我们的抽象是

设计的,是从一代到下一代传递这些信息。因为这是最多的信息。你作为一个单独的人类所获得的东西,远少于你通过文化、通过......所获得的东西。我认为。因此,我认为我们的抽象、我们的语言、我们思考的方式

也适合我们的社会,我认为 AI 系统应该提出完全不同的推理方法,但也要为它们提出不同的抽象,其他概念可能更有用,因为它们以不同的方式生活在同一个世界中,比如说

以不同的方式操纵世界。是的,这是我经常思考的事情,因为正如你所说,抽象具有这种建设性成分。所以有语言游戏,我们有这种模仿性的文化转移,它似乎是为了我们互相理解的一些效用而服务的。但它们仍然扎根于物理世界。加速度是物理世界中的一件事。是吗?

我会挑战你,对我们来说,它可能是加速度加上其他一些组合才是真正的东西。是的。我不知道。它对我们来说只是方便,因为它有助于我们的思维方式吗?

或者它可能是加速度加上位置?我不知道。但我们人类也有这种奇怪的能力,可以思考那些并非直接来自我们感官体验的东西,比如抽象的、数学的、柏拉图式的理想等等。是的。这些是从哪里来的?我认为......

许多这些东西,首先,它们可能只是符号。它们只是某些东西的占位符。在物理学中也更有趣,因为你有一个原子的概念。你可能从未见过原子。至少我没有见过原子。但你有一个原子的概念。如果你现在说,原子的形状是什么?你会说它可能是一个球。它是一个圆圈。为什么?

也许它是一个三角形或其他什么。你做这种抽象,你脑子里有一些东西的图像。但通常它是一个占位符。如果这个和那个放在一起,让我们称之为 blah,blah。我们为它发明了一个好词。

你有一种直觉,也许你脑子里甚至有这个的图像,但有时它是抽象的。它在现实中没有对应物。是的,完全正确。所以语义和实际事物之间存在巨大差异。我经常想,如果我们拿出一本 21 世纪的物理学书籍,然后回到过去,把它交给牛顿,我认为他根本无法理解其中的大部分内容。是的。

我完全同意。是的,是的。我们接受了特定的思维方式训练。这可能与许多世代之前的思维方式不同。确实如此。这太棒了。你能多告诉听众一些关于 NXAI 的信息吗?NXAI 是一家高级公司。第一个想法或第一个成立,我已经告诉你关于这个 XLSVM 了。我非常兴奋。

我在大学里。然后我去了媒体,说,嘿,我有一个新想法,但我没有钱来证明这是一个很酷的想法。然后出现了这个想法

风险资本的事情,你有一个商业计划吗?说,“不,我对商业计划不感兴趣。我需要一些钱来证明这是一个很酷的想法。我想把这个很酷的想法留在欧洲。我想把它留在当地。”这是一个没有人理解的概念,直到当地某人说,“是的,我给你一些钱。”

让我们首先修复技术,然后在其之上构建一些垂直公司。这就是它的开始方式。NXAI 是为了这个 Excel STEM,最初的 1000 万欧元用于计算和第一篇论文。现在 NXAI 更多的是,它是一家致力于工业 AI 的公司。

一个支柱是这个 XLS-DEM,这是一项我们想要开发的新技术。我们现在已经展示了 7B 模型,我们可以与 Transformer 技术竞争。它足够强大,但是

它还有其他优点,例如节能和速度,我们可以朝其他方向发展,而不仅仅是在工业领域,不仅仅是语言。因为语言,有很多公司都在做语言,并且竞争激烈,我不知道我们能否赚钱。而且这不是核心业务。第二个支柱是用于仿真的 AI。是的。

用于仿真的 AI,在这里我们也有很大的成功故事,因为现在我们可以通过数值模拟结构进行模拟,而他们无法做到。可能是离散元方法,就像粒子一样,你有很多粒子,但如果是一百万个粒子,一千万个粒子,一亿个粒子,

数值方法无法应对,无法再进行计算。网格点也是如此,也许你在做计算流体力学,你会有这些网格点,比如空气流过汽车,你在飞机上会有所有这些点。你会有这些网格点,有时网格点太多了,数值方法就无法工作了。现在我们有一些东西,比如

例如,对于一辆汽车,你改变了一些东西。数值模拟需要三周时间。这个人做完事就回家了。三周后,他查看结果。而我们可以在三分钟内完成。其背后的想法是什么?为什么这些

神经模拟如此出色,我总是用月球来举例。月球可以用位置、冲量、也许还有质量来描述,但我们不会描述每个粒子、每个原子或每个太阳核。它对月球一小时后或第二天或任何时候的位置预测都非常准确。在许多数值模拟中,

你可以将粒子分组,因为它们是结构。如果你可以分组,就像你扔一个雪球,你不会模拟每一个雪花,而是整个雪球。效果很好。如果AI系统能够识别这些结构,比如10000个粒子粘在一起或做同样的事情或安培数等等,

你可以加快模拟速度。这种情况正在发生。你有一些粒子以某种方式同步或粘合在一起。一个例子是——

如果你有一些像玉米粒的东西,你把玉米粒放在机器里,玉米粒之间没有物理作用。如果你有这个,数值模拟必须,这个玉米粒要下降到原子水平或类似的东西,以及它们如何相互作用。但是如果你有这个玉米粒和另一个玉米粒,你可以学习它们的物理作用,

它们如何相互作用。这是在推动这个,也许它们如果有点湿,如果它们有点大等等,它们是如何相互作用的。那么你就有数千个

数值模拟所需的点。你有一样东西或一个沙粒或其他什么。你学习沙粒的物理特性。因此,数值模拟中没有沙粒的物理特性。必须下降到原子水平或......这极大地帮助加快了模拟速度。它们非常强大,因为现在我们可以进行数值方法难以应对的模拟。这甚至发展到

我们当地的工业,比如钢铁工业,你有一个装满钢铁的大型烤箱。我无法模拟它,因为从数值上来说粒子太多了。

他们经常不得不建造一个原型,一个更大的原型,因为模拟无法应对。现在我们可以跳过原型。由于这件事,原型价值1亿欧元。现在我们可以模拟它,我们可以建造真实的东西。如果这能奏效,这将给工业带来巨大的推动。这就是模拟的想法。Johannes Brandstedt 是这个人

他希望会来。他会告诉你更多关于它的事情。但我认为它非常有成效。我认为这是一个非常酷的方向。但问问Johannes。他比我能更好地说服你。好吧,他30分钟后到这里。所以我不知道。Sepp,很荣幸也很高兴邀请你。非常感谢你今天加入我们。很高兴来到这里。很有趣。我很享受。谢谢。太棒了。太神奇了。

Sepp Hochreiter - LSTM: The Comeback Story? 01:07:01 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Sepp Hochreiter - LSTM: The Comeback Story?