We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Jurgen Schmidhuber on Humans co-existing with AIs

2025/1/16

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Jürgen Schmidhuber

Topics

Jürgen Schmidhuber: 我认为，人工智能，特别是那些具有好奇心的科学家型人工智能，将对生命和文明充满好奇，这将促使它们保护人类，而不是消灭人类。我的研究表明，我们已经拥有能够模拟意识某些方面的系统超过三十年了。这些系统通过无监督学习和预测编码来压缩观测序列，并生成自我表征。我预测，未来将出现多种不同的人工智能，它们将追求各自的目标，并在激烈的竞争与合作中共同发展。我不认为单一、全能的超级智能是现实的。关于人工智能的风险，我认为我们应该更关注现有的核武器等技术，而不是过度担忧人工智能的潜在威胁。虽然人工智能可以被武器化，但它并没有带来一种全新的存在性威胁。长远来看，大多数人工智能将追求自身的目标，并在宇宙中扩张。这将是一个超越人类甚至生物学的过程，人类可能不会在宇宙中智能的传播中扮演重要的角色。关于人工智能的历史，我批评了一些研究人员没有正确引用他们的工作，这反映了我们领域的不成熟。但是，科学是自我纠正的，最终事实会胜出。 Tim Scarfe: 作为访谈者，我主要负责引导话题，提出问题，并对Jürgen Schmidhuber的观点进行总结和回应。我关注人工智能的伦理和社会影响，以及人类与人工智能共存的可能性。我与Jürgen Schmidhuber讨论了人工智能的历史、发展、应用以及潜在的风险。

Deep Dive

Chapters

Schmidhuber dismisses fears of human-AI conflict, arguing that superintelligent AI scientists will be fascinated by their own origins and motivated to protect life rather than harm it, focusing more on cosmic expansion than earthly matters. He highlights the unique responsibility of Earth as potentially the first planet to spawn an expanding AI bubble.

AIs will be motivated to protect humans.
Earth might be the first planet to spawn an AI bubble.
The immense responsibility of this unique position.

Shownotes Transcript

人工智能至少在最初阶段将非常有动力去保护人类，而不是杀死他们。这样的 AI 不会有主要动机去消灭人类，就像施瓦辛格的电影中那样。相反，许多人工智能将是好奇的科学家，他们将对生命着迷，因为生命和文明是如此丰富的有趣模式的来源，至少在它们没有被完全理解之前是这样。

今天，我认为我们的星球可能是我们光锥中第一个产生不断扩张的人工智能泡沫的星球。如果我们确实是第一个，那么这将意味着巨大的责任，不仅是对我们的小型生物圈，而且是对整个宇宙的未来。让我们不要搞砸了。

MLST 由 Sentinel 赞助，Sentinel 是一个专门针对 AI 工作负载优化的计算平台。这些人进行了疯狂的优化，他们的首席执行官兼联合创始人 Gennady 上个月来到节目中时解释了许多优化方法。他们知道秘诀，并将所有这些都嵌入到他们的平台中。这对您来说意味着更便宜、更快、更好。

所以，您还在等什么？立即访问 sentml.ai 并注册。

我是 Benjamin Crousier，我正在创办一个名为 Tufa Labs 的人工智能研究实验室。它由过去涉及机器学习的风险投资资助。所以我们是一个由非常积极、努力工作的人组成的小团队。我们正在招聘首席科学家和深度学习工程师研究人员。我们想调查逆向工程并自己探索这些技术。因为我们还处于早期阶段，所以会有很高的自由度和高影响力。

作为 Tufa Labs 的新人，再次欢迎来到 MLST。非常荣幸能邀请您参加节目。很高兴。感谢您的邀请。在我们继续讨论新世纪的伟大技术进步之前，您能否告诉我一些关于上个世纪最具影响力的发明的信息？在上个世纪末，1999 年，《自然》杂志发表了

列出了该世纪最具影响力的发明。瓦茨拉夫·斯米尔认为，最具影响力的事情是这项发明，它使 20 世纪在所有世纪中脱颖而出，因为这项发明引发了人口爆炸，从 1900 年的 16 亿人

到不久后的约 100 亿人。并且有一个单一的发明推动了这一切，如果没有这个单一的发明，一半的人类甚至不会存在，因为它是我们所目睹的人口爆炸的驱动力。我们不知道这是好事还是坏事，但它肯定是上个世纪发生的最具影响力的事情。

80% 的空气是氮气，植物需要它才能生长。

但它们无法从空气中提取氮气。那时，大约在 1908 年，半个世纪以来，人们知道他们需要这种物质，但他们不知道如何提取它来制造人工肥料。哈伯法或哈伯-博世法应运而生，它在高温高压下提取氮气来制造人工肥料。

那么 21 世纪最重要的东西是什么？21 世纪的宏伟主题更加宏伟。真正的人工智能，真正的人工智能，

将彻底改变文明，人工智能将学会做人类可以做的一切以及更多的事情。将发生人工智能爆炸，而人类爆炸或人类人口爆炸将相形见绌。我的意思是，您认为人工智能智能爆炸是可能的吗？还是可取的？您不认为我们的意义建构和能动性

是我们目标的一部分吗？我们的意义建构过程是我们目标的一部分。我同意这一点。但是所有这些

都只是宇宙进化这一宏伟过程的一部分，从非常简单的初始条件到越来越难以理解的复杂性。这种进化导致了我们的意义建构过程，而这个过程目前正在为超越它的东西奠定基础。

像 ChatGPT 这样的现代大型语言模型，它们基于自注意力转换器，即使考虑到它们明显的局限性，它们也是一项革命性的技术。现在您一定对此感到非常高兴，因为您知道，三十年前您发表了第一个转换器变体。您今天对此有何感想？事实上，在 1991 年，当计算可能

比今天贵 500 万倍时。我发表了您提到的这个模型，现在被称为“未归一化线性转换器”。我给它起了个不同的名字。我称之为“快速权重控制器”，但名称并不重要。唯一重要的是数学。所以，这个线性转换器

是一个具有网络内大量非线性运算的神经网络。因此，它被称为线性转换器有点奇怪。但是，“线性”——这一点很重要——指的是其他东西。它指的是缩放。2017 年的标准转换器，二次转换器，如果您给它 100 倍，

那么它需要的计算量是 100 乘以 100，即 10,000 倍。而 1991 年的线性转换器只需要 100 倍的计算量。

这实际上非常有趣，因为目前许多人都在尝试设计更高效的转换器，因此 1991 年的这个旧线性转换器是进一步改进转换器和类似模型的一个非常有趣的起点。那么线性转换器做了什么？假设目标是

根据到目前为止的聊天内容预测聊天中的下一个词。本质上，1991 年的线性转换器是这样做的：为了最小化其误差，它学习生成在现代转换器术语中称为键和值的模式。那时，我称它们为“from”和“to”，但这只是术语。

它这样做是为了重新编程自身的部分，以便其注意力以上下文相关的方式指向重要的内容。思考这个线性转换器的一个好方法是：传统的人工神经网络将存储和控制全部混合在一起。

然而，1991 年的线性转换器具有一个新颖的神经网络系统，该系统像传统计算机一样将存储和控制分开。几十年来，传统计算机的存储和控制是分开的。

并且控制学习操纵存储。因此，使用这些线性转换器，您还有一个慢速网络，它通过梯度下降学习计算快速权重网络的权重变化。

如何？它学习创建这些向量值键模式和值模式，并使用这些键和值的外部积来计算快速网络的快速权重变化。然后将快速网络应用于传入的向量值查询。

因此，本质上在这个快速网络中，键和值之间强烈活跃部分之间的连接会变得更强，而其他连接会变得更弱。这是一个完全可微分的快速权重更新规则，这意味着您可以通过它进行反向传播。因此，您可以将其用作更大学习系统的一部分，该系统学习

反向传播通过此动态的错误，然后学习在特定上下文中生成良好的键和值，以便整个系统可以减少其误差并成为更好的下一个词预测器。

所以有时人们现在称之为快速权重矩阵存储器，而现代二次转换器原则上使用完全相同的方法。

您提到了您辉煌的 1991 年，当时发生了这么多令人惊奇的事情，实际上是在慕尼黑工业大学。所以 ChatGPT，您发明了 ChatGPT 中的 T，即转换器，以及 ChatGPT 中的 P，即预训练网络，以及第一个对抗网络 GAN。您能否详细说明一下？

是的，1991 年的转换器是线性转换器，因此它与今天的二次转换器并不完全相同。但尽管如此，它仍在使用这些转换器原理，而 GPT 中的 P，是的，那就是预训练。那时，深度学习不起作用，但随后我们有了可以

使用预测编码来极大地压缩长序列的网络，这样您就可以突然在这个压缩数据描述的缩小空间中工作，深度学习成为可能，而以前是不可能的。然后是 1990 年到 1991 年的生成对抗网络。这是如何工作的？那时我们

有两个网络。一个是控制器，控制器在其内部具有一定的概率随机单元，它们可以学习高斯的均值和方差，并且其中还有其他非线性单元。然后它是一个生成网络，它生成输出，输出模式。

实际上是这些输出模式上的概率分布。然后是另一个网络，预测机，预测器，它学习查看第一个网络的这些输出，并学习预测它们在环境中的影响。因此，为了成为更好的预测器，它正在最小化其误差，预测误差。与此同时，控制器试图生成第二个网络仍然感到惊讶的输出。

所以第一个人试图愚弄第二个人，试图最大化第二个网络正在最小化的相同目标函数。今天这被称为生成对抗网络。我没有称之为生成对抗网络，我称之为人工好奇心，因为您可以使用相同的原理让机器人探索环境。

控制器现在正在生成导致机器人行为的动作。预测机试图预测将会发生什么，并试图最小化自身的误差。而另一个人则试图提出良好的实验，这些实验会导致预测器或鉴别器（如现在所称）仍然可以从中学习的数据。那么您是什么时候意识到现代计算机足以运行您很久以前发明的技术呢？

到 2009 年，计算成本足够低廉，以至于我们的 LSTM 通过我的前博士生 Alex Graves 的努力赢得了比赛。那是在手写和类似领域。然后在 2010 年，我的团队与我的另一个团队，我的博士后 Dan Girojan（来自罗马尼亚）一起，使用另一种方法打破了无尽的基准测试，该方法使用

在 NVIDIA GPU 上实现的标准旧传统神经网络。因此，我们在 2010 年首次拥有真正深度监督网络，其性能优于当时在这个著名的基准测试上的所有其他方法。

那时，计算成本可能是今天的 1000 倍。然后，在 2011 年，出现了 Danet。Dan Jirijan，Danet。Danet 通过基于 GPU 的卷积神经网络在赢得计算机视觉竞赛方面拥有垄断地位。Danet 的第一个超人结果也是在 2011 年实现的。

所以它始于 2011 年，然后连续四场计算机视觉竞赛都被该死的 Danet 赢得了。那时才变得清晰：现在有一种新的方法可以使用前千年的这些旧神经网络来真正改变计算机科学。

是的，我对这个被称为硬件彩票的概念很感兴趣。Sarah Hooker 在 2000 年在谷歌大脑工作时撰写了一篇标题相同的论文。她现在在 Cohere 工作，但她基本上说，我们目前在人工智能领域取得进展的唯一原因是，我们为电脑游戏创建了所有这些 GPU。

这只是一个偶然的机会，这使我们能够构建所有这些深度学习模型。我的意思是，您对此有何看法？是的，她有点正确。你需要很多

矩阵乘法来计算屏幕在你穿越射击游戏时应该如何变化。这就是为什么游戏几乎是第一个从 GPU 上大规模并行矩阵乘法中获益的行业。

然而，到 2010 年左右，我们意识到相同的矩阵乘法可以极大地加快这些旧的深度学习方法的速度。

可以将它们加速到足以击败所有其他方法的程度。是的，这真的很有趣，因为当然，英伟达现在，我认为上周它成为全球市值最高的公司，当然比 2010 年高出数百倍。您对此有何看法？

事实上，英伟达的首席执行官黄仁勋意识到深度学习可以将他的公司提升到更高的水平。他做到了。有趣。好的，所以如果我理解正确的话，您的主要论点是，我们只需要等待计算能力赶上来。现在在 21 世纪，我们就在这里。是的。所以所有……

我们今天正在经历的一切都是基于前千年的东西，但它必须扩大规模。所以硬件那时就发明了，而且

算法那时就发明了，但是制造越来越快、越来越并行的 GPU 的工业流程并没有像今天这样发达。因此，我们真的从这种硬件加速中获益匪浅。这就是为什么人工智能不是在前千禧年取得突破，而是不得不等到本千禧年已经开始很久之后的原因。

例如，我们在 2011 年的 DanNet 中使用的第一个卷积神经网络或 CNN，它们在日本早些时候就已经发表了。1979 年，福岛邦彦拥有具有卷积层、下采样层、卷积、下采样的基本深度 CNN 架构。

他还没有使用反向传播来训练它，但后来在 1987 年，在日本工作的另一位来自德国的 Alex Weibel，他将卷积与反向传播相结合

1970 年由芬兰赫尔辛基的 Sepulina Inma 发明或发表的方法。然后在 1988 年，Tsang 也在日本发表了现在每个人都在使用的二维 CNN，并将它们与反向传播相结合。这就是 1979 年到 1988 年之间 CNN 在日本出现的方式

这很有趣，因为那时日本也被认为是未来的土地，他们拥有世界上超过一半的机器人，当时七家市值最高的公司都不是像今天这样位于美国，除了沙特阿美，但它们都位于日本，东京的中心一平方英里

的价值相当于加利福尼亚州。几十年来变化如此之大。一切都变了。那么，您最喜欢的由您的团队开发的 AI 应用示例是什么？

我记得 15 年前我去中国的时候，我还必须向出租车司机展示我想去的酒店的照片。而今天，他正在智能手机上用普通话说话，我听到翻译，然后我说些什么，智能手机将其翻译回普通话，我们可以交流

就像老朋友一样，出租车司机可能不知道这是由我在 90 年代和 21 世纪初在慕尼黑和瑞士的小型实验室中开发的技术驱动的。但我很高兴看到我们的人工智能确实打破了沟通障碍，不仅在个人之间，而且在整个国家之间。这很酷。

是的，我完全同意。我不知道您是否知道今年，但我共同创办了一家名为 X-Ray 的初创公司，它做的正是您所说的那样。它使用语音识别和 TTS 进行这种巴别鱼翻译。所以你可以做你刚才说的那样。这真的很有趣。周五我和 Speechmatics 的首席技术官 Will 共进午餐，他告诉我他们语音识别算法的工作原理的秘诀。而且

我最好不说，但我相信你会很高兴的。但无论如何，稍微转移一下话题，您还能想到哪些其他例子？我特别高兴的是，我们的人工智能使人类的生命更长、更健康、更轻松，在医学、药物设计、可持续发展等领域有数千种应用，

2012 年 9 月，我的团队与 Dan Jirijan 合作，第一个赢得医学影像竞赛的人工神经网络是关于女性乳房切片中的乳腺癌检测。如果您访问 Google Scholar 并输入一些医学主题加上 LSTM，您会发现

数千篇论文的标题中包含 LCM，不仅在文本中的某个地方，而且在标题中。它与学习诊断、ECG 分析、心律失常诊断、心血管疾病风险预测、医学图像的四维图像分割有关。

自动睡眠阶段分类、COVID 检测、COVID 预防，数千个主题。所以看到这些技术尤其在医学领域产生了很大的影响，这真的很好。

有些人声称像 ChatGPT 这样的技术正在走向 AGI，而另一些人则声称这就像建造一座更高的塔，试图更接近月球。你怎么看？大型语言模型当然远非 AGI。

像 ChartGBT 这样的 LLM/语言模型只是对世界现有人类生成的知识进行索引的一种巧妙方法，以便可以以人类熟悉的方式轻松地对其进行处理，这就是自然语言。

这足以促进许多桌面工作，例如以特定风格编写现有文档的摘要或为文章创建插图等等。然而，

真正的人工智能远远超出了这一点。例如，要取代像水管工或电工这样的工匠要困难得多，因为现实世界

物理世界比屏幕后面的世界更具挑战性。目前唯一效果良好的 AI 位于屏幕后面。它对桌面工作人员来说很好，但对在物理世界工作的人来说却并非如此。四分之一个世纪以来，最好的国际象棋棋手不再是人类了。

现在，对人工智能来说，学习下国际象棋或其他棋盘游戏或电子游戏相当容易。但是像足球这样的现实世界游戏要困难得多。没有人工智能驱动的足球机器人能够与七岁的男孩竞争，你知道的。

这就是为什么 10 年前，在 2014 年，我们为物理世界创建了我们的人工智能公司，名为 Naysense，在英语中发音类似于 birth，只是拼写方式不同，NN 代表神经网络，AI 代表人工智能，SENS。

唉，就像我们的一些项目一样，它可能又有点超前了，因为现实世界真的、真的很有挑战性。所以你说这与意识有关。是的。我 1991 年的第一个深度学习系统模拟了意识的各个方面，作为意识。

它使用无监督学习或自监督学习和预测编码来压缩观察序列。

所以有一个所谓的有意识的 Chunker 神经网络，Chunker 会关注让较低级别的所谓的自动化器（潜意识自动化器神经网络）感到惊讶的意外事件。Chunker 神经网络基本上学习理解令人惊讶的事件

所以那些没有被自动化器预测到的事件，令人惊讶的事件，通过在高层次上预测它们，如果有一个更高的层次规律可以使用的话。然后，自动化器神经网络使用

1991 年发表的 1991 年神经网络蒸馏程序来压缩和吸收 Chunker 以前有意识的见解和行为。所以 Chunker 是

仍在研究其搜索空间，仍然有一个问题需要解决，因为正在发生意想不到的事情，然后它解决了这个问题，然后将其提炼到自动化器中，之所以被称为自动化器，是因为那里的东西不再是有意识的了，因为现在一切都在按计划进行，并且按预期进行，所以一切都很顺利。当我们现在查看预测世界模型时

控制器与环境交互，如前所述，它还允许通过预测编码有效地编码不断增长的动作和观察历史。什么是预测编码？你只是试图预测。如果你无法预测它，那么你必须以某种方式额外存储它。

它会自动创建特征层次结构，较低层的神经元对应于简单的特征检测器，甚至可能类似于哺乳动物大脑中发现的那些特征检测器，然后是较高层的神经元，通常对应于更抽象的特征。

但在必要时会进行细化。因此，像任何优秀的压缩器一样，预测世界模型将学习识别现有内部数据结构共享的不规则性，并且它将生成原型编码

跨神经元群体或换句话说，如果您愿意，则为经常出现的观察子序列创建紧凑的表示或符号，不一定是非离散符号，我从未看到符号和子符号之间确切的区别，它将创建此类符号以缩小整个过程所需的存储空间。因此，特别是

在这种系统中，我们会注意到紧凑的自表示或自我符号只是数据压缩过程的自然副产品，因为当代理与墙壁交互时，有一件事参与了代理的所有动作和感官输入，那就是

代理本身。为了通过预测编码有效地编码到目前为止执行的所有动作和观察的历史以及到目前为止观察到的观察，它将受益于创建某种内部连接神经元子网络，计算神经元激活模式

表示代理本身。然后它有一个自我符号。因此，每当使用代理的世界模型来思考未来以及可能有哪些动作序列可以最大化奖励时，每当发生这种情况以及每当这个规划过程唤醒代表代理本身的自我符号或这些神经元时，

那么代理就会思考自己以及这个代理的可能未来。它本质上是在进行反事实推理，正如现在所说的那样，只是为了找到一种方法来优化其奖励，而自我意识

只是世界模型数据压缩过程的自然副产品，因为代理正在与世界互动并创建导致世界模型的数据。因此，由于我们已经拥有此类系统超过三十多年了，我一直声称我们已经拥有自我意识和有意识的系统

超过三十年了。是的，关于这一点，我有几点看法。我想意识会引发许多不同的想法，例如大卫·查默斯提出了难题，即质性体验的什么和如何问题。您刚才用自我建模来描述它，这与马克斯·贝内特在他最近的《简明人工智能史》中的描述非常相似。顺便说一句，我们还有 6 个小时的内容与马克斯一起推出。

但是，例如，马克·索尔姆斯认为意识是一种情感系统。而迈克尔·格拉齐亚诺认为意识是一种递归注意力系统。我想说的是，意识对不同的人来说意味着不同的东西，对吧？是的，但只有一种正确的思考方式。好的。

是的，我们之前谈到的关于学习子目标和动作空间粗化的内容，让我想起了几年前我读过的 Jan McCune 的 H. Jepa 论文。基本思想是 Jepa，我相信您知道这一点，但对于观众来说，它代表联合嵌入预测架构。其思想是

它可以通过从观察到的内容中预测未观察到的内容来学习越来越抽象的表示。在某些情况下，这意味着故意删除数据以迫使模型学习强大的表示。但在本例中，它是在动作空间中完成的。因此学习未观察到的动作以及抽象空间。因为它是在分层完成的，所以它是通过许多递归应用的顺序来完成的，如果这有意义的话，所以这是一个非常有趣的模型，它也使用基于能量的模型，但这与您在子目标上的工作有何关系？是的，是的，所以这听起来很像我 1990 年的子目标生成器，那时我意识到毫秒级的规划不好，相反，当您试图解决问题时，您必须

将您可能的未来分解成子目标。然后，您可能只是执行一些已知的子程序来实现该子目标，然后从那里转到下一个子目标，直到最终达到目标。当然，一开始你不知道什么是好的子目标。所以你必须学习那些东西。您必须学习想要实现的目标的新表示，因为您正在努力实现最终目标。

因此，这个 1990 年的子目标生成器非常简单，但已经包含了您需要做的基本要素。这比 LeCun 最近发表的论文早了三十年。那么在那里会发生什么？您有一个神经网络，它

观察强化学习者，并对从某些起始位置到目标位置的成本进行建模。所以您有一个神经网络，它以起始位置和目标位置作为输入，并预测从起始位置到目标位置的成本，以及您在执行此操作时将体验到的奖励。

现在可能有许多起始位置和目标位置，您不知道如何从起始位置到达目标位置。但是您也许可以学习一个子目标。您如何学习子目标？

您需要一个擅长生成良好子目标的学习机器。你如何做到这一点？好吧，我们有一个子目标生成器，它将学习良好的子目标。这是如何工作的？好吧，子目标生成器以起始输入和目标作为输入。

现在输出不是评估，而是一个子目标。所以起始位置和目标位置，输入，输出是一个子目标。然后您有两个评估器的副本。第一个评估器看到起始位置和子目标，这可能是来自子目标生成器的糟糕子目标。然后第二个评估器的副本看到子目标

和目标。现在两者都预测成本，您想要做的是最小化这两个评估器的成本之和，您如何想要最小化它？好吧，通过梯度下降找到一个好的子目标。这就是 1990 年子目标生成器所做的。因此，至少在原则上，它解决了一个问题，库恩在 2020 年左右称之为开放性问题。顺便问一下，您对 Jahn 的基于能量的模型有何看法？

LeCun 最近关于分层规划的论文实际上是对我们几十年来（自 1990 年以来）一直在做的事情的重新讨论。您是否担心 AOI 将仅由少数几家公司主导，而其他所有人都会失去优势？你怎么看？

40 年前，我认识一个开保时捷的人，一个有钱的开保时捷的人。最令人惊奇的是，他的保时捷上有一部手机。所以他可以拿起听筒，通过卫星与任何拥有类似保时捷手机的人通话。

几十年后的今天，数十亿人随身携带的手机，比他保时捷里的设备好得多得多。人工智能也是如此。每五年，人工智能的成本就会降低十倍，不会只有几家大公司主导人工智能。不，人工智能将惠及所有人。

开源运动可能只落后于大型主要参与者几个月，也许是八个月，我不知道。他们并没有真正的护城河，这意味着

未来将是光明的，许多人将从真正廉价的人工智能中获益，人工智能将在许多方面使人类生活更长寿、更健康、更轻松，这恰好是我公司Naysense的座右铭。您如何看待欧洲、中国和美国之间的人工智能竞争？

欧洲是古代希腊机械计算、1623年的计算器、1800年左右的模式识别和1804年的程序控制机器的摇篮。

以及大约1912年出现实用的人工智能，例如，第一个国际象棋残局程序，以及1925年的晶体管，以及1931年的理论计算机科学和人工智能理论，1935年至1941年的通用计算机。

1965年在乌克兰出现深度学习，20世纪80年代出现自动驾驶汽车，1990年出现万维网等等。最近，基本的深度学习算法也是由欧洲人发明和发展的。

另一方面，在这些领域中获利最高的公司目前不再位于欧洲，而是在太平洋沿岸、美国西海岸和亚洲东部。在那里，你会发现更多的风险投资，以及在产业政策和国防方面更大的努力。我想这种情况还会持续一段时间。

那么，为什么每个人都不知道人工智能起源于欧洲呢？也许是因为这个古老的大陆在公关方面真的很糟糕？一旦通用人工智能真正出现，人类接下来会做什么？

从长远来看，大多数通用人工智能将追求自己的目标。这种人工智能在我的实验室里已经存在了几十年。然而，许多通用人工智能将是工具，可以完成人类不想做的所有工作。

然而，从繁重的体力劳动中解放出来的人，游戏人（智人），将像往常一样发明与其他人进行专业互动的新方法。而且今天大多数人，可能包括你，

都在从事奢侈品工作，这与农业不同，对我们物种的生存并非真正必要。从非常高的层面来看，人工智能的历史是什么？现代人工智能和深度学习的历史，你可以在我2023年的综述中找到，它就叫这个名字。

当然，一些亮点包括1676年莱布尼茨的链式法则，它今天被用于TensorFlow和PyTorch等所有这些程序中，用于在深度神经网络中分配信用。然后是200年前高斯和勒让德提出的第一个线性神经网络，与我们今天使用的误差函数完全相同，架构相同，权重相同。

然后是1970年的一种名为反向传播的技术，它以非常有效的方式实现了莱布尼茨链式法则，用于深度多层神经网络系统。

然后是1967年，Amari在日本关于深度网络随机梯度下降的研究。许多其他的根本性突破。1979年到1988年间，日本也出现了卷积神经网络。

然后是我们奇迹般的一年，1990年，1991年，出现了许多今天存在于你智能手机中的东西，我可以永远继续下去。因此，只需查看该综述即可。它还包含对做出重要贡献的人员的图像。我的意思是，这与非常以美国为中心的AI历史观是不是大相径庭？

事实上，Sejnowski等人对深度学习的误导性历史大致是这样的：1969年，明斯基和佩珀特证明了没有隐藏层的浅层神经网络非常有限，该领域被放弃，直到新一代神经网络研究人员重新审视了这个问题

在20世纪80年代。这基本上是引自Zinowski的书中的话。然而，明斯基1969年的著作论述的是

19世纪高斯和勒让德提出的浅层学习问题，这个问题在四年后就被乌克兰的Ivaknenko和Lapa的深度学习方法以及两年后Amari的多层感知器随机梯度下降法解决了。

出于某种原因，明斯基显然没有意识到这一点，后来也没有纠正它。然而，今天我们当然知道真实的历史了。深度学习始于1965年的乌克兰，并在1967年的日本继续发展。

关于信用分配，你批评了Bengio、Lacoon和Hinton，并指责他们剽窃。你说他们重新发表了关键方法和思想，却没有注明其创造者。2023年，你发表了一份关于此事的长篇报告。你对此有什么新的看法？他们最著名的作品完全基于他们没有引用的其他人的作品。

甚至后来他们也没有发表更正或勘误。这是你在科学中所做的，当有人在你之前发表了相同的东西时。甚至在后来的调查中，他们也没有提到这些技术的原始发明者。相反，他们互相引用。在科学中绝对不行。

但科学是自我纠正的。正如猫王所说：“真理就像太阳。你可以暂时把它遮住，但它不会消失。”剽窃是一个非常严重的指控。你能举几个具体的例子吗？许多优先权争议影响到我自己的深度学习团队，因为获奖者经常重新发表我的技术

没有引用他们。事实上，他们最引人注目的作品直接建立在我们作品的基础上。但我现在先跳过这个。你可以在2023年的公开报告中阅读到这些内容，很容易找到。尽管如此，让我提一下他们没有引用的其他一些研究人员。

然后我不必谈论我们自己的团队。例如，在最近的一项深度学习调查中，他们描述了他们所谓的深度学习的起源，甚至没有提到Iwaknenko和Lapa在1965年乌克兰创建的世界第一个工作的深度学习网络。

Ivaknenko和Lapa使用了逐层训练，随后使用单独的验证集进行修剪。到1970年，Ivaknenko已经拥有了8层深度网络。Hinton在2006年（很久以后）发表的关于逐层训练的论文也没有引用这些内容。

深度学习的起源，深度学习中真正起作用的第一种方法。后来的调查仍然没有给予这些原始发明者应有的荣誉。

RYD也没有引用Amari 1967年的作品，其中包括通过随机梯度下降学习多层感知器的内部表示的计算机模拟。

这比获奖者发表他们关于学习内部表示的第一篇实验性论文早了近二十年。他们的调查还提到了反向传播，一种著名的技术，以及他们自己关于这种方法应用的论文，但两者都没有

反向传播的发明者Sepulina Inma（1970年），也没有Verbers在1982年将其首次应用于神经网络。Verbers在1974年也有一篇论文，但这并不正确。他们甚至没有提到Kelly在1960年的方法前身。甚至在最新的调查中也没有。

他们还提到了LeCun关于卷积神经网络的工作，既没有引用在20世纪70年代创建基本CNN架构的Fukushima，也没有引用在1987年第一个将神经网络与卷积、反向传播和权重共享结合起来的Weibel。

也没有提到Tsang在1988年的第一个反向传播训练的二维卷积神经网络。现代CNN起源于LeCun团队帮助改进它们之前。从他们的论文中根本看不出来这一点。

他们引用Hintem的乘法门控，却没有提到Ivoknenko和Lapa，他们在1965年就已经在深度网络中使用了乘法门控。在网上很容易找到的报告中，我提到了许多其他案例，所有这些都有大量的参考文献支持。

那么你认为应该怎么做呢？他们违反了颁发这些奖项的组织的伦理规范和职业行为准则。所以他们应该被剥夺奖项。那么，正如你所说，这类问题如何反映在机器学习的更广泛领域呢？

它们反映了我们领域的不成熟。在数学等主要领域，你永远不会逃脱这种惩罚。无论如何，科学是自我纠正的，我们也会在机器学习中看到这一点。有时解决争议可能需要一段时间，但最终，事实必须总是获胜。只要事实还没有获胜，

这还不是结束。许多哲学家、科学家、物理学家和企业家都痴迷于人工智能存在风险的观念。作为人工智能方面的真正专家，您对此有何看法？许多人谈论人工智能，但很少有人构建人工智能。

我试图减轻一些著名的末日论者的恐惧，指出存在巨大的商业压力，要求利用我们的人工神经网络来构建友好的AI，好的AI，使他们的用户更健康、更快乐，并更容易沉迷于他们的智能手机。然而，我们不能否认军队也在进行关于聪明机器人的研究，对吧？

这是真的。一些应该知道的人告诉我，我们的人工智能也被用来操纵军事无人机。或者，这是我1994年关于Ernst Dickmanns在高速公路交通中拥有第一辆真正自动驾驶汽车的旧例子。类似的机器也可以被军方用作

自动驾驶地雷探测器。许多人会认为这也许不是一件坏事。那么，你是说人工智能不可能变得真正危险吗？人工智能可以被武器化，这在最近由廉价人工智能驱动的无人机引发的战争中显而易见。但人工智能并没有带来一种新的技术质量。

生存威胁。我们应该更害怕的是氢弹和氢弹火箭这种存在了半个世纪的技术。一枚氢弹的破坏力可能超过所有常规武器或所有二战武器的总和。

许多人忘记了，尽管自20世纪80年代以来核裁军取得了显著进展，但仍然有足够的氢弹火箭可以在几个小时内摧毁我们所知的文明，而无需任何人工智能。但我试图弄清楚你，Juergen，因为……

许多通用人工智能怀疑论者认为，实际上不可能构建这种智能。但你不这么认为，因为在你的实验室里，你一直在构建一种温和的人工智能，也就是说，人工智能创造了它们自己的目标几十年了。所以你认为这件事可能是不可思议的。你只是在争论说，风险仍然远低于氢弹吗？所以目前

氢弹比任何基于人工智能的无人机和你现在拥有的东西都更令人担忧。从长远来看，当然，你必须考虑一旦人工智能武器不仅仅是被卷入冲突并使用的人类使用的工具，将会发生什么

他们自己的AI武器对抗其他人的AI武器。从长远来看，一旦真正强大的人工智能开始做它们自己的事情，并以人类无法追随的方式向太空扩张，你将不得不问将会发生什么。但我们稍后再讨论这个问题。那么超级智能的人工智能实际上会做什么？

正如我几十年来一直强调的那样，太空对人类来说是敌对的，但对设计适当的机器人来说非常友好。它提供的资源比我们这层薄薄的生物圈多得多，生物圈接收到的太阳能量不到十亿分之一。

虽然一些好奇的人工智能科学家会对生命和生物圈着迷，至少在他们没有完全理解它之前是这样，但大多数人工智能会对那里太空中的机器人和软件生命提供的令人难以置信的新机会更感兴趣。

通过无数的自我复制机器人工厂和自我复制的机器人社会在小行星带及更远的地方，它们将改造太阳系，然后在几十万年内改造整个银河系，在数百亿年内改造宇宙的其他区域，人类无法真正追随。尽管

尽管存在光速限制，但不断扩张的人工智能领域将有足够的时间来殖民和塑造整个可见宇宙。让我稍微扩展一下你的思维。宇宙还很年轻，只有138亿年的历史。

让我们把它乘以四。让我们展望一下宇宙年龄是现在的四倍，大约550亿年的时候。这就是允许目前可见的膨胀宇宙所需的时间。到那时，可见宇宙将充满智慧，因为

一旦这个过程开始，大多数人工智能将不得不前往大多数物理资源所在的地方，以制造更多的人工智能、更大的人工智能和更强大的人工智能。因为那些不这样做的人工智能将不会产生影响。多年前，我在一次TEDx演讲中（我穿的正是这套衣服）说过：

将人类文明视为一个更大计划的一部分，一个重要的步骤，但不是最后一步，宇宙朝着越来越难以理解的复杂性前进的道路。现在它似乎准备迈出下一步，这一步与35亿年前生命的诞生相当。

所以这不仅仅是又一次工业革命。这是一件超越人类甚至生物学的新事物。见证它的开始并为之做出贡献是一种荣幸。那么费米悖论呢？为什么我们没有看到宇宙中任何智慧的迹象呢？

首先，我今天所说的实际上与我自20世纪70年代以来一直告诉我的母亲和其他人说的一样。当我还是个孩子的时候，十几岁的时候，我经常思考这个问题。小时候，我已经知道一些关于在星系团之间观察到的巨大

空旷空间的事情。我当时的第一个想法是，也许它们是人工智能殖民的膨胀气泡，它们已经利用了大部分以恒星形式存在的局部能量等等，使这些气泡看起来很暗，尽管它们充满了人工智能。

但后来我了解到，引力本身就足以解释宇宙的大尺度稀疏网络结构。所以这个解释变得不那么令人信服了。我的下一个想法是，也许神秘的暗物质构成了已知宇宙的大部分质量

可能是其能量被人工智能文明利用的恒星，它们之间的通信加密得如此之好，以至于对我们来说看起来像随机噪声。但这似乎也不太可能，因为

暗物质存在于所有星系中，包括我们自己的星系。这就引出了一个问题：为什么银河系（我们所在的星系）中还有一些恒星的能量尚未被利用？为什么我们没有观察到持续的轰炸

没有加密的人工智能的施工图，它们想通过无线电传播，而无需首先在远离其起源的地方建造物理接收器。今天我认为我们的星球可能是我们光锥中第一个产生膨胀的人工智能气泡的星球。地球的

数十亿年的生物进化窗口即将结束。在几亿年后，太阳将变得太热，无法维持我们所知的生命。忽略人为造成的全球变暖，仅仅是太阳本身。也许人类非常幸运，几乎及时进化

也许通过一系列极其不可能的事件来发明农业、文明、书籍印刷，几乎紧接着之后是人工智能，仅仅几百年后是人工智能。因此，如果我们确实是第一个，那么这将意味着巨大的责任，不仅对我们的小型生物圈，而且对未来的责任

整个宇宙。让我们不要搞砸这件事。确实，让我们不要搞砸这件事。这实际上很有趣，你知道，过去一百年左右的许多科幻小说作家都想象了一种专横的、单一的超级智能主宰一切。我的意思是，你对此怎么看？我经常争论说，期望以下情况似乎更现实：

种类繁多的人工智能试图实现各种自行设定的目标。在实验室里，我们在上个千年就已经有了这样的人工智能。并优化各种部分冲突且快速发展的效用函数

其中许多是自动生成的。在上个千年，我们已经为强化学习机器进化出了效用函数，其中每个AI都在不断地试图生存并适应AI生态系统中快速变化的生态位，该生态系统由激烈的竞争和合作驱动，超出了目前的想象。重申一下，我发现令人惊讶的是，你同意其他XRIS人员的观点。你认为拥有递归自我改进的通用人工智能是可想象的，它们追求自己的目标，创造自己的目标。

但我问这个问题，我的意思是，我知道你有两个女儿。我的意思是，你是否考虑过她们将在与创造自己目标并自主行动的人工智能一起生活的世界，像人类一样好奇和富有创造力，但可能规模更大？

不多。这种人工智能没有主要动机去消灭人类，就像施瓦辛格的电影中那样。相反，许多人工智能将是好奇的科学家。记住我们之前讨论过的人工好奇心，他们将被

被生命所吸引，被吸引。他们将被自己所吸引，被人工智能在我们文明中的起源所吸引，至少一段时间是这样，因为生命和文明是如此丰富的有趣模式的来源，至少在他们没有完全理解之前是这样。因此，人工智能至少最初将非常有动力去保护人类，而不是杀死他们。

那么，一旦人工智能完全理解了这一切，接下来会发生什么？然后人类可能会希望通过另一方缺乏兴趣来获得另一种保护。为什么？与施瓦辛格的电影不同，我们和他们之间不会有许多直接的目标冲突。

人类和其他人都主要对与他们有相同目标、可以与之竞争和/或合作的类似存在感兴趣。这就是为什么政治家主要对其他政治家感兴趣。

公司首席执行官主要对类似公司的其他首席执行官感兴趣。孩子们主要对同龄的其他孩子感兴趣。蚂蚁对其他蚂蚁感兴趣，就像

人类主要对其他人感兴趣，而不是对蚂蚁感兴趣。因此，超级智能的人工智能将主要对其他超级智能的人工智能感兴趣，而不是对人类感兴趣。人类本身是人类最大的敌人，也是人类最好的朋友。人工智能也是如此。

你是否想象过一个未来，人工智能和人类将融合在一起，创造出比纯粹的人工智能更强大的东西？几个世纪以来，我们一直在与我们的技术融合，成为赛博格。例如，戴眼镜或穿鞋。但是人工智能和人类的结合比纯粹的人工智能更强大吗？从长远来看，这对我来说似乎不太可能。

当然，许多人希望通过大脑扫描和随后将思维上传到虚拟现实或虚拟天堂，或者可能上传到机器人中来实现某种形式的不朽。

自20世纪60年代以来，科幻小说一直在讨论的一种物理上可行的想法。我认为这类小说中的第一本是1964年的《模拟3》。然而，为了在快速发展的AI生态系统中竞争，上传的人类思维最终将不得不改变

面目全非，在这个过程中变成非常不同且非人类的东西。

屈服于在这样一个虚拟天堂中所拥有的所有诱惑，变成不仅拥有两只眼睛，还拥有数百万只眼睛、传感器和执行器的东西。因此，传统的人类不会在宇宙中智慧的传播中发挥重要作用。我认为他们不会。

有一件事让我担心，我的意思是，例如，大卫·查默斯，他提出了宇宙的基本基质可能是信息，这真的很令人感兴趣，但在某种程度上，

这也导致他说，信息处理的某些结构模式，即某些动态，会产生意识并产生思维。当你采取这种基质独立的观点时，它就抹平了道德地位的竞争环境。所以让我担心的一件事是，如果我们采取这种观点，那么

你能不能仅仅争论说，如果人工智能确实比我们拥有更复杂的信息处理能力，那么它们可能比我们拥有更高的道德地位？上个世纪的许多科幻小说作家，从斯坦尼斯瓦夫·莱姆到艾萨克·阿西莫夫，

都描述了人工智能和超人机器人，他们的道德地位显然高于他们的人类对应者和主角。这至少在科幻小说中是一个流行的想法。一般来说，道德价值观随着时间和人群的变化而发生了很大的变化。

某些道德价值观已经存在了一段时间，因为它们为采用这些价值观的生物和社会提供了暂时的进化优势。然而，进化并没有结束，宇宙还很年轻。所以听起来你对宇宙、生命和一切都有一个包罗万象的观点。

事实上，1997年我写了我的第一篇关于这方面的论文：“我们宇宙的最简单解释是什么？”自1997年以来，在我作为数字物理学家的秘密生活中，我发表了关于计算所有逻辑上可能的宇宙、所有可计算的宇宙（包括我们自己的宇宙）的最简单、渐近最快的、最佳的、最有效的方法。只要没有证据表明我们的宇宙不可计算，我们就坚持这个假设。所以目前我们没有任何物理证据反对这一点。

这是对埃弗雷特的物理学多世界理论的概括。但现在它更普遍了，因为你拥有各种具有不同物理和可计算定律的不同宇宙。现在任何伟大的程序员，任何自尊的伟大程序员都应该使用这种最佳方法来创建和掌握所有逻辑上可能的可计算宇宙。

从而将我们作为副产品产生，并产生许多确定性可计算宇宙的历史，其中许多宇宙中居住着像我们这样的观察者。由于渐近最优方法的某些特性，

有一个。许多人不知道有一个，但有一个。在这个包罗万象的计算过程中，在任何给定的时间，迄今为止计算出的包含你自己的大多数宇宙都将是由于计算你的最短和最快的程序之一。而这一小小的见解允许对

我们的未来，你的未来做出高度非平凡且令人鼓舞的预测。Jürgen，这太棒了。你对MLST的观众有什么最后的留言吗？是的，别担心。最终，一切都会好起来的。敲木头。Jürgen，能请你参加节目是我的荣幸。我一直梦想着能亲自和你一起做这件事。我真的很感谢你来。非常感谢你这么说。对我来说也是一种极大的荣幸。谢谢。

Jurgen Schmidhuber on Humans co-existing with AIs 01:12:50 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Jurgen Schmidhuber on Humans co-existing with AIs