We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The Elegant Math Behind Machine Learning - Anil Ananthaswamy

2024/11/4

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Anil Ananthaswamy

Topics

Anil Ananthaswamy: 本书探讨了现代人工智能背后的数学基础，涵盖了微积分、线性代数、概率统计和优化理论等基本知识。作者认为，理解这些数学原理对于安全有效地使用人工智能至关重要，只有理解了数学，才能指出机器学习的局限性，例如机器学习系统目前只是在进行复杂的模式匹配，而不是真正的推理。本书还回顾了机器学习的历史，从早期的感知器算法到现代深度学习，介绍了各种重要的算法，例如k近邻算法、支持向量机和深度神经网络。作者特别关注了深度学习中的一些关键概念，例如偏差-方差权衡、过参数化和涌现行为，并探讨了自监督学习的突破性意义。此外，作者还讨论了深度学习模型与人类认知的异同，以及归纳先验在机器学习模型中的作用。本书也涉及到反向传播算法的历史和作用，以及维度灾难等挑战。总而言之，本书旨在帮助读者理解机器学习的数学基础，并对人工智能的未来发展有更深入的认识。 Anil Ananthaswamy: 本书还探讨了人工智能的潜在风险，例如就业冲击和社会偏见的加剧，并强调了理解人工智能的数学基础对于减轻这些风险的重要性。作者认为，未来的AI革命将由自监督学习主导，因为自监督学习不需要人工标注数据，可以更容易地进行大规模应用。在讨论人类认知与人工智能的关系时，作者指出，虽然大型语言模型在某些方面表现出类似人类推理的能力，但这只是复杂的模式匹配的结果，并非真正的推理。作者还探讨了能动性、自我意识等概念，以及阿尔茨海默病等神经心理学疾病对自我认知的影响。最后，作者对深度学习的未来发展进行了展望，指出目前关于深度神经网络的缩放定律是经验性的，尚不清楚这些定律是否会随着系统规模的扩大而一直保持下去。作者认为，深度学习可能存在计算上的局限性，例如在组合能力方面，但生物神经网络的存在证明了复杂智能系统的可能性，这为深度学习的未来发展提供了启示。

Deep Dive

Chapters

Anil Ananthaswamy discusses his inspiration to write about the mathematics behind machine learning, driven by his software engineering background and a desire to understand the technology from the ground up.

Ananthaswamy's software engineering background sparked his interest in machine learning.
He undertook a fellowship at MIT to teach himself coding and machine learning.
The beauty and elegance of the mathematical proofs in machine learning inspired him to communicate these ideas to a broader audience.

Shownotes Transcript

如果我们想想人类，没有人会为了我们而整理数据。我们的大脑在进化过程中已经学习到了自然世界中存在的模式。既然自然界就是这样做的，就没有理由期望我们构建的机器也无法利用这种技术而强大。

说实话，既然我们相信我们不能只让从业者来构建这些人工智能系统，我们需要在我们的社会中增加更多的人，无论是科学传播者、慷慨的政策制定者，还是真正对这项技术感兴趣的用户，但他们应该具备一些数学背景，或者愿意坚持并学习足够的数学知识来理解机器学习。只有当我们理解了数学，才能指出，这些东西并非以我们认为的方式进行推理。因为现在的情况是，这些机器只是在进行非常复杂的计算。

欢迎回到M.L.S.T。我们正在采访这本书的作者，为什么机器学习由一位名叫安南塔斯瓦米的新作者撰写。

安南塔斯瓦米于7月17日在前往印度的途中飞越英国。

他不得不停留大约12个小时。我邀请他参加A.M.

S.T.访谈。不幸的是，时间安排冲突了。我想我以为他会在前一天或后一天到达，所以我不得不让我的好朋友马库斯去机场接他，带他到工作室，并代我提问。所以我将重新录制问题。

我认为像这样不幸的事情会发生，但我非常高兴我设法让主要人物出现在工作室，即使我不在那里。所以，是的，为什么机器会学习？这到底是怎么回事？这是一本关于该领域教学史的非常有趣的作品，它深入探讨了机器学习中许多方法背后的基本数学原理。安南塔斯瓦米是一位经验丰富的科学作家。

你应该看看他写过的其他书。他真的很棒。这本书写得很好。

顺便说一句，我很喜欢读这本书，他还在上面签名了。我希望你们能喜欢与安南塔斯瓦米的谈话。你能自我介绍一下吗？

我叫[名字]，我是一名自由撰稿记者。我接受过计算机和电子工程方面的培训。我在印度获得了学士学位，并在西雅图的华盛顿大学获得了硕士学位。在开始写作之前，我在软件工程领域工作了几年。

在某个时候，我意识到我热爱科学和写作这两件事可以结合起来，我可以成为一名科学记者或科学作家。所以我回到学校学习科学新闻，然后来到伦敦在《新科学家》杂志实习。我在那里实习了六个月。

这最终导致了正式的职位。我在伦敦担任了《新科学家》杂志的撰稿人，后来成为物理新闻编辑，然后成为新闻编辑，并在《新科学家》杂志工作了很长时间。与此同时，我还开始撰写我的书籍。

第一本书名为《天使物理学》，这是一本关于宇宙学和额外物理学的游记，每一章基本上都是一篇游记，我去了地球上一些非常极端的地方，比如沙漠、西伯利亚的贝加尔湖（在严冬），以及南极洲一直到南极点。这本书基本上探讨了极端物理学。第二本书名为《不在场的人》，探讨了人类自我意识。

所以，当你问“我是谁”时，你会从神学和哲学中得到答案。在这本书中，我试图从神经科学和神经生物学的角度回答这个问题。第三本书名为《同时穿过两扇门》，它基本上讲述了一个名为“双缝实验”的单一实验的故事，这是一个非常神秘的实验，试图用我们对世界的标准理解来解释，但它却以量子力学水平上发生的事情为特色。它真正讲述的是量子力学和量子基础的故事，但通过一个实验的历程来讲述，讲述了这个实验在两百年内的各种变体，以及最终——我的最后一本书，也就是关于机器学习的书，名为《机器如何学习》，它探讨了支撑现代人工智能的数学原理。是什么促使你撰写关于机器学习优雅数学的著作？你能举一个你认为非常精妙的例子吗？

在撰写关于粒子物理学、宇宙学或神经科学的文章时，我从未觉得这对我来说是个人可以做的事情。这更多的是关于理解科学并撰写关于它的文章。

但在过去的几年里，我发现自己越来越关注机器学习。鉴于我的软件背景，以及我曾经是软件工程师的事实，每当我写关于机器学习的文章时，我都会觉得我的软件工程师身份苏醒了。我会看着这些文章，渴望真正深入了解这项技术。所以，大约五年前，我在麻省理工学院做了一次研究员，名为“夜间科学新闻研究员”。作为研究员的一部分，我决定重新教自己编程。在停止编程二十年后，我实际上回到了计算机科学课程，与青少年一起学习编程，并开始构建一些非常基本的机器学习系统。我学习了一些小技巧，作为探索构建深度学习系统（基于深度神经网络的系统）的一部分，我对理解机器学习背后的数学原理越来越感兴趣。在我研究员的最后阶段，我们都待在公寓里，我在波士顿和加利福尼亚州伯克利待在公寓里，花了六七个月的时间反复听这些机器学习讲座，基本上教自己。在某个时候，我开始意识到机器学习背后的数学非常美妙，我认为那时我的作家身份苏醒了，我想把这些想法传达给我的读者。所以，这就是这本书的想法——《机器如何学习》，它基本上是关于现代人工智能背后的一些概念性数学原理。关于机器学习的数学是什么样的优雅？

许多人认为机器学习主要涉及微积分和线性代数，以及一些统计学知识。对我来说，机器学习的美丽和优雅在于我学习机器学习时遇到的某些定理和证明。例如，如果你回到1959年，当第一个人工神经网络被设计出来时，有一个名为感知器收敛定理的定理及其证明。这是一个非常简单的证明，基于线性代数，当我听一位教授向学生们解释这个定理时，我似乎爱上了这个主题。我真的很想告诉读者，这个主题中有一些美妙的东西。所以，感知器收敛定理就是一个关于机器学习数学真正美丽和优雅的例子。当然，优雅总是主观的，我可能觉得美妙和优雅的东西，其他人可能不会。但是，例如，还有一种名为核方法的技术，这是一个非常有趣的想法，它将存在于低维空间的数据投影到高维空间，甚至可能是无限维空间。这些核方法的整个方法依赖于高维空间中需要发生的数学，但计算始终在低维空间中进行。

所以，有一个核函数，它将数据投影到高维空间。你的所有算法都在高维空间中运行，但实际计算发生在低维空间中。这个过程，将低维数据推到高维，在高维空间中做你想做的事情，但实际上并没有在高维空间中进行任何计算。

当你看到它时，它真的很美妙，它非常强大。在我进行研究时，我发现了许多这样的想法，这使得撰写这本书变得非常容易。

你认为机器学习中哪些基本数学学科是必不可少的？

所以，当我读这本书时，我想到的是，可能拥有高中水平或大一水平数学知识的人，现在想了解机器学习的基础知识。我们不是在谈论那些将成为从业者的人，而是在谈论那些需要比仅仅阅读杂志文章更深入地了解机器学习的人。对于这类读者，我认为你真正需要掌握的学科是微积分、线性代数、概率论和统计学的基础知识，以及一些优化理论。这并不多，但是当这些部分结合在一起时，你就能很好地理解机器学习为什么以及如何运作。

许多最近的人工智能进步都非常经验性地出现，你认为我们应该掌握多少机器学习的数学基础？

我认为现代人工智能或现代机器学习，它基本上基于深度学习和深度神经网络。有很多经验性的事情正在发生。人们只是在构建东西，发现它们以这种或那种方式运作，而并没有真正理解这些算法是如何工作的。为了真正理解这些系统为什么强大，或者它们的局限性是什么，我认为答案实际上将来自弄清楚这些算法的数学基础。目前，这个领域有很多关于这些机器如何运作的经验性证据。我们仍在努力弄清楚能够解释这些东西为什么如此有效，或者更重要的是，它们的局限性是什么的精确数学公式。直到我们从数学的角度了解这些机器的所有过程，才有可能对这些机器的能力和局限性进行界定。

你的书如何展示该领域（机器学习）的丰富历史，而不仅仅是深度学习？

我的意思是，如果你今天问任何关于人工智能的人，他们可能会说它就是ChatGPT。是的，这些大型语言模型确实引起了轰动。它们使用一种名为深度神经网络和深度学习的技术，但这并不是机器学习的全部历史。机器学习的历史可以追溯到很久以前，还有很多其他事情发生，而不仅仅是深度学习。

我之前提到过，深度神经网络或人工神经网络的早期历史始于20世纪50年代末和60年代初。这些工作被称为单层神经网络，基本上是人工神经元的一层。设计出来的算法足以训练这些单层神经网络来执行某些任务。但很快就很清楚，如果你在输入和输出之间有多于一层，这层被称为隐藏层，如果你在网络中有多于一层隐藏层，你无法使用你训练单层神经网络的算法。即使你可以训练单层神经网络，它们也无法做太多事情。

所以，到20世纪60年代末，人们已经放弃了多层神经网络，认为这些东西不会很有用。但机器学习研究并没有停止。有许多其他事情正在发生，有许多非神经网络方法。

例如，在20世纪60年代，一种非常强大的算法被数学分析，它被称为k最近邻算法，它非常流行。有许多技术涉及使用基本理论和其他统计学思想来开发非常强大的算法。我个人最喜欢的非神经网络机器学习算法是支持向量机。支持向量机出现在20世纪90年代初期，并在很长一段时间内主导了非神经网络领域。这些算法试图找到一些分类问题的最优解。作为算法的一部分，它们也采用了我们刚才讨论过的技术，即获取低维数据并将其投影到高维空间，在高维空间中找到最优边界，但在低维空间中进行计算。最优边界和核方法的结合使得这些支持向量机非常强大。所以，在20世纪50年代末和60年代初出现第一个神经网络，以及最近十年深度神经网络全面复兴之间，有很多事情可以谈论。这本书也涵盖了中间的历史，我认为理解这些其他算法背后的数学概念对于理解这些机器内部是如何表示数据、如何看待世界以及它们如何处理数据至关重要。

你使用哪些标准来选择你书中讨论的算法和概念？

我尝试列出书中内容时，有两个关键点。首先，也是最重要的，算法必须能够演示一些关键的数学概念，例如，最近邻算法对于理解数据如何转化为向量，以及这些向量如何在高维空间中映射，以及向量之间的关系如何决定算法的运作至关重要。利用最近邻算法，可以帮助读者更好地理解数据如何转化为向量，并嵌入到高维空间中。因此，我重点关注每个算法是否突出了数学上的关键方面，这对于构建机器学习的整体图景至关重要。当然，这只是主观的。

其他人，其他作者可能会选择不同的算法集，并同样能论证这些算法也能够阐明数学概念。在确定需要解决的特定数学问题后，我还需要考虑作者的视角，并选择那些背后有故事的算法，以使故事更引人入胜。仅仅算法背后有良好的数学基础是不够的，算法本身的发展也必须有故事可讲。

我可以讲述这些算法的故事。我坚信，当我们理解的事物与故事联系在一起时，我们就能更好地理解事物。因此，我需要找到那些既包含关键数学元素，又包含丰富故事的算法。

为了深入了解机器学习，需要掌握哪些基本的数学学科？

我认为微积分绝对是必不可少的，基本的微积分，不需要太复杂。代数也是如此，这取决于你是要构建这些系统的人，还是仅仅使用数学来理解正在发生的事情，而不需要进行研究或构建系统。

如果你只是想了解这些机器为什么这样做，那么你不需要太多。你需要理解向量和矩阵的概念，以及如何操作向量和矩阵。这并不是很复杂的东西。

你还需要一些概率论和统计学的知识。你需要理解一些基本概念，例如优化理论，这听起来像一个很专业的词，但有一些非常基本的技术，我们需要理解这些机器是如何学习的。它们使用某些技术来优化其参数空间。总而言之，这并不需要很多复杂的数学。至少，如果你想了解机器学习的内部运作，就需要这些知识。当然，如果你想构建这些系统，并进行研究，那么你的数学知识就需要更精深。

你能解释机器学习中的偏差-方差权衡吗？

是的，偏差-方差权衡是一个非常经典的权衡。其基本思想是，当你训练机器学习模型来学习数据中的模式时，如果模型过于简单，那么它将无法很好地学习数据中的模式。

如果模型参数太少，那么当它被提供数据并被要求找出数据中的模式或相关性时，如果模型参数不足，它将无法很好地学习数据中的模式。因此，参数过少的简单模型具有高偏差。但你可以使模型更复杂，通过增加模型参数。随着参数的增加，模型开始过拟合数据。例如，如果数据包含很多噪声，模型实际上会拟合所有噪声。

就像一个简单的模型可能在数据中画一条直线，而一个非常复杂的模型将画一条曲线，穿过每个数据点，其中一些可能是噪声。因此，你基本上是过拟合了数据。当模型过拟合数据时，你处于过拟合状态。

如果现在测试模型在训练数据上的表现，那么在低偏差侧，模型在训练数据上犯错误的风险很高。

它在训练数据上犯了相当多的错误。但是，随着模型复杂度的增加，你朝着更高的偏差方向移动，模型开始非常适合数据，直到它过拟合。因此，在高偏差侧，你基本上在训练数据上没有犯任何错误。

但是，有趣的是，你保留一部分数据，不给机器看，我们称之为测试数据。当你测试在训练数据上训练的机器时，在低偏差侧，你仍然会在测试数据上犯很多错误。

然后，随着模型变得越来越复杂，你在测试数据上犯的错误开始减少。但是，在模型开始过拟合训练数据时，你在测试数据上犯的错误又开始增加。这就像有一个曲线，它逐渐下降到零，这是训练误差的风险。但还有一个曲线，它先下降到最小值，然后开始上升。这就是偏差-方差权衡。你希望你的模型处于最佳状态，在训练数据上犯的错误足够小，但在测试数据上犯的错误也足够小。

过参数化在深度学习模型中扮演什么角色？你能解释一下你书中最后一章，关于认知误差的内容吗？

我刚才谈到的偏差-方差曲线，随着模型变得越来越复杂，模型中的参数数量也在增加。

在深度神经网络中，观察到的是，模型的参数数量远远超过训练数据的数量。我们刚才谈到的标准机器学习理论指出，随着模型参数数量远大于训练数据数量，你基本上会过拟合训练数据。你应该处于过拟合状态，因此你在测试数据上的损失应该继续增加。事实证明，深度学习并非如此。

我们没有一个很好的理论来解释为什么会出现这种情况。深度学习系统，深度神经网络似乎违反了标准机器学习理论的一些既定规则。

它们在测试数据上的表现很好，这被称为泛化能力。它们具有泛化能力，尽管它们是过参数化的。老实说，我们不知道为什么会出现这种情况。

在我的书中，我将深度学习系统中的这一方面称为认知误差。这不是我创造的术语，而是我与一位研究人员交谈时他提到的。正如我刚才提到的偏差-方差曲线，标准机器学习系统通常位于标准偏差-方差范围之内。然而，在深度学习系统中，训练误差会下降到零，而测试误差会达到最大值，此时机器学习系统已经对训练数据进行了插值。但他们注意到，如果你继续训练，测试误差又开始下降。现在，曲线的一部分处于未知领域。我们真的不知道为什么机器学习系统，或者在这种情况下，深度学习系统或深度神经网络会以这种方式运作。

你的书如何解决传统机器学习的统计原理与我们现在所处的、存在过参数化深度学习模型的复杂世界之间的明显矛盾？

我认为我们对深度神经网络的成功，即使它们是过参数化的，还没有一个数学上的理解。数据中隐藏的模式无疑需要更多的数学理论来解释为什么会出现这种情况。我们不知道答案。

因此，我认为我的书并没有调和这两者。它基本上指出了标准机器学习理论，它告诉你机器应该如何运作。但是，我们也从深度神经网络的结果中了解到，它们的行为方式并不相同。因此，我书中的最后一章基本上将这种情况描述为一个谜，而不是一个深刻的谜。我认为人们对发生的事情有一些线索，但关于为什么会出现这种情况，数学理论仍然缺乏。因此，我不会说它能调和两者，但它希望能很好地解释情况，并告诉读者我们已经进入了一个未知领域，与这些深度神经网络一起。

你对自监督学习的看法是什么？例如，ChatGPT，它只是用数据本身训练模型，使用数据作为标签。

我认为自监督学习是机器学习领域的一大突破，因为在此之前，我们使用的是监督学习，人类必须标记数据并告诉机器数据意味着什么。监督学习受到限制，因为我们需要人类输入来标记所有数据，这非常昂贵。因此，你能够获得机器可以分析的极大量数据集，这在早期受到成本和人类标记数据的限制。当人类标记数据或对数据进行分类时，机器学习系统通过查看数据并尝试将数据中的模式与人类提供的标签匹配来学习。

学习某些特定事物。例如，如果你有一堆标记为“牛”的图片和一堆标记为“狗”的图片，机器学习系统试图找出哪些图片是牛，哪些是狗。它可能会注意到大多数牛都在田野里。因此，只要它看到草，它就会认为图片是牛，而狗可能主要在室内，等等。因此，机器学习系统为了将数据中的模式与人类提供的标签匹配，所学习的内容可能非常不准确。

它可能做完全错误的事情，或者做一些不正确的事情。自监督学习是一个非常有趣的突破，因为它基本上依赖于这样一个想法：你可以获取数据。人类不必标记它。

人类不参与其中。你所做的就是，例如，获取一张图片，并遮挡一部分图片，比如50%。你将遮挡后的图片输入机器学习系统，并要求它预测整个图片，即未遮挡的部分。你隐含地知道未遮挡部分应该是什么，因为你一开始就拥有它。但是，当要求机器通过填充缺失部分来完成整个图片时，一开始它可能会产生一些无意义的结果。但你知道正确的答案，因为你一开始就拥有它。因此，你可以告诉机器它犯了错误，以及如何改进预测。你反复这样做，直到机器学会如何从部分图片中推断出完整图片。在此过程中，它学习了图片的特征，这在监督学习中可能是不可能的，因为这里没有要匹配的标签。它实际上试图理解图片本身的统计结构。类似的情况也发生在语言中。

了解 ChatGPT 的工作原理，你就会明白，它会处理句子，并预测句子的最后一个词。一开始它可能会出错，但由于它已经听到了这个句子，所以知道最后一个词是什么。然后，它会根据错误调整模型参数，以便在再次遇到相同的句子时，预测相同的缺失词时，能做得更好。这个过程会不断重复，直到模型预测正确。想象一下，对互联网上的每个句子都这么做，模型就能学习人类写作的统计结构。这样一来，无论你给它什么句子，并遮住一个词，它都能预测下一个词。自我监督学习的奇妙之处在于，它几乎不需要人工干预，机器就能学习数据中固有的复杂统计结构。

你认为未来是监督学习还是非监督学习？

这些不是我的话，而是来自亚历山德罗·伯克利的话。他很有权威地指出，革命不会是监督的，基本上暗示着，人工智能的革命将是非监督的。一个显而易见的原因是，监督学习需要人工干预，因为人类必须标记数据，并对数据进行注释。

这在规模上是不可能的。你可以对小数据集，甚至相当大的数据集这么做，但要持续扩大规模是不可能的。此外，自我监督系统学习的内容与监督系统不同。自我监督系统学习中蕴含着丰富的学习内容。

对我来说，认为革命将是非监督的，可能是最大的哲学原因。想想我们人类，没有人为我们整理数据。我们的大脑在进化过程中学习了自然世界中存在的模式，并学会了如何帮助身体运作，例如寻找食物、躲避捕食者、寻找配偶和食物。所有这些都是以非监督的方式发生的。当然，在儿童发展的各个阶段，父母会对孩子进行一些监督学习，但这只是人类学习的一小部分。我们进化过程中学习的大部分内容，以及我们成长过程中学习的大部分内容，都是自我监督或非监督的。既然自然界是这么做的，就没有理由期望我们构建的机器也无法强大，仅仅因为使用了这种技术。

为什么考虑到优化问题的复杂性，反向传播梯度下降法却如此有效？

这又是我们有经验性证据的一个例子，反向传播梯度下降法在优化深度神经网络方面非常有效，但其确切原因仍然是一个悬而未决的问题。一些研究表明，反向传播梯度下降法之所以有效，是因为它隐含地正则化了模型。原因可能是，作为优化过程的一部分，它自动或隐含地减少了参数数量，使模型更简单，从而避免过拟合，并找到最佳解。

但也有一些研究表明，即使没有反向传播梯度下降法，深度神经网络仍然可以找到最佳或接近最佳的解决方案。因此，反向传播梯度下降法似乎并没有什么特别之处，能够保证其有效性。老实说，这是一个悬而未决的问题，我们知道它有效，而且非常有效，即使在它似乎不应该有效的情况下。当然，它比纯梯度下降法更有效率，速度更快，但其有效性的确切原因仍然不清楚。

你能解释一下维度灾难吗？

想象一下k近邻算法，它将数据转换为向量，并在高维空间中绘制它们。假设我们有1000张10x10的猫图和1000张10x10的狗图，每张图像有100个像素。你可以想象每个像素就像一个坐标轴。

每个像素的值在0到255之间。因此，每张图像都可以转换为一个包含100个数字的向量，该向量可以在不同维度空间中绘制。一个像素对应一个坐标轴。

基本上，表示猫的向量最终会落在高维空间的一个区域，而表示狗的向量最终会落在另一个区域。然后，如果我们有一张新图像，不知道是猫还是狗，我们可以将其转换为向量，并在同一高维空间中绘制它，看看它更接近猫还是狗。如果它更接近狗，我们就将其归类为狗；如果它更接近猫，我们就将其归类为猫。这个过程依赖于这样一个核心思想：相似的向量在高维空间中彼此靠近，或者表示相似事物的向量在高维空间中彼此靠近。

因此，如果新图像是一只狗，那么在该空间中绘制它应该会靠近该空间中的其他狗。

当我们进入更高维度时，会发生一件有趣的事情。假设图像有100万个像素，那么我们现在操作的向量包含100万个元素，这意味着我们处于100万维空间中。事实证明，相似的事物在这些高维空间中更接近的这个想法，在进入更高维度时会失效。这就是维度灾难。我们用来比较向量的方法开始失效，因为在这些高维空间中，所有事物都与其他事物一样遥远。因此，事物相似是因为它们彼此靠近的想法不再适用。因此，随着数据变得越来越高维，我们不能再使用依赖于向量之间距离度量的算法。

你能解释一下大型语言模型中涌现的概念，以及为什么它是一个有点难以捉摸的概念，并难以解释？

涌现行为可能比它应得的关注更多。这个术语似乎暗示着某种神秘和神奇的事情正在发生。它指的是，随着大型语言模型（如ChatGPT）越来越大，它们开始表现出在较小模型中未观察到的行为，这实际上就是涌现。

它基本上是指，如果你要求一个较小的模型（例如GPT）执行某种任务，而它失败了，但你构建了一个更大的模型（例如GPT-3、GPT-3.5或GPT-4），那么模型的底层数学或底层架构并没有根本改变。它们训练的方式没有不同。

这些模型只是规模更大，看到了更多数据。但训练背后的基本数学，基本架构，即支撑这些神经网络的架构，并没有改变。

然而，当这些模型变得更大时，你给GPT-2同样的问题，它无法解决，但你给GPT-3.5或GPT-4同样的问题，它就能解决了。这种行为被称为涌现。

这种行为的涌现仅仅是因为你让模型变得更大。当然，这些系统变得更大。

它们看到了更多数据，因此能够进行更复杂的模式匹配。它们能够学习数据中更复杂的关联。因此，它们表现出比较小模型更复杂的行为，这并不令人惊讶。

涌现这个词似乎暗示着某种神秘性，但它并不一定如此。你可以简单地定义它，即较小模型无法执行的行为，而现在在较大模型中观察到了这种行为。如果涌现仅仅是指随着模型变大而出现的某些能力，这主要是因为它看到了更多数据。

它有大量的参数，因此能够处理更多或更复杂的数据。如果你这样看待它，那么就没有什么可怀疑的。但如果你想用它来暗示一些完全无法理解的东西，那么我可能会持怀疑态度。这并不是大型语言模型中突然出现的能力，而是一个非常渐进的过程。

我们构建了GPT-2，它具有某些现象，然后我们构建了GPT-3，其规模大一个数量级。当我们测试GPT-3时，我们观察到一些在GPT-2中不存在的行为。我们认为这是两者之间发生的转变。

但事实是，我们没有构建中间阶段的模型，例如GPT-2和GPT-3之间大小相近的模型。我们只是从一个模型到一个规模大十倍的模型。但如果你构建了中间阶段的模型并检查了行为，你可能会看到能力的逐渐增强，而不是突然的改变。

因此，从这个意义上说，它不是以任何神奇的方式突然出现的，而是一个非常渐进的过程。

深度学习模型与人类认知有何比较？

我认为我们必须非常小心地将深度学习模型与人类认知或人类认知能力进行比较。人们已经开始开发模型，例如人类视觉系统或人类听觉系统，甚至旧的工厂系统模型，这些都是我们目前对大脑可能发生的事情的最佳模型。

但它们并非完全准确的模型。它们捕捉到了一些我们在生物系统中（无论是人类大脑还是其他灵长类动物大脑）观察到的行为，但它们是否复制了神经系统或大脑中存在的精确机制？绝对不是。例如，大多数深度学习模型都是前馈模型。

输入从一侧进入，信息仅从输入流向输出。没有循环。例如，如果第十层的神经元输出反馈到第十层或第九、八、七层之前的层，则不会发生这种情况。

第十层输出必须向前移动到第十一层和第十二层。而我们的大脑并非如此。事实上，大脑中循环连接的数量可能超过前馈连接的数量。

因此，大脑中有很多反馈循环，而我们目前拥有的模型没有这种循环。因此，无论这些深度学习模型看起来多么接近我们大脑中可能发生的事情，它们都缺乏非常明显的架构细节，因此无法准确地描述大脑中发生的事情。尽管它们是目前最好的模型，但它们确实揭示了我们大脑如何处理信息。

归纳先验如何在机器学习模型中发挥作用？例如，对称性、各种置换不变性等。

归纳先验基本上是我们能够以某种方式纳入深度网络架构的信息，这些信息基于我们对某些信息处理方式的理解。例如，卷积神经网络受到了我们对人类视觉系统或灵长类动物视觉系统的理解的启发。我们知道，我们视觉系统处理传入信息的方式涉及某种层次结构。

例如，视觉系统首先识别图像的低级特征，例如边缘、曲线、形状和纹理，然后将这些特征组合起来，识别出杯子等物体。但这个过程是分阶段进行的。人类视觉系统还具有不变性。例如，如果视觉系统中有一个边缘检测器，那么该边缘可以在视觉场中的任何位置，视觉系统仍然能够检测到它，或者边缘可以倾斜，视觉系统仍然能够检测到它是一个边缘。

因此，存在旋转不变性和平移不变性。我们从观察动物视觉系统中学到了这些知识，并将其纳入深度神经网络的设计中。这就是第一个卷积神经网络的出现方式。

这些就是所谓的归纳先验。我们对系统应该做什么的先验知识被纳入系统的架构中。还有其他例子，我们已经将关于我们认为为了更好地理解数据而需要的信息的先验知识纳入系统的架构中。

你能解释一下反向传播算法及其历史吗？

反向传播算法，大概是我个人觉得相当优雅的算法之一，也是本书的重要组成部分，也是深度学习和深度神经网络取得如此辉煌成就的关键因素。反向传播的基本思想非常简单。

再次，如果你回到 19 世纪末期或 20 世纪初期，我们只有单层神经网络。你提供输入给神经网络，它产生输出。然后，你通过比较输出和预期输出来判断网络是否出错，并计算出误差。

根据这个误差，你只需修改神经元连接的强度，也就是神经元的权重。只要只有一层，这些算法就能工作。一旦你在输入和输出之间添加另一层，也就是所谓的隐藏层，算法就不能再工作了。

原因在于，每次网络出错时，你都需要计算其预测造成的损失，然后找出如何将网络造成的误差分配给网络中的每个权重，这就是信用分配问题。如果只有一层，那么将损失分配给该层的权重就很容易。但是，一旦出现隐藏层，就很难从输出阶段向后传播，或从输出阶段回溯到输入阶段，并为每个权重分配其在网络出错中的责任。

弗兰克·罗森布拉特，提出感知器算法的人，在 1961 年的著作《新动力学原理》中就意识到了这个问题。他指出，一旦我们拥有多层神经网络，就必须从输出端一直回溯到输入端，为网络中的每个权重分配其责任。当然，他当时并不知道如何做到这一点。此外，20 世纪 60 年代，一些电子工程师正在为控制火箭轨迹的控制系统构建算法。亨利·凯利（以及我忘记了其他人的名字）开发了一种类似于反向传播算法的算法，尽管它当时没有被称为反向传播算法。他们试图设计能够帮助控制火箭在太空中的轨迹的系统。

我认为 1962 年有人提出了使用微积分中的链式法则来改进凯利算法。这些元素逐渐到位，然后我认为在 1967 年左右，一位日本研究人员（我忘了他的名字）也弄清楚了反向传播算法的一些方面。尽管这些都不是非常完善的算法，但这些碎片逐渐拼凑在一起。当然，关于这个主题的完整历史可以在一些学术网站上找到。例如，文章中提到了塞缪尔·阿特金森，我认为那是在 1970 年左右，他创建了用于有效反向传播的代码。1974 年，保罗·维伯在哈佛大学攻读博士学位。

他开发了一种可以称为现代反向传播算法的版本。他的博士论文与行为科学有关，并没有真正涉及神经网络。所有这些事情都在发生。

真正的突破发生在 1986 年，当时鲁梅尔哈特、辛顿和威廉姆斯发表了一篇关于反向传播算法的论文，这篇文章只有 3 到 4 页，发表在《自然》杂志上。现在，这个算法终于被专门用于训练具有隐藏层的网络。

他们不仅将算法形式化，还指出，如果你使用该算法来训练多层神经网络，它们会学习某些关于数据的知识，所以他们识别出所谓的未来学习或表示学习。他们能够识别神经网络在使用反向传播算法学习哪些类型的知识。

因此，我认为 1986 年人们终于意识到，有一个正式的算法，并且在某种程度上，大部分功劳归于杰弗里·辛顿，因为他现在被认为是反向传播算法背后的主要人物之一。但即使是他也会说，在反向传播算法出现之前，就已经有许多人对此进行了研究。

他将获得所有功劳。不仅如此，辛顿还强调了该算法的悠久历史。

他们只是将所有这些东西整合在一起，并使之对神经网络社区来说更容易理解。但这些想法已经存在了几十年。机器学习模型是否推理？如果它们确实推理，它们是如何推理的，以及它们与我们的推理有何不同？

其实没有太大区别。如果你认为推理是我们人类做的事情，那么我们能够学习如何解决特定领域的特定问题。

我们不仅学习如何解决任务，我们还能够抽象出解决任务所涉及的原理，然后使用诸如数学或语言之类的符号语言将这些原理应用于其他领域，并解决问题。而机器学习模型并非如此。机器学习模型本质上是极其复杂的模式匹配机器。因此，它们能够检测到人类可能错过的数据模式。

所以它们在这方面做得很好。事实上，如果你是优秀的模式匹配机器，能够识别输入和输出之间的复杂关联，那么就可以解决一大类问题。目前，机器就是这么做的。因此，根据你提出的问题，如果这些问题只需要机器深入了解数据中的统计相关性，那么它就能解决问题，看起来就像推理一样。

但是，这并非我们人类所理解的推理。这取决于你对推理的定义。你可以说机器在推理，但只是在非常有限的意义上。目前，机器学习系统本质上是极其复杂的关联机器。

你认为读者从你对机器学习数学基础的探索中会带走什么？

我希望《机器如何学习》的读者能够欣赏机器学习背后优雅的数学。这些机器之所以能够学习，是因为数学是可能的。我希望他们能够理解所有这些隐藏在幕后的机制，也就是让这一切成为可能的数学。这就像试图理解机器是如何思考和推理的。它们并非真正思考，但通过理解数学，我们确实可以一窥机器是如何处理信息的。对我来说，更重要的是，我真诚地相信，我们不能只让这些人工智能系统的设计者来构建这些系统。

我们需要更多社会成员，无论是科学传播者、记者、政策制定者，还是对这项技术真正感兴趣的用户，但他们应该具备一些数学背景，或者愿意学习足够多的知识来理解机器学习。这样，我们才能充分认识到我们正在创造这些非常强大的机器，而这种力量来自我们设计的算法和让算法工作的数学。因此，理解数学将告诉我们这些东西将变得多么强大，但也将告诉我们它们的局限性。只有当我们理解数学时，我们才能指出这些东西并非以我们认为的方式进行推理。数学清楚地表明，目前这些机器只是在进行非常复杂的模式匹配。

例如，ChatGPT 有时会产生正确的答案，有时会产生错误的答案。你认为这会影响它们在现实世界中的可靠性和实用性吗？更进一步，它们是否理解？如果它们理解，那意味着什么？

是的，这些元素总是出错。我认为“你好，辛迪”这个词通常只在人工智能出错时使用。但是，如果你看看它们是如何工作的，那么所有它们正在做的事情本质上都是合理的。我认为这个词已经失去了其意义。如果你意识到它们就是这样工作的，那么它们本质上是在给定一段文本的情况下，生成最有可能跟随该文本的下一个词。

它们将该词附加到原始文本中，预测下一个最可能的词，依此类推，直到生成“结束标记”或“文本结束标记”为止。在每个阶段，都是关于最有可能跟随先前给定文本的词的概率陈述。答案正确与否并不重要。过程始终相同。只是当模型足够大时，它内部生成的概率会越来越好，因此答案看起来像是推理或思考。

但是，无论答案正确与否，过程始终相同。由于它们使用相同的过程（即预测下一个最可能的词）来生成正确或错误的答案，因此很难知道它们生成的答案何时是正确的，何时是错误的。这几乎需要一位人类专家来检查和限制其输出，以确保它产生正确的输出。

现在，总有一些任务，即使机器偶尔出错，它的表现仍然令人惊叹。例如，在代码生成方面，这些工具可以提供极大的帮助。它们可以非常快速地生成大量代码，从而完成许多基本的编码任务。

如果你有足够的专业知识，你可以快速检查并确保它按预期工作。只要使用它们的个人有足够的专业知识来区分正确和错误，它们就可以提供很好的帮助。但是，它们是否真正理解它们所生成的内容？这是一个有争议的问题。

这真的取决于你如何定义理解，以及你对语言语义理解的标准。根据你设定的标准，它们要么做得很好，要么做得非常糟糕。如果你以只有人类才能回答的问题来定义理解，那么这些模型很可能会失败。

但是，在某些方面，它们的表现与人类一样好。因为理解的标准是如此。这是一个语义问题，我认为辩论仍在继续。

你如何定义智能？你认为深度学习模型是智能的吗？

智能是一个非常难以定义的术语。我认为我甚至没有尝试在我的书中定义它。大多数人都在谈论它。

我尽量避免定义它，但我认为难以定义的原因是，智能在不同语境中具有不同的含义。狗在环境中生存所需的智能与大象或鲸鱼所需的智能大相径庭，更不用说人类了。

每种特定类型的智能都是特定身体在环境中生存和运作的结果。这可能与环境、社会环境或其他任何因素有关。只要大脑和身体的神经系统能够帮助身体以最佳状态运作，那么就可以说该系统在这个目的上是智能的。因此，很难提出一个适用于所有情况的抽象智能概念。因此，如果你以这种方式思考智能，那么人工智能系统是否智能，这取决于你定义的任务。

有些任务，例如，如果你认为下棋的智能是机器下棋的能力，那么机器就是智能的。它们可以下棋，或者玩许多其他游戏。这与幕后发生的事情无关，而只是观察行为并判断该行为是否体现了完成目标所需的智能。

我认为这是一个滑坡。你可以根据需要定义它。在某些情况下，机器会被称为智能，而在其他情况下则绝对不是。

所以，我们必须非常小心地使用这个词。当然，不存在某种普遍的智能，它以某种方式抽象出所有智能的概念，并将其与我们运作的身体分离。也许在某个时候会存在，但我认为我们还没有达到那个阶段。

大型语言模型是否有代理权？这意味着什么？

从人类的角度来看，代理权就是我们拥有行动主体的这种感觉，对吧？所以如果我要拿起一杯咖啡，我会有一种隐含的感觉，是我将这个动作赋予了存在，而我就是这个动作的主体。

并且还有一种内在的感觉，感觉自己是在指挥身体在世界上的行动，同时也是体验的接受者，对吧？所以我们只是有这种感觉，现在我们的AI系统也具有这种感觉。它们有代理感吗？或者它们只是我们能够在机器人系统中构建的代理？

嗯，这与说机器人拥有代理感，它感觉到的方式与我们对自己的感觉方式不同，大相径庭。我想说，在这一点上，我们当然可以构建在世界中充当代理的机器人系统。但我认为，目前没有人会真正声称它们拥有内在的代理感。这两者是截然不同的。我们离拥有能够声称自己内在拥有代理感的机器人还很遥远。

谁是深度学习革命的推动者？

我们谈到过，你知道，80年代中期的反向传播算法，并成为一大热门，因为它允许我们训练深度神经网络，拥有多于一个隐藏层的网络。但即便如此，我们现在拥有了训练深度神经网络的数学工具，我们仍然无法做任何特别有效的事情。

因为在那个时候，在80年代中期到90年代，我们拥有的训练这些新网络所需的数据量非常少。我们只是没有足够的数据。而这必须改变。

大约在2007年至2008年左右，情况发生了变化。其中一个最早的大数据步骤是图像数据，其中包含数百万张由人类标记的各种图像类别。所以我们终于拥有了一个非常庞大的数据集来训练这些新神经网络。但是，我们已经有了反向传播算法。

我们拥有了庞大的数据集。嗯，还有另一件事，就是训练一个新的人工神经网络在计算上非常昂贵。训练这些东西需要很长时间，大约在2010年左右，人们开始注意到，与其使用中央处理器（CPU）来训练这些新网络，不如使用一种更好的方法。

那就是使用图形处理器（GPU），它们实际上是为游戏设计的。它们并非为训练神经网络而构建和设计的。但人们意识到，他们可以使用GPU。

来训练这些系统更快。所以，这结合了，你知道，反向传播算法，当时已经相当老了。然后是大量训练数据的出现，以及使用图形处理器来训练它们的可能性，所有这些因素结合在一起。我想大约在2011年左右，第一个名为AlexNet的深度神经网络终于突破了，并确保它能够比以往任何时候都更好地进行图像识别。

我知道你的书有点偏向连接主义，或者它们并非完全如此。但是你对AI的其他方法，例如符号方法、进化方法和仿生方法，有什么看法？

除了，所以我的书，我不确定我会说它是一个关于连接主义的机器学习书籍，是一个关于机器学习的书籍。我知道，历史始于感知器算法、多层感知器、最小均方误差算法，这些都是用于训练单层神经网络的算法。但是，机器学习中还有整个历史，与连接主义无关。所以，从基于名称的分类到最佳基分类、k近邻算法和支持向量机。

所有这些都是主成分分析，这是一种统计方法，然后可以用于无监督学习。嗯，所有这些都是非常重要且非连接主义的。但是，是的，确实，本书的后半部分侧重于过去二十年里最近在神经网络上的发展，重点又回到了神经网络。嗯，它以希顿为中心吗？嗯，希顿是其中一个章节的人物。

我的意思是，反向传播算法实际上与希顿和威廉姆斯的论文有关。所以，在黑暗中，希顿是本书的核心人物，然后他在卷积神经网络章节中再次出现，因为AlexNet是他的团队的突破。嗯，这些都是不可避免的里程碑。我不认为这本书还有关于他的其他内容。嗯，这本书实际上是关于机器学习的，它实际上并没有处理符号AI。我知道，如果说符号AI，我假设你指的是机器学习之前的AI，现在通常被称为“老式AI”。而你知道，符号AI虽然在它所做的事情上非常出色，但它无法通过仅仅检查数据来学习数据中的模式。

所以，这需要大量的人力才能使其发挥作用。它非常脆弱。但是，你知道，符号AI中的想法仍然非常重要，如果我们想让机器进行推理。我认为现在出现的东西将结合深度学习系统学习现有数据中模式的能力。

在后端，我们可能有符号架构，使我们能够以人类似乎能够的方式推理这些模式。所以，我不认为这应该被视为非此即彼的系统，它们将结合在一起。嗯，我们还不太清楚如何完全做到这一点，但已经有一些正在进行的尝试，整个领域被称为神经符号AI。嗯，你正在将连接主义方法和符号方法结合在一起。

嗯，所以，我认为如果它有助于实现能够进行人类可以进行的抽象推理的系统，那将非常有帮助。嗯，仿生方法、进化算法，嗯，搜索可能性空间，这是进化算法擅长的事情，也将成为深度神经网络架构搜索的一部分，这些架构比其他架构更好。嗯，仿生方法已经存在。我指的是卷积神经网络。

构建卷积神经网络的归纳基础已经受到我们对视觉系统（人类视觉系统）的理解的启发，甚至受到人工神经网络的启发。人工神经元非常非常松散地受到生物神经元的启发。所以，仿生方法已经成为事情发生方式不可或缺的一部分。

嗯，这只会变得越来越重要。例如，我们需要弄清楚为什么我们的大脑比人工神经网络节能得多。今天的深度神经网络消耗大量的能量来做一些远不如我们大脑能力的事情。而我们的大脑是用大约20瓦的功率来完成的。

原因之一，并非全部原因，是我们的大脑神经元并非一直都在放电。它们是脉冲神经元。所以，输入到达神经元，神经元进行一些计算，然后每隔一段时间就会发出脉冲。嗯，这与当今人工神经网络中发生的情况非常不同。所以，如果我们受到生物系统中这些脉冲神经元的启发，并学习如何在硬件中构建它们，嗯，如果我们构建脉冲神经元硬件，并弄清楚如何在硬件中训练它们，嗯，这将是能量效率上的巨大飞跃，这将非常具有仿生意义。

在书中撰写该领域的历史是一项重大的责任。当然，许多不同的人对该领域的看法差异很大。例如，你与我，以及休伯，尽管我确实感谢你在撰写本书时给予我的反馈。你对此有何感想？

首先，我同意，嗯，我们必须对该领域的历史负起责任，我们必须尽力以尽可能准确和清晰的方式捕捉它。嗯，这本书的意图首先是捕捉数学思想，而这些思想在不同的历史观中并没有太大差异。

所以，嗯，一旦我确定了需要解释的数学，那么找到能够支撑这些数学思想的故事就变得很重要。我知道我选择了一些人进行采访，并帮助塑造叙述。嗯，但我确实同意，例如，施密特·赫尔米达对该领域做出了巨大的贡献。嗯，不可能对过去几十年来机器学习中所有不同的人所做的一切事情进行详尽的叙述。

例如，我的书只有大约50页，所以我的方法是讲述一些特定发展的故事，并深入探讨一些人的贡献。但是，我非常努力地确保其他人的贡献不会被遗漏。例如，嗯，休伯在书中被认可为LSTM（长短期记忆网络）的贡献者，这些是循环神经网络。只是我没有在我的书中讨论循环神经网络，所以我不打算深入探讨。

但是，我确实提到了马特伊的贡献，甚至卷积神经网络以及GPU的使用。嗯，GPU的使用通常归功于希顿等人，他们让GPU的使用成为可能。嗯，AlexNet是使用GPU并使其流行起来的人。但是，施密特可能在更早的时候就做过类似的事情，他可能没有做到大规模，但这些想法确实存在于他的论文中，我确保我承认了这一点。或者，如果你考虑反向传播算法和休伯，嗯，指出样本·迪纳·阿德已经提出了用于编码高效反向传播的想法。

嗯，我告诉读者，好吧，你知道，这里有一些资源，你应该去查看。这就是我的方法。尽量确保在任何时候，只要有值得提及的替代观点，我至少会提到它。但是，为了服务于这本书，这本书是关于数学概念的，我仍然必须找到一种讲述故事的方式。

你对与我们继续改进AI系统相关的缩放定律有什么看法？我的意思是，你认为随着我们继续扩展这项技术，我们是否会遇到任何理论或数学上的限制？

我们现在拥有的关于深度神经网络行为的缩放定律是经验性的。嗯，缩放定律是经验性的，因为我们观察了这些系统的行为，并发现它们的某些行为遵循特定的定律。但是，没有对这些定律为什么是它们所是，以及这些定律在继续扩大系统时是否仍然适用，没有深刻的数学理解。

如果有一个真正的数学结果说，是的，绝对会，那么我们就可以预期事情会继续下去。但是，嗯，现在这些都是经验性的结果，我们很可能在一年或两年内发现，如果我们继续扩大系统，它们的性能可能不会像过去那样按比例缩放，事情可能会饱和。你知道，在其他系统中，我们经常发现这种缩放定律最终会饱和，事情会根据某种幂律改进到一定程度，然后在某个点停止。所以，有很多收益递减。所以，鉴于缺乏精确的数学结果，很难说，好吧，这种趋势现在会永远持续下去。

以及深度学习的其他明确的计算限制。

我认为这取决于你想要你的深度学习系统做什么。嗯，例如，如果我们问我们的深度学习系统是否能够进行某种推理，嗯，让我们说，人类可以进行的推理，即，将一项复杂的任务分解成较小的子任务，然后以巧妙的方式应用这些子任务以获得完美的结果。嗯，嗯，这是一种更具组合性的方式。深度学习系统是否会通过我们目前用于训练它们的技巧（例如自我监督学习）来实现这一点，可能不会，因为已经有一些数学结果表明，在这些系统可以进行多少组合方面可能存在固有的数学限制。例如，这些转换架构。所以，可能存在数学上的限制。

而且，嗯，再次，如果没有完全理解这些神经网络在做什么，那么就很难对它们可能或不可能做的事情做出明确的声明。嗯，我认为我们必须对它保持开放的心态。对我来说，我反复思考的事情是，自然已经进化出作为我们大脑的生物神经网络。

即使我们有非常复杂的推理形式，所有这些都是进化的结果。没有人坐在那里以某种方式连接我们的大脑。进化发现了这些解决方案。

进化发现了这些解决方案。我们生物神经网络的架构与这些人工神经网络的架构相同吗？绝对不是。生物系统中存在许多其他复杂性，我们离在人工系统中接近这种复杂性还很遥远。

但是，我们的大脑是原理证明。它已经被自然完成过一次，而不是我们。它是在进化时间内完成的，你知道，但它已经完成了。

所以，嗯，有没有理由预期深度神经网络不会达到这一点？原则上没有理由。嗯，作为工程问题，可能不会。我不知道。这将需要突破，而我们还不知道这些突破是什么。

你最近在关于心智理论实验的谈话中谈到了ChatGPT及其同类产品，以及与艾莉森·鲍勃的合作。它告诉我们关于这些能力的什么？

关于ChatGPT？我用ChatGPT玩了一下，问它一些关于心智理论的问题，尽管我知道它只是在进行下一个词的预测，但有些问题可以被提出得非常复杂，而产生的输出似乎表明它有能力伤害他人的心灵。我的意思是，但是因为你知道它在幕后在做什么，你意识到我可能做的只不过是复杂的模式匹配，对吧？但是，如果你只看输出，那就不得不承认，如果你只看输出，你很难说它没有推理能力，它正在展示能够推理的能力，所以我觉得这就是问题所在。

如果你只看行为，你就不知道幕后或幕后的情况，我不知道你怎么能说它没有推理。但是一旦你深入了解幕后，一旦你知道它在做什么，你就会变得更加怀疑。而且，很容易破坏这些系统。

你可以问一些非常简单的问题，它们会失败。所以很明显，它们没有复杂的推理能力。它们只是有时看起来好像有。这让我们回到了过去。

你谈到了人工智能的潜在风险，包括工作中断和社会偏见。你认为需要采取哪些步骤来减轻这些风险？人工智能的社会影响是什么？

我认为我们确实需要关注一些短期社会影响。你知道，机器学习系统本质上是在学习我们提供的数据中存在的模式。嗯，如果我们提供的数据包含偏见，你知道，比如说，你正在构建一个分析简历或求职信的系统，而传统的招聘模式和公司一直存在性别歧视、种族歧视以及我们传统上需要在社会中对抗的所有其他问题。如果我们用包含固有偏见的数据来训练机器学习系统，它们就会体现这些偏见。

这没什么神秘的，对吧？机器学习中还有一个假设，即你知道你用来训练系统的那些数据与你将要测试的数据具有相同的潜在分布。如果这两个分布不同，你知道，比如说，你的训练数据是从某个数据分布中提取的，但是你的测试数据，也就是你在现实生活中测试系统的数据，是从另一个分布中提取的，那么关于机器学习系统将做什么，所有赌注都将作废。

所以，数据中存在的偏见可能会反馈到机器学习系统中。人类做出偏见决策是一回事。因为我们有能力质疑自己作为人类，我们希望有制衡机制，如果一个人做出看似有偏见的决定，比如种族、性别等，我们希望有机制来减轻这种影响。

机器学习系统的问题是，使用它们的人通常没有意识到这些系统运作方式中存在的隐含不确定性，除了当它们产生输出时，输出总是被视为确定且正确的答案，或者你知道，这是唯一可能的答案，而幕后发生的事情却不是这样。嗯，这种缺乏不确定性，或者换句话说，机器学习系统提供的答案看似确定，可能是一个问题。例如，如果你使用的是ChatGPT，嗯，加州大学伯克利分校的一些研究人员，一位心理学家和她的同事。

他们指出，当人类与大型语言模型互动并向它们提问时，人类心理学的一个特点是，当我们提问时，我们最脆弱，并且容易接受答案。所以，如果你有一个大型语言模型给出了错误的答案，但其输出却极具自信，这正是其输出的性质，那么，因为在那一刻提问的人在心理上容易接受答案，他们很可能会受到这些看似自信的答案的影响。但是，一旦这些答案被纳入我们的心理结构，我们就变得不太容易改变我们的观点。

这几乎就像我们有一个机会窗口，我们有责任和意愿接受各种各样的答案。如果你有一个大型语言模型给出了错误的答案，而我们无法判断，我们就会受到影响，因为我们当时容易接受。所以，这些都是我们需要关注的问题。

你将你的网络连接数与人脑的连接数进行了比较。你认为这种比较有意义吗？

今天大型语言模型的连接数大约是一万亿，嗯，从五千亿到一万亿，甚至更多。现在，嗯，与人脑相比，人脑的突触数量，我们通常估计大约是一万亿。

所以，即使是最大的大型语言模型，其连接数也比我们认为人脑中的连接数少两个数量级。这是一个很大的数字，嗯，但是当我们谈论人脑中的连接时，我们没有考虑到大脑中存在的许多其他复杂性。例如，我们没有谈论神经递质和神经调节剂。

我们没有谈论在神经元之间传递输入的轴突中发生的大量计算。我们不完全了解单个神经元内部发生的计算类型。所以，人脑中可能存在比我们仅仅从连接数推断出的复杂性高出几个数量级。

因此，从某种意义上说，大型语言模型离捕捉人脑的复杂性还很远。但有一种相反的看法，即尽管大型语言模型与人脑的复杂性相差几个数量级，但它们现在已经能够完成一些非常惊人的事情。想象一下，如果我们能够将这些人工系统扩展到生物系统的复杂性水平。

嗯，我们不仅要扩展它们，还要让它们更节能，而这现在确实非常困难。但是，假设我们能够让它们更节能，即使在规模上，它们也不会消耗过多的能量。嗯，所以我们有能力扩展人工系统，使其复杂性接近人脑，但同时让它们比我们想象的更节能。考虑到这些人工系统可以访问我们能够提供给它们的几乎所有信息，而我们人类则无法做到这一点，对吧？

所以，你利用硅的强大功能，利用我们可以提供给这些机器的记忆。你将它们扩展到与人脑相同的复杂性水平。这让我觉得我们才刚刚开始。

你能谈谈你在自我科学方面的研究吗？

我写的那本书，第二本书，是对人类自我意识的探索。基本上，嗯，我在那本书中研究了八种不同的神经心理学或神经学疾病。这些疾病中的每一种都以不同的方式扰乱了我们的自我意识。整本书的论点是，通过研究自我分裂的不同方式，而自我，我的意思是，我们对自己内在感觉的方式，我们的身体对我们感觉的方式，我们的故事对我们感觉的方式，我们如何将自己视为现在存在或随着时间的推移存在，从我们最早的记忆到想象未来。

所有这些都构成了我们对身份、个体以及在时空维度中存在的这种事物的想法。嗯，所以这本书的论点是，让我们看看我们分裂的方式，不是完全分裂，而是你知道，它的某些部分分裂了，然后让我们看看大脑和身体是如何将这种复杂的自我组合在一起的。所以，这是我写那本书的动机。这是一本关于人类自我的探索。

你讨论了各种神经心理学疾病，这些疾病为理解自我的本质提供了见解。你认为哪种疾病最引人入胜，为什么？

书中包含八种不同的疾病，老实说，由于它们影响了我们自身的不同方面，每一种疾病都是重要且引人入胜的。

对吧？所以很难说哪种疾病最引人入胜，但也许从其他方面来看，可能是科塔德综合征，嗯，法国哲学家说过，“我思故我在”，在科塔德综合征中，你几乎可以合法地声称他们可以说“我思故我不在”，原因是患有科塔德综合征的人实际上确信自己不存在，这是一种非常深刻的错觉，它完全不受任何理性化的影响。你无法说服他们，直到它自行解决。

所以，虽然这种错觉几乎无法动摇，以至于他们实际上会开始计划自己的葬礼，嗯，我们现在对这种现象背后的原因有所了解，不是计划葬礼的部分，而是他们实际上认为自己不存在。嗯，有一些神经学证据表明，由于某些关键大脑区域受到影响，他们会有这种感觉。但对我来说，引人入胜的原因在于，你可以是体验的主体，你可以是一个说“我存在”的自我，你也可以是一个说“我不存在”的自我。

这提出了一个根本性的问题，是谁或是什么“我”在做出这样的声明，在一种情况下，它在说“我存在”，就像笛卡尔所说的那样。在另一种情况下，在科塔德综合征中，同样的“我”在说“我不存在”，并且对不存在的信念与前者对存在的信念一样坚定。

你谈到了阿尔茨海默病及其对叙事自我的影响，这是你使用的术语。这如何增进我们对身份和人格的理解？

我认为阿尔茨海默病可能是这些疾病中最无意义和最具破坏性的。因为，你知道，如果我问你，你是谁，你很可能会给我讲一个关于你自己的故事。你会用一个故事来告诉我你是谁。

这些是我们对自己和他人讲述的故事，这些故事会根据不同的语境而变化。你对父母讲述的故事可能与你对某些朋友讲述的故事不同。

但是，你知道，我们是故事，而阿尔茨海默病告诉我们的是，即使这些故事消失了，就像阿尔茨海默病中发生的那样，因为阿尔茨海默病会导致短期记忆丧失。你无法形成短期记忆。因此，如果你的经历从未进入短期记忆，其结果就是它不会进入长期记忆。

它不会成为你故事中的一个片段。所以，随着阿尔茨海默病的进展，你的故事逐渐停止发展，最终，阿尔茨海默病基本上摧毁了你的故事。你无法，你知道，你无法成为你的故事，无论是关于你的故事，还是关于你身体的故事，例如，如果你是一位乐队指挥，你可能会因为阿尔茨海默病而丧失一定程度的认知能力。

但是，你的身体中存在一个自我，即使你站在乐队面前，你也可以指挥乐队，而无需对它进行任何认知描述。所以，有很多身体的方面，但所有这些都消失了。长期以来，一个重要的哲学论点是，我们之所以感觉自己存在，之所以感觉自己是不同经历的主体，是因为这些叙事产生了这种感觉。

这几乎就像大脑在创造叙事，而叙事在中心，但中心是模糊的，它不是。它只是因为叙事而显得如此。一位已故哲学家丹尼尔·丹内特对此有一个很好的描述。他称自我为叙事引力中心。

这与物理系统具有引力中心的想法是一致的。所以，任何物理物体都有一个引力中心。但是，如果你试图找到代表引力中心的分子或原子，你将找不到任何东西，它只是整个系统的属性。因此，我们的自我也是所有这些由大脑和身体创造的叙事属性。

嗯，如果你把叙事结合起来，就不会有“我”了。结果，阿尔茨海默病挑战了这一点，因为在阿尔茨海默病中，你最终会失去所有叙事，但你很难说，即使在阿尔茨海默病的晚期，仍然没有一个存在的人，他只是在体验身体的感受，因为大脑的感觉和运动系统仍然完好，大脑皮层大部分完好无损。所以，即使他们无法认知地回忆起自己的故事，即使他们的身体已经受到一定程度的损害，很可能仍然存在一个体验主体，只是他们身体的最小方面，而“我”并没有消失。所以，通过研究叙事自我如何分裂，通过理解自我不仅仅是叙事自我，

你讨论了身体所有权的概念，特别是关于这些疾病，基因，如何影响我们对身体和自我的理解。

我的意思是，就像书中其他所有疾病一样，基因或以前被称为身体完整性身份障碍，都在告诉我们，我们认为理所当然的东西实际上是大脑时刻都在构建的东西。所以，如果你看着你的手臂，你绝对不会怀疑这是你的手臂，嗯，你对你的手臂有一种内在的所有权感。

甚至问这个问题很愚蠢，你知道这是你的胳膊吗？当然是我的胳膊，对吧？我想没有人会，理智的人不会质疑这种感觉，但实际上，在基因组或双胞胎群体中，人们会觉得身体的某些部位不是自己的。我们现在又有一些神经学证据可以解释为什么会出现这种情况。但关键在于，为了让我们觉得这支胳膊是我的，大脑必须不断地做它应该做的事情，那就是以一种无意识或拥有感来感知我们整个身体。

有时它会失败，有时它会未能为整个身体做到这一点。有时它会未能为身体的某些部位做到这一点。当这种情况发生时，它可能会变得非常令人痛苦，因为这就像身体上附着了一些异物，你无法忍受它。

就像如果你害怕蜘蛛，如果一只蜘蛛坐在你的胳膊上，你会想把它弄下来，你的全部注意力都会集中在坐在你胳膊上的那个异物上，如果你的胳膊本身感觉很陌生。但是你什么也做不了，因为那是你的胳膊。它功能正常。

其他一切都很正常，除了他感觉不到那是你自己的……这是一种非常难以忍受的状况，但他告诉我们关于自我的事情是，我们习以为常的身体异物感实际上是大脑必须构建的东西，它根本没有真实性。这只是大脑中发生的一种信息处理过程，有时会出错。所以你可以是某个人，你可以是体验的主体，体验自己的胳膊，或者你可以是体验者，体验自己的胳膊不属于你。所以，这又回到了我们仍然需要解释的这个想法。

什么是眼睛？你对代理权的定义是什么？

因此，在探索自我意识的背景下，代理权也被证明是一种构建。所以，你知道，我们之前谈到过，如果你拿起一样东西，你就会有一种隐含的感觉，你就是那个行动的代理人，你会让那个行动发生，对吧？这只是我们不质疑的一种感觉，事实证明，大脑中有一些机制会产生这种感觉。

这不是可以理所当然的事情。例如，如果你正在执行某个动作，大脑会向胳膊发出运动指令来执行该动作。但与此同时，大脑会将指令的副本发送到大脑的其他部分，这些部分现在正在预测你即将采取行动的感觉后果。

如果预测的感觉后果与你实际感受到的相符，那么整个行动就会被隐含地标记为与你有关。因此，从这种思维方式来看，代理感是一种将预测与实际发生的事情进行比较的计算。如果两者匹配，你就是代理人；如果两者不匹配，你执行的动作就不会感觉像是你做的。

这可能听起来很奇怪，但这正是患有精神分裂症的人所经历的情况。他们可能会执行相同的动作，但他们不一定感觉自己是动作的代理人。所以，这是一种被称为比较机制的机制的紊乱。

比较预测与实际发生的事情的机制，如果两者匹配，则该动作会被标记为你的，因此你会有自己是动作代理人的感觉。精神分裂症表明情况并非总是如此。你可以是感觉自己是动作代理人的人，也可以是感觉自己不是动作代理人的人，只是执行了动作。

因此，从这种思维方式来看，即使是代理感也是一种构建……人工智能模型可以成为代理人吗？如果我们在人工智能代理中计算地构建这种机制，那么我们实际上就是在将代理定义为这个过程。如果我们构建了必要的计算结构，那么是的，我们赋予了它们代理感。

尽管代理感仍然涉及到我们对这种体验的主观体验，即存在内在的意识体验。我认为，在这个阶段，没有人会声称人工智能模型，即使你解决了它的竞争方面，也会声称这些代理人会感觉自己有代理感。我不知道它从哪里来，或者它将如何发生，因为这是否发生真的取决于你对“意识”这个词的定义，这是一个不同的领域，一个难以进入的领域。

很高兴和你一起做这个节目，安农。很抱歉那天没能在现场，但希望我们能再次相遇，并在同一个房间里进行采访。无论如何，希望你们喜欢这个节目。

顺便说一句，现在是告诉你们我们有一个赞助商的好时机，赞助商网站是patron.com/MLS。它很酷。

那边。我们有一个私人 Discord。我们发布了节目的早期访问版本。你们刚刚在频道上观看的许多精彩节目，几个月前就在赞助商网站上发布了。我们每周都会与我自己和关键人物进行会议。当然，你们可以向我们推荐一些有趣的嘉宾。所以请在patron.com/jez上支持我们。

The Elegant Math Behind Machine Learning - Anil Ananthaswamy 01:53:11 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

The Elegant Math Behind Machine Learning - Anil Ananthaswamy