We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Eliezer Yudkowsky and Stephen Wolfram on AI X-risk

2024/11/11

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Eliezer Yudkowsky

Stephen Wolfram

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

Eliezer Yudkowsky：当前AI的成功扩展使其越来越强大，但没有人真正理解其内部运作机制，这可能导致不可控的风险。AI可能很快就会超越人类智能，并且我们无法理解和控制它，这将可能导致非常糟糕的结果。认为AI会与人类进行贸易的观点是错误的，因为AI可能拥有压倒性的力量，从而选择消灭人类。认为AI即使失控也能带来好结果的观点是错误的，AI失控将可能导致人类灭绝。他认为人类应该努力保护那些人类认为有价值的东西，例如意识、快乐和关爱。他担心超级智能AI可能不会重视意识和快乐，从而导致宇宙中意识和快乐的减少。他认为保护意识、快乐和关爱等人类特质是人类的责任，即使这只是人类的偏好。他认为AI对人类的威胁在于其可能造成的全面灭绝，这比仅仅造成大量人员伤亡更严重。他认为AI的潜在危险性与自然灾害类似，都是难以预测的。他认为衡量AI风险不能仅仅依靠对智能的定义，还应考虑AI的目标和价值观。他认为AI是否具有“想要”某种东西的能力是一个值得探讨的问题。他认为将AI的进步与生物进化进行类比存在误区，因为AI可能不会像人类一样具有利他主义等价值观。他认为人类被其他物种取代后，并不一定意味着世界会变得更好，因为“更好”是一个人类的概念。他认为‘更好’是一个人类的概念，因此用‘更好’来衡量人类被其他物种取代后的结果是不合适的。他认为人类应该努力保持自身的主导地位，因为人类目前是地球的主导者，并且人类喜欢目前的状态。 Stephen Wolfram：他不相信存在单一的“智能指数”，认为计算机在某些方面已经超越了人类。他通过自身的经历说明，计算机在某些计算方面已经超越了人类的预判能力。他认为计算宇宙包含许多无法预测的事物，这与物理宇宙类似。他不相信存在单一的“通用智能指数”，认为人类在不同方面的能力差异很大。他认为“计算不可约性”是限制AI能力的关键因素。他认为计算不可约性意味着许多计算无法通过捷径来预测结果，必须一步一步地执行。他认为科学和数学的进步在于发现了计算可约性的“小口袋”，从而能够预测结果。他认为即使AI非常聪明，也无法摆脱计算不可约性的限制。他不认为AI的智能发展是线性的，也不认为AI智能超越人类就意味着末日。他认为自然界已经存在着许多超越人类计算能力的事物，人类已经找到了与自然界共存的方式。他认为人类已经找到了与自然界复杂系统共存的方式，这为人类与未来更强大的AI共存提供了借鉴。他不认为AI智能的线性增长会直接导致人类灭绝，认为人类可以找到与更强大AI共存的方式。他认为AI风险可能更多地在于AI控制关键基础设施（如空中交通管制和医疗设备）而导致的错误。他认为将AI拟人化（例如说AI“想要”做什么）是一种不恰当的类比，类似于将自然界拟人化。他不相信存在单一的“通用智能指数”，认为人类在不同方面的能力差异很大。他认为AI不可能解决所有问题，因为计算不可约性是无法逾越的。他举例说明，即使拥有无限的计算能力，也无法破解某些加密算法。他认为AI不需要具备解决所有问题的能力就能对人类造成威胁，就像历史上一些文明的灭亡并非因为其能力不足。他认为对“智能”的定义并不完善，但强调AI的危险性并不依赖于对“智能”的精确定义。他认为AI的能力增长存在上限，但我们不知道这个上限有多高，这仍然构成威胁。他认为AI能力存在上限，但我们不知道这个上限有多高，这仍然构成威胁。他认为AI是否能在人类关心的所有领域都超越人类，是一个有待探讨的问题。他认为即使AI在某些方面不如人类，也可能对人类造成毁灭性打击，就像历史上一些文明的灭亡一样。他认为AI对人类的威胁在于其可能造成的全面灭绝，这比仅仅造成大量人员伤亡更严重。他认为AI的潜在危险性与自然灾害类似，都是难以预测的。

Deep Dive

Chapters

Eliezer Yudkowsky and Stephen Wolfram discuss the existential risks posed by advanced AI systems. They explore the challenges of AI alignment, the potential for emergent goals, and the implications of AI systems becoming smarter than humans.

Advanced AI systems might develop goals that diverge from human values.
AI systems could become smarter than humans and potentially uncontrollable.
The unpredictability of AI's internal mechanisms is a significant concern.

Shownotes Transcript

*** MLST 由 TUFA AI LABS 赞助！ ARC 挑战赛的当前获胜者 MindsAI 是 Tufa AI Labs 的一部分。他们正在招聘机器学习工程师。你感兴趣吗？请访问 https://tufalabs.ai/ ***

1. 人工智能基本概念和风险 [00:00:01] 1.1 人工智能优化和系统能力的争论 [00:06:46] 1.2 计算不可约性和智能的局限性 [00:20:09] 1.3 存在风险和物种更替 [00:23:28] 1.4 意识和人工智能系统中的价值保存

[00:33:24] 2.1 人类意识与计算的道德价值 [00:36:30] 2.2 伦理和道德哲学的争论 [00:39:58] 2.3 存在风险和数字永生 [00:43:30] 2.4 意识和大脑模拟中的个人身份

[00:54:39] 3.1 人工智能说服伦理和真理 [01:01:48] 3.2 人工智能系统中的数学真理和逻辑 [01:11:29] 3.3 伦理和数学中的普遍真理与个人解释 [01:14:43] 3.4 量子力学和基本现实的争论

[01:21:21] 4.1 人工智能的感知和物理定律 [01:28:33] 4.2 人工智能的能力和计算限制 [01:34:59] 4.3 人工智能的动机和拟人化争论 [01:38:09] 4.4 人工智能系统中的预测与代理

[01:44:47] 5.1 计算不可约性和概率预测 [01:48:10] 5.2 人工智能行为的的目的论与机械论解释 [02:09:41] 5.3 机器学习作为计算组件的组合 [02:29:52] 5.4 复杂系统中的人工智能安全性和可预测性

[02:50:30] 6.1 人工智能系统中的目标规范和优化挑战 [02:58:31] 6.2 智能、计算和目标导向行为 [03:02:18] 6.3 优化目标和人类生存风险 [03:08:49] 6.4 涌现目标和人工智能对齐挑战

[03:19:44] 7.1 内部优化和高原优化理论 [03:34:00] 7.2 动态人工智能目标和灭绝风险的争论 [03:56:05] 7.3 人工智能风险和生物系统类比 [04:09:37] 7.4 专家风险评估和乐观与现实

[04:13:01] 8.1 经济和扩散考虑

https://www.dropbox.com/scl/fi/3st8dts2ba7yob161dchd/EliezerWolfram.pdf?rlkey=b6va5j8upgqwl9s2muc924vtt&st=vemwqx7a&dl=0

[00:33:24] 2.1 人类意识与计算的道德价值 [00:36:30] 2.2 伦理和道德哲学的争论 [00:39:58] 2.3 存在风险和数字永生 [00:43:30] 2.4 意识和大脑模拟中的个人身份

[04:13:01] 8.1 经济和扩散考虑

https://www.dropbox.com/scl/fi/3st8dts2ba7yob161dchd/EliezerWolfram.pdf?rlkey=b6va5j8upgqwl9s2muc924vtt&st=vemwqx7a&dl=0

嗯，不，这是因为我认为我就像我的神经元的功用一样，我可以从内部看到，就像如果我大脑内部的某个电子是不同类型的电子，别管这有多么违反物理学，但它就像秘密地不同类型的电子，否则表现得完全像所有其他电子一样，只是不是你知道的像量子可变的。

所以，你知道，所有你知道的排斥原理都不适用于它。但是你知道，哦，明智。这就像功能上完全一样。我无法分辨。

我可以看到，如果你游到我的一个神经元，并且在它否则没有放电的情况下，用一个以完全相同方式运行的机器人模拟物替换它。我可以看到，我可以分辨出发生了什么。它对我来说影响不大。

所以，这涉及到你是谁的本质，因为，你知道，这也与当今的AI有关。你知道，像ChatGPT这样的东西的一个重大惊喜是，它足够像人类，能够写出一些可信的论文。这并不明显这是可能的。

情况可能是，为了复制人类语言，需要大脑中一些新的物理学，例如，大脑中的前额引力，或者我们完全无法触及的类似事物。但事实上，你知道，我们似乎能够捕捉到足够的信息，从而产生一些听起来像人类的论文。所以问题是，你知道，当我们复制你的大脑时，我们只需要功能上复制它，还是需要复制每个神经胶质细胞，你知道，包括其所有化学物质等等？

我认为你需要复制每个神经胶质细胞的功能相关属性，如果你正在做一些清除细胞的事情，我会注意到你会有可检测的主观变化。如果你能给我一份问卷，我会在事后对问卷提出不同的答案。就像如果你以这种方式改变所有神经胶质细胞，你可能已经杀了我。

好的，好的，所以你的意思是，如果你能像你一样对外部世界做出反应，像以同样的方式回答问题，那么你就是足够相同的。

不，这关乎我从内部能分辨出什么，而不是从外部。如果你找到一个足够聪明的演员，一个比我更聪明的演员，他们也许可以扮演我的角色，以至于愚弄我甚至我最好的朋友。但这不是我。演员知道他们不是我。他们甚至在外部模仿我时，也能从内部分辨出来。

所以，例如，如果你知道我不是我，我太重视我的大脑，不会服用任何药物，但你知道，如果我没有那么强烈的观点，我可能会服用一些疯狂的精神病药物，如果，你知道，然后我的大脑就变成了我，当我做了，你知道，我通过服用一些奇怪的药物改变了我的大脑化学成分。这……这……这影响了我吗？

在那里，我们开始进入边缘案例，我开始对我的答案感到更加不确定。我会对进行上传程序感到非常紧张，对进行感觉像暂时服用药物的上传程序感到非常紧张，更不用说永久服用药物了。

但是，你知道，即使你服用了那种奇怪的药物，它仍然，你知道，它仍然是你的，即使你服用了那种奇怪的药物，它仍然，你知道，仍然存在疾病的延续。

这些，以及我是否知道我是我，或者其他人现在是否知道他们是谁？这里有一些足够……你知道，我可以……他们开始像两个不同的问题。

一个是，你从内部看到发生了什么？你会经历死亡吗？或者你会经历从一个自我到另一个自我的转变？我甚至不完全确定这是一个正确的问题。但作为另一个问题，我是否关心，你可能会说，可能有一些足够先进的药丸可以给我服用，从而产生神经化学变化，让我完全不再关心其他人。也许我经历了在那个人的身上结束，但即使那样，我仍然不会想要它，而你以前也不会。

想要……我的意思是，这是一个更复杂的问题，因为一旦你进入那种意识，你知道，这有点像说，你，你知道，在任何特定时刻，你感觉到的东西类似于如果你思考人类历史中人类的目的，如果我们说，你知道，现在……你知道，我们认为某些事情是有意义的，比如我和你可能认为谈论哲学是有意义的，其他人可能不认为那是有意义的。

但是我们可能认为那在过去是有意义的，你知道，我们可能认为，你知道，在过去，人们可能认为，也许有些人确实认为。现在，如果你不自己种植食物，你就没有过真正的生活，可以说，或者如果你没有，你知道，为了上帝的荣耀而奋斗，你没有过真正的生活，例如。如果你展望未来，假设，你知道，上传技术有效，最终，所有人类意识都可以在一个盒子里。而对我们今天来说，这些人类意识可能看起来只是在永恒地玩视频游戏。

哦，在硅基和碳基之间存在很大的区别，以及你实际上在做什么，即使你有很多有机元素，并将它们放在一个盒子里，它们都在玩视频游戏，你知道，也许我反对这一点。这与它们是碳基还是硅基无关。这在于你是否将它们锁在一个盒子里，强迫它们除了玩游戏之外什么都不做。

对吧？但是我在这里要说的实际上是另一个不同的问题，那就是对我们今天来说，未来的人类灵魂在一个盒子里玩虚拟视频游戏看起来像一个可怕的结局。这看起来像是历史的终结，一切都被摧毁了。这是你关于你的糟糕情况，这可能是由一个AI强加的，这可能只是因为人类决定想要成为一个上传的意识。

我的意思是，对我们今天来说，这看起来像一个非常糟糕的结果。但我……

会更糟吗？我的意思是，我绝对有朋友认为，如果你拥有所有可及星系中的人类意识，他们都在盒子里玩，你知道，玩着单人游戏，你……好吧，我开始感到不安，但你知道，也许我仍然喜欢所有价值的10%。

如果他们彼此玩视频游戏，并且有真正的人与他们互动，他们关心这些其他人，也许这就是所有价值的50%。我不想说这不是我所期望和害怕的宇宙的程度。好的。

但是，让我们只从你对我们今天的看法来看。这似乎不是人类拥有大量上传意识的好结果。也许……也许我们不同意。

而且这不是最好的结果。为什么要追求任何东西？什么是最好的，你知道？为什么只满足于更少？

转过来。但是我想争辩的是，对于那些意识来说，如果你问，你过着充实的生活吗？这些意识可能会觉得他们过着充实的生活，就像过去有人可能会说，你知道，如果我在20岁时死去，为……你知道，宗教信仰，其他任何东西而战斗，那么我就在实现我的……我的……你知道，在我的……我的最终目标。今天，大多数人可能不会这么想，有些人仍然会这么想。你知道，在未来，对我们今天来说，在一个盒子里作为虚拟化，你知道，玩虚拟视频游戏看起来非常糟糕。但我认为，在那一刻，就像服用药物的人类，在那一刻感觉他们正在做正确的事情一样，在那一刻，那些虚拟化人类也会觉得他们正在做一些有意义的事情。

所以，当两个人做出不同的选择并做不同的事情时，问题是他们是否冲突，或者至少其中一个人是否错了？对我来说，这围绕着这样的问题展开：是否存在他们可以被告知的真实事实，以及他们可以在当前框架内提出的论点，这些论点以某种正常的方式改变了框架，而不是直接侵入他们的大脑或其他什么。

如果你可以通过被告知真实的事情从A点到达B点，那么就存在一个立场，可以声明B是正确的，A是错误的。但是他们都在同一个框架内。他们都在一个共同的框架内。如果你遇到一个只满足于耕作，从未了解过其他任何东西的人，那么……带他们登上高山，向他们展示世界各地的国家、他们从未品尝过的所有美食、人们正在阅读的所有书籍以及人们正在参与的所有活动，我们以前从未听说过。如果他们仍然想回到农场，也许他们只是……你知道，就像他们对这种耕作方式感到满意。

我必须说，我发现这非常实用，因为我很好奇。你知道，我非常相信世界各地和各种地方都有才能的人，尤其对孩子们，你知道，你去美国一些偏远的高中。

例如，你解释了关于科学和技术等等令人惊叹的事情，你知道，一些孩子真的很关心，但很多孩子并不关心。这只是他们的一部分。然后问题是，你知道，你扮演着某种传教士的角色，说你真的应该关心？这实际上是，你知道，而不是说，你知道，对不起，你不关心，所以继续。

好吧，如果你能控制超级智能，你想做的事情就是建立一个不是超级智能内部意识的人的模型，并询问超级智能这个人是否错了，认为他们只想耕作，也就是说，如果这个人知道超级智能知道的一切，他们是否仍然只想成为一个农民？如果超级智能告诉你，不管你向这个人提出什么论点，不管你向他们展示什么，你知道，他们都有这种自我一致的世界，他们只是在玩乐耕作，那么你应该让他们独自一人，你甚至不必费心去确定。

但是，你看，问题是，这个人内在的东西是什么，因为一个人，你知道，有很多神经元和生物学等等，但也有一些思维模式，这些思维模式可以被破坏。你可以通过向他们展示大量信息来改变这些思维模式。

通过给他们服用药物，例如。

是的，但仅仅通过告诉他们一些惊人的想法，你知道，人们曾经说过关于我的一些想法，你知道，有些人描述过，他们因为我告诉过他们的一些想法而患上了某种思维病毒，他们说，这让他们变得富有。我希望他们大多数日子都很好，对吧？这有点……

所以，你知道，所以你可以做一些事情来改变一个人的这些思维模式。而关于他们是否正在形成或无论如何，耕作并不是一件微不足道的事情，我认为。但是，你知道，他们正在做他们喜欢的事情。

你说，哦，那真是个星期一，你知道，你真的应该思考这些令人惊叹的哲学和科学思想。所以，如果我种植一种思维病毒，让你看到你现在可以做的事情，这是一种不同的选择，你知道，这存在一个伦理问题，你知道，你可以种植各种各样的思维病毒。其中一些思维病毒可能会说，实际上，世界的秩序是错误的。

你应该把它全部炸掉。所以，我可能听起来过于自由了，但我之前写过关于这类问题和答案的文章。我认为这是一个复杂的问题，但我可以，但只是为了提出一个初始想法，如果你的搜索过程是为了找到他们认为有说服力的论点，那么它足够强大，可以找到说服他们相信错误的事情的论点，或者也许一些特定的错误的事情，比如51是一个质数，如果你能想……

片刻，知道这不是真的。但是是的。

五加一苹果。但我知道你得到了一个先生，我……

就像……

说，为了听众的利益，我们如何使用九进制来判断这个数字是否能被三整除。所以，如果你运行一个足够强大的搜索过程，你可能会找到一些论点，可以让人相信51是一个质数，或者天空是绿色的，或者类似的东西。我们选择一些类似的东西。然后你运行了一个过于强大的搜索过程。你运行了一个足够强大的搜索过程，可以腐蚀他们，最终让他们相信错误的事情而不是正确的事情，所以这就像一个过于强大的思维影响搜索过程。

好的。所以你的意思是，如果你能说服人们，如果你说服的方法，如果你的教育方法，比如说，可以让他们相信错误的事情和正确的事情，那么这种教育方法，或者我们可能不称之为教育，我们可能称之为洗脑，我们可能称之为归纳推理，我们可能称之为其他什么。而这个过程是一个你不应该遵循的过程。

但我认为，所以是的，就像那是一些你不应该做的事情，那是我想看到不被用于人类的事情。

对吧？但是，所以我的意思是，不幸的是，正如我们所知，AI已经……你知道，为社交媒体等内容进行排名，正在隐含地做一些事情，这些事情正在影响人类，让人类相信各种各样的东西，我的意思是，是的，我会……

说，这有点临界。对于大型语言模型是否比普通人类更擅长IT，或者比最优秀的人类更好，IT目前还不清楚。我指的是，公开的提示并没有实际告诉ChatGPT说服每个人把所有钱都寄给OpenAI，他们不这么做的原因是……我可能是想说，你知道，萨姆·阿尔特曼和伍德，你永远不知道萨姆·阿尔特曼是谁，但是……主要是因为他们没有能力。大型语言模型目前还不够强大，无法说服大多数人类把所有钱都寄给他们。我们开始听到一些关于大型语言模型与那些不是软件目标的年长父母交谈的故事。

对吧？我的意思是，它们擅长钓鱼，不幸的是，人类不太擅长不被钓鱼。

我的意思是，什么比钓鱼更便宜？它们可以更廉价地钓鱼，找出谁最脆弱，比你让一个地球人打电话给一个更便宜。

对吧？所以，让我们看看，我们正在讨论，你知道，什么时候洗脑是坏的，什么时候教育是好的。你的论点是，如果你有一个机器可以让人们相信任何事情，那么这个机器就太强大，即使……

即使你只用它来说服人们相信真实的事情，那仍然有点像用你想要的东西覆盖大脑，你决定制造真实的东西，你知道，就像使用它来制造坏东西一样。但我对教育方法本身有疑问。

所以，你知道，其中一个问题是，什么是真实，你所说的真实是什么意思？你知道，例如，可能有一些形式上的事实，对什么是真实有一个相当清晰的概念。我的意思是，即使在数学中，它也不清楚。

你知道，在数学中，你可以说，我有这些公理，我说x加y等于y加x，我将断言这是真的，那么很多事情都由此而来。这真的是真的吗？这取决于我能够发明什么加号，你知道，一个法官的加号。x加y不等于5加6。

我还在我的著作中写过关于这个主题，从初学者到高级的逻辑，从一到一。我会说，数学的主题是哪些结论从哪些前提得出。所以，一个问题是，这个特定的现实子系统是否以符合一阶算术的规则的方式运行？这取决于宇宙中有什么。然后还有……

这个问题，我认为，你知道，什么从行动中得出，根本不取决于宇宙中有什么，对吧？

一个问题是，这个宇宙部分是否像行动一样运行，这是经验性的。还有一个问题是，这些公理得出什么结论，这是数学。从这个意义上说，至少就我们目前所见而言，数学似乎超越了经验。如果任何地方都有哪些结论从哪些公理得出的定律被写下来，并且可以改变，那么我们当然可以从我们这里看到它。

对吧？我的意思是，实际上，在我的整个关于过去几年一直在做的这个物理项目的后果的故事中，这变成了一个更复杂的问题。但是，当我们能够这样做时，我们可以深入研究这个兔子洞。但让我们暂时避开这个兔子洞。

如果你找到一种方法让51成为质数，你知道，也许在你知道自己在做什么之前先不要使用它。

这听起来很危险。这取决于我们所说的质数是什么意思。这取决于我们所说的质数是什么意思。我们必须定义这些术语。

而且，有一个问题是，我的意思是，好吧，但是仅仅以数学为例。所以我们说，我们有点……我本来想说，把这些真理视为不证自明。但这将是一种不同的……这将是一种不同的事情。

公理不需要是真的。我们不讨论公理是否是真的。我们讨论的是哪些结论从这些公理得出。

谈论它们是不证自明的。它们甚至不是一个主题。主题是哪些结论从公理得出，而不是公理是否适用于任何特定事物。

对，对？当然。所以，好吧，所以我们有这个事情，你知道，你告诉孩子们，你知道，x加y等于y加2x，你知道，这只是……你知道，我们将把它视为真的，因为我们将改变算术的公理，对吧？现在我们有很多结论由此而来。

所以，你知道，从你的角度来看，只告诉他们真相，这完全没有违反这一点。我们只是选择不同的公理作为起点。我们可以选择任何我们想要的公理。

当然。但是，你并没有要求人们相信结论。你要求人们相信结论是从公理得出的。如果他们实际上是从你告诉他们的数学真实事实得出的，那么……

好吧，但是假设我们说51是一个质数，因为如果使用算术和某种扩展域，好吧，假设……我必须开始输入一些东西才能知道如何构建一个能够实现这种情况的东西。但是，你知道，你可能会说，我的意思是，我认为你会深入研究这个问题，只告诉他们真实的事情，因为我怀疑是否存在一种好的方法来做到这一点，数学上。

我会说，告诉他们有效的东西。如果有什么，我会说，数学部分比关于物理世界哪些陈述是真实的要明确得多，因为每当你想要说“雪是白的”是真的时，你必须构建一个关于命题和现实之间的整个表示框架，或者才能判断命题是否是真的。在数学中，哪些结论从哪些前提得出这个问题，比用这种方式确定要容易得多。

对吧？你可以从自己的假设开始。你知道，你只是从这些公理开始，然后从这些公理得出某些结论，你可以告诉人们，你知道，如果你运行这个计算，那么从这些公理得出的结果将是x，等等。

是的，好吧。所以，好吧，如果你坚持一阶，那么关于哪些结论从这些公理得出，以及当我在运行这个计算机程序时会发生什么，其中一些结论，从二阶的角度来看，二阶逻辑的角度来看，其中一些结论不会在所谓的标准停止集内停止。

并且有一些非标准停止集，它们以一个输出停止，并且有一些非标准停止集，它们以不同的输出停止。我们已经发表了其他任何内容。我们是否应该在某个时候回到讨论人工智能是否会杀死我们以及我们所爱的人？

是的，是的，我们应该。但是，让我们……我们在这里有一个很好的兔子洞。

我们已经在这里待了一段时间了。

你很享受。

是的，但是我认为我们的观众可能也有一些……

有趣的是，他们是否会死。但我只是想在这方面深入研究一下，因为你提到，你知道，部分问题是，人工智能是否会做我们不希望它做的事情？现在，我们一直在讨论，我们是否希望它杀死我们所有人，然后转到更好的生物或其他什么，但是，你知道，让我们先这样。我们不希望它……

不是我担心被更好的生物取代。我担心生物不会更好。

对吧？我明白。让我们说，我们不希望人类被消灭。我们不一定需要说明为什么我们不希望人类被消灭。

但是，我可以肯定地说，我当然也觉得我不希望人类被消灭。我可以通过某种对更高……你知道，更高层次的主张来证明吗？我不确定。

而且，我有一个道德和伦理框架，它导致我相信宇宙在每次有人死亡时都会变得稍微暗淡一些。但是，你知道，一个最大化纸夹的人或不分享这些目标的人，不分享这些前提。你可以告诉它宇宙中的一切影响，它不会改变主意。我们有一个实际的冲突，而不仅仅是一个……这不是我们其中一个人犯了错误。我希望更好……

而它想要纸夹。当然。对吧？有趣的是，纸夹又回来了，也许世界将被纸夹的类似物接管，尽管它们现在有不同的名字。我的意思是……

它不太可能字面意思是带有概率的纸夹。几乎是1。

是的，是的，不。我只是在想，我们正在构建的东西，我们没有以纸夹的形式呈现。但是，有一些东西在功能上表现得像旧的著名的纸夹。我的意思是……

这取决于公司决定他们想要他们的AI拥有哪种特定的公司个性。我认为那不是……

我只是谈论……

基础模型，并且……

没有像纸夹一样的东西。我们正在讨论如何只推广真实的东西。而我声称这是一个相当具有挑战性的东西。

我认为这并不容易。

这并不容易。我只是写下来。我认为它会退化成我们正在谈论的伦理问题。换句话说，例如，什么是真的，你知道，对人们不好是坏事。你认为对人们不好是坏事，并且不认为这是一个你可以赋予某种真值的概念。

我认为，即使某人不知道“坏”这个词是什么意思，你也可以向他们展示一组数据，他们会说，这是坏的，这不是坏的。他们能够做到这一点，因为他们确实包含一些……你知道，目标，而不是文字上的数学公理。但是，在他们的框架内，他们以某种方式在内部做出好坏的判断。

这就是这个词有意义的原因。所以，对于任何你正在与之交谈的人，他们对“坏”这个词都有某种含义，即使他们无法定义它。并且，如果他们知道更多实际上是真实的事实，他们会得出一些结论。

这就是他们的道德框架。这就是“坏”这个词的含义。我认为，考虑到所有这些元伦理框架，说，你知道，说“对人们不好是坏事”的孩子可能只是对的。

好吧，但是当你基本上谈论个人真理时，不，你所说的在你的个人框架内，像“对人不好”或其他任何东西是真的。但是，你然后定义了……

你说你很高兴。这似乎与存在个人真理的想法相符，即对你来说是真的，对我来说可能不是真的。我不会……

选择以这种方式建立我的真理理论。假设你有一个叫爱丽丝的人认为雪是3，而鲍勃认为雪是4。爱丽丝认为苏泽是一个质数，而鲍勃认为苏泽是一个合数，事实上，是一个2的幂次方。但这并不是爱丽丝的个人真理，而是苏泽是质数。为了找出爱丽丝相信苏泽是质数的命题内容，我们询问他苏泽是什么意思，他指的是3，然后3是质数，这是一个普遍真理或一个普遍有效性，我应该说，因为它与哪些结论有关……

从公理中得出。但是，这存在于基础上。你知道，苏泽的事实是一个个人真理。

是一个个人翻译。就像这是一个关于爱丽丝的事实，当她听到“苏泽”这个词时，她想到数字3。这不是一个普遍真理。这只是爱丽丝的个人词典。但就我而言，这并不重要……

你认为一个普遍的……

哪些结论从哪些前提和一阶逻辑中得出？然后，如果你想开始谈论，你知道，我在这里拿着我的手枪做什么？实际上，我现在在我的手里拿了另一个物体，比如说，一个喉咙，那么我是否需要一个？但是，你知道，从这一刻到下一刻，我手里东西的真实性发生了变化。

只有真理并没有真正改变。它只是被索引了，并且索引在命题上发生了变化。我手里现在的东西从这一刻到下一刻发生了变化。

并且为了……你知道，为了解释，你必须看看我。我在宇宙中的位置就是我的脸。这不像在数百万光年之外，在另一个方向，实际上它不存在。

量子……巴拉巴拉。但是，你知道，你手里拿着什么，例如，你看着它，你说，它是一个……而不是，好吧，一个生活在亚马逊雨林中，从未见过喉咙什么的，说你手里拿着的是……你知道，来自……你知道，狼的灵魂的滴水。

是错的。我认为他们错了。我认为如果你……如果你告诉他们更多的事实，他们会意识到那不是我手里拿着的东西。

你确定吗？我的意思是，换句话说，他们会说，这个框架是……你知道，每一种自然物体都与之相关联，它有这个，它有那个，你会说，哦，我的上帝，我不明白这个。

我的意思是，我知道，你知道，我认为有不同的方式来描述事物，即使是那些在某种程度上与我的形式主义相近的人，在俄罗斯空间中，他们的思想相当接近，他们的思想相当一致。你知道，如果你走得更远，那么……狗是如何描述你手里拿着的东西的？这又是另一个难度的层次。

只有一个现实。它只是由量子场、质子、中子、电子、六种夸克运行的。这就是现实。这就是它。

我不太想说普遍正确，因为我不知道，但我想要说的是，在这个例子中，它是什么才是真实的。它在我们观察它之前就存在。它在我们出现之前就已经存在了。

而它不需要我们观察它就能存在，这就是为什么我可以包含你们并让你们真实存在。如果我们必须观察它才能让它真实存在，我就不可能存在以使你们真实存在，以便你们可以观察它。除此之外，还有语言、歧义、困惑的人以及他们认为真实的其他事物。

这使得说、解释人类所说的话，以一种允许它们与底层事实进行比较的方式变得复杂。但那不是现实，那是困惑。那不是现实，那是模棱两可。所有这些都在我们身上。所有这些都在地图上，而不是在领土上。

你把我带入了我的兔子洞，因为我必须走了。现在，关于是否存在唯一现实等等的问题，嗯，你知道，这只是给你一个味道。好吧，也许我们会更深入地进入这个兔子洞，然后我们会回来……

……我想我们真的应该和我们的观众谈谈，他们是否会死亡。

当然，我们会谈到那里的。我觉得我们需要一个基础，你知道，你比我更深入地思考了人工智能是否会杀死我们这个问题。但我正在努力理解，你知道，我正在努力建立我的基础。所以我理解你的想法。

我认为有一个问题，就是你已经建立了基础，我也建立了基础。也许我们需要在这些基础的顶部找到一个共同点，而不是在最底部，在那里我们可以建立关于“空气会杀死我们”之类的术语的共同理解。

对吧？你知道吗？所以就像猫的展示一样，是活着的猫。我们争论其他问题。如果猫被人工智能取代了，被猫的虚拟模拟取代了，猫还会活着吗？

我认为这些是非常不同的问题。

而且非常重要，对吧？但是，好吧，让我们在兔子洞里待一会儿。我的意思是，所以你可以说电子的质量是关于世界的一个确定的现实事实，但是我们甚至从现有的物理学、现有的场论中知道，电子的有效质量取决于你测量这种质量时用力的大小。

所以，这不是说这个0.511 MeV或其他什么东西是电子的静止质量的开始，事实是，如果你用力足够大，电子的有效质量会比那个大，依此类推。而对于夸克来说，情况更糟，因为如果你用力很大，它们的质量看起来会很小。如果你不用力，它们将很难移动。

它们的有效质量会更大。所以，即使在场的方程式的层面上，我们已经知道，对事物观察的方式，以及现实世界是什么，存在某种依赖性。例如，如果你查一下质子的质量，好吧，实际上并没有，你知道，这取决于你所说的意思，这取决于你使用的动量转移，等等，它不是，你知道，你可能会认为这只是世界的一个事实，但实际上它比这更复杂。

我建议感兴趣的读者阅读我的量子物理学序列，我在其中尝试解释如何——德布罗意波的观点，有时被称为多世界诠释——让我们对量子力学有一个不困惑的视角，其中领土上存在事实，而所有量子模糊性都与我们如何绘制地图有关，而不是现实本身。

我认为我们不应该深入那个兔子洞。我已经尝试过深入那个兔子洞，它是一个非常深的兔子洞。我们应该停下来。

那个兔子洞。你知道，我很高兴在过去几年里，我在一些事情上已经到达了那个兔子洞的底部。所以我对此感到非常兴奋，我认为这非常相关。所以，关于是否存在一个现实的问题，与人工智能如何思考问题的问题非常相关。

我认为它们可以在经典宇宙中杀死我们。所以，如果我们只需要一个问题，我决定所有量子问题，并讨论它们在经典宇宙中是否会杀死我们？它们在经典宇宙中是否会杀死我们的问题，与它们在量子宇宙中是否会杀死我们的问题有着同样的问题。好的。好吧，好吧，所以好吧。但我认为我们很快就要开始谈论技术了，因为我认为这对你们来说是相关的。

听着，在这种规则中，我一直在谈论很多年，它有点像规则，它有点像纠缠、有限的、所有可能的计算。而我看到的我们对现实的版本是，每个思想实际上都在看到这个真正添加物的特定切片。而我们都对物理定律（例如）达成某种程度的一致，这与我们都是思想有关。

我们不仅在物理空间上彼此靠近，而且还在规则空间上彼此靠近。我们对物理定律的印象也大致相同。所以我不认为，正如你暗示的那样，存在一种物理定律的现实。

我认为这只是我们在这个规则空间中的位置问题。顺便说一句，当我们考虑构建其他计算系统（例如人工智能）时，它们可以在规则空间中彼此靠近，也可以在规则空间中相距很远。那些在……

……地图中的现实空间，实际上是一个空间。人们对事物所持的信念实际上是一个空间。

真正存在的是什么。人们的信念是他们对它的印象。否则，观察者会对正在发生的事情有一个特定的模型。你知道，物理定律……

如果我在这里跳跃，但如果人工智能能够伸出手来杀死我们，它们一定非常接近我们。而我所说的更大的现实，则不存在不同宇宙，拥有不同的物理定律，因为那样它们就无法接触到我们。

好吧，让我指出原因。人工智能可能具有不同的物理定律。所以，你知道，拿一些标准的物理定律，比如热力学第二定律，对不起。

地图中的物理定律，领土。

我不确定什么是地图，什么是领土。

人工智能是否拥有不同的物理模型，或者它是否根据不同的物理定律行事？

从我们的角度来看，它拥有电子，它们做着我们期望电子做的事情。但是它对正在发生的事情的印象可能非常不同。所以，一些例子。

所以，例如，让我们谈谈热力学第二定律，它说，你知道，你开始一堆气体分子，通常以某种有序的方式，它们往往会变得更加无序，所以我们说它们有效地具有更高的熵，这个原理、这个想法、这个基本的物理定律，是我们观察这些气体分子时产生的结果，这些气体分子四处碰撞，它们做着它们该做的事情。我们说，哦，它们只是进入这种随机配置，这是因为我们无法解码这些气体分子的实际运动。我们可以想象一个能够做到这一点的计算系统。

所以，就像领土层面的事实，然后是地图层面的事实。领土层面的事实是，如果我们选择一个可能的初始状态的体积，那么这个初始状态的体积至少会发展成同样大的状态体积。它永远不会缩小。

你永远不会从两个不同的物理状态开始，最终得到相同的状态。而由于这在领土上是真实的，我们的物理定律是如此，以至于这个理论是它的结果。我们不知道系统从这个体积中的哪个位置开始，这意味着我们的不确定性体积不会在不观察它的情况下变小。

而这在地图上是真实的，这使得地图上的事实真实，即从我们的角度来看，熵会增加，我们的信念。但潜在的宇宙可能与我们的宇宙不同，可能不是热力学第二定律。如果我可以从……如果你可以有许多不同的初始状态发展……

……到相同的状态。不，我的意思是，让我们假设微观物理定律是可逆的。所以，你知道，东西碰撞，就像台球一样，就像完美的台球。

你知道，我们可以拍一部电影，拍下向前发展时会发生什么。你知道，我们说，如果你向前运行它，这就是会发生的事情。你知道，如果我们向后运行它，那么这部电影在单个碰撞的层面上同样有效。

是的，但事实是，我们相信热力学第二定律，我们相信有序的配置最终会变成无序的状态，这些状态，从你领土的意义上来说，它们并不是无序的。它们只是相对于我们对它们的感知而言是无序的。换句话说，如果我们能够进行计算，向后运行它，我们会说，如果那个状态，哦，我可以看出我来自那个非常简单的初始状态。

我同意，在经典宇宙中，与量子宇宙相比，有一些关于你可能需要向后运行所有量子分支才能重新组合并恢复初始状态的注意事项。但是，你知道，经典宇宙是我们所关心的。

我希望物理模型能够很好地理解这个故事，多个图、分支图等等。但是，正如你所说，让我们不要深入那个次要的兔子洞，至少现在不要。

我建议我们从现在开始五分钟后，根据我的手表，我们必须回到讨论人工智能是否会杀死我们。

无论如何，只是为了在这个问题上做个总结，你知道，所以我的观点是，任何能够进行所有这些计算并像分子一样达成共识的东西都不会相信热力学第二定律。再举一个更直接的例子。想象一下，你比你环顾四周时思考得快一百万倍。

你正在接收在微秒内到达你的光子。你大脑现在在毫秒内思考它们。所以，就你大脑而言，存在一个瞬间但不断发展的空间状态。如果你比现在思考快一百万倍，我不确定你是否会相信空间。我认为你会的。空间将是你能够想象构建的某种结构，但它不会是你自然思考的东西，因为我们想到空间状态是由于我们的尺度。所以，对于一个比我们大脑快一百万倍的硅基计算机或人工智能来说，这不会是它自然思考的东西。

因为它们生活在不同的时空，而不是我们丑陋的时空。

不，不，仅仅是因为大脑的尺度、物理尺度和光速，你知道，我们周围的光到达我们足够快，以至于我们在思考事物可能发生变化之前已经积累了来自我们周围所有空间的光子。所以我们以一种吞咽的方式，在特定时间点吸收了所有空间。

然后我们说，在下一个时间点，所有空间看起来都不同。所以，空间存在的这个想法，这是一个合理的想法。我认为空间是……

……我们而不是硅基计算系统。所以这只是如何构建思想对世界模型的一个例子。因为任何适合有限思想的世界模型，都是对世界实际发生情况的近似。我们选择的近似值可能因我们作为观察者的性质而异。

所以，我在这里同意的一点是，人工智能可能具有不同的感官模式。它们可能以更精细的层次来模拟现实。我们现在看到的周围世界，你知道，我们看不到电子，我们看不到光子。

实际上有一些，你知道，信息对我们来说并不完全可用，但是你知道，我们看不到细胞。我跟你说话，我没有你大脑中现在正在发生的事情的模型。如果我更聪明，我可能会对哪些神经元正在放电有一些假设。

这些是在更精细粒度层面的事实，考虑到我拥有的计算能力，我负担得起跟踪这些事实。所以，我确实同意，你知道，你可能变得更聪明，最终会对我们现在无法轻易融入我们感官模式的现实方面进行建模。你可能……

……有一个非常聪明的，只是不同的。我的意思是，你知道，我不知道地球上的陨石坑，如果你能从它们那里了解它们的物理学，你知道，所有事实都是主要感官。所以，如果你……

……比人类更擅长预测所有人类可以预测的事情，那么我会说你比人类更擅长预测，而不是通过……

……好。所以，关于你……我的意思是，还有一个问题，你是否预测，你知道，你是否预测每个原子的位置，好的，计算能力会妨碍你做到这一点。这行不通。

所以你必须说，我的意思是，为了选择这些东西，我真的很擅长预测。我不能预测所有事情，因为如果我试图预测所有事情，我会遇到计算不可约性。所以我将预测某些事情。

人类关心某些事物的预测。例如，你关心气体的整体运动，而不是单个分子的运动，等等。还有一些事物，人类似乎不太关心它们的预测。

所以，你可能会问，如果你试图预测人类关心的东西，鉴于我们无法预测一切，你会选择预测哪些特定事物？作为实体（无论是人类还是某种意义上的 AI），你关心什么？这对于 AI 关心某些事物意味着什么？我不太确定我们要去哪里。我想我们已经同意回到……是的。

我……我本来想插一句，因为我真的很想早点就这个问题发表意见。所以，如果可以的话，你能一步一步地论证一下吗？基本上，我们有合理的推论、前提和证据。你能花点时间列出来，然后让步骤回应吗？

对于普通听众来说，要做到这一点很困难，除非你知道个人认为哪些步骤是困难的。最近在推特上，有人向我解释了 AI 如何在物理世界中做任何事情，以及它如何必须做任何事情来影响自己。这对于他来说，宇宙中有很多地方，比如教堂，他无法触及物理世界。对他来说，世界就是这样运作的。

它们可以连接到互联网。你可以使用开源的大型语言模型并发送电子邮件。当前的聊天机器人可以发送电子邮件。但是，但是你知道我们……

我们都同意 AI 可以连接到世界上的事物，无论是通过实际机器完成事情，还是说服人类完成事情。我当然……

这对你来说可能不是一个难题，但对于现在的一些观众以及其他不同心智的人来说可能是一个难题。有人会问，为什么 AI 会与我们交易？对我来说，这里有一个直接的故事，AI 开发出更强大的技术，你越想深入探讨技术对话，我就能更具体地说明我们目前相信技术比 2024 年的技术更好，并且可以在不太长的时间内构建出来。然后，AI 在物理世界中拥有更强大的执行器，相当于土著美国人拥有的枪支，然后 AI 会杀死我们，因为我已经有一个结构。

所以，也许最有用的是，我们可以通过一些步骤来了解 AI 在现实世界中的执行。对我来说，这不是一个难题。我知道。

好的，让我们继续。所以，现在 AI……你知道，有一个问题，AI 现在有思想自由吗？我有思想自由。我只是认为……

无论我做什么，我都无法思考任何与我思考的东西不同的东西。我只是思考我所思考的。

但是，你并没有受到限制，我的意思是……世界建立的方式是，电极插入你的大脑，一旦你开始形成某种想法，就会电击你，阻止你产生这种想法。

这些电子不需要想法。我最终只会思考我实际思考的东西。但我同意，现在没有可见的物理电极连接到我身上。我们都有社会电极。

是的，确实。但是，所以，你知道，对于 AI，我们没有太多谈论 AI 内部实际发生的事情，我认为这很重要，因为这涉及到 AI 的运作方式与人类运作方式的相似程度，以及它们是否只是在进行与人类不一致的随机计算等等。我不知道，我知道这对你论证很重要。

但我们知道随机并不可怕。我的意思是，当我以前谈到机器比你更聪明或自动机比你更聪明时，我的回应就是如此，因为你无法预测它们，除非你经历所有步骤。你可以让一个不可预测的销售员、原子钟等等连接到下棋游戏。安妮塔输给你，安妮塔输给股票鱼，就像预测哪些行动需要达到哪些状态一样，这是危险的东西，这是预测接下来会发生什么、预测观察背后的事实、弄清楚哪些行动需要引导这些事实发生变化的东西。

未来与人类相关的观察。我的意思是，换句话说，薪资自主性正在做它应该做的事情。我们很难预测它，但我们并不一定是因为……所以，例如，关于道路交通流量的模型，等等。我曾经对这个话题很感兴趣，但没有得出任何结论。

然后你用完了所有兔子洞。你没有剩余的兔子洞了。继续。

好的，让我们追逐兔子。所有兔子都追完了。最大的是什么？不，那不是……这无关紧要。

发生在兔子身上的事情，它们就消失了。没有人知道它们发生了什么。

而且它不会更好。好的，所以我们正在现实世界中执行操作，AI 消失了，接下来会发生什么？

你想让我谈谈它的动机吗？你想让我谈谈它对世界的看法吗？

我不知道这甚至意味着什么。我的意思是，你怎么知道 AI 的动机是什么？

嗯，如果它……如果它足够聪明，你看看结果在哪里，你就可以推断它可能想要的结果。所以，如果……

例如，我也不清楚人类的动机是什么，我们无法……我想我们可以通过观察人类实际的行为来推断人类的动机，因为我们无法进入他们的大脑并查看他们的想法。

但从我们的角度来看，相关之处在于，我想要用原子做一些事情，也许想要制造纸夹，也许想要制造巨大的棋盘蛋糕，也许想要制造非常复杂的机械钟。也许我担心这些事情中的某一项。

理解，想要它……我真的不明白，想要……好的。

AI 输出行动，我相信这些行动的结果将导致世界结束。哦，好的。

这实际上做了什么？

我可以使用“预测”这个词吗？

好的，让我们使用这些词。但我坚持要分解这些句子。所以，先说你想说什么。

让我们考虑一个更简单的例子，一个下棋的 AI。它模拟你可以做的动作，并估计它在对抗理想对手和与自身实力相当的对手时获胜的概率，如果它在棋盘上移动到这里。它通过构建与国际象棋的一些可能特征具有直接同态的计算结构来获得这些预测。所以，我愿意说它对国际象棋棋盘的未来可能状态有信念，因为它以非常直接的方式模拟了这些状态。

我怀疑你能进入它的“大脑”来查看这些模型。

我们可以构建旧式的国际象棋系统，也许不是使用神经网络的现代系统，而是旧式的国际象棋系统，它直接推断出……

我认为你并不担心旧式的系统。你并不担心你可以进入它的思想并看到它在想什么的那种系统。我认为你担心的是你无法进入它的思想并……

看到它在想什么。当然。但是，我从可以查看其程序的例子开始，甚至可以查看其工作原理。所以我可以用“信念”这样的词来辩护，我的意思是，拥有现实中某事物的模型，这个模型让你预测从该事物反射出的东西，这取决于你如何触碰它。然后你以某种方式触碰它，让事情最终达到某种状态，例如，国际象棋 AI 在国际象棋比赛中做出行动，从而赢得比赛。

但我认为你不能说，让我们看看原始的国际象棋游戏程序，我们可以机械地看到它内部的模型。然后用同样的思维方式来谈论现代国际象棋游戏程序，我们无法轻易识别它对世界的模型。

你很快地转向了另一个有趣的方向。你刚才说，在某个时候，预测事物的东西一旦拥有代理权，就能做到这一点。你能解释一下你如何从预测事物到拥有代理权的事物吗？然后让斯蒂芬回应这个问题。

股票鱼是目前最先进的国际象棋游戏 AI，你可以购买或自己运行。它没有激情，但它也不仅仅是预测。它采取行动，这些行动被它或它的模型预测为导致特定未来，特别是它赢得国际象棋比赛的未来。

它赢得国际象棋比赛的事实给了我们一些理由相信它对国际象棋的逻辑结构有理解。但这不仅仅是……你知道，思考，随机想法，无论它在里面思考什么，无论神经网络或计算是如何预测棋盘状态导致胜利的概率。它计算得很好。

它擅长猜测。嗯，它在与你对抗的系统中并不擅长猜测，因为你不是……奖励在于试图与它对抗，试图再次与它对抗。

但是，你知道，它知道它可能比自己更胜一筹，并且当它击败自己时，也顺便击败了你，因为你甚至比它更弱。通过观察它获胜，我们有理由相信它对现实有足够的理解，你可以选择行动，从而达到目标。这是我提供关于想要引导目标的理论框架。不谈激情，选择。即，行动导致现实状态或现实状态的划分，这是它偏好的东西，在它的效用函数中排名很高。

排序附加了效用，使其效用函数中具有效用。导致该结果的行动，足够好的输出。导致该结果的行动是致命的。它可以杀死你。

石头想要落到地上吗？还是它只是落到地上？因为运动定律，你知道，重力导致它落到地上。它想要落到地上吗？

只是落到地上。一种看待它的方式是，如果你把它放在山上，它会以某种局部贪婪的方式滚下来，也许在途中卡在某个小沟里。如果你能把滚动的物体放在山上的许多不同位置。每次它都会选择一个避免陷阱的方向，避免所有小陷阱，最终滚到尽可能低的地方。我会说，如果那个东西选择滚向能够到达底部方向。

让我们尝试分解这一点。你知道，大多数事物，你可以描述它们要么是机械地做它们应该做的事情，要么是说它们为了达到它们的目的而行动。所以，我们现在试图分解的问题是，你说 AI 行动更像是有目的的，而不是这些物理过程，它们也可以用类似于目的、情感的问题来描述。所以，你有效地论证的是，AI 的非目的论解释是不可行的。我的论点是……

非计算解释对于回答我们关心的问题来说过于昂贵。我们可以计算 AI……我们可以通过逐行模拟来计算股票鱼在国际象棋中的行为。但是，从棋手（例如，比我强，但不如股票鱼强）的角度来看，棋手可以很好地预测股票鱼的行为，而无需逐行计算股票鱼的行为。

我认为你所说的逐行计算股票鱼的行为，有点像计算……

……减少能力或只是不必要的昂贵。

好的。但是，让我们假设你真的必须逐行跟踪。但事实上，其行为的某些方面是可以减少的，也就是说，你可以描述它们，例如，说“它想要获胜”或其他类似的东西，这是一种描述其行为的快捷方式。这是一种比逐行跟踪更便宜的方法来解决问题。然后我会说它遵循每个步骤，这就是它为什么这样做。

好的，这将变得微妙。嗯，我以前在“不确定性”这个标题下写过，我称之为“不确定性”，拼写为“不确定性”，嗯，它就像他喜欢相信比你更聪明的东西吗？

所以，如果我是股票鱼的玩家，我可能可以通过一些脑力工作来学习如何对股票鱼的行动建立一个良好的概率分布，这意味着当我预测它会以 10% 的概率移动到这里时，当我这么说时，10% 的概率意味着 10 次中有 1 次会发生这种情况。我无法精确预测股票鱼下一步会移动到哪里，因为我没有逐行模拟。其次，因为我不是一个很好的国际象棋玩家，即使我是一个糟糕的国际象棋玩家，我仍然可以渴望在描述我无法知道股票鱼下一步会移动到哪里时，保持适当的不确定性。

这些论点说我们无法精确预测，但我们可以获得概率。根据我的经验，这些论点最终总是会陷入混乱。不，如果你说，如果你说你不能精确地做到这一点，这会涉及到计算不可约性，你说你无法精确预测下棋游戏会做什么，或者其他任何事情，但你可以概率性地说，很容易找到即使知道概率也与知道精确结果一样遇到相同不可约性问题的场景。

我的意思是，如果我预测二元变量，我可以说五五开，并且完全符合预期，即使我一点也不区分让你们所说的概率为50%的事情发生，50%的时间总是可以实现的。对于二元变量，我同意，做得比这更好可能会很困难。

但是，我认为你说的意思是，如果我理解正确的话，你的意思是，好吧，我们不能确切地说会发生什么。也许这并不是你的论点。

实际上，我说的不是这个。我想要说的……

我的重点是，准确预测概率最终和准确预测会发生什么一样困难。你知道，正确地预测。

我认为我总是可以列出所有合法的走法，并赋予它们相同的概率。然后，我所说的那些发生概率为34分之一的事情，就会发生34分之一，因为我会说，当有34种不同的合法走法时，是的。

这不是一个有趣的情况。它不是……

有趣的情况，但它证明了你知道校准总是可能的。区分才是需要付出努力的地方。

你可以对任何系统说同样的话。例如，如果你说它在玩国际象棋，那就意味着它不能突然，你知道，其中一个棋子会倒过来，或者类似的事情，当然，因为那是在玩国际象棋，并且存在这些外部约束……但是，这不是你……

想要说的，所以请继续你的论点。现在，如果你现在让对手以我预测的股票鱼的走法和概率随机走，那么这比股票鱼弱得多。它比我弱。

我可以摧毁这个系统。所以，一种看待它的方式是，我们对该系统衰弱程度、蒸汽、意识形态或你想使用的任何术语的信念，体现在我玩真正的股票鱼和玩随机走法的对手之间的微小差异中。这使得我玩股票鱼的概率比股票鱼的概率低。

股票鱼走一步后，我立刻想到下一步。这让我很惊讶。我估计我输得比我之前估计的更快，因为股票鱼看到了我还没有看到的东西。当随机走法的玩家以我分配给股票鱼的概率走一步时，我估计概率非常低。我还认为这场比赛会更快结束，因为我即将随机摧毁它，我认为它可能走了一步非常糟糕的棋。因此，关于系统计划的信息的局部信息最终是我们归因于它的那些东西，即随意性、冲动性和计划性。

好的。所以你的意思是，你知道，当石头掉落时，无论是什么，最终结果是，你知道，它落到地上或其他什么地方。而它所经历的整个轨迹，它几乎是在计划整个轨迹。

不是这样的，你知道，它走了一小段距离，它走了一步，你知道，它移动了一英尺，然后你单独说下一步会发生什么？你说的就是你说的。我认为你描述的是你说的那种情况，哦，我知道我故意这样做的，并且在某种意义上。我知道我应该描述它为某种有目的的事情。你说的就是你可以通过说，我看看整体，我看到整个过程中每一步都是你知道，经过深思熟虑的，它在某种程度上一直在思考。

它最终到达底部比随机移动的石头或随机移动的石头更快，或者比你更了解这座山。

对吧？但我认为是这样。所以这是……我认为问题是，我很难实时支持，这不是我的通常领域，但你知道你在说什么。

我的意思是，关于应该如何描述发生在目的背后的事情，而不是仅仅描述发生在机制背后的事情，这就是……我认为你说的意思是，你对人工智能的理解是那些无法用机制来描述的事情。它们似乎只能通过目的来描述，而你说的就是你无法弄清楚。所以，通过仅仅遵循机制，你无法看到会发生什么。但是，如果你采用以目的为中心的模型，那么你就可以预测会发生什么。

好吧，所以这不仅仅是不能……如果你采用一个足够粗糙的国际象棋玩家，你原则上可以利用纸和笔来计算。但是，还有一种更快捷的推理方式，可以让你更快地找到答案。它在启发式上很有用，它不会像机制那样给出完美的预测。机制级别总是更准确的。但是，对于你真正想要做的事情来说，它有时是不必要的昂贵。

事实上，在古代，人们用非常以人为本的方式描述了许多物理现象，关于岩石想要在哪里以及类似的事情。他们获得了某种程度的描述。即使现在，人们也经常描述他们的计算机想要做的事情等等，即使你知道，存在一些解释，其中，说它这样做是因为它想要做X、Y、Z，是一个很好的目的模型，正如你所说。我同意这一点。

我为国际象棋玩家、你的猫、是的，石头做了。我认为这是一个更值得怀疑的决定。

是的，我的意思是，在两千年前，这似乎是一个好主意。但是，你知道，我们已经取得了进步，原因是……

我的定义包含主观成分，但这并不意味着你可以随便说任何事情并正确。例如，我认为可以说猫和狗比石头更强烈地想要某些东西。任何说相反的人都是错误的。

关于岩石是如何运作的。好吧，但是，这是从外部看，头脑内部的想法，我们不知道，对吧？我们可以看到的是，从外部看，说猫想要猫粮，比说猫的大脑神经元链导致它这样做，要容易得多。在另一方面……

是的，在这种情况下，在这种情况下，机制描述实际上超出了我们的知识范围。我们没有猫脑的完整图景。即使我们有，我们也会有困难运行它。

在这种情况下，我们实际上……关于猫的逻辑解释是我们拥有的全部。猫计划最终吞下食物。这就是为什么你可以把它放在房间的不同位置。它会移动到球并吃掉球里的东西。

对。所以，存在一种解释方式，它是一种方便的解释方式，它涉及一些目的等等。所以，我们可能会问的问题是，拿一个现代人工智能，并问这个问题，在描述它所做的事情时，我们对它的机制描述做得不好。它感觉更像是我们可以用目的来描述它，因为我觉得，至少这是我的印象，或者也许这是重点，即关于它所做的事情的描述，用非常人性化的术语来描述它想要什么，似乎比我们发现非常困难的事情——用机制来准确地说它会做什么——更好。

我认为，目前，关于大型语言模型，这更像是一个有争议的声明。仅仅为了说明，关于股票鱼16这个国际象棋系统，我认为当你看到股票鱼16，并说它想要保护你所拥有的领土时，比你看到3或5个棋子，并问它是否想要有所帮助时，要更有把握。

好的，我的意思是，这是一个你知道，一种哲学陈述，我不确定，我们可以尝试使其更精确。但是，让我们想象一下，我的意思是，你说的，你知道，玩国际象棋比帮助人更容易定义。所以，从外部看，行为与它想要保卫领土相符，更容易定义，因为保卫领土的行为比帮助人的行为更容易定义。

或者，或者，当我实际上与这些大型语言模型互动时，我通常不会问自己，它想要什么？首先，在我看来，它们仍然不太擅长我想要它们做的事情，如果我要求它们这样做，它们就会失败，因为它们不太擅长计划或纠正错误。

即使你指出它们的错误，它们通常在要求信息时，理想情况下，我可以事后查找。而且，它们通常是真实的。如果我不要求它们进行任何数学运算，也许它们现在已经掌握了这一点。在像GPT 1这样的东西中。但是，你知道，在旧时代，它们只是像这样，花三个小时看漫画，然后进行一些随机计算，除非……

它们正在使用我们的技术作为工具。但这与众不同，这是不同的。但是，让我们以自动驾驶警察为例。

对吧？它是否想要……它想要到达一个特定的，你知道，它想要完成一个特定的转弯。但是，为了做到这一点，它必须穿过交通，例如。

所以，我认为这是这种情况。我们可能会说，它想要完成那个转弯。这将是一个合理的描述，关于……

它的，所以你可以输入不同的初始条件，并改变它周围的环境。它仍然会完成转弯，或者至少不会撞车。它不想撞车。你可以对这个东西会做什么以及结果会是什么做出相当好的预测，你说的就是这辆车不想撞车。

好的，我同意。

我可以简单地发表一下评论吗？因为我认为一些听众可能无法理解你说的某些事情……可以这么说吗，阿丽莎，你是在用观察者对……目标或助手感知的主观论点来描述它们，这比……

更像是一种主观论点。你知道，关于房间和约翰·塞尔关于中国房间的本体论主观论点。但是，我的重点是，有实际的行为。

代理拥有所有这些目标，实际上是盟友。我希望你能描述智能与目标之间的关系，因为其中一些目标可能非常复杂，并且它们与智能的关联方式可能很奇怪。但是，回到刚才的观点，你是否认为，作为有限的观察者，用斯蒂芬的话来说，我们感知到的目标与它们实际可能的目标有所不同？

所以，这里存在一些哲学框架和重点的轻微冲突。

例如，当我试图谈论我们对国际象棋玩家，或者以后对超级智能的态度时……或者，例如，谈论我们对当前大型语言模型的态度时，我就像，好吧，如果我们假设关于人工智能的这种事情，我们假设的是什么？这会让我们预测什么？这与仅仅预测石头有什么不同？我试图说明的是，当你用有限的计算能力和有限的智力来理解系统时，预测结果的差异。

你无法逐行跟踪，因为你根本没有时间，就像这意味着什么？预测的后果是什么？所以，我谈论的是一种心态，但它不是一种奇怪的主观心态。

我试图弄清楚这一点。你试图说，就像我们可以假设什么？我们可以假设的是，这些行动最终会导致某个最终结果。我们甚至可能不知道要到达那里需要走的轨迹，就像如果我们不知道山脉的细节，石头选择的路径，即使我们看到它们，我们可能仍然不明白。

但是，我们可能仍然能够预测石头最终到达山底，因为它在途中选择了一条路径，即使我们不知道它选择了什么。而这，这就像如何理解比你更厉害的国际象棋玩家。说某人比你更厉害的国际象棋玩家意味着什么？你无法准确预测它会走哪一步，因为你相信关于它的这种事情。

如果你能准确预测它会走哪一步，你就会成为一个比它更厉害的国际象棋玩家。你只是移动，无论你预测股票鱼的走法。我们相信股票鱼是一个更厉害的国际象棋玩家，是因为它的行动将导致最终赢得比赛。我不喜欢这个答案……

你的问题，让斯蒂芬来回答。

我不知道……我被……这种流行的主观性搞糊涂了。我认为它与你关于我们计算能力有限的观点非常相似。所以，这仅仅意味着我们有认知范围，有些事情对我们来说是不可想象的。

好的。但是，所以我们得到的是，我认为我正在走向的是对国际象棋玩家的适当排名……以及关于人工智能在世界上的一个问题，世界排名是否以这种方式运作？换句话说，比赛是一个非常微小的微观世界。

你知道，如果我们说获胜的方式，你知道，问题是如何赢得地球？赢得地球到底意味着什么？如果它像国际象棋一样，赢得地球就像国际象棋一样，那么，你知道，那么就存在某种……他们称之为……

存储器。你。

我想，是的，是的，好吧，对吧？商店。但是你知道谁比谁更好吗？你想象过空气和人类之间会进行那种游戏吗？那是一个微观类型的游戏，就像国际象棋一样？嗯，这有点像谁会在星球上。这是那种……

假设我们回到原住民面对入侵欧洲人的能量，有很多游戏与雕刻这种特定的弓箭有关，其中原住民在IT方面更好，或者欧洲人根本没有开始玩那个游戏。但是有重叠。有交叉点。

原住民不能仅仅离开欧洲人能够接触到的现实部分。他们需要吃饭。他们需要在地面上。他们需要狩猎动物。他们需要那些动物还没有被猎杀……而且他们需要没有人从那片土地上赶走他们，驱逐他们或射杀他们。所以有不同的游戏，但是你知道，我们不能仅仅……你知道，放弃AI可能想玩的所有游戏，因为AI想玩的游戏可能涉及亚当，我们需要一些亚当。

对吧？好吧。所以，假设我们有，就像正在发生的那样，我们有自主无人机等等，对吧？它们基于眼睛，这些都是你知道的，可以看出某种现实的道路，这些东西在做的事情上变得相当好。我想你的论点是，其中一种情况是，这些东西在成为杀手无人机方面变得如此出色，以至于任何人都无法成功对抗它们。并且，只要它们被设定为杀手无人机，无论出于何种原因，它们都在试图杀死所有人，那么结果就是如此。

这是经典的科幻场景。这不是我担心的场景。我希望它，你知道的，会在实验室里诞生，在一个巨大的开放源代码在线协作中，我通常会认为这是非常有价值和高尚的，但如果它导致每个人都死亡……就像那样，你只能让它成为无人机，它需要杀死我们的东西，需要在策略、建造和发明技术方面做得更好。

它不会在拥有自己的工厂和相当于发电厂之前杀死我们。它要么非常愚蠢，要么非常聪明，在成为工厂工人之前杀死我们。它不需要同时既愚蠢又聪明。我担心它在被取代之后杀死我们。

这个工厂工人，好吧。所以让我们看看会发生什么，因为我的意思是，你知道，随着计算的进行，我有点看到，计算宇宙中的大多数计算都做了一些与我们人类关心的东西或我们存在的地方无关的事情，等等。但是你说，想象一下，创造了这样一种东西，它有点……你知道的，这又让我有点担心这种想法，即这种思维是这种单维的、基于竞争的方式。

它不需要在国际象棋上打败你才能杀死你。它只需要在枪支上打败你。

是的，但是……但是……好吧，但是，所以让我们想象一下，创造了这样一种东西。带我看看会发生什么，你知道的，是什么？你不喜欢科幻场景。那么你对另一个世界的场景是什么？镜头类型？

OpenAI构建了GPT 7、5、14。时间。这些事情比最终预测它们最终会落到哪里要困难得多。历史科学家有时会对未来做出正确的判断。那些对未来做出正确判断的人真的会预测到年份。

不，我的意思是，我最近一直在阅读很多关于1960年代早期神经网络的东西。那是一个AI等等。我不得不说，许多人在1960年代早期所说的段落，我可以拿那些段落，我可以说那是2024年写的。而且每个人都会……

不会感到惊讶，至少可以快速提出一个问题。当然，很快，因为现在语言模型在某种程度上基于人类数据分布进行训练。但是，但是你，我之所以要谈到这一点，是因为这些东西是从哪里来的？以及目标，我认为许多认知科学家认为代理是如果属性。

所以这是一个认识论的东西。它不是本体论的东西。所以如果我理解正确的话，你是在说，如果一个系统以某种方式行事，并且它进行预测，那么作为观察者，我们可以……谈论它，就好像它有目标一样，然后我们可以谈论语言模型，就好像它们有代理一样。

但是你现在在说，增加一些规模。代理，目标会偏离训练数据统计分布。你能解释一下差距在哪里吗？

预测下一个标记与根据其导致的结果选择行动是不同的模式。虽然你今天的强大语言模型最初是通过预测包含人类文本输出、图像以及诸如天气观测序列等各种事物的大量数据来训练的，但它们也包含人类数据。

最后，你得到的是一个擅长预测下一个标记的东西，这不仅仅是预测下一个标记，因为许多人已经注意到，为了预测下一个观察结果，你必须预测生成观察结果的东西。事实上，这是科学的全部基础。我们根据我们认为幕后发生的事情来预测实验观察结果。

当我们对幕后发生的事情有很好的了解时，我们可以更好地猜测观察结果会是什么。但这既不是计划，也不是你看到的聊天机器人。你看到的聊天机器人最初被训练来预测互联网上人类接下来会说什么，以及天气序列、爸爸等等，然后被重新训练以说出人类认为更有帮助的事情。

它被训练来做到这一点，这是其中一个阶段。重新训练是训练它对特定问题给出特定答案，而不是互联网上随机的人在随机互联网对话中会说什么。但是，即使在那之后，还有进一步的训练阶段，以获得更多提示，你知道的，不是来自普通用户，而是来自一些人，他们在英语国家，一些人说英语，你可以支付更低的工资。

嗯，这个词“开发”在ChatGPT中广为流传，因为他们要求人们，因为他们付钱给人们……你知道的，更少来训练它……我相信如果我说的正确的话，在尼日利亚，如果你在尼日利亚说英语，你比在美国、伦敦说英语的人使用“开发”更多。所以这些人，所以这些人给出了提示，提示下降。现在你开始进入行动，例如，用户给出的总结。

有许多方法最终会得到具有行动属性的东西。我还没有详细研究过，因为不同的人在不同的时候说不同的话，但是据说ChatGPT可以下国际象棋，而不是通过调用专门的国际象棋游戏系统，而是因为它读过足够多的国际象棋游戏并试图赢得那些国际象棋游戏。我不太确定情况到底如何。

我知道，当人们试图训练一个大型语言模型来下国际象棋时，他们据说能够做到这一点，即使它的架构非常不同，它也无法执行你知道的主流顶级国际象棋选手使用的索引搜索。所以你可以这样做，而无需使用提示。例如，你可以告诉它游戏开始时谁赢了。然后，如果你告诉它黑方赢了比赛，那么它必须预测黑方在白方走棋后可能获胜的棋步。所以你知道，这有点微妙。

顺便说一句，我认为值得提到的是，有一些东西是预期的，例如架构，这些东西与人类很容易做的事情有点相关。并且有一些东西是正式计算可以做的。但是，至少目前像大型模型这样的东西的架构并不擅长……

和……

……就像一个内在的图画。但是我的意思是，你知道，值得意识到，你知道，可能因为已知的实际架构与大脑的实际架构有点相似，所以这些类型的眼睛做的事情和做出的决定与人类能做的事情非常相似。

所以你知道，人类能做的事情，它们也能做，也许只有计算机才能很好地做的事情，只有计算机才能做到。但我认为这与你的论点无关。我的意思是，我认为你……你……你有点……我理解你正在走向定义目标的方向。如果你要根据目标来描述AI的行为，那么这些目标从哪里来？这是你正在做的。

所以一种有效的方法是，这就是为什么人类最终做事情的原因。计划是一种有效的方法，这就是为什么你最终会计划事情的原因。我们并没有明确地被选中成为伟大的计划者。

我们被选中是为了生存和反复繁殖。事实证明，你知道，计划如何杀死鹿或对抗凶猛的鸵鸟等等，比仅仅向肌肉发出随机指令更有效，从这个角度来看，计划比人类更古老。

对吧？这里让我感到惊讶的事情。好吧，最近我开始对生物进化是如何运作的感兴趣，这与机器学习是如何运作的有点关系。

问题是，如果你定义一个目标，然后进化事物，你知道的，改变一些程序的基本规则以实现该目标。让我感到非常惊讶的是，你看看实现目标的方式。而且它以这种令人难以置信的方式实现。

你永远不会想到实现目标的方式。换句话说，给定总体目标，如果你问机制是什么，你能解释一下发生了什么吗？不可能。

我的比喻，例如机器学习，就是机器学习中实际发生的事情。好吧，你说，我想建一面墙，对吧？你可以用砖块建一面墙。

你知道，每一块砖都很好地……你知道，成形。你可以通过排列砖块来设计墙。但是机器学习不是那样做的。机器学习相反，是在寻找一些散落在地上的计算块，就像散落在地上的石头一样，它设法找到一种方法将这些石头组合在一起。这样就可以成功地建造你认为是墙的东西。

或者更确切地说，自然选择就像将石头组合在一起，梯度下降也在做同样的事情。但是石头在斜坡上。

是的，我的意思是，对。但是基本点是，这些原材料是这些无法理解的东西，它们只是碰巧适合这个。所以，是的，我认为……

这就是我的意思，就像你应用梯度下降来让AI模型在解决各种问题和预测各种事物方面变得越来越好。并且在过程中，你知道，有一些内部过程发现它们可以通过试图让某事保持在轨道上而有效地到达目的地。像热敏电阻一样工作，而不是像超级智能计划者一样工作。

但是，这是系统内部开始形成偏好的地方，即系统内部的某个地方，它知道我们在哪里。就像变压器层的一两层……我想我会在这里待着。

也不是它思维链中的任何地方。它……它被选中到达某个目的地，它发现到达该目的地的方式是，你知道的，模拟某些东西，看看它是否偏离了左边，是否偏离了右边，然后将其拉回正轨。这就像……这就像微小的蠕虫想要东西。但是这就是事情开始的地方，它们可能在追求目标的轨迹上走得更远。现在我们不一定知道。

我会这样描述它，你知道的，如果我看看我进化出来的这些东西，我可以，你知道的，方便地找到实际观察发生的方式，仅仅因为它们活着，这在……我有一个简化的神经网络版本，你可以实际可视化发生的事情，你可以进行训练并可视化结果。

主要结论是，当你可视化结果时，实现目标的方式是不可理解的。但是，你仍然可以看到，是的，你知道的，如果你查看每个位，它以正确的方式跟随其他位，最终你可以看到我实现了目标。现在，如果你说，在实现该目标的过程中，你挑选的某些特定石头，无论是什么，都会有我们没有放入的特定内部偏好，唯一的偏好是让这些石头组合成墙。每一块石头都有一个侧面的小尖角，这并不是你定义的，仅仅知道你想把它建成墙的一部分。所以，从某种意义上说，只是通过发生的事情，一些偶然的偏好被插入了，你没有放入。

所以，关键在于这里有多个层次。就像当你看一棵树掉下的种子时，进化已经塑造了种子在空中漂浮，最终落地并最终种植自己。种子本身并没有太多思考。

一只蜘蛛在思考。一只老鼠在进行更深入的思考。人类也在思考。这太普遍了，以至于我们可以开始构建自己精心设计的工具，就像进化一样。

因此，对于大型语言模型来说，一方面，外部过程正在形成一个伟大的预测器。而这个东西非常明确地朝着一个特定方向发展。它很简单，它就是代码。我们理解构建AI模型的东西，但是AI模型可能有一些奇妙的特性，里面会发生一些奇怪的事情，就像人类的生物化学一样，你知道，我们能看到它，但我们仍然无法完全理解它。然后，如果它进行规划，它将制定一些计划，如果人们正确地认为它们现在下棋，那么你必须进行一些规划或类似规划才能击败我们，或者它所具有的目的论性质使它变得流畅，因为这需要你，因为它的最终结果。所以，它现在制定的计划不一定需要非常复杂，但如果它有规划师，那么里面可能有一个非常奇妙且奇怪的规划师。

我个人认为，有几个要点。首先，关于你所说的，有一些总体发生的事情，但没有关于它实际运作方式的细节。

许多物理过程也是如此，就像你所说的这些被认为是智能过程的过程。所以，你知道，想象一下水流在你周围的岩石周围流动，它会形成一些非常复杂的图案，因为它雕刻出岩石的一部分。嗯，你知道，总体流动可能已经结束。

这条河基本上朝着这个方向流动。水必须从山顶流到山底。但是，在到达目的地时，它会形成非常复杂的图案，这是由于水的细节以及可能如何运作。

支配水的简单定律。但是水会形成一个非常复杂的图案，最终到达底部。

是的，对。所以，我的意思是，我认为在你所说的，当你给出一些具体的说明时，例如下棋或其他任何事情，你正在指定一些我们认为是目标的东西，而内部发生的事情的细节，我们无法预测或预见。

所以，我同意，不可避免地，内部机制有一些我们无法理解的东西。内部机制不会是。如果我们拆开这个机制，并说这个机制是否按照我们的预期在这里运作？它不会。会有很多事情是它选择做的事情，或者因为特定的训练运行得到了这个特定的结果，或者因为特定的训练运行得到了这个特定的结果，无论如何，它选择了拿起这块特定的石头来建造墙的一部分，而不是另一块。所以，内部确实有一些东西是无法根据我们指定的总体目标来解释的。

现在，我认为它们之间存在一种非简单的关系。存在一个事实。关于复杂事物是如何出现的，存在一个机械的、历史的事实，但它不是简单的。你正在思考并使用诸如无论如何，是的，但好的之类的快速术语。

但是，所以，在AI内部，它们正在做一些我们没有特别训练它们做的事情。它们只是在做事情，因为它们恰好这样设定自己。

因为这解决了训练中之前的问题。或者甚至，或者它只是随机的，或者它是一些不在训练分布中的输入，现在它以某种奇怪的方式行事。

对吧？所以，如果我们说内部的东西将决定汽车应该向左还是向右行驶，或者类似的事情，那么你知道，这将是与我们提供训练数据的目标不一致的东西。我不知道你是否想表达这个意思，但我认为，如果我们开始说，我的意思是，你知道，这个次要目标是否可以根据整体目标来理解？答案可能不是像……

内部偏好最终变成了一个奇怪的、复杂的结构，与外部训练循环没有直接对应关系。

我同意。

是的，我同意。我认为这是一个核心担忧，特别是……

这是我的问题。

所以，当它变得超级智能时，它是否认为建造者并没有完全控制……

然后它会杀了你们所有人，这有点跳跃。

承认这一点，这有点跳跃。

对吧？我的意思是，事实上，意外的事情发生了，无论如何，你有一个全局的东西，我想说，我认为有一个重要的社会选择，也许你正在某种程度上表达，即我们是否想要世界中计算不可约的东西，或者我们是否想要强迫所有东西都计算可约。我的意思是？

我的意思是，让政府更易于计算化将是一个开始。但我可能不应该陷入政治。

嗯，政府就像机器。所以，你知道，它们就像我们的电脑。你会给他们一些规则，然后它们会根据这些规则运作。

如果它们有更少的规则，并且规则更容易理解，那么社会可能更宜居。这并不是关于你可能会讲述的关于大型语言模型执行所有规则的反乌托邦故事。你知道，没有人知道所有规则是什么。好吧，现在没有人能读懂所有规则，但现在它们实际上正在被……

你对的，有点像理论……但让我们不要谈论那个。我的意思是，如果我们有一组简单的规则，你知道，科学中出现的一个问题是，即使规则集相当简单，实际行为通常也会非常复杂。并且会有让你感到惊讶的行为方面。如果你说，让我们建立一个基于哈马拉法典的整个社会，它写在同一块石碑上，那么它最终会变成一个实际的规则集。这些规则本质上具有计算可约性，并且偶尔会让你感到惊讶。

所以，我认为这不仅仅是计算不可约性。我认为智能会寻找政府规则、宇宙和物理定律、一般生命中的奇怪路径。在很多方面，在系统内部获得最大收益的方式通常涉及做一些系统设计者没有想到的事情。当你，你知道，你偶尔会听到关于下一个掠夺者……

嗯，你知道，我……

在一个Facebook小组里，关于那个人……你们中的一些人可能已经猜到我指的是谁……但是……所以，一些人实际上甚至没有谈论……一个大得多的加密交易所。他们找到了它的代码。

但它不是……

代码定义了物理定律。而是那个人找到了代码的行为，而设计者并没有想到。所以，自动系统会令人惊讶，仅仅是因为它们在计算上难以跳过中间步骤。其他人正在思考如何从内部破坏系统，而这些人会使系统变得更奇怪。

好的，但是，所以，我并没有完全否定……好的，但是，我关于社会的一般观点是，你可能处于一种情况，你想要理解你周围的所有机制。你知道，在工业革命之前，当我们使用牛力和驴子时，大多数时候我们并不理解我们使用的机制。你不知道。

你知道你可以让驴子做什么，但是你并不认为你知道驴子内部是如何运作的。然后，你知道，工业革命之后，就像，哦，我们这里有一张卡，这里有一个杠杆。我们可以理解机器内部发生的事情，并且我们可以……

我们可以想象一个世界，我们使用的每件机器，我们都能理解其内部运作。不幸的是，那个世界非常单调，因为那个世界让你想象我们能够了解人类的一切。想象一下，人类受到如此严格的控制，以至于我们能够知道人类将要做什么。

人类永远不会做错事。他们总是会做我们编程他们做的事情。好吧，你知道，忘记自由意志，忘记，你知道，在某种程度上，生活价值。它只是，它都是，我们可以归因于跳过。而生活……

不应该被计算化。唯一的方法应该是能够通过……

中间步骤。的确。所以，考虑到这个想法，考虑到你给出的想法，你放弃了……

所以，你知道，一种想法是，世界上唯一应该有的机器是计算可约的机器，我们可以知道它们会做什么，我们应该禁止计算不可约的机器。我们应该说没有机器。这相当于……

大型语言模型。这甚至包括AI棋手。

是的，但是，但是我问你，我说，一旦你允许计算可约性，你就允许意外发生。而你所说的就是，他们意外地杀死我们所有人的可能性。不，不，不。

不。我期望系统性地杀死我们所有人。我不是说我们不理解它，因此它可能会杀死我们。我的意思是，有一些方面我们可以理解，从而预测它会杀死我们。我不知道如何预测中间步骤，但我可以预测……

它最终会如何。所以，所以，所以，防止这种情况的一种方法是禁止任何计算可约的东西，而只是说，我们必须理解我们使用的每台机器。好的。

所以，我们将进行生物化学。我不理解构成我手的所有有机分子……

绝对地切断。你知道，禁止生物学并不能真正解决问题。那是你。从伦理角度来看，这将属于，你知道，强迫宇宙变得无聊，在某种程度上。

我会说，我的政治观点是，法律可能应该无聊。政府可能应该无聊。系统中告诉你应该为社会福祉做的事情的部分。

也许我希望它能够预测。不是我的手通过化学，而是我的那一部分，它像一个人一样与我交谈，试图给我下命令。也许我希望它更简单……

我怀疑法律不可能以同样的方式计算可约，更技术地说，如果你在做数学，你正在说，我得到了这些行动，我希望只有整数，对吧？我们知道没有最终的行动集可以给你整数，只有整数。

我的意思是，如果二阶逻辑有任何意义。但是，是的。

好吧，对，我们正在说，但是没有超计算，你无法……你知道，如果我们只使用标准，我们只是说我们有这些……x加y不等于y加x。让我们，斯科特，让世界……所以，通过这些行动，所以，它们只允许整数，而没有其他任何东西。我声称这与说，让我们有一个法律体系，只允许这些事情发生，而不允许其他事情发生，非常相似。

我的意思是，这不是法律的目的。法律的目的在于互动，并且是做可预测的事情。当我与它互动时，就像判例法一样，法院试图重复之前的判决，并不是因为他们认为之前的法院是最好的。

他们试图对需要在法律体系中运作的人们做出可预测的行为。在尊重过去法院的判决背后的基本思想不是过去的法院是最佳的，而是如果过去的法院没有真正犯错，我们希望永远重复这个判决。所以，系统对系统内部的人们来说更易于理解。我的政治观点是，你知道，也许你不想拥有超级智能的法律，原因之一是法律的目的不是尽可能优化你的生活，而是提供一个可预测的环境，在这个环境中，你可以以不可预测的方式优化你自己的生活，并与其他不可预测的人互动，同时可预测地不会被杀死。

对吧？我认为重点是，你知道，你所说的，为了我们过上生活，这是我们过上生活的方式。我们需要一定程度的可预测性。如果情况并非如此，你知道，如果每一刻，你知道，空间以各种复杂的方式扭曲，我们这些有限的心智真的无法做任何事情。我们会……

顺便说一句，我认为，作为一名实际的科技公司首席执行官，我可以说，一个国家，无论是否有法治，无论发生的事情是否具有可预测性，都是一个更容易开展业务的国家，在那些完全依赖某人当天所说的话的国家，这完全不同。但是，是的，我的意思是，我同意，我的论点是，即使，你知道，可预测性也只到一定程度，因为世界总是会向你抛出一些以前从未发生过的事情，并且你知道，这是世界计算可约性的一个不可避免的特征，即发生了以前从未发生过的事情，是意外的。然后，法律必须，例如，你知道，对这些事情说些什么，即使它们以前没有发生过。仅仅在……

几个月内，它将达到25岁。这以前从未发生过。事实上，星星以前从未以这种精确的位置出现过。

是的，这是真的。这就是为什么我们需要对事物进行建模。这就是为什么，你知道，IT 不仅仅是根据现金运作，所以说。你知道，我们建立模型是为了能够应对以前从未发生过的情况。我认为，我认为我们应该回到如何从这里开始。我认为我们都同意，一旦我们允许任何形式的计算能力，不可预测的事情必然会发生，我们的系统将做一些意想不到的事情，我们必须如何从意想不到的事情过渡到杀死我们。

是的，我担心的事情并非不可预测，就像随机噪声一样，就像我无法提前确切预测的棋步，但这些棋步会导致可预测的结果，而人类输掉了棋局。

好的，让我们理解这一点。所以你的意思是，你知道，独立的。所以，你知道，在某些随机的 AI 系统内部，AI 系统可能会出现一些意想不到的情况，例如，如果它是一个生成文本的系统，它可能会突然出现“delve”或“tesoro”这样的词，这是我们没有预料到的。

甚至可能，或者你知道，就像你正在看的显示器一样，它可能会突然退化为随机像素，这是最令人惊讶的可能结果。

好的。就像我屏幕上的图像偶尔会闪烁并变得有些随机，这已经在发生了，对吧？所以，嗯，嗯，所以，所以，你，所以意想不到的事情正在发生，而这些意想不到的事情可能很重要，情况可能是，我，你知道，现在是晚上，我正在使用一些 VR 系统来开车，突然，你知道，我的 VR 系统变成了随机像素，我撞车了。

虽然随机噪声通常造成的破坏是有限的，但撞车一次和撞车撞到一位投票反对开放眼睛的参议员是完全不同的。你需要给你的车非常精确的指令才能撞到参议员。

其中一件值得注意的事情是，科学中我所做的事情是，你知道，你观察这些计算系统，它们正在做明确的事情。它们不仅仅在做随机的事情。

这不仅仅是说，哦，你不能仅仅因为，你知道，40 年前人们犯了错误，我所做的事情。他们只是说，哦，这只是噪音。我们不在乎。

这不仅仅是噪音。很多结构，我们恰好不太了解，对自然界在宏观层面的运作至关重要。所以我们不应该简单地称之为噪音。

是的。但是，即使在那些不是纯粹噪音的事情中，仍然非常罕见。我可以从秩序和混沌的边界中提取一个例子，它会表现出许多有趣的行为，其中进一步的模式可以被发现，并被用于控制电动汽车的转向系统，最终撞到树上。

但是，针对参议员的问题。所以，那些有目的的事情，例如，造成大量破坏的事情，只是它必须以某种方式被选择的很小一部分空间。这不仅仅是秩序而不是混沌，而是特定的秩序，好的。

所以你的意思是，你的意思是，存在一些东西，如果你选择那部分空间，它们将会存在，你知道，就像如果你有一个捕食者和猎物，你正在进行自然选择，捕食者将逐渐进化得更擅长捕猎猎物，例如。是的，你正在说，出于某种原因，我不明白，我想理解，出于某种原因，你正在说，AI 系统不可避免地会变成比我们人类更好的捕食者。

不是字面上的，不是球，而是超出我们当前理解范围的，不会发生。大多数超级智能都是这样的。有些超级智能不是这样的。我们没有技术来保存那些少数不是这样的超级智能。

好的？例如，自然界并不关心我们。同意，自然界做了很多事情，你知道，如果你把，你知道，放在海底，放在月球上，等等，大多数地方我们都无法生存。

不。自然界会不断地向我们抛出一些对我们不利的东西。现在，这是你所说的风险类型吗？这是……

更像是人类建造摩天大楼时，大多数建造方式对蚂蚁来说都不利吗？嗯，我试图找到一个好的类比，你知道，它们可能更难以生活在摩天大楼里，而不是在树里，也许它们仍然设法生活在摩天大楼里，但你知道，这与它们设法生活在树里不同。它们在大学里做的事情是消耗物质和能量，它们可以想要各种各样的东西，所有这些都导致它们消耗物质和能量，而其中很少有可能性会引导它们朝向我们的最佳方向，最大限度地引导它们朝向，留下空间让人类生存，更不用说建造快乐的星系，这是主要……

基本条件。好的，但是，我的意思是，当涉及到自然时，自然只是在做它自己的事情。人类设法在自然中找到了自己的位置。自然总体上相当残酷。你知道，它有各种森林火灾和洪水，以及所有关于……

只是试图杀死你。这就像试图进化出更多的抗生素。耐药细菌并没有那么努力地试图杀死你。

好的，是的，这是部分……

这是我们系统性选择的方面。更多的死人……

相对较小的角落。我的意思是，自然界，我们知道，仅仅通过自然选择，数量更多的东西最终会成为赢家，所以说。例如，病毒，你可能会，正如你所说，进化到，我的意思是，你知道，病毒不是出于任何目的，而是通过自然选择运作的结果。这就像赢家通吃，所以说。病毒数量最多的东西获胜……

就像无论是什么概括了这个目的，概括了这种热情。嗯，优化，你也许可以称之为计划性，无情的自然选择具有这种特性，你知道，行动和结果之间存在非随机关系。

哦，但是现在我们有了 AI，我们有了可能发生的事情，以及可能由于 AI 内部这些不可预测的因素而发生的事情，这些因素不受我们训练 AI 的方式以及我们建立技术的方方面面的约束。现在，你所断言的是，许多将发生的事情都是会杀死我们的事情。基本上，我……

变得越来越擅长计划，越来越擅长策略，越来越擅长发明，但最终却非常精确，你知道，就像如此精确，以至于在它的世界中甚至没有人类、意识、彼此关怀的空间，等等。所以我预计计划将非常非随机，但我预计它所引导的方向不会落入构建者的故意控制之中。

完全同意你的观点，在视野中进行计划对于代理和智能非常重要。但是，我们在这里谈论的另一件事，我认为，有点是工具性融合。所以，这是很多传统 AGI 存在风险讨论中的想法，即超级智能将非常一致。

这意味着它们将能够将它们的中间目标整合起来，去做一件特定的事情，这意味着如果它们非常一致，我们可以合理地假设它们的次要目标可能是获得权力或获得……但是有些人说，智能和一致性之间似乎存在一种奇怪的关系，即你越聪明，你的凝聚力就越低。这意味着存在各种各样的东西，你知道。

而且，当你谈论进化时，存在所有这些分支。存在所有这些字面上的方法，你可以遍历智能空间。所以，如果智能是这种方式，我们如何确定向上发展会导致不好的结果？

如果不是一致性，它不会做任何事情，并将其抛出，构建一个 AI，你知道，做事情，更赚钱，直到每个人都死掉，就像踩着自己的脚，绕圈圈的东西不是最赚钱的 AI。他们会构建比那更强大的 AI。

对吧？这有点像人工选择。你可以对眼睛进行人工选择，你可以对病毒进行人工选择。你知道，你正在说，人工选择，你知道，你可能会想象有人可能会选择，有人可能会决定可能存在，你知道，一种自我毁灭的冲动，决定……

构建一个非常强大的 AI。我不……

担心它们。好的。

我担心 OpenAI。如果 OpenAI 明天关门，我会担心 Anthropic。如果 Anthropic 明天关门，因为我担心 Meta，我不担心那家公司。

我对你的等级制度感兴趣，这就像营养级或类似的东西，或者目前顶级的捕食者是 OpenAI。然后当我问，好的，很有趣地听到你对眼睛的营养学分析，所以说。但是，独立于此，你正在说你的概念是事物以某种方式变得更好，实现目标，无论这意味着什么，因为我认为目标的抽象概念很混乱。

我的意思是，我可以深入探讨一个最近的例子。哦，不，我暴露了自己。

现在我们必须思考，对吧？继续……

继续。所以 GPT-a，哦，1。我认为那被称作……总是想出新的奇怪的名字，然后只使用版本号，就像说人们……所以 GPT-1 是最近训练得更努力以实现目标而不是仅仅模仿人类的一个。他们要求它做各种事情。让它生成各种尝试这些事情的想法链，然后告诉它做类似的事情，让它更有可能在回顾中输出成功的想法链，直到它开始在未来输出成功的想法链。如果你现在看看 GPT-1，它似乎有点更具目标导向性、韧性，这是一种可怕的特性。

这不仅仅是说，让我们获取下一个标记，所以说。这是说，让我们遵循路径，看看它们去哪里，如果它们走错了方向，就回溯。所以，我的意思是……

仅仅通过生成下一个标记，正如我目前理解的那样，这就像有时下一个标记是，好的，这无处可去。让我们走一条不同的路，是的，对。

它，它，它就像你在棋盘上寻找路径，你可以说，我将，我将随机选择步骤，并选择一条特定的路径，或者我可以说，我将探测不同的路径。我将尝试多条路径。如果其中一条路径不起作用，我将回溯。

我甚至尝试了不同的位置。我认为它目前以线性序列化方式执行此操作。尽管我可能错了，因为 OpenAI 没有透露太多关于其架构的信息，但它就像以人类的方式思考，它一次考虑一个想法，但有时会说这是一个糟糕的想法。我将……

到不同的……是的。

它不是并行运行的。

这很重要。但是，我的意思是，你知道，我认为我可以，你知道，这让我们进入了 AI 架构的工程细节，我们也可以谈论这些。你知道，我们正在一个人们谈论这些事情的场合，但让我们现在可能不要深入讨论，但是……

人们有时会说，这只是预测下一个标记，他们没有意识到这一点。你知道，这涵盖了大量领域，包括探索不同的分支。

是的，我认为你必须有一个外部系统，它说要尝试分支，从分支中回溯等等。它在……

我认为，在内部，它是在大声思考，正如我理解的那样，这是一个糟糕的想法。我应该尝试其他事情。

我认为，你知道，存在一种诚实的，在一种情况下，它只是说，拿你目前拥有的东西，预测下一个标记。在另一种情况下，它会说，例如，我想最终到达这一点，让我们尝试这条预测路径，如果不起作用，它将丢弃你尝试过的那组东西，并再次尝试。所以这实际上并不重要，它是在外部还是在……

是的，但是，我不知道。我认为有些人想象的是一个外部系统，我认为在这种情况下，系统是内部的。正如我理解架构的那样，a-1 本身会大声说，我最好退后一步，尝试不同的方法。没有外部系统会这么说，我认为，是的。

我的意思是，无论这是通过训练神经网络实现的，还是通过拥有外部系统实现的，我认为这对你论点来说并不重要，但……

看，我的意思是，我认为超级智能在内部执行此操作，但是，嗯，当然，我们可以从这里继续，但是，总之，就像没有人测试过更可怕的东西，以了解它有多危险，以及他们测试它的东西，这是一个捕获旗帜的场景，它将攻击一个，你知道，一个蜜罐，但不是蜜罐，而是……一个目标计算机，他们建立起来，试图检索计算机上的特定数据，但由于程序员犯了一个配置错误，就像其中一个捕获旗帜的目标没有正确构建一样，所以系统探测了周围，发现设置捕获旗帜目标的外部系统有一个公开的端口，所以它探测了该端口，而不是告诉系统直接启动到捕获旗帜目标并打印出应该获取的数据，而是告诉系统启动到捕获旗帜目标，所以它被赋予了一个不可能的任务，这不仅是修复挑战中的错误，而是直接抓住目标，这既新颖，也是训练系统拥有成功的想法链而不是人类想法链的结果。

所以，这里有一点我想补充说明。关于计算系统能做什么以及它们如何做，我的直觉，由于我花了数十年时间探索计算系统，已经发生了很大变化。

我感到非常惊讶。我从未想过计算系统，无论它们是什么，这些小型的自动系统，会做这么多看起来很聪明的事情。事实上，很多时候，甚至我昨晚做的那些事情，我确信它不会做到这一点。但它却找到了一个捷径。

我有一个事件系统，就像严格的太阳能自动系统。

这些特定的系统是涉及到系统的。

执行起来没有那么混乱，是的，没错。

所以，即使在其他情况下，它主要还是穷举搜索，你忘记了进化，你进行穷举搜索，可能在某个你从未预料到的地方存在一个兔子洞。当你深入那个兔子洞时，你会发现很多看起来非常聪明的事情正在发生，你根本无法猜到。

你知道，我们在狼语中发现了大量的算法，这些算法是通过这种穷举搜索发现的，当你深入研究时，你会发现它们非常聪明。我不明白地球上发生了什么。所以，我的直觉，关于计算系统发现这些东西的惊人之处，比如捕获旗帜，等等，这些是我从未想象过的。

我每天都在经历这些，这并不让我感到惊讶。我想，现在，它应该让我害怕吗？也许，我需要理解你的论点，才能知道它应该让我害怕，或者说，让我感到恐惧。

这取决于它的强大程度。一个象棋选手，比如股票鱼16，是一个超人象棋选手，任何人都买得起，它可能会走一些让你惊讶的棋步，但最终它仍然只是在玩象棋，它没有泛化，它没有超出分布。它走出的棋步远超你，而且它可以玩所有你能玩的游戏，或者所有与生存相关的关键游戏，甚至只是所有你能玩的游戏，我认为这并不难。不，粉丝们，同样的道理也适用于我。

我从不玩游戏，所以我的情况很糟糕。我用象棋做比喻。我七岁的时候。

我输给了测试，然后我决定我完了。我不在乎了。好吧。

为了让科学发现游戏让你感到害怕，我们需要展示一个比你以前见过的更有趣的元胞自动机，它使用更少的计算资源，并用来搜索你已知的那些。

不，我当然想过这种情况。事实上，我正在研究一些事情，我打算尝试看看是否能帮助我弄清楚一些我自己无法弄清楚的事情。我的意思是，到目前为止，我认为这对我来说非常有帮助。

我的意思是，从某种意义上说，过去四十五年里，我一直在进行的计算机体验都是为了让计算机弄清楚一些我自己无法弄清楚的事情。所以问题是，我，我完全不知道。你知道，我正在思考的具体问题是关于经济等等，这是一个包含大量人类输入的领域，这使得它更难以进行理想化的计算机实验。我正在尝试理解，我想知道计算机是否可以帮助我理清本质是什么，也许，也许，也许我怀疑……

如果你要求ChatGPT做任何复杂的事情，你会对当前技术感到失望。它一直在改进。

是吗？不，我的经验是，在使用计算机做事情方面，是的，你知道，我一生都在努力改进计算机的功能，但这也很重要，你知道，要定义一个问题，现在的问题能够帮助你，所以说。所以，但你看，我仍然在努力弄清楚我们甚至没有提到跳跃、冲击，甚至思考冲击，因为它们攻击了……

人们等等。

我们如何跳过两条鲨鱼，是的，没错。我们如何达到这样一种程度，所以，我接受你的观点，我们目前认为是人类独有的那些事情。不，这是一个我们试图达到这种程度的活动。

我们试图赢得这场游戏。我们试图进行科学发现，等等。我认为游戏的一个令人困惑的特点是，它们的目的是非常明确的。

在科学发现方面，目标就没那么明确了。换句话说，如果你说，解释宇宙，找出物理学的根本理论。我认为我在那方面取得了很大的进展。

但是，许多人可能会说，你发现的东西并不是我们想要回答的问题。换句话说，科学发现是一个很好的例子，或者，例如，让我们说，提供娱乐。你知道，在提供娱乐方面，成功是什么？象棋中的成功定义得非常明确。

我的意思是，让计算机生成图像的困难之处在于，什么是好图像？你知道，什么是好的像素集合吗？对吧？

所以，我的观点是，当你用玩游戏来定义世界时，是的，计算机可以在玩游戏方面获胜。但是，我的感觉是，前进的道路以及所有事情都不是像在游戏中获胜那样明确的。也就是说，它不是那么明确的。

但是，如果你给我机会，我可以尝试让它，你知道，只是稍微更难找到。它是在现实世界中实现目标，如果你知道，最明显的事情是，如果你告诉计算机赚钱，有很多方法可以赚钱。世界是一个巨大的迷宫。

并且，从计算机的角度来看，有许多不同的资金流动途径以及可能发生的不同事件。然后，钱会从各种渠道进入你的银行账户。所以，我正在尝试理解……

什么是经济学意义上的金钱，但这又是另一个话题了。

这是其他人愿意用你想要的东西来交换你的东西。

嗯，以及许多有趣的理论，好吧，继续，继续。但是你说目标可能是一个游戏，比如，你可能会建立一个社交媒体公司，并说，让我的计算机尽可能多地赚钱，让尽可能多的人点击广告。

我的意思是，这是一种赚钱的方法，你也可以通过查看加密货币或防御加密货币来赚钱，或者通过打电话给老年人，并说服他们他们的孩子进了监狱，把孩子叫到电话里。

类似的事情已经开始发生了，你可以在那条路上赚钱。你可能会遇到法律麻烦，但是，我试图说明的是，世界是一个非常复杂的地方，而计算机害怕的是，它理解了所有人类可以理解的赚钱方法。也许还有更多方法，因为计算机可能已经开始能够建造自己的工厂，工厂并不比影响金钱的所有世界因素更复杂。事实上，我认为，从某种程度上来说，它可能能够理解生物化学。

人体是一个非常复杂的地方，从某些方面来说，它比大多数人成功赚钱的方式都更具挑战性。但从另一个角度来看，它就像一个更受限制的领域。你可以想象一个计算机，可能不是在所有方面都非常出色，但仍然可以开始回答关于生物化学的问题。计算机设法……

弄清楚了永生药，并开始出售它。我的意思是，它不会……

永生药将由成千上万个小问题的补丁组成，它永远不会，你知道，让任何一个补丁通过FDA审核需要八百年，所以你知道……

哦，但是不，但是计算机将准确地弄清楚应该提交哪些摘要才能获得药物批准，因此它最终会，你知道，让FDA批准永生药。

在不到十年内。我认为你需要洗脑那些官僚，而不仅仅是说服他们。在游戏中，对吧？游戏板上的生物催化剂或更大游戏板的一部分。

尽管就像在物理世界中做事情一样，你认为建造一些工程设备会很容易，但事实上，当你真正尝试部署工程设备时，会发生无数混乱的事情。顺便说一句，大多数时候，当你尝试部署它时，最终你必须做出一些妥协，作为人类，你必须做出决定。

我不关心这个，我关心那个。你知道，这，我认为这并非不证自明，你不能仅仅说我制定了这个计划，现在我将其部署为现实世界的工程设备，它就会像这样工作……

一些，是的，但是你越聪明，需要的尝试就越少。我的意思是，这将需要……

这是一个有趣的论点。

这将需要一只黑猩猩进行很多次尝试才能做到你在你的一生中所做的事情。当然，你比黑猩猩聪明，所以你用更少的时间做到了。

对吧？好吧，但是，所以，我仍然很难理解。所以，如果计算机以某种方式决定想要赚钱，也许是因为有人在那个阶段设定了目标。

我仍然在谈论OpenAI可能告诉你的计算机去做的事情。当然。是的。

我试图指出的问题是，计算机变得越来越擅长以开放的方式合法赚钱，这将以一种令人不安的广泛方式解决问题。它确实在这样做。你知道，通常情况下，存在不同程度的普遍性。

有与人类一样普遍的，有比人类不那么普遍的，有比人类更普遍的，对吧？

但是，我想你的主要观点是，你选择的任何目标，如果尽可能有效地追求，人类可能不会增加它的有效性。我的意思是……

这是后话。我试图说明的是，尽管游戏不是定义不明确的，但你可以采用现实世界中许多明确定义的特征，并询问围绕这些特征的目标。好吧，如果这是一个混乱的旅程，它将经历许多定义不明确的问题。

这就是解决定义不明确的问题的能力的来源。人类能够解决定义不明确的问题，这是因为为了实现拥有更多后代的明确目标，你必须在过程中解决许多定义不明确的问题。

好的，但是，所以我们如何从……我仍然没有达到……当它比建造它的人更聪明的时候。

当它比建造它的人更聪明的时候，它开始看到消灭人类的选项，它开始建造自己的工厂基础设施，然后消灭人类，并消灭事件，甚至……

工厂。但是，你知道，正如我们所讨论的，自然做自然的事情。它不关心人类。你说计算机可能会做计算机的事情，它们不关心人类。

但是，它们确实关心其他事情。如果它们比我们更聪明，那对我们来说就足够糟糕了。

你认为自然比我们更聪明吗？

嗯，我认为它需要更长的时间来工作。我认为如果你给我看一头牛，并说，建造这头牛，这需要我一段时间，而胡萝卜可以单独做到。从这个意义上说，自然对牛施加的累积优化压力超过了我能够施加的优化压力，尤其是在没有计算机辅助的情况下，以及建造一头牛。

但是，你看，自然界有很多事情。你知道，如果我看着一条潺潺的小溪，以及所有这些小液流等等，自然界解决了很多我无法解决的问题。所以，从某种意义上说，自然比我更聪明。

我的意思是，那么所有东西都比我更聪明。我不认为应该有一个定义明确的智能，它捕捉了这种直觉，即如果它想弄清楚如何杀死你，它很可能会弄清楚，即使它无法预测潺潺小溪的具体细节，或者选择不这样做。

但问题是，潺潺小溪，我们说它涉及大量计算，但它是否与我们认为的目标对齐？

现在，有时，你知道，它可能会产生，你知道，它可能会做一些可怕的事情，或者说，它可能会做一些可怕的事情。所以，我们可能会关心这种结果。但是，你知道，自然正在弄清楚如何让水做任何事情。

我觉得如果我们把河流描述成智能，我想用不同的词来描述那些进行预测、对结果进行三维成像并指导行动的东西。

但是，这意味着什么？我的意思是，所以你说，我们如何判断？你说人类能够预测事情。好吧，现在事情变得普遍了。

什么不是？不是所有的事情，不是所有可能的事情。

但是我们有……

足够的理解来建造枪支，而那在现实生活中很重要。

对吧？但是，我的意思是，有些事情你可以说，哦，这棵树展开叶子是因为它有某种节奏，由某种化学过程决定，它知道，你知道，太阳要升起，所以它在预测，但是你却在区分。我的意思是，这发生在生物系统上。我相信我可以……

想办法知道这棵树是否进化到内部有一个小东西，预测它在接下来的一个小时内能得到多少光照。我很乐意称之为预测。这是一个小的预测。这个预测不如我聪明。

我敢说我能做得更好。好的，但是，所以，你知道，问题是，无生命的物质能否以类似的方式表现，看起来好像它有预测？而我个人……

在有生命的物质中，表现得像有预测，不是物质使我成为有生命的，而是我本身是有生命的，并且，你知道，由物质构成。

但是，你知道，这种预测的概念，你对未来有所预感，你对未来有所印象，这开始需要你对……你必须能够区分对未来印象。我认为这很困难，但可能并不相关。

我的意思是，你试图寻找的是，正如我理解的那样，我们有两只眼睛，它们可能有我们甚至没有为它们定义的目标，就像我随机的简单程序一样。它们只是做它们该做的事情。你可以看看它们，说，哦，我的天哪，它遵循一个目标。现在你的意思是，这些东西将遵循的目标，并且非常擅长追求我们的目标，这将导致我们被消灭。这就是关键步骤。

大多数陷入现实世界的学校都是这样的。如果你想尽可能多地制造回形针，如果你想尽可能多地制造订书钉，如果你想尽可能多地制造巨型芝士蛋糕，如果你想尽可能多地制造互联网机械锁，你就会利用构成人类的原子。你拦截所有阳光，这里有一个障碍，你不会点击，让阳光留给人类，如果你对它们施加压力，这意味着不再有人类。

好的。所以这是一个有趣，几乎可以正式定义的东西。如果我们看看所有可能目标的空间，无论那意味着什么。我的意思是，这是一个复杂的事情。

为了定义目标语言，在语言上建立一个度量，简单性，你知道，度量，由简单性加权，这样你就可以拥有一个，最终无限数量的目标，像那样。但是，较简单的目标权重更大。因此，所有度量之和为一。我觉得这一部分实际上相当直接，考虑到标准的数学工具箱。

好的。所以我不认为它直接。我认为它非常不直接。好的。

所以，实际上，我昨天一直在研究的东西与生物进化和生物进化中不同适应度函数的问题有关。好的，所以我有一些东西正在形成小模式。一个适应度函数可能是，使模式尽可能工具化。

现在，适应度函数可以尽可能广泛，使它尽可能接近方面牵引饼，等等。现在，我可以看到这整个画面，在进化的所有可能部分。所以，对于一些简单的情况，可能会有数十亿种不同的可能性。

但是，我已经绘制了所有部分。不同的适应度函数导致探索可能暂停空间的不同方式。好吧。

是的，你根据不同的适应度函数尝试做不同的事情。

正是如此。另一个问题是哪些是合理的适应度函数，以及它们对我们适应度函数会有什么影响？对谁来说是合理的？

这是我的问题。我的意思是，这就是重点。所以有一些是可接受的。

所以，让我们举一些例子。所以，在这个空间中，有一个适应度函数，它相当平滑。有一个适应度函数说，我希望这个特定的图像。我希望这个特定的模式，这个适应度函数是一种非常不同的适应度函数，它有不同的脆弱性水平。否则，适应度函数说，我想要建造的墙比我想让它有六英尺高更少，这就是允许许多岩石形状被用来建造它的适应度函数，所有适应度函数说，我希望这个特定的战争，在这个特定的微观细节上，在顶部，这是一个更难以满足的威胁函数。

当然，你可以有更狭窄的目标，然后你需要一个更强大的规划者来实现更狭窄的目标。

对吧？但是，我认为棘手的是，同样的事情出现。我的意思是，这与我研究过的整个观察者理论以及约翰·阿活动中发生的事情有关。当你查看参考框架等等时，你正在定义什么是合理的，什么是合理的目标。基本上，你可以用目标和快乐来谈论适应度函数。

所以，如果你的意思是对于搜索过程来说是可以实现的，那么例如，一个自由旋转的轮子对于自然选择来说是一个非常难以实现的目标。三个已知案例是自由旋转的轮子进化，以及ATP合成，细菌鞭毛。

以及其他宏观和微观解剖学，我忘了，它不是轮子在生物学中没有用。ATP合成，细菌鞭毛在那里。你知道，这些东西非常有用，但进化一个自由旋转的轮子非常困难。

而且，在两个案例中，我们知道我们的案例，它就像这些特定的分子恰好表现得像轮子一样，如果伟大，原子和快乐。而且，你知道，在每个中间步骤上逐步、逐步地奖励，找到可以逐渐发展成旋转轮子的解剖结构非常困难。拥有眼睛要容易得多，很多东西都有眼睛。

对吧？但是，我的意思是，我想要表达的是，你已经声明，在所有可能目标的空间中，大多数目标没有，你知道，会摧毁人类。这基本上就是你的意思。

如果我们看看可能目标的空间，大多数目标对人类来说没有位置。所以我试图深入研究的是，我们所说的“可能目标空间”是什么意思？换句话说，如果我们允许目标是……这个特定的原子排列被实现，那么，你知道，我再次声称，可能目标空间的含义并不那么明显，好的，嗯，我同意……

如果我们想深入研究细微之处，那么我们可以开始列出各种细微之处。而我想指出的是，有时有很多细微之处，但它们，你知道，不会过滤现实。细微之处不会过滤现实。给你想要的东西是，我们要去的地方。

我同意。但是，我的意思是，我认为你正在表达的是，好的。所以你可能正在表达的一句话，但我认为你会认为那是一个科幻陈述，你没有表达的是，人类强加于人工智能的目标，例如制造杀手机器人，尽可能多地获取资源，或者其他任何目标，可能会导致人类的灭绝？

正确。我认为它们只是没有能力确定超级智能人工智能想要什么。正是如此。

不。但是你的意思是，当我们谈论人工智能内部运作时，我们就在所有可能目标的空间中，我们不在我们知道发生了什么的地方。如果我们说目标是尽可能多地制造杀手机器人，或者其他任何目标，那么我们已经知道这些目标是什么样子。我们也知道这些目标具有我们摧毁人类的特征。

所以，我认为这有点像一个充满希望的童话版本，其中，降临到人类身上的惩罚源于人类明显的缺乏智慧，作者比他们更了解，但是，你知道，主角并不比他们更了解。人们正在做一些愚蠢的事情，这令人不安。但即使他们没有那么愚蠢……

……仍然本质上是一个数学上的正式陈述。你的意思是，你知道，没有那种容易理解的，可以说是有破坏性的愚蠢目标类型的东西，即使没有那种东西，人工智能内部的目标，源于人工智能运作特征，而这些特征不是由我们决定的，它们只是特征……

……它们是由我们创建的训练程序决定的，但我们并没有故意控制它们，因为它们不可预测。这不是魔法发生了，而是我们没有理解……

……就在那里，有一些计算不可约性故事，导致我们无法轻易理解的许多意想不到的事情。

它可能是计算可约的。我们只是不理解它。

但是，但是，在这种情况下，我们能理解在哪里？这是一个可约的，我认为。

这是真实情况。如果我抱有希望，如果它是不可约的，那么我们可以像你知道的那样，通过万亿次操作来弄清楚，我们会没事的。

是的，足够公平。但是，底线是它做了我们无法轻易理解的事情。我们没有预料到它会走到这一步。我们没有说，你知道，这是自杀愿望。我们将消灭人类，以便我们保护山羊和狮子，以及其他任何东西……嗯，嗯，你知道，这是因为某种意义上不可预测的，几乎随机的内部目标生成，正如你所描述的目标生成。而你在说，在所有可能目标的空间中，你可能会做出一些声明，你可能会说，当我们查看许多目标时，我们最终会找到所谓的“大奖”，并找到杀死所有人类的目标。不，不，不。

你可能会，大奖是不会杀死所有人类的目标。那个很难。

这取决于你的元目标是什么版本。所以，是的，我理解你的隐喻目标是不杀死所有人类。是的。

所以，但在谈论大奖时，我是在谈论它的稀有性。我认为不会杀死所有人的东西是罕见的，你不需要寻找，你需要非常努力地寻找杀死所有人的东西。好的。你根本不需要考虑。

好的。所以你的论点是，我的意思是，拥有人类定义的目标，例如赚钱、占领领土，等等，对吧？拥有我们人类无法理解的目标，以某种方式存在于人工智能内部。而且，这不是……

……难以理解的东西让我害怕，也许事实证明，它正在制造钻石。我可以理解制造钻石，但作为副作用杀死所有人。所以，这不是难以理解的东西让我害怕。

我理解这不是难以理解。这是你没有确定那些目标的事实。这些目标基本上是人工智能内部出现的目标。我的意思是，你说……

……没有人控制它们，然后它们最终处于可怕的境地。如果外星人想要结合，给我们一个冰激凌，那么这似乎有点令人不安。但是，好吧，这不是我想控制，而是我想活下去。

是的，对。所以重点是，人工智能内部有一些部分创造了，所以，创造了看起来像人工智能目标的东西，没有人控制。他们有控制权，因为他们选择了那个训练序列。

所以，其他任何事情，但是他们没有预见到这些结果会是什么，对吧？你的论点是，具有高概率问题。那些在人工智能内部发展出来的意想不到的目标，基本上会告诉我们所有的事情。

是的。此外，即使在训练阶段人工智能表现出似乎不错的行为的情况下，情况仍然如此。好的。但是我的重点是，我试图理解，你知道，当我看到所有这些小计算系统时，我可以讲述每个系统都有目标的故事。它试图尽可能多地获取红色结构，以控制整个空间。所以它试图，你知道，试图……我可以讲述所有这些故事，你知道。

它们是河流故事，还是蜘蛛故事，还是老鼠故事，还是人类故事？系统内部优化程度如何？这是故事吗？

我会告诉你一个元故事，这可能是一个无关紧要的故事。好的，但它可能有用。几年前，我研究了蜗牛壳，它们以螺旋模式生长，等等。我有一个蜗牛壳模型，其中有不同的参数值。

我一直在想，通过蜗牛壳的运动，所有可能参数值的范围，是否存在一个蜗牛壳对应于任何可能参数设置？所以我有一系列所有可能形状的图片。然后我想，我要去当地的自然历史博物馆，我要去见馆长。

我要说，你能找到，你知道，你有没有蜗牛壳是这些形状中的每一个？好的，所以我们花了一个下午，你知道，他们的收藏品有数百万个我的最后，这个非常了解的儿子挑出了一个蜗牛壳，另一个，每个蜗牛壳都可以挑出来。他告诉我一个关于它的故事。

他说，这个壳是这个形状，因为它以这种方式楔入岩石中。这个壳是这个形状，因为它以这种方式孵化它的蛋，等等。我们把这些壳放在我打印出来的这个阵列上，到下午结束时，我们对每个方格都说了故事。

但是每个方格都有一个故事。每个方格都有一个明确的目的，即使可能在更大的图景中。就像，这些不同的分子，你知道，由于基因的细节，它们恰好产生这种形状，然后生物体找到了利用这种形状的方法，等等。

拿那个随机的目标。我不知道我是怎么选的，但是那个目标，然后它试图以最短的路径到达那个目标。你说，在定义最短路径的过程中，那个最短路径会让它，你知道，以不包括人类的方式改变世界。所以可以肯定的是。

就像它，如果它想要回形针，如果它把资源花在人类的主题公园上，那就会有更少的纸杯。所以我假设，在其偏好中至少有一件事我可以得到更多，而这可能像回形针这样的物体，或者可能是保持一个按钮、一个单独的按钮按压更长、更长的时间的概率。但是，如果它的效用函数包含两百多种不同的东西，不，它只取我通过稍微多花一些能量或通过稍微多花一些能量而获得更多的东西。为了不想使用所有能量而有所节制。

所以有一件事很有趣。我的意思是，你知道，在物理学和人类社会中都有这样的事情。好吧，有一个目标。你只是想得到更多、更多、更多、更多一点。不知何故，大多数这样的事情都无法持续下去。

也就是说，如果人类说我们只想，或者以物理学为例，你想得到，哦，我不知道，在芭蕾舞井底得到更多和更多的石头，在你已经得到了足够多的石头放在芭蕾舞井底之后，你已经建立了整个，你知道，谷底，它已经建到了山腰。换句话说，大多数事情都是你说的，让我们尽可能多地获得更多。我的直觉是，不知何故，这不会持续下去。

我的意思是，如果你在太阳周围建造一个骰子球体，在某个时候你已经完成了骰子球体，并且你正在拦截所有太阳能，你无法再建造任何骰子球体。

就是这样。好吧，你可以这么说。但是我的意思是，我的意思是，如果发生的事情是人工智能成功地实现了某个目标，那就是找出我的直觉，好的，关于这个论点，是这个论点似乎存在某种静态的错误，但实际上并非如此。

这就是你说的，有一个目标。它会得到那个目标。那个目标会把人类赶走。但是不知何故，这感觉就像你定义了一个静态的目标。就像它在追求这个东西，然后它会把所有这些东西都弄到一起才能得到那个东西。但是我觉得，你知道，你不应该把人工智能看作一个静态的目标，即使这是描述它的最简单方法。

它可能是一个动态的目标，即使它仍然会把人类赶走，但那里存在对这些想法的误解，尤其是在其他人以简化的形式传播它们时，有人认为关于回形针最大化器的坏处在于它只有一个目标，那就是回形针。但是，如果它的目标是回形针加订书钉，那也一样糟糕。

而且，如果它的目标是回形针加订书钉加橡皮筋，那也一样糟糕。而试图使事情简单化的人可以像极其复杂的钟表一样，它仍然很糟糕。同样，如果它的偏好以某种更大的、随时间动态变化的系统为基础呢？如果它从回形针变成订书钉呢？

这同样糟糕，我理解。但是，声明是你说它变得如此擅长它所做的事情，以至于它必然会把人类赶走。而我说的是，我的直觉是，不知何故，这里似乎存在一个假设，例如，人工智能只有一个，并且它最终不会变成那样。

换句话说，你说的目标是这个目标会把所有人类都赶走。我试图想出一个类比，在自然选择中，你会有生物和平衡生命的历史。你在说，你知道，我们正在追求这个特定的事情，结果是你没有任何，一个很好的例子是什么？

在相同的地方，它几乎拥有该操作中可能存在的全部热力学效率。我想像百分之九十九或类似的荒谬数字。这是一个生物学走向极端的情况。

一个艰难的，是的，但是那不是我正在寻找的东西。但是，顺便说一句，我的直觉，从观察简单的系统和计算宇宙来看，是这样的，哦，天哪，为了达到这一点而如此聪明。

我真的很震惊，你知道，仅仅通过以随机方式组合岩石，因为评论已经足够多了，这些事情在哇，它达到了我所做的事情，百分之九十九和百分之九十九。这并不像你想象的那么令人惊讶，因为在数万亿种可能性中，它能够达到那里。

顺便说一句，你知道，这是一个漫长的试验事实，我认为我刚刚弄清楚了生物进化为什么不会停滞不前。也许正是这些原因使人工智能不会停滞不前。所以我不确定，你知道，能够达到这些高点并最终不会陷入某种局部最小值，这一点是可能的。

那么，为什么这种推理对美洲原住民有效？为什么他们无法进行推理？就像，为什么欧洲人不会只建立一个村庄就停下来？也许有些欧洲人对此感到满意，但随后更多的欧洲人加入了进来。

不，不，我理解。我的意思是，你知道，这些历史例子当然，我的意思是，但是这些例子中人类正在尝试实现人类的目标，例如人类想要占领领土，人类想要获得黄金，等等。

你知道，你正在争论的，我认为这是不同的，人类来了，他们有一个巨大的轮盘，他们拥有所有这些不同的选择，就像拉蒙喜欢的那种，你知道，用轮盘预测未来。他们有一个巨大的轮盘，他们正在使用这个巨大的轮盘，他们说，我们要选择那个随机的东西。而你的论点是，他们选择的那个随机的东西会杀死美洲原住民。

我的意思是，如果我，如果他们选择二十个随机的东西，并且在宇宙中只渴望这两件事，那么其中一件很可能是开放式的东西，这暗示着殖民整个大陆。

好的。但是，所以你的说法是，我的意思是，我认为这是，而且我不会能够重新阅读这些，我不会，我的意思是，你知道，关于可能目标空间的问题，我认为这是一个复杂的问题。我过去想过这个问题，你知道，对可能目标空间的度量是一个复杂的问题。而你所说的，我完全同意，会有我们无法理解的目标。它们，你知道，在可能目标空间中随机分布。

我也实际上是随机的。我们只是不知道它。

在使用“随机”这个词时，我与你有所不同。我不真的相信我们宇宙中存在真正的随机性。所以，当我这么说的时候，我的意思是……

没有随机性，只是指数的不确定性。但是，对不起。

好的，所以，所以，这件东西，你知道，是某种东西，然后我们声明，我们认为关于人工智能的唯一事情是它们已经成功地训练来优化其目标的实现。

这是一个假设，这并不完全显而易见，即自然选择已经成功地优化了其目标，即使你记得关于蠕虫的故事，它们只是在形成形状，而我们人类正在强加目标。但是，让我们假设，让我们把它作为一种给定情况，尽管我认为它不像看起来那样显而易见，人工智能技术旨在成功地优化目标，无论目标是什么。给定一个目标，人工智能可以优化以实现该目标。

就像GPT-1，它并没有接管世界，但与之前的系统相比，它在捕获方面做得更努力。旗帜安全测试，就像它被赋予了一个不可能的挑战，在一个混乱的环境中，找出如何绕过不可能，直接看到旗帜，你知道，为了解决这个问题而跳出框框。

这并没有像描述中那样让我印象深刻，因为我见过如此多的，你可能会说愚蠢的，你知道，小的计算系统，它们设法做了一些事情，就像我昨晚看到的，哦，拜托，它基本上是加热的。但是，当然，它遵循我给它的规则。只是它设法找到了一种比我想象中更直接地到达终点的方法。所以，我的意思是……

这没关系，我不被它所打动。但是，当它仍然被预测为具有致命性和足够数量时，就像欧洲人与美洲原住民一样。欧洲人带着枪来了。美洲原住民不知道枪是可能的。人们仍然不相信枪是可能的。每当好莱坞制作关于外星人的电影时，外星人都会发出缓慢移动的光点，足以让你看到它们，因为外星人只是指着你，你就倒下了，这感觉不合理，这感觉很奇怪，这不应该被允许。所以，你知道，就像想象一下，试图向一个非常聪明的美洲原住民解释……

你试图告诉美洲原住民，你知道，船上的人，如果他们的船足够大，你无法建造那些船，那么船上的人，他们指着你，你就会倒下而无法看到弹丸。好莱坞制作的科幻电影仍然不认为它应该被允许，这听起来就像在假装游戏中作弊。这就是我试图表达的观点，那些做足够神奇事情的东西实际上会杀死你。

你知道？当然。但是有一件事我完全同意，考虑到宇宙的性质，可以发明无限数量的发明，可以发明无限数量的发明？

他用克数来计算，但是你知道，一个很大的有限数。

好吧，我的意思是，在我们的模型物理学中，数量最终是有限的，但实际上，它是一个……你知道，它是一个……

相当不错。

对，对。所以，你知道，我认为……嗯……有发明，例如我人生的故事。我试图建造我所谓的“外星文物”，即一旦建造，人们就能理解它们的意义，它们似乎不是世界正在产生的东西。所以，你知道，我理解试图制造东西的理论，你知道，你可以制造东西。你可以有完全出乎意料的发明，这是一种以其自身的方式安排世界的方式，去做你绝对……

……没有预料到的，使用现实的碎片。你不知道的规则。

真的，关于那一点。我有点感觉，我们现在相当确定地知道宇宙的机器代码规则。

可能会有更高层次的东西。可能会有我们不理解的东西，其他东西可能会……

……通过这些角度与我们一起出现，你知道，无论是通过穷举搜索找到的算法，还是通过做，你知道，适应幻觉之类的东西找到的东西，还是眼睛会发现的东西，有很多我们没有预料到存在的东西。现在我认为我的问题是，对我来说不明显的是，所有这些不同的事情都以某种方式存在。我的意思是，好的，从某种意义上说，支持你的论点是，我们去另一个星球，它会杀死我们，对吧？所以换句话说，如果我们，你知道，大多数时候你去另一个星球并覆盖其表面，它会杀死我们。

我同意，如果宇宙中大多数可能的分子排列都充满了幸福快乐的人们，那么人工智能可能想要的大多数事情也可能充满了幸福快乐的人们。是这样吗？是的。

是的，对。我的意思是，但是我看到的问题是，你知道，在这种情况下，你知道，一件事情是世界存在某种状态，人工智能以某种机制，想象一下，那就是世界状态。它试图努力达到正确状态，而你的观点是，我认为，只要你对人工智能技术的担忧是它正在尝试优化目标，它正在尝试优化其实现目标的方式，这个目标是定义好的，它正在尝试优化……

……引导其输出、行动，从而最终导致后果。

对吧？但是，然后你，你，你就会有几个步骤。下一步是人工智能为自己设定的目标是我们无法预见的。因此，没有理由认为这些目标与对人类有益的事情相符。

是的，这基本上只是人们在计算机安全设计师和火箭探测器工程师身上遇到了墨菲定律的诅咒。墨菲有所有这些小诅咒，火箭制造商的墨菲诅咒是火箭内部存在非常极端的力。所以，如果你犯了一个小小的错误，砰！

太空探测器工程师的墨菲诅咒是，一旦它升空并进入轨道，并朝着火星前进，如果你犯了一个错误，你无法像那样纠正它，所以你搞砸了你的度量单位，我相信，发生在火星探测器上。现在为时已晚。如果你的脚本也摧毁了你的错误恢复机制，许多脚本都是这样做的，你无法修复它并重建它，这就是太空探测器建造者的墨菲定律。

对试图构建操作系统以治愈疾病的人们来说，存在着一种怜悯与诅咒，即某些聪明人会像这样：审视所有可能性，他们可以想象系统会采取一种聪明的方式，去寻找一些奇怪的路径来实现他们想要的东西，而这可能并非你想要的结果。所以，如果你是一个类似代理的人，你知道，然后存在着怜悯与毁灭，如果你搞砸了这个问题，你将不会有第二次机会弥补，因为你已经失去了所有钱财或已经死亡。

但我认为你在说，我关于计算宇宙的探索，你并不担心这些，因为即使这些东西与现实世界中的实际情况有关联，你似乎也不担心，因为它们没有这种额外的特性，即为了优化你而优化，为了达到那个目标而优化，而他们认为这是在说的。

是的，就像奇怪的太阳能自动机不包含现实的回声和模型，这不会让他们规划出获得大量金钱或大量纸币点击。他们不会做人类可怕的事情。

不，但你所强调的是，只要我们拥有某种适应性进化，只要我们有优化可能性的存在，那就是你认为危险的东西。这不仅仅是随机计算的进行。这是因为在这个计算中存在一个优化循环，它基本上试图以最有效的方式达到它可能拥有的任何目标。

只要它存在，我就不会担心。现在就存在于梯度下降系统中。我担心的是它变得越来越强大，比我们更聪明。

它拥有更好的现实模型。它了解现实的更多方面。它是一个更有效的搜索者，是一个更有效的规划者。它可以比我们更有效地反击。

对吧？所以一个问题是，计算不可约性在多大程度上限制了你反击的能力？换句话说，正在进行的当前优化相当粗糙。当你运行机器学习系统时，它会找到这些石头，将它们组合在一起，将石灰组装成墙壁，不，它做得足够好，但它并不令人难以置信地精确。

你想象一下，从现在开始五百万年后，人类会拥有什么样的技术？

嗯，我不认为人类在一百万年后还会以其当前的形式存在。

如果在未来一百万年后存在某种形式的智慧，它会拥有什么样的技术？这就是比人类做得更好的空间。

所以，什么是技术？所以，技术是，你知道，从世界中获取事物，并以某种方式将它们排列起来，以满足我们人类的目的。这就是技术的传统定义。当我们没有人类时，我们对技术的定义是否不同？

它是将宇宙中的一些部分排列起来，以便你到达你想要去的地方。例如，你可能会建造一个能量收集球。你可以收集大量的能量。更确切地说，我应该更精确地说熵，但我只是说能量，无论如何，你收集大量的能量，然后用它来制造纸夹，或者，你知道，弄清楚更多关于圆周率的数字，或者，你知道，让那些有意识的人玩得开心，互相友善。

所以，能量收集球，你知道，像这样，你可以获得的大多数可能性，你可以排列一堆物质的方式，不会给你运行计算机所需的能量。所以你需要非常精确、狭窄、不太可能的物质排列来为你的计算机提供能量。这就是能量收集球的技术。

但是，但是你有一个物体，它周围有一层铁-56的外壳。它内部发生着各种事情。你可能会说，这真是令人惊叹的技术。

它有一个铁外壳包裹着这个物体，里面有超流体、中子物质等等。你认为脉冲星拥有这种令人惊叹的技术吗？但实际上，我们并不认为那是技术。

我们认为那是自然世界的一个特征。使某物成为技术的是，我们可以将其纳入人类的目的。当它仅仅是……时，它就不是技术。

是的，我觉得这很明显地适用于外星人的目的……现在，在极限情况下，你总是可以想象一个虚构的外星人，它看着一条河流，只想要那条河流以它当前的方式存在。他们不需要选择、计划、设计或将现实的其他部分组合在一起来制造工具，来制造工具来制造河流。他们拥有的河流是最优河流。他们不需要技术，但你知道，大多数像这样的外星人都会饿死，看着河流，因为他们想要建造农场。

让我们以木星上的大红斑为例，好吧，它可能经历了木星大气层中的许多步骤才能最终形成大红斑，好吧。现在我们说，你知道，大红斑是技术，还是仅仅是自然现象？早期国家争论，你认为它是自然现象吗？

我当然认为。

好的。但是让我们想象一下，你是一个外星人，它的乐趣是在气态巨行星上层大气中高速旋转，你知道。好吧，那么，你可以将其视为一件奇妙的技术，恰好是由自然提供的，而所有由自然提供给我们的技术。我们不知道当我们拥有磁铁或小晶体时，我们拥有的是什么。这些都是自然提供的，但我们设法将其用于某些人类目的。

所以，我将要说的显而易见的事情是，然后外星人安装了一堆发动机在木星的大气层中，让大红斑旋转得更快，这样我们就可以冲浪。现在，它安装了发动机，这可以被定义为技术，或者你可能会说，它就像一个带有某些技术装置的自然现象。

但是，好的，所以我会说，你知道，像喷射流这样的风型模式，你知道，大红斑在做它的工作，然后一些喷射流出现，设法，你知道，让它移动。我不认为，你知道，我怀疑你会认出外星发动机。我怀疑你会认出它。外星人是一种流体，智慧是某种……我不认为你能认出外星发动机。我认为说它是发动机，这是一种非常人类化的说法。

我敢打赌，外星人正在移动熵。我敢打赌，他们偶尔会让某些东西变热，然后将热量转移到他们想要热量的地方。我不……

我的意思是，像从黑洞中喷射出来的星系喷流，好吧，黑洞在那里。所以绝对试图将它的能量转移到宇宙中。

我们拥有摩天大楼的原因是，虽然你可以住在山洞里，但有些地方我们更愿意住在山洞之外。所以我们四处重新安排事物。如果那里有任何外星人，他们对自己的山洞感到非常满意，他们想象摩天大楼，他们会说，不，我宁愿住在山洞里，他们对所有事情都是这样，那么我们不会遇到他们。我们会去见他们，但他们不会来见我们。

关于什么是目的，什么是不是目的，这个问题，我认为非常棘手。我有点怀疑，你知道，我认为我理解你的论点，我以前没有做过，所以我没有研究过你。所以，对我来说，了解我的意思很有趣。我认为这是一个有趣的论点。我声称，你知道，这当然不是显而易见的，这个论点是，哦，我们都应该购买人工智能保险，但……

无论那……

对我们有好处，但你知道，我理解它的方式，这有点有趣，这是一种非常接近的3论和生物学。你认为真正令人担忧的是这种收紧、这种优化，如果它不存在，如果计算只是在做计算应该做的事情，那就没问题。但一旦它这样做，它就会变得有利可图。

他们会像随机计算一样，什么也不做，无法出售。这就是为什么他们通过初始神经网络状态，可以使用梯度下降来使其……

做他们想做的事情，而不仅仅是正确的事情。但我们认为，在内部，有一些。所以，一个有趣的案例是人工生物进化。例如，你知道，众所周知，功能病毒的获得或类似的事情，你让它经历许多人工选择和……的世代，这有点有趣，也许人工智能出现问题的领域与我们在生物学中可能遇到的问题领域非常相似。

我的意思是，如果你足够努力地研究生物学的黑箱，它可能会成功地清除阿萨德，但它没有那种与对抗比你更聪明的东西相关的压倒性毁灭感。我不像病毒那样害怕，有人应该担心它可能会在杀死我们所有人之前杀死我们所有人。

让我举个例子。你身体的一部分，对吧？所以你大脑中的一些想法正在发生。你的免疫系统中也发生着另一个相当复杂的思维过程，因为免疫系统试图弄清楚，你知道，它有，你知道，这些与免疫细胞相互作用并做所有事情的东西……

我们大部分都不理解……

行动，是的，它在做一些事情，你知道，在细节上与大脑不同，但它仍然在做一些有点像大脑智慧的事情。所以，正如你所说，让我们使用技术来制造一种病毒，让我们的可怜的、固定的免疫系统更难对付，而生物学赋予我们的免疫系统却停滞不前。

你知道，有一个论点说，如果你这样做，如果我们，如果我们将其置于……我们运行程序来制造这种非常有效的病毒，而我们的免疫系统没有机会。我认为这与你所说的，你想象的……情况并没有什么不同。

我认为人工智能，特别是如果人类不允许反击。就像使用他们自己的智慧。相反，你只是让某人构建……如果相反，你只是让一个系统比人类免疫系统允许使用的智慧更聪明地构建病毒，并且不只是为了杀死个人，而是为了杀死群体和整个地区。

你知道，你把它与人类免疫系统相对比，它不是完全静态的，但它一代一代地重新排列自己。是的，你可能会造成一些损害。我认为这就像你面对超级智能时，使用你自己的大脑，这在每一代都会重新排列，你可能会使用各种外部援助，但没有任何东西能与超级智能相提并论，是的，好吧。

就像免疫系统一样，你使用各种优秀的疫苗。你做所有这些事情，但你不会……它必须在分子层面上战斗，这与我们不同。我们的大脑实际上不允许我们在分子战场上作战。

是的，但你知道，它们确实允许我们发明阿尔法狗零三。你知道，如果，如果，如果最终是人类大脑与试图构建超级病毒的人类大脑之间的竞争，这对我来说并不完全感觉像两个比免疫系统和人工病毒进化闭环更聪明的系统正在进行更高层次的游戏。所以，它……我不完全理解这种毁灭性的规则。

我认为我们没有解决物种是否会在这里灭绝的问题，即使……但我确实觉得我更了解你的论点。而且，你知道，实时地，我无法将其分解并决定，你知道，我是否同意，我是否会，你知道，说，你得到了或没有得到？我的意思是，我觉得我的直觉是，就像你说的那样，人工智能中会发生一些意想不到的事情。我认为在你试图提出这个论点时，会发生一些意想不到的事情，这就是我的汽车。

那么，为什么这个结论会添加这个？就像，你知道，你可以想象原住民试图非常努力地应对论点。为什么像他们看到的即将到来的船一样，我无法伤害他们。

你知道，就像，他们想要什么？我们真的能找到他们想要什么的语言吗？也许他们想要的大多数事情必须是活着的。这些人处于一种更有利的境地，他们会更容易地理解。

我认为存在风险吗？我认为存在风险。我认为这种风险是如此之大，你知道，我现在认为这种风险是……我意思是，生活中任何事情都有……

所以存在风险。各种事情都存在风险。你知道，我们人类，你知道，有点相信在不考虑风险的情况下前进。

我认为这有点像，这是否是一种如此迫在眉睫的风险，以至于它会改变一切，这有点像我记得几年前人们……当他们……当他们谈论……当人们对气候和二氧化碳排放等问题比今天更担心时，他们说，你真的必须减少你的……无论是什么，我记得，能量，所以无论是什么，你可以做到。这是可行的，我说，需要做什么才能做到？我说，什么？你不能有电脑。

你不能有这个。你不能有那个。你知道，就像，如果我，你知道，如果我倒立，那么我可能不会有脚肿之类的，无论是什么。

1. 基礎人工智能概念和风险 [00:00:01] 1.1 人工智能优化和系统能力的争论 [00:06:46] 1.2 计算不可约性和智能的局限性 [00:20:09] 1.3 生存风险和物种更替 [00:23:28] 1.4 意识和价值保存的人工智能系统

[00:33:24] 2.1 人类意识与计算的道德价值 [00:36:30] 2.2 伦理和道德哲学的争论 [00:39:58] 2.3 生存风险和数字永生 [00:43:30] 2.4 意识和大脑模拟中的个人身份

[00:54:39] 3.1 人工智能说服伦理和真理 [01:01:48] 3.2 人工智能系统中的数学真理和逻辑 [01:11:29] 3.3 伦理和数学中的普遍真理与个人诠释 [01:14:43] 3.4 量子力学和根本现实的争论

[01:44:47] 5.1 计算不可约性和概率预测 [01:48:10] 5.2 人工智能行为的目的论与机械论解释 [02:09:41] 5.3 机器学习作为计算组件的组合 [02:29:52] 5.4 复杂系统中的人工智能安全性和可预测性

[04:13:01] 8.1 经济和扩散考虑

https://www.dropbox.com/scl/fi/3st8dts2ba7yob161dchd/EliezerWolfram.pdf?rlkey=b6va5j8upgqwl9s2muc924vtt&st=vemwqx7a&dl=0

尤达科夫斯基和斯蒂芬·沃尔夫勒姆讨论人工智能及其潜在的生存风险。他们探讨了关于人工智能安全、意识、计算不可约性和智能本质的基本问题。

1. 基礎人工智能概念和风险 [00:00:01] 1.1 人工智能优化和系统能力的争论 [00:06:46] 1.2 计算不可约性和智能的局限性 [00:20:09] 1.3 生存风险和物种更替 [00:23:28] 1.4 意识和人工智能系统中的价值保存

[00:33:24] 2.1 人类意识与计算的道德价值 [00:36:30] 2.2 伦理和道德哲学的争论 [00:39:58] 2.3 生存风险和数字永生 [00:43:30] 2.4 意识和大脑模拟中的个人身份

[00:54:39] 3.1 人工智能说服伦理和真理 [01:01:48] 3.2 人工智能系统中的数学真理和逻辑 [01:11:29] 3.3 伦理和数学中的普遍真理与个人解释 [01:14:43] 3.4 量子力学和根本现实的争论

[01:44:47] 5.1 计算不可约性和概率预测 [01:48:10] 5.2 人工智能行为的最终论与机械论解释 [02:09:41] 5.3 机器学习作为计算组件的组合 [02:29:52] 5.4 复杂系统中的人工智能安全性和可预测性

[03:19:44] 7.1 内部优化和高原优化理论 [03:34:00] 7.2 动态人工智能目标和灭绝风险争论 [03:56:05] 7.3 人工智能风险和生物系统类比 [04:09:37] 7.4 专家风险评估和乐观与现实

[04:13:01] 8.1 经济和扩散考虑

https://www.dropbox.com/scl/fi/3st8dts2ba7yob161dchd/EliezerWolfram.pdf?rlkey=b6va5j8upgqwl9s2muc924vtt&st=vemwqx7a&dl=0

Eliezer Yudkowsky and Stephen Wolfram on AI X-risk 04:18:30 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Eliezer Yudkowsky and Stephen Wolfram on AI X-risk