山姆·哈里斯与丹尼尔·科科塔利奥讨论了未来十年超级人工智能的潜在影响。他们讨论了丹尼尔在他题为“AI 2027”的文章中的预测,一致性问题,智能爆炸可能是什么样子,大型语言模型故意欺骗的能力,近期人工智能进步的经济影响,人工智能安全测试,政府规范人工智能发展的潜力,人工智能编码能力,我们将如何识别超级人工智能的到来,以及其他主题。如果您的播放器中的《Making Sense》播客徽标为黑色,您可以订阅以访问samharris.org/subscribe上的所有完整剧集。学习如何训练你的大脑是你一生中能做的最伟大的投资。这就是山姆·哈里斯创建Waking Up应用程序的原因。从理性的正念练习到关于生活中一些最重要主题的课程,加入山姆的行列,因为他将揭开冥想练习的神秘面纱,并探索其背后的理论。</context> <raw_text>0 欢迎收听《Making Sense》播客。我是山姆·哈里斯。请注意,如果您听到这段话,您目前不在我们的订阅源上,只能听到这段对话的第一部分。要访问《Making Sense》播客的完整剧集,您需要在samharris.org上订阅。我们不在播客上投放广告,因此它完全通过我们订阅者的支持得以实现。因此,如果您喜欢我们在这里所做的工作,请考虑成为其中一员。我和丹尼尔·科卡特洛在一起。丹尼尔,感谢您加入我。
感谢您的邀请。我们稍后会谈到您的背景。我只想给人们一个参考,在我们进行这次谈话后,这将非常有趣。你和一群合著者写了一篇题为“AI 2027”的博文,这是一篇非常引人入胜的文章,我们将涵盖其中的一些内容,但我相信有些细节我们不会涉及到。所以我强烈建议大家阅读一下。
你甚至可以在回来听这次谈话之前阅读它。丹尼尔,你的背景是什么?我的意思是,我们将讨论你离开OpenAI的情况,但也许你可以告诉我们你最初是如何进入OpenAI工作的。
当然。是的。我已经在人工智能领域工作了一段时间了,主要从事预测工作,还做了一些对齐研究。这可能就是我被OpenAI录用的原因。我在治理团队工作。我们向公司提出政策建议,并试图预测这一切将走向何方。我在OpenAI工作了两年,然后去年辞职了。然后我和我们聘请的团队一起研究了AI 2027。我,
这篇博文的合著者之一是斯科特·亚历山大。没错。是的。是的。它再次值得一读。那么,OpenAI发生了什么导致你离开?你能描述一下你离开的情况吗?因为我似乎记得你不得不离开。你拒绝签署保密协议或不诋毁协议,不得不放弃你的股权离开。那是……
被认为是你警觉程度和原则深度的标志。那边发生了什么事?是的,这个故事在其他地方得到了更详细的报道,但总结来说,这并不是任何一件特别的事件或可怕的事情。更多的是总体趋势。如果你读过AI 2027,你就会了解到我预计未来会发生的事情。
坦率地说,我认为这将非常危险。我认为社会需要做很多事情来为此做好准备,并试图避免那些糟糕的结果,并将事情引导到一个好的方向。特别是那些正在构建这项技术的公司需要做很多事情,我们稍后会讨论。
而OpenAI不仅没有真正做这些事情,OpenAI似乎也没有准备好或认真对待这些担忧。我认为我在那里工作期间逐渐相信了这一点,并逐渐认为,好吧,基本上我们正走在AI 2027发生的路线上,试图在内部进行尝试是毫无希望的
与人们交谈,你知道,试图以这种方式将事情引导到一个好的方向。所以我离开了。然后关于股权的事情,他们让他们的员工,当人们离开时,他们有一个协议试图让你签署,其中除其他外,表示你基本上必须同意永远不再批评公司,也不要告诉任何人这个协议。
这是我发现令人反感的条款。如果你不签字,他们就会拿走你所有的股权,包括你已获得的股权。这是一个令人震惊的细节。这合法吗?我的意思是,已获得的股权不是吗?是的,我从整个经历中学到的一点是,最好请律师,了解你的权利,你知道吗?我不知道这是否合法。但发生的事情是我的妻子和我讨论了这件事,最终决定不签字,即使我们知道我们会失去我们的股权。
因为我们想占据道德制高点,并能够在未来批评公司。令人高兴的是,结果对我们来说非常好,因为引起了巨大的骚动。当这件事曝光后,许多员工非常生气。你知道,公众也很生气,公司很快就让步并改变了政策。所以我们实际上保留了我们的股权。好的。是的,很好。
那么让我们提醒人们“对齐问题”这个短语是什么意思。我的意思是,我显然多年来在播客上讨论过这个话题,但许多人可能相对天真地加入我们来讨论这个话题。你如何看待对齐问题?为什么一些非常了解情况的人根本不认为这是一个问题?
对每个人来说都不一样。我想倒着推导,好吧,我会向前推导。首先,什么是对齐问题?这是弄清楚如何使人工智能可靠地按照我们的意愿行事的问题。更具体地说,也许是
塑造人工智能的认知,使它们拥有我们希望它们拥有的目标。它们拥有我们希望它们拥有的美德,例如诚实。我们的AI对我们诚实非常重要。让他们可靠地对我们诚实是对齐问题的一部分。这是一个公开的秘密,我们现在还没有找到对齐问题的良好解决方案。你可以阅读这方面的文献。你也可以看看
你知道,目前正在发生的事情,人工智能实际上并不总是诚实的。并且有很多有据可查的例子表明它们说了一些我们非常肯定它们知道是错误的事情,对吧?所以这是一个很大的、开放的、未解决的问题,我们正在逐渐取得进展。现在,风险非常低。现在,我们只有这些聊天机器人,你知道,即使它们没有对齐,即使它们,你知道,作弊或撒谎或其他什么,这也不是什么大问题。但是……
这些公司,OpenAI、Anthropic、谷歌DeepMind,以及其他一些公司,都在竞相构建超级智能。你可以在他们的网站上看到这一点,也可以在首席执行官的声明中看到这一点,特别是OpenAI和Anthropic已经非常明确地表示,他们正在构建超级智能,他们正在努力构建它,他们认为他们将在本十年结束之前或本十年结束之前取得成功。
什么是超级智能?超级智能是一种在所有方面都比最优秀的人类更好的人工智能系统,同时速度更快、成本更低。
因此,如果他们成功地实现了超级智能,那么对齐问题就会突然变得极其重要。我们需要确保任何构建的超级智能,或者至少是首先构建的超级智能,都是对齐的。否则,可能会发生可怕的事情,例如人类灭绝。是的,我们会到达那里。从拥有一个被称为功能性天才国家和数据中心的人
从那到现实世界风险以及类似人类灭绝的事情的飞跃,对某些人来说似乎违反直觉。所以我们肯定会讨论这个问题。但是为什么,我的意思是,我们有一些人已经在这个话题上有所进展。我的意思是,如果我 unfairly 诽谤任何人,请原谅我,但我记得Facebook的Jan LeCun,他显然是该领域的先驱之一。
根本不相信对齐问题的概念。我已经忘记了这些人是如何证明这种漠不关心的程度的。你对在那里遇到的怀疑论有什么看法?对不同的人来说是不同的。老实说,像
如果能有一个更具体的例子来说明某人说过的话,让我来回应,那就有帮助了。对于Jan Nekun,如果我没记错的话,有一段时间他既说人工智能只是工具,它们会顺从和服从我们,因为它们是人工智能,这里没有什么问题。也说类似的话,他们永远不会变得超级智能,或者像,你知道,当前的大型语言模型
不在通往AGI的道路上。他们将无法,你知道,实际上自主地做很多事情。在我看来,这方面的想法已经发生了很大的变化。确实。Jan本人已经稍微收回了一些说法,现在开始,他仍然有点像人工智能怀疑论者,但现在他,我认为有一句引言说他说了类似的话,我们不会在未来五年内实现超级智能,或者类似的话,这比他过去所说的要温和得多。
嗯,当我开始谈论这个话题时,我认为第一次是在2016年左右。所以九年前,我遇到很多人会说这至少要50年才会发生。我不再听到有人抛出半个世纪的增量了。我的意思是,很多人都在争论你的时间范围,比如两年或三年。
和,你知道,五年或十年。我的意思是,十年是最长的时间,这是我从那些看起来很谨慎的人那里听到的。是的。我认为这基本上是对该领域聪明人正在趋同的观点的描述。我认为这对公众来说是一个极其重要的信息。每个人都需要知道,人工智能专家和人工智能预测者已经缩短了时间表,现在认为
这些公司中的一些公司实际上成功构建超级智能的可能性很大。大约在本十年末左右,关于确切的时间表有很多分歧,但这正是许多观点正在趋向的方向。所以对齐问题是人工智能带来的风险中最宏伟、最具有推测性、最受科幻小说影响的版本,对吧?这是超级智能的风险
自我改进的自主系统可能会脱离我们的控制,并且不会将我们的福祉放在首位,或者实际上对它怀有敌意,并且由于某些我们没有放入人工智能的原因,因此我们可能会发现自己正在与完美的国际象棋引擎下棋并失败
这构成了生存威胁,我们将对此进行描述。但显然,越来越多人担心的是近期的问题。有人类滥用越来越强大的人工智能。有,我们可以称之为遏制问题。我认为微软的Mustafa Suleiman,过去是DeepMind,倾向于首先考虑遏制问题,即是否对齐……
随着这项技术变得越来越普及,人们可以决定将其用于邪恶用途,也就是说,我们认为是不对齐的用途。
他们可以更改系统级提示,并使这些工具在变得越来越强大的过程中变得具有恶意性。很难看出我们如何才能遏制这种风险的蔓延。是的,我的意思是,那么还有其他问题,比如就业流失和经济和政治问题。
这些都太明显了。我的意思是,这只是错误信息的传播以及可能在错误信息传播和令人震惊的财富不平等的背景下出现的政治不稳定。让我们进入这个领域,知道不对齐的超级智能是我们想要讨论的最终主题。你和你合著者关注的是什么
预测,为什么你们将你们的文章命名为AI 2027?根据你的说法,未来两年对我们来说意味着什么?这有很多要讨论的。我们之所以将其命名为AI 2027,是因为在我们撰写的场景中,最重要的关键事件和决策发生在2027年。故事继续到2028年、2029年等等。但故事中最重要的部分发生在2027年。例如,
你可能会称之为,在文献中被称为人工智能起飞,发生在AI 2027。人工智能起飞是这种预测的动态,即当人工智能能够比人类更好地进行人工智能研究时,人工智能研究的速度会急剧加快。换句话说,当你自动化人工智能研究时,它可能会更快。
关于它会快多少,它是什么样子等等,以及它最终会达到什么程度,存在一个问题。但整个动态被称为人工智能起飞,在我们设定的场景中,它发生在2027年。
我应该补充一点,在撰写本文后,我更新了我的时间表,更加乐观,现在我认为2028年更有可能。但总的来说,我仍然觉得这基本上是我们前进的轨道。所以当你说人工智能起飞时,这是否与旧的短语“智能爆炸”同义?基本上,是的。是的。我的意思是,这个短语已经存在很长时间了,自从20世纪50年代数学家I.J.古德提出这个仅仅是推断的短语以来
从一般原则出发,一旦你有了机器,智能机器,设计下一代智能机器,这个过程可能是自我维持的、渐近的,并且会脱离我们的控制。他称之为“智能爆炸”。所以这主要是一个软件改进软件的故事。我的意思是,人工智能目前还没有接触到,你知道,物理工厂正在建造新的芯片或机器人。没错。是的。
是的。所以,我的意思是,这也是我认为我想让人们更多地思考和更好地理解的另一件重要的事情,我认为,至少在我们看来,大多数影响世界命运的重要决定都将在人工智能对经济造成任何大规模转变之前做出。如果你想知道为什么或者如何,为什么我们的意思是等等,那么,这一切都在我们的场景中阐述。你可以
看到事件的展开。然后你,在你读完之后,你会想,哦,是的,我想2027年的世界看起来很正常,尽管,你知道,在人工智能公司的幕后,所有这些极其有影响力的决定都在被做出,关于自动化人工智能研究和产生超级智能等等。然后在2028年,现实世界中的一切都变得疯狂。并且有所有这些新的工厂和机器人等等正在建设,由超级智能协调。但是
在干预方面,你不想等到超级智能已经建造了所有工厂。你想要在之前尝试将事情引导到一个更好的方向。
是的。所以在你的文章中,我的意思是,它在某种程度上是一种推测性小说,但它又太合情合理了。有趣的是,你指出的某些脱节。我的意思是,就像经济实际上,你知道,对于普通人来说,可能正在被摧毁,因为人们变得不那么有价值了。可能你了解的另一篇博文叫做“智能诅咒”,它
也涉及到一些这方面的内容,我推荐大家去看看。但这只是,对这个原则的一个名称,一旦人工智能在,你知道,几乎所有方面都比人类更好,对吧?一旦它与国际象棋完全类似,从公司甚至政府的角度来看,人们的价值就会消失,对吧?我的意思是,这只是,我们,人们在那里不是必要的,因为他们不能
为任何运行经济或运行经济的最重要过程增加价值,所以只是这些有趣的时刻,你股市可能正在蓬勃发展,但大多数人的经济实际上正在自由落体,然后你就会进入美国和中国之间军备竞赛的影响,这一切都是……
这一切都太合情合理了。一旦你承认我们正处于这种军备竞赛状态,而军备竞赛正是所有参与者都没有将安全作为首要任务的情况。是的。不幸的是,你知道,我认为我们处于军备竞赛状态并不好,但这似乎正是我们前进的方向。这似乎也是公司所喜欢的。
推动前进,对吧?例如,如果你看看游说者发表的言论,他们会大量谈论击败中国的重要性,以及美国需要保持其在人工智能领域的竞争优势等等。我的意思是,更一般地说,就像,我不确定最好的表达方式是什么,但基本上……
这些公司中许多构建这项技术的人都期望发生类似AI 2027的事情,并且多年来一直期望如此。就像,这就是他们正在努力的方向,他们这样做是因为他们认为如果我们不做,其他人会做得更糟。而且,你知道,他们认为他们认为事情会进展顺利。他们认为事情会进展顺利,还是他们只是认为没有其他选择,因为我们有一个协调问题无法解决?我的意思是,人类的本质,
如果Anthropic停止,他们知道OpenAI不会停止。他们无法同意,你知道,所有美国参与者都无法同意一起停止。即使他们这样做了,他们也知道中国不会停止。
所以这只是,这是一个无法解决的协调问题,即使每个人都同意在军备竞赛的情况下,它很可能,以一定的显著概率,我的意思是,在某些人的眼中可能只有10%,但这仍然是一个不可忽略的概率,会产生摧毁我们的东西。是的,我的看法是两者兼而有之。所以我认为,你知道,我在这些公司有很多朋友,我曾经在那里工作过,我一直和那里很多人交谈。
在我看来,我认为平均而言,他们对这一切将走向何方过于乐观,也许是因为他们有偏见,因为他们的工作取决于他们认为这样做是一个好主意。但除此之外,也确实存在这种,既有真实的军备竞赛动态,即如果一家公司决定不做这件事,那么其他公司很可能会照做。而且确实如此,如果一个国家决定不做这件事,其他国家很可能会照做。
然后还有一个额外的感知动态元素,许多人甚至没有试图协调世界以负责任地处理这个问题,并制定保护措施或减缓速度等等。他们没有尝试,因为他们基本上认为实现这种程度的协调是毫无希望的。好吧,
你提到大型语言模型已经显示出一些具有欺骗性的特征。我想我们可能会想知道,实际上看起来像欺骗的东西是否真的是欺骗。我的意思是,我们是否真的在任何意义上都犯了拟人化的错误,称之为说谎或欺骗,但是什么
我们从这些系统中看到的一些我们称之为说谎、作弊或欺骗的行为是什么?
是的,好问题。所以有几件事。要搜索的关键词是阿谀奉承、奖励黑客和阴谋。所以有很多关于这方面的论文,甚至OpenAI和Anthropic的博文中也详细介绍了一些发现的例子。所以阿谀奉承是许多这些人工智能系统观察到的倾向,基本上是奉承或讨好他们正在与之交谈的人类。
通常以极其夸张和过分的方式。而且,你知道,我们不确定。如果您想继续收听这段对话,您需要在SamHarris.org上订阅。订阅后,您将可以访问《Making Sense》播客的所有完整剧集。《Making Sense》播客是无广告的,完全依赖听众的支持。您现在可以在SamHarris.org上订阅。