We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

National Security Strategy and AI Evals on the Eve of Superintelligence with Dan Hendrycks

2025/3/5

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript

People

Dan Hendrycks

Topics

我长期从事人工智能安全研究，因为我相信人工智能将成为本世纪最重要的技术。我们必须确保人工智能被引导到富有成效的方向，并有效管理其潜在的风险，特别是那些系统性被低估的尾部风险。大型科技公司在人工智能安全方面发挥的作用有限，它们主要关注的是一些基本的安全措施，例如拒绝与制造病毒等有害活动相关的查询。然而，人工智能安全是一个更广泛的问题，它涉及技术、地缘政治和经济影响等多个层面。人工智能与国家安全息息相关。虽然目前人工智能的威力有限，但在网络安全、生物安全等领域已经显现出其潜在的威胁。未来，人工智能可能被用于开发更先进的武器，例如无人机、生物武器等，并对国家间的战略竞争产生深远的影响。为了应对这些挑战，我们提出了“相互保证AI故障”（MAME）的威慑机制，这与核威慑战略类似。MAME旨在通过让国家之间相互承担风险，从而阻止任何一方试图利用人工智能来获得压倒性优势，避免可能导致全球冲突的超级武器竞赛。在政策方面，我建议政府加强对其他国家人工智能项目的监控，并做好应对潜在网络攻击的准备。同时，加强对人工智能芯片的出口管制，防止其落入不法分子手中。此外，我们需要改进人工智能评估方法。目前，大多数评估都集中在封闭式问题上，例如测试数学能力。未来，我们需要开发更多评估人工智能在开放式任务中的能力的方法，例如评估其自动化各种数字任务的能力。

Deep Dive

Chapters

Dan Hendrycks discusses his journey into AI safety, emphasizing the importance of addressing AI's potential risks and the role of companies in implementing basic safety measures.

Dan Hendrycks is the director of the Center for AI Safety and an advisor to xAI and Scale AI.
He highlights the lack of safety efforts in large AI labs and their focus on basic anti-terrorism safeguards.
Geopolitical factors significantly influence AI development and competition, particularly concerning China and Russia.

Shownotes Transcript

本周在 No Priors 节目中，莎拉与 AI 安全中心主任丹·亨德里克斯进行了交谈。丹担任 xAI 和 Scale AI 的顾问。他是一位长期从事 AI 研究的研究人员，发表了有趣的 AI 评估报告，例如“人类的最后一次考试”，并与 Scale 创始人兼首席执行官 Alex Wang 和前谷歌首席执行官 Eric Schmidt 共同撰写了一篇关于国家安全的“超级智能战略”新论文。他们探讨了 AI 安全、地缘政治影响、AI 的潜在武器化以及政策建议。每周注册新的播客。将反馈邮件发送至 [email protected]在 Twitter 上关注我们：@NoPriorsPod | @Saranormous | @EladGil | @DanHendrycks节目要点：0:00 简介0:36 丹关注 AI 安全的历程1:25 大型实验室的安全工作3:12 区分对齐和安全4:48 AI 对国家安全的影响9:59 AI 如何被武器化？14:43 AI 人才的移民政策17:50 共同保证 AI 故障22:54 对现任政府的政策建议25:34 计算安全30:37 评估的现状</context> <raw_text>0 嗨，听众们，欢迎回到 No Priors。今天我和 AI 研究员、AI 安全中心主任丹·亨德里克斯在一起。

他发表了论文和广泛使用的评估报告，例如 MMLU，最近还有《人类的最后一次考试》。他还与包括前谷歌首席执行官埃里克·施密特和 Scale 创始人亚历克斯·王在内的作者一起发表了《超级智能战略》。我们讨论了 AI 安全和地缘政治影响、与核武器的类比、计算安全以及评估的现状。丹，感谢你抽出时间来做这个。很高兴来到这里。你是如何最终从事 AI 安全工作的？是的。

如果人们只是仔细思考其结论，AI 显然将成为一件大事。因此，早期看来，其他人都在忽视它，因为它很奇怪或思考起来并不那么令人愉快。很难理解，但这似乎是本世纪最重要的事情。所以我认为，这将是一个值得我投入职业生涯的好地方。这就是为什么我早期就开始关注它。然后，既然这是一件大事，

我们需要确保我们能够正确地思考它，将其引导到一个富有成效的方向，并处理一些尾部风险，这些风险通常被系统性地忽视了。这就是我参与其中的原因。这是一件大事，当时人们并没有真正为此做太多事情。你认为中心的作用与大型实验室内部的安全工作有何不同？是的。

即使是现在，实验室的安全工作也不多。我的意思是，我认为实验室可以专注于采取一些非常基本的措施，以拒绝与诸如“帮我制作病毒”之类的问题相关的查询。但我认为实验室并没有……

在整体安全方面发挥着极其重要的作用，使事情顺利进行。他们有点预先注定要竞争。除非他们不再是该领域的相关公司，否则他们实际上无法选择不这样做。我认为他们可以降低恐怖主义风险或一些事故。但除此之外，我认为他们无法以过于重大的方式显著改变结果。他们可以

因为很多事情都是由地缘政治决定的。如果公司决定采取截然不同的行动，那么就会有与中国竞争的前景，或者俄罗斯以后可能会变得相关。随着这种情况的发生，这会在很大程度上限制他们的行为。所以，

我一直对在多个层面解决 AI 感兴趣。公司可以做一些事情来采取一些非常基本的反恐措施，这些措施很容易实施。还需要妥善管理经济影响，而公司实际上也无法改变

这种情况也会发生。它将对劳动力造成大规模破坏，并使许多数字劳动力自动化。如果他们，你知道，调整设计选择或添加一些不同的拒绝数据，这并不会改变这一事实。安全或使 AI 运行良好以及风险管理是一个更广泛的问题。它有一些技术方面。

但我认为这只是一小部分。我不知道实验室的领导者是否会说我们对此无能为力，但这可能也是一个问题，即每个人在这个等式中都有股份。对。也许这也是语义学的问题。例如，你能描述一下你如何看待你所认为的对齐和安全之间的区别吗？

我只是将安全用作处理风险的总称。还有其他风险。如果你从未获得真正智能的 AI 系统，这本身就构成一些风险。还有其他类型的风险并非如此，并非像权力集中那样必然是技术性的。所以我认为对齐和安全之间的区别是……

对齐是安全的子集。显然，你希望 AI 的价值观与美国的公众或你个人保持一致或兼容。但这并不一定意味着它是安全的。如果你有一个可靠地服从或与你对齐的 AI，

这并不能使一切都能完全顺利进行。中国可以拥有完全与他们对齐的 AI。美国可以拥有完全与他们对齐的 AI。你仍然会在两者之间进行战略竞争。这将导致他们需要将其整合到军队中。他们可能需要非常快速地整合它。这种竞争将迫使他们在过程中具有高风险承受能力。因此，即使 AI 可靠地按照其原则行事，这也不一定意味着

整体情况完全良好。我认为这不仅仅是可靠性问题，或者他们是否按你的意愿行事。还有其他结构性压力导致这种情况更危险，例如地缘政治。在最高级别，例如，越来越强大的权重包，为什么我们要从国家安全的角度关注 AI？例如，它在地缘政治中以何种最实际的方式发挥作用或被用作武器？

我认为 AI 目前在许多方面并不那么强大。因此，在许多方面，它目前实际上与国家安全并不那么相关。这种情况可能会在一年的时间内发生变化。我认为总的来说，我一直关注它的轨迹，而不是说现在它极其令人担忧。也就是说，有一些，例如，对于网络安全，我认为 AI

目前对于恶意行为者对电网发动毁灭性网络攻击并不那么相关。也就是说，我们应该关注网络安全，做好准备，并考虑其战略意义。还有其他能力，例如病毒学。AI 在 STEM、博士水平的主题方面变得非常擅长，其中包括病毒学。所以我认为他们正在接近能够

提供专家级能力，就其文献知识而言，甚至在实际的湿实验室环境中提供帮助。所以我认为在病毒学方面，它们已经具有国家安全意义，但这只是最近才使用推理模型才有的。但在许多其他方面，它们并不那么相关。它更有可能成为一个国家试图支配另一个国家的方式，对吧？

并且不仅仅是战争，也是经济安全的支柱，美国拥有的芯片数量与中国相比，可能是决定哪个国家最繁荣，哪个国家落后的决定因素。但这一切都是有前途的。我认为这不仅仅是推测性的。它与英伟达的估值或 AI 公司的估值一样具有推测性。我认为很多人都在期待，而且很快就会期待。是的，很难考虑 AI 的时间范围。我们投资于我认为是中期投机性的事情，但它们很快就被吸引进来了。因为你提到了网络安全和生物安全，我们是英伟达等公司的投资者。

或 Sybil（防御性网络安全方面）或 Chai 和 Somite（生物技术发现方面），或者，你知道，对生物学中不同系统的建模将帮助我们进行治疗。你如何看待竞争、利益和安全之间的平衡？因为我认为其中一些事情，你知道，我们也认为它们在近期内对积极方面有效。是的，我的意思是，我不认为安全和……之间存在这种巨大的权衡。我的意思是，你只是在处理一些尾部风险。对于生物安全，如果你想公开这些能力，只需与销售人员交谈，获得企业帐户。在这里，你可以为病毒学设置一个小小的拒绝功能。但如果你刚才创建了一个帐户，并且你正在询问它如何……

培养这种病毒，这是你培养皿的照片，你下一步应该做什么。如果你想访问这些功能，你可以与 Stills 交谈。这基本上是 XAI 的风险管理框架。只是我们不会向我们不认识的人公开这些专家级能力

如果我们这样做，那么当然，让他们这样做。所以我认为你可以，同样对于网络安全，我认为你可以很容易地获得好处，同时处理一些这些相当容易避免的尾部风险。但是一旦你有了它，你就基本上已经处理了 API 背后模型的恶意使用了

这就是你作为一家公司所能做的最好的事情。你可以尝试通过使用你的声音或其他方式来影响政策。但我没有看到他们可以做很多事情。他们可以进行一些研究，以尝试使模型更易于

控制，或者尝试让政策制定者更广泛地了解我们前进的方向。因为我认为政策制定者根本没有内化正在发生的事情。他们仍然认为这就像一个

他们只是在兜售炒作，他们实际上并不相信，或者公司员工实际上并不相信这些东西可能会，你知道，我们可能会在未来几年获得 EGI。所以我不知道。我没有看到那里有真正重大的权衡。我看到更多的是。我认为复杂性真正出现在我们处理诸如正确的严格性和出口管制等问题时。这很复杂。而且。

如果你将中国的出口管制痛苦指数调到最高，如果 AI 芯片是未来经济力量的货币，那么这就会增加他们想要入侵台湾的可能性。他们本来就想这样做。如果 AI 芯片是主要因素，而他们没有获得任何芯片，甚至没有获得制造尖端 CPU（更不用说 GPU）的最新半导体制造工具，这将给他们更多理由这样做。因此，这些是一些其他类型的复杂问题

我们需要解决和思考并进行适当校准的问题。但就减轻病毒学问题而言，如果你是一家基因泰克公司或一家生物技术初创公司，只需与销售人员交谈，然后你就可以访问这些功能，问题就解决了。你实际上期望 AI 如何被用作武器？

除了病毒学和安全之外。是的，我不指望国家行为者会使用生物武器，非国家行为者会更有意义。我认为网络安全对我来说是有意义的，对国家行为者和非国家行为者都是如此。

然后是无人机应用。这些可能会扰乱其他事情。这些可以帮助进行其他类型的武器研究，例如帮助探索奇异的 EMP，可以帮助创造更好类型的无人机，可以极大地帮助提高态势感知能力

这样人们就可以知道所有核潜艇在哪里。AI 的一些进步可能能够帮助做到这一点，这可能会扰乱我们的二次打击能力和相互保证摧毁。因此，这些是一些地缘政治影响。它可能会影响核威慑，而这甚至不是武器。仅仅提高态势感知能力并能够查明强化地点的例子

陆基核发射装置或核潜艇的位置只是信息性的，但仍然可能极具破坏性或破坏稳定性。除此之外，默认的常规 AI 武器将是无人机，我不知道这是否有意义，即各国会在这一点上竞争。我认为如果美国没有尝试在无人机制造方面做得更多，那将是一个错误。是的。

是的，我最近开始与一家电子战公司合作。我认为人们对基本概念的理解严重不足，你知道，我们有自主系统。它们都有通信系统。我们的导弹系统具有目标通信系统。从战场态势感知和控制的角度来看，很多这样的想法将与无线电、雷达和相关系统结合在一起。

对。所以我认为这是一个 AI 将非常相关并且已经在乌克兰非常相关的领域。说到 AI 正在协助指挥和控制。我的意思是，我听到一些关于华尔街如何运作的故事，过去人类总是无法做到这一点，你总是需要一个人参与每个决策。因此，在他们取消华尔街的这一要求之前，你只是有一排人不断点击“接受”、“接受”、“接受”按钮

我们在某些情况下正处于与 AI 类似的状态。如果我们最终会使更多此类决策自动化，我不会感到惊讶。但这只是变成了可靠性问题，进行一些可靠性研究似乎是有用的，回到那个关于安全权衡的更大的问题。我认为人们普遍认为，推动风险管理是为了进行某种暂停或类似的事情。

一个问题是你需要在协议背后有牙齿。如果你自愿这样做，你只会让自己变得不那么强大，你会让最坏的参与者超越你。你可以说，好吧，我们将签署一项条约。我们不会假设该条约会被遵守。

这将是非常不明智的。你实际上需要某种武力威胁或其他东西来支持它，某种验证机制。但如果没有，如果它是完全自愿的，那么这似乎根本不是一件有用的事情。所以我认为人们将安全混为一谈，我们必须做的是我们必须自愿放慢速度。除非你有某种武力威胁来支持它或某种非常强大的验证机制，否则在地缘政治上并没有多大意义。是的。

但如果没有……作为一种替代方案，显然对网络攻击和公司间谍活动方面的条约或规范的遵守情况非常少，对吧？是的。我的意思是，例如公司间谍活动，这是一种策略。这是一种自愿暂停策略。我们相信这等于安全。然后也许去年，有一篇关于态势感知的论文，人们……

由利奥波德·阿申布伦纳撰写，他是一位安全人士。所以他的想法是，让我们尽可能快地击败中国，实现超级智能。但这有一些弱点，因为它假设公司间谍活动根本不会发生。

这很难做到。我的意思是，我们有一些地方，你知道，这些顶级 AI 公司的员工中有 30% 以上是中国籍人士。我的意思是，这是不可行的。如果你要解雇他们，他们会去中国，然后他们可能会击败你，因为他们对美国的成功至关重要。

所以你会想让他们留在这里。但这会让你面临一些信息安全问题。但这太糟糕了。鉴于这些风险，你对我们应该如何改变移民政策（如果有的话）有什么看法？所以，我当然会声称，这方面的政策与南部边境政策和其他更广泛的政策完全分开。但如果我们谈论的是研究人员，

如果他们非常有才华，那么我认为你会想让它更容易一些。我认为目前许多人留下来可能太困难了。我认为这场讨论应该与南部现代政策完全分开。就总体而言，例如你认为行不通的事情，自愿遵守和假设会发生这种情况，或者直接竞争。所以我们想有竞争力。我认为在其他领域，例如无人机或 AI 芯片方面进行竞争，

似乎很好。如果你说让我们竞相开发超级智能，试图获得并将其变成一种武器来粉碎他们，而他们不会这样做，或者他们将无法获得它，或者他们将无法阻止这种情况发生。这似乎是一个相当大胆的主张。我的意思是，如果我们确实拥有一个明显更好的 AI，他们可以轻松地利用它。

你可以偷走它。除非你拥有非常非常强大的信息安全措施，例如你将 AI 研究人员转移到沙漠中，但这样你实际上击败他们的概率就会降低，因为许多你最好的科学家最终会去……

回到中国，即使那时，如果出现迹象表明他们真的领先并且能够获得一些强大的 AI，这将能够让中国或美国粉碎中国，他们就会试图阻止他们这样做。他们不会袖手旁观地说，你知道，是的，继续开发你的超级智能或其他什么东西，然后你就可以指挥我们，我们将一直接受你的命令直到永远。所以我认为某种程度上存在某种

二阶推理的失败，那就是，如果我们在沙漠中建造一个价值万亿美元的计算集群，从太空中完全可见，中国会如何回应这种策略？对此唯一合理的解读是，这是一种争取超级智能的主导地位或某种垄断的尝试。所以我认为这让我想起了

在核时代，有一段时间，一些人说，你知道，我们必须先发制人地摧毁或预防性地摧毁苏联。我们必须用核武器攻击他们。甚至人们，即使是和平主义者或通常是和平主义者的人，如伯特兰·罗素也主张这样做。这样做的时间窗口可能从未存在过。但有一段时间确实存在这种可能性。但我认为这个机会窗口并不存在。

确实存在于此，因为美国的复杂性、独立性和对多国人才的依赖。但我认为你不能让中国完全与……任何意识……或任何能力……隔绝

获得洞察力或模仿我们在这里所做的事情。我们目前显然远非真正的环境，对吧？不，这需要数年时间。这需要数年时间才能做好。而且，我甚至不认为一些非常强大的 AI 系统的时间表，它们

可能甚至没有足够的时间来进行这种安全化。好的，作为回应，你与一些，你知道，其他备受尊敬的作者和朋友埃里克·施密特和亚历克斯·王一起提出了一种新的威慑机制，即相互保证 AI 故障。

我认为这是正确的名称。MAME，一个有点可怕的首字母缩写词，也是对相互保证毁灭的致敬。你能用简单的语言解释 MAME 吗？让我们想想核战略中发生了什么。基本上，许多国家互相阻止对方进行先发制人打击，因为他们随后可以进行报复。他们有共同的弱点。

所以他们不会采取这种非常激进的行动，试图消灭你，因为这最终会导致我们受到损害。当 AI 更加突出时，当它被视为对国家未来至关重要时，当人们即将制造出更强大的超级智能时，我们以后会遇到类似的情况，当他们可以说自动化时，你知道，几乎所有的 AI 研究，

我认为各国会试图阻止对方利用它来将其发展成某种超级武器，这种武器将使其他国家被摧毁，或者使用这些 AI 来进行非常快速的自动化 AI 研究和开发循环，这可能会

将其从目前的水平提升到比其他任何系统都强大得多的超级智能水平。我认为以后，这将变得稳定，中国只是说，我们将采取先发制人的行动，例如对你的数据中心进行网络攻击。

美国也可能对中国这样做。而从乌克兰出来的俄罗斯将重新评估形势，提高态势感知能力，思考，哦，美国和中国发生了什么？哦，我的天哪，他们在 AI 方面领先太多。AI 看起来很重要。假设是在一年以后，当很大一部分软件工程开始受到 AI 的影响时。对。

哦，哇，这看起来非常相关。嘿，如果你试图利用它来粉碎我们，我们将通过对你的数据中心进行网络攻击来阻止这种情况。我们将密切关注你的项目，因为他们很容易做到这一点间谍活动。他们只需要对 Slack 进行一次零日攻击，然后他们就可以非常高保真地了解 DeepMind、OpenAI、XAI 和其他公司在做什么。

所以他们很容易进行间谍活动和破坏活动。现在，他们不会威胁这样做，因为它的严重程度还不够。它实际上并没有那么具有潜在的破坏性。它的能力仍然太遥远了。相对而言，许多决策者仍然没有认真对待 AI 问题。但我认为随着它变得越来越强大，这种情况将会改变。然后我认为这就是他们最终会做出回应的方式。这使我们不会陷入一种非常不稳定的局面，例如试图

创造某种武器，使一个国家能够完全消灭另一个国家。正如利奥等人所提议的那样。你认为这里与核武器有哪些相似之处和不同之处？我认为更广泛地说，作为一种两用技术工具，它曾经是民用应用。它有军事应用。

它的经济应用在某些方面仍然有限，同样它的军事应用也仍然有限，但我认为这种情况会迅速改变。例如化学武器，它对经济很重要。它有一些军事用途，但他们协调一致地没有走化学路线，生物武器也可以用作武器，并且具有巨大的经济应用。

同样，核武器也是如此。所以我认为它具有这些技术的某些特性。各国最终确实协调一致，你

确保它不会落入流氓行为者（如恐怖分子）手中。已经做出了很多努力来确保流氓行为者无法获得它并将其用于对抗他们，因为这并不符合他们的利益。基本上，例如，生物武器和化学武器是穷人的原子弹，这就是我们有《化学武器公约》和《生物武器公约》的原因。

这就是存在共同利益的地方。所以他们可能在其他方面是竞争对手，就像美国和苏联是竞争对手一样，但他们仍然在这方面进行协调，因为这是激励相容的。如果恐怖分子能够获得这些东西，这对他们没有任何好处。这本身就具有破坏性。所以我认为这是一个协调的机会。这并不是说他们有动力去

暂停所有形式的 AI 开发，但这可能意味着他们将被阻止进行某些特定形式的 AI 开发，特别是那些非常有可能使一个国家获得决定性优势并粉碎另一个国家的 AI 开发。

嗯，所以没有像超级武器那样的东西，而是更常规类型的战争，例如无人机之类的东西。我希望他们会继续竞争，而且，嗯，可能甚至不会协调，嗯，任何类似的事情，但这就是事情的进展方式。这只是，你知道，弓箭和核武器。

对他们来说，开发这些类型的武器并用它们互相威胁是有意义的。如果你能向现任政府提出某种策略上的神奇采用政策或行动，第一步是什么？那就是，我们不会制造超级武器，我们也会注意其他人是否也在制造超级武器。

正如我在整个谈话中一直在暗示的那样，公司会做什么？比如不多。我的意思是，添加一些基本的反恐安全措施，但我认为这在技术上相当容易。这与其他事物的拒绝不同。对其他事物的拒绝稳健性更难。如果你试图让它像犯罪和侵权行为一样，

这更难，因为它更混乱。它与典型的日常互动重叠。我认为同样在这里，对国家的要求也不是那么具有挑战性。这只是他们做这件事的问题。所以首先，中央情报局有一个小组正在对其他国家的 AI 项目进行更多间谍活动。这样，他们就能更好地了解情况，并且不会措手不及。其次，也许政府的某个部门，例如网络司令部，它拥有大量的网络进攻能力，

准备了一些网络攻击，如果其他国家看起来像是在运行或创建破坏稳定的 AI 项目，则可以禁用这些国家的其他数据中心。这就是威慑。对于特别是向流氓行为者扩散 AI 芯片，我认为需要对出口管制进行一些调整，特别是了解 AI 芯片在哪里

可靠地。我们想知道 AI 芯片在哪里，原因与我们想知道我们的裂变材料在哪里相同。嗯，

嗯，原因与我们希望俄罗斯知道其裂变材料在哪里相同。就像，这通常是一些很好的信息需要收集。这可以通过一些非常基本的国家工艺来完成，即拥有许可制度。对于盟友，他们只要在将其运送到不同的地点时通知你，他们就会获得许可豁免，嗯，嗯，在此基础上。然后，你的执法人员会优先进行一些基本的，嗯，嗯，对 AI 芯片的检查，嗯，以及使用检查。所以我认为所有这些都是，嗯，

几条短信，嗯，或一份基本文件。我认为，这就像 80/20 法则一样。当然，这是一个不断变化的情况。嗯，正如我一直在试图强调的那样，安全并不是一个真正很大的技术问题。这是一个更复杂的，嗯，地缘政治问题，具有技术方面。以后，我们可能需要做更多的事情。也许我们会，嗯，

可能会有我们需要处理和调整的一些新的风险来源。但我认为现在，我认为 SB 和 ISU 中央情报局，嗯，嗯，

用网络司令部进行破坏，建立这些能力，购买这些选择，这似乎可以消除很多风险。让我们谈谈计算安全。如果我们谈论的是十万个联网的最新芯片，你可以知道它在哪里。鉴于专家控制显然已经

这导致了在船舶上运行的高效计算预训练的创新，中国可以以人们可能认为是无关紧要的规模（今天规模要小得多）进口这些船舶。我很难看出训练效率会降低的方向，即使我们，你知道，人们想要扩大规模。那么，这是否会改变你的看法？不，我认为它只是破坏了其他类型的策略，比如这种，你知道的，

曼哈顿计划类型的策略，让我们，你知道，把人们迁移到沙漠中，在那里建立一个大型集群。它表明，你不能过多地依赖于限制其他超级大国的能力，即他们制造模型的能力。你可以限制他们的意图，这就是威慑的作用。但我认为你无法可靠或稳健地限制他们的能力。

你可以限制流氓行为者的能力。这就是我希望计算安全和出口管制能够促进的事情。确保它不会落入伊朗等国家手中。中国可能会继续获得一部分这些芯片，但我们基本上应该只是尽量知道它们在哪里，我们可以收紧措施。但我主要想和你协调。

确保这些芯片不会落入流氓行为者手中。我还应该说，据我了解，在BIS的领导层中，出口管制并不是一个重要的优先事项，对某些人来说，AI芯片也是如此。但对于执法人员来说，

他们中是否有任何人去新加坡看看英伟达10%的芯片流向何处？我认为他们会很快发现，哦，它们流向了中国。因此，一些基本的最终用途检查就能解决这个问题。我认为这并不是说出口管制不起作用。我们已经对许多其他事物进行了防扩散，例如化学剂和裂变材料。如果人们关心的话，这是可以做到的。但是

但即便如此，我仍然认为，如果你真的收紧出口管制，以至于中国根本无法获得任何这些芯片，而这是你的首要任务之一，他们只会窃取权重。我认为完全限制他们的能力将非常困难，但我认为你可以通过威慑来限制他们的意图。

它似乎也意味着，要么东西很强大，要么它不强大。鉴于中国的经济机会，我认为中国会说我们不需要这种能力，这是不可行的。是的，是的。我无法看到世界上的一个版本，在这个版本中，伟大的领导人和另一个伟大的强权认为这里有价值，并说我们不需要从经济价值的角度来看。是的，这是正确的。是的，对于很多这些来说，这将是。

也许如果一切进展慢三倍，而且如果有一些神奇的按钮可以做到这一点，那么可能会少一些混乱。我不知道这是否属实。对此我没有立场。鉴于这些公司之间、这些国家之间的结构性约束和竞争压力，这使得许多事情都不可行。当你考虑这些事情或当你

考虑到它的结构现实时，许多可能对风险缓解有用的姿态，它就变得不那么容易处理了。也就是说，在某些方面，仍然会暂停或停止某些项目的开发，你可能会失去对这些项目的控制，或者如果控制这些项目的话，将会非常不稳定，因为它将使一个国家能够压垮另一个国家。我认为人们对……

风险管理的看法是，人们认为这是一件和平主义者的事情，或者类似的事情。就像一切都充满爱与和平，我们只需要忽略这个领域的结构现实。我认为，相反，正确的做法是，这有点像

核战略，这是一个不断变化的情况。这取决于。你可以做一些基本的事情，比如你可能需要储存核武器。你需要确保二次打击。你需要密切关注他们的行动。你需要确保不会出现流氓行为者的扩散。

嗯，当能力极其危险时。这是一场持续的战斗，但它不是，你知道的，无论如何，这都不会是一件非常积极的事情。无论如何，这都不会是世界末日，对于核战略来说。嗯，这显然是一件冒险的事情。古巴导弹危机几乎演变成一场全面爆发，呃，核战争。这取决于我们做什么。嗯，嗯，

我认为一些基本的干预措施和一些非常基本的国家行为可以处理，可以处理许多这类风险，并使其可控。然后我想象我们剩下的更多是国内类型的问题，比如如何处理自动化之类的事情。但我认为我们也许能够控制住这里的一些地缘政治问题。我想在最后几分钟改变话题，谈谈评估。

这显然与安全以及了解我们在能力方面所处的位置密切相关。你能否说明一下你认为我们现在所处的位置？你提出了一个令人震惊的名称“人类的最后一次考试”评估，然后还有“谜题”。这些为什么相关，我们在评估方面处于什么位置？是的，是的。因此，为了说明背景，我一直进行评估以试图了解我们在人工智能方面的进展，我不知道，大约和我进行研究的时间一样长。

因此，之前我做过一些数据集，例如MMLU和数学数据集。在那之前，在ChatGPT之前，有像ImageNet-C和其他一些东西。因此，“人类的最后一次考试”基本上是试图弄清楚基于考试式问题的评估和基准的终点，这些问题测试某种学术类型的知识。因此，对于这一点，我们要求世界各地的教授和研究人员提交一个非常具有挑战性的问题，然后我们将将其添加到数据集中。所以这是一个很大的集合

例如，教授们会在他们的研究中遇到的具有挑战性的问题，这些问题有明确的封闭式客观答案。我认为，对于这里有一个封闭式答案，它是多项选择题或简单的简答题，我认为这种类型将在该数据集上的性能接近上限时大致结束。

因此，当性能接近上限时，我认为这基本上表明你拥有某种类似于超人类数学家或超人类STEM科学家的东西，在许多方面，对于封闭式问题非常有用，例如数学，但它并没有涉及其他需要衡量的东西，例如它执行开放式任务的能力。所以那是更具代理类型的评估。我认为，

这需要更多时间。因此，我们将尝试直接衡量它自动化各种数字任务的能力，例如收集各种数字任务，让它工作几个小时，看看它是否成功完成，类似的东西很快就会出现。我们有一个测试……

封闭式问题，测试学院知识和数学之类的东西。但它们在代理方面仍然非常糟糕。这可能会一夜之间改变，但它仍然接近底线。我认为它们作为代理仍然极其有缺陷。

因此，还需要对此进行更多评估。但总体方法只是试图了解正在发生的事情，发展速度是多少，以便公众至少能够了解正在发生的事情。

因为如果所有评估都饱和了，那么甚至很难就人工智能的现状进行对话。没有人真正知道它在哪里，它要去哪里，或者改进的速度是多少。当，比如说，这些模型和模型系统比人类更好时，有什么东西会发生质的变化吗？就像超过人类的能力以及我们如何进行评估？它是否改变了我们评估它们的能力？我认为智能前沿非常不规则。

他们能做什么和不能做什么往往令人惊讶。他们仍然不会叠衣服。但是，他们可以回答许多棘手的物理问题。原因是，你知道的，它们的原因很复杂。所以它并不统一。因此，在某些方面，它们会比人类更好。他们不久后在数学方面比人类更好，这似乎完全合理。

但仍然无法预订航班。这意味着，当它们变得更好时，它们可能只是在某些有限的方面更好，这可能只是

有限的，只是影响其领域，但不一定推广到其他事物。但我确实认为，它们在推理能力方面可能会比我们更好。我们仍然可以让人类检查，因为他们仍然可以验证。如果人工智能数学家比人类更好，人类仍然可以通过证明检查器运行证明，然后确认它是正确的。这样，人类仍然能够在某些方面理解正在发生的事情。但在其他方面，例如如果他们对品味变得更好

如果那样的话，如果那有任何意义，也许它没有任何哲学意义。这对人们来说将非常难以证实。我认为我们总体上正在朝着拥有像这样的AI的方向发展，

拥有真正优秀的预言家般的技能。就像你可以问他们一些事情，哇，它只是说了一些有见地或非常重要的东西，或者以某种方式突破了知识的界限，但不一定能够代表人们执行任务一段时间。所以我认为这就是我们不认真对待AI集的原因，因为它们仍然无法做到

很多非常琐碎的事情。但是当他们获得一些代理技能时，我认为他们的经济影响或人们认为这是一件有趣的事情，这成为最重要的事情，就没有多少障碍了。我认为这是代理技能的一种涌现特性，氛围确实发生了变化，很明显，这……

比，你知道的，一些之前的技术，比如应用商店或社交媒体，要大得多，它属于一个类别。所以。丹，谢谢你做这件事。这是一次很棒的谈话。是的，很高兴。谢谢你邀请我。是的。

在Twitter上关注我们@NoPriorsPod。如果你想看到我们的脸，请订阅我们的YouTube频道。在Apple Podcasts、Spotify或你收听节目的任何地方关注该节目。这样你每周都会收到一集新节目。并在no-priors.com上注册电子邮件或查找每集的文字记录。

National Security Strategy and AI Evals on the Eve of Superintelligence with Dan Hendrycks 36:24 Share

No Priors: Artificial Intelligence | Technology | Startups

Deep Dive

Shownotes Transcript

National Security Strategy and AI Evals on the Eve of Superintelligence with Dan Hendrycks