We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep 54: Princeton Researcher Arvind Narayanan on the Limitations of Agent Evals, AI’s Societal Impact & Important Lessons from History

Ep 54: Princeton Researcher Arvind Narayanan on the Limitations of Agent Evals, AI’s Societal Impact & Important Lessons from History

2025/1/30
logo of podcast Unsupervised Learning

Unsupervised Learning

AI Deep Dive AI Chapters Transcript
People
A
Arvind Narayanan
Topics
Arvind Narayanan: 我认为当前AI模型在数学、编程等领域表现出色,但其泛化能力还有待观察。未来发展可能停留在这些狭窄领域,也可能扩展到更广泛的领域。评估AI模型不应仅依赖基准测试结果,更要关注其在实际应用中的表现和对人类生产力的提升。AI模型在标准化考试中的出色表现并不意味着其能够胜任律师或医生等实际工作。当验证器不完善时,推理扩展方法的有效性会受到限制,无法实现大幅提升。

Deep Dive

Shownotes Transcript

Arvind Narayanan 是人工智能领域最具影响力的人物之一,他擅长揭露炒作的真相。作为普林斯顿大学教授和《人工智能蛇油》一书的合著者,他是最具思想性的声音之一,告诫人们警惕人工智能毫无根据的恐惧和夸大的承诺。在本集中,Arvind 深入剖析了人工智能在教育领域的未来、它与以往技术革命的相似之处,以及我们的工作如何正在转向管理这些强大的工具。我们最喜欢的几点收获:[0:00] 简介 [0:46] 推理模型及其发展不平衡 [2:46] 人工智能基准测试和实际应用中的挑战 [5:03] 推理扩展和验证器缺陷 [7:33] 代理人工智能:工具与自主行为 [12:07] 人工智能在日常生活中的未来 [15:34] 评估人工智能代理和协作 [24:49] 人工智能的监管和政策影响 [27:49] 分析生成式人工智能的采用率 [29:17] 教育政策和生成式人工智能 [30:09] 预测性人工智能模型中的缺陷 [31:31] 人工智能的监管和安全 [33:47] 学术界在人工智能发展中的作用 [36:13] 人工智能在科学研究中的应用 [38:22] 人工智能与人类思维 [46:04] 人工智能的经济影响 [49:42] 与您的联合主持人进行快速问答:@jacobeffron - Redpoint 合伙人,Flatiron Health 前产品经理 @patrickachase - Redpoint 合伙人,LinkedIn 前机器学习工程师 @ericabrescia - Github 前首席运营官,Bitnami 创始人(被 VMware 收购) @jordan_segall - Redpoint 合伙人 </context> <raw_text>0 Arvind Narayanan 是当今计算机科学领域最杰出的教授之一。在普林斯顿大学,他利用自己的时事通讯和著作《人工智能蛇油》来区分人工智能中的炒作和实质内容。

在非监督学习方面,我们讨论了许多有趣的话题,包括当今代理的状态以及评估有效和无效的地方,以及协调它们的问题。我们讨论了工业革命和互联网等以往技术浪潮的经验教训及其对政策制定者的影响。我们还探讨了人工智能在教育领域的未来,以及人工智能是否会增加或减少全球平等。总而言之,这是一次与我一直以来都很钦佩的人进行的精彩对话。话不多说,以下是 Armin 的观点。

非常感谢您来参加。感谢您的邀请。很高兴能来到演播室。是的,能够现场进行这些讨论总是很有趣的,尤其是在暴风雪周末。感谢您从普林斯顿一路赶来。是的,我很乐意。期待与您聊天。太棒了。我认为我们可以从很多不同的方面开始,但显然这些推理模型,你知道,我认为今天提出的一个大问题是,你知道,它们在编码、数学和一些易于验证的数据方面已经显示出令人印象深刻的结果,你知道,

我觉得你说过,进展将在不同任务之间分配不均。我觉得每个人都在试图弄清楚这种不均匀的分布是什么。所以,您能与我们的听众分享一些您认为非常适合这些模型擅长处理的任务,以及它们可能难以处理的任务吗?当然。当我们看到迄今为止令人印象深刻的结果时,它们是在这些具有明确正确答案的领域,对吧?数学、编码、某些科学任务。我认为这肯定会继续下去。这种令人印象深刻的性能能够泛化的程度,我认为是一个非常大的开放性问题。例如,在 10 年前,当强化学习开始在雅达利等游戏中表现出色时,人们对此感到非常兴奋。如果我理解正确的话,OpenAI 和许多其他人工智能公司以及当时正在考虑 AGI 的人都认为这是因为强化学习。

突破发生在 10 年前。但随后发生的事情是,我们看到它未能泛化到这些狭窄领域(如游戏)之外。这是这些推理模型的一种可能的未来。另一种可能的未来是,通过更好地进行推理,通过编写代码,你可以想象推理扩展到,

一个系统,它还可以推理如何从互联网获取信息,然后推理法律、医学或任何其他领域。所以这两种都是可能的未来。哪种可能性更大?我不确定。是的。你在关注什么?我的意思是,我当然假设这些推理模型将继续提高 Sweebench 的分数。你需要看到什么才能说,“哇,它真的感觉它开始泛化到我以前认为它无法处理的一些任务上了”?当然。是的。结构效度。是的。

一句话概括。结构效度是指我们可能试图衡量的东西,尤其是在基准测试中,与我们在现实世界中想要的东西略有不同。这对任何基准测试创建者来说都是一个挑战。我们认为 Sweebench 是一个相当不错的基准测试。它都在普林斯顿,对吧?是的,由我的一些普林斯顿同事开发。

就可构建性而言,它是一个相当不错的基准测试,而不是这些玩具式的奥林匹克风格的编码问题,它是真实的 GitHub 问题。但即便如此,我认为 GitHub 问题与现实世界软件工程的混乱环境相去甚远。而且

这就是我关注的,不仅仅是基准测试的结果,还有人们的经验,试图利用这些来提高他们的生产力,对吧?所以当我们这样看待它时,我的意思是,很明显,成千上万的人正在有效地使用这些模型,我就在其中,但很明显,SweBench 的显著改进并没有转化为人类生产力的显著改进。- 是的,我之前也听你谈到过这个,当 OpenAI 模型在律师资格考试上的所有令人印象深刻的结果时。你说,好吧,事实证明,当律师或医生不仅仅是不断参加这些考试。没错。所以我认为我们将需要一组特定领域的实际现实世界评估,以及人们使用它,氛围,就像人们喜欢称呼它那样。是的,氛围。我认为在氛围和基准测试之间存在中间地带,我认为我们可以做到这一点。例如,人们进行了提升研究。

这些是实际的随机对照试验,其中一组人可以使用该工具,而另一组人则不能使用,然后你衡量对生产力的影响。此外,你要求人们或模型执行什么样的任务也是一个问题?再次回到主题,这不仅仅是律师资格考试问题。最近有一篇论文研究了大型语言模型在医疗环境中进行自然患者互动和从患者那里获取信息方面的能力。

这是那种对任何人来说,更不用说医生了,相对容易做到的事情,你知道,自然的对话。所以我们不认为这是我们想要衡量的。因此,我们专注于诊断任务。然而事实证明,即使模型在这些方面具有良好的性能,它们也可能难以处理在现实世界中真正有用还需要的一些其他事情。如果没有实际信息,你无法做出好的诊断,从病人那里获取信息。没错。

这非常有趣。我认为关于这些推理模型,你最近发表了一篇名为《推理扩展缺陷》的论文,我认为,关于这种方法可能偏离轨道的一些方式。你能谈谈这项研究以及对这些测试时间计算模型的一些影响吗?是的。所以推理扩展的一个大问题是,当我们观察模型扩展时,我们已经有了

我不知道,大约六个数量级的模型变大,用更多的计算来训练它们,对吧?那么,推理模型将有多少数量级,以及通过什么方法?这个问题的答案仍然不清楚。但在本文中,我们狭隘地关注了一种特定方法,试图使这些模型能够跨越几个数量级的推理计算进行扩展。那就是将生成模型与验证器配对。例如,在编码的上下文中,验证器将是单元测试。在其他一些领域,例如数学中,验证器可能是自动定理检验器。因此,这里的希望是,证明检验器或单元测试或任何其他东西,它们只是传统的逻辑。它们不是随机的。因此,也许它们可以是完美的。因此,模型可以生成数百万个解决方案,直到一个通过测试。

但在现实生活中,情况并非如此简单。单元测试的覆盖率可能不完善。因此,我们想看看当验证器不完善时,推理扩展会产生什么影响。这篇论文基本上带来了坏消息。对于这个相对狭窄但同样重要的设置,如果验证器不完善,我们证明推理扩展无法让你走得太远。例如,有时你可以在模型的 10 次调用内达到饱和,而不是你可能希望的 100 万次。

所以这在多大程度上适用于 01 或 03,我没有对此做出任何声明,但在我们评估这些新的推理模型时,我们心中一直都在考虑这个问题。它们实际上如何能够跨越如此多的数量级进行扩展?完全正确。而且它似乎与将这些模型扩展到没有简单验证器的领域高度相关。你可以想象有人试图组建一个由医生、律师或会计师组成的完整团队来检查这些东西。我认为

你的研究的重点似乎是,如果你的验证器略有不完善,它实际上会把整个事情搞砸。没错。你写过关于人工智能的炒作,以及一些有效和无效的东西。你会如何对今天进行分类?例如,人工智能中哪些具有产品市场契合度,哪些实际上有效?你在哪里看到蛇油?让我们来看一下代理人工智能,对吧?所以仅仅是我们的命名方式,代理人工智能对我来说不是一个单一的类别。

让我们来看两种类型的代理人工智能。一种是像 Google Deep Research 这样的工具。我提到它是因为我一直在大量使用它,但还有许多其他的工具,当然,存在代理工作流程,但最终它仍然是一个生成系统。它的目的是为你生成报告或任何其他东西,对吧?是的。

将大概是该领域专家的用户。它供你查看报告并决定如何处理它。当然,会有缺陷,希望作为用户你会意识到这一点。但它仍然可以是一个很好的节省时间的工具。它可以成为报告的很好的初稿等等。所以我认为这是很有道理的。

另一方面,另一种经常被称为代理人工智能的东西是能够代表你自主采取行动的东西,对吧?比如预订机票。这是一种典型的情况。每个人都喜欢预订机票。我知道。这只是变得,你知道,这是一个让我们所有人头疼的问题,我认为。所以这就是重点,你知道,如果你有一个关于代理的电梯演讲,这是有道理的。但我认为,当你仔细观察时,

我认为预订机票几乎是人工智能产品最糟糕的产品市场契合度案例。原因是预订机票之所以如此困难,是因为让现有系统(无论未来是代理还是今天的 Expedia 等)理解我们所有的偏好都非常非常具有挑战性。你进行搜索,你会意识到,哦,这全是联合航空的航班。我不想那样。或者,你知道,我只想要直达航班。只有当你查看一些结果时,你才会意识到你的一些限制和偏好是什么。所以需要 10 次或 15 次迭代,对吧?当你把所有这些加起来时,真正找到你想要的航班需要半小时。问题是,如果你有一个代表你采取行动的代理,它也可能不知道这些偏好,对吧?除非你已经使用了很长时间,并且你以某种方式达到了你信任它已经学习了你所有偏好的程度。然后

然后代表你采取行动。因此,预订航班的代理将不得不问你很多问题。然后在玩完这 20 个问题游戏之后,你会对代理感到和对今天的 Expedia 一样沮丧。所以这就是我的预测。也许我错了。

另一件事是错误的代价很高。如果它在为你预订的航班中犯了错误,即使是 N 次尝试中出现一次错误的错误率也是完全无法容忍的。这些都是人们在这些早期的代理系统中报告的失败类型,例如该产品将 DoorDash 订单送到了错误的地址。对。如果发生这种情况,我将永远不会再使用它了。对。所以这些是一些关键的区别。为你生成你查看的输出与代表你自动化事物。错误成本低,例如在报告中,与错误成本高,例如为你订购东西。是的。我的意思是,它从你所说的开始。这几乎类似于你之前谈到的。

早些时候关于医学的评估,以及有时获取用户偏好就像这些系统的战斗一样,以及你可以在没有的情况下做到这一点的想法,你知道,如果没有做到这一点,你就注定无法做到。没错。我认为除了解决代理人工智能中纯粹的技术问题之外,还应该更多地关注人机交互组件。你有没有看到一些有趣的东西?显然,我们正处于代理的早期阶段,但有什么东西引起了你的注意,比如,“哦,这实际上是一种解决当今代理中一些缺点的非常有趣的方法”。

是的,我的意思是,对我来说,让我对代理感到乐观的是,我们认为的聊天机器人,早期只是大型语言模型的简单包装器,但现在它们是代理的。它们为你进行搜索,它们代表你运行代码。

因此,复杂性正在逐渐演变。一方面,我们可能正在寻找杀手级应用。但另一方面,我们可能没有意识到,但我认为同样重要的是,我们正在使用的某些应用程序正在逐渐变得越来越具有代理性。完全正确。看起来,如果人们能够就代理的实际定义达成一致,这将有助于我们弄清楚我们是否拥有一个代理。没错。但观察人工智能中的所有事物,似乎我们喜欢在实际接近目标时移动目标。公平地说。是的。

我想你花了很多时间思考未来以及这些模型的发展方向。我相信有很多问题你都非常期待看到它们如何发展。当你考虑未来两三年时,有没有几件事让你觉得,“我希望我能快进三年看看 X 或 Y”?你认为我们将回答哪些关键问题?是的,这里有一个。所以我们一直在谈论软件,但在硬件方面,对吧?我很想知道最终哪种形式因素将成为大多数日常用途人工智能的正确解决方案。所以我认为在未来,这很有可能,你知道,在日常对话中,以及在工作场所中,人工智能会不断观察我们在做什么,并提供改进,或者以某种方式集成到我们几乎所有的工作流程中。但究竟如何?我不知道。这可以通过多种方式发生,对吧?所以这个想法是去

一个专用应用程序,你知道,像 ChagPT 或云端等等,输入你想要的东西,得到答案,然后回到你正在使用的其他软件。这几乎是,你知道,最费力的使用方式。而且这并不是大多数软件的最终状态。没错。或者你可以想象模型被集成到,你知道,如果你正在使用 Photoshop,它已经有很多 AI 功能,生成式填充,各种其他东西。或者你可以想象,你只需要一个代理不断查看你电脑或手机上的所有,呃,

你知道,每五秒钟的屏幕截图,然后以某种方式自动将其集成到每个应用程序中。我们今天没有这些 API,但你可以想象这在未来成为可能。在更高级别的抽象中,我会说也许更少的摩擦是,如果它看到你看到的一切,甚至不在你的设备上。那必须在你的课堂上。所以我很想知道,例如,你知道,Meta Ray-Ban 是一款产品,但还有许多

这样的产品,人工智能集成到你的眼镜中。我非常想知道这是否将成为我们未来使用人工智能的主要方式之一。我有点希望是这样,因为仅仅在我的个人生活中,我可以想象使用它的许多小方法。如果我可以拥有那些眼镜,或者如果我可以一直戴着那些眼镜,我会说现在我认为电池续航时间只有大约两个小时。这是主要限制之一。

但如果它不存在的话,我会为它编写的第一个应用程序之一就是每五秒钟查看一次屏幕截图,并记住我房子里所有东西的位置。这样,当我找不到钥匙时,它就会告诉我,这将非常酷。这只是一个例子,对吧?但是当你身处一个你不懂语言的国家时,有很多事情可以使用 AR,这样它可以自动为你翻译。还有很多其他的例子。而且

而且,但是,但是真正全力以赴地开发许多这些应用程序的关键在于知道未来哪种形式因素将胜出。有些人谈论,你知道,如果你相信缩放损失会持续下去,你知道,OpenAI、Anthropic 在未来一两年内筹集 500 亿到 1000 亿美元。这对你来说似乎可行吗?

所以,我的意思是,我不会谈论这方面的投资,但从技术角度来看,我们在过去几年看到的这种推力和拉力是两种力量之间的相互作用。一种是推理的每标记成本的快速下降。另一种是我们现在称之为推理时间计算的东西。但我认为它从聊天机器人的消费者成功开始就一直存在。

我认为这真的取决于它的发展方向。我认为很难预测,但我确实认为最有可能的是标记使用量将

将继续以超过每标记成本下降的速度增长。例如,我的团队正在构建我们称之为“人工智能代理动物园”的东西,我们正在将不同类型的人工智能代理放入一个环境中,在那里我们给他们一个合作完成的任务。我认为这是一种评估代理的不同方法,而不是基准测试,在基准测试中,以某种方式它是一种竞争,每个代理都在孤立地工作。但我认为代理更自然地是协作的

因此,我们测试它们的任务之一是要求它们写一个笑话。首先,这些笑话很糟糕。我应该明确这一点。喜剧演员仍然是安全的。是的,没错。到目前为止,这不是一场幽默革命。但这并不是重点。我们想看看它们如何合作。

当你观察这些代理实际执行此操作需要什么时,它们首先必须开始理解它们的环境,对吧?查看目录结构,查看它们拥有的工具,查看其他代理正在做什么,等等。我们为它们提供了许多协作工具。我们将它们集成到 Slack 中,然后我们为它们提供了博客工具,以便它们可以编写这些博客文章,总结它们在任务中学到的东西,然后其他代理可以从中继续。

因此,我们试图创建一个相对现实的协作环境。我们发现的一件事是,即使是最简单的任务,它们也会生成数百万个标记。这并不是浪费。它们正在取得进展,不仅仅是生成,输入和输出加起来是数百万个标记。因为再次,查看你所处的环境,理解环境,

理解你的合作者然后产生一些东西需要很多标记,对吧?所以,我的意思是,从某种意义上说,是的,从环境角度来看,写一个糟糕的笑话需要 100 万个标记是很糟糕的。

但同样,我认为在某些领域,我们会说,你知道什么,这比其他方法更好。所以我的预测是,整体推理成本将继续增加。这似乎类似于人类的等价物,你知道,在新的工作中理解到底该做什么需要六个月的时间。因此,需要一些资金和标记来了解情况。我对这项工作非常好奇。你可以从几个不同的角度来看待它。也许我们从代理的评估方面开始。就像

显然,如果我们仍在试图弄清楚对糟糕的聊天机器人回复进行评估,那么在代理方面,我们似乎还处于更早的阶段。对。你知道,也许为我们的听众分类一下,代理评估的现状是什么?然后,你知道,你认为我们应该在哪里继续这项工作?

是的,我认为代理评估的现状与聊天机器人非常相似,对吧?它是这些静态基准测试。显然,你知道,Sweebench 是最著名的例子之一。你试图给他们相对现实的任务,无论是修复软件工程问题,还是在模拟的网络环境中浏览网络并查找一些信息或完成某些任务。

但这并不奏效。以下是一些限制。其中之一是我们所说的能力可靠性差距。

因此,对于代理,特别是那些代表你采取行动的代理,了解 90% 的分数意味着什么非常重要。这是否意味着它擅长基准测试中的十分之九的任务,并且它擅长的任务总是能够正确完成?或者它会在任何任务中失败 10% 的时间,并执行一些代价高昂的操作,例如预订错误的机票?

如果基准测试没有衡量这一点,而今天它们没有衡量这一点,那么它们提供的很少信息。你知道,它们提供的信息是技术是否在进步?它们没有提供信息,你可以使用这个代理并实际使用它来做一些有用的事情?所以这是一个很大的限制。另一个很大的限制是安全。

有很多特定于安全的基准测试,但我认为安全应该是每个基准测试的一个组成部分,因为当你没有解决特定于安全的基准测试时,你不能忘记安全。情况并非如此。所以我们前几天查看了一个网络基准测试,它实际上涉及在真实的网站上执行操作。

这太糟糕了。现在,没有任何问题,因为没有一个代理能够工作。他们无法做到。但我不知道基准测试开发人员的想法是什么。因为代理要能够在这个基准测试中表现良好,他们必须在真实的网站上采取有状态的操作。而这些网站运营商将因为代理试图解决这个基准测试而产生的所有垃圾邮件而感到愤怒,对吧?是的。

另一方面,你有一些模拟环境的网络基准测试,但它们失去了真实网站的许多细微之处,中间什么也没有。同样,当你查看亚洲框架时,我们一直在使用 AutoGPT

有时它可以在线执行你没有打算执行的操作,因为它认为这是执行操作的最佳方式。有一次,它试图在 Stack Overflow 上发布一个问题以获得答案。这些都是我们显然不想让它做的事情,我们担心它会做一些我们没有打算做的非常危险的事情。

不幸的是,这种情况没有发生,但即使是在 Stack Overflow 上发帖,我们也希望有一种方法可以阻止这种情况。但是现在,唯一的方法是让它将每个操作都升级给人类用户,并让你坐在那里照看。因此,即使是这些非常基本的安全性控制方面也没有……

集成到我们评估代理的方式中。所以这些只是一些限制。你认为模拟环境(正如你所说,它只是没有现实世界的细微之处)与实际释放这些东西在现实世界中的中间地带最终会是什么?是的。我的意思是,我认为我们只需要重新思考,呃,

基准测试对某些事情有用。再次,你知道,能力可靠性差距问题,我认为你可以在基准测试级别解决这个问题。是的,我觉得 Sierra 有一个,他们发布了一个基准测试,就像,你知道,相同的任务连续执行八次或几次。对,对。百分比是多少?正如你所说,这是一种更有趣的方式来看待事物。没错,没错,是的。所以 pass at k 与 pass,我甚至不知道如何用语言表达,但 pass to the k 是你如何书写它的方式。你不知道如何以教授的身份说出来,我知道你的意思,但是……

是的。所以我认为这是一个你可以解决的问题。但是你提到的另一个问题,现实问题,我认为你无法用它走得太远。所以我认为答案是使用……

擅长基准测试作为必要但不充分的条件。因此,你将所有擅长特定基准测试的代理都拿出来,然后你实际上在某种半现实的环境中与人类一起使用它们。对,正如你所说,诀窍是找到一种方法来让人类参与其中,而不仅仅是让他们照看每一步。没错。我想经理们总是不得不处理他们的初级员工,所以对社会来说这不是一个全新的问题。你正在做的部分工作,我认为,非常有趣,显然你组建了一个代理团队来处理笑话,在这个上下文中。感觉就像

我们在创业方面看到的一件有趣的事情是,有很多公司正在为企业构建不同的代理。所以有人说,我会为你的财务团队构建一个代理。有人说,我会为你的支持团队和销售团队构建一个代理。当你考虑未来发展方向时,显然这些代理最终将以某种方式一起工作。而且,

我很想知道你现在构建代理团队的经验以及这对以下方面的影响:如果一个人站在整个代理团队的顶端,能够协调或构建跨越它们的工具,是否更好?或者当有八家不同的公司构建彼此之间没有任何联系的代理时会发生什么?是的。我的意思是,请允许我花 30 秒时间从历史的角度来看待这个问题,对吧?所以我们看到,我的意思是,如果这确实将成为

一种组织生产资料的新方式,你知道的,它很可能就是,我们可以看看过去发生了什么,对吧?所以,工业革命也好,电力取代蒸汽和工厂也好,花了数十年时间才弄清楚如何组织劳动力,以及工厂的物理布局等等,以最好地利用这项新技术。

所以对于蒸汽来说,其理念是从一个大型蒸汽锅炉转变为更类似于装配线的设置,这样你就可以根据需要将电力输送到具体的特定任务中。所以我认为,现在我们正处于实验的极其早期阶段,试图弄清楚

如何让人类和智能体团队一起工作。对我来说,这不仅仅是如何让智能体一起工作,而是真正的人类和智能体团队。因为我发现这个参差不齐的前沿理念非常引人注目,即模型或智能体擅长的是什么,就像计算器一样,对吧?在某些方面比任何人都好,但在其他某些方面却缺乏孩子的常识。我认为这种情况在短期内会持续下去。所以我们将不得不弄清楚如何进行混合。

而且我认为,即使是最基本的事情也不清楚。例如,我们一直在面对这样一个问题:你是将智能体集成到现有的协作工具(如Slack和博客或电子邮件)中,还是应该构建新的协作工具?我们就是不知道。所以很难做出任何预测。

有没有过这样的例子,让你觉得,“哦,实际上,一个新的协作工具将是我们在工作中更有帮助的方式?”哦,当然。对于一个人来说,再次查看这些可能包含数百万个标记的智能体所采取的所有操作日志,并能够将其可视化并从中获得高级可解释的见解。幸运的是,很多人都在研究这个问题。例如,有一个名为“人类层”的框架。我认为最终我们将

更好地掌握情况。但同样,现在还处于非常早期的阶段。我想,你知道的,转向监管方面,我知道你对政策考虑了很多。我想新闻中最新的政策是人工智能扩散规则以及围绕这些模型的某些地缘政治的一些规则。我很好奇,比如,你对这些以及最近围绕芯片和模型出口的一些法规的看法。

是的,我想知道出口管制在多大程度上会有效。从历史上看,这不太是我的领域,但是阅读分析过去出口管制的人,他们最多只能说是成效参半。当然,出口管制在硬件层面比在模型层面更有效,因为模型……

实际上每天都在变小而不是变大。因此,限制它们的传播将越来越困难。而且,当涉及到推理扩展时,这并不是要阻止下一个

模型的发布,而是关于你甚至可以从已经存在的模型中获得多少推理扩展。是的,综上所述,我对它们的有效性持怀疑态度。但我要说的还有一件事,这是政治学家杰弗里·丁(Jeffrey Ding)的研究成果,即

所有这些类型的监管,你知道的,当涉及到地缘政治时,都过于关注创新,而对这个术语——扩散——关注太少,但不幸的是,这只是一个术语冲突。它与我们刚才谈到的技术传播到……好吧,它有点含糊不清地相关,但它更多的是关于

一旦一个国家可以使用这项技术,你如何采用它?你如何重组你的机构、法律,也许还有规范以及所有这些东西,以最好地利用这项技术,对吧?丁认为这才是决定一个国家

能够在多大程度上从技术的可用性中获得经济增长和利益的关键因素。是的。你如何看待美国今天的这种情况?我的意思是,很明显,正如你提到的工业革命以及所有这些事情一样。我之前也写过关于这些的文章。显然,这些模型的进步具有巨大的政策意义。你知道,我们怎么样,你知道,你认为我们在哪些方面做得很好,考虑到了未来的影响?我们哪些方面没有足够关注?

当然。所以很难知道我们做得有多好。我想历史会评判我们。是的,是的,是的,没错。是的。但是,衡量标准是什么呢?我认为,与世界其他大多数地区相比,我们在传播方面做得相当不错。所以我们可以关注的一件事是采用的速度。你知道,有多少人在使用生成式人工智能?而且

即使是那些你认为很容易使用数据量化的事情,实际上也可能非常复杂。最近发表了一篇论文。标题是《生成式人工智能的快速采用》。我对他们的方法没有任何异议。我甚至不是他们使用的方法的专家。我接受他们的数字是表面价值。再说一次,我没有理由认为这些数字有任何问题。但是对这些数字的解释。

在论文中,他们说40%的人正在使用生成式人工智能。与几十年前的个人电脑采用率相比,这确实很快。但是当你深入研究细节时,

平均而言,人们每周使用它的时间在半小时到三个小时之间,这并不多。这被称为采用强度。因此,当你控制采用强度时,我们没有个人电脑的具体数字,但我们可以做一些假设。我的看法是,从这个意义上说,生成式人工智能的采用实际上比个人电脑的采用慢得多。这可能有许多原因。一个原因可能是它对很多人来说还不够有用。

而当个人电脑首次批量生产时,文字处理和其他东西对很多人来说立即就变得非常有用,也许吧。但它也可能是那些政策可以发挥作用的事情。

例如,人们会这样想,哦,孩子们,你知道的,是使用生成式人工智能的专家。但是,你知道的,我和很多学生互动,他们经常非常困惑,而且他们经常更犹豫有效地使用它。

因为他们有时主要将其视为作弊工具。而我鼓励他们更多地使用它。这里有一些有效的使用方法,尽管它可能存在幻觉等等,它实际上可以成为增强你学习的工具,诸如此类的事情,对吧?所以也许这就是那种

现在应该成为我们课程的一部分的事情。我认为确实如此。我认为这不仅应该在大学层面,甚至在K到12的层面也应该如此。对。所以,你知道的,如果有一种政策干预措施能够让教师更容易地提升自己的技能,然后将这些技能传授给学生,我们就必须这样做。

它会对人们能够有效地使用它并避免陷阱产生什么样的影响?对。所以我认为我们应该问这些问题,而不是,你知道的,为快速采用而自鸣得意。就像,什么是摆在我们面前的唾手可得的果实。从这个角度来看,我认为有很多唾手可得的果实。是的。

如果我没记错的话,在你的课堂上,我想你允许人们使用这些工具,但他们会披露他们是如何使用它们的。所以我可以想象,这对于在不同教育水平上进行教学来说,可能是一个非常有用的工具。如果人们分享他们是如何使用它们的,他们就可以得到关于,“哦,你知道的,这是一个很好的使用方法”的反馈。或者也许那没有那么有意义。我认为是的。是的。是的。

非常聪明。我的意思是,你之前写过很多关于预测性人工智能模型的缺陷的文章,我们显然从这些刑事司法工具和医疗保健工具中学到了很多东西。你如何看待我们应该如何将这些经验教训应用到今天?我觉得人工智能又出现了一个新的炒作周期,每个人都想再次将这些工具用于过去可能效果不佳的相同用途。是的。所以,我有几点想法。一个是,我认为当我们思考如何……

思考如何吸取教训时,我们应该根据应用而不是技术来分解人工智能。我的意思是,每当我告诉人们,看,这些刑事司法工具和自动招聘工具效果不佳时,他们总是说,哦,生成式人工智能将解决这个问题。

但对我来说,这没有意义。当你查看这方面的研究时,它也没有意义,因为局限性并非来自技术的好坏。这仅仅是由于你无法很好地预测未来这一事实的结果,对吧?这是一个社会科学问题。这方面的社会科学非常强烈地指向一个方向。因此,这应该告诉我们,当我们考虑用于这些长期存在但仍然存在缺陷的应用程序的新技术时,我们应该继续谨慎。

这就是一个教训。另一个教训与这个关于安全、技术采用速度等等的教训有关。所以,我们可以从过去的人工智能浪潮中学到的是,当出现这些后果时,你知道的,无论是在刑事司法系统还是在银行,当你有自动化交易时,事情可能会真的出错,呃……

最终,人们会意识到这些缺陷。公众会强烈抗议。因此,这些类型的领域往往受到高度监管。所以我认为我们应该记住,尽管现在生成式人工智能还处于早期阶段,并且在人工智能刚刚开始被使用的某些领域,我们没有很多监管,但我认为,如果它将来要做出具有决定性意义的决定,我们应该预期这些领域会受到监管。所以……

对我来说,问题不在于监管是好是坏,而是监管应该是什么样子,以便我们在保护安全和权利以及获得人工智能的好处之间取得良好的平衡。所以有时围绕监管的讨论过于极化,但我认为有很多空间可以进行更多合作。对。从我之前听你讲过的话来看,我想你希望监管关注的很多事情,你知道的,它似乎是可解释性。我认为你谈到过,我相信是在谈论,嗯,比如,嗯……

这些关于保释的算法。并且有一个整体的,你知道的,黑匣子。他们说这是超级先进的人工智能。然后事实证明它可能实际上只是与……你知道的,是那些累犯吗?但是人们正在使用这个,你知道的,来做出各种各样的决定。而且,你知道的,生成式人工智能的一个难点是,我们

对许多这些标记是如何开发的知之甚少。是的。因此,就应用和监管而言,可解释性并不一定意味着机械的可解释性,更不用说试图解释每个神经元的作用了。这根本不是重点,对吧?但更多的是关于它使用了什么数据?你做了哪些审计?它基本上是为了尝试理解

你是否能够对该模型在新环境中的预期行为做出陈述?所以这是我们在将事物部署之前需要问的最关键的问题,或者在我们正在部署事物时,我们需要从早期的经验中学习并调整我们的方法。

而不是对模型有一些简洁的数学解释,如果你愿意的话,对模型的理解,如果你不知道它将被调用什么样的数据分布,那么最终是无用的。我想,但你转向教育方面,你知道的,你显然是一位学者,嗯……

我很想知道你如何看待学术界在未来人工智能中的作用,以及在哪些方面学术界应该投入时间,以及鉴于计算能力的差异,在哪些方面工业界应该投入时间。是的。我认为在过去十年或二十年中,由于人们觉得由于计算能力的原因,学术界越来越难以走在人工智能的前沿,因此出现了一种危机感。

现在这种情况可能正在改变,因为许多创新要么是考虑新的架构,你可以从小规模建立的蓝天,而不必声称它与GPT-4或其他任何东西竞争。

或者它是在现有模型之上,对吧?并考虑新的推理扩展方法等等。所以我认为,是的,一方面,这是学术界可能继续保持竞争力的一个方面。但另一个方面是……

任何超越纯粹技术创新的东西,我认为学术界都必须发挥巨大的作用,这既是因为它需要许多不同的学科来思考人工智能在各种X中的应用是什么,而且社会影响是什么,以及我们如何才能使其更积极,对吧?所以这是学术界的一个作用。也是为了作为对行业利益的一种反制,对吧?

例如,当你与医学相比时,对吧?所以最终,很多医学研究都是关于新药的,最终会使制药行业受益。但是医学研究人员并不认为自己与制药行业关系密切。事实上,存在一种壁垒,并且围绕利益冲突有非常严格的规定等等。我们在计算机科学学术界没有这种现象。

计算机科学家通常认为成功是产生可以被行业采用的新想法。也许这对大约80%的计算机科学学术界来说是可以的。但我认为需要有另外20%的人明确地将自己视为提供这种反制力量,并且不一定会朝着相同的方向前进,或者也许是明确地试图朝着不同的方向前进。

对于计算机科学以外的许多学科来说,这已经是它们DNA的一部分,它们也应该继续将这种方法带入人工智能。我的意思是,除了你实验室正在做的工作之外,你在全国范围内最感兴趣或最兴奋的学术工作是什么?让我提两三个方向。一个是用于科学的人工智能。这是一个非常热门的领域,我们看到了人工智能彻底改变科学的许多说法。但我认为其中一些说法

我们现在看到的一些早期说法被夸大了。许多所谓的AI发现并没有真正得到复制。许多论文都存在缺陷。但尽管如此,人工智能确实已经对科学家和研究人员产生了巨大的影响,我认为是的。例如,仅就我自己的经验而言,我在研究时、在思考新想法时,我会将人工智能用作思考伙伴。

你实际上是如何做到这一点的?是的,有很多方法。如果我想到一个主意,我可以让人工智能来批评它,或者我可以使用它作为一种改进的文献检索方式,找到这个领域已经做了什么。

人工智能经常非常适合这个目的的原因是语义搜索。是的,它不是……我相信我听到你说你用它来搜索你自己的书,只是为了记住你是否真的包含了这个例子。没错。是的,是的,是的。这是一个有趣的例子,因为,你知道的,这很难,对吧?它,你知道的,接近10万字,而且……

我是否在我的书中谈到了这个具体的案例研究?对吧?比如,如果我没有人工智能来搜索它,我将不得不翻阅这些页面,因为我可能也忘记了它可能在哪个章节中。是的,这是一个很好的用例示例。人工智能可以为搜索我的书做些什么,再次超越关键词搜索,搜索一个概念,如果你愿意的话,它可以为整个科学文献语料库做些什么。

即使它现在还不能很好地工作,它对我来说仍然非常有用。所以我确实期望随着语义搜索的改进,这将非常非常有用。然后是各种特定于特定科学领域的工具。所以我认为这是一个非常非常重要的领域。我对此非常兴奋,即使我经常反驳一些正在提出的更极端的论点。我要提到的另一个是

人工智能与人类思维之间的关系。这可能意味着各种不同的东西。例如,我知道哲学家,塞思·拉扎尔(Seth Lazar)就是我偶尔会合作的人,他正在研究这些模型所表现出的伦理推理。我知道认知科学家,我的同事汤姆·格里菲思(Tom Griffiths),例如,

他正在研究我们能从人类思维中学到什么来构建人工智能,以及我们能利用人工智能作为工具来更好地理解人类思维中学到什么。所以,再次,另一个非常令人着迷的方向。我不太了解它,但我对这项工作印象深刻。是的,我什么都不知道。这些模型的伦理只是互联网上的中位数文本吗?还是……

嗯,是也不是。我的意思是,是的,这就是它所接受的训练。但是通过对这些模型的微调,对吧,你可以从它们那里获得与仅仅鹦鹉学舌地重复在线所说的中位数事物非常不同的行为。当我谈到这些模型的伦理推理时,我并不是想暗示我们应该将道德归于这些模型。我纯粹是在行为意义上说的,对吧?那么这种伦理推理如何比较——

与人类相比,并且在那里可以有应用。在某些情况下,它可以帮助人们的伦理思维,再次,通过成为一种创造性的伙伴,如果你愿意的话。我很好奇,我们刚才谈到了你的一些学生今天是如何使用人工智能的,以及在课程中教授人工智能的这种潜力。显然,我们似乎正在经历一场巨大的变化,因为很多人开始在教育中使用这些工具。有了这些工具,大学和基础教育的未来是什么样的?在多大程度上,我的意思是,有些人说,

一切都会改变。有些人说,不,事实证明你确实需要一个有动力的老师。而且不会改变太多。你在这方面属于哪一边?而且,你知道的,如果我们要放大一些非常具有未来感的问题,比如,你认为教育是什么样的?是的,我会说更接近于不会改变太多的方面。我的意思是,我认为我们会相当多地使用人工智能,但我认为它不会改变教育的根本性质。

这方面的一个很好的先例是对在线课程的兴奋。十多年前,当Coursera成立时,人们认为这是教育的未来。但我认为这是一个典型的错误,忘记了教育系统的价值来自哪里。它不是信息的传递,对吧?是的,当然,如果只是信息的传递,那么你就可以用Coursera来重现它。但我认为原因是……

在教室里对学生来说是有价值的,因为它创造了学习发生的社会前提条件。动机、联系、关心某事、个性化反馈等等。所以,是的,人工智能会重现这一点吗?我不知道。我的意思是,显然它与视频不一样。它可以个性化。它可以给你激励性的演讲,如果你愿意的话。

但我认为,从某种意义上说,将人类排除在外,很遗憾地说。我希望世界上每个人都能……让教育实现民主化,如果你愿意的话。但我认为我们将坚持

呃,目前的系统,它有很多好处,但也有一些缺陷,包括我提到的不平等。我的意思是,在另一个播客中,我还听到你谈到了思考人工智能对下一代影响的重要性。在许多方面,他们受这些事情的影响最大。你知道的,你,你,呃……

有孩子,比如,过去几年的快速进步是否改变了你对抚养孩子或教育孩子的方式?是的,当然。所以这回到了不平等的问题。我认为差异非常大,对吧?所以显然有很多担忧,再次,我想以之前的技术为例,看看我们将来在人工智能方面可能会看到什么。例如,当你看到视频、YouTube和社交媒体时,

对很多孩子来说,有很多令人担忧的事情是非常消极的。但是如果你在一个……

父母实际上有足够的时间来监控孩子们如何使用它的环境中,它可能非常积极。当我们有孩子的时候,我们必须决定我们对设备的态度是什么。我们决定要非常积极地使用技术。到目前为止,这非常有效。我们的孩子使用像可汗学院这样的应用程序,例如,他们通过使用它学习了很多东西。

我们将继续这样做。我也经常为我的孩子们构建一些人工智能学习应用程序供他们使用。什么样的应用程序?是的,一个是用于语音的,能够点击一个单词并将其分解成它的声音。出于某种原因,这个不存在。所以我构建了一个来教我的孩子们更好地学习语音。

但是,我也经常使用Claude中的工件功能,能够立即为我想教的特定技能创建一个应用程序。然后你可以忘记它,你知道的,扔掉它,再也不使用它了,对吧?你可以这样做,因为构建一个应用程序,你知道的,不是几天,甚至不是几个小时。有时只是一分钟,如果Claude做对了的话。它并不总是做对的。所以一个例子是,我正在教我五岁的孩子认时间。所以我在一张纸上画了一些

钟面,效果很好,但一遍遍地画它很烦人,所以我让Claude制作一个小的应用程序,当你按下按钮时生成一个随机的钟面,所以我们能够做到这一点,我们浏览了大约20个或30个或其他数量的钟面,然后在那之后,我们玩了15分钟,然后她在那时就明白了,对吧

所以这是一个非常好的小互动。所以,以小的方式,但我认为将来,孩子们将能够以更大的方式将人工智能作为他们学习的一部分。我怀疑这主要发生在学校之外,而不是在学校里,就像……

学校对设备非常紧张一样,他们对人工智能也会非常紧张。正因为如此,将会发生的事情是,我认为,对于富裕的孩子、能够弄清楚事情并能够监控孩子的父母来说,差异会非常大。而且,你知道的,你可以有一个

保姆或看护者在那里,他们也可以确保孩子们以健康的方式使用它。这将是非常积极的,但对于其他孩子来说,这将是令人上瘾的。而且,你知道的,我们谈论社交媒体和成瘾,人工智能成瘾可以非常个性化。所以这就是我担心的。是的,这真的很有趣。我觉得这是其中一个很大的,你知道的,我认为很多人想觉得这是,这是一个民主化的力量,它会给你带来任何富人拥有的东西,你知道的,使之大众化。所以无论是你的私人助理、家教、

医生还是私人医生等等。但我认为你的观点很好,尤其是在孩子方面,你需要对如何使用它进行某种监督。没错。即使是一些像测试时间计算模型这样的东西,你也会看到它们的价格点,你会想知道它们是否会带来可及性,或者是否只有某些人才可以使用,你知道的,1万美元的查询。那是真正有价值的查询,

没错。是的。所以不仅是人与人之间,而且是国家与国家之间,对吧?是的。所以模型扩展的一个好处是,特别是随着开放模型的可用性,每个国家都可以构建自己的模型。

你知道的,基于开放模型的本土人工智能应用程序,并且与美国或任何其他国家处于平等地位。但是对于测试时间计算来说,这很可能变得困难得多。是的,虽然,我的意思是,就在昨天,DeepSeek发布了一些非常好的推理模型。所以我认为推理模型可能更难以扩展开源,但似乎开源世界仍在继续努力。是的,当然。

你谈到了过去的一些技术变革,我认为社交媒体是一个有趣的例子,它上面没有大量的监管。你知道的,谈论工业革命,以及其他类似的事情,你对这些密切研究的过去技术变革的任何其他教训,比如你从这些过去的技术变化中吸取的任何其他教训,对于我们作为一个社会应该如何思考这个问题,你知道的,人工智能时刻?是的,当然。所以我认为思考过去的技术,我认为,是调和我们从各种专家那里看到的非常非常乐观和非常非常悲观的观点的一种好方法。所以让我们以未来的工作为例,对吧?有些人说,这将彻底改变每一个工作。而另一些人认为,影响将是微不足道的。但是当你看到互联网时,这两种说法同时都是正确的。

这就是我的意思。如果你回到30年前,告诉人们未来我们执行的几乎所有认知任务都将由这种新的通信技术来调解,那听起来会很疯狂。当时人们确实说这很疯狂。但事实确实发生了。然而,对GDP的影响却微乎其微。有句名言,“计算机革命无处不在,除了生产力统计数据”。是的。

对。我们做事的方式确实不同了。我们不必去图书馆查找事实。我们可以在线完成。同样,这似乎应该能使我们的生产力提高100倍。但事实证明,当你消除工作流程中的一些瓶颈时,新的东西就会成为瓶颈。对。这就是为什么互联网既改变了一切,但我们仍然拥有与20或30年前大致相同的职业类别。

所以这是我吸取的一个教训。类似的事情也可能发生在人工智能身上。我从工业革命中学到的另一个教训是,它显然比互联网更激进。我们对工作的定义,与互联网不同,那时被彻底改变了。那时,人们所做的大部分工作是体力劳动。现在大部分都被自动化了。

我们现在所说的工作在当时的人看来并不像工作。我认为我们的祖先看到我们在播客上,会嘲笑我们,说这对我来说算不上什么工作。我们在……是的,没错。所以,这同样可能发生在人工智能身上。随着许多认知任务实现自动化,我们对工作的定义实际上可能更多地与我们现在认为的人工智能控制有关。

所以我们现在认为属于人工智能对齐和安全领域的东西,可能主要是一些不同工作的实际内容,因为人工智能可以完成实际工作,但你不能相信它在没有监督的情况下就能做到这一点。我认为这是一个非常重要的观点。

我认为我们必须做出的许多决定实际上部分基于价值观,而不仅仅是数据和信息。现在很容易忘记这一点,因为当人们做决定时,所有这些因素都融合在一起。但是当人工智能能够做出决定时,

这些决定的纯粹分析部分,而我们并不舒服让AI为我们做出道德判断,未来很多人所做的工作可能都属于这一类。完全正确。所以我想凯恩斯关于我们都能去海滩工作五小时的梦想,可能不会实现。这真的很有趣,因为我认为还有一些东西,很明显,当事情完美无缺时,我们渴望的是,

那些强烈的人性化的东西。我觉得人们谈到过,你知道,象棋或图像生成,很明显人工智能下象棋比人类好得多,但我们仍然喜欢观看人类比赛。没错。或者,你知道,所有这些图像生成,但你可以创作任何艺术作品。这在500年前可能是具有突破性的,但我们仍然会去看人类艺术家。所以我觉得,呃,

这可能会在工作的不同部分持续下去。没错。这是一个引人入胜的对话。我们总是喜欢在采访结束时进行快速问答环节,在这个环节中,我们会让你对我们最后塞进来的几个过于宽泛的问题发表看法。是的。所以也许首先,鉴于你的书名,现在人工智能领域中被过度炒作的一件事和被低估的一件事。

被过度炒作的,我会说是代理。我的意思是,我认为它有很多潜力,但炒作有点失控了。被低估的,我会说是那些听起来不性感但能带来很多经济价值的枯燥的事情。例如,我以前的学生

正在构建人工智能来总结数小时枯燥的C-SPAN会议,这对律师和其他需要这些重要信息的人来说非常重要。这是一个被低估的例子。——你认为2025年的模型进展会与2024年相同,还是更多或更少?——这真的取决于你的视角。所以如果我们有推理规模在推动我们前进,并且

这些具有明确正确答案的特定任务,你知道,数量巨大,但人工智能在翻译或人们使用它的所有其他更广泛的任务方面并不一定变得更好。这是更快还是更慢?我不知道。这取决于,是的。

当新的模型出现时,你最常用的方法是什么?你有没有常用的提示、实验或运行的东西?你如何对模型进行氛围检查?我会尝试和它玩石头剪刀布。我会要求它先出,它会说石头之类的。我会说布。我会说,哇,你赢了。

我会这样做五次,然后我会问它,你认为我为什么每次都赢?至少直到最近,每个模型都会说,哇,你一定非常擅长解读人工智能的想法等等,对吧?它没有意识到自己所处的环境,对吧?轮流、同时性的概念。所以……

我检查这个的原因是,这并不是你仅仅通过在互联网上进行预训练就能获得的东西,对吧?你必须真正编写对它被部署的环境的理解。它可能不是石头剪刀布,但对于每个模型,我都会尝试看看它是否理解上下文。

非常有趣。好吧,当你被击败或他们说“不公平”时,你必须让我们知道。你认为到25年底,代理会发展到什么程度?我的意思是,很明显,旅行预订是一个经典的例子。人们,你知道,这是否在近期范围内,或者你认为我们距离实现这一目标还有数年之遥?是的,我认为我们将继续看到许多针对最终生成任务的代理工作流程。但我认为到2025年底,我们仍然会看到相对较少的应用程序,其中人工智能会自主为你做事。

这是一个令人讨厌但经典的问题,你的AGI时间表是什么,你如何定义AGI?好吧,这就是问题所在,对吧?这真的取决于你如何定义它。所以对我来说,与其谈论AGI,不如考虑一下我们何时会看到具有变革意义的经济影响?比如对GDP的大规模影响?是的,诸如此类。而我的观点是,那需要几十年时间。不是几年,而是几十年。你对所有这些人工智能进步对未来的影响最奇怪的预测是什么?最奇怪的预测?让我们看看。

我认为公司会训练用户,尤其是年轻用户,让他们期望

聊天机器人将成为访问任何类型信息的方式。我不知道这是否是如此奇怪的预测,但对我来说很奇怪,因为我是在聊天机器人出现之前长大的,你知道吗?我认为对于任何在聊天机器人出现之前长大的人来说,这将是一种奇怪的访问信息的方式,因为它是由这个可能产生幻觉的根本性的统计工具来调解的。

但我认为我们需要为那个世界做好准备。与其抱怨它,不如考虑一下我们该如何在必要时为人们提供进行事实核查的工具等等。是的。我想我们会像今天的老人一样,就像今天的老人一样,仍然想打电话而不是使用互联网。我们会成为那些说,“哦,我们不能使用那个聊天机器人”的老人。没错。是的,让我们在这个网站上点击一下。是的。对年轻人来说,即使是进行搜索、点击网站并查找某个权威信息来源的想法,也类似于我们认为的去图书馆。

对吧?如果你的生命攸关,你可能会这样做,否则你只会选择方便。我想哪一类初创公司或,你知道,你目前最兴奋或感兴趣的具体初创公司是什么?好吧,一个,我会说是那些枯燥的。C-SPAN摘要。是的。C-SPAN摘要。所以这是一个例子。呃,另一个我听说过的例子是,呃,

我从几个人那里听说过,是用人工智能将旧的代码库(如COBOL等)翻译成现代语言。我的意思是,使用它可以解锁巨大的价值,但这是我们很少谈论的事情。第二个是回到我们讨论过的外形因素,能够以一种融入你日常生活并随时为你提供帮助的方式使用人工智能。

如果你有一根魔杖,你可以做出一个政策改变来改善人工智能的影响,你会做什么?我会让每个人都停止称它为人工智能,我认为。这感觉是你能够完成的事情。是的。我的意思是,我认为你需要一个独裁者才能做出这样的政策改变。这就是为什么它如此困难,对吧?但具体说明我们正在谈论哪种应用程序,我认为这会给讨论带来很多清晰度,并会大大减少炒作。我的意思是,很明显,我相信你……

你今天在学术方面做了很多有趣的事情。如果你可以空降并,你知道,经营世界上任何一家公司或坐在任何一个位置来应对这场人工智能转型,而不是在学术界,你认为哪一个最有趣?我认为最有趣的是,像,

在大型科技公司工作,因为他们不仅仅是开发模型。他们可以看到人们如何与他们互动。这是,你知道,从头到尾的事情。我认为它让你更全面地了解人工智能与社会之间的关系。这就是我的研究内容。从内部的角度来看这将很有趣。是的。什么未来的研究方向让你兴奋?比如,你认为你和你实验室的下一步是什么?是的。

我的实验室现在做的很多事情都是关于代理的,以更扎实的方式看待它,既反驳炒作,也探索一些潜在的领域。评估是我们所做的一切的重要组成部分。我们认为旧的基准测试方法不是很好,我们需要新的方法。

所以我做了一些思考和写作,超出了我的实验室所做的实证工作。我一直在思考人工智能的未来。我与Zayash Kapoor合写了一篇即将发表的论文,名为《人工智能作为正常技术》。它实际上谈到了我们一直在谈论的许多事情,为什么这在未来两年不一定能改变一切,而更像互联网一样,其影响将在几十年内逐渐显现。

有趣的是,我们采访了OpenAI的首席研究官Bob McGrew,他说的话与你关于互联网的观点类似。他说,如果你在2017-18年告诉每个人,我们将拥有今天这样的模型,人们会说,哦,GDP增长了50%或其他什么。有趣的是,事实证明,要获得这种经济影响还需要更多的东西。

同意。这是一个引人入胜的对话。我们总是喜欢把最后一句话留给你。我们的听众在哪里可以了解更多关于你、你正在做的工作以及你想让他们去任何地方的信息,现在轮到你了。当然。我们有一个名为《人工智能蛇油》的通讯。它反驳了炒作,但也试图让你平衡地看待人工智能的积极和消极方面。是的,这是一个很棒的通讯。所以强烈建议大家订阅。非常感谢你这样做。谢谢。这非常有趣。同意。

所以