我是夸梅·克里斯蒂安,美国谈判学院的首席执行官。我有一个快速的问题要问你。你上次进行艰难的对话是什么时候?这些对话无处不在。这就是你应该收听《谈判任何事》的原因,这是世界上排名第一的谈判播客。我们每天都会制作节目,帮助你在工作和生活中领导、说服和解决冲突。因此,通过将《谈判任何事》纳入你的日常生活中来提升你的谈判技巧。
来自领英新闻,我是杰西·汉佩尔,《你好,星期一》播客的主持人。用《你好,星期一》播客开始你的一周吧。我们将一起应对职业转型。我们将学习幸福的融入之处。在领英播客网络或你收听播客的任何地方收听我和杰西·汉佩尔一起主持的《你好,星期一》。
两位人工智能最直言不讳的批评者加入我们,讨论这项技术的弱点和缺陷,并就他们论点的细微之处展开辩论。在节目之后,我们将讨论所有这些内容。欢迎收听《大科技播客》,这是一个关于科技世界及其他领域的冷静、细致的对话节目。今天,我们邀请到了《AI骗局》一书的作者。艾米丽·M·本德教授在这里。她是华盛顿大学的语言学教授。艾米丽,欢迎。
我很高兴来到这里。感谢你们邀请我们参加你们的节目。我很荣幸。我们还邀请到了亚历克斯·汉娜,他是分布式人工智能研究所的研究主任。亚历克斯,欢迎。感谢你们的邀请,亚历克斯。
很高兴节目中又多了一位亚历克斯。所以我们今天要尝试全面了解人工智能。因此,今天我们将邀请我认为是这项技术最直言不讳的两名批评者。他们将陈述他们的观点,而你们在家中可以决定是否同意。但很高兴你们两位都在这里。那么,让我们从这本书的前提开始吧。什么是AI骗局?
艾米丽,你想先开始吗?当然。所以AI骗局实际上是一个套娃式的骗局。最底层是,特别是大型语言模型是一种技术——这是一种纸牌戏法。它利用了我们理解语言的能力。
并使人们很容易相信里面存在一个思考的实体。这种纸牌戏法通过各种用户界面设计得到了增强。聊天机器人绝对没有理由使用“我”、“我的”等代词,因为它的内部没有“我”,但它们却被设置为这样做。所以你有了这种最基本的骗局。但除此之外,还有很多人在销售基于聊天机器人的技术
作为法律助理,作为医疗环境中的诊断系统,作为个性化导师,以及取代工人,但也为我们社会保障体系和社会服务的巨大漏洞贴上创可贴。所以这是一个从上到下的骗局。
好的,我肯定在某些地方与你们的观点不一致,我们肯定会在下半场讨论这个问题,特别是关于这些机器人的实用性以及它们是否应该使用“我”、“我的”等代词以及整个意识辩论。我们将讨论这个问题。我认为我们没有人认为这些东西是有意识的。我只是认为我们在行业夸大了这一点的程度上存在分歧。但让我们从我们一致的地方开始吧。
我认为从一开始,艾米丽,你就是这篇关于将大型语言模型称为“随机鹦鹉”的著名论文的主要作者。在这篇论文的开头,就表达了对大型语言模型可能带来的环境安全和环境问题的担忧。所以在这个节目中,我们一直在谈论数据中心的大小、模型的大小。
当然,使用这些东西必然会产生相关的能源成本。所以我很想知道,艾米丽,或者你,亚历克斯,亚历克斯,你在谷歌工作过,对吧?所以你可能对此有很好的了解。你们两位能否分享一下,比如量化一下运行这些模型需要多少能量?所以问题的一部分是,即使,你知道,即使你在谷歌工作,你也在直接从事这项工作。
他们对成本的估计并不公开。我的意思是,成本差异很大。我认为我们唯一知道的成本是Hugging Face公司对Bloom模型的估计,因为他们能够对这些模型的能耗有一些了解。所以问题的一部分是公司在这方面的透明度。你知道,作为回应,
在发表了《随机鹦鹉》论文后,谷歌的Jeff Dean(谷歌研究高级副总裁)和David Patterson(谷歌对该论文的反驳的主要作者)等人的抱怨之一是,好吧,你们没有考虑XYZ,你们没有考虑我们只在爱荷华州的一个数据中心谈论的可再生能源。你们没有考虑非高峰时段的训练。
所以这是问题的一部分。我的意思是,我们可以尝试对其进行量化,但是关于这里实际发生的事情有很多保密性。我们不知道模型训练的情况。我的意思是,我们可能知道新模型或像Lama这样的开放权重模型中有多少参数。
我们不知道他们停止训练和重新启动或进行实验的尝试次数有多少。所以,你知道,我们可以推测,但我们知道它很多,因为现在世界上确实存在一些影响。这些影响是什么?
这些影响是什么?所以你会看到社区失去对水资源的获取。你会看到社区,你会看到电力线路变得不稳定。我认为这已经开始被很好地记录下来了。有很多记者在这个领域做了很多很好的工作。我还想赞扬Sasha Luciani博士的工作,她从学术角度研究了这个问题。她提出的一个观点是,这不仅仅是模型的训练,当然还有使用。
特别是如果你考虑在搜索中使用聊天机器人,而不是获得可能已被缓存的一组链接,如果你获得的是AI概述(当你尝试使用谷歌搜索时,这种情况会非自愿地发生),对吧?每个标记都必须单独计算。
所以它一次输出一个词,这要昂贵得多。我认为她的数字大约是传统搜索的30到60倍,这只是计算方面的成本,然后会随着电力、碳和水的消耗而增加。我还想说,说到现有的影响,现在孟菲斯也有很多报道,特别是关于甲烷发电机和
XAI一直在使用它来为那里的特定超级计算机(称为Colossus)供电,特别是关于那里的排放影响西南孟菲斯,这是一个传统的黑人贫困社区。还有关于
实际上,来自加州大学欧文分校的研究,其中研究了与电网连接的柴油发电机和排放,但由于数据中心的SLA非常高,你实际上需要某种备份在某个时间启动,这将导致空气污染。哪些社区受到缺水的影响
所以,我认为报道最好的一个是在俄勒冈州的杜勒斯。我的意思是,我认为这是最著名的一个。这是在人工智能之前,我们关注的是谷歌超大规模发展的过程。直到俄勒冈人起诉这座城市,我们才知道这座城市一半的用水都流向了谷歌的数据中心。
那是在生成式人工智能之前。那是在生成式人工智能之前。我的意思是,我们必须想象这个问题现在可能加剧了。但我们知道吗?我的意思是,你们两位都写了关于这方面的书。
所以我们确实指出环境影响是一个非常重要的因素。它不是本书的主要焦点。我会建议人们阅读像Paris Marx(Tech Won't Save Us的作者)这样的记者的报道,他做了一个很棒的系列报道,叫做《数据吸血鬼》,我认为其中有关于西班牙和智利的报道。是的,所以这是,你知道,我们正在关注整体的骗局,并且
环境影响也包括在内,因为这是我们应该始终考虑的事情。也因为它非常隐蔽,对吧?当你访问这些技术时,你可能正坐在你的移动设备或电脑前,而计算及其环境足迹、噪音以及其他一切都被隐藏在云的非物质性之中。
我还想说,我的意思是,关于孟菲斯的报道,我想感谢Prism的Ray Libby的报道,嗯,你,嗯,是的,我不知道我是否正确地发音了他们的姓氏,但他们有很多关于这种说法的水消耗量,说这将需要大约一百万加仑。嗯,我正在检查,但我正在查看,我正在查看报道。我认为,嗯,
我正在查看这方面的确切数字。我将查看它。是的,所以他们每天要使用一百万加仑的水来冷却电脑。他们没有……他们说他们需要建造一个灰水处理设施来做到这一点。我的意思是,这不是任何……这些设施还不存在,所以必须建造。但我的意思是……
我认为说这发生在一个超大规模时代、在中产阶级化时代之前并不为过。我的意思是,不幸的事实是,许多社区团体正在地方层面与之抗争。许多事情都没有被报道,仅仅是因为,但从我们在杜勒斯、伦敦县和
以及德克萨斯州农村地区所了解的情况来看,如果类似的战斗没有发生,我们会感到惊讶。我同意这种报道不足的情况,这就是为什么我们在这里首先要关注它。我们将列出生成式人工智能的一些可能存在的问题。我认为这是一个问题。我认为艾米丽,你基本上已经说到了,对吧?在哪里
当你生成AI概述时,你会产生所有这些标记,我检查过,你无法选择退出。你是对的。如果你在查询中添加“-AI”,你可以选择退出。好的。但是你每次都必须这样做。你不能在某个地方设置一个设置。
这很有趣。我不知道这一点。好的,你可以选择退出,“-AI”,但是这些东西比传统的谷歌搜索需要更多的计算。我想这些公司的论点是,他们只会让他们的模型更高效。我的意思是,我们看到效率随着时间的推移不断提高,训练可能会有很大的前期能源成本,但推理最终可能会……
不是那么耗能。你对此有何评论?我会说微软的布拉德·史密斯放弃了从微软成立之初就实现净零碳排放的计划。他说这件荒谬的事情,说我们有一个登月的计划。结果证明,有了生成式人工智能,月球远了五倍。
这只是对这个隐喻的荒谬滥用。但是,是的,你看到谷歌也同样放弃了他们的环境目标。所以,如果真的有所有这些效率可以获得,我认为他们不会这样做。我还想补充一点,我的意思是,我认为关于前端大量的训练和碳使用,然后随着推理而逐渐减少的论点。我的意思是,这是一个论点
直接来自谷歌。这同样是在David Patterson的同一篇论文中。我认为这篇论文的标题,我不会完全正确地说出来,是训练成本或生成式人工智能的成本将……可能不是生成式人工智能。我认为是语言模型的成本将趋于平稳然后下降,或者训练成本。实际上,论点是
你有一项巨大的投资,我们可以用可再生能源来抵消,然后它会下降。但是你必须考虑一下,鉴于围绕它的经济学,它不是一家公司在交易观点,对吧?我的意思是,有多家不同的公司在训练这些。
并且有多家不同的公司提供推理。所以,只要有某种激励继续将它放入产品中,它们就会扩散。如果只是谷歌,当然,也许有一种情况,其中存在某种规划,并且存在某种衡量和关注的方法,然后它实际上会逐渐减少。但是你有谷歌、Anthropic、
XAI,当然还有OpenAI、微软、亚马逊,每个人都在试图通过训练和推理来分一杯羹。所以我认为这,再次,你知道,很难对其进行量化,但我们在这里看到的是巨大的投资。这给出了一个很好的信号,表明碳成本必须非常高。
看,我认为我们必须再次在这里领先。很明显,存在一些真正环境影响。而且,我的意思是,我们有英伟达的首席执行官黄仁勋说,推理将需要数年时间。
比传统的LM推理多一百倍的计算量,而且每个……每个我问过的这些公司的高管,推理是否会需要更多的计算量,这并不完全像黄仁勋说的那么多,但存在一个范围。所以这些东西将更耗能,对于所有在听的听众来说,我认为,你知道,这是一个重要的背景
要记住,当我们谈论人工智能时,存在环境成本。目前还不完全清楚是什么,尽管确实存在。我同意作者的观点,即提高透明度非常有意义。现在,让我们谈谈你们在书中提出的另一个问题,即基准测试游戏。在过去几周的大科技Discord中,这是一个热门话题,我们看到这些研究实验室不断告诉我们,他们在新的测试中达到了新的基准或超过了一定水平。我们都在试图弄清楚这意味着什么,因为它似乎很多都是针对测试进行训练的。并且
你们在书中对基准测试游戏及其意义提出了一些批评。所以,请为我们解释一下。艾米丽,发生了什么基准测试游戏?所以,是的。所以当你提到基准测试游戏时,这听起来像是基准测试是合理的,并且被误用了。但我认为实际上大多数现有的基准测试是不合理的。他们缺乏所谓的结构效度。对。
结构效度是对我们试图测量的事物是真实事物,并且这种测量与之有趣地相关的一种两部分测试。但是没有人真正确定这些东西的测量目标是什么,更不用说第二部分了。
所以它们是有用的销售数据,对吧?要说,嘿,我们现在在任何方面都有最先进的苏打水。但这与它所声称的测量内容没有有趣的关联,更不用说系统的实际用途了。是的。而且我想补充一点,我的意思是,有很多工作。我的意思是,在本书之前,艾米丽和我花了很多时间撰写关于基准数据集的文章。所以
这已经,你知道,就像我个人痴迷于ImageNet数据集一样。我正在考虑写另一本关于ImageNet数据集的书,仅仅是因为它包含的内容。但是我的意思是……
你知道,基准测试,它们所声称的,基准测试有很多不同的问题,对吧?所以结构效度可能是首要的。当我们得到一些东西,比如在USMLE上测量mid palm 2或mid palm 1和2时,这并不是一个真正能够确定一个是否足够,你知道,是否准备好成为一名医疗从业人员的测试。成为一名医疗从业人员还有很多其他事情。呃,
除了参加USMLE考试之外。你不能参加律师资格考试,然后说你准备好成为一名律师,对吧?我的意思是,还有很多事情与
与人际关系、培训和其他类型的专业化有关。在社会学和职业社会学方面,有很多文献论述了专业化是什么样的,它包含什么,以及其中涉及哪些社会技能,以及这意味着什么,以及如何在该学科中变得熟练。
但是,不同类型的基准测试是,仅仅在公司自己进行科学研究的方式上就有很多不同的问题。他们正在发布这些基准测试,而且这些基准测试通常是他们自己创建和发布的。所以可能是他们所谓的“针对考试进行教学”,并且
但他们也没有外部效度来表明他们试图做什么。所以OpenAI说,
我们有一个模型做得非常好,我们必须为它创建一个新的基准。好吧,谁来验证这一点,对吧?我的意思是,即使是旧的基准测试文化,你也有外部基准测试,并且很多人会去测试它,并说,哦,我们在这个基准测试中做得更好。现在OpenAI说我们有我们自己的基准测试,因为我们做得非常好。并不是说旧系统更好,而是这个新系统是,好吧,有什么独立的验证来证明它能够做到它所声称的事情吗?
你对Arc AGI测试有什么看法?是的,我的意思是,我们花了一些时间关注Arc AGI测试,对吧?Arc AGI测试至少是独立的,我的意思是,它表面上是独立的,我的意思是,这是……这是法国特许经营权,是的,顺便说一下,对于所有收听的人来说,它基本上会问,让我看看我是否理解正确,它会要求模型能够
它理解模式并将形状组合在一起的能力。
我认为这是最好的解释方式。是的,所以这是一堆视觉谜题,我认为它们都在二维网格中。为了使大型语言模型能够处理这些二维彩色事物,这些彩色事物被转换成字母序列。其想法是,我认为这是一种少样本学习设置,你有一些示例,然后是一个输入。问题是,你能找到这样的输出吗?
当我们想谈论基准测试的名称本身具有误导性时。事实上,它被称为Arc AGI。
对吧?这表明它正在测试AGI。它不是。这是一件非常具体的事情。我认为Sholay的观点是,这与人们通常使用语言模型进行的任务类型非常不同。所以这种姿态是朝着泛化,如果你能够做到这一点,即使你没有为此进行训练,那么这就是某种证据。但是如果你看看
OpenAI关于这个形状物体的论文,他们使用了很多作为训练数据来调整系统以能够完成这项工作。所以,好吧,很好。监督式机器学习确实有效。对。在接下来的测试中,出现了ArcAGI2,其中包含许多新的问题,并且所有模型都立即开始在这些问题上表现不佳。所以让我问一下。
有没有一种方法可以让你们两位评估这些AI模型是否有用,或者你们是否完全否定了它们有用的能力?对什么有用?
我的意思是,你告诉我。好吧,我的观点是,我认为使用机器学习来完成特定任务完全没问题,然后你设置一个与任务相关的测量方法。我是一名计算语言学家,所以像自动转录这样的事情就属于我的领域。如果我要评估一个自动转录系统,我会说,好吧,我为谁使用它?什么样的语音变化?我将收集一些数据。
人们说话,让某人,一个人为我转录,然后评估各种模型在进行这种转录方面的效果如何。如果它们的效果足够好,并且在我的用例的容差范围内,那么很好。这很好。你相信泛化能力吗?
所以泛化能力,在这里我想到的是Tamit Gibru博士的工作,它不是一种工程实践。这是一个范围不明确的系统。所以Gibru博士说,工程的第一步是你的规范。你正在建造什么?如果你正在建造的是通用的东西,那么你走错了路。这不是你可以测试的东西,它也不是范围明确的技术。
是的,我的意思是,泛化性这个概念在人工智能中也总是有一些特殊性。我的意思是,我们在书中提到了这个想法,这个……
这是一个我难以理解的词,我已经花了很长时间,但我只是要说果蝇,对吧?所以,对,Josephina,一种果蝇基因组模型,这个想法是你有一些非常普遍的序列,对这个非常具体的物种来说,对吧?过去,这已经成为,你
在人工智能中是国际象棋游戏。一直是游戏,对吧?我的意思是,这些都是非常具体的任务,这些任务不会泛化到所谓的通用智能,好像这样的东西真的存在一样。我的意思是,
人工智能研究中的一个问题是,智能的概念定义非常非常差。泛化性的概念定义非常差,或者说是针对实际基准或试图实现的任务的范围。所以,我的意思是,这是,我的意思是,所以泛化性的概念定义非常差。
理解,并且它以一种有意义的方式被部署,听起来好像存在某种通用智能的概念。而且事实似乎是,我的意思是,并且有,你知道,其中一个,其中一个,嗯,我们在本书脚注中提到的一篇很棒的论文是Nathan Enzberger的这篇论文,嗯,
它谈论了国际象棋如何成为人工智能研究时代和60年代和70年代之前的人工智能炒作周期中的果蝇,碰巧的是,你有很多喜欢国际象棋的人,他们想与在国际象棋方面占据主导地位的苏联人竞争,对吧?所以这些任务变成了某种任务,就像,好吧,这些是我们喜欢的事情,并且
我们现在又看到了一些这样的情况。就像,好吧,我们认为这些任务是合适的。这些任务的范围是我们认为最有价值的问题,但它们不是为了考虑世界上存在什么是有帮助的、有用的,并且范围明确的执行,对吧?这个“一切系统”的概念范围非常广泛。但是,好的。所以它的范围不明确,但是,但是,
我认为现在所有收听或观看的人都会说,好吧,我只是基本使用ChatGPT,它可以告诉我关于历史的事情,它可以写诗,它可以创造游戏。好的,我看到艾米丽已经做出了反应。它可以搜索网络并为我制定计划。它可以在这些不同的学科中做所有这些不同的事情。所以对于听众来说,会有这样一种感觉,即存在一种
进入各个不同学科并执行的能力。无论你是否称之为魔术戏法,很明显它可以做到。所以我想说的是,我的意思是,有没有办法衡量这一点?或者你认为这本身就是一个错误的断言?
所以,是的,我认为这是一个错误的断言。ChatGPT可以做的是模仿跨许多不同领域的类人语言使用。所以它可以产生一首诗的形式。它可以产生旅行行程单的形式。它可以产生关于某个事件历史的维基百科页面的形式。如果你真的有信息需求,那么使用它是一个极其糟糕的主意。
撇开使用ChatGPT的环境影响,撇开它背后的糟糕的劳动实践以及对必须查看糟糕输出的数据工人的可怕剥削(以便消费者看到更少的糟糕输出),并且通过糟糕的输出,我的意思是暴力和,嗯,种族主义以及所有类型的具有心理危害的东西。是的。这是什么?不,我们有,我们有其中一个参与过,呃,
对这个内容进行评分的人参加了节目。感兴趣的朋友,我会在节目说明中添加链接。理查德来谈谈那段经历是什么样的。对不起,请继续。所以撇开所有这些,如果你有信息需求,那么获取合成文本挤压机的输出,并且
不会在几个层面上让你真正学到更多东西,对吧?因为你不知道,你不能很快地检查,除非可能进行额外的搜索,而无需ChatGPT,在这种情况下,为什么不直接进行搜索呢?而且,假设世界是这样的,如果我有一个问题,就有一台机器可以给我答案,这是一种糟糕的信息实践。
当我进行信息访问时,我所做的是理解这些信息来自的来源,它们如何相互关联,它们如何融入世界。这是我和Srirag Shah一起做的关于信息行为的工作,以及为什么即使聊天机器人非常准确,它们实际上也是一种糟糕的信息实践方式。
Emily Bender是华盛顿大学的计算语言学教授。Alex Hanna是分布式人工智能研究所的研究主任。Bender和Hanna加入Big Technology讨论他们的新书《AI骗局》,他们将这本书描述为当今语言模型热潮掩盖环境成本、劳工损害和科学漏洞的多种方式。收听节目,了解关于聊天机器人是有用工具还是精致的纸上谈兵的热烈讨论。我们还将讨论基准测试游戏、数据中心用水、末日论等等。播放节目,进行一场坦诚的辩论,让你更了解生成式AI的真正现状——以及未来的发展方向。 --- 喜欢Big Technology播客吗?请在您选择的播客应用程序中给我们五星好评⭐⭐⭐⭐⭐。 想要Big Technology在Substack上的折扣吗?第一年享受25%的折扣,其中包括我们订阅者Discord的会员资格:https://www.bigtechnology.com/subscribe?coupon=0843016b 有问题?反馈?请写信至:[email protected]</context> <raw_text>0 所以,回到你的观点,是的,这个系统被设置为在各种各样的主题上输出看起来合理的文本。而危险就在于此。
因为它看起来我们几乎已经有了机器人医生、机器人律师、机器人导师。事实上,这不仅是不真实的,不仅对环境有害等等,而且那也不是一个美好的世界。我只想强调这一点。我在这点上不同意你。我认为你提出的一些观点是有道理的。我们不希望这些东西立刻成为律师。
但至少让我举一个我最近用过的例子,如果你认为我错了,你可以告诉我哪里错了。我的意思是,我现在在巴黎,工作和度假兼顾。我所做的是,我拿到了两份文件,我的朋友们
他们经常来这里。他们整理了一些文件,在他们来这里的时候会发给朋友们。我把这些文件上传到ChatGPT,然后让ChatGPT搜索网络,给我一些建议。我告诉它我在哪里,我要去哪里,它会搜索例如所有的博物馆、美术馆、节日、音乐会,并将它们整合到一个地方。这对我来说非常有用,可以找到新的文化活动、音乐会,以及
这里甚至还有一个面包节,我以前完全不知道。现在我要去了,因为它推荐给了我。所以,当涉及到这些事情时,有一个联系。有一个联系。
你可以去核实一下工作,但就从网上查找信息而言,它能够去网上搜索这些活动,然后结合我用这些文件提供的一些上下文信息,我认为这非常令人印象深刻,这只是一个用例,所以我并没有要求它成为一名律师,我是在要求它成为你所说的行程规划师,这有什么错呢?
所以,首先,你从朋友那里得到了这些很棒的文件。我想你说的缺少的是当前的事件。所以他们给了你一些类似的东西,这些是一些需要寻找的一般性东西,但他们并没有调查现在正在发生的事情。这有什么问题呢?你知道,在几个层面上,在之前的时代,甚至在互联网出现之前,我们会怎么做?
当地报纸会列出当前的事件。这就是正在发生的事情。如果你到达一个城市,你会去寻找当地的,可能是当地独立的报纸,然后查看活动页面。这个系统是基于社区内部一系列关系,包括举办节日的组织和报纸撰稿人之间。它可能有助于支持当地的新闻信息生态系统,这是一件好事。但除此之外,我,
如果某些东西没有列出,你可以考虑为什么没有列出?缺少什么关系?
你的ChatGPT输出会给你一些废话。你是对的,这是一个你可以验证真伪的用例。它也可能错过一些东西。没有呈现给你的东西之所以没有呈现,是因为系统中包含了一套复杂的偏见,再加上这次的随机因素。每当有人说,好吧,我需要ChatGPT来做这件事时,通常会有两种情况发生。通常,
要么有另一种方法可以做到这一点,这会给你更多机会与人建立社区联系,要么有一些严重的未满足的需求,这听起来不像你的情况。如果我们稍微拉远一点视角,我们可以说,为什么有人觉得唯一的选择是合成文本输出机器?在这里,我认为你已经陷入了前者,那就是你通过这种方式错过了什么?你可以与周围的人建立哪些联系?
如果你住在Airbnb,可能是Airbnb房东,如果你住在酒店,是礼宾部,在寻求这些问题的答案时,你却转向了机器。我还想说,这是一个风险相当低的场景,对吧?你可以出去,你可以验证这些事情。
你可以访问现有的活动日历资源,人们也在网上花费大量时间来整理这些资源。我的意思是,网上已经有很多东西被整理好了。我的意思是,这并不是技术发展史上的先例。我的意思是,我们在书中引用并大量讨论的人之一是Sophia Noble博士关于谷歌以及谷歌结果的方式的研究
呈现与少数族裔相关的非常暴力的内容。我喜欢引用,而很多人一开始并没有引用书中的部分内容,就是她谈论的部分内容。她谈到了Yelp,她特别谈到了Yelp,以及
它在提及一位黑人理发师方面的含义,以及Yelp如何有效地将这个人排除在业务之外,因为她对她在研究的城市的黑人居民有特殊的需求,她编辫子头发并做其他黑人发型,对吧?所以这是一种信息检索系统的所有功能,对吧?你想想他们包含了什么,排除了什么,对吧?
所以这里没有什么严重的后果,但在任何类型的摘要或检索领域,你都需要具备某种专业知识,以便你可以验证它并确保其中没有遗漏任何重要内容。它基本上会利用这种专业知识
信息访问资源或系统,在这种情况下是爬取网络,并且知道它会错过一些东西,然后它会加剧这种情况,因为你无法将这些来源置于上下文文本中。
好的,让我给出我的反驳论点,然后我们可以从这一点上继续。我的反驳论点是几点。首先,我不会说法语。所以当地报纸对我来说毫无用处。我会说。好的,我住在住所。我们交换了公寓。所以她在我纽约的公寓里。我在巴黎。所以也许她和我可以一起看报纸。这是公平的。但报纸,说到遗漏东西的事情,
报纸总是遗漏东西。它会进行编辑判断。所以它是机器人编辑判断与报纸编辑判断,但机器人有时可能更全面,因为它搜索的是整个网络。我最后要说一点,我从来没有觉得,我没有觉得需要用它来弄清楚发生了什么。就像,再说一次,我有这些文件。它有用的地方在于,它,
说到与当地社区建立联系,如果我能,这里有一个词,高效地进行研究,我就可以花更多的时间在社区里,而不是搜索网络或阅读报纸。那么,你对这些论点有什么想法呢?是的。
对不起。我被Alex的猫走来走去分散了注意力。所以听众们,Alex的猫在这里。Alex,你猫的名字是什么?这是克拉拉。我想把她抱起来,但我肩膀受伤了。但她一直在敲麦克风。所以我不会。我只是想让她不要碰麦克风。是的。是的,谢谢你。所以效率论点是,
所以这是在休闲活动而非工作环境下的效率论点。你顺便提到了它正在为你搜索整个网络。你并不知道实际情况。那是对的。而且整个网络也包含很多你实际上不想要的东西。网络上的很多东西都是垃圾SEO内容。也许你在ChatGPT输出中看到的这类内容比在搜索引擎中看到的更多,正如Alex提到的,搜索引擎也存在问题。
最后,我要对你说不。SEO垃圾是为搜索引擎而制作的。是的,但是搜索引擎为了生存,也必须对抗SEO垃圾。这是一场持续的战斗。聊天机器人可能也是如此。你提到了报纸的编辑判断与机器人的编辑判断。我要对这一点提出异议,因为机器人不是那种能够做出判断的东西,也不是那种能够对做出判断负责的东西。对吧。
所以我认为,正如Alex所说,这风险很低。但如果你把它用作这些东西在世界上有用的动机,那么你必须处理这样一个事实,即在世界上有用将包含更多高风险的事情。然后我们真的必须担心责任问题。我还想说,太多,我认为,这种论点来自……
比如所谓的“能力”,我不知道这个术语到底是什么意思。我认为这是一个定义不明确的术语,尤其是在谈到AGI的时候。但我的意思是,这种论点,好吧,我发现它有用。我发现这并不令人信服,对吧?我的意思是,这有点像,好吧,无论如何你都发现它有用。
在这种情况下,你可以验证你所知道的来源,并且对某些事实真相有所了解,或者你从各种不同的情况下发现它有用。但是如果我问聊天机器人一些关于我非常了解的领域的问题,比如社会学或社会运动文学,那么
我就可以利用我在该领域的社会技能来验证这一点。这是一个我从社会学家Neil Flinstein那里借用的术语,以及我对如何驾驭这些领域以及我作为社会学家的专业化的知识。
好的。但是然后我,但是一旦它进入那些可验证性对我来说难以捉摸的领域,也就是大多数领域,因为我们不是这些领域的专业人士。尽管我们许多人都想成为各个领域的专家,
那么我们就失去了这种能力,我们就没有同样的社会技能或知识深度来验证这一点。所以我真的不相信那些。好吧,这些对我来说在这些风险相当低的语境中很有用,因为这种偏差意味着我们会在一些非常糟糕的语境中错过一些非常重要的事情。
好的,当我们回来的时候,让我们提高一个档次,因为我们将讨论工作中的AI和医疗领域的AI。也许我们甚至可以稍微谈谈末日论,你在书中写到了这一点。议程上还有很多其他事情。所以我们稍后回来。
我们回到了Big Technology播客,与Emily M. Bender教授和Alex Hanna一起。他们是《AI骗局:如何对抗大型科技公司的炒作并创造我们想要的未来》一书的作者。就是这样。所以让我们谈谈实用性。我们将从医疗领域的生成式AI开始,因为……
为什么我们不直接从我们可能在这里最不一致的例子开始呢?我不是说我认为生成式AI应该扮演医生的角色。事实上,当我写下我的清单时,我同意你们俩的观点,我不认为AI应该成为治疗师,至少现在还不是。我们现在知道,根据最近的一项研究,AI的第一大用途是陪伴和治疗,而治疗方面
真的让我害怕,我认为陪伴也不是世界上最好的事情。但在医学方面,我确实发现它有一些用途。医学领域充斥着文书工作和保险要求,我认为这些已经毁掉了医疗系统,因为它们让医生实际上被束缚在电脑前写笔记,而不是看病人或过他们的生活。
Alex,在休息之前,你提到过,这些东西有用的一个领域是当它开始在你专业领域运作时,因为你可以验证它。所以,我的意思是,我们将使用一个我认为在这里相当不错的用途,对我来说,这不会让生成式AI感觉像是一个骗局,那就是当医生看病人时,他们可以输入转录。
获取他们与病人交谈的记录,然后让AI综合他们谈论的内容,并对其进行总结,并将其放入他们用于电子病历的系统中,然后进行验证,这样他们就不必花时间写这些总结了,而可以实际花更多时间与病人相处。那么,这有什么问题呢?
这有很多问题。首先我想说的是,当你谈到保险需要如此多的文书工作时,你提到了根本问题。所以这是一个存在真正问题的情况。这不是说医生不应该写临床记录。这实际上是护理的一部分。但是由于保险系统,特别是美国的保险系统,需要大量的额外文书工作。所以我们可以努力解决这个问题。
在这种情况下,转向大型语言模型,即所谓的生成式AI,是一种方法,它向我们展示了问题的存在。但这并不意味着这是一个好的解决方案。有很多问题。一个问题是,写临床记录实际上是护理过程的一部分。医生会反思与病人交谈的结果。
并仔细思考,写下来,计划下一次治疗。这不是我希望医生养成不再作为护理一部分去做的事情。现在他们可能觉得他们没有时间去做。这也是一个系统性问题。其次,这些东西被设置为环境监听器,这是一个巨大的隐私问题。一旦你收集了这些数据,它就会变成一堆危险的放射性物质。
第三,你还有这样一个事实,即自动转录系统,这是第一步,对不同的语言种类效果并不相同。所以想想那些说第二语言的人。想想那些患有构音障碍的人。所以一个年长的,说话不太清晰的人。想想一个医生。
是社区的移民,现在他们需要做额外的工作,因为他们的词语没有被很好地转录。因此,临床记录对他们来说效果不好。但系统的设计是,他们可以看更多的病人,因为AI(引号)正在为他们处理所有这些事情。最近有一篇很棒的文章发表在Stat上。
新闻,我一直在寻找作者的名字,没有很快找到,它真正地反映了对她来说,医生做护理的一部分,即从谈话中提取出重要的东西,是多么重要。这不仅仅是简单的总结。从与病人的来回对话、医生的所有专业知识到记录中的内容,这实际上是医疗工作的一部分。
是的。所以我想补充一下,Emily已经说了很多我想说的话,我认为,但我还有三四个不同的观点要补充。首先是技术点。
所以有一些工具声称是摘要工具。Garen Spirk和Hilda Shellman以及去年10月AP的报道对Whisper进行了很好的报道。所以这是OpenAI的ASR系统,自动语音识别系统,它说医疗转录已经
基本上是在编造很多东西。然后我们知道他们有所谓的“幻觉”。再说一次,这不是我们在书中使用的术语。我们说它在
我说它在编造东西,但这对我来说甚至可能给予了系统太多的拟人化。所以,但是有很多这样的事情。一些来自该文本的引用,一些虚构的文本包括种族评论、暴力言论,甚至想象中的医疗方法。
所以这是一个主要问题。第二个问题是,医疗转录一直是医学领域多年来一直在强迫工作休闲化的领域,对吧?所以现在医院中存在的医疗记录,大部分是在远程完成的。所以它已经获取了这项工作,这项工作被认为是繁琐的工作或……
这件事,比如,我不希望写我的医疗记录成为需要强加给别人的那种工作。所以在这种ASR元素出现之前,是,感谢Emily的链接,我会链接我正在查看的AP文章。
这项工作的一部分实际上已经被大量外包到这种外包运动中。所以很多工作都是远程完成的,作为这种休闲化的一部分。场景似乎是,我认为,是很多……我想指出这一点的性别概念。这非常像一种以女性为基础的工作。这反映了……
所谓的AI技术想要基本上获取传统上属于女性的工作领域,并说,好吧,我们可以自动化它,或者我们可以以不同的方式使它休闲化。这很重要,因为它认为这项工作实际上不是所谓的“工作”的一部分。它被视为应该休闲化和外包的工作。
所以,我很欣赏Emily分享的那篇文章,因为那篇文章说,不,这实际上是行医的一个要素。然后我还想把所有这些东西放在医疗行业的政治经济学中,想想这意味着什么,要匆忙地投入和拥有越来越多的远程医疗,让越来越多的医生看更多的病人,而医生从效率提升中获得的好处不会像
让他们的工作更容易。这会给他们带来更大的压力。现在你处于不必做医疗记录的境地,你将从一个预约跑到另一个预约。
我姐姐是一名护士。她是一名护士执业者。她现在在她诊所的工作中基本上看到了这一点。她说,现在我们有了这些东西,我必须看病人,你知道,如果,你知道,我不是要去海滩的任何地方。这意味着我将有,你知道,我将每天有9到10个,15分钟的预约。我没有足够的时间进行适当的治疗,没有足够的时间与病人相处。
所以如果这些事情可以,你知道,我想说的是所有这些的结尾是,如果AI支持者真的可以把所有的行医外包给聊天机器人,他们就会这样做。这是一个比尔·盖茨说过的情况,你知道,在10年内,我们将不会有老师和医生。
拥有非教师和非医生是一个多么可怕的场景。Greg Corrado在引用我的书时真的泄露了这一点,他说,MedPalm 2,你知道,这个东西非常高效。我们将把我们的医疗能力提高十倍。但我不想让它成为我家人医疗旅程的一部分。好的。
好的,但在这里,你再次挑选出一些最极端的陈述,我开始我的问题时说——是比尔·盖茨。比尔·盖茨可以发表极端的言论。他是那个人。我不认为他是那个人,我认为——
这并不反映这里的广泛共识,肯定不反映我提出的问题,这个问题再次是关于利用这一点来节省医生在文书工作上花费的一些时间,并将这些时间还给医生自己。
或者让他们能够看更多的病人。所以非常直接地解决了这一点。首先,我想说出那篇文章的作者的名字。她的名字是Alia Barakat,这是一篇很棒的文章。她是一位数学家,也是一位患有慢性病的病人。很棒的文章。但是是的,你说把时间还给医生或让他们看更多的病人,对吧?它不会回到医生那里。这不是我们的医疗系统的工作方式。因此,它还会降低病人护理的质量。除了……
医院可能赚到更多钱,当然还有向医院出售这些产品的科技公司。好的。我也很好奇,在考虑这个问题时。我的意思是,是的。那是什么?我很好奇,在考虑更细致的立场时,比如,你想到的参考是谁,Alex?对此的共识是什么?因为我,我,我,你知道,就像我们看到这个的令人震惊的,你知道,元素,我想知道医学界的共识是什么,你知道,比如谁,什么例子,
你知道,只是为了下毒。现在我正在采访你,但比如,你认为谁做得非常好?好吧,我的意思是,做得很好的人,就像,再说一次,我不认为这些东西已经发展得很好了,但我确实看到足够多的医生被文书工作埋没了。我们,我们开始整个部分的谈话是关于这如何是,我想这是一个保险驱动的因素。所以,是的,
有趣的是,我想,你们俩都不喜欢保险公司指导系统的方式,但也认为医生为他们写这些记录是一种好习惯……
等等。医生记录有两个用途,对吧?实际上是为病人和护理团队的其他成员记录本节中发生了什么。我认为这是行医工作中非常重要的一部分。我相信你,有很多额外的文书工作与让保险公司偿还费用有关。不,我一点也不喜欢那个系统。它没有。美国的保险公司没有提供任何价值。它们只是我们医疗系统的吸血鬼。
好的。我认为我们可以在这一点上达成一致。我的意思是……
无论如何,但我确实认为,随着这些东西越来越好,我理解病人希望发生这种情况。如果他们允许AI总结笔记或挑选出更重要的部分,我认为医生会给他们提供更糟糕的护理吗?如果这些东西运作良好?不一定。这是一个很大的如果。当这些东西越来越好,这些东西运作良好是什么意思?你的意思是……
编造东西的缺失。对的。我的意思是,但是我们都,我们俩,我们都同意医生必须在之后验证和检查这些信息。好吧,我想问题就在那里,那么我们为什么一开始要让医生去复查呢?对吧?在一个医生有15分钟时间看每个病人的领域,并且有一个AI所谓的抄写员在做,或者所谓的AI。我不想称它为AI抄写员。有一个自动语音识别工具。对吧。
对这些东西进行自动语音识别,在什么空间或什么时间内医生必须在一个领域验证这些东西?我的意思是,这是,我的意思是,好吧,他们本来会花时间写这些笔记的时间。
验证比转录更容易吗?我想这是我的问题。我会提出否定的意见。我的意思是,仅仅根据我使用这些系统的经验。我的意思是,我不是医生。谢天谢地。虽然我考虑过。不是那种医生,让我父母很生气。但是然后我想问题是……
那就是我,根据我的经验,我专门将这些工具用于采访,特别是与数据工作者进行定性访谈,并花时间使用这些工具,并且在考虑这个问题时遇到了非常糟糕的经历,尤其是在……
关于数据工作的术语。我们正在谈论训练AI系统。这是一项非常糟糕的工作。有一次,我把所有东西都扔掉了,我说:“好吧,我只是把这个发给别人来转录,因为这对我不起作用,而且它花费了我更多的时间。”从记录开始,然后从头开始做。我已经转录了
你知道,我不是主要做定性访谈的人,但我花时间,你知道,在我的研究生涯中转录了几十次访谈,并且发现这非常困难。所以我的意思是,我想问题是,验证,你知道,这是否会占用本来可以用于行医和与病人一起工作的时间?
我的意思是,比如,你知道,保持,你知道,关于保险行业的一切,你知道,稳定,你知道,比如,这种考虑
你知道,不同的病人,病人是如何出现的,病人是如何描述他们的,他们的,他们的,他们是如何,你知道,他们是如何出现的,这通常是做这件事的工作,我所接受的医学培训是,我曾经,我曾经是一名持证EMT,写PCR报告不像,你知道,没有人想在同时花时间写PCR报告
记录患者的呈现方式。患者是,你知道的,亚历克斯·律动。只是回到亚历克斯身上。患者嘴唇周围发绀。这些都是医疗专业人员会注意到的,可能会做笔记,因为他们以后会写下来。所以我正在思考这个写作过程以及它对我们自己观察、援助和实施医疗护理实践的影响。
好的。我的意思是,在这个问题上,我们同意不同意。呃,但是再说一次,我认为我们都同意保险公司要求额外书写,仅仅是因为他们希望你永远不会获得索赔。如果你不提交,那可能很糟糕。呃,我们认为不应该有,呃,
不应该有AI医生,至少现在还没有。这就是我说的。我想你们可能会说永远不会。所以,好吧。我想就此结束,或者我们可以再讨论两个话题。我想,我的问题是,你们在书中讨论AI在工作中的实用性时,很多讨论都集中在自上而下地使用这些工具。
但如果它们自下而上呢?如果一个工人能找到它们的用途,并且通过熟练使用ChatGPT或CLAWD等工具来简化他们的工作呢?或者,你知道的,我们喜欢讨论医疗用例。如果一位医生发现这对他们有用,你会反对吗?
是的。我认为实际上,凯德伯瑞(Cadbury)说得最好。有一个关于印度市场的搞笑广告,它展示了从这些工具中获得的所谓效率是如何加快事情的速度,而没有给你时间真正深入你正在做的工作并参与其中。我认为最……
可信的用例是,首先,嗯,作为编码评估辅助工具。这是一种自然语言和某种编程语言之间的机器翻译问题。呃,我真的很担心技术债务。嗯,
你有一些不是人写的、没有良好文档记录的输出代码,这将成为其他人以后调试的问题。还有写电子邮件。人们讨厌写电子邮件,也讨厌读电子邮件。所以你会遇到这样的情况:有人写要点,使用ChatGPT将其转换成电子邮件,而另一端的人可能会使用ChatGPT对其进行总结。就像,好吧,我们在做什么?再说一次,退一步说,好吧,
是什么系统要求所有这些写作,每个人都觉得写和读都很麻烦?我们可以重新思考这些系统吗?我还必须说,每当我收到合成文本时,我都会非常生气。我们书中提到的一件事是——是的,我昨天肯定收到了一封这样的邮件。我想,你用ChatGPT写的。我知道你用了。是的。如果你懒得写,我为什么要费心读呢?对。这是一个很好的观点。将此与思考在哪些情况下非常有趣
工人正在有机地使用这种东西。我有点喜欢这样一种情况,你知道的,就像在这种情况下,首先,我个人很少听到这种情况,尤其是在专业人士中。我的意思是,我认为有很多工人发现了许多用途,但是,是的,
我会说我认为与它不是自上而下的类似之处在于教育。在这方面,我认为这在思考教育是什么方面是一种失败,对吧?我的意思是,在这种情况下,它……嗯,学生们用它来完成他们的课程。是的,对,没错。你在说老师们把东西放在一起吗?两者都有,但我想到的是学生,对吧?我只是在想哪些领域……但我把它用作一种类似物,然后思考
是什么条件迫使学生使用它,对吧?如果有一些情况似乎这种方法很有用,那么,在哪些情况下
这说明了什么工作?它说明了工作是如何定向的,对吧?在这种情况下,那么可能需要不同的效率或思考工作是如何运作的,对吧?然后我担心这些东西会在工作环境中强制执行。你这么说,人们正在使用它。所以每个人都在使用它。然后
这会让那些抵制者或思考的人怎么办,好吧,我知道这做不好。那么这把我放在哪里?我认为我们已经看到这种说法是雇主们已经
减少了大量职位,因为有一种观念认为这些工具可以胜任这些工作,并且达到某种程度的熟练程度,但这根本不是事实。这让我担心在艾米莉提到的这些领域,例如技术债务领域,我们如何知道,在这种情况下,对这些工具能力的估计过高。
好的,我知道时间到了或快到了。在我们离开之前,我能问你一个关于末日论者的问题吗?当然,让我们以谈论末日论者结束。好的,我肯定看到这里有一章是关于末日论者的,我很兴奋地阅读它,因为我的立场一直是那些担心大型语言模型会把我们变成曲别针的人要么是在推销他们销售的东西,要么就是非常喜欢,我不知道,
他们喜欢自己体味的气味,因为,我的意思是,这并不是一件可怕的事情,但还有很多事情,而且这似乎不太可能伤害我们。所以我绝对想听听你为什么,呃,你为什么,你为什么看不起末日论者。让我在这里说明一点。你们书中有一句话说,呃,
人工智能安全只是末日论,它只关注这些长期问题。但我确实听到了一些人工智能安全领域的人,比如人工智能安全中心的丹·亨德里克斯,谈论一些非常重要的近期问题,例如这项技术是否可能帮助怀有恶意的人类病毒学家。所以我不会诽谤整个AI安全领域。但是末日论者的说法……
我明白你的意思。好吧。攻击它,然后我们就离开这里。我只想为亚当·贝克的新书《永远更多的一切》大声疾呼,这本书深入探讨了末日论思想与这些思想之间的联系。
更令人愉悦的方面,即所谓的有效利他主义。同样在这种情况下,蒂姆尼特·吉布鲁和埃米尔·托雷斯有一篇精彩的论文,他们称之为塔斯克雷尔意识形态捆绑。我认为,如果你对系统的担忧不是根植于
现实生活中的人们、现实中的社区和正在发生的事情,例如,哦,但是坏人可以使用它来更快地设计病毒之类的东西。这仍然是推测性的。对。所以每当我们转移焦点时,它就像,发生了什么吗?对。这仍然是人们为自己创作科幻小说同人作品。
而且,你知道的,它不是基于对技术能力的夸大想法,而是将焦点从现在正在发生的实际危害中转移开来,包括我们一开始提到的环境问题。对。但是是的,我的意思是,我会的。我会说病毒。对。你想领先一步。对。就像我们在社交媒体上一样,社交媒体有一些问题。但是其中一些没有关注一些长期问题。这至少在开始时才出现。
你不同意。说等等。社交媒体肯定有问题。是的。其中一些问题在早期就被记录和解释过,人们没有注意。但它们是正在记录的真实问题,而不是关于,嗯,有人会用这个,邪恶博士会制造一个坏病毒的想象。
是的。继续,亚历克斯。为了节省时间,我认为这样就可以了。我没有太多要补充的。好吧。这本书名为《AI骗局:如何对抗大型科技公司的炒作并创造我们想要未来》。作者是艾米丽·M·本德和亚历克斯·汉娜。艾米丽和亚历克斯,我长期以来一直在阅读你们的作品,我很高兴有机会与你们交谈,就像我在开头说的那样。
你知道,对于那些正在收听或观看的人来说,你可能不会同意我所说的每一件事,我们的客人所说的每一件事,嘿,至少你现在知道这些论点,你知道赞成和反对的论点,我们相信你会自己做出判断并进行进一步的研究,我们在这段对话中肯定有很多好东西可以继续深入研究,在谈话过程中大声喊出来,所以艾米丽和亚历克斯,很高兴见到你们,非常感谢你们加入节目,感谢你们的谈话,享受巴黎,谢谢亚历克斯,玩得开心
谢谢你们两位。感谢大家收听。我们将在周五进行新闻回顾。在那之前,我们下次再见,在大科技播客上。