We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Measurement in AI Policy: Opportunities and Challenges

Measurement in AI Policy: Opportunities and Challenges

2020/10/20
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
J
Jack Clark
R
Ray Perrault
Topics
Jack Clark: AI系统的评估类似于一个被遮盖的物体,需要多种测量方法来全面了解。AI评估已从单一指标转向多指标测试套件,但AI系统正在达到甚至超越这些测试的性能,需要更高级的测试方法。学术界对AI伦理的关注度日益提高,但在主要会议上却鲜有涉及,这可能是因为学术激励机制、跨学科合作的不足以及团队多样性缺乏等原因。将伦理作为一项服务可能会阻碍组织内部关于伦理问题的讨论和文化变革;政府在AI伦理领域的投资不足,使得AI研究人员需要更多地关注伦理问题。AI Index项目旨在通过创建详细的报告,推动政府对AI的测量和评估,最终目标是建立大规模的系统性评估体系。 Ray Perrault: AI测量的挑战在于两个方面:一是定义AI,即什么是AI,什么不是AI;二是测量所有与AI相关的内容,包括科学研究、技术发展、投资方向等。仅仅依靠关键词来定义AI是不够的,因为AI领域的界限模糊,关键词难以准确捕捉AI的全部内容。AI的定义挑战在于区分AI基础技术的开发和其在特定领域的应用,以及AI与其他学科(如统计学)的界限。衡量政府对AI的投资存在挑战,因为AI的定义模糊,且政府的支出数据来源分散,难以进行准确的比较分析。解决AI伦理问题需要全面的变革,包括学术界、工业界和政府部门的共同努力;伦理问题应该在AI系统的设计阶段就予以考虑,而不是作为事后补救措施。 Sharon: AI的定义和评估是一个持续的挑战,需要考虑人类因素、社会影响以及不同应用场景。

Deep Dive

Chapters
The discussion explores the challenges of defining AI and the importance of creating holistic measurement schemes to understand AI technology comprehensively.

Shownotes Transcript

<context>AI政策中的测量:机遇与挑战

订阅:RSS | iTunes | Spotify | YouTube

主题:深思熟虑 Kevin MacLeod (incompetech.com)

<raw_text>0 大家好,欢迎收听Skynet Today的《让我们谈谈AI》播客,在这里你可以听到AI研究人员关于AI实际情况和那些只是点击诱饵标题的讨论。我们每周发布AI新闻报道,并偶尔进行采访,比如今天。我是Sharon,机器学习组的四年级博士生,由Andrew Ng指导,也是本集的主持人。

在这一特别的采访集中,我们将听到几位最近发表的论文《AI政策中的测量:机遇与挑战》的作者的声音。他们是Jack Clark和Ray Perreault。Jack和Ray是斯坦福大学人本中心AI研究所(HAI)下的AI指数项目指导委员会的共同主席。非常感谢Jack和Ray加入我们这一集。很高兴来到这里。谢谢。

谢谢。是的,很高兴能在这里出现。太棒了。所以我们这里的重点将是你们的文章《AI政策中的测量:机遇与挑战》,这篇文章刚刚在上个月发布,基于近一年前在斯坦福HAI举行的AI指数研讨会。

我特别关注这项工作,因为它涉及评估,而这正是我论文的重点,这让我思考这涵盖了多少内容,以及评估如何定义一个领域的进展,决定使用的安全性等。因此,在我们深入任何细节之前,不如让你们俩快速提供一下文章的高层次总结及其结论?

是的,我会给你一个我用来说明这项工作的例子。我认为对AI系统的描述有点像描述一个隐藏在某种厚布下的物体。每个触摸这个物体的人在不同的点上都会对这个物体及其功能有不同的解释。

现在,这个研讨会的目的是聚集数十位世界顶尖的AI系统开发和测量专家,看看我们是否可以共同讨论我们尝试测量同一对象(即这种AI技术)的所有不同方式,以及我们可以从中学到什么,以便

创建全面的测量方案,告诉研究人员、政策制定者和公众他们需要知道的内容。这将是一个非常具有挑战性和长期的问题。这篇论文试图做的就是列出所有这些独立专家认为需要测量的重要特征。

Ray,你有什么要补充的吗?是的,我认为这确实是正确的描述。也许再深入一点,我认为这个问题大致可以分为两个轴。第一个简单的问题是,什么是AI?也就是说,什么算作AI,什么不算?

我认为Jack关于这个被毯子覆盖的东西的描述非常好。弄清楚这个东西是什么非常困难。而这个东西是什么对第二个轴很重要,即如何测量与AI相关的所有内容?科学工作在哪里进行,谁在领先,投资来自哪里,

最重要的工作在哪里,等等。除非你对它们应该适用于什么有一些共识,否则你无法进行所有这些其他测量。所以这是大局。

我想定义像AI这样的东西可能会非常具有挑战性,尤其是当它在各种媒体中被炒作时。因此,基于这一点,在论文中你确实提到我们应该真实地描述某一领域的发展,在这样做时,重要的是不要过滤掉与我们的定义密切相关但也被捕捉到的信息。

Ray,你见过这样的例子吗?我认为Maria Klein,这篇特定论文的作者,试图表达的观点是,

试图通过列出一些关键词来解决什么是AI的问题,然后去科学出版物、专利、新公司的描述中寻找这些关键词是很诱人的。当你找到这些关键词的匹配时,你就完成了。

我认为Maria所说的是,这实际上是不够的,部分原因是塑造整个领域的困难,关键词往往效果不佳。

我认为有两种有趣的思考方式来看待这个问题的部分。第一是AI新基础技术的发展与其在特定领域的应用之间的区别。因此,如果你开发了良好的AI

物体识别技术,那当然算作AI。但是当你开始将其应用于医疗成像时,这些报告使用现在已成为医疗成像标准技术的论文出现在《柳叶刀》或《PNAS》或一些非AI期刊上——

那还算是AI出版物吗?显然,你会想说,是的,里面有AI,并且它展示了AI在某个重要事物上的应用,也许是AI在创造新产业中的作用。但这不一定是新算法的发展。

另一方面,AI借用了许多来自其他学科的概念,如统计学、优化、语言学。它们有很多很多。我认为在进行这些测量时,我们还必须小心,AI不会看起来像是接管了这些其他领域。

因为,统计学就是统计学,我的统计学朋友们不希望我认为他们都是AI人。所以,这是另一个挑战。这实际上是同样的挑战。我的意思是,那里是统计学应用于AI。而我谈到的第一件事是AI应用于医疗保健。它是,

对的。而且有趣的是,我确实在医学和AI领域工作。我想,有时在应用领域工作实际上会引发核心AI问题。有时

我认为可以说,计算机视觉和自然语言处理在某个时刻被视为应用,现在越来越多地被视为核心AI,而不仅仅是应用于某个特定领域。所以我认为,是的,我发现定义AI真的很有趣。它的范围有多大?也许我们所有人,如果我们只是在做哲学,因为这就是一切开始的地方。我不知道。是的。

好的。好的。

如果你能将AI定义为一个特定的设备,是否在某个应用中存在,那你真的会喜欢它。所以你查看医学中的某些东西,只需检查,它是否包含AI?这是一个二元检查。如果是这样,你就进入了新的监管制度。不幸的是,这是不可能的。

正如Ray提到的,AI是极其广泛的,它渗透到所有这些不同的领域。我认为我们在未来几年面临的一个挑战是,政策制定者希望定义AI,以便他们可以对其进行监管和限制。但作为一项技术,AI与所有这些其他领域有着极其广泛和模糊的边界。因此,从这个意义上说,定义它并不是一件容易的事。

绝对如此。也许我们可以将其定义为它不是的东西。我不知道。这让我想起GDPR和隐私。好吧,基于AI的定义,我还想谈谈指标以及如何评估AI。因此,给定一个定义,也许是一些模糊边界的工作定义,

确实存在权衡,你在论文中提到过,专注于单一指标来衡量模型性能与多样化指标来评估系统能力之间的权衡。Jack,你想对此展开吗?当然。

是的。在最近几年,我们看到测量从单一测试转变为包含多种测试的套件。在自然语言处理领域,一个很好的例子是Glue,它是一组大约八种不同类型的自然语言理解和推理测试,你会让你的系统通过这些测试。现在,听众中的一些人可能知道,

Glue的雄心不足。它发布后,很快就出现了一系列新系统,我认为当时也包括GPT-2,得分相当高,这导致开发Glue的NYU团队开发了Super Glue,一个更大的测试套件。这是因为他们正在处理AI系统可以...

正在饱和单一基准测试,甚至开始饱和多测试基准测试的问题。因此,我们正在进入的这个时代似乎不再那么重要拥有一个完美的单一测试,而是更重要的是以多种不同的方式使用多种不同的方法进行测试。

我会注意到的一点,感觉非常不寻常的是,我们也进入了一个时代,人类基准已经从一个高度理想化的目标,试图让你的系统接近它,变成一个你可以期待在某种意义上实际存在的东西。

在某种意义上与一些当代系统相匹配,这感觉非常奇怪,因为如果你在某种狭义的意义上比人类更好,那么我们作为人类就很难开发出更先进的测试方法。

确实如此。而且人类水平已经被重新定义多次。是的,正如我们所知,ImageNet人类水平的基准实际上是Andrej Karpovi坐在那里进行自我测试。这已经成为AI领域在图像识别方面的人类表现基准。无意冒犯Andrej,但他可能并不代表

在这个意义上所有人类。我想他对狗的品种了解得比我多。我可以让他为我在狗品种分类方面发言。嗯,

好的。还有一个我想讨论的关注点是你在文章中提到的AI人才流失问题。我对此非常好奇,因为我在学术界,见证了人才流失。

人才流失到大型私营公司。赵金研究了美国AI教授和教职员工的流动情况,并表示这一现象自2010年以来呈指数增长,并将减少未来AI企业家的数量。我很好奇为什么会这样。所以我不知道...我脑海中没有实际数字,但显然,

AI在工业中的部署导致商业部门需要更多的人才。当然,最优秀的人往往在大学,他们在大学的薪水合理,但并不夸张。

因此,他们获得这些高薪行业工作的机会是很有吸引力的。

显然,这意味着培养下一代的人才会减少,顶尖人才也会减少。因此,我猜测我现在不在大学,所以我没有每天经历这种现象,但这导致大学在

如何让他们的员工花时间上做出调整。过去,学者们可以每周花一天时间做项目。这个数字现在不再现实。

但我认为我们也看到一些学者干脆离开大学,因为他们可以转向一份全职工作,以不同的方式获得满足感。

但这很危险,我老实说不知道该如何处理这个问题。我们不能通过说获得博士学位只需要三年就来解决这个问题,尽管我知道很多研究生会喜欢这样。但这确实是一个大挑战。

我可能正在尝试在三年半内完成我的学业。所以我们拭目以待。这让我想,是否会出现你所看到的人口倒金字塔的现象?但仍然有很多学生进入,但只是他们不会得到同样的培训,然后每个人都必须通过Coursera获得培训?教育是一个行业,我使用“行业”这个词,

在经济意义上,生产力没有太大改善,因为它本质上是人对人的。因此,这可能迫使...

教育系统在如何提供其产品方面变得更加高效。当然,这并不是一个新想法,但

你感觉这种压力可能会朝那个方向发展。现在,另一个方面是,这并不是教育中的每个学科。我们现在谈论的是AI。我们甚至没有谈论计算机科学的所有领域。所以我们得看看会发生什么。是的。

好的。谢谢。稍微转变一下话题,关于伦理,我确实想多谈一点,或者希望多谈一点。所以在论文中,你确实提到,尽管研究人员对探索其领域的伦理维度的兴趣日益增长,但这一主题在主要会议记录中缺席,仅限于小型研讨会。

我的问题是,你认为这是为什么?我也确实观察到了这一点。这是一个非常真实的陈述。你认为这是因为很难纳入,还是研究人员不知道如何做,或者仍然没有放在心上?Jack,你想先回答吗?是的,有几件事情似乎相关。一个是学术界的激励结构似乎并不偏向于那种跨学科的工作,

这让你能够广泛探索该技术的伦理影响。但我会和技术研究人员交谈,他们会告诉我,他们的顾问告诉他们,你应该完成这些非常专业的技术成就论文。而其他的,可能与政策相关的东西或与伦理相关的东西很好,但这不是能让你获得终身教职的事情。我认为这在某种程度上是正确的。此外,

我相信在进行这种工作的团队中需要更多的多样性。因此,代表我自己在OpenAI的情况,你知道,我和我领导的政策团队的成员与我们的技术同事在GPT-3论文上做了很多工作,我们在与他们的合作中进行偏见和其他方面的机器学习实验。

我想我的观察是,我们很幸运,因为我们有资源让更多具有伦理专业知识的人,他们受过技术训练,可以与技术人员合作。我认为对于技术人员来说,如果他们只是被期望独自完成这些工作,他们不会感到很有能力,并且没有环境告诉他们,像,你绝对应该花时间在这方面变得优秀。是的。

我想知道,Sharon,你是否有自己的经验可以补充。我很想听听你对此的看法。是的。所以这确实与我熟悉的博士项目中的情绪相符,我的朋友们也有类似的经历,以及我自己的经历。确实,为了使论文有效,你需要...

某些工作符合一个狭窄的主题。你的阅读委员会会非常希望这个主题非常狭窄。我确实有超出这个范围的工作。实际上,我认为我大部分的工作都在这个狭窄范围之外。但我认为我很幸运被允许拥有这种自由。并且这确实受到了一些人的轻视。所以我认为

但也有一些人对我在社会公益方面的工作表示赞赏,因此我喜欢在气候、医学、最近的“黑人的命也是命”运动等应用方面工作,我感到非常有必要参与其中。这些工作不一定是出版物,有时是,或者它们不是在机器学习场所的出版物。我们为我们的医学...

学校的教职员工合作者做的工作,如果能在他们的场所发表,会产生更大的影响,例如,你知道,这仍然在研究领域内,但风格非常不同。嗯,是的,我认为,我真的希望它会转变。我确实怀疑这种转变实际上基于我在斯坦福看到的,

可能会首先发生在初级层面,然后在更高级别上获得终身教职时。因为我开始看到博士项目中有人提出不同的想法,比如将服务元素作为斯坦福博士学位的一部分要求。这只是被提议的,还没有确认。

但诸如此类的事情,开始着眼于,嘿,伦理实际上不是一个单独的事情。它应该与您的工作交织在一起。作为工程师、作为研究人员,你有责任考虑这一点,并对你所做的工作负责。这让我想起,我不知道你们两位对此是否有想法,嗯,

我认为谷歌将伦理视为一种服务,或者谈论伦理作为服务,我认为这是一个利弊兼具的事情。基本上,我认为这是一个很好的想法,尤其是对于那些真的没有考虑到这一点的人,他们确实应该以某种方式纳入它,并且需要轻松地纳入它。但另一方面,是否真的应该这样将其分离?你知道,是否真的应该将其作为一个单独的服务?

单独的实体,而不必考虑。你可以将其作为服务直接购买。我在这里有一个有争议的观点,但也许你可以先发表意见Ray。否则,我会把它交给你。我喜欢这个。我喜欢这个。

我是一个有争议的亿万富翁,所以我会让你先说。我对此有几点看法。首先,任何影响人们职业生涯的事情都必须现在解决。

在各个方面,大学决定授予博士学位,其中一半的工作是伦理,另一半是更技术性的工作,期望他们的毕业生在更关注技术工作而不是伦理工作的学校找到工作,这是行不通的。我的意思是,所有这些都必须同时改变。我是说,有很多这样的例子。我最喜欢的之一是AI领域的整个出版制度。

计算机科学和会议的主导地位。但你不能改变其中的一些事情,除非每个人都同意,或者逐渐同意应该这样。

关于伦理作为服务的另一件事让我想起了网络安全作为服务。你不能建立一个安全的系统,除非你从一开始就将安全性构建进去。它必须是设计考虑,而不是在最后加上的东西。

我怀疑伦理也是如此。它贯穿整个项目。

有很多网络安全初创公司。我开玩笑的。好的。你是否担心伦理的习惯形成元素,类似于安全性,感觉相当基础?就像你在组织中进行客观工作时,你也在本质上创造了与那些不做伦理工作的人之间的社会联系,这导致人们彼此交谈,甚至在

疫情期间,我与技术同事进行Zoom通话,讨论一些棘手的伦理问题。我认为如果你只是将其作为服务购买,那么进行这些对话将会更加困难。因此,我认为你的文化不会真正朝着伦理重要的方向更新,因为伦理只是你购买的商品,没有人际关系和人类在其背后。在我有争议的观点中,

我认为,由于AI最近才开始有大规模应用,人们显然对其伦理问题非常关注,尤其是年轻人,他们意识到自己在这项技术及其可能产生的影响方面的主动性,部分原因是它极其在线,就像我们许多人一样。但

从根本上说,政府在这个领域的投资不足。AI政策空间如此混乱的原因之一是,你进入时假设政府在更广泛的领域有更多的工作正在进行。

这是因为我认为AI的出现如此迅速,以至于政府中相对缓慢的基础设施尚未更新。我是说,我在美国的背景下跟踪预算,我们在论文中讨论了跟踪预算。但你从中学到的是

许多技术人员假设有某个装备精良的监管机构来提供帮助。但在大多数西方国家,由于投资不足,情况并非如此。因此,我认为...

这在背景中潜伏,是我觉得将伦理更多地融入本科和研究生AI教育的紧迫性之一,因为这些人将需要自己去做。他们在未来几年内不会有太多政府合作伙伴,因为政府需要赶上。

我实际上并不觉得这太有争议。我有一个甚至可能更激烈的评论。我认为,好的,这很激烈,而且这是录音的。所以,我意识到。我认为我们需要,我认为几乎像评估指标一样,关于这一点,让人们理解和关心伦理的是,我希望看到更多的AI研究人员更喜欢人类而不是AI。好的,这有点激烈,这确实暗示我认为大多数人并非如此。我本来要说,这听起来,你知道,这是一种非常有争议的说法,对于AI外部的人来说,他们觉得听起来相当有趣。是的。

是的。这确实引起共鸣。我认为,正如我们所说,测量的一个问题是,当你达到这些社会技术系统时,你需要测量影响、与人类的互动、它们如何对待人类行为等方面。这些事情都感觉非常重要,并且在核心AI社区中研究不足。这其中的一些正在改变。

对,确实如此。不幸的是,确实存在一些对伦理的“沙发式关心”。我认为你在论文中提到过这一点。因此,一个例子是...

在这一领域的失败是最近的揭露,尽管人行道实验室是谷歌的子公司。我只想说,我有朋友,他们很棒,他们做着很好的工作。但他们也像许多团体一样搞砸了,他们举行了一次土著咨询研讨会,

而这次咨询研讨会产生的14条建议中没有一条被纳入最终的1500页报告。这让他们进行咨询的土著人民非常不满,因为他们意识到,哦,你只是走过场。这浪费了他们的时间。是的,确实如此。我认为...

我想回到这种专注于伦理和政策的团队的想法,作为具有技术能力的混合团队,而不是外部团队。因为,我只是在OpenAI的例子中说,OpenAI的每个人基本上都能相处。我们是一个足够小的组织,但我们都彼此认识。但这仍然是...

复杂的去要求另一个技术团队进行某种类型的伦理评估或研究,但如果你带着一张图表,分析人类对新闻的敏感性或你模型中偏见的展示方面,那么就变得非常明确,你们都应该一起工作,因为你把它变成了一个

技术工件。我并不是说我的队友不能理解伦理,如果它不是以技术形式呈现。但我确实注意到,如果你为其他人消除了认知负担,组织中的其他人需要考虑这一点,那么将其融入政策和行为的实际变化就变得非常容易。

因此,我对伦理观察的猜测是,这些通常是由那些没有能力将任何见解转化为能够激励一些工程师的公共关系活动,这些工程师通常做出许多关于产品的最重要决策。

是的,听起来你们彼此妥协。在这种情况下,你们在某种程度上说着他们的语言。是的,确实如此。这在某种意义上是安全的,因为你就像,我们没有,知道我们有所有这些模糊的东西,很难思考,争议和复杂。但我们已经将其转化为一些看起来与我们在这里工作的日常材料完全相同的东西。讨论它会更容易,而不必觉得你在讨论某个大事情,如果这有意义的话。对,确实如此。你不仅仅是在要求他们冥想亚里士多德。你在说,这些是具体的事情。我实际上认为,这听起来是一个非常好的方向。我在我的跨学科工作中看到很多这样的情况,不一定是与那些精通政策或伦理的人,而是在医学领域,彼此妥协,他们

哇,一些医生真的比我想象的更进一步。你正在编写代码。我开始能够检测癌细菌和肺炎。这很奇怪。我并没有那么好。请不要。

让我真正做到这一点,只有在嘈杂的训练数据中。所以我认为,是的,我认为彼此妥协并参与,开放于这些讨论和学习是非常重要的。那么我们如何...

如何将Jack的做法复制到其他组织中?我的一个建议是去他们那里工作。我只想强调几件事情。许多人对此很熟悉,但在谷歌,有Timnit Gebru、Margaret Mitchell等许多人。但我只提到这两位,因为他们都做了如此突出的工作。

他们正在从组织内部影响许多变化,因为他们是技术人员,并且进行技术研究。我们也用伦理的视角来框架它。我们进行很多合作。我认为有很多这样的例子。

<context>AI政策中的测量:机遇与挑战

订阅:RSS | iTunes | Spotify | YouTube

主题:深思熟虑 Kevin MacLeod (incompetech.com)

<raw_text>0 我给那些问我如何做这件事的人建议是,我会说,你需要愿意在雇佣你的组织中有点疯狂。你需要愿意稍微推动一下,因为对组织来说,如何做到这一点并不明显。但通常你可以通过指出以下几点来说服组织:

媒体运作的方式正在改变,媒体中权力的运作方式正在从记者转向实际上推动大量话语的AI研究人员。因此,避免糟糕公关的最佳方法是,你现在需要在伦理方面做非常详细的技术工作,因为否则他们会抓住你的把柄。所以这有更多的负面激励,但这在大公司中可以很好地发挥作用。我的意思是,如果你不小心,这些事情可能会导致灾难,对吧?是的。

是的。Ray,你想推测一下发生过的事情吗?我很想听听这些。我认为有些……那个初创公司因为想要对性别进行分类而完全被摧毁的是什么?那个从文本中识别性别的。是的,那是个坏主意。自我毁灭。好吧,还有其他的推测吗?

好的。转到另一个话题,也许Ray可以谈谈。你提到研究人员应该使用多个数据来源来交叉参考和分析政府在AI上的支出。我对此非常感兴趣。

听听如何表征和衡量政府在这个领域的支出或资金,因为他们对不仅仅是美国政府,而是世界各国政府在这个定义不清的领域越来越感兴趣。我们如何衡量他们的AI投资?在美国这是一个难题,我认为在其他地方也是一个难题。

当然,为什么这是一个难题的第一个原因是,什么是AI的根本问题。所以一个……

另一个相关的例子是国家安全委员会在其最后一组建议中提议,美国政府应该在某段时间内花费大约20亿美元。

支持AI,其中一半显然是任何在这个电话中人所称的AI。但另一半,合理地说,是支持高性能计算的发展。

理由是所有这些新奇的AI东西需要大量的计算,如果要正确部署,我们也需要改善这一点。

所以如果你简单地看,然后,你知道,问题是,如果你在一组支出数字中看到包括10亿美元用于高性能计算,你会称之为AI支出吗?对吧。

你知道,你可以朝一个方向或另一个方向争论,但如果你不明确说明,结果将会非常误导。

所以我认为,从中得出的教训是,仅仅说我们在AI上花了X并不是一个足够好的答案。你必须将其分解成几个部分,并确保—

人们可以,分析师可以选择他们认为与他们的AI观点相关的部分并将其纳入,而不一定包括所有其他部分,并尽量避免重复计算。

因为从中得出的另一个问题是,你知道,假设那10亿美元用于高性能计算,最终被AI人员计算,因为它来自那个资金池。但高性能计算的人看着它说,哦,它属于我们。他们把它放在他们的资金池中。然后你把这些资金池加起来,结果却不相符。所以重复计算是需要关注的一个问题。

但另一个部分是信息来源。全球出版物的好处在于,它们基本上大多出现在像Google Scholar或Microsoft Academic这样的单一数据库中。无论它们来自哪里,它们都会在那里,你可以找到它们。但拨款或...

在DARPA项目下的奖项不会出现在单独的地方。它们在相当具体的、在这种情况下是国家特定的数据库中。如果你要进行任何比较,你真的必须去找出这些在世界各地的位置,

而且没有人做过这件事。然后你必须切割和分类,看看哪些与AI相关,哪些不相关。所以我认为我们离这个目标还有很长的路要走。而现在的替代方案主要是通过查看预算数字。

这些数字很棘手,因为一方面,它们掩盖了许多罪恶,并且这些资金可能并没有按照预期的方式支出。所以你真的需要查看资金实际支出的位置,而不是某些预算文件所说的支出位置。

这也使情况变得复杂。因此,在这个领域,需要付出巨大的努力,以获得可靠的苹果对苹果的数字。对。哇。所以资金被花在了不该花的地方。对吧。

真是个惊喜。不,我在开玩笑。欢迎来到大型政府预算语言。是的,正是我所想的。关于高性能计算的快速问题。我立刻想到的是GPU,NVIDIA,但我想这也可以涵盖更广泛的类别,而这些类别与AI并不重叠。它们有很好的用途。是的。

玩你的电子游戏。我是说,还有什么比这更好的用途呢?所以你……但它们是多用途的。这些都是多用途技术,跨越它们进行切割和分类是,知道,这必须完成,但这并不容易。

而且感觉就像,你知道,是的,一个用于AI的超级计算机,其中一些将会被建造。有人可以争辩说,谷歌的TPU集群是一个用于AI的超级计算机。但正如Ray所指出的,这与许多政府传统上使用的超级计算机非常不同,因为……

如果我所做的是刺激核武器库存及其退化,提醒一下,这是美国和其他核武器国家大多数超级计算机的用途,我现在需要一种不同的系统,因为我们尚未对整个领域进行大规模的深度神经函数近似。我们做了很多非常非常具体的结构化编程,这需要线性执行而不是大规模并行化。

因此,它们看起来不同。与政府谈论这个问题有点挑战,因为政府听到计算时,他们就会说,这是高性能计算。超越这一点再次是一个问题。

我认为如果你看看像Dawn Bench或MLPerf这样的东西,一些由大学和公司支持的测量倡议,这将有助于创建政府最终可以在自己的高性能计算硬件上运行的测试。这些测试将帮助政府更真实地理解事物。

是的,绝对如此。还有什么其他你想在论文中提到的吗?否则,我们也可以,我知道我们聊过稍微退后一点,谈谈这些的性能指标在未来的更广泛的应用。我想我们只想说,尽管我们在和你谈话,但这篇论文之所以能够完成,是因为,超过100人来到斯坦福。确实。

并花时间进行演讲。因此,我们在这里所说的任何内容,实际上我们代表的是参加会议的另一位专家的观点。但我只是想在这里给予认可,因为这是许多人付出的巨大努力。此外,Saurabh Mishra,他与Ray和我一起在索引上工作,并参与了论文。他在这里做了大量的工作,也应该得到认可。

哇,所有人都做得很棒。而且还要总结和规范所有这些,因为我知道事情在互联网上作为录制的会议可能会丢失。是的,带有不完美的字幕。正在进行中的工作。

那么,当谈到定义AI的未来以及以某种方式评估和量化它时,您们两位脑海中有什么想法,以便它对比我们社区更广泛的受众有用?其中一个重要的事情,我之前提到的人类基线的内容是,如果你看看现在合成生成图像的质量,我们绝对处于一个领域,

我们使用的现有测量方法,如Freccia和inception距离等,实际上并不……我们知道它们与我们作为人类直观识别的后续生成图像并不真正相关。我们知道有更先进的东西在发生,但我们的测量方法今天并没有真正显示出来。我认为这在...

像GPT-2到GPT-3这样的模型中也是如此,文本变得更加连贯,主观定性解释更强。但我们将要进行的许多测试可能不会显示出主观上看起来的巨大差异。因此,我们在AI Index中处理的一个问题是,我们如何将这些进展进行上下文化?一个想法是展示来自不同生成模型的图像随时间变化,展示文本样本,展示

当然,我们必须有更复杂的方法来做到这一点。这是我正在思考的一个挑战。是的,这是一个巨大的挑战,而且...

实际上可能构成我论文的基础。如果你能快点,那对我来说太好了。不,我已经发布的一篇名为Hype的文章。但基本上,其前提是使用众包和人类直接作为黄金标准。但有趣的是,在那里简要提到的学习效应是,

如果你从未见过生成的图像,你可能会认为它看起来相当真实。但如果你开始看越来越多的图像,你会开始注意到

奇怪的细节和,知道,特征标志。那么在什么层面上,所以就像,好的,太好了。我们可以众包这个,但那么谁有资格来评估这个?这个会议的生态有效性是什么?抱歉,这是一个技术术语。你会在什么上下文中看到这个?你会在开车经过时在广告牌上看到这个,还是在好莱坞屏幕上盯着它?

你在哪里看到这个,在哪种上下文中?是的,所以我认为这确实也促使了,哦,我们作为人类也在进化,因为我们看某些媒体和某些内容。因此,这就是为什么我想人类水平的定义会改变,但确实。

但这不仅仅是跨所有人类的,人类水平。它是在社会中,但也在个体内部。我自己也看到变化。即使是为我们标记图像的医生,实际上也会改变。

她自己在癌症分割上会有不同的看法。我只是想,哦,这既令人害怕,又非常有趣。是的,上下文,我想,上下文和时间以及你之前看到的东西真的很重要。我的意思是,这也是训练。

你知道,每个人都在与Mechanical Turk或其他地方的众包工人合作,但我认为你已经看到一些团体转向他们自己的工人池。我们自己在OpenAI开始使用承包商,以便我们可以定期与他们在Slack频道中交谈,并与他们进行校准,了解他们如何评估,在我们的案例中,文本的摘要,因为知道它是否好或不好有点微妙。我可以想象...

在大量情况下需要进行训练,以便以越来越细致的方式区分这些系统,这似乎是一个潜在的巨额经济支出,我认为这不会花太长时间。我记得,当我第一次开始查看生成的资金

肖像时,有人指出你要查看六个方面,天哪,背景,牙齿是否对齐,耳朵是否在两侧相同。我是说,有几个方面会影响很多照片。所以,是的,

然后我相信你会到达一个阶段,事情变得更加微妙。对。并且有趣的是,考虑到,

好的,事情是微妙的,但我们仍然可以检测到它们。我们知道它们是假的。但即使它们是假的,它们也以某种方式跨越了不安的谷底,仍然可以产生某种影响。Jack,我在你的博客上看到过这个,顺便说一下,大家都应该订阅Import AI。但基本上,深度伪造用于各种,我想,政治运动,但还有一个...

一个男孩基本上被复活为深度伪造,父母以某种方式给予了同意。对吧。并且,

你知道这是假的,对吧?我们常常问的问题是,哦,不,我们能否检测到它是假的还是现实的?好吧,他们出来说这是假的,但显然还有一个关于同意的问题。总是有同意,还有社会效应。我不知道你是否记得几年前,

在家人的同意下,图帕克在我认为是Coachella的地方以全息图的形式复活。你可以在网上观看这些视频,死去的虚拟图帕克出现在舞台上,演唱几首歌,所有人都完全疯狂,就像这是一场真正的表演,有一个真实的人。我认为,这与我们之前讨论的内容有关,测量...

社会变化如何开始发生,似乎是一个我们尚未真正解决的微妙问题。这是我们在Index中讨论的一个问题。我相信这是斯坦福等地方讨论的问题。但这些东西,即使它们有点愚蠢,或者在图帕克的情况下,显然是一个全息图,或者在这个孩子的情况下,显然是CGI,它仍然会影响人们,他们会与这些东西建立情感关系。

由他们的上下文驱动。绝对如此。我们该怎么办?哦,亲爱的。Jack,不仅仅是指出问题,答案,请。解决方案。不,我在开玩笑。我的意思是,我们正在做的一件事是...

我们做这个索引,因为这是我们,Ray和我都有日常工作。我们在业余时间花了很多时间在这上面,因为如果我们原型化测量和评估AI技术的方法,比如在索引中,这将创造更多的竞争,让更多的组织来做这件事,这已经发生了。但这也将帮助我们

让更多的政府人员开始思考测量问题,开始与我们交谈。我认为宏伟的目标是,你希望在索引中原型化的东西,最终由政府在大规模系统化的基础上完成。我们如何到达那里是通过创建这些越来越详细的,我们希望是好的报告,帮助人们思考这个问题,并以这种方式创造证据。