We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Boston Dynamics, DeepFake Amazon Workers, Systematic Labeling Errors

2021/4/11

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Andrey Kronikov

Daniel Bashir

Sharon

国际仲裁专家，擅长复杂争端解决。

Topics

Daniel Bashir: 本周的AI新闻包括波士顿动力公司发布的新型机器人Stretch，旨在提高物流效率；OpenAI CEO Sam Altman预测AI将在十年内创造足够的财富，每年向每个美国成年人支付13500美元，但这引发了关于权力集中和社会不平等的担忧；MIT的一项研究发现，最常用的十大AI数据集存在大量的标签错误，这扭曲了对该领域进展的理解；一项研究发现，最先进的自动语音识别系统难以识别某些地区的人的口音，这表明存在偏见。 Andrey Kronikov: Google AI研究经理Samy Bengio辞职，这与Google此前解雇两名伦理AI团队领导者有关，这反映了Google在处理伦理AI问题上的困境。60分钟的视频报道了波士顿动力公司的机器人技术，展示了其机器人的各种能力，包括Atlas和Spot。关于Sam Altman的普遍基本收入预测，其文章内容与标题有所出入，实际上建议通过对公司和土地征税来资助普遍基本收入。 Sharon: Samy Bengio在Timnit Gebru被解雇时并不知情，这表明Google内部沟通不畅，以及对伦理问题的漠视。Samy Bengio的离职凸显了Google在伦理AI方面的问题，并可能导致更多人才流失。在亚马逊工会投票前夕，出现了一些使用深度伪造照片的Twitter机器人账号，发布了对亚马逊的赞美之词，这引发了人们对虚假信息和网络宣传的担忧。大型模型参数更多，更容易记住数据，包括错误的数据，因此泛化能力可能较差。数据集的创建对于AI模型的性能至关重要，数据集中的偏差和错误都会影响模型的公平性和准确性。虽然众包技术有所改进，但并非所有研究人员都采用最佳实践，这导致数据集质量参差不齐。

Deep Dive

Chapters

This chapter covers recent developments in AI, including new robots from Boston Dynamics, universal basic income predictions by OpenAI's CEO, systematic labeling errors in AI datasets, and biases in speech recognition systems.

Shownotes Transcript

您好，欢迎收听Sky News Today的Let's Talk AI播客，在这里您可以听到AI研究人员关于AI的实际情况以及哪些只是耸人听闻的标题。这是我们最新的“AI上周回顾”节目，您可以在其中快速了解上周的AI新闻，以及两位AI研究人员对这些新闻的一些讨论。

首先，我们将把时间交给Daniel Bashir来总结上周AI领域发生的事情。我们将在几分钟后回来，更深入地探讨这些故事并发表我们的看法。您好，这里是Daniel Bashir，为您带来每周新闻摘要。本周，我们将关注Boston Dynamics的新机器人、普遍基本收入、错误百出的数据集以及语音识别中的偏差。

Boston Dynamics凭借其专为在各种环境中工作而设计的机器人狗Spot而闻名。除了研究之外，该公司最近一直专注于物流。正如The Verge报道的那样，该实验室于3月29日发布了一款名为Stretch的新型机器人。Stretch并非固定在一个地方，其工作流程围绕其展开，而是旨在融入现有工作场所，装卸货物。

据波士顿动力公司业务发展副总裁Michael Perry介绍，这款机器人可以让实验室将目标客户扩展到那些认为自动化成本过高或集成耗时过长的客户。波士顿动力公司声称，Stretch每小时可以搬运多达800箱货物，与人工员工的吞吐量相当。

如果您一直在关注最近的政治辩论，您可能已经注意到，普遍基本收入以及类似的帮助人们应对自动化导致的失业机制的提及次数有所增加。CNBC报道称，OpenAI首席执行官Sam Altman在最近的一篇博客文章中写道，十年内，人工智能可以创造足够的财富，每年向美国每位成年人支付13500美元。

但批评人士担心，Altman对这种潜在未来的看法可能会造成损害，因为它设想了一个所有非人工智能公司都被淘汰，甚至OpenAI收入的一小部分就能为每个美国公民提供收入的世界。当然，这只是一篇博客文章，Altman的言论旨在引发讨论。

正如麻省理工学院技术评论报道的那样，麻省理工学院的一项新研究发现，十大被引用最多的AI数据集充斥着标签错误。鉴于我们根据标记数据评估机器学习模型的准确性，这无疑使得很难知道具有高准确性的模型是否真的在做我们希望它们做的事情。文章声称，“这正在扭曲我们对该领域进展的理解。”

由于AI中一些最重要的数据集，包括ImageNet，包含一些有问题的错误以及其他完全错误的数据，这可能对该领域产生一些重要的影响。

研究人员发现，在ImageNet上进行测量的34个模型中，那些在原始不正确标签上表现不佳的模型，一旦标签被纠正，就是一些表现最好的模型，并且简单的模型在纠正后的数据上似乎比更复杂的模型表现更好。

最后，阿姆斯特丹大学、荷兰癌症研究所和代尔夫特理工大学的一项新研究发现，即使是最先进的自动语音识别系统也难以识别来自世界某些地区的人的口音。正如VentureBeat报道的那样，他们发现，荷兰语ASR系统比其他系统更好地识别特定年龄段、性别和原籍国的说话者。

研究人员发现，无论说话风格如何，他们评估的ASR系统都比男性语音更可靠地识别女性语音，并且与年轻人相比，它难以识别老年人的语音。它也更容易检测到荷兰母语人士的语音，而不是非荷兰母语人士的语音。

研究人员指出，在某种程度上，不可能消除潜入数据集中的偏差，但一种解决方案可能是在算法层面减轻偏差。这就是本周新闻摘要的全部内容。敬请关注对近期事件的更深入讨论。感谢Daniel，欢迎各位听众回来。既然您已经听取了上周新闻的摘要，请随时留下，听取两位AI研究人员对这些新闻进行更轻松的讨论。

我是Andrey Kronikov，斯坦福大学视觉与学习实验室三年级的博士生。我主要专注于机器人操作和强化学习的学习算法。和我一起的是我的联合主持人。

嗨，我是Sharon。我是机器学习小组的四年级博士生，与Andrew Ng一起工作，并且已经成功答辩。我的研究主要集中在生成模型上，以及改进神经网络的泛化能力，并将机器学习应用于应对气候危机以及医学领域。是的，正如您提到的那样，我们已经暂停播客一段时间了，并且发生了很多令人兴奋的事情。所以也许您可以分享……

答辩是什么意思。你不是博士候选人，对吗？你完成了。

我完成了。我想在我获得足够的学分后，我几乎是博士毕业生了。但是，是的，我基本上完成了，这非常令人兴奋。所以答辩是你必须准备一把剑，你必须与你的委员会向你猛扑过来的所有蛇战斗。根据你作为博士生的好坏程度，

这决定了蛇的大小以及它的凶猛程度。好吧，说正经的，你做了一个演示文稿，然后他们用问题来拷问你，实际上这并不糟糕，你知道，就像一个私人房间。然后还有一个公开场合。而且

是的，它应该总结你整个博士生涯，真的。你谈论你的研究和故事，你以某种方式编织了一个故事。就是这样。然后它的书面形式就是你之后提交的论文。或者在我的情况下，我想我是在之前提交的。但是，是的，就是这样。

就是这样。我自由了。可以自由地进行其他与AI相关的活动。也许对你来说不再需要研究了，但你仍然是专家。所以你仍然适合联合主持这个播客。我的意思是，不必是博士生才能谈论它。对。

我期待着尽快进行答辩。嗯，也许一年内吧，你知道。这些事情需要四五年甚至六年的时间。所以博士是一个旅程。是的，这绝对是一个旅程。是的。好吧，恭喜你，Sharon。听到你的消息真是太令人兴奋了。

各位听众，我们很高兴回来，继续每周讨论AI新闻。首先，我们有第一条新闻，那就是谷歌AI研究经理在两位被解雇后辞职。所以这是关于Sammy Bengio，他是AI领域一个非常重要的人物。

他管理着谷歌大脑团队数百名研究人员，最近宣布他将不再留在谷歌。他将辞职，并将于4月28日离开公司，并将寻找其他机会。

这紧随谷歌动荡时期之后，当时其道德AI团队的两位领导人Timnit Jebru和Margaret Mitchell被解雇。首先，Jebru被臭名昭著地解雇了。两个月后，Margaret Mitchell在试图反击并

基本上批评领导层后也被解雇了。所有迹象似乎都表明，Samy Banjo一直在面试并考虑其他职位，现在由于这些事件而辞职了。这是一个大新闻。巨大的新闻，是的。

根据我内部听到的情况，这并不奇怪，因为他非常沮丧，而且当他们解雇Timnit时，他也感到措手不及。就像，直到Timnit问他为什么她被锁定了，他才知道。所以，是的，我认为在很多方面……

Sammy离开并不令人惊讶。他离开非常令人难过。它直接表明他们没有在做道德方面的工作。基本上，这个故事，这个传奇故事将继续下去，并且还会持续一段时间。我认为Margaret Mitchell确实提到了，你知道，它只会继续下去，继续下去，因为其他公司现在只是挖走了这些人，而且这些人很容易被挖走，你知道，就像。

是的，因为他们已经在四处观望了。因此，转移到另一家公司需要时间，所以这就是现在正在发生的事情。是的，这真的让你想知道谷歌大脑的招聘工作将如何进行。毫无疑问，他们仍然是更大的实验室之一，并且他们确实提供了很多好东西。但对于新毕业的博士生来说，我认为整个事件，即使你没有研究伦理……

也会让你质疑这是否是合适的公司，或者你是否应该选择现在可用的许多其他选择之一。对。没错。

好吧，让我们转向一个更令人高兴的话题。我们的下一篇文章标题为《波士顿动力公司的未来机器人》。我相信这实际上是《60分钟》的一个视频。它是关于波士顿动力公司及其机器人可以执行的所有疯狂的不同事情。

这包括可以奔跑、旋转和跳跃的人形机器人Atlas。它还可以自主做出一些机械决策，例如在被要求奔跑时保持平衡。

它还包括Spot，这是他们的机器人狗，可以四处移动。它可以爬过台阶、岩石，并且它也知道如何很好地保持平衡，这在机器人技术中一直是一个巨大的问题。所以它是一个非常令人印象深刻的机器人。它目前的市场价约为75000美元一台。警察部门显然正在使用它们来协助调查。

这是一个很好的视频。我相信在最后，他们还展示了跳舞机器人的视频，你可能已经看过了。但它很好地概述了波士顿动力公司。

没错。是的。波士顿动力公司有很多病毒式内容。我相信大多数听众都知道这家公司，但这是一种很好的小型纪录片，它更深入地介绍了公司的运营方式、这些机器人的工作原理以及它们的动力来源。我认为这可能会与人们的一些假设相矛盾，并可能使人们对这些机器人不那么害怕。

所以绝对值得一看。标题是《波士顿动力公司的未来机器人》。它可以在YouTube上免费观看。因此，如果您是机器人技术或波士顿动力的粉丝，您可以查看大量关于这些机器人及其制造者的镜头。

好的，到这里就结束了。让我们继续下一篇文章。硅谷领导人认为人工智能将资助现金补贴。

这是OpenAI首席执行官Sam Altman的预测，他在一篇评论文章中写道，在短短10年内，人工智能可以创造足够的财富，每年向美国每位成年人支付13500美元。这篇文章名为《摩尔定律适用于一切》。

其他人也做出了回应。例如，微软研究院的经济学家兼首席研究员Glenn Whale写道：“……这完美地体现了当今我认为最危险的力量——人工智能意识形态。”

另一位业内人士告诉CNBC，Altman设想了一个世界，在这个世界里，他和他的AI首席执行官同行将变得如此强大，以至于他们将所有雇佣员工的非AI公司都淘汰，并将所有美国工人推向失业。如此强大，OpenAI及其同行的收入百分比可以为每个美国公民提供普遍基本收入的资金。

是的，这就是总结。这主要不是很多硅谷领导人，尽管我认为很多人与这个话题有关。让我们讨论一下，Sharon。一点都没有夸大其词。是的，这让我想起了几十年来，人们一直在预测奇点，对吧？人工智能变得超级超级聪明，然后

我们拥有某种乌托邦。是的，这几乎就是这个想法，但重新表述了。我不知道你对奇点或这个具体问题有什么想法。

是的，我的意思是，如果他们真的能为普遍基本收入提供资金，我会很高兴的。但当然，这种权力集中通常对每个人来说都不是最好的，尤其是在全球化的今天。你可以看到你如何真正地看到，因为人们的幸福是相对的，对吧，对于他们周围的人来说。因此，如果你的财富和你看到的其他人的财富之间存在如此巨大的差距。嗯，因为全球化，因为互联网，很容易看到处于顶端的人。我认为Instagram非常这样做。因为这样一来，它不仅仅是在顶端，而且还经过过滤，就像某人生活中最好的东西一样。而且有时并不总是真实的。对。所以它就像非常经过Photoshop处理的。所以，嗯，

我不知道该如何看待这件事。我的意思是，我可以看到这些人变得非常富有，如果不是已经很富有了的话。我希望他们有仁慈的心肠。我同意这与过去的人们没有什么不同，也许就像石油巨头之类的行为方式一样。感觉是代际的。我不知道。老实说，我认为这并没有什么太大的区别。我认为信息时代的一个重要

一个重要的决定性因素是有趣的，那就是计算不是一种资源，就像你使用它后，它就消失了，就像石油一样。对。

所以它就像你可以再次使用它。你知道，它几乎是可回收的，可以说，你知道，贵金属在某种程度上是可回收的，但就像因为其他人也可以拥有它一样。但我认为这里还有其他一些东西，那就是你可以继续在同一台机器上泵送它。所以它与石油或类似的东西不同。所以，是的。是的，我认为阅读更多内容后，一件有趣的事情是

文章的标题有点误导性，因为文章的内容一开始就说，在10年内，你实际上可以……

改变税收结构，对公司和土地征税，而不是对劳动征税。是的，它说美国股权基金将通过对估值超过一定水平的公司每年征收其市场价值的2.5%的税收来进行资本化，以股份的形式支付给基金，并通过对所有私人持有的土地资产价值征收2.5%的税收来进行资本化。

所以，是的，实际上，这是一个相当直接的论点，即普遍基本收入将由税收支付。我想这篇文章的第一部分最终将使所有这些公司更有价值，因为它们可以做的事情。然后将会有更多的钱可以四处流通。

我绝对怀疑，你知道，嗯，人工智能将在10年内为普遍基本收入提供资金的预测。那是肯定的。所以我一开始就非常怀疑。嗯，但你的实际预测似乎更细致入微，而且，呃，

并不完全像它说的那样，但Sam Altman仍然对人工智能非常乐观。许多人怀疑人工智能不会像他预测的那样快，以及像OpenAI希望的那样快地发展。对，没错。是的。

好吧，让我们转向一个或多或少关于未来思考的事情，以及更多刚刚发生的事情。我们从《技术评论》获得的下一篇文章标题为《深度伪造的亚马逊员工在推特上制造混乱》。

好的。所以有一些深度伪造的，或者更确切地说是一些使用深度伪造照片来显得像真人，以及可能合成的文本的推特机器人，他们说，你知道，所有这些关于亚马逊的赞美之词。这是在亚马逊之前。

那次具有里程碑意义的投票可能会导致亚马逊仓库成立有史以来的第一个工会。所以当然，像杰夫·贝佐斯一样，他们不希望发生这种情况。他们不想要这个工会。而且，

该公司似乎部署了这些深度伪造的账户，这非常有趣。然后我认为人们开始注意到它了，因为它太明显了，它们是假的。再说一次，深度伪造的部分实际上只是个人资料图片，库存照片。所以你可以抓取任何库存图片，老实说。是的。

但是他们这样做的事实，以及他们做得如此，你知道，过分了，人们开始注意到它，并开始模仿它。所以它变得很有趣。我没有在推特上看到这个，因为正如我之前告诉安德烈的那样，我已经屏蔽了自己在推特上的账号，以便提高效率。但我不知道。安德烈，你看到它了吗？你对此有什么看法？

没有，我没有。我也没有在推特上非常活跃。你知道，这有点像时间陷阱，所以并不总是很有用。哦，真的吗？不，我在开玩笑。是的，这不是一个非常支持推特的播客。但这是一个有趣的故事。我们之前已经看到深度伪造的照片被用作个人资料图片几次了。

所以这表明存在某种趋势。这里需要注意的一点是，亚马逊告诉《纽约时报》，它并没有建立这些账户。调查此事的人员也对此进行了核实，这似乎不太可能。我认为这是有道理的，因为这将是……

对亚马逊来说，这显然是荒谬的。我的意思是，几年前他们已经有了这个与真人合作的项目，对吧？这也很搞笑，而且有这些，呃，模仿。所以再次使用人工智能来做这件事，嗯，可能不是最好的主意。嗯，是的。

是的，所以这是一个相当有趣的故事，显然没有造成任何严重的后果，但这可能是另一个迹象，表明我们应该担心，因为推特上有很多虚假信息和很多活动，而人工智能技术只会使这种情况在未来更加普遍。是的。

是的。这太愚蠢了。我，我，是的，无论如何，这看起来太荒谬了。不过，如果你们有派对账号，幽默的账号，我会很兴奋的，而且推特上有很多，你知道，有趣的AI机器人。所以，呃，我认为这绝对是人工智能力量更好的应用，呃，

推特也很有趣。你可以关注很多AI艺术家，我之前用过。哦，是的，这非常有趣。是的。所以是的，不要关注大公司。关注艺术家和创意人士，以获取AI的最佳应用。

最后，我们有一篇文章，麻省理工学院的研究发现流行的AI基准数据集存在系统性标签错误。在这篇麻省理工学院研究人员发表的新论文和网站中，对包括ImageNet在内的10个测试集、数据集进行了分析，

和其他流行的数据集，发现所有数据集的平均错误标签为3.4%。例如，ImageNet验证集中有2900个错误，而QuickDraw（一种众包）则有500万个错误。

这真的很糟糕，因为它可以提供一些视角，因为测试集是我们用来评估算法的方法。所以我们使用训练集来优化模型，并使用测试集来获得一个数字，说明它有多好。而且

是的，这使得许多论文的结果都值得怀疑。他们甚至表明，当你纠正标签错误时，大型模型的表现比小型模型差，因为大型模型反映了标签错误，而小型模型则没有。

我认为这并不奇怪。如果你要使用更多的参数，你可能会记住更多的数据，对吧？所以它不会……它可能不会很好地泛化，因为它实际上只是记住很多这些数据点，特别是如果很多数据点可能是不正确的。我认为这就像我们……

仍然在某种程度上依赖噪声，就像我们正在改进某些东西，但我们是在基于这个测试集的某些基准上进行改进，但测试集本身非常嘈杂，所以当一篇论文发表说它提高了1%时，我们真的在改进吗？你知道，如果它在不正确的东西上提高了1%，那太糟糕了，你知道

所以我认为这在AI中非常成问题，特别是我们非常信任，你知道，标签，你知道，标签数据。即使某些东西检查过一两次，仍然存在错误。就像人类很容易犯很多错误一样。所以对于医学数据集，我们将有，你知道，几位医生标记相同的东西。然后我们将对这些进行平均，以减少噪声。但是是的，

即使那样，仍然存在一些不正确的东西，可以说是。是的，没错。我认为如今数据集对于AI来说是如此重要，因此有更多这样的研究来真正检查数据集并仔细审查它们，并显示其中包含的内容，许多研究人员都认为这是理所当然的，这是一件好事。

好消息是，当你纠正错误时，所以在这里他们纠正了一个较小的数据集，并测量了在纠正后的数据集上训练和测试的AI模型，结果基本相同。

我觉得最近有一篇关于这方面的论文，内容与此类似。几年前有一篇非常类似的论文，讲述了他们如何获得另一个ImageNet数据集或另一个CIFAR数据集，他们以类似的方式编写了它。他们发现结果并不理想，但模型的排名仍然相同。

是的，我记得那篇论文，那篇论文非常有趣。那真的很有趣。我认为这与这些结果非常一致。是的。我认为那篇论文的名称类似于，计算机视觉模型是否可以从ImageNet转移到ImageNet，或者类似的东西？是的，类似于ImageNet模型是否可以泛化到ImageNet，诸如此类。它很刺激。它很好。那是一篇有趣的论文。是的。是的。

是的，所以是的，这更多地表明了数据集创建的重要性。我们过去讨论过，许多数据集存在偏差问题，并且某些类型的人不够多，这通常会导致模型对非白人人群表现较差。所以这是从另一个角度

来理解如何创建数据集的重要性。我认为，我的意思是，在某种程度上，这也不足为奇，因为这些标签，因为这些数据集如此庞大，都是众包的，这意味着它们并不完全可靠。我想

对于较新的数据集，人们可能能够更好地过滤掉问题，并且在过去十年中，众包标签的方法有所改进。Sharon，你知道吗？我认为你有一些收集标签的经验。

是的，众包技术肯定有所改进。我不确定每个人是否都在使用它们，尽管如此。这是我肯定观察到的事情，你知道，在这个领域有很多研究，但人们并没有那么多地阅读这些研究，或者或者不容易实施。所以，是的，我认为这是我认为这主要是因为如果亚马逊Mechanical Turk或其中一些实际平台要改变技术。

某些众包的方式可以显著惠及所有使用它的人。

有趣。好吧，现在有很多不是亚马逊和Mechanical Turk的初创公司来收集标签。我认为现在有很多获取标签的选择。所以希望他们中的一些人会注意到，希望一些研究人员也会注意到。当然，当你开始处理大型数据集时，你知道，你可能会寻找一些最佳实践，我想。

对。没错。希望如此。我不能肯定地说人们正在这样做。我认为人们想要，你知道，标记尽可能多的东西。所以它可能是基于启发式算法或类似的东西，但也不是基于微小的启发式算法，而是因为，嗯，因为如果你把它们加起来，它不会，我不知道，在研究论文中，你不想说，嘿，我们这样调整了它。我们那样做了之类的。嗯，所以是的。

我可以理解这些一般的概念是如何发展起来的。就像我们所做的只是这样。然后我们，你知道，很快让某人检查了5%的数据，看起来不错。

好吧，你知道，至少现在已经公开出来了，也许这会使一些人更加谨慎，并更加意识到数据集的潜在问题，正如我们对这方面的其他研究一样。哦，是的，绝对的。绝对的。我很期待看看它的发展方向，特别是对于现在开始渗透到实际应用中的事情，例如自动驾驶之类的。嗯，

说到这里，我们就结束了。非常感谢您收听本周的Skynet Today的Let's Talk AI播客。我们非常高兴从休假回来，恢复我们的每周日程。与往常一样，您可以在skynettoday.com上找到我们今天在这里讨论的文章，并订阅我们每周的类似新闻通讯。

无论您在哪里收听播客，都可以订阅我们。如果您喜欢这个节目，请不要忘记给我们评分和评论。请务必收听下周的节目。

Boston Dynamics, DeepFake Amazon Workers, Systematic Labeling Errors 31:32 Share

Last Week in AI

Deep Dive

Shownotes Transcript

Boston Dynamics, DeepFake Amazon Workers, Systematic Labeling Errors