您好,欢迎收听 Scanit Today 的 Last Week in AI 播客,在这里您可以听到 AI 研究人员聊聊 AI 的最新动态。和往常一样,在本期节目中,我们将对上周一些最有趣的 AI 新闻进行总结和讨论。
我是 Sharon Zhou 博士。我是 Andrey Komarenkov。本周,我们将讨论 Google Sheets 的全新 AI 自动填充功能、NLP 基准测试、医院 AI 工具的一些问题,以及 AI 在戏剧和帮助宇航员方面的一些有趣应用。
那么,让我们直接进入第一个应用新闻。标题是“Google Sheets 公式建议就像数学的自动填充”。
我想这是最近才发布的,Google 悄悄地宣布,Google Sheets 将能够根据您的数据智能地建议公式和函数。例如,如果您有一列,只需按 Enter 键,它就会建议执行求和或平均值等操作。
它的智能之处在于它会考虑上下文。因此,如果您有一列名为“总计”,那么它就会建议求和等等。是的,非常有趣。
老实说,早就该这样了。我认为我们应该更早地拥有很多这些基于规则的检测,因为我很确定很多电子表格都是样板文件。但这很棒。这可能也是对 OpenAI 和微软展示 GPT-3 在 Word 文档中执行相同操作(与 Excel 非常接近)的反应。
是的,我希望这会很有用。我想对于我必须输入公式的所有事情来说,它都会很有用。我知道。是的,这绝对是一件很有意义的事情。正如你所说,考虑到某种趋势,这确实是时候了。
对于任何专业用户来说,在系列自动完成等方面都有一些类似的东西。我敢肯定他们有类似的东西,但我猜这里有趣的是智能部分。
现在,我认为它不像 Codex 那样令人印象深刻。希望他们继续努力,改善所有使用电子表格的人的生活,我想这可能比改进代码生成更有用。是的。
很棒的是,您可以轻松地训练这个模型。我的意思是,他们可以,因为他们拥有所有数据并且它可以执行,对吧?因此,如果您要屏蔽其中一些值,您可以看到在应用公式之前和之后它实际上做了正确的事情。因此,这似乎是一件很容易实现的事情,而模型不会产生任何不确定的结果。是的。是的。
似乎不会有任何许可问题,而且它们可以做得非常谨慎,因为它的领域很窄,不会输出像密码之类的秘密信息,或者我们看到的 Codex 的问题。
接下来是我们的下一篇文章,标题为“新加坡高科技医院有 50 多个机器人在工作”。这实际上是新加坡的樟宜综合医院 (CGH)。他们有 50 多名员工实际上是机器人。因此,他们做任何事情,从执行手术到做行政工作。
但它们已成为医院员工队伍中不可或缺的一部分,这真的很令人兴奋。最著名的是达芬奇手术机器人,您可能听说过它可以帮助外科医生进行微创手术。
除此之外,机器人还负责运送食物或亚麻布或清洁,帮助维护,帮助患者康复,帮助患者回到床上。
还可以作为患者的社交伙伴。我觉得这真的很有趣。我认为,由于许多老年患者都有机器人伴侣,这让他们更快乐,因此镇静剂的使用量减少了,这真的很令人兴奋。
我完全同意。我认为这是机器人领域最令人兴奋的领域之一,我认为很多人并没有意识到这一点,但它确实已经出现了一段时间。它非常有意义,对吧?这里不用担心会取代工作,因为无论如何都没有足够的人手去做这些事情。这些机器人实际上是在完成人们花费时间的事情,
机器人可以做的事情。比如送货,这些是护士目前必须做的事情,但他们可以把时间花在更好的事情上,就像我们过去讨论过的那样。
社交机器人,比如 Perro 小动物,我认为是海豹等等,再次扮演了老年护理专业人员的角色,而新加坡和其他地方也存在老年护理专业人员短缺的问题。
正如你所说,它们已被证明确实取得了令人印象深刻的成果。所以,是的,我认为这是一个很好的趋势,我很高兴这篇文章强调了这一点。我认为在这家拥有 1000 张床位的医院里,有这么多机器人,这确实令人印象深刻,因为我没想到会有这么多的应用。所以看到一些医院真的在推动这一点,很酷。
是的。我认为这在很大程度上是文化上的。就像你提到的,这没有任何争议,因为他们没有足够的员工。所以他们需要机器人。因此,由于老龄化人口,新加坡没有人真正被机器人取代工作,这被称为“三场海啸”的情况。
这基本上意味着老龄化人口是一个巨大的混乱,一场海啸。劳动力减少正在造成另一场海啸。医疗保健领域慢性病的总体增加是医疗领域的第三场海啸。因此,对他们来说,拥有这样的东西非常重要。
我认为其他国家(如丹麦)的需求也在增加,在这些国家,劳动力正在萎缩,但老龄化人口和医疗保健需求却在增加,这种差距也显而易见。是的,我也很想知道
日本的情况如何,我认为很多人都知道日本的人口老龄化。当然,我们非常喜欢机器人。我想知道这在日本有多普遍。接下来是我们的研究部分,我们将重点介绍一些与 AI 研究相关的新闻。首先,我们有 Sebastian Bruder 的博客文章《NLP 基准测试的挑战和机遇》。
正如标题所说,这篇文章是关于 NLP 基准测试的现状,以及考虑到现状,我们未来可以走向何方。它对现状进行了相当详细的分析。它介绍了什么是基准测试,它可以是历史,然后是一些关于我们可以在指标、下游用例、细粒度评估方面改进的地方。它有……
很多建议。它是一个非常好的概述,对于任何想要了解全局的人来说,绝对是一篇有趣的文章。我认为即使对于非研究人员来说,这也是一种了解 AI 领域重大挑战和趋势现状的好方法。
是的。总的来说,我会说,博客文章确实提到了我们现在拥有的许多基准测试已经过时了。我们只是在获得所谓的超人表现。但我只想指出,
我们会在旧的基准测试中一直看到这种情况。基准测试必然需要不断改进。我的意思是,我的论文就是关于这个的,所以只是反思一下。基准测试的本质就是会发生这种情况。因为如果它们太难了,比如说人类的表现实际上太难了,那么我们就无法针对它们进行优化。我们本质上没有梯度,对吧?我们不知道如何改进它。
因此,实际上,拥有处于最佳位置的基准测试,即我们看到改进,但还没有完全超过该基准测试的限制,这才是最佳位置。我认为现在我们正在努力寻找下一组基准测试,这些基准测试将带领我们进入下一个研究领域。但看到事情的发展方向真的会很有趣。
是的,这是一个合理的观点。我认为还需要注意的是,这篇博文是专门针对 NLP 的,我认为这更值得注意。我认为在计算机视觉领域,现在有很多更细分的任务,比如少样本学习和组合学习,以及很多其他不同的东西。而这些并没有像 NLP 那样快速地得到解决。
因此,在自然语言处理中,人们一直在努力制定一些基准测试来评估一般的语言技能。
这就是像 Squad 和 Glue 这样的东西被真正解决的挑战所在。这里提出的观点是,尽管这些基准测试被打败了,而且在某种意义上,性能很快超过了人类的性能,但这并不意味着 AI 模型实际上可以完成这些任务。因此,这里的另一点是,到目前为止,我们的设计
在成为一个足够好的挑战来真正测试预期的技能方面似乎不起作用,所以我认为,是的,对如何设计基准测试的调查以及人们对下一步的想法非常有趣。
接下来是我们的下一篇文章,《Google Brain 揭示了 CNN 和视觉 Transformer 之间表征结构的差异》。这是关于一篇论文,《视觉 Transformer 看待事物的方式像卷积神经网络吗?》。
好的,视觉 Transformer 本质上是用于视觉任务的 Transformer,即计算机视觉。在使用这些之前,在 Transformer 真正占领世界并且注意力就是你所需要的一切之前,卷积神经网络 (CNN) 主要用于计算机视觉。
这篇论文深入探讨,让我们看看这两种不同的模型架构有何不同,我们如何将其可视化?我们能否看到它们计算表征的方式有何不同,发生了什么,这是否有意义?我认为一件引人注目的事情是,视觉 Transformer 计算表征的方式
与 ResNet(一个非常基本的 CNN)不同。视觉 Transformer 实际上更强烈地在较低层和较高层之间传播其表征,而不是 ResNet。
我认为有趣的是,这对我来说并不太令人惊讶,因为视觉 Transformer 在每一层都关注注意力,并且它正在关注它试图看到的东西,而卷积神经网络则非常注重分层和聚合不同的信息以获取显着特征。
是的,Andrey,你对此有何看法?是的,我觉得这很有趣。正如你所说,有些结果并不太令人惊讶。例如,在靠近输入的早期层中,比 ResNet 拥有更多的全局信息,这符合 Transformer 的设计。
其中一些肯定很有趣。例如,Transformer 的层中,低层和高层之间的表征是相似的,因为对深度神经网络的传统理解是,你会创建这种
你知道,逐渐更抽象的表征。所以在早期层中,你有圆圈和线条等等。然后在中间层中,你有更复杂的形状。然后在后期层中,你有了像狗和猫这样的概念。这一直是一种普遍的看法。看起来 Transformer 并非如此,这很奇怪。是的,总的来说,我认为这是
一篇非常好的论文,我们在 AI 领域看到的这类论文并不多,它是一项实证研究,实际上是一项调查,可以加深理解,而不是提高性能本身。我一直很喜欢看到这类论文。对。我认为注意到这两种不同架构中非常结构化的差异非常有趣,因为
它真的让你思考,好吧,这些是不同的模型。你知道,这些是不同的架构。它们在完成同一任务时做的事情非常不同。因为我认为有时,哦,看看这个迭代的,基本上是很小的贡献,并没有真正做出巨大的改变。我认为这非常突出地表明,这是我们架构的巨大变化。当它试图学习视觉感知时,它正在做一些不同的事情。是的。
是的,有趣的是,你知道,到目前为止,90 年代的 CNN 在出现时(实际上是在 80 年代)受到了人类感知的很大启发。而我认为 Transformer 更像是一种发现。你知道,它不是,它只是对存在了一段时间的想法的迭代,尤其是在 NLP 领域。
所以我猜想,如果我们进行更多此类研究,那么下一个 Transformer 是什么?下一个真正成为 AI 领域重大发现的东西是什么?如果我们对这些东西如何工作以及它们的缺陷和优势有更深入的了解,也许我们可以找到一种更有原则的方法来解决这个问题,并找到下一个架构。
就说到这里。希望我们没有对任何非 AI 研究人员说得太专业,但你知道,这是一篇很有趣的论文,有时我们喜欢钻研一下。
接下来,我们有关于伦理、社会和对 AI 的担忧的文章。第一篇的标题是《在黑暗中飞行:医院的 AI 工具没有得到很好的记录》。这篇文章来自斯坦福以人为本的人工智能研究所。这是一项关于一项新研究的文章,该研究的标题是《对现有模型报告指南的低依从性,但常用的临床预测模型》。斯坦福大学的研究人员
记录了,正如标题所说,用于临床决策的十几个 AI 模型的文档,所有这些模型都用于商业用途,并与 15 套不同的指南进行了比较,他们发现
这些指南在文档方面没有得到很好的遵守。有些情况比其他情况更糟糕,但总的来说,没有一个是非常出色的。当然很有趣。莎伦,你对此有何看法?
我认为有趣的是,他们专门研究了 Epic 开发的模型,Epic 是 EMR(电子病历)的领先提供商之一。所以他们是一家价值数十亿美元的公司,而且只在 OEM 领域。
很大一部分医院系统,它们是最接近部署这些模型(这些 AI 模型)的系统,因为它们可以看到所有患者数据。它们可以与医生和医院管理层的工作流程很好地集成。所以我认为真正有趣的是,这组研究人员专门研究了 Epic Systems 的 AI 模型。
是的。我想知道为什么。也许是因为他们是领先的提供商,而且他们的东西被部署了,而我认为很多工具都没有被部署,也没有被商业使用。而且我推测这些 AI 模型在研究方面可能不是最前沿的。
但即便如此,这仍然为未来的部署树立了一个良好的先例,让人们保持警惕。有趣的是,我们发现一些指南得到了遵守,但在记录模型公平、可靠和有用的证据方面尤其薄弱。我们经常讨论,我们发现有证据表明模型存在偏差,
或者实际上没有用或不可靠。因此,这对于部署新的 AI 工具来说似乎至关重要。有趣的是,存在证据表明缺乏这方面的组合。
是的,我认为他们研究 Epic 的模型非常重要,因为它们更接近部署,对吧?我认为他们会比主要由 AI 研究人员撰写的研究论文更多地考虑这些事情,更多地考虑这些指南。但我认为这说明了我们仍然存在的一些缺点。以及我们需要什么才能让我们对部署它们更加放心。
也就是说,我很好奇,如果我们回顾几篇文章之前,新加坡对他们的机器人以及他们是否使用 AI 以及他们是如何思考其中一些问题的有什么看法,因为他们似乎在机器人和 AI 方面取得了相当大的成功。
是的,我认为总是,你知道,对于 AI 模型,例如疾病诊断或我们看到的其他应用,你知道,总是需要考虑风险。因此,对于很多机器人来说,除了已经非常成熟的用于手术的达芬奇机器人之外,
我认为送货的风险较低,而且机器人的设计速度相当慢,而且很容易避开。而很多这些医疗领域的 AI 工具可能更容易出现偏差,你真的需要更加小心。
我发现有趣的是,反思我们在斯坦福的起源,这是来自斯坦福以人为本的人工智能研究所,它的出现有点模棱两可,不知道为什么需要它。但看到这样的研究出自那里很有趣。而且,在某种意义上,我认为,
它证明了这个研究所的用处,它更专注于确保 AI 在社会中以正确的方式被使用,这可能是行业不太愿意做的事情,尤其是不愿意做概述研究。接下来是我们的下一篇文章,《丰田在一名视力障碍运动员被撞后暂停了残奥会自动驾驶巴士》。
好的。正如文章标题所示,丰田为残奥会提供了自动驾驶巴士,但其中一辆不幸撞到了一名视力障碍的运动员。丰田已就其对自动驾驶巴士的“过度自信”道歉。这肯定会
目前暂时暂停服务,被撞的日本视力障碍运动员将无法参加本周末的比赛。所以这真的很不幸。这主要是在日本人面前展示的。
你知道,作为丰田赞助 2020 年东京奥运会的一部分。是的,这肯定令人失望,因为我们有点像,你知道,你会认为这些对自动驾驶巴士来说风险更低,更容易,因为它真的只是运送人。但后来发生了这种事。
我发现有趣的是,东京警方说,有车辆操作员说他们知道那里有人,但他们认为这个人会意识到有辆巴士来了,然后停止过马路,这有点奇怪,我想。是的,幸运的是,这个人伤势不重。我认为他恢复得很好,但是……
这表明我们距离真正可靠地使用这些东西还有多远。是的。运动员本人实际上并没有表现出任何愤怒,我想这是典型的美国运动员不会做的事情。他的教练实际上说,“他想好好照顾自己。我们感到遗憾,但我认为他最失望。”是的。
是的。这是一个悲伤的故事,但你知道,希望这是一个很好的教训,你需要对这些事情更加小心。
但为了缓和气氛,我们在趣味类别中还有最后一组文章,首先是来自《卫报》的文章,《机器人戏剧的兴起。Young Vic 使用 AI 创作新剧》。所以……
Young Vic 是一个大型剧院,它有一个名为 AI 的新节目,探索如何将 AI 用于戏剧。这有点奇怪。它本身并不是一部戏剧。这是一种有趣的形式,你可以看到该剧的制作人员、编剧和制片人
在观众面前实时与 GPT-3 互动,并尝试以互动的方式创作一部戏剧。所以,你知道,你可以看到它在现场组合在一起,然后在晚上结束时,他们表演了他们使用 GPT-3 开发的这部全新戏剧。
这不是我所期望的。我不知道,这听起来很吸引我。我想我会想看的。莎伦,你认为呢?
是的,这听起来很有趣,让我想起了很多人一直在将 GPT-3 用于像这样的伟大的艺术应用。它让我想起了我遇到的一个 Yes Theory 的人,他告诉我他们使用 GPT-3 来决定他们的下一次冒险应该是什么,并基本上讲述他们的下一次冒险。是的,这很有趣。我认为这是
当我看到标题时,我有点怀疑,以为会是一些很无聊的东西,但我认为这正是……
一种非常聪明和恰当的 GPT-3 的使用方式,它是这种来回的互动,他们从 GPT-3 中获得这些原始想法,但最终是由人来塑造它,组合它,并创作一部戏剧。所以他们会获得想法,并对这些高层次的事情进行头脑风暴。GPT-3 确实提供了一些关于
你知道,一段不幸的爱情,以及各种世界末日的事情的有趣内容。然后显然,你知道,最终的戏剧是,嗯,一部关于大碰撞的戏剧,其中人类现在是兽人,与时间机器中的莫洛克人有些相似。嗯,
所以,是的,我认为这是一个如何正确使用它的好例子。有趣的是,这部戏剧也是为了向观众展示如何与 AI 互动,AI 可以做什么,以及哪里需要人类的参与。接下来是我们的最后一篇文章,《Astrobee 将找到宇航员丢失的袜子》。
好的,所以在未来的某个时候,NASA 想要建造一个名为 Gateway 的永久空间站,它将绕月球运行。他们预计 Gateway 在很多时候都会是空的,但他们希望当宇航员到达时,它是一个受欢迎的空间。而且
他们有一个项目,让空间站上的自主系统与自主或半自主机器人一起工作,并处理任何需要物理干预的情况。其中一个这样的机器人就是 Astrobee 机器人。
嗯,Astrobee 机器人,嗯,在他们目前的实验中,嗯,它是一个小立方体形状的机器人。它看起来,它看起来很可爱,而且看起来很有未来感。嗯,所以我鼓励你去看看,嗯,它在视觉上是什么样子的。嗯,但是,嗯,
基本上,它的工作之一是在空间站中导航,并寻找用于机舱空气循环的任何通风口。它使用计算机视觉来自动检测任何可能阻塞通风口的东西,
在这个例子中,它是一只宇航员的袜子。这实际上是用袜子的打印图像来表示的,而不是真正的袜子,以测试计算机视觉算法。但这在未来看起来很有科幻感。是的,当然。它看起来很有科幻感。我认为 Radical 还指出,
嗯,你知道,这些是小立方体,所以它们不能真正,嗯,你知道,用手臂来做事情,但 NASA 还开发了其他机器人,也许可以做到这一点。所以,想想看,当人类不在的时候,空间站上会有一堆自主机器人或半自主机器人在运行,以保持它的运转,这确实很科幻,嗯,
是的,这很疯狂,当然也很令人兴奋。我想我没有意识到,你知道,我们有绕月球轨道运行的这个空间站的雄心壮志。你知道,这很有趣。我想知道这一切的时间表是什么?
这可能很难告诉你。他们可能会告诉你预期的时间表,但确切的时间表总是未知的,直到它们真正发生。但是,是的,这些机器人有点可爱。它们外形紧凑,看起来像有两个小眼睛,而且只是立方体。所以它们有点像 WALL-E 的美学,我想。是的,是的,是的。
本期节目到此结束。如果您喜欢我们对这些故事的讨论,请务必分享和评论播客。我们将不胜感激。