您好,欢迎收听 Skynet Today 的 Let's Talk AI 播客,在这里您可以听到 AI 研究人员关于 AI 的实际情况以及哪些只是耸人听闻的标题。这是我们最新的“上周 AI”节目,您可以在其中快速了解上周的 AI 新闻,以及两位研究人员之间关于我们对这些新闻的看法的一些讨论。
首先,我们将把时间交给丹尼尔·巴希尔来总结上周 AI 领域发生的事情。我们将在几分钟后回来,更深入地探讨这些故事并发表我们的看法。您好,这里是丹尼尔·巴希尔,为您带来每周新闻摘要。本周,我们将关注两则关于自动驾驶汽车的报道、一款 GPT-3 替代品以及谷歌搜索。在过去的几个月里,我们没有听到很多关于苹果汽车的传闻,但最近的一篇报道称,该公司增加了自动驾驶汽车的数量,并将获得驾驶这些汽车许可证的司机数量减少了一半。
正如 9to5Mac 报道的那样,苹果现在拥有 68 辆自动驾驶测试车和 76 名司机。3 月份,苹果获得了一项夜视系统的专利,该系统结合了可见光、近红外和长波红外传感器,这将使苹果汽车系统在夜间的视野比人类司机远三倍。据报道,苹果已经与包括现代、日产和宝马在内的多家知名汽车制造商讨论了可能的合作关系。
我们下一则来自 Robot Report 的报道关注一位名叫 JJ Ricks 的 YouTube 汽车博主,他是一位最积极记录 Waymo 4 级机器人出租车情况的人,该报道于 5 月 3 日发布。
当他的机器人出租车需要右转进入一条多车道的主干道时,它发现右车道被橙色的施工锥形物堵住了。这辆迷茫的车辆无法弄清楚该怎么做,于是呼叫了路边援助。但在援助到达之前,机器人出租车驶上了道路,却又再次停了下来,阻塞了交通。它又启动了两次,然后路边援助人员才能真正上车,接管并完成行程。
这辆迷茫的车辆表明,要使自动驾驶汽车达到可用的状态,仍然存在许多挑战。如果您一直在关注 GPT-3 的故事,您就会知道您只能通过 OpenAI 的 API 访问它,而该 API 目前仅对那些其使用请求获得批准的人可用。一段时间前,一些 AI 研究人员和工程师创建了 Eleuther AI,这是一个致力于开源 AI 技术的组织。
其首批工作之一是创建了一个名为 GPT-Neo 的开源 GPT 式语言模型。该组织在 TPU 研究云上使用闲置计算资源,这是一个谷歌云计划,旨在支持研究项目,并期望这些研究成果将公开分享。今年 3 月,经过数月的研究和训练,Eleuther AI 团队发布了两个经过训练的 GPT 风格语言模型,这些模型可以免费与 Hugging Face Transformer 平台一起使用。
它们在某些任务上的性能不如 GPT-3 的最大版本,但被证明是一个不错的免费替代品。最后,在其上周二的 I/O 开发者大会上,谷歌宣布了其在 AI 领域取得进展的多种方式。正如 Vox 报道的那样,两个最大的公告都属于自然语言处理和搜索领域。Lambda(代表语言模型对话应用程序)使 AI 系统更容易进行更具对话性的对话。
多任务统一模型 (MUM) 是一种 AI 模型,它增强了对人类问题的理解并改进了搜索。谷歌的目标是让 AI 系统承担更多人类通常所做的工作。您无需使用多个查询来回答一系列问题,而可以使用一个更复杂的问题。谷歌正在考虑将 Lambda 集成到其搜索引擎、语音助手和工作区中。
另一方面,MUM 旨在理解搜索查询中的隐式比较,例如如何为攀登不同的山峰做准备,并提供最合适的答案。这就是本周新闻综述的全部内容。敬请期待对近期事件的更深入讨论。
谢谢,丹尼尔。欢迎回来,各位听众。既然您已经了解了上周新闻的摘要,请随时继续收听两位 AI 研究人员对这些新闻的更轻松的讨论。我是周博士,是机器学习小组的四年级博士生,与吴恩达合作。我的研究方向是生成模型以及将机器学习应用于医学和气候。
我的共同主持人是。嗨,维拉,我是安德烈·克伦尼科夫,斯坦福大学视觉与学习实验室的三年级博士生。我主要专注于机器人操作和强化学习的学习算法。
如果您是我们的常听者,本周可能会有点意思,因为我们正在改变一些事情。与我们通常只是讨论一些不同新闻故事的流程不同,我们尝试通过每周都有不同类型的报道来改变一下,
每周都有不同的内容,你知道,每种类型都有点。因此,我们将讨论有关研究的 AI 新闻、有关 AI 应用的 AI 新闻以及与 AI 的社会影响/伦理相关的 AI 新闻。因此,希望能够涵盖各个方面,而不是像每周随机选择那样。
所以我们将从应用或新的 AI 研究开始。首先,VentureBeat 上的一篇文章题为“GPT-3 的免费替代品 GPT-Neo 值得期待”。并且
那么这个 GPT-Neo 是什么呢?GPT-Neo 是一种类似 GPT-3 的模型,因此是一个大型语言模型,需要大量的资源来训练,包括资金和时间。它是由 Eleuther AI 创建的,这是一个试图在某种程度上复制 GPT-3 并使其开源且人人可用的团队。
因此他们已经成功地推出了它。这篇文章基本上详细介绍了,你知道,它实际上具有大约相同数量的参数,例如数十亿个参数。它是开源的,您可以使用它。令人兴奋的是,权重是……
发布的。因此,您实际上不再需要花费大量的计算能力了。现在我们可以,你知道,在 AI 社区前进的过程中更加环保,并希望只拥有该 API。没错。而且,你知道,实际上有一个 Hugging Face API,这是一个非常流行的此类模型库。所以它……
很容易尝试一下。当然,唯一的限制是您需要运行它的硬件,可能是在某种云实例中,这并不便宜。但除此之外,就代码而言,就设置而言,它比过去使用规模语言模型要容易得多。现在,
我想限制在于这仍然不是很大。是多少,30 亿个参数,而不是 GPT-3 的 1700 亿个参数?是的。
所以它有点局限性,但与此同时,根据他们的指标,他们表明它的性能非常好,在定量指标上,它的性能并不完全像 GPT-3 那样好。它没有那么成功,但它的表现仍然令人印象深刻。然后从定性上来说,让大家对 GPT-3 如此兴奋的是它能够做到真正……
连贯的、经过深思熟虑的完成。所以,你知道,我可以告诉你一个关于科学家发现独角兽的故事。有趣的是,在这篇 VentureBeat 文章中,他们包含了 GPT-Neo 的内容,它做得相当不错
所以我认为,从定量上来说,这绝对是朝着让任何人都可以使用 GPT 类型技术,而不仅仅是 Open AI 的方向迈出的一步。此外,该小组已经在开发更大规模的 GPT-NeoX,它更接近 GPT-free。所以这是
我认为对于任何希望大型模型不仅仅是开发它们的公司的专有财产的人来说,这是一个非常好的迹象。在我们继续之前,也许让我读一下 GPT-3 生成的这个独角兽故事的一部分。所以作为一个提示,这是一个 GPT-3 也拥有的提示,是这段文字。
在一个令人震惊的发现中,科学家们发现一群独角兽生活在安第斯山脉一个偏远、以前未被探索的山谷中。更让研究人员感到惊讶的是,独角兽说一口流利的英语。所以从那里开始,GPT-Neo 完成如下。唯一的证据是一个词,你好。
独角兽是很好的倾听者,所以它们通过观察人类学会了说英语,”伦敦动物学会首席执行官戴维·奥姆博士在一份新闻稿中说。“事实上,它们还通过观察人类学会了说西班牙语。它们用两种语言向我们问好。虽然这一发现本身就令人震惊,但当考虑到独角兽在那里生活了数千年时,这个消息就更加令人难以置信了。
它们是活化石,”奥姆说,“这是一种花哨的说法,意思是它们的起源尚未确定。”等等。所以,你知道,语法非常正确,主题一致。你知道,这是……
如果你以前没有见过这种东西,它是由 AI 生成的,这并不明显。而且非常巧妙的是,你知道,现在这种东西是开源的。我真正想要的只是让它不要说唯一的证据是一个词,你好,比如独角兽的语言元素,比如真正知道独角兽,比如它的角部分,你知道,这很奇怪,你知道,或者这暗示我们它是一只独角兽。
这是真的。是的。就目前而言,它只是将独角兽视为一种任意动物。是的。它的特点是它可以说话或学习人类语言等等。是的。是的。
好吧,关于文本的话题,下一篇文章是关于文本和语音的。它的标题是“Facebook Wav2VecU 从未标记数据中学习识别语音”。这篇文章也来自 VentureBeat。
所以基本上,Facebook 今天宣布它已经或最近训练了一个 AI 模型,该模型可以在没有监督的情况下进行语音识别,也就是说,无需告诉它,你知道,这段文字,这段短语实际上是如何转录的。
所以在无监督语音识别领域,这方面取得了很大的进步,因为它能够学习这一点,因为未转录的数据比已转录的数据多得多。那里有大量没有转录的语音数据。所以这很令人兴奋。是的,我认为特别是这一点很酷,因为……
创建语音转录非常昂贵。所以,你知道,你已经拥有了 ImageNet 类型的数据集,其中包含数百万张图像,但付费让人们收听音频并描述数小时的音频要困难得多,或者至少更昂贵且耗时。因此很难扩展。
大多数针对英语等语言的这些最先进的模型都使用了非常庞大的数据集,至少有数千小时,甚至更多。这些数据集不仅制作起来非常昂贵,而且与许多其他问题不同,语音识别并没有真正很多公共数据集。有一些
但即使是这些也很有限,并且远小于这些公司内部拥有的数据集。所以是的,我认为即使这仍然无法超越我们已经商业化的产品,
作为一个研究项目,它非常令人印象深刻,因为它并不意味着对于没有大型数据集的语言或想要构建不需要这些数据集的东西的公司来说,这指向了一种可以很好地工作的新技术,而不需要相同的投资或相同的初始起始数据。我认为它也很巧妙。就像,
这不是我了解无监督学习的问题。总的来说,我认为这似乎是不直观的,我想,你可以训练一个模型从语音到文本,而无需使用相应的文本注释语音。所以就我个人而言,我认为这很巧妙。
是的,我同意。我们查看了论文,架构实际上相当简单。使用 GAN,你们都熟悉它。所以是的,它并不超级复杂,但希望能够帮助未来的 ASR 系统(自动语音识别系统),特别是对于,你知道,我想刚起步的公司来说,它们的数据量不多。即使对于拥有大量数据的的大公司来说,它也可以节省大量成本。
是的,没错。我认为另一件事是,近年来我们已经看到,自监督学习在 GPT 等方面已被证明是极其强大的,你只需将数据扔进去,而无需将标签与数据关联起来。这里也可能是这种情况,
你知道,因为你拥有如此之多未注释的语音数据和不相关的文本数据,这实际上可能是通往更好性能的途径。最终,如果这种技术可以像语言模型一样进行扩展和改进。
对。说到语音,我想我们将过渡到本次对话的应用部分。下一篇文章的标题是“深度伪造配音可以帮助翻译电影和电视,而不会丢失演员的原始表演”。
这篇文章来自 The Verge。因此,AI 初创公司 Flawless 发布了几个演示,表明它可以进行配音,特别是它实际上并没有进行语音处理。所以语音仍然是由另一个语言的另一个配音演员配音的,但他们能够与嘴巴进行唇形同步。
并使其看起来像,你知道,汤姆·克鲁斯的新电影的配音演员可以在他身上说话,但他的嘴唇仍然与西班牙语或德语配音相匹配。所以这真的很酷很令人兴奋。我们将拭目以待。同样,这是使用 GAN。所以那些关注的人,这是一个视觉上的东西。但当然,这篇文章非常重视它,你知道,是的,深度伪造配音用于在娱乐领域启用这种技术。我绝对可以看到它会发生。它需要,你知道,质量提升,我相信,但我肯定会在未来看到它发生。是的,我对这个印象非常深刻。只是看看你的演示,我认为它已经相当,你知道,令人印象深刻。而且它似乎是某种,你知道,理所当然的事情,你想要
如果你可以用合理的质量做到这一点,它只会提高最终产品在本地化到不同国家时的质量。并且
查看视频后,我认为它实际上非常好。同样,这仅适用于嘴唇。它不会像通常的深度伪造那样普遍地伪造一切。因此,我认为更专注于人们如何说话这一点,它看起来已经非常逼真且非常好。所以
是的,这是 AI 技术在娱乐领域的应用,在我看到这篇文章之前我并不知道。但现在我已经看到了,你知道,如果它很快变得非常普遍,我不会感到惊讶。对。是的。但对于另一种可能很普遍的 AI 应用,也许已经有点普遍了,但也更偏向于有趣的一面,而不是那么严肃或……
你知道,也许投资很高。我们有这篇文章,题为“Florentine.net 上的米开朗基罗 AI 问答”。这是一个非常本地化的故事。这不像任何行业范围内的故事。这只是我们发现的与 AI 相关的有趣的事情。所以这里的故事是,科技公司 Coelho 与 Museo dell'Opera del Duomo 接洽,提出了一个米开朗基罗人工智能的想法。
所以基本上,现在博物馆必须投资于更多的在线展示,进行虚拟参观等等,这是过去一年发生的事情。所以这里的主要想法是,如果您访问 Duomo 博物馆的网站,您会在屏幕右下角看到这个米开朗基罗 AI。这几乎只是一个聊天机器人。
所以,这个想法是你可以问它关于米开朗基罗的生活、关于博物馆等等的问题。现在,这不是一个超级先进的聊天机器人。它主要针对特定问题。它最多可以支持 7000 个问题。但即便如此,我认为它也很可爱,而且很有趣。
一种很好的方式来表明,并非我们所做的一切都是高风险的,有时你只需要一些更有趣的东西,它很酷,因为它渗透到博物馆这样的地方,我觉得我们认为博物馆是,你知道,哦,这是关于古老的文物,然后有一些如此新颖的东西,当然,现代艺术博物馆非常不同,而且总是有新的东西,但这就像
我不知道,非常像我们认为它是尖端技术,而且它与之如此紧密地集成,并为博物馆的网站增添了一种非常艺术的风格,并增添了互动性。
是的,没错。而且很有趣,实际上,这篇文章还说,这最初并不是他们想要的。它在这里说,根据 Coelho 的说法,Francesco 的创始人兼首席执行官 Vedomo 最初并没有接受这个想法,因为它对他们来说太现代了。但是当 COVID-19 袭击时,他们需要现代化。所以他们
现在他们接受了这个想法,试图现代化并接受更多技术,这听起来像是我们更传统或更持久的博物馆没有做过那么多的事情。很有趣。我实际上刚刚访问了该网站并开始与米开朗基罗 AI 交谈,并且
呃,它并不太复杂,但与此同时,它确实很有趣,呃,你知道,它会问你呃,你想问什么,然后你可以说一些简单的事情,比如你什么时候出生的,它会给你一个相当详细的生活总结,比如我出生于 1475 年 3 月 6 日星期一,日出前四个小时,在托斯卡纳的压缩机,而不是亚利桑那州。
所以,我不知道。这也让我想知道,我们是否可以拥有聊天机器人来询问维基百科的故事,或者只是查询信息,而不是自己查找。
我也在玩它。它说,看看我晚期圣母哀悼图中的自画像。我看起来像一个贪婪而吝啬的人吗?然后我问他,你吃披萨吗?他说,我吃的是简单而清淡的食物,通常只吃一块面包。
但当我住在罗马时,我让我的兄弟从佛罗伦萨寄给我奶酪、油和其他托斯卡纳产品。我过去常常喝酒来获得能量,当我不得不努力工作时。我没有特别精致的口味。然后他给我发了一张自己的照片,并说,我看起来像一个贪婪的瞬间吗?老兄,自拍可能是我见过的最古老的自拍了。是的,它还能继续进行对话,这很有趣。是的。
在我问它之后,它还提示我说,你知道佛罗伦萨除了大教堂之外最受欢迎的建筑是什么吗?是的,它会继续提示你。这很酷。是的,没错。非常酷。是的,我认为它某种程度上说明了,你知道,我认为一些艺术博物馆有时可能会有点令人生畏,或者可能不太有趣,你知道,非常非常……
严肃自负,对,呃,这确实某种程度上说明了,也许让欣赏艺术的体验也更有趣、更具互动性,你知道,以此来吸引孩子们等等,是的,它确实吸引了孩子们
或者也许是 AI 研究人员,天知道,或者有所不同。我不确定。好了。所以这很有趣。如果你想玩玩聊天机器人,你可以查一下,我们将继续进行我们最后一个小的部分,这更多的是讨论,呃,不仅仅是应用,而是 AI 的社会影响,以及,呃,
你知道,最近的一些新闻故事在某种意义上可能更严肃。首先是我们的第一篇文章,它并不是一个新闻故事。这是 Black Lemoine 在 Medium 上发表的一篇关于谷歌道德 AI 历史的文章。它首先说,这个人现在已经有六年的时间在谷歌工作了。
这篇文章从这个人的角度解释了道德 AI 团队是如何在一个女人四年内创建的。而那个女人是玛格丽特·米切尔。是的,这不是一篇过于详细的文章,大约 10 分钟的阅读量,基本上追溯了……
FQI 团队的创建,特别是玛格丽特·米切尔和蒂姆尼特·杰布鲁对它的影响。当然,之所以写这篇文章,如果你没有收听播客,因为我们已经讨论了很多,你知道,过去一年有很多新闻报道,首先是蒂姆尼特·杰布鲁被谷歌解雇,然后几个月后玛格丽特·米切尔也被解雇。
现在,很多人对谷歌怀有负面情绪、批评和普遍的恶意,因为谷歌基本上解雇了两位真正建立了道德 AI 团队的人,而且似乎没有很好的理由。
所以我发现这是一篇有趣的文章,某种程度上是对玛格丽特·米切尔和蒂姆尼特·杰布鲁的赞扬,并使他们的贡献非常清晰,部分原因是,当然,谷歌现在不会成为他们的啦啦队。你知道,可能会有某种努力来掩盖这段历史并继续前进。
这很不幸。所以很高兴仍然有人能够讲述他们的贡献。莎伦,你对此有什么看法?是的,我的意思是,所有这些人站出来不仅支持,而且你知道,写下这样的东西,并且真正付出努力,这真的很有意义。就像写这篇大型博客文章需要付出很多努力。所以,是的。
我认为这说明了梅格作为一个人是怎样的,以及,是的,她对谷歌的许多人来说有多么重要。对于有抱负的管理者来说,绝对是一个榜样。如果向你汇报工作的人或受到你启发的人如此之多,那就意味着一些事情。所以我希望她至少知道这一点。
是的。是的,谷歌可能会想以某种方式掩盖它。他们想继续前进。他们想说他们仍在以自己的方式做伦理方面的工作。我认为现在的情况非常不同,嗯,呃,在……呃,在一切最终结果中。嗯,是的,是的,没错。并且,嗯,
这篇文章确实以对团队现状的反思而告终。它以某种积极的基调结束。它说,希望道德 AI 总有一天能够像以前那样在谷歌蓬勃发展。不幸的是,今天我们正在流失人才,因为最优秀的人才不再相信谷歌领导层会做出正确的决定。
我已经与其他道德研究人员和工程师进行了多次对话,讨论是否辞职。
许多人都考虑过,然后它继续说,那些留下的人是为了确保玛格丽特·米切尔所做的所有工作都不会白费。然后,是的,所以他们留在谷歌是为了工作,为了延续玛格丽特·米切尔建立团队的遗产
而且,是的,它说,希望过去四年建立的联系和专业知识足够强大,能够度过这场风暴,我认为,这是一个很好的信息。你知道,很明显,我认为对于许多人来说,尤其是在道德 AI 领域,整件事都非常令人震惊。我的意思是,你真的不会看到这种非常高调的,你知道,解雇 AI 领域的真正领先专家。所以这是一件非常大的事情。很高兴看到人们也正在展望未来,并说,你知道,尽管发生了什么,我们仍然可以重建并继续前进。
对。关于,你知道,伦理以及 AI 的社会影响的话题,我们的最后一篇文章来自 Twitter 博客。
标题为“分享我们图像裁剪算法的经验教训”。这是针对 Twitter 上关于图像自动裁剪算法的大量活动的。所以就像你发布一张图片,但它太大而无法查看。Twitter 会自动裁剪它,找到最佳裁剪位置,然后让人们通过 feed 查看它。但是人们发现的是
你知道,有一些争议,对吧?因为这就像,哦,他们为什么总是裁剪这个人而不是那个人?所以 Twitter 实际上进行了一项研究,发现男性和女性之间存在 8% 的年龄差异。
有利于女性的人口统计学均等性。比较黑人和白人个体,有利于白人的差异为 4%。比较黑人和白人女性,有利于白人女性的差异为 7%。最后,黑人和白人男性之间,有利于白人男性的差异为 2%。所以存在明显的倾向。当然,百分比很小,但这仍然……
这仍然在绝对意义上意味着 Twitter 上相当数量的图像。Twitter 现在已经推出了一项功能,基本上就是说,嘿,我们将让你,作为用户控制,在哪里裁剪。你仍然可以决定。我们不会强制它以这种或那种方式进行。
我记得和某人谈过,他们说,为什么这不是最初的东西?就像,为什么我们必须为此兜圈子?但我认为这是因为如果用户不必看到控件或类似的东西,它会感觉更简单。但是是的,我很高兴 Twitter 对其平台上的讨论做出了良好的回应,并进行了一些数据研究,并改善了体验。
是的,没错。我认为我所看到的所有在 Twitter 上对我们这篇博客文章做出回应的人也都表示,他们处理这个问题的方式确实值得称赞。去年 10 月,当时人们发布帖子
你知道,基本上进行实验并表明,在某些情况下,它会裁剪以显示,你知道,白人而不是奥巴马等等。并且,嗯,
那时,一切都非常临时。它本身并不是一项研究,但他们考虑到了这些担忧,并进行了这项适当的研究,然后找到了结果,然后得出结论并改变了服务。我同意,你知道,可能他们最初使用这个机器学习的东西是为了加快发布速度,为了,你知道,
你知道,不,不,呃,强迫人们担心裁剪,以确保所有照片的大小都相同。但是,嗯,是的,他们收回决定是值得称道的,你知道,他们发现,呃,在某些情况下,最好不要让算法做出任何决定或做出决定,并允许一个人来控制。是的。有点像,我觉得这是一个关于人工智能的好故事,呃,
你知道,一个公司内部一个好的道德人工智能团队应该能够做到的事情的一个很好的例子。对。我想这是一个很好的方式来结束这一集,结果相当积极。哦,是的,我们喜欢这样。
说到这里,非常感谢您收听本周的 SkyNet Today 的 Let's Talk AI播客。您可以在 skynetoday.com 上找到我们今天讨论的文章,并订阅我们的每周新闻通讯,其中包含类似的文章。无论您在哪里收听播客,请订阅我们,如果您喜欢这个节目,请不要忘记给我们评分和评论。务必收听下周的节目。好的。