We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Making AI Less Racist and Terrible, AI for Wildfires and Reading Lips, Fun AI Facts about Fun Guys

Making AI Less Racist and Terrible, AI for Wildfires and Reading Lips, Fun AI Facts about Fun Guys

2021/6/24
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
D
Daniel Bashir
Topics
Andrey Krenkov和Sharon Zhou讨论了AI图像生成领域的新进展,新的研究使得AI图像生成更可控,可以通过输入框指定生成图像中人物和树木的位置等,实现对生成图像内容的更精细控制。他们还讨论了如何使文本AI模型减少种族主义和有害内容,以及AI在野火识别和唇读中的应用。他们认为,仅仅依靠人工监督来应对AI带来的危害是不够的,这种方法存在诸多局限性,容易被规避,且责任界定模糊。他们还讨论了中国科技公司过度使用监控软件对员工造成压力的现象。 Daniel Bashir总结了其他一些AI相关的新闻,包括Facebook和密歇根州立大学的研究人员开发了一种软件,可以识别深度伪造视频的来源;AI预算在2021年显著增加;日本Preferred Networks公司正在研发用于深度学习的国产处理器;麦当劳因未经用户同意收集语音数据而被起诉;Facebook正在测试使用AI系统来检测Facebook群组中的争吵。

Deep Dive

Chapters
The discussion focuses on advancements in AI image generation, specifically the development of controllable GANs that allow for precise input and predictable outputs, enhancing the controllability and usability of generative models.

Shownotes Transcript

您好,欢迎收听今天的Skynet Let's Talk AI播客,在这里您可以听到AI研究人员讨论AI的实际情况。这是我们最新的“上周AI”节目,其中您将获得对上周一些最有趣的AI新闻的总结和讨论。我是周博士。我是Andrey Krenkov。让我们直接开始吧。首先,我们有一些与研究相关的文章。

首先是利用AI图像生成的强大功能。有一些新的研究是如何更好地控制生成内容的。过去使用GAN时,人们会

调整一些全局参数,这样你就可以控制生成的对象类别及其一些属性,而在这篇论文中,他们引入了一个Lost GAN,它使你能够更好地控制,你可以基本上输入某种

边界框,指定“在这里放一个人,在这里放一棵树”,它就会生成包含这些元素的图像。我们之前见过这种风格,但结果相当不错。当然,它优于以前的工作。所以看到GAN取得更多进展很酷。作为这方面的专家,你怎么看,Sharon?

我认为可控性、理解以及能够知道当你改变和移动输入时会得到什么结果,对于生成模型来说非常重要。因此,这项工作绝对属于提高可控性的范畴,这样

我们知道它不会随机输出不可预测的东西。它会按照我们的意愿去做,也许在这里移动一些东西,在那里移动一些东西。根据一些样本,看起来你可以生成一个与另一个人相似的图像。那

很有趣。我觉得如果我们能做到这一点,那就太酷了,能够稍微改变一个人,而不是每次都生成完全不同的东西。因为我认为很多工作都集中在这一点上,而这些微小的变化以及能够保持相同的整体对象对于我们人类来说非常重要。

是的,完全正确。浏览了一下论文,标题是《用于可控图像合成的学习布局和样式可重构GAN》。所以正是你所说的那样。然后,是的,他们有这种实例敏感和布局感知归一化的想法,这意味着

他们确实可以控制生成内容的样式以及生成的内容。所以,是的,这篇论文非常简洁。有很多图像,正如你所料,但网络图像也相当有趣,并且对先前工作的比较也相当详细。所以,如果你觉得这很有趣,那就看看吧。

是的,接下来是关于研究的下一篇文章,即努力使基于文本的AI不那么具有种族歧视和可怕。这是《连线》杂志的一篇文章。所以,GBD3和这些大型语言模型会,你知道,输出一些相当糟糕的东西,这些东西不受约束。因此,现在OpenAI的研究人员(他们发布了GBD3)正在寻找方法来限制GBD3和这些大型语言模型,以使其

更恰当一些。他们正在做的是,他们向这个程序输入大约一百个类似百科全书的样本,这些样本是由人类专业人士撰写的,主题包括历史和技术,但也包括虐待、暴力和不公正。而且,呃,

是的,他们所做的是,他们首先强调GBD3谈论优越性和优越性,讲种族主义笑话,纵容恐怖主义。我昨晚实际上在玩GBD3,并且能够得到很多这些不合适的输出,呃,呃,

有意或无意地。这显然是一个问题,这是试图限制这些模型使其更恰当,从而能够为社会服务的一步。

是的,这篇论文中采用具有价值观目标数据集的语言模型的过程非常巧妙。他们不仅提出了用一些额外的训练数据来调整模型的结果,

而且他们还有一个收集数据集的完整过程,旨在改变你不想让模型执行的不同事情的相关行为。

这延续了之前关于GPT-3的一些问题的研究,不仅仅是人们玩弄它,还有一些论文,例如大型语言模型中持续存在的反穆斯林偏见,这表明它确实非常糟糕。所以,是的,显然这是一个积极的步骤。鉴于它正试图将GPT-3商业化,所以这是

非常必要的。是的,OpenAI和撰写这篇论文的研究人员做得很好。绝对的。接下来是我们在AI应用部分的下一篇文章,来自《科学美国人》。这篇文章的标题是《AI可以比人类更快地发现野火》。所以这是一个伟大的……

正如标题可能暗示的那样,AI现在可以从卫星图像中发现野火,如果任何东西看起来都不正常,就可以提醒系统。这对于内华达大学来说非常重要,但对于现在的加利福尼亚州来说也同样重要。众所周知,今年的火灾季节非常糟糕,甚至比往年更糟。

索诺玛消防和EMS调度中心正在研究如何改进他们的调度员,基本上使用这个AI系统,并在AI和人工操作员之间进行协调。

是的,完全正确。这很有趣。我们有这个野火预警系统,很巧妙的是,这不仅仅是一篇研究论文,我们实际上有人在使用它。他们有软件开发人员添加了数据仪表板、声音警报和其他功能,以改进AI和人工操作员之间的协调。而且

是的,它说这仍然是一个正在进行的工作。有时它并不比人类快,但对于野火这样极其严重的事情来说,这是一个相当不错的进步。它还提到这正在索诺玛县部署,并且类似的技术也在新墨西哥州进行测试。

所以,是的,非常酷,也是AI的一个例子,它可能炒作较少,但正在开发和部署中。接下来是另一个正在开发的例子,不仅仅是研究,还有实际的系统。我们有下一篇文章,“科技公司正在训练AI来解读你的嘴唇”,来自《Vice》。

所以,当然,这方面有一段历史。这篇文章是关于SRAVI的,这是一个针对言语障碍者的语音识别应用程序。这里的想法是,就像标题暗示的那样,你可以训练AI来解读嘴唇。这是来自爱尔兰初创公司Leopa的产品。

显然,这可能是第一个可供公众购买的唇读AI应用程序。是的,所以这显然很酷。这篇文章提到,它有广泛的潜在商业应用,例如无声通信应用程序和改进的虚拟助手应用程序。

是的,这里还提到,谷歌、华为、三星和索尼等其他公司都在研究所谓的视觉语音识别系统,即用于解读嘴唇的AI。所以,是的,非常酷。这只是AI如何使用的另一个例子,希望能够以积极的方式使用,并改善和简化人们的生活。

是的,我的意思是,它绝对可以帮助改善和简化人们的生活。当然,也存在监控问题。能够通过查看摄像头来了解人们在说什么。我知道有一些法律规定,你不能同时录制音频和视频。所以这可能会规避这样的事情,这绝对是一个担忧。

接下来是关于社会影响的文章。第一篇标题是《人类监督作为AI危害解药的虚假安慰》。

这是来自Slate的文章。好的。好的。这只是整个“人在回路”解决方案,每个人都说,“你知道吗,我无法处理。我们只需要把它交给人在回路的人类就可以了。”我认为这篇文章真正想要强调的是,我们不能仅仅将所有事情都推迟到“人在回路”的人类身上,并说AI危害的每一部分都将仅仅通过一些真正称职的人类来减轻。就是这样。所以我觉得

是的,就像绝对的,我认为,在很多方面都是如此,我确实看到人们说,“哦,然后人类会处理这个问题。别担心。”我确实看到了这一点,尤其是在研究和一些公司中。在应用它的其他地方,我也确实看到人类对于确保整个系统正常运行至关重要。

但这确实是一个问题,即AI取代了什么工作,现在又创造了这些“人在回路”AI系统的新工作?我觉得这种就业流动很有趣。是的。

是的,我非常喜欢这篇文章。它对这个主题进行了相当深入的探讨,而且写得很好。在这里,他们概述了他们提出这一论点的几个具体原因。例如,呼吁进行人为监督会产生一种容易被公司规避的肤浅保护。

然后在实践中很难实现。而且责任模糊不清,如果你制造了糟糕的AI并且没有尽职尽责,那么如果你有一个人类,也许他们会受到责备。所以,是的,一个非常有说服力的论点,至少它不应该只是唯一的方法。

我有点失望的是他们没有提出替代方案,但这绝对是对这个主题的一个很好的看法。接下来是关于社会问题的下一篇文章,我们有《中国的科技工作者因监控软件而承受巨大压力》。所以……

这篇文章提供了一些例子,说明监控软件是如何使生活更加困难的。他们讲述了Andy Wang的故事,他是上海一家游戏公司的IT工程师。他开发了这套名为InSight的监控软件。

我无法发音。因此,该系统安装在他公司每位同事的笔记本电脑上,以实时跟踪他们的屏幕、记录他们的聊天记录、浏览活动以及他们所做的每一个文档编辑,并会自动标记可疑行为,例如访问求职网站或视频流媒体平台

平台,并会每周生成效率报告,总结在网站和应用程序上花费的时间。此外,还在楼层周围安装了高清监控摄像头,包括在这个办公室里,并且会进行检查。所以,是的,这是一个关于这种情况如何发生的具体例子。

而且你绝对可以看到公司想要采用这种方法,无论好坏。所以这是一篇令人沮丧的文章,但我认为这并不令人惊讶。也许我们西方国家需要在这方面领先一步,并制定规范以避免这种情况。你怎么看,Sharon?这听起来像你想要在你的工作场所看到的东西吗?是的。

呃,显然不是。呃,呃,可能不是。呃,理想情况下,你知道,有一些这样的事情可能在某种程度上帮助员工。嗯,是的,这,这感觉像是给人们施加压力,在,在,

不是一个好方法。希望我们能够找到更好的管理方法,而不是仅仅关注监控和惩罚人们,还要考虑,你知道,也许不一定知道哪个员工做错了什么,而是找出管理系统本身的问题,你知道,找出,哦,也许我们应该……

我不知道。这是一个非常愚蠢的例子。就像也许我们应该把饮水机移到那里。也许那里有什么问题,这就是为什么员工都在行动或避免那个空间。我不知道。你知道,就像可能有这样的事情,我认为对公司来说,尝试改善工作场所可能是有益的。但是,是的,但对于每个人来说,这并不是很好。

是的,是的。我见过一些例子,软件被用来寻找改进团队合作的方法,对吧?沟通,你知道,也许可以提供更多激励。所以有一些积极的例子表明这些事情可能会有所帮助,但是这些跟踪你访问的每个网站并发送每周报告的事情肯定会增加压力水平。所以……

你知道,在科技公司工作过,你确实有很多自由来浏览互联网,访问Reddit,访问YouTube。你希望这更多的是关于你一天结束时交付的东西,而不是这些令人沮丧的过度监督,这些监督会鼓励你避免这种情况。

最后是我们的最后一篇搞笑文章,关于有趣蘑菇的趣闻。这是一个Tumblr帖子,基本上使用GPT-3来整理一些关于潜在约会资料的趣闻,因为GPT-3已经看过许多约会资料,并且有一些

非常有趣的特征。喜欢重温经典,相信要抛弃虚假的谦逊,保持指甲和头发修剪整齐,梦想买下一个小岛,喜欢南瓜拿铁,非常喜欢香槟,相信命运,自称是胆大妄为的人,喜欢他的蓝色睡眼罩。好的。

好的,这些都非常有趣。我不知道你是否还有其他想在这里提到的有趣的事情。是的,是的,当然。是的,这是一件有趣的事情。这是来自AIweirdness.com的。我们在Tumblr网站上看到了这个。而且,你知道,我们实际上采访了运营AIweirdness.com的Janelle Shane。所以,如果你想了解更多关于这类事情的信息,只需回顾我们的播客节目并查看一下即可。

但是,是的,这是该网站的最新内容,而且非常有趣。她还强调说,最好的趣闻是由最小的GPT变体生成的,因为,你知道,你会得到一些非常奇怪的东西。你提到的那些东西是

相当,你知道,合理的。我可以看到这些出现在网站上。但是在这里,你知道,这些其他的包括诸如“不想让他的任何前任出现在照片中”、“不穿背心”、“是一种校园恶霸”、“喜欢吹口哨”、“使用标记物没有问题”

和“拥有健康的臀部”。所以,是的,非常有趣。而且你知道,有很多这样的,有几十个。另一个是“被宣传为拥有法语口音技能和一只蓝色兔子”。所以,是的,非常超现实,非常有趣。所以,是的。

另一个是,如果有人给他一个音符,这个音符会得到前三杯咖啡,这绝对引人注目。所以,是的,很有趣。我会说搜索一下“关于有趣蘑菇的趣闻”以了解更多信息。这很有趣。

这就是本集的全部内容。如果您喜欢我们对这些故事的讨论,请务必分享和评论播客。我们将非常感激。现在,请继续停留几分钟,以便从我们自己的新闻播报员Daniel Bashir那里获得一些其他精彩新闻故事的快速总结。谢谢,Andrea和Sharon。现在,我将介绍一些其他尚未涉及的有趣故事。首先,在过去几年中,我们已经听说了很多关于deepfake的信息,它们变得越来越逼真,

它们可以被用来并且被用来进行虚假信息传播和敲诈勒索,以及它们变得越来越容易创建。正如CNBC报道的那样,对抗deepfake的斗争可能刚刚向前迈进了一步。Facebook和密歇根州立大学的研究人员表示,他们已经开发出一种可以揭示deepfake来源的软件。

他们声称该软件可以根据单个视频帧确定一段媒体是否是deepfake,并识别用于创建deepfake的AI。众所周知,deepfake检测有点像猫捉老鼠的游戏,但如果这些报道属实,那么有充分的理由保持乐观。我们的接下来的两个故事涉及业务和应用程序。

据VentureBeat报道,2021年,各种规模的公司的AI预算都出现了显著的同比增长。对Appen的《AI现状报告》调查的受访者报告的预算范围为每年50万美元到500万美元,比2020年增长了55%。

该报告还指出,决策者正在转向使用AI来支持内部流程,并且企业正在将AI责任从高管层转移到其组织的较低级别。我们的下一个故事发生在另一个大陆。在亚洲的AI公司中,你可能听说过阿里巴巴和腾讯。

但是,你可能不知道的是,地平线上出现了一家新的独角兽AI初创公司。据Next Platform报道,日本的Preferred Networks已经开发出世界上最高效的高性能超级计算机。该公司一直保持低调,但其投资水平表明,日本的目标是开发一种用于深度学习的国产处理器。最后,是关于AI和社会的两个故事。

我们的第一个故事涉及一家你听到AI时可能不会想到的公司,那就是麦当劳。正如《The Register》报道的那样,麦当劳被指控违反了伊利诺伊州的生物识别隐私法,未经客户同意收集和处理客户语音录音。2019年,麦当劳收购了语音识别公司Apprenti,为其得来速餐厅开发了一个语音控制的聊天机器人。

该诉讼不仅指控麦当劳未经客户同意,还指控其处理音频样本以确定说话者的年龄、性别、口音、国籍和民族。最后,我们回到Facebook。我们在线上的对话经常失控,而且没有与我们的对话者面对面,这并没有多大帮助。

正如CNN Business报道的那样,该社交网络正在测试使用AI系统来检测Facebook群组中的争吵,以便管理员可以介入以平息事态。非常感谢您收听本周的Skynet Today Let's Talk AI播客。您可以在skynetoday.com上找到我们今天讨论的文章,并订阅我们的每周新闻通讯,其中包含更多内容。

不要忘记在您收听播客的任何地方订阅我们,如果您喜欢该节目,请留下您的评论。在我们下周回归时,请务必收听。