We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI for Game Mods and Moderation, Tesla‘s Beta Rollback, Clearview AI Tested, ruDALL-E

AI for Game Mods and Moderation, Tesla‘s Beta Rollback, Clearview AI Tested, ruDALL-E

2021/11/4
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Andrey Krennikov
S
Sharon Zhou
Topics
Andrey Krennikov:AI语音合成技术可以用于创建视频游戏模组,而无需聘请专业配音演员。这对于独立游戏开发者和模组创作者来说是一个极具吸引力的选择,因为它降低了制作成本,并加快了开发速度。然而,这种技术也存在一些伦理和法律上的灰色地带,尤其是在未经授权的情况下使用现有游戏角色的声音素材时。如果将AI合成的语音用于商业用途,则可能面临版权纠纷。 Sharon Zhou:开源的AI语音合成工具,例如XVA Synth,为独立游戏开发者提供了更多可能性。它降低了游戏开发的门槛,并促进了游戏社区的创作热情。然而,我们也需要关注其潜在的版权问题,并探索如何更好地保护配音演员的权益,例如通过建立更完善的授权机制或付费模式。 Sharon Zhou:微软收购AI内容审核平台Two Hat,旨在提升内容审核效率,解决网络骚扰等问题。这对于维护网络环境的健康发展至关重要,因为人工审核难以应对海量内容。同时,AI内容审核技术也需要不断改进,以提高其准确性和效率,避免误判和漏判。 Andrey Krennikov:AI内容审核平台的应用,不仅可以用于游戏平台,还可以应用于其他社交媒体平台和网络社区。它可以帮助平台更好地管理用户生成内容,并减少网络暴力和有害信息的传播。但是,AI内容审核技术也存在一些局限性,例如难以识别隐晦的恶意信息,以及可能存在偏见等问题。

Deep Dive

Chapters
The episode discusses the advancements in the AI voice-acting tool xVASynth, which is improving the recreation of video game voices, and the implications of using such tools in the gaming industry.

Shownotes Transcript

订阅:RSS | iTunes | Spotify | YouTube 查看我们在lastweekin.ai上发布的新闻汇总文本版本。 本周: AI配音工具xVASynth在重现视频游戏声音方面变得更好 微软收购了AI驱动的管理平台Two Hat 麻省理工学院最新的AI研究使用深度神经网络解释大脑如何处理语言 让机器学习对高风险决策者更有用 Clearview AI终于参加了一项联邦准确性测试。 特斯拉今天从车主的汽车中撤回了最新的FSD Beta ruDALL-E:从文本描述生成图像,或俄罗斯最大的计算项目

<raw_text>0 你好,欢迎收听Sky News Today的《上周AI》播客。我们可以听到AI研究人员讨论AI的最新动态。和往常一样,在这一集中,我们将提供一些上周最有趣的AI新闻的摘要和讨论。您还可以查看我们在lastweekin.ai上发布的《上周AI》通讯,了解我们在本集未涵盖的文章。

我是你们的主持人之一,Andrey Krennikov。我是Sharon Zhou博士。本周我们将讨论一些关于AI配音工具的有趣文章,该工具在重现视频游戏声音方面变得更好。我们将谈论微软收购了一款AI驱动的管理工具。我们还会聊聊麻省理工学院关于深度神经网络的研究,以及它如何解释大脑处理语言的方式。

还有关于Clearview AI回归的更多信息,特斯拉的最新动态,最后以与俄罗斯DALI相关的有趣话题结束。是的,这周有很多好玩的内容。像往常一样,我们从应用故事开始。第一个故事是,AI配音工具XVA Synth在重现视频游戏声音方面变得更好。

这是一个有趣的故事。我们之前已经讨论过类似的事情,展示了如何使用AI生成视频游戏的配音。特别是,人们为模组做了这个。因此,您可以制作一个模组,让角色听起来像原版,但您不需要实际的配音演员。您可以让AI为您完成这项工作。

结果发现,有一个由模组制作者创建的工具叫做XVA Synth,它是免费提供给模组制作者使用的。现在有了2.0版本,功能很多,声音种类繁多,对能量等方面有很大的控制。所以,是的,这真的很酷。

我觉得它是开源的真的很酷。我们刚刚聊到独立游戏开发者的利润率并不高,所以他们可能会非常乐意将这些用于模组或将其制作成他们的游戏。我认为这是合成声音的一个令人兴奋的方向。

是的,确实很酷。我确实认为在生成的声音方面有点模糊,因为您可以基于现有角色生成声音,比如,我不知道,来自《生化危机无限》或《辐射3》的特定角色或特定声音。

这确实是一个灰色地带,因为他们并没有从那些演员那里获得这些声音的许可,对吧?但另一方面,这只是用于模组。所以我认为只要您保持在非商业的方面,我可以看到这没问题。但我们确实讨论过这在演员授权他们的声音等方面将如何演变的问题。

我认为他们首先将其作为开源工具开放将会引发这种情况,并希望他们会随着时间的推移进行调整。我认为他们只是想展示技术的有效性,然后希望他们会支付那些演员或以某种方式达成协议。确实如此。而且有趣的是,是的,看到基本上是一个软件工程师Dan Ruta构建了这个工具真的很酷。

所以看到热情的人们在业余时间能做出这样的事情真是太棒了。接下来是我们的下一篇文章,微软收购了AI驱动的管理平台2HAT。

今天宣布,微软收购了2HAT,这是一个AI内容管理平台。具体金额未披露,但他们在过去几年中一直在合作,积极管理微软的游戏和非游戏体验。听起来这项合作相当成功。因此,微软将其纳入了内部。

根据研究,在线骚扰的数量相当可观。四分之一的美国人亲身经历过某种形式的骚扰。是的,拥有这样的平台来帮助管理是很重要的。我知道有很多著名的平台因管理不善或用户管理过重而闻名,比如Reddit。对此你有什么看法?是的。

是的,我们刚刚聊到。很有趣的是,它是由一位曾在迪士尼互动担任安全专家的人于2012年创立的,他在Club Penguin的安全团队工作。

所以这个人显然在网络欺凌和骚扰等问题上有经验。而Club Penguin尤其是被儿童使用,我会说,尤其容易受到这些问题的影响。

所以我认为自动化的AI驱动管理是我们希望拥有的,这将有助于解决这个人类管理无法扩展的巨大问题。而且有趣的是,加拿大执法部门使用或与一家公司合作,训练AI检测错误。

儿童剥削材料,例如不当内容。因此,总体而言,这似乎是一个不错的收购。微软当然拥有Xbox,这是一个游戏平台,所以我认为他们合作确保玩家不会变得太疯狂是很有意义的。

Club Penguin显然没有任何骚扰。不,我在开玩笑。显然,过去可能是网络欺凌的温床。因此,处理这些问题的人非常合适。为了明确起见,作为额外说明,他们还在捕捉一些内容,比如不良语法、尴尬拼写,因为这些在互联网上是普遍存在的,作为规避某些管理策略的方式。因此,拥有一个专门的团队来处理这些问题,我认为是非常重要的。这让我几乎想到了网络安全,您知道,网络安全也感觉像是网络欺凌。它通常是一个独立的实体和公司,真正专注于做好这件事。是的。

是的,确切地说。我希望自2012年以来,他们不是过于初步,而不仅仅是像一个初创公司,而是尝试深度学习,这样是不会有效或稳健的。

接下来讨论一些新研究,我们有麻省理工学院最新的AI研究,使用深度神经网络解释大脑如何处理语言的工作。这是关于一篇名为《神经架构语言:综合逆向工程收敛于预测处理模型》的论文。听起来有点复杂。

基本的想法是,我们有这些神经模型,神经网络处理文本、语音。因此,有不同类型的任务,您可以训练神经网络进行问答、自动补全等。于是他们所做的是收集、训练神经网络来执行这个任务,然后让人们执行同样的任务,然后看看在训练完这个任务后,当您想与他们交谈时,预测

人们的神经活动。因此,我们进行了fMRI的读取,看看神经元是否能够预测人们在执行同样任务时大脑中发生的事情。他们展示了至少对于其中一个任务,您可以获得一定程度的准确性。您可以在某种程度上预测人类大脑中将要发生的事情。

以及预测这个人会做得多好。因此,这里有一个有趣的机器学习和神经科学的结合。你怎么看,Sharon?你知道我怎么想的。

你有点怀疑。我对这种事情非常怀疑,尤其是当我看到,我不知道,仅仅是神经网络的思维与人类思维之间的相关性。因此,要深入了解发生了什么,我认为这篇文章在措辞上非常夸大了发生的事情。我认为论文本身,

也可能在某种程度上夸大了一些内容。或者至少它呈现了一些我们可以查看和挑选的定量结果。因此,基本上,它试图,您知道,查看执行下一个单词预测的语言模型。因此,GPT变体非常符合这一点。

并基于这些,看看他们是否可以转移学习来预测一些这些,比如人类大脑扫描的走向,然后查看相关性或类似的东西。我确实...

在这些类型的工作中非常怀疑,因为我不常看到基线,比如,如果您转移学习到其他地方,回归到其他任务,因为那可能同样简单。可能会有,您知道,这并不一定意味着语言模型学习的模式与人类使用的模式是相同的。因此,我对此感到有些怀疑。此外,我相信,如果我错了,请纠正我,但看起来人类也应该执行下一个单词预测。这并不意味着

我们自然以实验呈现的方式进行预测,对吧?就像我阅读东西时,我不确定我是否在脑海中确切地进行下一个单词预测,但他们以这种方式向人类呈现。是的,是的。我认为对这一点持怀疑态度是有充分理由的。

而且这并不意味着深度神经网络的工作方式与人类大脑相同,甚至相似。因此,如何真正解读这一点并不太清楚,除了有一些相关性。因此,在某种程度上可能是相似的。有趣的是,仅仅查看这篇论文,显然有很多细节,我们无法涵盖。但其中一个奇怪的细节是,如果您只是阅读

而不训练神经网络。如果您只是拥有一个大型变换器模型,它在这个任务上也可以相关。因此,是的,这并不太明显。在摘要中,他们确实说

这与大脑语言系统优化预测处理的长期假设是一致的。因此,我会说我会给予这些研究人员一定的信任,他们可能对这里的一些细节更加了解。但,是的,这不应该被视为任何太有意义的东西,除了某种标题

这告诉我们可能存在一些相关性,这很有趣,我们应该继续研究它。好的,接下来是我们的下一篇文章,让机器学习对高风险决策者更有用。这是一篇基于论文《Sybil,理解和解决高风险决策中机器学习的可用性挑战》的文章。

好的,所以这非常关注可用性以及机器学习的下游使用。当我们将其放在用户手中时,他们对模型的预测有什么看法?研究人员发现,当...

当人们获得分析工具并看到发生的事情时,他们实际上想知道输入的因素,为什么,为什么他们得到的答案背后的原因。他们特别检查了儿童福利筛查中的可用性挑战。因此,这是与科罗拉多州儿童福利部门合作进行的。

他们查看了这些呼叫筛查员如何借助机器学习预测评估他们的案例。基本上,呼叫筛查员真的想知道为什么机器学习算法预测某个孩子的风险。这是在预测我们的孩子将在两年内被从家中移除。因此,这是一个非常重要的预测。

是的,确切地说。因此,这意味着与其理解内部是如何工作的,或者可视化网络结构或权重或其他什么,您实际上更想要一种高层次的解释,为什么这个模型会这样认为?为什么它会做出这个预测?我应该信任它还是不应该信任它?这在理解如何解读这些预测方面帮助很大。

是的,我认为这项研究真的很酷。这项研究已经进行了两年。研究人员查看了七个使模型可用性降低的因素。因此,有一些因素,比如缺乏信任和人类与模型之间的分歧。然后他们中的一些人飞往科罗拉多州,实际上与儿童福利部门的呼叫筛查员合作。

因此,他们进行了数据用户研究,这些呼叫筛查员实际上进行了互动,他们观察了筛查员团队大约10分钟,以了解这项工作是如何进行的。因此,我认为这是非常重要的研究。我认为在许多应用中,这种研究会非常有用,显然,对于医学和其他领域。

我认为这种人机交互研究在AI中较少见,但显然这表明它可以非常有用。接下来是我们的伦理与社会故事。首先,我们有一个我们不断回归的主题。我们可能已经讨论过这个话题好几次了。Clearview AI。

如果您还没有听过我们对它的多次讨论,Clearview AI是一家销售面部识别的公司。您可以拍摄一个人的照片,该照片将与某人的身份匹配。它会根据他们的面孔给您提供该人的姓名。

他们正在进行商业销售。因此,他们从互联网上抓取了大约100亿张照片。您可能在他们的数据库中。实际上,您有很大的机会在其中。如果您的图像公开可用,他们可能已经抓取并将其包含在他们的数据库中。

因此,这一直颇具争议。正在进行许多诉讼。但这个故事是关于他们如何接受国家标准与技术研究所的测试,以基本评估他们算法的准确性。从这个意义上说,他们的产品至少在正确匹配同一人的两张照片方面表现得相当不错,尽管这并不是他们所销售的内容,所以您知道,至少他们的算法在某种程度上运作良好,但也许不是我们真正关心的内容,您怎么看,Sharon?

我认为首先很棒的是有这样的

研究或测试正在进行。Clearview的首席执行官称这些结果为“他公司产品的无可否认的验证”。因此,这确实感觉像是确认了他们,您知道,至少在其他类似公司和算法中是准确的。但我并不认为这意味着他们与最好的匹配,或者他们获取的数据是他们可以获取的,尤其是如果是100亿张照片的话。因此,是的。

是的,这并不一定会让我对他们感到更好。而且我们进行的这个测试甚至不是他们所销售的内容。他们销售的是拍摄照片并将其与姓名匹配。他只是说,您能否预测两张照片是否是同一个人?出于某种原因,他们没有发布其他测试。因此,是的,并没有告诉您太多,是的。

知道它能很好地工作是好事,您知道,联邦警察机构使用它等。我们不希望它工作不良,但所有的伦理问题,所有可能不需要它的原因仍然存在。接下来是我们的伦理文章,特斯拉今天从车主的汽车中撤回了最新的FSD beta。

FSD代表完全自驾。因此,特斯拉实际上撤回了他们最新的FSD beta,因为它出现了一些问题,这非常出乎意料。埃隆·马斯克实际上确认了降级,并表示

这实际上只强调了公共测试版的必要性。因为在交通信号灯左转时出现了一些问题,他们正在努力修复。因此,如果事情运作不良,他们能够回滚是件好事。但确实,事情在这个领域发展得非常迅速,推出的速度也很快。

是的,这很有趣。我看到发生这件事时,有多个Reddit帖子报告说他们的汽车在更新后做了一些奇怪的事情。因此,我想这可能是相当普遍的。是的,这是一个有趣的故事。我认为这个自驾软件的测试想法是...

有趣的,因为显然如果您真的在进行beta测试,那么您可能会发生实际事故,未注册此beta程序的人可能会受伤。但与此同时,特斯拉根据他们的安全评分限制谁可以使用beta。根据他们的指标,beta测试确实意味着最终您可能会以更安全的方式推出它。

所以,是的,我不知道。这对我来说并不明显这是否是最佳方式。但我想好消息是,他们一看到问题就能回滚,而实际上没有发生任何坏事。对,没错。

接下来是我们的最后一篇有趣的文章。标题是《ruDolly,从文本描述生成图像或俄罗斯最大的计算项目》。

好的。所以DALI是OpenAI宣布的一种模型。自那次宣布以来,这是一个您可以输入的多模态模型,结合文本和图像。因此,您可以输入一个鳄梨椅子,著名的,它会生成全新的鳄梨椅子的图像。自DALI发布以来,中国研究人员一直在研究这个,但最近俄罗斯也宣布了这一点。因此,他们推出了被称为Rue Dolly的模型,您知道,非常非常不同的名字,我看到。但XX大型模型,最大的有120亿个参数。因此,这在各地推出真的很酷,听起来确实很有用。而且听起来俄罗斯再次进入了这个游戏。

是的,我认为Reddit上的人们对此感到相当兴奋。您知道,当所有这些VQGAN的东西流行时,与Clip一起。看到有这种社区活动开发这些协作笔记本,以便每个人都可以轻松参与并玩弄它,这很有趣。现在模型是开源的,人们正在使其在英语中可用,并使其超级简单,只需输入文本即可查看图像。是的,正如我们在UGAN clip中看到的那样,从文本生成图像的过程非常有趣。

我会说他们的鳄梨椅子与OpenAI的DALI相比有点逊色。但这些看起来真的很不错。因此,如果您还没有看到DALI,您可能想查一下,因为从文本生成的图像确实有点超现实。

对,这些图像看起来也很棒。因此,是的,它们看起来没有那么好,但确实看起来非常好。因此,我想这场比赛开始了,您知道,或者继续。实际上,看到不同国家在某种意义上竞争是相当令人兴奋的。是的,我从这篇文章中了解到,还有一个中国模型。

是的,发布了,具有40亿个模型参数,因此我认为这很好,您知道,我们还看到GPT的免费开放空气也在开发,但尚未发布模型,然后其他人已经开始重新创建至少一个版本并正在进行中。因此,看到您不能

海军无法做任何真正专有的事情。如果您知道一个基本的想法,那么其他人将发布开源版本。感谢您收听本周的SkyNet Today的《上周AI》播客。您可以在lastweekin.ai找到我们今天讨论的文章,并订阅我们的每周通讯,获取类似的内容。

像往常一样,如果您还没有订阅,请订阅。如果您已经订阅,请在Apple或Spotify或其他地方给我们评分和评论。这对我们帮助很大。请务必下周收听。