We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI voices are taking over the internet

AI voices are taking over the internet

2023/9/11
logo of podcast The Vergecast

The Vergecast

AI Chapters Transcript

Shownotes Transcript

欢迎来到The Vergecast,神经引擎配音的旗舰播客。我是戴维·皮尔斯,稍等一下。实际上,我刚要完成一些事情。从前,一条白蛇和一条绿蛇住在遥远的山上,经过几个世纪的修炼,变得不朽并获得了超能力。好的,抱歉,我回来了。

在你担心我刚中风或在麦克风前直播出了什么问题之前,我应该告诉你,我实际上正在训练一个AI来模仿我的声音,这个在iPhone上的应用叫做Personal Voice。

而像这样的产品正是我们今天要讨论的。能够创建你自己的AI语音克隆的想法已经存在一段时间了。我们实际上在2021年的节目中讨论过很多关于它的内容,我在节目说明中添加了链接。

很多内容都很好地保留了下来。但在过去几年里,制作AI语音变得更容易了,结果也变得更好。你甚至可以在你的手机上做到这一点,就像我现在正在做的一样,只需要花几分钟时间尴尬地朗读一些句子。

这就是我的声音听起来的样子:嗨,我是David Pierce的iPhone语音。我有点像David,但又有点不像。

所以今天在节目中,我们将深入探讨AI语音的兴起,然后我们将尝试弄清楚我是否真的能制作出听起来像我的东西。这里是The Vergecast,我们稍后回来。

The Vergecast的赞助商是Stripe。Stripe是一个支付和账单平台,为全球数百万家企业提供支持,包括Uber、宝马和DoorDash等公司。Stripe帮助无数初创企业和老牌公司实现增长,推进其使命,并接触到更多全球客户。该平台提供了一套专门的功能和工具来追踪增长,例如Stripe Billing,它可以轻松处理订阅费、发票和所有经常性收入管理。您可以在stripe.com了解Stripe如何帮助各种规模的公司取得进步,那就是stripe.com,了解更多信息,对,取得进步。

节目的赞助商是……

来自ServiceNow,这是用于业务转型的AI平台。你已经听说了关于AI的大肆宣传,而事实是,AI的功能取决于它所构建的平台。

ServiceNow是一个将AI用于整个业务的平台,它消除了员工的摩擦和挫败感,为开发人员提供了超强的生产力,为您的服务代理提供了智能工具,让客户更满意,所有这些都构建在一个您可以立即使用的单一平台中。这就是为什么全世界都在使用ServiceNow。访问servicenow.com/splash-ai-for-people了解更多信息。

对吧?在我们深入探讨AI语音的世界之前,让我们快速了解一下为什么这现在是一件大事。据我所知,这种技术蓬勃发展的原因主要有三个。首先,音频本身正在蓬勃发展,播客、语音信息和生成的口语字幕……

你在TikTok和其他地方听到的,如果你仔细想想,你可能比以前听到更多网络音频了,与互联网上的任何其他创意功能不同,有很多工具可以帮助你制作一个。我们使用的应用程序叫做Descript。这是一个很多人用来编辑音频和视频的应用程序。

它有一个叫做Overdub的功能。Descript最酷的功能之一是你可以通过编辑文本基本上编辑音频和视频,你导入文件,它会给你一个成绩单,如果你删除成绩单中的“嗯”字,它也会尝试无缝地从实际的音频文件中删除“嗯”。它并不完美,但效果很好,感觉就像魔法一样。

要将它与Descript的Overdub一起使用,你可以更进一步。假设你忘记了什么东西,或者你对某个词语犹豫了,或者你现在可以制作你自己的语音的AI副本,只需输入你想要出现的文本即可插入新的音频。比如说,我说这句话:

iPhone于2007年发布,当时史蒂夫·乔布斯将其称为三样东西:一个白色屏幕的iPod,一部革命性的移动电话和一个突破性的互联网通信器。对吧?让我们听听这句话:

iPhone于2007年发布,当时史蒂夫·乔布斯将其称为三样东西:一个白色屏幕的iPod,一部革命性的移动电话和一个突破性的互联网通信器。等等,抱歉,我稍微说错了。他称之为突破性的互联网通信设备。

我可以录制整个过程,或者我可以进入Descript重新输入成绩单,这就是我得到的:iPhone于2007年发布,当时史蒂夫·乔布斯将其称为三样东西:一个白色屏幕的iPod,一部革命性的移动电话和一个突破性的互联网通信设备。还不错。

我不希望听一小时这样的声音,我认为。但在小片段中,尤其是在更大的内容中,你甚至可能不会注意到它。还有其他应用程序,如Podcastle,也在做同样的事情。

我怀疑你会看到类似的工具出现在人们可能需要语音的任何地方。好的。所以这是第一个用例。第二个是相反的一面。也有很多工具使用AI语音大声朗读书面故事。例如,《大西洋月刊》正在与一家名为ElevenLabs的公司合作,让AI叙述者朗读网站上的一些故事。

多年来,美国人对蛋白质的态度一直是永无止境的追求更多。平均而言,美国每人每年大约吃掉300磅肉。

再说一次,它并不完美,我不知道它是否总是听起来像一个人,但我简直不敢相信它有多好。顺便说一句,不久以前,这些生成的语音听起来像平淡无奇的机器人,就像2016年的索菲亚机器人一样,它被认为是有史以来最先进的机器人之一。

在《今夜秀》上,我去了25个以上的国家,登上《Cosmopolitan》杂志封面,会见了德国总理安格拉·默克尔和演员威尔·史密斯,并与克里斯·泰根成为了推特好友。这是索菲亚说的同样的话,我只是将其输入ElevenLabs网站上的生成器。我选择了名为Grace的声音,点击生成,大约十秒钟后,这就是结果:

我去了25个以上的国家,登上《Cosmopolitan》杂志封面,会见了德国总理安格拉·默克尔和演员威尔·史密斯,并与克里斯·泰根成为了推特好友。

我的意思是,这是天壤之别,对吧?我认为你会开始到处看到它。文章、整个网站、整本书,所有这些都大声朗读,所有这些都使用AI。而且产品本身实际上也开始变得相当不错了。当然,它也是一个巨大的伦理和法律灾难,早在……再次,在技术还不如现在这么好之前。

当时,许多出版商起诉Audible,原因是Audible Captions这个功能,它会在你阅读页面时大声朗读一本书,这似乎是一个很正常、很有用的功能,对吧?这也似乎是对整个有声读物行业理念的巨大潜在威胁。出版商在2020年达成了和解,但这仅仅是更大问题的开始。

一些有声读物旁白担心他们的声音被用来训练算法,这些算法可能会有一天取代他们,他们并没有完全说错。所有这一切并非完全是理论上的。如果你进入Apple Books应用程序并搜索“旁白”,你会发现很多有声读物声称是由Apple Books进行旁白的。

苹果公司表示,这意味着它们是由“基于人类旁白的数字语音”进行旁白的。这是一个来自克里斯蒂安·埃弗里奇的《爱的语言》一书的片段。顺便说一句,很多AI旁白的书都是言情小说。

在我听来,这听起来令人震惊地像一个人在朗读有声读物。他举起拳头敲了敲坚硬的木头,大约沉默了30秒后,锁转动的声音打破了寂静。一个中等身高的女人走进了狭窄的开口。

你可能听说过或甚至在不知情的情况下遇到过的另一个版本是名人AI语音。就像几年前,一部关于安东尼·伯尔丹的纪录片《路跑者》上映后,伯尔丹去世了,这部纪录片用他的声音训练了一个AI模型,然后用它为电影生成旁白,引起了很大的反响。导演摩根·内维尔说,他只使用AI来朗读伯尔丹自己写下的文字,对他来说这是一个伦理选择。

我想我能理解他的想法。我仍然不知道这对我来说是感觉良好还是糟糕。这一切都非常复杂。

类似的例子到处都是。AI帮助一位失去声音的喉癌患者恢复了说话能力。许多名人训练AI来做一些事情,比如给你语音导航。

所有这些都非常有争议。好莱坞目前罢工的原因之一是AI有可能扫描他们的形象,这样他们就再也不需要出现在电影中了。想象一下,一个用摩根·弗里曼的声音训练的AI,可以为任何纪录片配音,而无需支付弗里曼一分钱。

这些事情很快就变得非常混乱。然后我们有了第三个,也是可能最新进入主流的用例:辅助功能。苹果公司今年在iOS 17中推出了一项新功能,叫做“实时语音”,你可以用它来输入文字,然后让它在电话中或甚至面对面交谈时大声朗读出来。

当你将它与今年的另一项新功能“个人语音”(我刚开始节目时测试过的那一个)结合使用时,你只需将自己说话录入手机,就可以创建你自己的AI语音版本,然后用它来生成你的实时语音。这有点像已故的史蒂芬·霍金使用的功能强大的系统,它让他能够通过电脑说话。

霍金提供了一份基于对英语分析的预测列表。前面说过,再说一次,不是为了反复强调这一点,但这视频是八年前的。想想看,像霍金这样的系统今天的声音有多好。

虽然我不得不说,我真的很喜欢霍金如何拥抱那种机器人般的声音,并使其成为他自己的声音,它已经变得更好,我不会为了更自然的声音而改变它。三星正在为Bixby构建类似的功能,这样你就可以用你自己的声音与你的Galaxy手机对话了,它的工作方式大致相同。同样,多年来,许多人一直在使用屏幕阅读器,它能够大声朗读屏幕上的任何内容。这些也变得越来越好,因为语音正在改进,而且因为AI系统在理解网页、应用程序以及你正在查看的任何其他内容方面变得更好,所有这些都非常令人兴奋。

我也非常喜欢能够使用机器翻译和这些语音来实现有一天能够用多种语言进行流畅对话的想法,这并不遥远。这个播客用我的声音,基本上可以用地球上的任何语言播放。这真的很酷。

这也是一个非常困难的问题,我们肯定还没有达到那个水平。但总的来说,即使你不能说话,也能用你自己的声音说话是一件大事。在伦理、道德、法律以及许多其他方面,这都很复杂,但这仍然是一件大事。我们现在需要短暂休息一下,回来后,我们将调查实际制作AI语音需要什么,看看是否真的有可能做得很好,稍后回来。

去现场观看你最喜欢的体育队比赛很酷,但带着你的美国运通白金卡去看大型比赛更酷,对吧?就是这样。通过进入特定活动的专用持卡人入口,您可以跳过排队。通过进入贵宾休息室,您可以在回家的路上观看下一场比赛。这就是美国运通强大的支持,条款适用,请访问americanexpress.com/seh了解更多信息,使用美国运通持卡人入口,访问不限于美国运通白金卡。

节目的赞助商是《关键时刻》,这是Scope Capital的一个播客。我们都经历过人生中的转折点,我们做出的决定最终会产生持久的影响。没有人比当今一些最有影响力的公司创始人更了解这一点,《关键时刻》。

让我们听众了解那些定义了Dropbox、YouTube、Robinhood等主要公司的成败事件,这些事件由创始人自己讲述。收听《关键时刻》第二季。今天,您可以在crucialmoments.com或您收听播客的任何地方收听。

欢迎回来。让我们来制作一些AI语音,好吗?大多数这些系统背后的理念基本相同,因为训练AI模型的方法通常是提供大量、大量、大量的数据,然后观察它如何处理这些数据并了解它学到了什么。

但是,在我尝试过的系统中,有一个重要的区别。有些工具,如Descript,只需要大量的音频,如果你需要的话,它们会给你一个脚本。但真正的目标只是上传数小时、数小时、数小时你声音的音频,看看会发生什么。

其他的工具更进一步,它们会要求你录制自己说一系列特定的话,这些话通常很奇怪,而且通常很荒谬。所以,当我打开Podcastle来创建我的数字AI语音时,它有很多非常具体的指示。好的,现在是时候做70个句子了。

开始吧。一切看起来都更好。夏天,我问我爸爸是否可以帮我看看那只可爱的猫。

在The Vergecast的AI迷你系列的第一部分中,David Pierce深入探讨了语音合成和人工智能生成的语音的兴起。这一过程对每个人来说都更容易上手,但它能有多逼真呢?延伸阅读: AI语音正在接管互联网 未来每个人都将能够克隆自己的声音 请发送电子邮件至[email protected]或致电866-VERGE11,我们很乐意听到您的声音。了解您的广告选择。访问podcastchoices.com/adchoices</context> <raw_text>0 那件事发生在七十句话之后,过了一会儿,第二天我收到一封电子邮件,说我的数字语音已准备就绪。你好。我是David Peers,但实际上不是。

我是一个AI机器人,但我被训练成听起来像David Peers。这令人信服吗?做得还不错,我并不特别印象深刻,但让我们给你更多素材,看看我们能做到什么。我们正在讨论主观且道德上存疑的事情。我将获取我最喜欢的电视时刻之一的文本。这是来自《办公室》的一段台词。

我的完美犯罪是什么?我半夜潜入蒂芙尼珠宝店。我是去拿保险箱吗?不,我是去拿吊灯。

令人惊讶的是,当我把它取下来时,一个女人抓住了我。她让我停手。那是她父亲的生意。

她是蒂芙尼。我说,不,我们做爱。整晚。第二天早上,警察来了。

我穿着他们的制服逃跑了。我告诉她去墨西哥见我,但我去了加拿大。我不信任她。

此外,我喜欢寒冷。三十年后,我收到一张明信片。我有一个儿子,他是警察局长。

故事很有趣。我告诉她,最后,在达罗的卡车旁在巴黎见我。这些年来她一直在等我。

她从未爱上其他人。我不在乎。我没有出现。我去柏林了,我把吊灯藏在那里。

这就像完美的六十分钟。我非常爱你。让我们让AI David看看这段台词。

伙计们,我的完美犯罪是什么?我半夜潜入蒂芙尼珠宝店。

我是去拿保险箱吗?不,我是去拿吊灯。它无价。

当我把它取下来时,一个女人抓住了我。她让我停手。那是她父亲的生意。她是蒂芙尼。我说,不,我们做爱整晚。好的,听听这个,感觉就像,是的,这听起来像我,但这也不像人类的声音,如果这说得通的话。总的来说,Podcastle非常易于使用,但我对结果并不特别印象深刻。

现在让我们试试Descript,我认为它通常是一款更复杂的音频软件。它也是一个过程。语音,是的,创建语音。

做了一些最近的星期五播客,关于准备和上传。好的。它终于上传了我的东西。

我们开始吧。我们可以提交训练数据,它已准备好创建你的声音,录制你的声音。我按下了录制按钮并朗读了一段声明。

我说这是一个存根,我们提交了它。我们上传了它,它说正在为你的训练项目做最后的润色。你的声音正在训练中,完成后我们会给你发邮件。我们开始吧。

我最终录入了大约四个小时自己的声音来实现这一点,因为幸运的是我已经录制了几个小时自己的声音,这些声音来自我在The Vergecast和播客上的录音。Podcastle处理所有这些内容需要很长时间。然后我收到一封电子邮件,说我的声音已准备就绪,收到这封邮件非常有趣。听起来是这样的,你好,我是David Pierce。

AI David Pierce,Descript版本的AI David Pierce,我听起来怎么样?我听到的是,我觉得如果我去了一所非常高档的新英格兰寄宿学校,而且还得了非常严重的感冒,我可能会听起来像这样。

但我认为总的来说,这个声音根本不像我。但让我们用我们的Joyroot台词再试一次。我的完美犯罪是什么?我半夜潜入蒂芙尼珠宝店。

我是去拿保险箱吗?不,我是去拿吊灯。它无价。

我有一个儿子,他是警察局长。故事从这里开始变得有趣。我告诉蒂芙尼在巴黎的达罗卡车旁见我。

她这些年来一直在等我。她从未爱上其他人。我没有出现。我去柏林了。我把吊灯藏在那里。

关于这个奇怪的是,它的意图,句子那种不自然的流畅性。它真的还不错。有点僵硬。

但它或多或少地按照你期望人类说话的方式进行。它只是听起来不对劲,而且当它不知道该怎么做时,它似乎会跳过很多单词和句子。我的结论基本上是,Descript对于像我们之前做的那样的小过滤器词语来说还不错,但仅此而已。

总的来说,到目前为止,我的结论是这些东西并不惊人,但它们还不错,而且说实话,制作它们真的非常容易,比我预期的要容易得多。所以让我们继续看看ElevenLabs。我们到目前为止谈到的公司拥有我见过的最简单的流程。

你只需注册,上传几分钟的音频,它实际上明确表示你只需要大约五分钟,而更多只是多余的,而且你经常会运行。所以我添加了一些Vergecast的内容,总共大约十五分钟,因为你知道,为了保险起见。然后就等了一会儿。这个只花了大约几分钟,我们就开始运行了。

嗨,又是AI David Pierce,这次是由ElevenLabs制作的,但我仍然是我,某种程度上,我认为你知道我的意思。我不会撒谎,这个让我起鸡皮疙瘩。它说得有点快,我觉得你不会那样说这句话,但这比我尝试过的或甚至听过的任何东西都要好得多。我总共花了大约九十秒钟来完成。奇怪的是,它并不总是这样。

我可以点击使用相同的文本再次生成,它会吐出一些突然不同的东西,我认为稍微差一点。嗨,又是AI David Pierce,这次是由ElevenLabs制作的,但我仍然是我,某种程度上,我认为你知道我的意思。再次,非常好,比其他任何东西都好。

我们尝试过了,但不如第一个好,这很奇怪。只是第一个在单词之前的那次停顿,就像我现实生活中会那样说的,我仍然有点无法克服它,这让我感到不安。无论如何,让我们用我们的Joyroot台词试试这个模型。

我的完美犯罪是什么?我半夜潜入蒂芙尼珠宝店。我是去拿保险箱吗?不,我是去拿吊灯。

它无价。当我把它取下来时,一个女人抓住了我。她让我停手。

那是她父亲的生意。她是蒂芙尼。我说,不,我们整晚做爱。

第二天早上,警察来了,我穿着他们的制服逃跑了。我告诉她去墨西哥见我,但我去了加拿大。我不信任她。

此外,我喜欢寒冷。三十年后,我收到一张明信片。我有一个儿子,他是警察局长。

故事从这里开始变得有趣。我告诉蒂芙尼在巴黎的达罗卡车旁见我。她这些年来一直在等我。

她从未爱上其他人。我不在乎。我没有出现。我去柏林了。我把吊灯藏在那里。还不完美,在我看来,随着它的进行,它变得越来越差,它听起来越来越不像人类,越来越像机器人单调的语调。

说每句话的时间都一样长,不,我的意思是,但我敢打赌,我可以用这个声音模仿几乎任何人,并能逃脱惩罚。我的完美犯罪是什么?好的,让我们再试一次。

这是苹果的个人语音功能,即将出现在许多人的iPhone上。

我怀疑很多人很快就会设置它。顺便说一句,这个设置起来比任何其他都费时。所以,在决定分享到面孔之后,第一件事就是确定。

我想允许应用程序请求使用吗?为什么我要创建我的个人语音?我将允许一百个种族,这可能需要大约十五分钟。

然后它会生成它。不,现在就去那里。让我们看看。

那是我看过的最好的电影。你还饿吗?今天天气真好。

它是附近大海的延伸。她的绘画风格显示出法国艺术家的影响。然后,一旦设置好,它也花了最长时间才完成。

你的手机必须正在充电且未使用,因为所有训练都在你的设备上进行,并且会消耗大量能量。我喜欢它发生在设备上,这出于隐私原因是好的,出于很多原因都是好的,但这需要一段时间。所以它花了我几天时间,但我最终让我的声音可以使用了。

嗨,我是David Pierce。我的iPhone语音。我有点像David,但又不是。

我们的手机,我们的手机,我们自己?通常情况下,我认为我会对此印象深刻。但在听到ElevenLabs的那个之后,我对这个有点不以为然。

让我们试试Joyroot测试。三十年后,我收到一张明信片。我有一个儿子,他是警察局长。

故事从这里开始变得有趣。我告诉蒂芙尼在巴黎的达罗卡车旁见我。她这些年来一直在等我。

她从未爱上其他人。我不在乎。我没有出现。

我去柏林了。我把吊灯藏在那里。仍然不错,对吧?这有点管用。

但没有人会把这个和人类的David混淆。总的来说,我认为这可能没问题。AI语音就是这样一种东西,它们越好,就越奇怪。

说真的,第一次听到ElevenLabs吐出那些东西,说我是David Pierce,那种感觉真的让我有点不安。它引发了所有这些重大问题,就像AI的许多事情一样,我们才刚刚开始处理这些问题。

这意味着我可以创建一个如此逼真的复制品,而且随着时间的推移,它们只会变得更好、更容易?作为制作并使用它的人,我有什么责任,即使是我的声音,其他人有什么责任?有什么责任?

现在,为我制作这些声音的服务有什么责任,因为他们在我的服务器上拥有我的这些极其私人的东西?现在关于AI音乐有很多争论,很明显,因为艺术家的声音被用来训练可以创作几乎任何人的声音的令人信服的歌曲的模型。你上YouTube就能听到AI Taylor Swift演唱几乎任何歌曲。

你可以听到AI Patrick Star演唱几乎任何歌曲,所有这些都将引发十年有趣的诉讼和伦理辩论。但同样的问题也即将出现在你我日常生活中。

我们如何使用这些工具?我们如何谈论它们的存在以及我们如何使用它们?是否可能在没有所有深层缺陷和缺点的情况下,从它们那里获得好的、有帮助的、民主化的东西?

我不知道,但我确实知道,我们早就应该开始讨论这个问题了,因为这项技术现在真的很好,而且发展得非常快。对吧?今天AI的谈话就到这里。

我们下周将回来讨论更多关于AI音乐的内容,因为我认为这是目前这个领域最有趣的事情之一,不仅是因为关于它的重大辩论,还因为我认为AI有一些非常有趣的方法可以帮助人们创作音乐,并彻底改变我们对音乐是什么的看法,这将非常引人入胜。我们本周三也会在这个节目中回归,播出一集大型节目,介绍本周苹果发布会的所有内容。但在那之前,AI David将为您播报演职员表。本节目由Andrew Marino和Liam James Brook制作,Meter是我们的音频编辑总监。

The Vergecast是Verge制作的节目,也是Vox Media播客网络的一部分。如果您有任何想法、问题、建议或其他任何内容,您可以发送电子邮件至[email protected]或致电Verge热线866-VERGE11。我们将在周三回归,特别节目将介绍苹果发布会的所有内容,以及本周其余时间的新闻,我们周五再见,摇滚乐。

好的,还不错。非常好。AI David的处女作。

但电子邮件地址是[email protected]。我们真的需要努力推广这个节目。请支持我们。摇滚乐。

本集由AWS赞助播出。AWS生成式AI为您提供工具,让您能够以全球经验最丰富的云的安全性和速度来推动业务发展。

本节目由Klaviyo赞助播出。您正在建立一家企业,Klaviyo帮助您发展壮大。Klaviyo的AI驱动营销平台将所有客户数据、电子邮件、SMS和分析整合在一个地方,让像Fishwife这样的品牌能够提供实时的个性化体验,从而让客户保持参与度。他们仅用四年时间就将收入增长了70倍,这要归功于Klaviyo。现在就实现这种规模,访问klaviyo.com,了解像Fishwife这样的品牌如何利用Klaviyo建立更智能的数字关系。