We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Latest from OpenAI is a Total Game Changer

The Latest from OpenAI is a Total Game Changer

2025/4/16
logo of podcast Lex Fridman Podcast of AI

Lex Fridman Podcast of AI

AI Deep Dive Transcript
People
J
Jaeden Schafer
Topics
我个人非常兴奋地看到OpenAI发布了他们最新的转录和语音生成AI模型的升级版本。这些升级对整个AI生态系统有着深远的影响,因为它们是专门为开发者设计的。我将深入探讨这些升级的细节。总的来说,OpenAI对转录和语音生成AI模型进行了升级,这直接体现在我正在开发的AI Box软件中,我相信许多其他开发者也一样。 这些升级主要体现在API接口上,其性能显著优于之前的版本。我已经在我的软件公司进行了大量的测试,结果非常令人印象深刻。转录功能允许你上传音频文件并将其转换为文本,反之亦然。这个过程类似于制作字幕,或者你可以提供文本生成音频,或者提供音频生成文本。这个模型我认为叫做Whisper,非常酷。 随着AI模型的不断发展,我们越来越接近构建能够独立完成任务的自动化系统,也就是所谓的AI代理。而对于许多应用场景来说,语音功能至关重要。想象一下,一个可以和你对话的AI旅行代理,它可以根据你的需求提供旅行建议。虽然纯文本交互也能实现,但我认为,为了让AI代理更真实,语音功能是必不可少的。OpenAI一直以来都是语音模型领域的先锋,他们的消费者应用中已经拥有非常强大的语音模型。现在,他们通过API接口将这些强大的语音模型提供给开发者,这非常令人兴奋。 除了生成通用的语音之外,这些新模型还能生成更逼真、更细致的语音。我稍后会演示一下。更重要的是,这些模型的可控性更强。作为开发者,你可以让AI以各种不同的风格说话,例如,模仿疯狂科学家,或者使用平静的语调,甚至模仿你刚刚跑完步,气喘吁吁的样子。这在几个月前就已经在他们的应用中实现了,但现在才向开发者开放API接口。我认为这非常棒,因为这意味着开发者可以将这些细致入微的语音技术融入到各种应用中。 OpenAI的新文本转语音模型GPT-4 mini TTS更加细致逼真,并且更易于控制。开发者可以更自然地控制语音的表达方式。OpenAI的产品团队成员Jeff Harris在采访中表示,在不同的语境下,你并不总是想要单调的语音。例如,在客户支持中,如果出现错误,你可能希望语音表达出歉意。他们相信开发者和用户不仅想要控制语音的内容,更想要控制语音的表达方式。 OpenAI的新语音转文本模型GPT-4L Transcribe和GPT-4L Mini Transcribe取代了之前的Whisper模型,并使用了更加多样化、高质量的音频数据集进行训练。他们声称这些模型甚至在嘈杂的环境中也表现出色。我推测,他们可能使用了大量的YouTube数据进行训练。虽然这可能存在一些争议,但我仍然对这项技术的进步感到兴奋。 根据OpenAI内部基准测试,新的语音转文本模型的准确性有了显著提高。他们的单词错误率大约为30%,尤其是在印地语和达罗毗荼语系语言(如泰米尔语、泰卢固语、马拉雅拉姆语、卡纳达语)中。虽然这并不完美,但在英语之外的其他语言中,这已经是一个巨大的进步。然而,与以往不同的是,OpenAI这次并没有开源他们的新语音转文本模型。他们解释说,由于这个模型比Whisper大得多,因此不适合开源发布。这与他们过去一直开源Whisper的做法有所不同,也引发了一些争议。他们表示,这个模型的规模太大,无法在个人电脑上运行,因此他们需要谨慎地进行开源。当然,这其中也可能存在商业利益的考虑。无论如何,作为一名开发者,我很高兴能够使用这项技术。

Deep Dive

Shownotes Transcript

OpenAI发布了一些重磅新产品,这些发布将对整个AI生态系统产生重大影响,因为它们是为开发者设计的。我将深入探讨所有这些内容。本质上,他们升级了他们的转录和语音生成AI模型。我个人已经将此集成到我的软件中。我正在构建AI Box,我知道许多其他人也在使用。

我会向你们展示一些实际听起来的效果演示,因为我对此印象非常深刻,但总的来说,你知道,当OpenAI做出这样的重大举动时,它意义重大,因为它会被嵌入到许多其他软件和服务中。在我们进入今天的主题之前,我想提一下,如果你想利用AI工具发展和扩展你的业务,你需要加入我的AI Hustle School社区。每周,我都会发布一个独家视频,我不会在其他任何地方分享。

分享我如何使用AI工具来发展和扩展我的公司,以及工作流程、数据,所有我无法公开分享的内容都在这里。我们有超过300名成员。我喜欢它的一点是,我们有来自各行各业的人,例如,有些人已经创办了价值1亿美元的公司,也有些人刚刚开始他们的创业之旅。你会在那里获得很多不同的视角。所以无论你处于哪个阶段,你都会找到其他人可以分享他们正在使用的AI工具的宝贵见解,

并真正帮助你启动你的旅程。如果你感兴趣,我以前每月收费100美元,现在我已经降价到每月19美元。所以现在打折了,非常划算。如果我将来涨价,如果你现在锁定价格,就不会涨价。描述中有一个链接。我很乐意邀请你加入,并在学校社区见到你。好了,让我们来看看OpenAI正在做什么。所以

就像我提到的,他们升级了他们的转录和语音生成模型。具体来说,他们为开发人员的API做了这件事。根据我的听感,这比他们之前的版本要好得多。你知道,我已经为我自己的软件公司做了很多测试。基本上,转录意味着你上传一个音频文件,然后它会创建文本,对吧?就像做字幕一样,或者你可以给它文本,它会生成

音频,或者你给它文本,它会生成音频,或者你给它音频,它会生成文本。它可以来回转换,对吧?所以它被称为Whisper,我认为是用于转录的,它真的很酷。所以

我想在这里提的一点是,随着他们的推广,我们越来越接近许多公司和AI模型正在讨论代理及其代理愿景的阶段,他们将如何构建这些自动化系统,他们将如何独立完成所有这些任务。对。所以我认为真正重要的是,对于很多事情,你需要一个声音,就像你想象的那样。

哦,我想要一个AI旅行代理,我可以和他谈谈我的旅行,它可以给我推荐。如果你只是通过文本进行操作,你完全可以做到,从技术上讲,这可以工作,并且可以完成任务。但我只是觉得,对于许多这样的代理来说,为了感觉更真实,你需要那个声音。因此,OpenAI一直在引领

在他们语音模型的前沿,在他们的面向消费者的应用程序中,你拥有可以与之聊天的非常强大的语音模型。这些并不总是转化为开发人员可以获得的东西。所以现在他们有了这个API,你可以做到这一点,而且他们改进很多东西。所以,

不仅仅是能够生成通用的声音,它听起来相当逼真。我稍后会给你们一个演示,但我认为这太棒了。然后我认为这里另一个非常有趣的事情是他们实际上对TechCrunch所说的话。他们做了一个采访。他们引用说:“在接下来的几个月里,我们将看到越来越多的代理出现。”所以总的主题是帮助客户和开发人员利用有用、可用和准确的代理。所以

我相信这是OpenAI的产品主管Oliver Godeman,他谈论的是这些更新中的许多内容,很多都是针对商业客户的,这不像你平均使用手机上的ChatGPT的人一样,他们改进了一个更好的文本到语音和语音到文本API,这无关紧要,但我之所以如此兴奋,而且我认为这对你们来说很重要,是因为你们

无论你是否是开发者,你使用的每一个与该生态系统(即最大的生态系统,OpenAI的AI模型)相连的应用程序都将开始使用这些新模型。所以它们越来越好,我们所拥有的一切都将变得更好。在未来几个月和几年中,我们将使用的所有代理都将依赖于此。所以对我来说,这就是我为什么对此如此狂热的原因,我认为这很酷。

所以他们所说的,这些是他们特别提到的更新,他们的新的文本到语音模型,即GPT-4 mini TTS文本到语音,现在听起来更加细致和逼真。他们还说,与之前的语音模型相比,它更易于控制。所以基本上。

作为一名开发者,你现在可以让它以更自然的语言来说话。你可以说,像个疯狂的科学家一样说话,或者用一个非常平静的声音,或者假装你就像我说的那样,假装你刚刚跑步回来,你气喘吁吁的。它可以用所有这些不同的方式说话。所以有趣的是,几个月前,这在应用程序上就已经可以使用了,但开发人员无法使用它。所以OpenAI对这项非常酷的技术拥有垄断地位,我的意思是,这是他们创造的,所以这完全公平。但这真的非常令人兴奋,

开发人员现在将能够开始将这些细致入微的技术语音融入其他一切中。任何人都可以使用它。好的,我将给你们一个他们所说的真实犯罪风格的配音样本。

好的。然后他们还有一个女性专业人士声音的样本。这就像一个非常严肃的女性声音在谈论事情。所以我认为这真的很棒。酷的是它很容易控制。所以如果我说,我想要,

这种类型的人用这种方式说话。我希望他们像健身教练一样。我希望他们非常热情,充满动力。它会改变这种说话方式。对我来说,这太令人兴奋了。它不仅仅是,你知道,过去我们有一个下拉菜单,好的,选择你最喜欢的这七个或八个声音中的一个。你只需下拉选择你最喜欢的语音。

现在你可以决定语音是什么。它经过了如此多不同风格和声音的训练,它知道所有这些,你可以把它们都放在那里。所以我认为这非常酷。

他们特别提到,Jeff Harris,他是OpenAI的产品团队成员,他接受了采访,他说:“在不同的情况下,你并不仅仅想要一个平淡单调的声音。如果你是客户支持部门的客户,你想让声音听起来更抱歉,因为你犯了一个错误,你实际上可以让声音表达出这种情绪。我们在这里坚信,开发人员和用户不仅想要控制所说内容,还想要控制说话方式。”

我喜欢这个概念,对吧?如果我打电话给客户支持,我很生气,他们可以字面意义上

对我说的话进行情感分析,然后说:“好吧,这个人很生气。改变你的语气,让它更抱歉一些,或者这个人看起来很开心。匹配这个人的情绪或氛围。”所以有很多这样的事情,我知道这听起来很糟糕,但是,所以这种情况会发生。所以我不会把它放在你的雷达上。就像这个人,你知道,如果我想在一个国家真正地制造政治两极分化,并使用这个进行一些机器人电话,我会说,这个人真的很生气。让他们也生气。试图激怒他们。我相信这

这是他们试图阻止发生的事情之一。但是,想象一下,这是一种可能性。所以我把它放在这里,作为人们将要做的事情。我对那件事感到兴奋吗?我认为他们可能会关闭它。但我只是说要注意,因为随着这些代理的出现,他们操纵人们或帮助人们的能力也在提高。我们必须建立,你知道,无论如何。我们必须建立我们自己的保障措施,并了解这些东西是如何工作的。但它未来的能力非常非常有趣。

所以他们的新的语音到文本模型,GPT-4L Transcribe和GPT-4L Mini Transcribe,基本上取代了他们长期使用的Whisper模型。他们说他们已经,“在一个多样化、高质量的音频数据集上进行了训练”。他们从来没有告诉你他们确切地从哪里获得了他们的

数据集。他们说他们甚至在非常“混乱”的环境中对其进行了训练,这很有趣。我认为,因为他们过去有点害怕谈论这件事,所以我的假设是,这其中很大一部分可能是YouTube。我的意思是,你可以想象有人拍摄了一个YouTube视频,内容是人们在争吵,有人拍摄了一个YouTube视频,内容是有人在道歉,有人拍摄了一个YouTube视频,内容是世界上几乎所有的事情,然后只是从那里获取音频。这是我对他们如何获得如此强大的模型的假设,基于一些

高管所说的话,“我不知道我们是否使用了YouTube”,例如Miriam Marotti。我会说这几乎肯定是在YouTube上训练的。无论如何,我对此生气吗?我不知道。但是,呃,

我很高兴这项技术得到了改进,Harris也对此发表了评论,引用如下:“在这方面,这些模型比Whisper有了很大的改进,确保模型的准确性对于获得可靠的语音表达至关重要,在这个上下文中,准确意味着模型能够精确地听到单词,并且不会填充它们没有听到的细节”,所以他们谈论的是不让这些东西产生幻觉,他们正在做很多很酷的事情,根据他们自己的内部基准测试

它更加准确。它有一个他们称之为词错误率的东西。所以现在是120%中的30%。这是针对印地语和德拉维达语系语言,如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语。这意味着该模型给你的十个单词中,有三个与这些语言中的人工转录不同。这并不理想。

但除了英语之外,这显然要好得多。现在,OpenAI并没有像过去那样做,他们不打算公开发布他们的转录模型。他们历史上曾以MIT许可证的形式发布了Whisper的新版本,用于商业用途,但这次他们没有这样做。

他们说,因为这比Whisper“大得多”,所以它不适合公开发布。这是他们过去一直在做的事情,他们总是让事情变得越来越封闭,越来越不开放。这是许多公司,埃隆·马斯克,有很多戏剧性的事情,人们对此感到不满。所以我认为这非常有趣。

他们说,这也是他们直接引用的说法。他们引用说:“这不是那种你可以在笔记本电脑上本地运行的模型,就像Whisper一样。我们想确保,如果我们以开源的方式发布东西,我们会认真地去做。我们有一个针对特定需求而精心设计的模型。我们认为最终用户设备是开源模型最有趣的案例之一”,也就是他们说,它太大太强大了,你无法在你的电脑上运行它。我们不会发布开源版本。李。

当他们不发布开源版本时,他们会赚到更多的钱。所以有这个因素。所以你可以说,也许他们试图阻止你在无法运行的硬件上运行它,或者你可以说他们试图赚更多的钱。这取决于你,你想如何解释它。无论如何,我很高兴能够访问它。是的,我很乐意为此付费,无论如何。作为一名开发者,这是我所期望的。但我真的很高兴能够访问这项技术。非常令人兴奋的重大更新。非常感谢收看。如果你喜欢今天的节目,如果你学到了什么新东西,我很乐意,

在播客上留下评论。这对我来说意义重大。我非常感谢多年来所有对AI Chat进行评论的优秀人士。非常感谢收看。如果你想加入AI Hustle School社区,描述中有一个链接。我很乐意帮助你利用AI工具发展和扩展你的业务或职业,这是我热衷的事情。而且我已经一年多以来每周都制作一个关于这个的视频。所以这非常有趣。非常感谢收看,我们下次再见。