We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI Unveils Breakthrough Features That Could Change Everything

OpenAI Unveils Breakthrough Features That Could Change Everything

2025/4/16
logo of podcast No Priors AI

No Priors AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
我个人认为OpenAI的最新发布对整个AI生态系统具有重大影响,因为它主要面向开发者,并升级了其转录和语音生成AI模型。我已经将这些模型集成到我正在开发的AI Box软件中,并且我知道许多其他人也在使用。 OpenAI升级了其转录和语音生成模型,使其API对开发者更友好,并且比之前的版本更好。转录功能允许你上传音频文件并生成文本,反之亦然。我认为这非常酷。 随着AI模型的发展,语音功能在AI代理中变得越来越重要。OpenAI在语音模型方面做出了重要贡献,使开发者能够创建更逼真、更自然的AI代理。 OpenAI正在帮助客户和开发者利用更有用、更易用、更准确的AI代理。他们最新的文本转语音模型GPT-4 mini TTS更加细致、逼真,并且更易于控制。开发者可以控制语音的风格和情感,使其更自然和情感化。 OpenAI的新语音转文本模型GPT-4L Transcribe和GPT-4L Mini Transcribe替代了之前的Whisper模型,并基于高质量、多样化的音频数据集进行训练。虽然在某些语言上的错误率仍然较高,但在英语等其他语言上的准确性有了显著提高。 OpenAI这次没有开源其新的语音转文本模型,这与之前的做法不同。他们解释说,该模型规模太大,无法在普通电脑上运行,也可能出于商业利益考虑。尽管如此,我仍然很高兴能够访问这项技术。

Deep Dive

Chapters
OpenAI has recently released upgraded transcription and voice-generating AI models, impacting the entire AI ecosystem. These improvements are particularly beneficial for developers and are already integrated into various software and services. The episode also promotes the speaker's AI Hustle School community.
  • OpenAI upgraded transcription and voice-generating AI models.
  • Improvements are beneficial for developers.
  • Integration into various software and services.
  • AI Hustle School community promotion.

Shownotes Transcript

OpenAI发布了一些重大的新版本,这些版本将对整个AI生态系统产生重大影响,因为它们是为开发者设计的。因此,我将深入探讨所有这些内容。本质上,他们升级了他们的转录和语音生成AI模型。这是我个人已经嵌入到我的软件中的东西。我正在构建AI Box,我知道很多其他人也在使用。

我会向你们展示一些实际听起来的效果演示,因为我对此印象非常深刻,但总的来说,你知道,当OpenAI做出这样的重大举动时,这是一个大事,因为它会被嵌入到许多其他软件和服务中。所以在我们进入今天的主题之前,我想提一下,如果你曾经想过利用AI工具来发展和扩展你的业务,你需要加入我的AI Hustle学校社区。每周,我都会发布一个独家视频,我不会在其他任何地方分享。

分享我如何使用AI工具来发展和扩展我的公司,以及工作流程、数据,所有我无法公开分享的内容。所有这些都在里面。我们有超过300名成员。我喜欢它的一点是,我们有来自各行各业的人,例如,那些已经创办了价值1亿美元公司的人,以及那些刚刚开始创业旅程的人。你会在那里获得很多不同的视角。所以无论你处于哪个阶段,你都会找到其他人可以分享他们正在使用的AI工具的宝贵见解,

并真正帮助你启动你的旅程。所以如果你感兴趣,我以前每月收费100美元,现在我已经降价到每月19美元。所以现在打折了。这是一个很好的交易。如果我将来涨价,如果你现在锁定价格,就不会涨价。描述中有一个链接。我很乐意让你加入并看到你在学校社区。好了,让我们来看看OpenAI正在做什么。所以

就像我提到的,他们已经升级了他们的转录和语音生成模型。具体来说,他们为开发人员的API做了这件事。根据我的听感,这比他们之前的版本要好得多。你知道,我已经为我自己的软件公司做了很多测试。本质上,转录意味着你上传一个音频文件,然后它会创建文本,对吧?所以它就像做字幕,或者你可以给它文本,它会生成

音频,或者你给它文本,它会生成音频,或者你给它音频,它会生成文本。它来回转换,对吧?所以它被称为Whisper,我认为是用于转录的,它真的很酷。所以

我想在这里提的一件事是,随着他们的推广,我们越来越接近许多公司和AI模型正在讨论代理及其代理愿景的地方,他们将如何构建这些自动化系统,他们将如何独立完成所有这些任务。对。所以我认为真正重要的是,对于很多事情,你需要一个声音,就像你想象的那样。

哦,我想要一个AI旅行代理,我可以和他谈谈我的旅行,它可以给我推荐。如果你只是通过文本进行操作,这完全可以,从技术上讲,这可以工作,并且可以完成任务。但我只是觉得,对于许多这样的代理来说,为了感觉更真实,你需要那个声音。因此,OpenAI一直在引领

在他们语音模型的前沿,在他们的面向消费者的应用程序上,你拥有可以与之聊天的非常强大的语音模型。这些并不总是转化为开发人员可以获得的东西。所以现在他们有了这个API,你可以做到这一点,而且他们改进很多东西。所以,

不仅仅是能够生成通用的声音。听起来相当逼真。我稍后会给你们一个演示,但我认为这太棒了。然后我认为这里真正有趣的是他们实际上对TechCrunch所说的话。他们做了一个采访。他们引用说:“在接下来的几个月里,我们将看到越来越多的代理出现。”所以总的主题是帮助客户和开发人员利用有用、可用和准确的代理。所以

我相信这是OpenAI的产品主管Oliver Godeman,他正在谈论这些更新中的许多内容,你知道很多这些都是针对商业客户的,这不像你平均使用手机上的ChatGPT的人一样,比如他们想出了一个更好的文本到语音和语音到文本的API,这无关紧要,但我之所以如此兴奋,而且我认为你应该知道的原因是,你

无论你是否是开发者,你使用的每一个连接到该生态系统的应用程序(这是最大的生态系统,OpenAI的AI模型)都将开始使用这些新模型。所以它们越来越好,我们所拥有的一切都将变得更好。在未来几个月和几年里,我们将要使用的所有代理都将依赖于此。所以对我来说,这就是我为什么对此如此狂热的原因。我认为这很酷。

所以他们所说的,这些是他们特别提到的更新,他们的新的文本到语音模型,即GPT-4 mini TTS文本到语音,现在听起来更加细致和逼真。他们还说,与之前的语音模型相比,它更易于控制。所以本质上。

作为一名开发者,你现在可以让它以更自然的语言来说话。你可以说,像个疯狂的科学家一样说话,或者用一个非常平静的声音,或者假装你就像我说的那样,假装你刚刚跑步回来,你非常喘不过气来。它可以用所有这些变化的方式说话。所以有趣的是,几个月前,这在应用程序上可用,但开发人员无法使用它。所以OpenAI对这项非常酷的技术拥有垄断地位,我的意思是,这是他们制造的,所以这完全公平。但这真的非常令人兴奋,

开发人员现在将能够开始将这种真正细致入微的技术语音融入其他所有内容中。任何人都可以使用它。好的。我将给你们一个他们所说的真实犯罪风格的配音样本。

好的。然后他们还有一个关于女性专业人士声音的样本。这就像一个非常严肃的女性声音在谈论事情。所以我认为这真的很棒。酷的是它很容易控制。所以如果我说,我想要,

这种类型的人以这种方式说话。我希望他们像健身教练一样。我希望他们非常热情,充满动力。它会改变这种说话方式。对我来说,这太令人兴奋了。它不仅仅是,你知道,过去我们有一个下拉菜单,比如,好的,选择你最喜欢的这七个或八个声音中的一个。你只需下拉,选择你最喜欢的语音。

现在你可以决定语音是什么。它经过了如此多不同风格和声音的训练,它知道所有这些,你可以把它们都放在那里。所以我认为这非常酷。

他们特别提到,Jeff Harris,他是OpenAI的产品团队成员,他接受了采访,他说:“在不同的情况下,你并不仅仅想要一个平淡单调的声音。如果你是客户支持部门的客户,你想让声音听起来更抱歉,因为你犯了一个错误,你实际上可以让声音表达出这种情绪。我们在这里的信念是,开发人员和用户不仅想要控制所说内容,还想要控制说话方式。”

我喜欢这个概念,对吧?如果我打电话给客户支持部门,我很生气,他们可以从字面上

对我说的话进行情感分析,然后说:“好的,这个人很生气。改变你的语气,让它更抱歉,或者这个人看起来很开心。匹配这个人的情绪或氛围。”所以有很多这样的事情,我知道这听起来很糟糕,但是,所以这种情况会发生。所以我不会把它放在你的雷达上。就像这个人,你知道,如果我想在一个国家真正地制造政治两极分化,并使用这个进行一些机器人电话,我会说,这个人真的很生气。像他们一样生气。试图激怒他们。我相信这

这是他们试图阻止发生的事情之一。但是,想象一下,这是一种可能性。所以我把它放在这里,作为人们将要做的的事情。我对那件事感到兴奋吗?我认为他们可能会关闭它。但我只是说要注意,因为随着这些代理的出现,他们操纵人们或帮助人们的能力得到了提高。我们必须建立,你知道,无论什么。我们必须建立我们自己对这些事情如何运作的保障和理解。但它未来的能力非常非常有趣。

所以他们的新的语音到文本模型,GPT-4L Transcribe和GPT-4L Mini Transcribe,基本上取代了他们长期使用的Whisper模型。他们说他们已经,“在一个多样化、高质量的音频数据集上进行了训练”。他们从来没有告诉你他们确切地从哪里获得了他们的

数据集。他们说他们甚至在非常“混乱”的环境中对其进行了训练,这很有趣。我会假设这一点,因为他们有点像,我不知道,过去害怕谈论这件事,那就是这其中很大一部分可能是YouTube。我的意思是,你可以想象有人拍摄了一个YouTube视频,内容是人们在争吵,有人拍摄了一个YouTube视频,内容是有人在道歉,有人拍摄了一个YouTube视频,内容是世界上几乎所有的事情,然后只是从那里获取音频。这是我对他们如何根据一些

高管所说的话获得如此强大的模型的假设,哦,我真的不知道我们是否使用了YouTube,以及辞职,也就是Miriam Marotti。我会说这几乎肯定是在YouTube上训练的。无论如何,我对此生气吗?我不知道。但是,呃,

我很高兴这项技术得到了改进,Harris也对此发表了评论,引用道:“在这方面,这些模型比Whisper有了很大的改进,确保模型的准确性对于获得可靠的语音表达至关重要,在这个上下文中,准确意味着模型能够精确地听到单词,并且不会填充它们没有听到的细节”,所以他们谈论的是不让这些东西产生幻觉,他们正在做很多很酷的事情,根据他们自己的内部基准测试

它更加准确。它有一个他们称之为词错误率的东西。所以现在是120%中的30%。这是针对印地语和达罗毗荼语系语言,如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语。这意味着该模型给你的每10个单词中就有3个与这些语言中的人工转录不同。这并不理想。

但除了英语之外,这显然要好得多。现在,OpenAI并没有像过去那样做,但他们不打算公开发布他们的转录模型。他们历史上曾以MIT许可证的形式发布了Whisper的新版本用于商业用途,但这次他们没有这样做。

他们说,因为这是,“比Whisper大得多”,它不适合公开发布。他们没有开源它。这是他们过去一直在做的事情,他们总是让事情变得越来越封闭,越来越少开源。这是许多公司,埃隆·马斯克,有很多戏剧性的事情,人们对此感到不满。所以我认为这非常有趣。

他们说,这是他们直接引用的,“这不是一种你可以在笔记本电脑上本地运行的模型,就像Whisper一样。我们想确保如果我们发布开源的东西,我们会认真地去做。我们有一个针对特定需求而精心设计的模型。我们认为最终用户设备是开源模型最有趣的案例之一”,也就是他们说,它太大太强大了,你无法在你的电脑上运行它。我们不会发布开源版本。李。

当他们不发布开源版本时,他们会赚更多的钱。所以有这个因素。所以你可以说也许他们试图阻止你在无法运行的硬件上运行它,或者你可以说他们试图赚更多的钱。这取决于你,你想如何解释它。无论如何,我很高兴能够访问它,是的,我很乐意为此付费,无论如何。作为一名开发者,这是我所期望的。但我真的很高兴能够访问这项技术。非常令人兴奋的重大更新。非常感谢收看。如果你喜欢今天的节目,如果你学到了什么新东西,我很乐意,

对播客进行评论。这对我来说意义重大。我非常感谢多年来所有对AI Chat进行评论的优秀人士。非常感谢收看。如果你想加入AI Hustle学校社区,描述中有一个链接。我很乐意帮助你使用AI工具发展和扩展你的业务或职业,这是我热衷的事情。我已经一年多以来每周都制作一个关于这个的视频。所以这非常有趣。非常感谢收看,我们下次再见。