We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI Unveils Breakthrough Features That Could Change Everything

OpenAI Unveils Breakthrough Features That Could Change Everything

2025/4/16
logo of podcast Artificial Intelligence: AI News, ChatGPT, OpenAI, LLM, Anthropic, Claude, Google AI

Artificial Intelligence: AI News, ChatGPT, OpenAI, LLM, Anthropic, Claude, Google AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
Jaeden Schafer: 我将讨论 OpenAI 最近发布的重大更新,这些更新对整个 AI 生态系统产生了深远的影响。他们主要升级了转录和语音生成 AI 模型,这些模型已集成到我的软件 AI Box 中,并被许多其他人使用。这些升级使得上传音频文件生成文本,或将文本转换为音频变得更加高效和准确。 OpenAI 的改进对 AI 代理的开发至关重要。随着 AI 技术的发展,越来越多的应用需要更逼真的语音交互,而 OpenAI 的新模型正是满足这一需求的关键。他们提供的 API 使开发者能够轻松集成这些功能,从而创造出更自然、更具互动性的 AI 体验。 OpenAI 的新文本转语音模型 GPT-4 mini TTS 更加细致逼真,并且更易于控制。开发者可以根据需要调整语音风格,例如模拟疯狂科学家、平静的叙述者或运动后的喘息声。这项技术以前仅限于 OpenAI 的应用程序,现在开发者也可以使用了,这将极大地丰富各种应用程序的语音体验。 OpenAI 的新语音转文本模型 GPT-4L Transcribe 和 GPT-4L Mini Transcribe 替代了之前的 Whisper 模型。它们基于高质量、多样化的音频数据集进行训练,能够在嘈杂的环境中准确地进行转录。虽然在某些印度语系语言中的准确性还有待提高,但在英语和其他语言中的表现已经有了显著提升。 然而,OpenAI 这次并没有开源其新的转录模型,这与之前的做法不同。他们解释说,该模型规模庞大,不适合开源发布,这可能与商业利益有关。尽管如此,作为开发者,我仍然对能够使用这项强大的技术感到兴奋。

Deep Dive

Chapters
OpenAI has released upgraded transcription and voice-generating AI models via its API. These improvements are significant for the AI ecosystem, impacting various software and services. The enhanced models offer more realistic and nuanced voice generation, paving the way for more sophisticated AI agents.
  • OpenAI upgraded transcription and voice-generating AI models for developers.
  • Improvements are significant for the AI ecosystem.
  • Enhanced models offer more realistic and nuanced voice generation.
  • The upgrades are crucial for the development of sophisticated AI agents.

Shownotes Transcript

OpenAI发布了一些重要的更新,这些更新将对整个AI生态系统产生重大影响,因为它们是为开发者设计的。我将深入探讨这些更新。本质上,他们升级了他们的转录和语音生成AI模型。我个人已经将这些模型集成到我的软件中,我正在构建AI Box,我知道许多其他人也在使用。

我将向你们展示这些模型实际听起来是什么样的,因为我对此印象非常深刻。总的来说,OpenAI做出这样的重大举动意义重大,因为它会被集成到许多其他软件和服务中。在进入今天的主题之前,我想提一下,如果你想利用AI工具发展和扩展你的业务,你需要加入我的AI Hustle学校社区。每周我都会发布一个独家视频,这些视频不会在其他任何地方分享。

我分享如何使用AI工具来发展和扩展我的公司,包括工作流程、数据以及所有我无法公开分享的内容。所有这些都在社区中。我们有超过300名成员。我喜欢它的一点是,我们有来自各行各业的人,包括那些创办了价值1亿美元公司的人,以及那些刚刚开始创业旅程的人。你可以在那里获得很多不同的视角。所以无论你处于哪个阶段,你都会找到其他人可以分享他们正在使用的AI工具的宝贵见解,

并真正帮助你启动你的旅程。如果你感兴趣,我以前每月收费100美元,现在我已经将价格降至每月19美元。所以现在有折扣。这是一个非常划算的交易。如果我将来提高价格,如果你现在锁定价格,你的价格就不会被提高。描述中有一个链接。我很乐意邀请你加入并加入学校社区。好了,让我们来看看OpenAI正在做什么。所以

正如我提到的,他们升级了他们的转录和语音生成模型。具体来说,他们为开发者的API做了这件事。根据我的听感,这比他们之前的版本要好得多。我已经为我自己的软件公司做了很多测试。基本上,转录意味着你上传一个音频文件,它会创建一个文本,对吧?就像做字幕一样,或者你可以给它文本,它会生成

音频,或者你给它文本,它会生成音频,或者你给它音频,它会生成文本。它可以来回转换,对吧?所以它被称为Whisper,我认为是用于转录的,它真的很酷。所以

我想在这里提的一点是,随着他们的推广,我们越来越接近许多公司和AI模型正在讨论代理以及他们的代理愿景,他们将如何构建这些自动化系统,他们将如何独立完成所有这些任务。对。我认为真正重要的是,对于很多事情,你需要一个声音,就像你想象的那样。

哦,我想要一个AI旅行代理,我可以和他谈谈我的旅行,它可以给我推荐。如果你只是通过文本进行操作,你完全可以做到,从技术上讲,这可以工作,而且它可以完成任务。但我只是觉得,对于许多这样的代理来说,为了感觉更真实,你需要那个声音。因此,OpenAI一直在其语音模型方面处于领先地位,在其面向消费者的应用程序中,你拥有可以与之聊天的非常强大的语音模型。而这些并不总是转化为开发者可以获得的东西。所以现在他们有了这个API,你可以做到这一点,而且他们改进很多东西。所以,

不仅仅是能够生成通用的声音,它听起来相当逼真。我稍后会给你们演示一下,但我认为这太棒了。然后我认为这里另一个真正有趣的事情是他们实际上对TechCrunch所说的话。他们做了一个采访。他们引用说:“在接下来的几个月里,我们将看到越来越多的代理出现。”所以总的主题是帮助客户和开发者利用有用、可用和准确的代理。所以

我相信这是OpenAI的产品主管Oliver Godeman,他谈论的是这些更新中的许多内容,许多这些更新都是针对商业客户的,这不像你平均使用手机上的ChatGPT的人一样,他们改进了一个更好的文本到语音和语音到文本的API,这无关紧要,但我之所以如此兴奋,而且我认为你应该知道的原因是,你

无论你是否是开发者,你使用的每一个连接到该生态系统的应用程序(这是最大的生态系统,OpenAI的AI模型)都将开始使用这些新模型。所以它们越来越好,我们所拥有的一切都将变得更好。在未来几个月和几年里,我们将要使用的所有代理都将依赖于此。所以对我来说,这就是我为什么对此如此着迷的原因,我认为这很酷。

所以他们所说的,这些是他们特别提到的更新,他们的新的文本到语音模型,即GPT-4 mini TTS文本到语音,现在听起来更加细致和逼真。他们还说,与之前的语音模型相比,它更易于控制。所以基本上。

作为一名开发者,你现在可以让它以更自然的语言来说话。你可以说,像个疯狂的科学家一样说话,或者用一个非常平静的声音,或者假装你就像我说的那样,假装你刚刚跑步回来,你非常喘不过气来。它可以用所有这些不同的方式说话。所以有趣的是,几个月前这个功能在应用程序上可用,但开发人员无法使用它。所以OpenAI对这项非常酷的技术拥有垄断地位,我的意思是,这是他们创造的,所以这完全公平。但这真的非常令人兴奋,

开发人员现在将能够开始将这些细致入微的技术语音融入其他所有内容中。任何人都可以使用它。好的。我将给你们一个他们所说的真实犯罪风格的配音样本。

好的。然后他们还有一个女性专业人士声音的样本。这就像一个非常严肃的女性声音在谈论事情。所以我认为这真的很棒。酷的是它很容易控制。所以如果我说,我想要,

这种类型的人用这种方式说话。我希望他们像健身教练一样。我希望他们非常热情,充满动力。它会改变这种说话方式。对我来说,这太令人兴奋了。它不仅仅是,你知道的,过去我们有一个下拉菜单,好的,选择你最喜欢的这七个或八个声音中的一个。你只需下拉选择你最喜欢的语音。

现在你可以决定语音是什么。它经过了如此多不同风格和声音的训练,它知道所有这些,你可以把它们都放在那里。所以我认为这非常酷。

他们特别提到,Jeff Harris,他是OpenAI的产品团队成员,他接受了采访,他说:“在不同的情况下,你并不仅仅想要一个平淡单调的声音。如果你是客户支持部门的客户,你想让声音听起来更抱歉,因为你犯了一个错误,你实际上可以让声音表达出这种情绪。我们在这里坚信,开发者和用户不仅想要控制所说的话,还想控制说话的方式。”

我喜欢这个概念,对吧?如果我打电话给客户支持部门,我很生气,他们可以从字面上

对我说的话进行情感分析,然后说:“好的,这个人很生气。改变你的语气,让它更抱歉一些,或者这个人看起来很开心。匹配这个人的情绪或氛围。”所以有很多这样的事情,我知道这听起来很糟糕,但是,所以这种情况会发生。所以我不会把它放在你的雷达上。就像这个人,你知道的,如果我想在一个国家真正地制造政治两极分化,并使用这个来添加一些机器人电话,我会说,这个人真的很生气。像他们一样生气。试图激怒他们。我相信这

这是他们试图阻止发生的事情之一。但是,想象一下,这是一种可能性。所以我把它放在这里,作为人们将要做的事情。我对那件事感到兴奋吗?我认为他们可能会关闭它。但我只是说要注意,因为随着这些代理的出现,他们操纵人们或帮助人们的能力也在提高。我们必须建立,你知道的,无论什么。我们必须建立我们自己对这些事情如何运作的保障和理解。但它未来的能力非常非常有趣。

所以他们的新的语音到文本模型,GPT-4L Transcribe和GPT-4L Mini Transcribe,基本上取代了他们长期使用的Whisper模型。他们说他们已经“在一个多样化、高质量的音频数据集上进行了训练”。他们从来没有告诉你他们确切地从哪里获得了他们的

数据集。他们说他们甚至在非常“混乱”的环境中对其进行了训练,这很有趣。我会假设这一点,因为他们有点像,我不知道,过去害怕谈论这件事,那就是这其中很大一部分可能是YouTube。我的意思是,你可以想象有人拍摄了一个YouTube视频,视频中人们在争吵,有人拍摄了一个YouTube视频,视频中有人在道歉,有人拍摄了一个YouTube视频,视频中几乎包含了世界上的一切,然后只是从视频中提取音频。这是我对他们如何获得如此强大的模型的假设,基于一些

高管所说的话,“哦,我不知道我们是否使用了YouTube”,以及辞职的Miriam Marotti。我会说这几乎肯定是在YouTube上训练的。无论如何,我对此生气吗?我不知道。但是,呃,

我很高兴这项技术得到了改进,Harris也对此发表了评论,引用如下:“在这方面,这些模型比Whisper有了很大的改进,确保模型的准确性对于获得可靠的语音表达至关重要,在这个上下文中,准确意味着模型能够精确地听到单词,并且不会填充它们没有听到的细节”,所以他们谈论的是不要让这些东西产生幻觉,他们正在做很多很酷的事情,根据他们自己的内部基准测试

它更加准确。它有一个他们称之为词错误率的东西。所以现在是120%中的30%。这是针对印地语和达罗毗荼语系语言,如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语。这意味着该模型给你的每10个单词中就有3个与这些语言中的人工转录不同。这并不理想。

但除了英语之外,这显然要好得多。现在OpenAI,这与他们过去所做的不同,他们不打算公开发布他们的转录模型。他们历史上曾以MIT许可证的形式发布了Whisper的新版本用于商业用途,但这次他们没有这样做。

他们说,因为这是“比Whisper大得多”,所以它不适合公开发布。他们没有开源它。这是他们过去一直在做的事情,他们总是让事情变得越来越封闭,越来越少开源。这是许多公司,埃隆·马斯克,有很多戏剧性的事情,人们对此感到不满。所以我认为这非常有趣。

他们说,“这也是他们直接引用的说法”,他们说:“这不是那种你可以在你的笔记本电脑上本地运行的模型,就像Whisper一样。我们想确保如果我们发布开源的东西,我们会认真地去做。我们有一个针对特定需求而精心设计的模型。我们认为最终用户设备是开源模型最有趣的案例之一”,也就是他们说,“它太大太强大了,你无法在你的电脑上运行它。我们不会发布开源版本。”李。

当他们不发布开源版本时,他们会赚到更多的钱。所以有这个因素。所以你可以说也许他们试图阻止你在无法运行的硬件上运行它,或者你可以说他们试图赚更多的钱。这取决于你,你想如何解释它。无论如何,我很高兴能够访问它,是的,我很乐意为此付费,无论如何。作为一名开发者,这是我所期望的。但我真的很高兴能够访问这项技术。非常令人兴奋的重大更新。非常感谢收看。如果你喜欢今天的节目,如果你学到了什么新东西,我很乐意,

对播客进行评论。这对我来说意义重大。我非常感谢多年来所有对AI Chat进行评论的优秀人士。非常感谢收看。如果你想加入AI Hustle学校社区,描述中有一个链接。我很乐意帮助你利用AI工具发展和扩展你的业务或职业,这是我热衷的事情。我已经一年多以来每周都制作一个关于这个主题的视频。所以这非常有趣。非常感谢收看,我们下次再见。