我个人非常兴奋地看到OpenAI发布了他们最新的转录和语音生成AI模型的升级版本。这些升级对整个AI生态系统有着深远的影响,因为它们是专门为开发者设计的。我将深入探讨这些升级的细节。总的来说,OpenAI对转录和语音生成AI模型进行了升级,这直接体现在我正在开发的AI Box软件中,我相信许多其他开发者也一样。
这些升级主要体现在API接口上,其性能显著优于之前的版本。我已经在我的软件公司进行了大量的测试,结果非常令人印象深刻。转录功能允许你上传音频文件并将其转换为文本,反之亦然。这个过程类似于制作字幕,或者你可以提供文本生成音频,或者提供音频生成文本。这个模型我认为叫做Whisper,非常酷。
随着AI模型的不断发展,我们越来越接近构建能够独立完成任务的自动化系统,也就是所谓的AI代理。而对于许多应用场景来说,语音功能至关重要。想象一下,一个可以和你对话的AI旅行代理,它可以根据你的需求提供旅行建议。虽然纯文本交互也能实现,但我认为,为了让AI代理更真实,语音功能是必不可少的。OpenAI一直以来都是语音模型领域的先锋,他们的消费者应用中已经拥有非常强大的语音模型。现在,他们通过API接口将这些强大的语音模型提供给开发者,这非常令人兴奋。
除了生成通用的语音之外,这些新模型还能生成更逼真、更细致的语音。我稍后会演示一下。更重要的是,这些模型的可控性更强。作为开发者,你可以让AI以各种不同的风格说话,例如,模仿疯狂科学家,或者使用平静的语调,甚至模仿你刚刚跑完步,气喘吁吁的样子。这在几个月前就已经在他们的应用中实现了,但现在才向开发者开放API接口。我认为这非常棒,因为这意味着开发者可以将这些细致入微的语音技术融入到各种应用中。
OpenAI的新文本转语音模型GPT-4 mini TTS更加细致逼真,并且更易于控制。开发者可以更自然地控制语音的表达方式。OpenAI的产品团队成员Jeff Harris在采访中表示,在不同的语境下,你并不总是想要单调的语音。例如,在客户支持中,如果出现错误,你可能希望语音表达出歉意。他们相信开发者和用户不仅想要控制语音的内容,更想要控制语音的表达方式。
OpenAI的新语音转文本模型GPT-4L Transcribe和GPT-4L Mini Transcribe取代了之前的Whisper模型,并使用了更加多样化、高质量的音频数据集进行训练。他们声称这些模型甚至在嘈杂的环境中也表现出色。我推测,他们可能使用了大量的YouTube数据进行训练。虽然这可能存在一些争议,但我仍然对这项技术的进步感到兴奋。
根据OpenAI内部基准测试,新的语音转文本模型的准确性有了显著提高。他们的单词错误率大约为30%,尤其是在印地语和达罗毗荼语系语言(如泰米尔语、泰卢固语、马拉雅拉姆语、卡纳达语)中。虽然这并不完美,但在英语之外的其他语言中,这已经是一个巨大的进步。然而,与以往不同的是,OpenAI这次并没有开源他们的新语音转文本模型。他们解释说,由于这个模型比Whisper大得多,因此不适合开源发布。这与他们过去一直开源Whisper的做法有所不同,也引发了一些争议。他们表示,这个模型的规模太大,无法在个人电脑上运行,因此他们需要谨慎地进行开源。当然,这其中也可能存在商业利益的考虑。无论如何,作为一名开发者,我很高兴能够使用这项技术。
Deep Dive