OpenAI发布了一些重要的更新,这些更新将对整个AI生态系统产生重大影响,因为它们是为开发者设计的。我将深入探讨这些更新。本质上,他们升级了他们的转录和语音生成AI模型。我个人已经将这些模型集成到我的软件中,我正在构建AI Box,我知道许多其他人也在使用。
我将向你们展示这些模型实际听起来是什么样的,因为我对此印象非常深刻。总的来说,OpenAI做出这样的重大举动意义重大,因为它会被嵌入到许多其他软件和服务中。在进入今天的主题之前,我想提一下,如果你想利用AI工具来发展和扩展你的业务,你需要加入我的AI Hustle School社区。每周,我都会发布一个独家视频,这些视频不会在其他任何地方分享。
我分享如何使用AI工具来发展和扩展我的公司,包括工作流程、数据以及所有我无法公开分享的内容。所有这些都在社区中。我们有超过300名成员。我喜欢它的一点是,我们有来自各行各业的人,包括那些创办了价值1亿美元公司的人,以及那些刚刚开始创业旅程的人。你可以在其中获得很多不同的视角。所以无论你处于哪个阶段,你都会找到其他人可以分享他们正在使用的AI工具的宝贵见解,
并真正帮助你启动你的旅程。如果你感兴趣,我以前每月收费100美元,现在我已经将价格降至每月19美元。所以现在有折扣,非常划算。如果我将来提高价格,如果你现在锁定价格,你的价格就不会上涨。描述中有一个链接,我很乐意邀请你加入并加入学校社区。好了,让我们来看看OpenAI正在做什么。所以
就像我提到的那样,他们升级了他们的转录和语音生成模型。具体来说,他们为开发者的API做了这件事。根据我的听感,这比他们之前的版本要好得多。我已经为我自己的软件公司做了很多测试。基本上,转录意味着你上传一个音频文件,它会创建一个文本,对吧?就像做字幕一样,或者你可以给它文本,它会生成
音频,或者你给它文本,它会生成音频,或者你给它音频,它会生成文本。它可以来回转换,对吧?所以它被称为Whisper,我认为是用于转录的,它真的很酷。所以
我想在这里提的一点是,随着他们的推出,我们越来越接近许多公司和AI模型正在讨论代理以及他们的代理愿景,他们将如何构建这些自动化系统,他们将如何独立完成所有这些任务。对。我认为真正重要的是,对于很多事情,你需要一个声音,就像你想象的那样。
哦,我想要一个AI旅行代理,我可以和他谈谈我的旅行,它可以给我推荐。如果你只是通过文本进行操作,你完全可以做到,从技术上讲,这可以工作,并且可以完成任务。但我只是觉得,对于许多这样的代理来说,为了感觉更真实,你需要那个声音。因此,OpenAI一直在其语音模型方面处于领先地位,在其面向消费者的应用程序中,你拥有可以与之聊天的功能强大的语音模型。而这些并不总是转化为开发者可以获得的东西。所以现在他们有了这个API,你就可以做到这一点,而且他们改进很多东西。所以,
不仅仅是能够生成通用的声音,它听起来相当逼真。我稍后会给你们演示一下,但我认为这太棒了。然后我认为这里另一个真正有趣的事情是他们实际上对TechCrunch所说的话。他们做了一个采访。他们引用说:“在接下来的几个月里,我们将看到越来越多的代理出现。”所以总的主题是帮助客户和开发者利用有用、可用和准确的代理。所以
我相信这是OpenAI的产品主管Oliver Godeman,他谈论的是这些更新中的许多内容,许多内容都是针对商业客户的,这不像你平均使用手机上的ChatGPT的人一样,他们改进了一个更好的文本到语音和语音到文本的API,这无关紧要,但我之所以如此兴奋,我认为这对你来说很重要,因为你
无论你是否是开发者,你使用的每一个连接到该生态系统的应用程序(这是最大的生态系统,OpenAI的AI模型)都将开始使用这些新模型。所以它们越来越好,我们所拥有的一切都将变得更好。在未来几个月和几年中,我们将要使用的所有代理都将依赖于此。所以对我来说,这就是我为什么对此如此着迷的原因,我认为这很酷。
所以他们所说的,这些是他们特别提到的更新,他们的新的文本到语音模型,即GPT-4 mini TTS文本到语音,现在听起来更加细致和逼真。他们还说,与之前的语音模型相比,它更易于控制。所以基本上。
作为一名开发者,你现在可以让它以更自然的语言来说话。你可以说,像个疯狂的科学家一样说话,或者用一个非常平静的声音,或者假装你就像我说的那样,假装你刚刚跑步回来,你气喘吁吁的。它可以用所有这些不同的方式说话。所以有趣的是,几个月前,这在应用程序上就已经可以使用了,但开发者还无法使用它。所以OpenAI对这项非常酷的技术拥有垄断地位,我的意思是,这是他们创造的,所以这完全公平。但这真的非常令人兴奋,
因为开发者现在能够开始将这些细致入微的技术语音融入到其他所有东西中。任何人都可以使用它。好的,我将给你们一个他们所说的真实犯罪风格的配音样本。
好的。然后他们还有一个女性专业人士声音的样本。这就像一个非常严肃的女性声音在谈论事情。所以我认为这真的很棒。酷的是它很容易控制。所以如果我说,我想要,
这种类型的人用这种方式说话。我希望他们像健身教练一样。我希望他们非常热情,充满动力。它会改变这种说话方式。对我来说,这太令人兴奋了。这不仅仅是,你知道的,过去我们有一个下拉菜单,好的,选择你最喜欢的这七个或八个声音中的一个。你只需下拉选择你最喜欢的语音。
现在你可以决定语音是什么。它接受了如此多不同风格和声音的训练,它知道所有这些,你可以把它们都放在那里。所以我认为这非常酷。
他们特别提到,Jeff Harris,他是OpenAI的产品团队成员,他接受了采访,他说:“在不同的情况下,你并不仅仅想要一个平淡单调的声音。如果你是客户支持部门的客户,你想让声音听起来更抱歉,因为你犯了一个错误,你实际上可以让声音表达出这种情绪。我们在这里坚信,开发者和用户不仅想要控制所说内容,还想要控制说话方式。”
我喜欢这个概念,对吧?如果我打电话给客户支持部门,我很生气,他们可以字面意义上
对我说的话进行情感分析,然后说:“好吧,这个人很生气。改变你的语气,让它更抱歉一些,或者这个人看起来很开心。匹配这个人的情绪或氛围。”所以有很多这样的事情,我知道这听起来很糟糕,但是,所以这种情况会发生。所以我不会把它放在你的雷达上。就像这个人,你知道的,如果我想在一个国家真正地制造政治两极分化,并使用这个进行一些机器人电话,我会说,这个人真的很生气。像他们一样生气。试图激怒他们。我相信这
这是他们试图阻止发生的事情之一。但是,想象一下,这是一种可能性。所以我把它放在这里,作为人们将要做的的事情。我对那件事感到兴奋吗?我认为他们可能会关闭它。但我只是说要注意,因为随着这些代理的出现,他们操纵人们或帮助人们的能力也在提高。我们必须建立,你知道的,无论如何。我们必须建立我们自己的保障措施,并了解这些东西是如何工作的。但它未来的能力非常非常有趣。
所以他们的新的语音到文本模型,GPT-4L Transcribe和GPT-4L Mini Transcribe,基本上取代了他们长期使用的Whisper模型。他们说他们已经“在一个多样化、高质量的音频数据集上进行了训练”。他们从来没有告诉你他们确切地从哪里获得了他们的
数据集。他们说他们甚至在非常“混乱”的环境中对其进行了训练,这很有趣。我会假设这一点,因为他们有点像,我不知道,过去害怕谈论这件事,那就是这其中很大一部分可能是YouTube。我的意思是,你可以想象有人拍摄了一个YouTube视频,视频中人们在争吵,有人拍摄了一个YouTube视频,视频中有人在道歉,有人拍摄了一个YouTube视频,视频中几乎包含了世界上的一切,然后只是从视频中提取音频。这是我对他们如何获得如此强大的模型的假设,基于一些
高管所说的话,“哦,我真的不知道我们是否使用了YouTube”,以及辞职的Miriam Marotti。我会说这几乎肯定是在YouTube上训练的。无论如何,我对此生气吗?我不知道。但是,呃,
我很高兴这项技术得到了改进,Harris也对此发表了评论,引用如下:“在这方面,这些模型比Whisper有了很大的改进,确保模型的准确性对于获得可靠的语音表达至关重要,在这个上下文中,准确意味着模型能够精确地听到单词,并且不会填充它们没有听到的细节”,所以他们谈论的是不让这些东西产生幻觉,他们正在做很多很酷的事情,根据他们自己的内部基准测试
它更加准确。它有一个他们称之为词错误率的东西。目前约为30%/120%。这是针对印地语和达罗毗荼语系语言(如泰米尔语、泰卢固语、马拉雅拉姆语、卡纳达语)而言的。这意味着该模型给你的每10个单词中,有3个与这些语言中的人工转录不同。这并不是很好。
但除了英语之外,这显然要好得多。目前,OpenAI并没有像过去那样,他们不打算公开发布他们的转录模型。他们历史上曾以MIT许可证的形式发布了Whisper的新版本,供商业用途使用,但这次他们没有这样做。
他们说,因为这“比Whisper大得多”,所以它不适合公开发布。这是他们过去一直在做的事情,他们总是让事情变得越来越封闭,越来越不开放。这是许多公司、埃隆·马斯克,有很多戏剧性的事情,人们对此感到不满。所以我认为这非常有趣。
他们说,这也是他们直接引用的说法。他们引用说:“这不是那种你可以在笔记本电脑上本地运行的模型,就像Whisper一样。我们想确保如果我们发布开源的东西,我们会认真地去做。我们有一个针对特定需求而精心设计的模型。我们认为最终用户设备是开源模型最有趣的案例之一”,也就是他们说,它太大太强大了,你无法在你的电脑上运行它。我们不会发布开源版本。李。
当他们不发布开源版本时,他们会赚到更多的钱。所以有这个因素。所以你可以说也许他们试图阻止你在无法运行的硬件上运行它,或者你可以说他们试图赚更多的钱。这取决于你,你想如何解释它。无论如何,我很高兴能够访问它,是的,我很乐意为此付费,无论如何。作为一名开发者,这是我所期望的。但我真的很高兴能够访问这项技术。非常令人兴奋的重大更新。非常感谢收听。如果你喜欢今天的节目,如果你学到了什么新东西,我很乐意,
在播客上留下评论。这对我来说意义重大。我非常感谢多年来所有对AI Chat进行评论的优秀人士。非常感谢收听。如果你想加入AI Hustle School社区,描述中有一个链接。我很乐意帮助你利用AI工具发展和扩展你的业务或职业,这是我热衷的事情。我已经一年多以来每周都制作一个关于此的视频。所以这非常有趣。非常感谢收听,我们下次再见。