这是 Everyday AI 节目,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。您说的每一个字,每一次会议,每一次演讲,都是金子。我认为,呃,
因此,当我们专注于在业务中实施生成式 AI 时,我们常常会想到其他现有的大型语言模型,对吧?我们会想,哦,我们受到其训练数据的限制。你知道,嘿,希望这些模型能变得更好。但是你的话呢?所有这些会议呢?你演讲的那个大型研讨会呢?
那是未经结构化的金子。我认为,在这个节目中或总的来说,我们谈论得不够多的一件事是,我们说的话,我们进行的对话,
它们有多么宝贵,以及围绕它的 AI 如何变得更便宜、更快、更准确,以及这真正为各种规模的企业解锁了什么。好吧,我很高兴今天在 Everyday AI 上讨论这个话题以及更多内容。
大家好!我的名字是 Jordan Wilson。我是 Everyday AI 的主持人。这个节目是为你们准备的。它是您的每日直播播客和免费每日新闻通讯,帮助像您和我这样的人,我们这些普通人,了解 AI 世界中发生的一切,以及我们如何利用所有这些信息来发展我们的公司和职业。这是你吗?
如果是这样,欢迎回家。您的另一个家是我们的网站 youreverydayai.com。因此,如果您发现今天与我们客人的对话很有价值,我们将总结并分享更多见解在我们的每日新闻通讯中,以及让您了解 AI 世界中发生的其他一切。
此外,还有大约 1000 小时的音频内容文本,以及来自世界上最聪明的人的独家采访,所有这些都在我们的网站上免费提供。好吧,在我们开始之前,让我们首先回顾一下 AI 新闻。Anthropic 即将完成一轮 20 亿美元的融资,其估值飙升至 600 亿美元。
因此,Anthropic 是生成式 AI 领域最大的初创公司之一,据报道即将完成由 Lightspeed Venture Partners 领投的 20 亿美元融资。这项投资将使其估值从去年的 180 亿美元大幅提升至令人印象深刻的 600 亿美元。
因此,最新一轮融资是 Anthropic 更广泛的 60 亿美元计划的一部分,此前亚马逊还投资了 40 亿美元。所以是的,我认为他们在这轮融资中已经获得了大约 80 亿美元的承诺。因此,Anthropic 的年化收入已达到约 8.75 亿美元,这得益于其向企业和通过亚马逊网络服务等平台销售其高级产品。
或者抱歉,是其先进的 AI 系统。谁知道呢?也许有了 Anthropic 刚刚装进口袋的这笔额外现金,也许他们的速率限制将从不可用变为可用。让我们拭目以待。
好的,接下来,英伟达首席执行官黄仁勋声称,他新的 AI 芯片在其 GPU 上的性能超过了摩尔定律。是的,我们正在打破科学,打破科学的面貌。英伟达首席执行官在一次采访中表示,他们最新的数据中心超级芯片在 AI 推理工作负载方面的速度比其前代产品快 30 多倍,这可能会大大降低运行 AI 模型的成本。
他强调,通过在整个堆栈、架构、芯片设计、设计系统、库、算法等方面进行创新,英伟达可以以超过摩尔定律的速度取得进步。因此,黄仁勋提出了超摩尔定律的概念。是的,现在我们必须学习新的缩放定律。
这表明 AI 开发并没有放缓,而是受三个活跃的缩放定律支配:预训练、后训练和测试时间计算。黄仁勋还声称,如今英伟达的 AI 芯片比十年前生产的芯片好 1000 倍,这表明技术正在快速发展,这可能会使各个行业受益。所有
好的,最后但并非最不重要的一点是,苹果公司因其不准确的 AI 新闻警报而面临大量强烈反对,并承诺进行更新。在苹果公司能够总结新闻警报的 AI 功能生成一些虚假和误导性新闻标题后,苹果公司受到了审查,这引发了人们对其新苹果智能信息准确性的担忧。
苹果公司宣布,将在未来几周内发布软件更新,以阐明其 AI 系统(称为 Apple Intelligence)何时生成新闻通知。这些误导性警报引发了包括英国广播公司和 ProPublica 在内的各种媒体机构的批评,这些机构报道了 AI 生成的内容摘要中的类似不准确之处。
好的。更多关于这些故事以及您需要保持领先地位(不仅仅是跟上,而是领先)的信息,请访问我们的网站。因此,请务必查看并注册 youreverydayai.com。好的。闲聊足够了。让我们进入今天对话的主要内容。AI 转录。
您可能不会想到它,但它对企业来说是一个福音。我很高兴进行这次对话。嘿,直播观众,欢迎我们的节目嘉宾。我们邀请到了 Base10 的开发者关系主管 Philip Keeley。Philip,非常感谢您加入 Everyday AI 节目。嘿,Jordan。感谢您的邀请。我很高兴来到这里。让我们聊聊转录。在我们这样做之前,您能否向大家简单介绍一下 Base10,以及你们都在做什么?
当然可以。Base10 是一个 AI 基础设施平台。我们为客户采用开源、微调和完全定制的模型,并帮助他们在全球自动缩放的 GPU 基础设施上部署这些模型。我们还协助模型性能工作,以便我们可以获得更低的运行速度、更高的吞吐量、更低的成本和更好的质量。
我们的客户是像 Writer、Bland 和 Patreon 这样的 AI 原生初创企业和企业。我们最近一直在大力合作的一件事是 Whisper 模型。我们最近发布了世界上最快、最准确、最便宜的 Whisper 推理。
嗯。所以,我的意思是,我确实想深入探讨 Whisper,我相信很多观众都熟悉它。呃,但在我去那里之前,主要好处是什么呢?就像,你知道,当人们谈论转录时,我开始节目时就谈到了它,我坚信,对吧?我在这个播客上说的每一个字,都会立即转录并输入大型语言模型,但是捕捉公司的话语并使用它们的好处是什么?我认为有时人们只是忽略了它。是的。这只是另一条数据流。
因此,如果您考虑一下现有的所有 YouTube 视频、所有播客以及可能已拨打到您公司呼叫中心的电话,那么就会有大量数据四处漂浮,需要很长时间才能处理。你知道,也许如果你是一个超级速度的听众,你可以以 1.5 倍或 2 倍的速度收听播客。
但是,如果您考虑一下人类说话的速度,我们每分钟只能说大约 150 个单词。我知道我不应该在做播客时说得那么快。所以我总是试图放慢一点速度。
也许你以 2 倍的速度收听,你会得到多少,每分钟 300 个单词。但是,如果您考虑一下人们阅读的速度,你知道,最快的阅读者每分钟可以阅读 500 个甚至 1000 个单词。因此,音频实际上是一个相当低的信号通道。说话的带宽并不多。
但是,如果我们可以转录音频,然后将其转换为文本,那么不仅我们作为人更容易处理,我们可以更快地阅读,而且机器也更容易处理。就像你说的那样,我们可以将其输入大型语言模型,或者我们可以进行简单的查找和替换。我们可以进行简单的搜索。在文本上可以做很多事情,而这些事情在音频上很难做到。
它,它,你知道,我讨厌四处飘荡“改变游戏规则”这个词,对吧?但它确实如此,对吧?能够捕捉到所有说的话,我喜欢说这是你的第一方或第一家公司的金子,你谈论的所有话语。直播观众,感谢你们的加入。如果你对 AI 转录有任何疑问,对它对你的业务意味着什么有任何疑问,现在就向 Philip 提问。但是也许让我们
不是 Whisper,让我们谈谈 Whisper。Philip,Whisper 到底是什么?是的。Whisper 是一个几年前由 OpenAI 创建的开源模型。我实际上会在这里做一个简短的历史课。所以在 2019 年,我正在撰写一篇关于语音到文本的博客文章,这也可以称为转录。它可以被称为 ASR,即自动语音识别。
我当时正在对现有技术的现状进行调查。我在 2019 年发现的最好的东西之一是名为 Amazon Transcribe 的东西。它就像一个 AWS 的东西。嗯,当时它非常令人印象深刻,你知道,它能够获取一些文本片段,并且能够从中创建一个相当有趣的成绩单。但是肯定有很多错误,尤其是在名称、呃,
地点、专有名词方面,以及如果我含糊不清地说了一些话,那么它真的不知道发生了什么。
所以实际上一年后,我正在写一本书。当我写那本书时,我与该领域的许多专家进行了不同的采访。这些都是我需要转录的音频采访。我最终不得不手工转录它们,因为我做了所有这些,你知道,我调查了所有这些技术。它对于,你知道,出版来说还不够好。所以我只是花了一个月的时间坐在键盘前,从这些专家的采访中打出这 50000 个单词。
所以,你知道,从那时起,我一直关注着这个领域。你知道,当像 Wave 2 VET 这样的开源模型出现时,我真的很兴奋。我想尝试一下。但是没有什么能真正达到我的,你知道,业余但仍然是人工转录的质量。
所以,2022 年 9 月 21 日,OpenAI 发布了一个名为 Whisper 的模型。这个模型真正令人兴奋的是,它实际上是 MIT 许可的,这意味着您不必通过 OpenAI 平台才能获得它。你可以在你的电脑上运行它。你可以在云服务上运行它。你可以在任何你想运行的地方运行它。
第一个 Whisper 模型非常令人兴奋,因为它提供了更高的准确性。此外,它还在多种语言中提供了这种准确性。因此,当我们谈论 ASR 模型和准确性时,我们要考虑 WER,即词错误率。那么对于一千个单词,有多少单词会出错?
并且您希望该词错误率尽可能低。因此,这个模型问世了,它的词错误率约为 10。也许只有 1% 的单词会出错,而其他模型的错误率要高得多。从那时起,这些模型变得越来越好。现在我们在 2025 年的 Whisper V3 这里。我们还有 Whisper V3 Turbo,它的准确性略低于 V3,但速度更快。
因此,我们能够以多种不同的语言从这些开源模型中获得更快、更准确的转录。是的,你刚才说的,我不知道我们观众中的其他人是否也这样,但我确实如此。
我,因为我记得,对吧,我当时是一名记者。所以我实际上用一个小录音机录下了采访,对吧?我有一个是数字的,但我认为早期它是一个真正的磁带,不是为了暴露我的年龄。我记得反复按下播放、停止、倒带按钮,因为特别是当你为大型新闻出版物引用人们的话时,你必须把每一个字都写对。你知道,我甚至很好奇,作为也做过这件事的人,你第一次
看到像 Whisper 这样的东西(在 2022 年)是什么反应?第一次使用它时你的反应是什么?我的第一反应是,伙计,我希望几年前就有这个,因为,你知道,我的手指很疼。我把鼠标放在地板上,这样我可以用脚趾踢它来启动和停止录音。我在想,哇,如果几年前发布这个,我的生活本来可以轻松得多。
嘿,我是 Jordan,Everyday AI 的主持人。我已经在 ChatGPT 中花费了超过一千个小时,并且我正在我们免费的 Prime Prompt Polish ChatGPT 课程中分享我所有的秘密,该课程仅对像您这样的忠实听众开放。看看自由职业营销人员 Mike 对 PPP 课程的评价。我刚参加完 Jordan 的网络研讨会。
太棒了,价值巨大。它是现场直播的,所以你可以得到你的问题的解答。我对此非常兴奋。这是一个令人难以置信的资源。几乎所有东西都是免费的。我很乐意为 Jordan 提供的许多东西付费。因此,如果您想知道您是否应该参加网络研讨会,只需抽出时间参加即可。这绝对值得。
每个人的提示都是错误的,而 PPP 课程可以解决这个问题。如果您想访问,请访问 podppp.com。再次强调,是 podppp.com。注册免费课程,并开始让 ChatGPT 为您工作。所以,你知道,当我们谈论一些最近的进步时,对吧?因为是的,我甚至记得……
我在 2022 年 Whisper 首次发布时使用过它,我认为它并不慢,对吧?但是现在当我使用它时,因为是的,我在本地运行它。我还有很多程序在后台运行它。现在我想,哦,哇,它很慢。最近的情况是什么
速度和成本,对吧?当我们看到 Whisper V3 Turbo 时,你知道,也许每当我们看到 Whisper V4 时,这些进步在它更快更便宜时实际上意味着什么?- 是的,当我们考虑 Whisper 的速度和成本时,我们谈论的是实时系数。例如,如果您有一个小时的音频,您可以比实时快多少倍地转录它?
我作为一个人,我的实时系数大约是 0.3 或类似的数字,0.2。我需要四五个小时才能打出一个小时的音频,因为我一直在启动和停止它,并返回。也许如果我打字更快,也许如果我是一个专业人士,我可以更快地完成。
开箱即用,你知道,Whisper 可能会让你达到,取决于你使用的硬件,我不知道,50 倍,100 倍的实时系数。所以也许那个小时的音频,你可以在一分钟内转录它,这解锁了很多东西。但实际上你可以通过各种优化技术(我们可以深入探讨)来进一步提升它。
你可以将实时系数一直提高到例如 1000 倍,这样,一个小时的音频转录时间可能只需要五到六秒钟,而不是一分钟。
性能优化的另一个因素是,如果您尝试进行某种流式用例,您不是事后将音频作为文件转录,而是在对话过程中实时转录。因此,为此,您关心的是单个 30 秒音频片段的往返延迟。为此,您可以降低到大约 200 毫秒。我是一个武术家。对我来说,反应时间非常重要。
我的反射能力不是世界上最好的,但是你知道,人类的平均反应时间大约是 200 毫秒。因此,如果您能够在某人对正在发生的事情做出反应所需的时间内处理该音频往返,那么对于您的最终用户来说,这将感觉就像基本上是即时的。哦,
我们直播观众有很多很好的评论,还有一些问题。所以,你知道,Samuel 问道,在转录过程中是否有任何努力来捕捉语气和语调?口语除了语法和词汇之外,还有很多上下文成分。我也是这么想的,Sam。感谢你的提问。Philip,我们会在未来的 AI 转录中看到吗?就像我有时说得很快。我有时会带着
情绪说话,对吧?比如,未来的 AI 转录能否解决这个问题?
这是一个非常好的问题。情绪、语调,这类东西现在在另一个方向上更重要。当我们从文本到语音,并且我们希望 AI 模型能够进行语音合成时,已经投入了大量工作来使它听起来更自然。这就是口语中这些上下文成分非常重要的原因。
通常,现在,当我们采用 ASR 路线时,当我们从语音到文本时,这将只是文件或对话的原始内容。但这绝对会非常有趣。就像我说的那样,这是另一个方向上的一个重要研究领域,但它现在在转录中并不是一个那么重要的因素。好的。
所有这些更新对成本做了什么,对吧?因为我记得,即使最初,我也很乐意支付,你知道,每小时 1 美元或任何费用,你知道,在早期,你知道,AI 转录。
现在的成本是多少?而且,你知道,这在更大的范围内意味着什么,因为企业正在努力利用所有这些数据,对吧?他们正在录制 Zoom 会议,现在非常普遍,对吧?我认为人们拥有这个,你知道,他们可能正在坐拥的宝藏数据。所以你能带我们了解一下成本变化,以及这实际上意味着什么吗?
当然可以。所以,你知道,几年前,你每小时音频的费用是 1 美元或 2 美元。这通常是衡量方法,即您投入了多少输入时间,这就是您支付的费用。因此,如果您输入一个小时的音频,例如播客,并且您想获得一份成绩单,则需要花费 1 美元或 2 美元。
但是今天它变得快多了。当 AI 模型变得更快时,它们也变得更便宜。使 AI 模型运行起来昂贵的原因是您必须在 GPU 上运行它。GPU 非常昂贵。因此,如果您在 GPU 上花费的时间更少就能完成相同的任务,那么价格就会下降。
今天,您可以完成这些转录工作,你知道,这取决于情况。这取决于您想要运行的速度,以及您尝试生成的成绩单的确切类型。
但是,如果您正在进行最简单、最基本的转录,并且您对,你知道,等待几秒钟才能生成结果是可以接受的,那么每小时的费用可能只有几美分。所以我们正在考虑,你知道,成本降低了 50 到 100 倍。
这太大了。你知道,现在,以前转录一小时音频的相同价格,您可以转录 50 或 100 小时。这只是为企业解锁了如此多的可能性。是的。说到这一点,让我们深入探讨一下,因为我仍然认为这是其中一个领域,就像我开始节目时说的那样。我认为,你知道,当我们谈论业务用例时,对吧?
在生成式 AI 和大型语言模型的进步方面,对吧?我认为每个人都希望使用 ChatGPT、Gemini、MetaLama,对吧?人们希望使用这些模型,但他们不一定从他们正在创建的内容中寻找,而这些内容很多时候是会议。就像这样的对话,对吧?你能谈谈一下吗?
也许是一些新的和令人兴奋的业务用例,由于成本和速度的原因,它们可能才刚刚开始解锁。当然可以。因此,大型企业将产生如此多的音频。其中很多是内部的。你知道,有时你可能不想转录发生的一切,但是有很多地方它确实很有价值。
其中之一是,你知道,任何面向客户的情况,你知道,如果你正在做呼叫中心,如果你正在做,你知道,出纳服务,任何你与客户互动的地方,从客户的角度来看,你知道,你上线后听到,哦,这个电话可能会,你知道,为了质量保证而被监控,对吧?
因此,历史上,这种质量保证监控就像一个手动流程。你有一些主管可能正在听一些电话,并确保一切进展顺利。现在您可以转录进入您企业的每一个电话。然后您将拥有一个完全可搜索的数据库。您可以进行质量保证。您还可以分析这些成绩单以找出模式以及您的客户的要求。
您可以大规模进行内容审核。如果我在平台上发布带有文本的内容,并且其中包含平台不希望出现的内容,那么识别和标记我正在使用的文字非常容易。如果我发布,比如说,Spotify 上的播客或其他什么,那么这要困难得多。或者如果我发布 YouTube 视频,
因为,你知道,你不能真正收听所有播客和所有 YouTube 视频。但是,如果您能够将音频转换为文本,那么您可以通过相同的审核算法运行它。
您还可以做一些事情,例如媒体字幕、闭幕字幕生成。您可以实时进行。我知道有时如果我在无声地观看体育比赛,我会看到播音员的话,但它总是比比赛发生晚五到六秒。它太落后了。它太落后了,对吧?因此,如果我们可以将它,你知道,降低到更实时的东西,那就太棒了。您还可以使用它进行实时翻译。
所以,是的,有很多不同的用例,您会生成这些大量的音频,而以前它只是不划算来处理这些,或者花费的时间太长。现在,有了这种更便宜、更快速、更准确的 AI 转录,您可以从这些大型音频语料库中获得更多价值。是的。
因此,Cecilia 提出一个很好的观点,因为整个行业在几十年来一直蓬勃发展,仅仅是打字人们所说的话。她正在询问 AI 转录如何扰乱法庭报告等行业?我们会看到一些这些传统角色,人们只是转录员?他们会消失吗?
好吧,你知道,你仍然必须验证这些成绩单。当我谈论 AI 转录的准确性和词错误率时,你知道,词错误率不是零。您可以做很多事情来提高成绩单的准确性。你知道,例如,你可以查看,你可以让模型分析它们。你可以查看,比如说,沉默的片段,并且,你知道,替换它们或重新运行它们。
但是,你知道,归根结底,如果您正在做一些像法庭报告那样需要 100% 准确性的工作,那么拥有超越单个转录模型的系统来保证这种准确性非常重要。而且,你知道,我认为在这些系统中,人类仍然扮演着重要的角色,在这些系统中,您可以,你知道,进入并验证这些成绩单,并确保它们完全准确。是的。
是的,所以你谈到了这一点,你知道,这项技术进步,Whisper 模型,你知道,总的来说,正在帮助改变我们过去做生意的方式。但是,当我们展望这些进步可能会如何改变我们未来的工作方式时,我的
我们可能会看到什么变化?因为一切都在实时进行,对吧?你知道,你从 ChatGPT 有你的实时高级语音模式。你有 Gemini Live。你知道,你可以与 Copilot 交谈,对吧?更准确、更快、更便宜的转录将如何改变我们的工作方式?
因此,ChatGPT 的实时语音模式的一个特点是它非常酷,但也非常昂贵。这种能力的成本是多少,每小时 10 美元以上?
而这种转录每小时只有几美分。因此,如果您是一位聪明的开发者,您可以将此模型放在其他一些模型的前面,并为这些复合 AI 用例构建这些模型链,这样,您不必拥有一个巨大的模型,该模型运行成本很高并且能够端到端地完成它,而是将几个小型廉价模型链接在一起,并以更快、更便宜的方式运行相同的管道。
现在,这在 AI 电话呼叫中非常重要。因此,如果您想,比如说,拥有一个自动比萨订购者,您将要构建一个客户可以打电话给它并说出他们想要比萨饼上的东西,它会说,好的,我为您准备了这个比萨饼,诸如此类的事情。您可以使用这些更快、更便宜的转录模型来构建这种 AI 电话呼叫。
另一个重要方面是可穿戴设备。因此,现在的主要趋势是,你知道,在你的身体上安装一个别针或某种扬声器麦克风组合,能够记录你的日常情况,以便你拥有,你知道,更好的信息来做出决策,诸如此类的事情。
因此,如果您想每天记录 12 或 16 个小时的生活,那么再次强调,如果这是通过历史转录算法进行的,每小时的费用为 1 美元,那么每天的费用就是 16 美元。这根本不是一个可持续的业务。
但是,如果你能够在晚上睡觉的时候以几分钱的价格做到这一点,而且每天只花几美分,那么,你知道,现在我们已经进入了一个领域,在这个领域里,这可以作为一种消费产品是有意义的。所以可穿戴设备,你知道,本地推理,电话呼叫,所有这些都是通过这些转录模型解锁的实时多模式用户体验。是的。而且,而且如何,
我认为我们将会在野外看到那些真正有意义的东西,对吧?如果你听过这个节目,我从来都不是那种,你知道,像人文别针和苹果Vision Pro那样的人。我不喜欢,不,真的不是。但我认为最近的一些进展,对吧?Meta的,呃,
Meta的Ray-Ban,谷歌的一些新产品。我认为可穿戴设备将会成为一件事情,无论你是否认为它们会成为一件事情。我认为这是一种迭代。但我很好奇的一件事,也是我一直思考的一件事,就是打字与说话的概念,对吧?就像,
我可以说得很快,但我也不怪你们,如果你们以2倍速收听这个播客,我也会这么做。但我们将来可能会看到,打字越来越不常见,我们只是与我不知道,自主的AI代理和多代理环境互动,我们真正使用的只是我们的声音?如果是这样的话,什么……
这项技术的一部分必须改进,或者我们正在等待什么进步,直到未来最终到来,我们只是坐下来,翘起脚,只是和我们的AI代理说话。是的。所以,呃,
未来实际上就是这样。你还有所有那些代理用例等等还在到来。但如果你只想控制一个,你知道,控制你的电脑,如果你想在不用手指的情况下写一篇文章,这是可能的。我的一位同事最近不得不做手部手术。而且
所以他们用了一个语音转录应用程序几天来写作,因为他们不能打字那么多。他们使用了一个叫做Whisper Flow的应用程序,这是一个可用的应用程序。
但是是的,你知道,在用语音控制你的电脑方面,未来已经到来。这并不是在每种情况下都是切实可行的。比如,如果我在火车上,我不想和我的电脑说话,而其他人都在和他们的电脑说话。这听起来不太好,但如果你有,你知道,打字能力有限,它肯定会有帮助。我打字速度不算快。我说话的速度肯定比打字快得多。
所以我对此非常兴奋。是的,这是一个很好的观点。我认为,你知道,就这些事情进行对话很重要,因为我,是的,我认为,是的,无论我们谈论的是可穿戴设备,还是谈论,你知道,和你的电脑说话,它正变得越来越普遍,更多的是,我认为是我们未来工作方式的一部分。另一件事,你知道,什么,什么,什么部分,菲利普,为什么,你知道,
如果我和Siri说话,如果我和Alexa说话,对吧?我看到与我与例如Gemini Live或ChatGPT高级语音模式说话时有很大的不同。为什么即使在大型科技巨头之间,仍然存在这种差异,有些能够准确理解我们的词语,而有时它们根本无法理解?
你在那里观察的是设备上推理和云推理之间的区别。因此,如果你正在使用AI模型并在用户的设备上运行它,那就是设备上或边缘推理,而你的用户设备将不如位于某个数据中心的NVIDIA H100 GPU强大。它将无法运行更大规模的模型或以同样高的质量运行相同的模型。
因此,由于这个原因,对于这些语音转录来说,当你在本地设备上使用它时,你可能会看到稍微差一点的结果,而当你使用云端时则不然。
然而,这种情况正在迅速改变。这些模型非常小。它们可能只有几十亿个参数。因此,它们实际上非常适合本地推理,即使是在智能音箱或可能具有升级的GPU、升级的VRAM功能的下一代智能音箱上,以便它们能够运行这些小型模型。
所以我绝对认为你会看到这种差距在转录领域很快就会缩小。好的。所以,菲利普,我们在今天的谈话中涵盖了很多内容。我的意思是,我们谈论了一点Whisper,这项技术是什么,成本节省,如何,你知道,它更快更准确。
你知道,语音转录AI已经导致了许多新的用例。但是,你知道,在我们结束今天的节目时,关于更便宜、更快的AI转录如何改变企业工作,你最想让我们的听众知道的一件事是什么?
我认为最重要的是要理解这种趋势。你知道,在过去的几年里,这些模型变得更加准确、更便宜、更快。当然,从2022年到可能几年前,这是一个巨大的飞跃。
我认为这种情况会持续下去。因此,即使你今天看到一个用例,比如,“菲利普,实际上,每小时5美分,对于我想要做的事情来说有点贵。”或者,“哦,你只能做200毫秒的往返时间。”就像,“是的,这不够用。”哇。
我们还没有完成对这些模型的优化。即使在过去几个季度对这些模型的工作中,我们也变得更擅长运行它们,能够更快、更便宜地运行它们。这是一个持续的趋势。所以我肯定会看看你今天正在考虑的这些用例,然后说,“好吧,这今天有意义吗?”
如果答案是肯定的,那就去做吧。如果答案是否定的,也许还是要去做,因为它在三个月、六个月、九个月后可能会变得有意义,一旦技术变得更好,你就会领先很多。例如,乔丹,你曾经说过,你并不总是喜欢这些可穿戴设备。在这种情况下,今天拥有原型将使你能够在明年使用完善的版本。
对于那些公司来说。所以我认为同样地,如果你正在构建某种语音用例,如果你正在构建某种转录用例,如果它今天不起作用,仍然要构建该原型,把它放在你的口袋里,并密切关注技术的进步,因为它正在快速改进。
这是很好的建议。我认为这是我们都应该听取的话。好的。所以,菲利普,非常感谢你抽出时间参加Everyday AI Show。我们感谢你的见解。
嘿,非常感谢你邀请我。我玩得很开心。好的,各位。快速提醒一下,我们涵盖了很多内容,还有更多内容。所以,如果你今天发现了一些有价值的东西,请,如果你正在收听播客,请确保订阅并评价该平台。回顾并收听我们节目的资料库。我们实际上有……
数千小时的内容在我们的网站上,数百集节目。也可以访问youreverydayai.com。我们将回顾今天的谈话。是的,我将在10秒钟内上传它。我将把它全部转录,但我将写一篇关于它的文章,一个真正的人告诉你更多信息和见解。所以感谢你加入我们。希望明天在Everyday AI中再次见到你。谢谢各位。
这就是今天Everyday AI节目的全部内容。感谢您的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多AI魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样你就不会落后。去打破一些障碍,我们下次再见。