We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode A Big Week in Tech: NotebookLM, OpenAI’s Speech API, & Custom Audio

A Big Week in Tech: NotebookLM, OpenAI’s Speech API, & Custom Audio

2024/10/8
logo of podcast a16z Podcast

a16z Podcast

AI Deep Dive AI Chapters Transcript
People
A
Anish Acharya
B
Bryan Kim
O
Olivia Moore
Topics
Anish Acharya:认为2024年将是语音技术突破的一年,并指出当前构建对话式语音产品的开发者可以获得与早期ChatGPT相似的对话性能。他分析了实时语音技术的重要性,以及它如何通过电话解锁AI体验,并应用于医疗保健等领域。他还讨论了AI语音技术在B2B领域的成功应用,以及在C端应用中陪伴型应用的突出表现。最后,他还谈到了OpenAI开发者日上展示的AI语音技术在高接触、高成本服务领域的应用潜力,例如语言学习和营养咨询。 Olivia Moore:详细介绍了Google的NotebookLM及其音频概述功能,指出其病毒式传播并非由于技术突破,而是其生成的语音的逼真性和主持人间的互动性。她认为NotebookLM可以进行深入解读,并可以处理各种类型的数据,生成有趣的播客内容。她还探讨了NotebookLM的未来发展潜力,例如结合视频和头像,以及在儿童教育领域的应用。 Bryan Kim:补充了NotebookLM的应用案例,并指出其输出每次都不同,但结果通常很有趣且可用。他认为NotebookLM生成的播客主持人之间可以有很好的化学反应。他还讨论了OpenAI的实时语音到语音API,以及它如何使AI语音代理产品质量大幅提升,并使其更适合企业应用。他分析了成功的AI产品发布需要具备一些出其不意的元素,以及技术进步的重要性。

Deep Dive

Chapters
Discussion on Google's NotebookLM and its new audio overview feature, which allows users to create AI-generated podcasts. The hosts explore the realism and usability of these generated podcasts and speculate on potential future applications.
  • NotebookLM's audio overview feature allows users to create customizable podcasts in over 35 languages.
  • The AI-generated podcasts exhibit realistic interactions and can delve into deep questions, making them engaging and informative.
  • Potential future uses include personalized educational content, digital diaries, and even AI-driven audio dramas.

Shownotes Transcript

IT领域中有一些元素与早期的ChatGPT非常相似。任何现在正在构建对话式语音产品的人都能够获得这种级别的对话性能。

大多数人可能会第一次体验到,比如说,通过电话来进行。

我们正在采用所有沟通媒介中最古老、信息密度最高的一种,并最终使其几乎成为程序。拨打电话。

有点像这个。

对全世界开放的API,在部署语音模型的几个……

几周内拥有三百万用户进行了两千万次通话。

上周又是科技界的大事件。谷歌最新的热门产品凭借其新的音频概述功能席卷了推特。

该功能使用户可以自定义播客,这意味着人们可以创建自己的上下文窗口来生成令人惊讶的高质量播客,涵盖35种语言。此外,为了增加语音组合,OpenAI举办了开发者日,并宣布了其实时语音到语音API,使任何开发者都能在其自身产品中添加实时语音功能。此外,他们还指出平台上有高达三百万活跃开发者。

最后,我们看到一家视频模型公司凭借其1.5模型突破了AI领域的喧嚣,这让我们有更多内容来讨论在2024年及以后如何真正吸引人们的注意力。今天,我们将与a16z消费团队的合作伙伴Olivia Moore、Bryan Kim和普通合伙人Anish Acharya一起讨论所有这些以及更多内容。本次访谈分为两部分录制,一部分与Olivia进行,另一部分与所有三位合作伙伴进行。

所以你会听到两者之间的间隙。此外,Anish实际上预测今年将是语音技术之年,尽管它在历史上从未作为界面发挥作用。事实上,微软CEO萨蒂亚·纳德拉甚至之前将过去几十年的语音助手称为“愚蠢至极”。

好吧,看起来我们确实正在转折。让我们开始吧。提醒一下,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对a16z基金的任何投资者或潜在投资者。

请注意,a16z及其关联公司也可能持有本播客中讨论的公司股份。有关更多详细信息,包括投资链接,请访问a16z.com/disclosures。科技界又一个大事件。

我认为我看到的最重要的事情是NotebookLM。让我们快速向听众介绍一下。谷歌以其搜索功能而闻名,而这款产品实际上已经存在一段时间了。

它起源于2023年,但其新的音频概述功能凭借这些AI生成的播客主持人席卷了推特,这些主持人令人惊讶地出色。我作为播客从业者这么说。基本上,人们可以将自己的信息放入上下文窗口,然后它将使用这些信息来生成这些播客。Olivia,你实际上试用过这些功能,对吧?

是的。我认为它最初是为研究人员或学术界人士设计的。其理念是,你可以在Google Workspace中浏览所有笔记、论文和信息。然后,他们添加了这个新功能,即这两个AI代理。本质上,它们扮演播客主持人的角色,来回讨论数据,提出问题,并举例说明。

在我看来,它在过去一周左右时间里之所以爆红,是因为它实际上没有什么令人难以置信的新颖之处,甚至在某些方面也没有什么突破性之处,例如它并不是OpenAI那种能够将语音延迟降低到几乎为零的全新实时模型。事实上,对于NotebookLM,你必须等待三到五分钟,有时甚至十分钟,才能在点击按钮后生成剧集。我认为真正引人注目的是语音的真实性和人性化,以及它们如何相互互动。

这提供了互动性,中断。没错。

它们会互相争论。它们会互相打断。这不仅仅是上传脚本并让它朗读出来。它确实感觉像两个人在说话。

说到这一点,关于它的另一个引人注目的事情是,它不仅仅是重复或总结你上传的任何数据源中的要点。它们实际上正在回答和提出真正有趣且深入的问题。它们正在进行比较。

它们正在进行类比。它们更深入了一步,几乎就像你要如何向某人讲解这个主题一样?我基本上上传了一堆真实犯罪法庭案件文件,然后我做了一个关于这个案件的播客。

然后我花了最后两分钟深入探讨了我们保留真实犯罪的原因的伦理问题。我们是否应该使用这些信息来创作媒体之类的东西?所以它实际上是一种对内容的更高级别的解读。

我会说完全正确,我见过很多这样的例子,有人只是上传了他们的信用卡账单,他们就能对它进行仔细审查。即使我认为审查没有被提示。比如说,我只是说,谈谈这个。在这个里面找一些有趣的东西。

是的,必须有一些创造性或其他东西。我喜欢的另一个用例是,有人上传了他们的简历和LinkedIn个人资料,它制作了一个大约八分钟的播客,将他们描述为一个令人难以置信的传奇人物,并回顾了他们职业生涯中的所有亮点。

我真的很喜欢这个,因为我看到有些人使用一些音乐警报,然后将它们用于,比如说,一个非常棒的生日祝福。是的。所以当你玩NotebookLM时,它是什么样的?

或者有时你对结果不太满意,你只是在玩AI机器。它像那样吗?还是第一次尝试就成功了?我得到了我期待的那种播客……

有点像老虎机,每次输出都不一样。但我认为它更可靠,因为我做的几乎每一次生成都会很有趣,而且主题相关,可用。我做了一个例子,我非常喜欢它。

起初我坚持上传学术论文。我想我会按其预期用途使用它。然后在我的其中一次生成中,我想到了主持人。听起来他们彼此很合拍,对吧?是的,他们的化学反应非常好。

所以就像如果我上传一个只有一句话的文档,比如,“我认为你们的关系像吸烟一样”,然后他们会进行两到三分钟的播客讨论,听起来,我发誓,就像在浪漫喜剧中相遇一样。我会说它在情感上非常引人入胜。所以现在我的想法是,我必须做一个完整的音频剧。

然后我们必须结束。没错。

它将成为第一部完全由AI化身和AR电影,使用受NotebookLM角色启发的语音。

这个是关于AI的,但就像AI在人际关系中一样,是的,特别是像我们这样的节目主持人感兴趣的AI,在谷歌的NotebookLM环境中。

哇。

所以……

我们是不是在偷偷约会?

没错?这就是那份文件的内容。

有人认为,我们正在通过我们的玩笑互相传递秘密情书。

那么,结局是什么?他们同意了吗?

我的意思是,你必须听一听,然后给出你的看法。如果那些AI,你知道,真的对彼此产生了感情呢?

像真正的感情一样,是的,没错,就像你说的,两行代码可能会因为电子表格而坠入爱河,或者类似的想法,是的,这有点疯狂,但也有点我不知道。

我知道,对吧。

引人入胜。

鉴于你已经玩过它,而且很多反馈都很好,人们对此感到惊喜,你的反应是什么?就像你说的,市面上有类似的产品。

我的意思是,对于AI来说,正如我们所见,有很多趋势,比如一些产品在一周内变得非常热门。然后会出现更有趣的东西。这可能只是我过于乐观。

感觉这里面有一些东西,我不喜欢做这种比较,但它的一些元素与早期的ChatGPT非常相似,因为即使对于非学术界人士、对提示不太了解的人来说,它也很实用,任何人都可以上传论文并生成播客。另一个感觉像ChatGPT的东西是,人们已经开始将其“非官方”地使用。也许NotebookLM本身不会成为最终获胜的产品,我们将拭目以待。

我认为谷歌可以做很多事情来提升它。他们可以把它做成一个移动应用程序。你可以自定义语音。如果他们稍微处理一下,我可以看到它被用于儿童睡前故事。但我认为个性化播客或个性化音频的格式将会……

一些体验或生成的播客无疑令人印象深刻,但也感觉有点噱头,或者说很酷,仅此而已。但这真的是你认为可以发展成实用、有用的东西吗?

就我个人而言,我认为它实际上可以成为一个真正的产品,因为现在它正在制作播客,例如,但随着时间的推移,添加化身或视频作为他们正在讨论的内容的背景可能会更容易。这基本上就变成了一个非常个性化的YouTube视频。所以其中一个有趣的例子是,孩子们喜欢我的工艺品。

我喜欢我的工艺品,当有新的Badrock版本发布时,会有很多页面的发布说明。孩子们依赖YouTube来了解新功能,例如更改了什么,如果你将发布说明放入NotebookLM中,然后说,告诉我有什么新功能,并以孩子们喜欢的方式告诉我。

然后它会生成这个二十分钟或十分钟的来回对话。“你能相信这个新的更新吗?它允许这个角色下降……”,但这些实际上会变得非常有趣……

在日常用例中。它让我想要一个数字日记或其他东西,你可以上传。这会给你过去一个月的生命回顾,因为创新更像是一种解锁你所说的如何让任何主题都令人兴奋,并产生见解,并使其成为你真正想听并花时间去做的东西,潜在的无限输出。我完全同意,谷歌可以制作视频,可以制作化身。

有趣的是,我一直认为你可以阅读、观看或收听某些内容。但也许倾听的一个细微之处是倾听对话格式。你认为这里面有什么神奇的东西吗?是两个主持人来回……

来回?是的,我昨天看到一个点赞量达两百万的TikTok视频,完全是自发的。这是一个法学院的学生,正在准备期中考试。

她上传了大约60页的课堂笔记。然后它为她生成了一个12分钟的播客,以便她在考试前复习。如果你甚至听到另一个人围绕一个例子讲述一个故事,或者解释它,这会让记住和理解变得容易得多。

你基本上打开了另一条线。你可以一边阅读某些内容,一边收听某些内容,以及在现实世界中做其他事情。也许另一个需要讨论的事情是OpenAI的开发者日。

他们发布了很多东西。但也许最突出的是这个实时语音到语音API。我知道你对这个想法思考了很多,即实时对于语音来说非常重要,延迟几乎是一个我们将经常听到的指标……

更多关于……是的,有一个阈值,超过这个阈值,语音实际上无法作为一种与技术交互的方式,因为它感觉不真实。低于这个阈值,可能是三到四百毫秒,它保持了与人交谈的错觉。电话有点像这个,API……

对全世界开放。所以感觉大多数人第一次体验AI的方式将是通过电话。这是由实时技术解锁的。

而疯狂的是,很多东西仍然在手机上运行。所以即使你只考虑一个垂直领域,比如医疗保健,比如接听来自病人的来电,比如医生给其他医生打电话,给药房打电话,给保险公司打电话。

所以如果我们考虑一下这如何变得更实时,你认为有哪些不同的应用程序被解锁了,比如音乐教育?实时语音如何改变……这些行业中的一些?

我们到目前为止看到的大多数AI产品,即使是试图解决更复杂的问题,也许你截个屏幕截图,你把它上传到一个AI产品中,它会告诉你是否正确。现在有了实时语音和一些视频和视觉模型的东西,它实际上就像有一个导师坐在你旁边,和你一起学习,即使是一些视觉方面的东西,也向它展示你的纸张。所以现在AI正在转向真正帮助你学习,而不是……到目前为止的许多用例可能都是作弊,比如“我怎么才能得到答案”,现在是“你的过程是什么”。

非常有趣。你基本上是在说,在某种程度上,缺乏延迟允许人们在那一刻融入其中。是的,过去,也许是因为延迟更大,人们会走捷径,因为他们不想等待。

或者如果你这样做,你可以说“这是你做这件事的方式。这里还有另一种方式,实际上可能对你解决这个问题更有意义”。它与你一起理解的过程,而不是仅仅基于答案或结果,这是许多AI产品……以及历史上……

真正有趣的是,对话中已经内置了一种设计语言或设计线索。打断是一种,或者说是“啊哈”时刻的表达也是一种。因此,这实际上应该会解锁更多有趣的产品体验,因为当然,镜头对于这一点是必要的。但同样重要的是,即使能够理解这些部分,怎么说呢,它们不完全是非语言的,但它们也不是显式口语的一部分。

许多产品,尤其是在消费领域,不仅仅是追求最佳或完美,对吧?事实上,当您看到 NotebookLM 的示例时,许多人评论的是后续词语,也就是打断。正是这些不完美之处吸引了人们。

这是一个巨大的进步。对于任何之前尝试使用 ChatGPT 语音模式的人来说,基本上您会按下按钮,说些什么,程序会暂停,它会解读信息,生成一些内容来回应,然后它会返回答案。但是,至少需要几秒钟的时间,而且非常卡顿。

它非常卡顿。更像是发送语音备忘录,让别人听到它并发送回语音备忘录,而不是与真人进行实际的实时对话。因此,新模型真正实现了几乎零延迟的完全实时对话。ChatGPT 自身的先进语音模式已经提供这种功能,人们正在使用并喜欢它。但本周发生的事情,开发者日,实际上是通过 API 向其他公司提供该功能。因此,现在任何正在构建对话式语音产品的人都可以访问这种级别的对话性能,这非常重要且令人兴奋,因为它使许多 AI 对话产品从几乎无法使用、实际上无法使用,突然变成了非常好且非常人性化。

完全同意,你有一条推文说这是对 AI 语音代理的巨大解锁。我预计在接下来的几个月里会看到更多神奇的产品。我们正在迅速摆脱延迟和对话体验成为障碍的时代。你能稍微详细说说吗?

当然,许多 AI 语音产品在质量方面甚至达不到及格水平,更不用说企业实际部署了。所以现在我认为,就实际公司能够用 AI 取代电话上的真人而言,它可以说是企业级的。

我们在看到各种各样的用例,最明显的可能是让某人在比萨店接听电话接订单,或在小型企业接听电话预约美甲,一直到更复杂的事情,例如甚至使用 AI 进行招聘面试,想想现在发生的事情真是令人难以置信。或者甚至是更垂直细分的用例,例如货运经纪人整天都在打电话给承运商,打电话给卡车司机,试图找到某人以特定价格范围运输货物。现在您可以使用 AI 来做到这一点,它可以同时联系一百个承运商并协商价格,而不是让人类整天进行这些电话沟通。这个新的 API 以及其他对相同类型模型的开源尝试,将真正使这些

产品大放异彩。是的,我们描述的一些产品是语音优先的。是的,但到目前为止,我们拥有的许多应用程序通常都不是语音优先的,这可能是因为我们实际上拥有这项技术。因此,我想提到 Anyi 的一个重要想法,在 2023 年底,现在感觉非常正确,是的,它说语音优先应用程序将成为我们生活中不可或缺的一部分。他基本上说,尽管语音是人类最古老、最常见的沟通方式,但它从未真正作为一种界面发挥作用,是的,用于与技术互动。

感觉语音是最重要的事情之一。它正在被 AI 解锁,语音是最容易创建的内容。我们每天都在创建音频。但这些内容从未真正被捕捉、使用或以某种方式自动化,例如现在,即使在非实时情况下,也有很多产品可以收听您的会议。

然后,您说些什么,可以自动向某人发送后续 Slack 消息,或者用它来触发 GitHub 提交或团队必须跟进的 Asana 任务。因此,我认为我们现在看到的是,无论是实时语音还是非实时语音,我们都在采用所有沟通媒介中最古老、信息最密集的媒介,并最终使其几乎可编程并在非常强大的方式中使用。我认为我们预测今年语音时没有完全预测到的一件事是,它在 B2B 领域非常有效,但在消费者领域还不太多。

我们正在接近。我认为即使考虑到语音代理,许多企业都在努力寻找接听电话的人员来担任各种角色,并且都在努力留住他们。

这很昂贵,因此插入一个能够以类似质量执行任务的 AI 是非常自然的。消费者用例不太明显。到目前为止,它可能最适合作为伴侣。因此,再次,ChatGPT 的高级语音模式或角色 AI。我认为他们在部署语音模型的几周内宣布拥有 300 万用户进行了 2000 万次通话。

是的,哇。因为如果你每天

都要花几个小时与这个伴侣交谈,让它更真实是有意义的。所以对我来说,这是到目前为止语音领域的闪亮之星。OpenAI 在开发者日重点介绍了消费者领域的另外两个用例。

它们实际上都是这种高接触、昂贵的人工服务,现在几乎可以通过 AI 实现民主化。其中一个是名为 Speak 的公司,它提供语言学习?这可能是有争议的。

我喜欢 Duolingo 这个产品,也喜欢它作为一个品牌,但我认为很难用它来学习语言,因为它作为界面的功能有限。因此,如果您真的想学习一门外语,您可能需要支付每小时 50 到 100 美元的人工费用。因此,Speak 的想法是让 AI 语音代理成为您的语言导师,它更易于访问且价格更实惠。

这是一个。然后他们重点介绍的第二个是,如果您有一个 AI 营养师会怎样?这是 Protocol Health 的一个例子,您可以发送照片,然后谈谈您每天的饮食。因此,我认为我们将看到更多此类用例随着更好的语音模型而解锁。

是的,我需要这个。我一直说,我没有想到语音的具体用途,但我需要一个 AI 来指出我的错误。

是的,是的。它的真正目标。你说过你想,你没有做你说过要做的事情。但你所描述的用途也与 Speak 的例子相关。

但在最初的预测中,他还谈到,是的,一些大公司将整合这些技术,但 Gmail 可能仍然看起来像 Gmail。那么你如何看待公司利用这项技术与最终会发生的事情之间的平衡呢?是的,我们知道这非常

有趣,也是我们密切关注的事情,尤其是在消费者领域,因为你会认为谷歌和微软拥有你的所有数据。他们拥有你所有的权限。他们可以做很多事情。

我认为我们看到的是,从结构上讲,他们在某种程度上在以真正原生方式构建 AI 转型方面处于劣势。首先,这些都是大公司。他们有很多员工。他们有很多相互竞争的优先事项。

然后第二点是,在某种程度上,他们可能会限制他们自己产品的可能性。我们的观点是,谷歌可能会添加 AI 来增强 Gmail,但他们可能会创建 Gmail 的 AI 原生版本吗?但在过去三到六个月之前,你只能概念化它,可能不是,再次是因为他们是一家多么大的公司,以及他们对现有产品的成功寄予了多少期望。一个很好的例子。

这实际上是 Zoom 添加了转录功能,人们正在使用它,是的,但也有一些产品在独立地成功地进行 AI 会议记录。这些产品主要针对不同类型的工作或任务构建更具体和有针对性的工作流程。这只是 Zoom 永远不会做的事情,因为它是一个如此广泛的基础平台。

谈谈一个全新的平台,比如想象一下 Zoom,但它是一个专注于笔记的平台。是的,他们永远不会构建那个点。它们本质上是同步的。

显然,OpenAI 正在投资语音,对吧?这不是理所当然的。如果你想想,他们也做图像。他们有一段时间没有谈论 Dall-E 了。他们也做视频。所以它出来有一段时间了,但他们似乎真的在推动语音,尽管他们在创建跨模态的内容。这是一个人们应该关注的信号吗?我认为是的。我认为我们已经看到,即使现在还处于早期阶段,AI 的领域也是如此,创意工具是第一个也是仍然是巨大的时代。我认为我们看到了大量对图像生成、视频生成、音乐生成的投资,其中大部分仍在发生。尤其是在 AI 从纯粹的消费者用例转向更可控、高利润的企业用例时,它确实像语音一样,是一种独特的解锁,因为它对于公司来说是一个真正的改变者,特别是能够捕捉和利用他们以前从未拥有过的音频数据。

也许开发者日另一个值得讨论的事情是,他们宣布他们的生态系统中有 300 万活跃开发者,并且他们在过去一年中活跃应用程序的数量增加了两倍。既然你已经研究消费者这么久了,也许可以为听众提供一些背景?以及这到底有多快。然后让我们回顾一下 App Store 时代,苹果发布了它的 App Store。需要多长时间才能有 300 万活跃开发者在其上构建?

以及今天这个数字有多大?

我能做到吗?我不知道。我喜欢

那个

难以置信,就像我的想法一样,看起来像。我不知道那个数字,但假设每个开发者我知道可能接触到 200 或 1000 个独特用户,这就是我思考他们构建能力的方式。

我认为另一个问题是,App Store 中每个开发者的收入是多少,作为 AI 的替代指标。

非常有趣。我认为我发布了一些数据,你看到的是,它不一定是绝对的,但它是关于历史上的 SaaS 公司或生成式 AI 公司以及生成式 AI 公司如何以比其同行快得多的速度达到规模和收入。是的。

我认为这很大一部分原因是因为生成式 AI 非常适合消费收入,而且许多 SaaS 业务都是按服务付费的,例如您每月支付固定费用来获得服务。许多这些新业务都是按消费付费的,他们也将其定价为劳动力成本的一部分,而劳动力成本传统上比软件高得多。

因为我认为这是一个更令人信服的论点,说明收入增长速度要快得多。我认为报告中所说的原因是,生成式 AI 公司需要预先支付培训成本。因此,它们的利润率可能不如 SaaS 高,但这可能是。但我们知道那些赚钱的公司并不一定会在前期承担巨额的培训成本,更有可能的是,由于它们正在取代劳动力成本,因此它非常有用,非常独特,因此人们愿意为此支付更高的价格。

我的意思是,我可能会接受消费者方面的论点,以及在生成式 AI 之后人们的支付意愿要高得多,所以也许吧,但对我们来说,我的意思是,企业总是为了赚钱而存在的。

但是开发者社区,今天有 300 万人在积极参与,基于这种形式,是的。

我还认为,我看到很多以前不会称自己为开发者的人正在创建非常小的应用程序。他们甚至可能以一种方式使用 API,如果你使用过去 App Store 的类比,你今天不会真的为自己创建一个应用程序,因为那样做的障碍太高了。而且我并不孤单。

你知道,许多生产力和消费者公司的故事是使上游创作成为可能。Notion 是一个大型应用程序平台。实际上,人们已经创建了类似

每日习惯追踪器。

的应用程序,完全正确,Airtable。显然,还有像 Retool 这样的产品,但很多人至少有这种潜在的需求来创建应用程序,特别是对于那些不是技术人员的人,无论是在商业环境中还是在业余爱好环境中。我认为 AI 正在真正解锁这一点,是的。

抽象的例子是一个很好的例子,因为我们看到的是,构建在 OpenAI 模型上的开发人员类型的积极碎片化。我们与之交谈的人中,字面意思是,我永远不会寻求风险投资。我基本上是在印钞票。

我每月赚一百万或两百万美元。并非总是如此,有时是针对非常具体的用例的非常复杂的产品。所以我们看到了这一点,这可能是 OpenAI 开发者,但我们也可能看到一个开发者说,不,我将利用或微调这些模型来构建一家价值 500 亿美元的公司。

所以,类似于应用商店,我们看到很多不同类型的人,有些人只是想做一个简单的太阳能续约应用。有些人则打算在这个应用商店的基础上建立一个能够传承的企业。对我来说,到目前为止,这里的区别可能在于,就像人工智能领域的一切一样,取决于技术的进步速度或内存的运行速度。但我认为,尤其是在应用商店的早期,我们还没有看到有人每月能赚数百万美元,这是一种非常独特的能力。

通过人工智能,是的,你会看到这与代码生成领域重叠。你有了更快的回复,以及所有这些工具,让以前不会编程的人……

成为开发者,完全正确,你不需要是开发者或设计师。现在有很多技能可以通过人工智能来抽象化。只要你有良好的品味和想法,应用商店时代并不具备这样的工具,而人工智能时代则具备。

那么,也许为此,很明显,有很多事情正在发生,我们之前讨论过这个问题,但我希望谈谈策略,对吧?你要用人工智能来构建一些东西。要吸引人们的注意力比以往任何时候都更具竞争性。

所以,也许可以谈谈的一个框架是,Pika本周发布了1.5版本,我看到很多有趣的视频,它非常火爆,人们用它来挤压东西和扭曲东西,对吧?把东西扭曲,没错。它,我实际上觉得非常有趣。

所以,我很容易理解为什么这种模型会如此火爆。但是,我们正到达一个临界点,当有人发布新模型时,人们是否会感到疲劳?我希望你能分解一下你所谓的在这个世界中成功发布的要素。

如果你把视频作为一个类别,当Sora第一次发布其示例时,我的想法被震撼了,是的,人们的想法都被震撼了。我认为这让人们开始意识到,哦,我的天哪,你可以在几秒钟内创作视频。现在,有趣的是,并非所有视频都是平等的,对吧?

有以角色为中心的视频,还有更多场景生成的视频。场景中发生了什么,视频的内容密度始终很重要,对吧?场景中缓慢的动作是视频。

但这没那么有趣。猫在花园里走动,很有趣,但猫的动作很慢。我们现在看到的是,这些产品变得更加具体和有针对性。如果你也谈到了Pika,但你也有像Egle这样的产品,它有模板,你可以做很多事情,比如一个小游艇一样的舞蹈场景,这是非常开放的,它不是任何视频,它是一个非常具体的动作。

你把自己放在Pika中的场景也是一样的,所有这些模板都在进行中,或者你取视频中的特定物体并对其进行修改,无论你是希望它爆炸还是像气球一样飘走,这都是出乎意料的,这是视频中正在发生的事情。好吧,这不是一只猫在走动。它是一个点A,可能到点B,多么有趣。

你不会期望看到一个男人看着另一个女人,结果却被压扁在照片里。你期望所有这些不同的角色,我们在一秒钟内就炸掉了它们。我认为这种出乎意料的事情是正在发生的事情的下一个发展方向,是的。

我的意思是,一件非常有趣的事情是,人们对视频有一些期望。而对于人工智能来说,仅仅满足人们的期望是不够的,或者也许有一些子集,如果你正在创建一家库存视频公司,那就是一回事。但为了走红,为了在这个非常忙碌的世界中吸引人们的注意力,你需要某种不为人知的东西。

数量,他们本可以很容易地说,我们希望视频更长,因为这很难。这真的很难。像30秒的视频,场景中有一些连贯性,这是一件很难做到的事情。他们本可以这么做。但相反,团队决定,你知道吗,我们将选择场景中的物体,并用它做一些奇怪的事情。

你认为现在需要围绕某种病毒式元素进行设计吗?

我认为,如果在底层模式(再次是Sora类型的视频)中出现了一个巨大的令人震惊的发展,那么你确实需要一些出乎意料的元素,再次是观点,来吸引注意力,或者质量需要好得多,不仅仅是好20%,而是好得多,我认为你会得到关注。但这是底层技术发展,我认为我们还会继续看到。所以我不会说这是一种策略,唯一的方法就是想出一些非常吸引眼球的事情。当然,还有一些底层技术发展,将继续推动边界向前发展。

好了,今天的节目就到这里。如果你坚持到了现在,首先,谢谢你。我们对每一集都投入了大量的思考,无论是猜测日历的周期,还是与优秀的编辑Tommy一起调整音乐,直到达到最佳效果。所以,如果你喜欢我们制作的内容,请在ratethispodcast.com上给我们留言,让我们知道你最喜欢的剧集是什么。这会让我很开心,我相信Tommy也会很开心。我们下次再见。