We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Rohan Nayak: How Pocket FM is Using AI to Reinvent Audio Storytelling

Rohan Nayak: How Pocket FM is Using AI to Reinvent Audio Storytelling

2025/4/24
logo of podcast Generative Now | AI Builders on Creating the Future

Generative Now | AI Builders on Creating the Future

AI Deep Dive AI Chapters Transcript
People
M
Michael Mignano
R
Rohan Nayak
Topics
Michael Mignano: 我主持了与Pocket FM联合创始人兼首席执行官Rohan Nayak的对话,讨论了Pocket FM如何利用AI来预测爆款,本地化故事,以及作为作家的副驾驶。Pocket FM每月有超过1000亿分钟的收听量,并且正在向更多形式(如网络漫画和小说)扩展,力求实现10倍的增长。 Rohan Nayak: 我在过去10到15年里一直在构建内容平台,我痴迷于此。我消费各种形式的内容,包括漫画、动画、电影和小说。我一直想创建一个能够让新艺术家脱颖而出的平台。我之前的工作需要长时间通勤,这让我开始思考音频娱乐的可能性。我发现音频娱乐领域缺乏一个完整的娱乐产品谱系,从长篇到短篇都有。现有的叙事播客未能完全满足我的需求,因此我决定创建一个新的平台。 构建音频平台面临着内容发现和盈利等挑战。我们花了大约两年时间才找到合适的音频娱乐形式——音频剧集,它以10分钟的短剧集呈现,但内容却是长篇的,就像一个有10季的电视剧。我们要求创作者每天上传一集,这有助于培养用户的收听习惯,提高用户留存率和使用频率。 我们使用AI来解决内容创作中的问题。我们开发了一个AI语音产品,允许任何人在应用程序上写作并生成音频节目。我们还开发了一个AI辅助写作工具“Atlas”,它可以帮助作家创作和改进音频故事,解决诸如情节一致性、语言简洁性等问题。我们还使用AI来预测爆款,通过多平台测试来验证。我们还利用AI进行A/B测试,优化内容创作,并使用AI来辅助漫画创作,解决风格一致性等问题。 我们使用传播算法来管理和推广海量内容,并结合协同过滤和标签匹配技术来实现内容推荐。我们正在探索将音频IP扩展到漫画和小说等其他形式。多语言本地化是未来增长的关键。

Deep Dive

Shownotes Transcript

再见。

大家好,欢迎收听 Generative Now。我是 Michael Magnano,Lightspeed 的合伙人。娱乐行业有一个价值数十亿美元的问题:是什么让一个故事成为大片?这是 Rohan Nayak 作为 Pocket FM 的首席执行官和联合创始人正在解决的重大问题,Pocket FM 是来自印度班加罗尔的全球音频小说巨头。Pocket FM 正在利用人工智能来预测大片、本地化故事以及充当作家的副驾驶。

他们制作了 50,000 部由人工智能制作的节目,每月向听众播放超过 1000 亿分钟的内容。Pocket FM 正在将自己定位为增长 10 倍,甚至更多,包括网络漫画和小说的更多形式。这是一次引人入胜的对话,它真正展示了如何利用人工智能来增强内容平台的功能,我认为您会喜欢它。因此,请查看与 Pocket FM 的联合创始人兼首席执行官 Rohan Nayak 的对话。♪

你好,Rohan。你好,Mike。最近怎么样?还不错。感谢你邀请我参加这个播客。是的,感谢你参与。我想我们现在正处于世界的两端。很高兴见到你。班加罗尔现在几点?

晚上 8:30。对我来说,这是在早上进行的。是的,但我知道我跨越了两个时区,所以对我来说还不算太晚。是的。所以等等,所以你有团队。我们在按下录音按钮之前聊过一点。所以你显然在班加罗尔和洛杉矶都有团队,对吗?是的,洛杉矶和班加罗尔。所以我一直在两地之间穿梭。通勤不是很好。

但是通勤时间是多久?20 到 24 小时?24 小时,就像一整天一样。是的,我的意思是,我认为你只需要弄清楚在飞机上做什么就行了,所以你……这就是我试图弄清楚的,我的意思是,我想你会睡一部分时间,你有没有意识到,当你没有连接互联网的时候,我做很多创造性思考,我意识到这些航班帮助我……让你放大一点,

因为当你连接时,你只是,你知道,只是信息、Slack、电子邮件。但是当你飞行时,没有信息。所以你可以,你知道,放大,以更具创造性的方式思考事物。现在对我来说这是一段有趣的时光。是的,这很适合做你的深度战略工作。当然。好吧,所以显然,你知道,Pocket FM 是 Lightspeed 的投资组合公司,我非常熟悉这项业务,并且看着它发展非常令人着迷。

祝贺你取得的所有进展。但是对于刚收听的听众和观众来说,他们还没有听说过 Pocket FM,我认为从故事开始会很棒。告诉我们你的背景,也许可以解释你如何以及为什么创建 Pocket FM 以及你们今天在做什么。当然,Mike。

所以过去 10 到 15 年来,我一直都在构建内容平台。你可以说我对此很痴迷。你知道,我消费各种形式的娱乐和内容,从漫画、动画,当然还有电影和小说的内容。所以,你可以说我已经构建内容平台很长一段时间了,我只是想在这里构建一些东西。对我来说,其理念是

我可以构建一个将新艺术家带入生活的新平台吗?因为每个开发的内容平台都会以某种方式将新的创作者带入生活。这就是我的个人愿景。我当时在一家创业公司工作,每天通勤三个小时。

那时,我常常想我的人生在做什么?每天三个小时,每周 15 个小时。但这确实有一些价值。而且,你知道,所以我只是……我的意思是,我一直都在想,我能在内容方面做什么?还能做些什么?我当时每天通勤三个小时。而且我习惯了长时间通勤,你知道的,对吧?我意识到我经常感到无聊。

因为每天三个小时,每周 15 个小时,我尝试听了很多有声读物、播客和视频内容,

但是,你知道,它……我无法消费视频内容,当然,通勤时这更难,有声读物和播客在我想要学习新东西或想要了解某个主题时很好。但是,你知道,作为一个娱乐爱好者,我想要娱乐和音频。所以我……我尝试了一切,我什么都找不到。

我认为那时我才突然想到,我对视频娱乐的思维模式是存在一系列娱乐产品。有长篇娱乐,也就是你的视频流媒体、Netflix、迪士尼。然后你有一些短篇娱乐,当然就是 TikTok、Instagram 等等。然后介于两者之间的是 Twitch、YouTube。存在一系列娱乐,对吧?

但我认为这是关于短篇到长篇的范围。在音频中,实际上什么都不存在,对吧?音乐是一种与播客和有声读物不同的娱乐形式,它们不一定是娱乐性的。如果这样说的话,它更像是信息娱乐。是的,信息。信息,对吧?而且它只是……

从第一性原理的角度来看,我无法理解为什么某些东西,比如说音频版的 Netflix 或 TikTok,在光谱的两端都不存在。作为一个用户,我想要音频娱乐。直到今天,为什么这样的东西一开始就不存在仍然很奇怪。

但这建立了信念,如果我作为一个用户面临这样的问题,也许这样的东西可以存在。由于对故事和娱乐充满热情,

我有点,你知道,在那里冒险一试。让我们弄清楚这一点。我不知道这将是什么。它是一个部分空白。我不知道。它是一个空白画布,字面上的,对吧?让我们弄清楚这一点。这就是我们,你知道,我们开始 Rocket 的方式。你有没有觉得……

这种需求没有被,比如说,你知道,更具叙事形式的播客所满足。显然,你知道,在 Spotify、YouTube 和 Apple 的播客目录中,有很多小说或非小说,更像是基于叙事的播客。

你,所以,这对你来说没有满足需求吗?是的,我的意思是,我尝试过一些。我觉得叙事播客仍然是整个播客世界中非常小的一个子集。我的意思是,如果你分解播客,那么小说和娱乐并不是一个很大的类别。我的意思是,如果你看看美国排名前 100 的播客,你会发现一些,但它仍然主要由信息播客主导,我相信

你知道,音频娱乐需要一种不同的方法,这与典型的播客运作方式、写作方式和结构方式略有不同。你需要一种不同的思维方式,因为娱乐本身就是一个巨大的领域。它不是播客的一个子集,对吧?所以这就是当时的思维过程。所以你需要一种不同的内容方法。你刚才还提到你需要一个不同的平台。是因为你当时觉得,或者也许你最终,你知道,在做这件事的过程中,你有没有觉得也缺少产品差距?就像,哦,仅仅听这个音频、关掉我的手机、把它放进口袋里是不够的,你实际上需要。需要有产品差异化。你有没有觉得这也是一个差距?是的,当然。我的意思是,随着时间的推移,我意识到

构建音频平台非常困难。你必须解决一些非常基本的问题,例如内容发现,这在音频中比在视频中更难。我的意思是,在音频背景中,你没有探索应用程序。因为你没有看屏幕。你没有将体验置于前台。没错。前台体验不存在。那么你如何构建发现呢?这对任何音频格式来说都是一个挑战,即使是音乐也是如此。

因此,它需要一种不同的发现机制,这与,比如说,当今播客的发现方式不同。然后是货币化,对吧?我的意思是,我相信我们在音频中,尤其是在音频娱乐中,已经破解了货币化。它需要一种与播客货币化方式不同的货币化方法。这完全说得通,为什么你需要产品来解决内容。

内容发现。正如你所知,我也创办了一家音频公司,内容发现是一个永无止境的挑战。幸运的是,在我们卖给 Spotify 之后,我们能够继承他们很多内容发现工具。但这是一个巨大的、巨大的机器学习挑战。

内容方面呢?你认为哪些内容需要超越传统叙事播客结构而发展?当然。所以,你知道,当我们在平台上开始建立受众时,我们意识到我们必须找到一种形式。我的意思是,任何新的娱乐类别都需要一种新的形式。例如,对于 TikTok 来说,它是 9 比 16 的。

拍摄竖屏视频,对于 Instagram 来说,是方形照片等等。而且,你知道,这花了两年时间。当然,Lightspeed 在一开始就支持我们。而且,你知道,我们过去常常做,我们经历了 10 多次转型

其想法是音频娱乐的正确形式是什么。随着时间的推移,我们意识到音频是一种长篇娱乐产品。很难把它变成短篇。就像你不会听 15 秒的音频一样,对吧?我的意思是,因为你的用例更长,你会更喜欢长篇娱乐用例。然后,嗯,

我们还意识到用户想要小片段的剧集,从某种意义上说,它是大约 10 分钟的剧集,而不是 1 小时的剧集。

对于小说来说,因为你可以随时随地消费它,而不是 1 小时的剧集长度。这是第二点。第三,我们想要长篇内容。把它想象成音频电视节目。它是配音、音效、音乐,闭上眼睛,是一种电影般的体验。

当我们……而且,而且我们称之为音频系列和电视节目以及音频,它是 10 分钟的剧集,小片段的内容,但却是长篇的。这些大约有 500 集,1000 集。哦,这就是你所说的长篇,是指剧集的数量。是的。它就像 10 季的电视节目一样,很不错,大约 100 小时的内容。但是我们想要一个有趣的……你知道……

一个应用程序,我们希望创作者每天上传一集。这是一个非常有趣的,你知道,我会说修改,而不是每周,你知道,比如说你可以每周有一集,但是如果你每天上传一集,它就会养成习惯,对吧?你有点像,你知道,你听它,它成为你生活的一部分,你每天都听那个节目。所以这确实提高了保留率和使用频率。所以

所以这是一个非常重要的星期。也许可以回顾一下。所以现在我理解你认为必要的內容差异以及产品差异。你是如何做到这一点的?你以前有没有创办过公司?这是你第一次担任公司首席执行官吗?你是如何从每天通勤三个小时思考这个想法到跳出来直接投入并创建一家公司?

我在不同的创业公司工作过,但我从未创办过任何公司。我想要这样做很长时间了。这有点像那些事情,你只是在等待一个机会,你会发现一些你将建立深厚信念的东西,然后你就会冒险一试。

所以对我来说,你知道,我很清楚我想创业,我找到了我真正热衷的东西。我的意思是,除了内容之外,我不想创业做任何事情。我很清楚这一点。你知道,我过去常常想,也许我应该这样做。我的意思是,一些其他的想法会涌现出来,但我已经有点……

意识到随着时间的推移,如果你做你真正喜欢的事情,它就会……你知道,它就会……你会有勇气开始,你会更深入地研究,然后你就会……你知道,你会坚持更长的时间来弄清楚如果真的喜欢的话,什么会奏效。

所以对我来说,这就像,嘿,这就是我想做的。我很乐意做这件事一辈子。所以我冒险一试,我会在路上想办法的。我的意思是,我不知道该怎么做。这不像,你知道,我有人可以……一些平台可以期待。嘿,也许我可以……你知道……从其他人所做的事情中学习一些东西。那时实际上什么都没有,但我喜欢它。所以我认为我们应该……你知道……我应该冒险一试。你是如何从最初的想法发展到今天的?我的意思是,Pocket.fm,

人们可能没有意识到这是一个庞大、庞大的平台,拥有……我不知道你在公开场合透露了多少关于收入、内容时长、创作者或活跃用户的信息。但我的意思是,我们说的是非常、非常大的数字。我的意思是,Pocket FM 是一家实力雄厚的公司。那么你是如何……也许像你今天是如何从“我正在投入”到今天的情况?

这只是一系列的转型和实验。我认为对我们来说,我们非常清楚,我的意思是,我们所有人,我们都不是……我们来自自豪的工程背景,对吧?所以我们就像,嘿,我不是媒体人,对吧?所以我们意识到我们总是可以,如果我们将艺术和科学结合起来,把它想象成……你如何使用数据和技术以及现在的人工智能来做出内容决策,对吧?

来加速你的增长,并获得更好的内容,为听众制作更好的内容。每一年对我们来说都是一段非常有趣的旅程。我的意思是,我们于 2018 年 9 月开始。2021 年是我们真正弄清楚音频系列的时候,这花了两年时间。当我们在平台上推出音频系列时,这个新的音频娱乐类别,

我们的参与时间飙升至每天每用户 120 分钟。这是两个小时的狂热收听。

有趣的是,我们意识到用户全天都在消费我们的内容。音频系列是唯一可以全天候消费的娱乐形式,对吧?我的意思是,我们看到你在醒来时、通勤时、有时在工作时间、空闲时、下班后通勤以及睡前不想看屏幕时都会参与其中。

对。我的意思是,当你想到视频娱乐时,你必须抽出一些时间来消费、观看电影或观看节目。你必须……你必须有几个小时,对吧?但在音频中,你不需要。你可以随时随地做。而且它很有趣。这是你可以随时随地消费的内容。它不是信息,有时你会信息过载,对吧?它不是……

它不需要大量的认知思考来消费非常轻量级的内容,如果这样说的话。那视频呢?你对视频怎么看?我的意思是,显然,我们已经看到 Spotify 试图积极推动其一些新视频产品的采用。

YouTube 现在是世界上最大的播客平台。而且显然,你知道,它都是视频。你如何看待 Pocket FM 的视频机会?或者你如此专注于音频,你认为这将始终是主要的格式吗?是的,我们专注于音频。我相信这是一个巨大的类别,它有自己的用例,这与视频不冲突。而且我仍然觉得音频是一个……

如果它有不同的内容类别,可以有更多采用的类别,对吧?我的意思是,即使是在 Pocket 的音频小说中,例如本质上是音频系列、连载小说内容,我们才刚刚开始。我认为,你知道,我们现在拥有超过 2000 万月活跃用户。自从我们开始货币化以来,我们在短短两年内就从零增长到 2.5 亿美元的收入。哇。

而且,你知道,去年我们在 Pocket 上播放的时长超过 1000 亿分钟。而这仍然非常早,Mike。我的意思是,我们才刚刚开始。我们仍然拥有……你知道……不是很大的内容目录。因为音频和音频系列存在先有鸡还是先有蛋的问题。

对。这不像我们的内容存在于某个地方,你可以授权它并将其放在你的平台上。你必须与你的创作者一起弄清楚这一点。我们如何获得高质量的音频内容?用户不在乎它是否是新类别。他们只是想要每个子类型中的高质量内容。所以我认为我们才刚刚开始。但我认为我们想专注于音频。但是我们当然想扩展到我们相信的类别

你知道,我们使用音频创建的 IP 具有潜力。例如,你知道,从根本层面来说,如果你抽象出音频格式,我们实际上是在寻找独特故事的业务,

对吧?我的意思是,因为这就是小说的本质。我的意思是,你必须找到这些独特、闻所未闻的故事,并将其提供给你的听众。一旦我们有了很棒的想法或很棒的故事,你就不想只以音频形式停止。你想将其改编成多种格式。所以我们想扩展格式。

但是当然,从关注点的角度来看,它是音频。这很有道理。好的,所以现在我们已经为 Pocket FM 是什么奠定了基础。感谢你分享这些数字。我的意思是,听众现在可以听到,这确实是一些真实的规模。

让我们谈谈人工智能,对吧?这是一个关于人工智能的播客。正如我过去从你那里听到的那样,Pocket FM 正在以一些非常深刻的方式利用人工智能。那么我们为什么不深入探讨一下呢?也许从内容创作开始。Pocket FM 如何利用人工智能进行内容创作?当然。所以我认为如果我们退一步,对吧?所以我们相信,我认为作为一种理念,我们相信

生成式人工智能将使权力平衡更多地向创作者倾斜,而不是中间人。我的意思是,创作者使用人工智能自己制作高质量内容变得更容易了。

对我们来说,正如我们一开始所说,对我们来说,这一点非常明确,我们如何使用技术来解决内容问题?作为一家公司,我们讨厌看门人。我们不希望有人来决定一个节目是否好。我们希望用户来决定。当然。

对。因此,我们一直相信,我们如何创建一个平台,让任何人都可以制作高质量的音频节目?这就是我们长期以来一直在努力的事情。但在没有人工智能的情况下,这很难。对。所以我们采取的第一步是,我们如何帮助我们的作家制作高质量的音频内容?

我的意思是,有很多作家想要……他们有很棒的故事。但是他们如何……你知道……找到配音演员、编辑音频文件以及……你知道……将其上传到 Pocket FM?我们总是可以选择将音频节目上传到平台上。但它没有吸引力,因为它很难做到。任何用户,任何用户都可以上传。任何人。任何人。

但它没有很大的吸引力,因为同样,如果我是一个作家,我仍然必须找到一个配音演员并编辑音频文件,添加背景音乐等等。但是有了人工智能,最终有可能,如果你有一个很棒的故事,你可以使用人工智能语音将其改编成音频形式。你可以在应用程序本身编辑背景音乐。我们为此与 11 Labs 合作。

但我们在 2024 年 3 月推出了这款产品,去年,任何人在应用程序上现在都能看到那个上传选项,但是你现在可以在应用程序上和网络上、网络上、网络应用程序上开始写作。一旦剧集……你知道……完成,你就可以……你可以选择一个新的声音。这些都是非常高质量的,就像……你知道……

我们与 11 Labs 在这方面进行了更详细的合作。非常高质量的内容。你只需点击一个按钮。点击一下按钮,音频节目就上线了。这令人难以置信。任何人都可以做到这一点。任何人都可以做到这一点。而且,你知道,我的意思是,直到今天,我们推出这款产品已经一年多了。我们已经看到 50,000 部人工智能节目被创作出来。

仅供参考,在此之前,我们主要是一个 PGCE 平台,一个专业内容平台,只有 200 个节目。这是 50,000 个。而且,你知道,我们收到的反馈。因此很明显,从作家的角度来看,产品市场契合度非常好。但是用户呢?我的意思是,参与度呢?人工智能生成的内容,对吧,已经贡献了近 600 万美元的收入。

但这与 1 亿美元的收入、2.5 亿美元的收入相比似乎很小,但这每月都在增长 40%。——哇,哇。——如果没有人工智能,这是不可能的,对吧?我的意思是,这非常清楚。——那么这 50,000 部节目呢,谈谈创作过程。人类在哪些地方承担了大部分繁重的工作,人工智能在哪些地方承担了大部分繁重的工作?我猜在诸如,显然,就像你说的,背景音乐,

通过 11 Labs 进行配音,但是实际的写作过程呢?人类是否自己完成了整个写作过程?他们是否利用人工智能来帮助他们产生想法?谈谈这个。——是的,所以产品的第一个版本只有语音和……你知道……编辑功能。然后现在第二个版本,我们一直在努力的是我们现在正在为作家开发一个副驾驶。

现在,这里的一个见解是,我们大多数使用人工智能的顶级 UGC 作家实际上都是我们的忠实听众和第一次写作的人。这里有一个非常有趣的见解,对吧?这是一个新的内容创作类别,以前从未消费过这个类别的人

从逻辑上讲,不可能成为一个伟大的作家,因为你仍然需要了解如何为音频写作,如何……如果你没有消费过高质量的音频节目,比如说由人类制作的,那么你作为一个作家如何知道该写什么?但我们意识到,当我们推出这款人工智能语音产品时,我们的内容创作激增,

但是随后出现了一些挑战,作家们说,我的意思是,我有一个很棒的故事,但我不知道如何……写作的细节,对吧?你如何构建一个剧集?你如何开始一个剧集?它必须引人入胜。当剧集结束时,它必须以悬念结尾。你如何写出精彩的悬念,对吧?其次,你如何设计故事弧线?就像如果你有……想象一下 500 个……

500 集的节目,你如何设计故事弧线?你如何利用用户反馈来改变你的内容?所以我们意识到,嘿,这必须是一个副驾驶,原因有两个。首先,我们对许多这些节目的每集保留数据都有所了解。所以我们知道什么有效,什么无效,就……你知道……如何开始一个剧集?故事弧线应该有多长?这些都是……

我们在内部开发的策略。其次,我们意识到我们拥有大量数据。当比如说一个作家在平台上写作,而人工智能建议一个输出时,我们将拥有大量数据,对吧?你喜欢它。这将成为模型的反馈循环,对吧?所以任何编辑都将成为模型改进的反馈循环。

所以我们一直在为此努力……想象一下在 ChatGPD 中,如果你不喜欢输出,你会说,“也许稍微改一下”。这将作为 ChatGPD 的反馈。这些是你们自己训练的模型吗?我们称之为 Atlas,我们的副驾驶。我们已经微调了我们的开源模型。但我认为我们必须解决一些非常棘手的问题。我认为第一个问题是

你不能在小说写作中产生幻觉。你不能在未来的某个时刻改变两个角色之间的关系。你就是不能这样做。你必须保持上下文。即使 Lama 4 和所有这些模型都有 1000 万个标记,

但上下文是一个很大的问题。是的。我们必须解决它。我们必须在这些开源模型之上构建一层,在那里我们必须……比如说你是正在写故事的作家。我们……我们将实体和角色之间的所有关系保存在数据库中,然后模型查询该数据库以确保模型的方向正确。这只是一个。然后其次,我们现在还构建了代理系统。想象一下,对吧?嗯,

AI正在生成输出。然后,代理会检测到,“悬念够不够好?”如果不够好,这里有五个选项。也许你应该这样想一个悬念。或者节奏太慢了吗?因为现在每个人都想要快节奏的内容。每个人都想要拖延。

也许你可以想想你刚才写的这段话,把它压缩成一行。不要写一整段内容。诸如此类。有不同的代理系统,一个负责节奏,一个负责悬念,一个负责开头,剧集开头。因为如果开头很无聊,用户就会放弃。所以把它想象成你实体之间的关系,解决了幻觉问题。

并且你对故事的不同组成部分的不同组件有代理系统。事实上,最大的一个有时,如果你使用GPD或任何这些平台,

语言并不简单。人们不是那样说话的,对吧?所以我们现在创建了一个简单的代理文本模型,以确保语言对音频收听者来说足够简单。我认为,我们希望成为故事写作Copilot的领先模型之一,因为我相信

故事是娱乐的核心,对吧?如果说得通的话,所有东西都是建立在其上的包装。如果你有一个很棒的故事,音频、漫画、小说,对不起,小说、音频、漫画、视频,它都是核心故事的不同形式或包装,对吧?所以我认为如果我们真的很好地解决了这个问题,我们就可以让世界各地的作家创作优秀的故事,然后将其转换成音频,

只需点击一个按钮。也许在某些时候,我们也在研究,如果你有一个很棒的故事,你可以点击一个按钮将其转换成漫画,对吧?——是的,所以就像从你的创造力和你的知识产权中衍生出额外的形式。——我们的目标是真正解决故事生成的难题。一旦完成,

我认为我们非常接近于解决语音问题,正如你所知,它运行良好。如果你是一位作家,你进入这个口袋生态系统,你写了一个很棒的节目,我们会帮助你写一个很棒的节目。这个工具会帮助你写一个很棒的节目。我想分享一个有趣的见解。我们的社区中有超过25万名作家。

但如果你仔细想想,每个作家都有一个很棒的故事,但他们有时确实需要一些指导才能写得更好。

但你不可能有25万名教练,对吧?我的意思是,这根本无法扩展。没有意义。但现在想想看。有一个AI编辑的想法,它告诉你,“你听到了一些想法吗?”这个编辑拥有实时保留数据,以及我们作家过去一年所做的所有编辑。然后随着时间的推移,它只会变得越来越好。

这就像拥有一个编辑,一个很棒的,嗯,最好的编辑,对吧?是的。是的。

真的,非常吸引人。我实际上,我想不出任何其他平台,所有需求都发生的平台也拥有一个与AI根本上相关的创意工具,而AI给了某人如此大的杠杆作用,而他们以前做不到,你知道,他们无法编写这些系列,而现在他们可以了。这真的很吸引人。我记得你还在告诉我

你利用AI的一种方式。我不知道你是否还在这样做,你有效地利用它来帮助你识别大片。快速启动内容创意,快速使用AI,然后快速使用AI进行测试。然后,当你看到真正的需求时,你会大力投资这些想法和故事。你这样做吗?是的。所以,我认为,我们正在用AI构建的,故事生成的

技术有多种用途。一种当然是作家的副驾驶。我们还没有讨论的第二个用例是将故事本地化成多种语言。我们谈到了这一点。

你提到的第三个是,比如说原创的想法,对吧?所以我们过去做了很多PGC,我们现在仍然做PGC内容,这是我们原创的内容创作。PGC的挑战总是,你怎么才能获得大片,对吧?这在娱乐业中就像一个十亿美元的问题。你必须预测大片,每个月、每个季度都要推出大片,对吧?

对我们来说,挑战在于你可以做很多试播。所以我们创建了这个AI大片引擎。想象一下,

什么构成了大片。如果你从根本上将其分解成,你知道,组件,对吧?所以第一性原理分析,你会看到一部大片,它有很多吸引力,很多人喜欢。这是一个大型TAM,一个大型目标市场。而且用户也愿意为它付费,在我们的世界里。你知道,很多用户喜欢它。他们愿意为它付费。

但是你怎么找到这样的节目呢?我们做到这一点的一种方法是推出很多试播。

在社交媒体上发布试播。社交媒体实际上是一个非常好的方法,可以估计用户是否喜欢它?是的,快速获得反馈。快速获得反馈。我们开始监控指标,如完成率、点击率、参与率。在TikTok或YouTube上?在YouTube、TikTok、Meta上,对吧?所以你将它发布到所有这些平台上,并获得关于受众是谁的反馈。

我们开始看到一些节目,比如一些概念,当你写这些试播或制作这些试播时,做得非常好。你知道,它比其他试播好一个数量级,对吧?然后你还在应用中发布这些试播

在应用程序上,并检查转化率,比如你的付费转化率是多少,这意味着用户是否愿意为此付费?然后你结合这些指标,对吧?想象一下,一个点击率高、转化率高的节目。

我们开始看到,你知道,模式是那些点击率高、转化率高的节目做得非常好。其中一些节目,如《拯救诺拉》、《我的帝国系统》,现在已经获得了超过4000万美元的收入。

- 我的天哪。- 每个,每个,对吧?现在对我们来说的问题是如何更快地进行这些试播,对吧?而且,你甚至可以在发布之前就知道节目的保留率吗?我的意思是,当我们用人类来做这个试播测试时,我们通常只做,比如说,50集的试播,对吧?但是这个节目在50集之前可能很棒,然后,你知道,之后就不行了,只是,你知道,沉没了。

老实说,这是一个真正的问题。我们尝试推出了一些表现不佳的节目,因为它没有很好的保留率。

所以我们问自己,我们对自己说,我们怎么能解决这个问题呢?AI能否制作500集的试播,对吧?再次使用AI,作为我们创建的副驾驶的用例,对吧?你制作一个500集的节目,再次做同样的事情,在社交媒体上发布,在应用程序上发布,但这一次,

我的意思是,你不仅在测试节目的时间,节目的吸引力,节目的转化率和节目的保留率。你可以在一天内做到这一点,而不是几个月。真正有趣的是,你显然可以很快得到答案,说明某个知识产权是否值得投资。但我必须想象你也可以进行其他类型的分析,比如

我不知道,比如用不同的叙事方法进行A/B测试,或者隔离某些角色或事物,那又怎么样呢?我的意思是,想象一下,使用AI,你可以在内容上进行各种微型测试。你正在探索这种可能性吗?- 是的,我们首先从PGC开始,然后我们将向作家开放。

在任何时候,对于我们最受欢迎的节目,我们都有大约五个并行版本正在运行。内容?内容。所以就像不同的开头,不同的,在某些情况下,不同的声音。所以就像节目的五个、六个不同的版本。然后你选择获胜的版本。当然,你知道,这就像内容的A/B测试。是的。哇。这是自动发生的吗?不。我的意思是,就目前而言,我的意思是,最初我们使用了,再次是作家,PGC作家过去常常这样做。

现在有了AI,我们可以改变。我认为对于一个新节目来说,非常关键的一点是开头,第一个小时,前五分钟,前一分钟,对吧?你可以,而这就是你实际上可以进行大量A/B测试以找出节目的正确开始的地方。因为

在当今世界,如果你的开头或第一个很无聊,那么之后的故事是否精彩并不重要。没关系,对吧?所以我们做了很多A/B测试,尤其是在开头。现在我们正在尝试对我们的UGC作家做的是,我们将给他们同样的功能,你知道,这里有五个或六个建议的变体,只是,你知道,

再次选择你想用哪个进行A/B测试。所有这些工作方式都是,我们首先在我们自己的内部用例中使用我们自己的作家,我们的PGC作家来做。然后一旦微调完成,足够好可以推广出去。我们将它推广到我们的UGC社区。令人着迷,令人着迷。你向创作者交付了什么?创作者是否需要能够理解

理解如何分析数据并运行这些A/B测试?或者它只是为他们做这件事,并将其简化,以便任何人都可以利用A/B测试和多变量测试?它正在简化,对吧?我相信,你怎么让它对作家来说超级容易?我们将在未来几个月推出的一个有趣的特性是聊天。

所以,与其像,你知道,你看到这么多不同的界面和数据等等,我们的想法是你可以问一个机器人。哦,哇。是的,这说得通。机器人知道保留数据,知道你的问题可能是什么。所以它可能很简单,我的保留率下降了这一集。可能的原因是什么?再次,这是一个故事生成扩展

因为现在AI非常了解故事,了解本集节目保留率下降的潜在原因是什么。这可能是因为,你知道,这可能是像这一集一样微妙的原因,你转移了情节,更关注次要角色,而用户不喜欢它。它可能像那样微妙。也许只是,你知道,确保下一集你不会那样做。

对吧?所以聊天将成为作家们的一个很好的界面。我在回顾你关于写作的谈话内容,即使在写作中,也很难保持一致性,保持,你知道,正确的语境,错误的角色,他们的关系。你知道,我必须想象你也有类似的挑战,但有一整套不同的挑战

当涉及到漫画和网络漫画时?例如,你怎么确保这些东西保持风格一致性,你知道,以同样的方式绘制角色?我的意思是,对于所有这些图像和视频模型来说,这在AI中是一件非常困难的事情。所以很好奇你如何处理这个问题。当然。所以,你知道,当我们想到推出一个网络漫画平台时,原因非常明确,我相信在构建Pocket FM的过程中,我们已经构建了……

我认为我们已经创建了一种构建娱乐业务的新方法,从某种意义上说,你如何使用AI来发现、制作和发现精彩的节目,如何营销它们以及如何将其货币化?这三个是不同的,我们构建这三个垂直领域的方式与当今娱乐业务的构建方式非常不同。

我们对自己说,我们能否将这些策略,这些内容,AI驱动的内容策略导出到另一种形式?我们首先想到的是漫画,因为我一直是一个非常热情的漫画消费者,对吧?我已经消费了10到15年了。最令人沮丧的问题是,你每周只得到一集,而那一集只需要三分钟就能读完。

我等了一周才看了三分钟。这太令人沮丧了。最耗时的步骤是着色、插图,你提到的,确保风格、面部的一致性,对吧?但我们对自己说,嘿,如果这个,我可以,你知道,用AI解决这个特定的步骤,对吧?

其他一切保持不变。你仍然必须编写内容,你必须给语音气泡写字幕等等。

你能缩短这段时间吗?所以我们开始构建Blaze的想法是,我们能否训练角色?我们再次从扩散模型中构建它。你能使用一些合成数据,在开始时使用一些人工草图来训练某些角色,以确保你训练的模型在,比如说,比如说一个故事有20个角色,对吧?

你能,你能,我的意思是,我们过去常常自己做。现在我们正在尝试,我们仍然自己做,但我们将把它开放给世界,在几个季度内,任何人都可以做到。所以你基本上可以按照你想要的角色外观来训练角色。你训练角色,以保持这种面部一致性。我们训练它,我们尝试过,我们开发了方法论,关于如何确保一个

你的训练数据中应该包含什么才能保持面部一致性、风格一致性,甚至背景一致性,对吧?有时会发生什么,背景会发生变化。可能是相同的背景,但略有不同。

你如何训练这些东西,以便当你尝试创建漫画时,你只需要画一个粗略的轮廓。Blaze的工作方式是,你作为视觉艺术家,只需画出你想要的面板的粗略草图。例如,假设你想要,你知道,有人坐在长凳上,你只需要,你知道,画一个非常粗略的轮廓。

选择已经训练过的角色,然后写一个提示,我想要这种类型的背景,我的意思是,这种类型的背景,比如说,然后你点击一个按钮,对吧?会发生什么,因为你已经做了一个粗略的轮廓,你已经,你已经,我没有,你已经,你已经提到了表情,但这是一个非常粗略的草图,并不难做,对吧?艺术家可以在很短的时间内做到这一点

然后模型会做什么,它会使用该轮廓并进行图像到图像转换,而不是文本到图像转换,对吧?他们会做图像到图像转换。

然后对于背景,我们将进行文本到图像转换,对吧?所以它结合了图像到图像和文本到图像,为你生成一个面板。是的,明白了。明白了。所以你使用图像到图像来解决一致性问题。是的。但粗略的草图是一个非常粗略的草图。这不像你必须画一些非常详细的东西。顺便说一句,有了这个,艺术家们已经从每周一集变成了每天三集。哦,我的天哪。

20倍的生产力。正因为如此,我们在Pocket Tunes中看到,当我们将这些音频IP转换成漫画时,漫画中正在发生狂热阅读,我们的用户实际上,平均参与时间已经超过100分钟。与音频非常相似。

因为内容的速度,对吧?就像狂热阅读终于可以在漫画中发生了,而这以前从未发生过。- 对。所以,你知道,在谈话的早期,我们谈到了AI如何真正有助于解决内容创作并消除瓶颈。你从,你知道,数百名故事讲述者变成了,你知道,数十万或数万名故事讲述者。似乎你会有一个不同的挑战,那就是,你会有如此多的内容

你知道,你可能不知道该怎么办。或者更具体地说,就像我们之前在讨论中谈到的一些事情一样,现在你有了新型的发现问题,对吧?

你如何解决这个问题?是的,我的意思是,这是我们现在面临的最困难的问题。我们现在面临的最困难的问题。所以我们现在构建了一个传播算法,如果新的内容进来,首先让AI尝试以某种方式对其进行审核,以确保它没有剽窃和其他一些检查。

然后你让AI也稍微评估一下内容,对吧?我认为有了这个,正如我所说,有了这个故事生成的整个堆栈,它会变得更好,而且它已经变得越来越好了。所以你稍微评估一下内容,然后你将其传播给几百个用户。

然后你检查这100个用户的资料。这个节目表现如何?它有很好的保留率吗?它有很好的转化率吗?如果很好,你传播给1000个用户,然后是10000个,然后是更多用户,对吧?所以这是一种传播算法。现在,这里棘手的地方在于,比如说,你向哪些用户展示这部分内容,这可能是好也可能不好?

所以从长远来看,这里的长期解决方案是评估部分。我们能否在第一时间更好地评估内容?因为我们仍然喜欢以用户为首的产品,对吧?我们相信我们希望更加关注用户。如果我必须在两者之间做出选择,我会选择用户及其体验,而不是向他们传播不好的内容。

所以长期解决方案必须是AI主导的评估。所以首先,基本上你所说的就是,在你考虑推荐、发现、个性化之前,首先是,“嘿,让我们看看内容。让我们评估一下。让我们确保它满足某些质量标准,它没有侵权,它是安全的。”这是第一步。但是第二步呢,然后将其与合适的用户匹配?是的。

是的,我的意思是,对我们来说,这已经进行了一段时间了。我们进行协作。当然,协同过滤效果非常好。而且,你知道,这基本上是你试图弄清楚,你知道,用户倾向于有一些他们更喜欢的类型,对吧?然后你做的就是,比如说有一个节目。我们通常用多个标签标记这些节目。所以想象一下,一个节目可能有近100个标签,对吧?

而这个标签可能是,例如,在科幻小说中,可能是星际的,对吧?这是一个标签,对吧?然后想象一下,一个节目有多个这样的标签。所以随着时间的推移,我们从用户的消费模式中了解到,用户更喜欢哪些标签或哪些标签?

然后,如果出现一个新的节目,它包含一些这样的标签,我们会向该特定用户推荐该节目。明白了。说得通。罗汉,似乎你已经为……

内容创作构建了一些令人难以置信的工具,你知道,就像现在跨多种形式的内容创作爆炸一样,音频、网络漫画。你拥有剥离的技术。你拥有自己的平台,并且拥有AI和机器学习技术来分发它,并确保它不仅能接触到合适的人,而且还能将反馈发送回创作者,以便围绕保留率等方面进行优化。在我看来,Pocket FM

现在已经处于完美的位置,可以为许多不同的内容形式做到这一点。

你如何看待这个问题?平台的未来是更多形式吗?你怎么做?我的意思是,你显然已经表现得非常出色。例如,你如何从今天的状态出发,实现10倍或100倍的增长?当然。所以,尽管我相信,我的意思是,Pocket FM、Pocket Toons和Pocket Novels(这是第三个平台)将拥有巨大的潜力。我们只是触及了这些类别的表面。而AI只会帮助我们加快这些类别的增长,对吧?

你知道,我们没有谈到的一件事是,由于我们现在可以几乎瞬间将一个故事本地化并改编成多种语言,这为我们打开了大量的增长途径。所以想象一下,有83种语言的使用者超过1000万。

但是内容并非以83种语言制作。它以几种语言制作,然后配音成其他语言,这对任何人来说都不是理想的体验。现在你可以击败音频网络漫画。你实际上可以本地化

比如说,我的意思是,我们现在有很多为美国制作的节目,现在在德国、法国、墨西哥做得非常好。从长远来看,我们会有83种或更多语言的上帝。

而这不需要付出太多努力。如果你有一个很棒的节目,你如何将该节目本地化成多种语言?所以只是本地化和适应不同的文化,适应不同的形式。对于我们的音频、网络漫画和小说来说,这些都是巨大的增长机会。

现在,当涉及到不同的形式时,我仍然相信,随着AI的发展,如果我们拥有知识产权,并且我们允许创作者创作更好的故事,我们将开放新的形式。但我认为这三者本身就可以从这里扩展10倍。我认为语言,只是定位多种语言是这一增长旅程中的一大块。

太棒了。罗汉,对于第一次查看Pocket FM的任何人,你推荐人们首先收听哪些节目?第一个是《我的吸血鬼系统》,第二个是《神秘之主》。我的意思是,我是一个非常喜欢奇幻和科幻的粉丝,但是请查看《我的吸血鬼系统》、《神秘之主》和《拯救诺拉》。好的。好的。我们会查看的。罗汉,这太吸引人了。我认为你利用AI来扩展

内容平台和发现的方式,坦率地说,与我们迄今为止在其他内容平台上看到的任何东西都不一样。所以看到你们都在AI方面带头,真的,真的非常酷。非常感谢你的时间。期待再次与你合作。谢谢,迈克。这是一次很棒的谈话。谢谢。

感谢收听Generative Now。如果你喜欢这一集,请对该节目进行评分和评论。当然,还要订阅。这确实有帮助。如果你想了解更多信息,请在X、YouTube或LinkedIn上关注Lightspeed at Lightspeed VP。Generative Now由Lightspeed与Pod People合作制作。我是迈克尔·麦克纳诺,我们下周再见。到时候见。