We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 互动式 AI 音频到底是什么?新型播客、语聊房还是 AI 版 Clubhouse?

互动式 AI 音频到底是什么?新型播客、语聊房还是 AI 版 Clubhouse?

2025/6/28
logo of podcast 编码人声

编码人声

AI Deep Dive AI Chapters Transcript
People
傅丰元
吕睿韬
白宦成
Topics
白宦成:作为《编码人声》的主播,我认为播客技术在过去二十年里经历了显著的迭代,从最初的电台形式演变到如今的互动式音频。我们应 Apple 播客 20 周年之邀,探讨这些技术演变,并展望未来发展方向。回顾历史,我们发现 RSS 协议的出现、CDN 技术的应用以及托管平台的发展都极大地推动了播客的普及和发展。特别是小宇宙的 D07 功能,降低了播客的入门门槛,让更多人意识到可以自己发布播客,成为了播客主播。 吕睿韬:作为喜马拉雅珠峰 AI 的前产品负责人,我认为托管平台本质上是技术设施,而播客创作者的擅长之处在于内容创作。托管平台降低了技术门槛,让更多创作者能够快速创作和分发内容,推动了中国播客市场从零到一的快速发展。随着移动互联网的发展和信息爆炸,用户表达的需求增加,应该让用户实时连接创作,把连接变宽。互动是生活的主要来源,信息和认知的升级来自互动,移动端能更好地采集和转化多元的原始信息。 傅丰元:作为 RTE 开发者社区的负责人,我更关注播客背后的技术。最早的 RSS 本身是去中心化的,任何人都可以获取内容,播客客户端可以导出订阅列表。Newsletter 平台也具有类似的独立精神,允许用户随时带走订阅者。这种独立精神在播客和 Newsletter 中存在,但在平台化后泛化为自媒体,大家不需要理解技术,只需知道人人可以做主播。

Deep Dive

Chapters
回顾播客20年发展历程,从RSS协议到播客平台的兴起,再到移动互联网时代音频消费的爆发,探讨播客元年的定义及技术迭代对播客发展的影响。
  • 2000年RSS协议新增音频字段,标志着播客的诞生;
  • 2004年podcast概念提出及Daily South Code爆款播客的出现;
  • 2005年iTunes正式支持podcast,推动播客流行;
  • 2013-2014年移动互联网兴起,催生国内播客平台的崛起;
  • 2020年小宇宙上线,标志着播客的出圈。

Shownotes Transcript

本节目由津津乐道制作播出

大家好 欢迎大家收听这期播客那么这期播客应 Apple 播客 20 周年邀请我们来和大家一起聊一聊播客音频互动式音频的迭代我们是编码人生一档由津津乐道播客网络和 RTE 开发者社区联合为大家推出的播客节目跟大家聊一聊就是大家今天在耳机里听到的这个播客背后都有哪些技术以及这些技术是如何演变的那今天参与录制的

我是编码人生的主播小白同时我还是 RTE 开发者社区的布导师当然除了我以外呢还有我们的两个好朋友请大家自我介绍一下大家好我是秀才我现在是一个创业者然后之前是在喜马拉雅珠峰 AI 负责整个产品对然后我的创业项目主要还是想围绕着这个互动式音频的一些新的玩法来重新定义这个互动式音频的一些新的可能性对对

大家好,我是傅峰元,然后是 RT 开发者社区的负责人其实过去一年咱们都是打过招呼因为过去一年的这个所有播客的节目啊编码人生节目都是我在策划的对,但今天终于可以跟大家去用以主播身份和来跟大家交流了

同时呢为什么是邀请到秀才来参加呢是因为社区最近我们发起了一个语音 AI 的创业营然后这个营地里面就会邀请到十来家专注于做 voice agent 的的一些创业项目其中就包括秀才的正在做的互动声音品的项目所以很开心啊就接下去能够跟秀才还有小白一起聊聊这个互动声音品

是的 Bob 终于从幕后走到了台前来用声音和大家相见过去呢主要是出现在声评里面那刚好呢我们今天这期节目也的确是应 Apple 播客邀请然后我们来去录制一下关于这些播客呀音频和互动式的这些迭代那我觉得在一开始我们还是跟我们的听众快速的 recap 一下

在过去的这 20 多年里播客的技术是怎么迭代的然后我们也通过这些播客的历史技术的迭代我们再回过头去看一看说哦 以古建金我们过去的播客音频是怎么样去发展的我们未来可能是什么样那在一开始呢我先带大家快速回溯一下整个播客的历史那

大家所感受到的播客其实是从最早的电台出现的就是大家最早是在汽车上听电台然后从电台演变到了我们如今看到的播客那如果我们说今天要去看一个相对更加明确的播客的定义的话那可以回顾到 2000 年在 2000 年的时候呢在 RSS 草案当中的新增了一些 Draft 去说明说我们是否可以在 RSS 当中去新增音频也就是 Inclosure 这个字段当时就叫 Podcast 了吗

那个时候还不叫 podcast 那个时候叫的是 RSS 我们在聊的是 RSS 那个规则 SPAC 音频格式包括在 RSS 里面

这件事对因为更早的 SS 格式里面只有文本就是文本 title 然后内容然后在 2000 年的时候有了这个草案说我们是不是其实可以把音频甚至是更多的内容以 inclosure 的方式给塞到 SS 里这样的话我的 SS 协议就有了拓展而到了 2004 年的时候有一个记者 Ben Hamser 他去提出了说 podcast 这个概念

对在那一年呢也有一个真正的爆款的播客 Daily South Code 由 Adam Curry 发布的这样的一个播客节目真正的让大家出现在这个时候大家会意识到说 OK 如果想听节目我可能不一定非要在车上来听了我现在可以通过互联网去拿到这个节目然后我可以去听

在这个时期呢我觉得有一个大家会需要注意的点是其实中国的播客节目发展的也很早就是 04 年的时候美国有他们的爆款节目而同一个时期中国也出现了自己的播客节目就是在那个时候出现了糖蒜广播嗯

当然在那个时期其实唐算广播还没有完全依赖 podcast 的这个形态去做分发但那个时候其实已经出现了然后在同一年呢也会海外出现了一些专门下载播客的这些软件然后帮助大家去听但那个时候国内其实还是没有那么的兴起然后到了

而真正的 20 年前 2005 年 iTunes 的 4.9 是正式去支持了 podcast 然后呢大家才开始说在我们的软件当中去听博客这件事开始逐渐流行起来对当然这里边我觉得大家可以注意一下是说 podcast 这个词其实要比软件支持要更早它其实是在那个 04 年就有然后是 05 年在 iTunes4.9 上才真正的支持

那这是播客发展的第一个时期就是 2000 年到 05 年左右这个时候其实国内的播客还是没有那么的大的因为只有一些相对比较小众的爱好者在做节目然后一直到 2013 年 14 年我们的移动互联网出现我们开始有大家开始手上有智能手机然后我们在智能手机上我们每天拿智能手机到处走我们

开始有音频消费的需求我们开始想听点东西这个时候出现了三家大家非常熟悉的公司

分别是喜马拉雅荔枝和蜻蜓 F 他们在那个时候开始去做了一些现在来说他们可能那个时候还完全不能完全叫播客业务他们其实讲的做的很多比如说什么有声书啊然后可能是一些传统的音频节目从线下录制然后给你放到线上去听他和我们现在大家所聊的播客还不完全一样因为他们的分发机制其实不一样他们是由这个内容平台来去做分发的

然后那个时候大家开始去更多的去消费内容然后这个时期国内除了出现这些平台和公司以外我们还出现了一些大家现在可能还耳熟能详的节目比如说在那个时候出现了大内密谈然后到后面发展可能再拆除日谈官员之类的那就是更后面的事情了然后到 2016 年的时候金金乐道播客网络也是在那个时间出现然后再往后就是到了

2019 年然后我们却发现说整个市场开始出现了更多的各种并购包括海外我们看到比如说像 Spotify 然后 YouTube 也开始去做一些播客上的投入

然后可能对于更多的听众来说大家更熟悉的点来自于 2020 年因为某些众所周知的问题大家开始有对音频的巨量消费的诉求然后小宇宙出现大家开始真正的意识到是 OK 播客出圈了然后我们看到各种关于播客的元年的描述然后播客的各种扩圈大家开始在小伙伴发现说哇原来有宝藏播客原来大家在播客里聊这么多

这样的一个时间线一直走到现在从 20 年小宇宙上线到现在我们可能很多我们听众大家去聊播客的时候他现在可能已经完全不用 Apple Podcast 他完全不用苹果播客的那个软件而是可能更多大家一接到播客就是哦我应该在小宇宙上听某个节目在现在的很多人来说可能

波克的另一个软件实体的代名词就是小宇宙我上次碰到一个嘉明老师说有时间咱再录个小宇宙吧对我觉得这里面就是这些软件平台他们在快速扩张以后真的会影响大家的这样的一些变化对我看你捋了一下这个历史啊但我有个迷思啊对到底哪一年是波克月年

如果真要论元年我自己会觉得可能从 2000 年开始算或者是 2004 年因为 2000 年是草原开始你是个技术派的是吧我是做研发的嘛所以我肯定是从技术派的那再上面定一下什么时候是中国的博客元年

如果是中国的播客原年我会定义为 04 年因为在那个时候我们出现了唐算广播然后可能它的分发渠道和我们如今不完全一样但它的总体的设计思路和它在做的事和我们后面大家在做的播客是一脉相承的对只是在那个时候它可能还没有那么被叫做说它是个播客大家可能更多对它定义就是这是一个广播节目是一个网络电台对对对

秀才怎么看这个博客元年的事我觉得博客元年的事从产品视角和用户视角来看我觉得从中国国内来看我觉得应该是 2020 年是比较明显的因为 2020 年出现了非常多的线上化以及音频的消费的爆发式的需求增长

那这个本身实际上它从市场的需求来讲它是真正能让供给端或者说这个产品能够澎湃的发展的开始所以我觉得 2020 年大家其实无论小宇宙喜马拉雅 荔枝 蜻蜓其实都开始参与到或者说重新的把这个播客的这种形式真的定义下来我觉得是在 2020 年对

OK 那我们说完了历史啊我们快速过了一下历史我们来聊一聊我们编码人生擅长的事情因为我们做一个技术派的播客所以呢我们肯定得跟大家聊点技术其实在刚才讲出这些历史的时候其实我提到了很多的关键词包括比如说一开始的我们提到 SS 协议然后也包括我们后面提到的这些平台这些平台

这些推动着播客发展的这些关键词背后其实都是一个一个技术比如说最典型的我们说 SSSS 最早是一个信息同步的一个协议那因为我们说它在 2000 年的时候加上了这个 Incloser 这个字段能够在这个信息同步当中加入音频它能够有幸成为我们后续大家一直在使用播客的这个音频的承载的载体那

从此我们可以不用说我一定要在某个时刻然后打开我的广播选择我的调频多少来去听我们现在可以选择说我只需要打开手机然后订阅一个地址订阅一个 SS 地址然后我们就可以去听了那这个也是大家去看到说听到如果你去听很多播客他会跟你说如果你要在某些平台你应该怎么去找到我的 SS 地址然后把我的 SS 地址

填在这个平台上然后呢就可以去听包括大家如果今天用小宇宙去听一些还没有被平台收录的节目你就可以把这个节目的 SSD 贴在他的搜索框里然后呢小宇宙就会自己去解析然后去听然后第二个呢我觉得是一个

隐含的一个技术方案就是 CDN 因为 CDN 这个项目呢最早其实好像不是在音频这块来的就是因为大家都在传说毕竟这个技术的发展的驱动力呢就是黄土毒三样这个 CDN 这个最早呢也是在被世界上的某个这个色情网站利用起来然后大家才开始真正意识到这个技术的价值

那么现在呢 CDN 确实给我们的很多播客同学提供了这种快速下载的感觉特别是大家很多时候听这个节目不是说我提前 download 的我可能就是在通勤的路上我听完了我之前下载好的我可能现在就是要继续往后听那这个时候我怎么能够又快又好的去下载那这就依赖了背后的 CDN 和网络的技术当然这个也是很多公司的立身之本包括我们比如说 RT 开发者社区也有很多公司就是在做网络相关的事儿

对然后接下来一个是大家会比较熟悉的然后我也是想让秀才老师来跟大家讲一讲就是托管平台因为我觉得中国的播客它发展其实和海外的播客其实有一点不一样是因为海外它的互联网整个基建发展要早一点所以海外的播客主播很多大家都会选择自己去建设整个的播客的托管

但是国内呢因为我们的各种限制你比如说你没有牌照啊你没有那个技术能力啊包括我们国家其实到现在我们的程序员虽然多但好像有没有多但每个人你只要想要你就能做出来一个那这个时候我们就会在国内出现了很多

平台来去做托管这个事比如说秀才老师之前在的喜马拉雅其实就是一个做托管的平台对秀才老师可以给大家简单讲一下比如说喜马拉雅作为一个托管平台在这个过程中帮助我们的播客主播都做了什么

我觉得从几个方面来讲这个事情第一个方面其实是图表平台它更像是一个技术设施那大量的播充者他其实他的善长点不在于去构建这个技术为主导的这种技术设施

而在于他的思细在于他的认知他的问题或者在主题下他不断的去挖掘新的这种互动的内容我觉得这个是本身是出口合同作者最擅长的东西因为人问问题是人的本能人表达是人的天性而这个确实是中国广大的创作者最核心的价值

那我觉得作为第三方投稿平台本质上是把整个的这个表达或其实本质上也是那种表达或那种创作的这种能力其实是下放的那能够让更多的没有特别高或说没有特别强的技术能力的创作者他就可以快速的把自己的想表达的内容

像沟通的内容像互动的内容能够快速的创作快速的分发那我觉得这个本质上来讲是让也是让整个这个中国的博客市场能够快速从零到一涨起来的一个非常重要的事情对

对当然而且除了这些大家看到的喜马拉雅在做的这些很重要的工作就是我们会看到说播客平台其实有很多新的发展特别它会有很多新的形态我觉得其实是进一步的让

那些不擅长去构建基础设施的朋友能够真正走上播客舞台我觉得值得一提的是在应该是 21 年还是 22 年小宇宙他们推出他们的那个 D07 那个功能那个功能当时是把托管的能力进一步下放因为在喜马拉雅那个时代大家基本上上传节目可能主要还是用电脑虽然可能也有手机上但是因为我不是内部同样我不知道它的这个用量到底如何但可能大概率还是以网页为主反正至少我自己是只用网页来去上传播客的

然后到小宇宙的第零七的时候小宇宙就彻底摒弃了说我干脆不做网页了我的第零七就是在手机上去播放然后当它推出手机上录制对在手机上录制和上传然后通过那个功能然后我们看到说在小宇宙上冒出大量的新的播客然后越来越多的素人会意识到说 OK 我除了听播客我也可以自己去

发博客我也可以成为那个发言人这一点我觉得其实是很大程度上帮助大家去降低了他的接入门槛让大家又意识到说原来我也可以成为一个博客主播嗯我觉得这个对于大家来说还是一个蛮大的变化对关于这个每个人都做主播我想补充一点其实我很喜欢去关联到底技术背后他跟他这个一些关联的一些连接其实我觉得最早的 ISIS 他本身是去中心化的就是

就是一个它是一个你可以订阅然后我是通过你通过拉的方式对吧应该是拉的方式去获取我的内容的所以是谁都可以获取我的内容什么平台都可以包括现在如果大多数啊如果是通用型的这个那些播客客户端你是可以导出你的订阅的列表的如果你不喜欢这个平台你随时带着你的这个订阅列表就去到另外一个地方这跟很多 newsletter 平台很像

对就像刚刚我们聊 substack 其实 substack 也他写在他们的这个算他们宪法里面的就是说如果我们平台作恶对你是随时可以带着你所有 newsletter 订阅的订户走开的对

其实这种相对这种独立的精神其实是写在这种 newsletter 或者是 podcast 这样的一种创作者的精神里面的当然我觉得这种精神到后面做平台化的时候它就会泛化成一种更加像我们说的自媒体大家不需要理解这个技术背后的一些精神但是我知道人人可以做主播了那这时候有更方便的一些工具他就可以做了我觉得这个是一个一脉相承的东西

对而且我觉得这个人能做主播这个事还非常非常重要因为我们作为互联网的人对吧我们做软件研发软件产品我们自然而然会想到说其实我们可以用这个东西发声

但 360 行我们只解决了软件这一行还有 359 行的人是意识不到他们可以去做的所以我自己会觉得说不管是喜马拉雅当年做托管降低了说你需要去建设的门槛到小宇宙说你现在其实 D 灵器你可以在手机上录在手机上发让把它从电脑又降到了说更符合移动互联网时代的这个效果上来看我自己觉得他们其实做了非常多的事让大家意识到 OK

嗯我也可以去变成主播我也可以去发节目我也可以让别人知道我在想什么和我对这个世界的观点对对对我我是说我是非常尊敬做技术的就是这个原教旨主义者同时我也非常赞美这些做产品把把这两端给连接在一起的产品运营的人对嗯

对我觉得这个的技术的下放包括它的边界的突破其实来自于对播客本身用户诉求的重新定义因为我觉得过去我们为什么要做专业的网页端的这种创作上传本身它是服务 PUGC 创造者就像我们现在那种专业的播客的话它一定是用电脑的

因为本质上它是以一个围绕着非常强的一个创作目标为核心的但是我觉得随着这个移动互联网的大幅度的这种用户的增长以及整个内容的不断的爆发和信息爆炸那其实每个人现在在每此时刻消费的信息是在过载的

那他但他但他伤这是他伤增的过程但实际上他表达实际上伤是他伤减的过程那那其实当然他信息过载的时候他其实就需要去表达

那我觉得本身反向的让用户的表达因为用户表达是人的一个天性嘛然后那其实如果要有天性更好释放我觉得本质上就是说过去我们都是围绕着一个特定的目标经过长期的选题筹备然后创作然后剪辑然后传一个专业那种但是我觉得随着整个信息爆炸的这个移动互联网新爆炸的时代的到来的时候其实每个人

它在信息采集转化使用的这个周期是变更短的

那可能我今天我们就是在聊聊天的时候朋友在聊聊天的时候一聚会的时候突然有一个想的很好的点那么就应该马上实时的让他连接创作他其实是一方面是把创作的生命周期变短了第二个其实本质上是把连接变宽了就是我过去是做一个专业的创作专业的这个创作影片的话我得想邀请嘉宾然后来做啊

做这种台台本但实际上今天我们在跟朋友聊天的时候就可能有一个非常好的那个思维或非常好的一个想法非常好的一个

连接的点那这个连接点就可以不断把它再拆解其实我们每人每天都在互动中生活其实每天我们在最大的生活来源就是互动那我们每天的信息的来源和认知的升级都是来自于互动那其实本质上这里面有大量的厂是之前没有被很好采集的而我觉得恰恰在移动端能够快速的去采集创作本身是把多元的原始信息更好的采集和转化以及使用

对秀才这个描述让我一下子就想起来之前看过那本书就是张浩龙写的微信背后的产品观他其实当然就提到一句人是环境的反应器对其实刚才秀才就在说我们可能生活中有很多的环境是没有被利用好的然后现在有了这些新的技术也好新的手段也好新的产品形态也好让大家会意识到说 OK 这个环境我们能用起来甚至我会觉得说

其实我们现在还有大量的空白因为这个事有点像我自己在 RTE 开发者社区经常在做一些那个项目的 hackson 的时候我会去看这些项目我自己经常的感觉就是大家对于 real time engagement 这件事的定义还是太浅就是大家只局限于在于别人做成了什么事然后我就去做什么事但我感觉大家其实可能还可以再想得更深看得更多其实会有更多的机会

对然后播客平台这里我再补充一句就是其实随着播客平台的发展就是慢慢你会发现说有一点点技术的又回到上一个时代应该叫技术复古吧就有点类似这个就是它会有点像我们说这个三国

天下合久必分分久必合早期的博客呢大家是各自独立投管然后随着互联网和移动互联网的发展然后我们开始出现了博客平台然后到了现在我们会看说大量的这些 PUGC 把大家的这些专业的创作出来以后大家开始就寻求说我要去自己去投管这里面

包括比如说像生派这样的独立于平台之外的第三方头管也包括很多这些播客主播开始学着说我是不是自己可以用什么样的方式我自己去搭建包括比如说我记得之前看有一些播客主播他们会自己去学我怎么用 Ghost 去搭一个播客头管然后我就是要自己偷偷管我觉得慢慢会发现说那些

可能大家只是需要表达的大家会我就继续用平台给我提供能力比如说 DLM7 也好像喜马拉雅提供投稿也好就够用但是可能对于那些专业的创作者来说他们会慢慢会觉得说嗯 播客平台可能对我的约束还是太大然后大家就又慢慢的跑到这个独立建站然后随着这个播客平台可能发展发展就是这些独立建站呢他们可能发展发展觉得说诶 平台的可能好就又回去了我觉得这个事真的是呃

历史是螺旋上升的一会儿又转回来然后一会儿又继续重新转回去这里面会不会其实也涉及到一个一个个人创作者慢慢就是专业化机构化然后最后开始算钱的时候你就会发现这件事好贵啊自己偷管

但是如果你接触平台的话你的分成如果你要销售分成这些其实还是蛮复杂我举的不是 PoCard 的例子就是像 SafestackNewsletter 的这个平台就是一些头部的 Newsletter 如果没被绑定的话他开始赚钱之后他算账的时候就发现那我还不如去自建一个 Ghost 然后去做一个平台这样子

所以其实可能里面还是很多算账的事但是平台永远是适合刚开始第零期的这些主播开始的对我觉得对于新人来说大家不需要考虑说我要不要去自己建一个甚至我觉得如果今天我们听播客的听众们大家真的想试做一期播客

打开小宇宙打开第零七你就先录你录他六七以后你再想想我是否真的还想继续录如果你想录那你可以考虑说我是不是上喜马拉雅或者是我去用博客平台继续用小宇宙录或者是我自己再去见证对因为很多时候我们会发现很多新的博客往往就是录到六到十二七的时候他就断更了那如果你前面花很大的精力和成本再去搞那些合作

和波克本身有关但没有那么强相关的事情那些基建的事情就有点花不来但对于很多技术开发者说可能他的快乐来自于先建一个站我觉得对于这样的开发者说我建议大家不如出去做点项目你做点开发项目呢还能给自己加加 star 我觉得挺好的对我们 blog 啊 podcast 都建完了对然后但是第一期还没发对正常

然后我们刚刚的其实跟大家就回顾了一下 Podcast 的发展历史以及在这里面出现的几个关键的互联网技术当然这里面背后还有一些音频上面的技术比如说我们最早的音频可能大家需要非常专业的调音台但是慢慢呢我们的音频的剪辑可以被 Adobe 的软件给下放这些降噪呀音频还有加混响这些东西技术也开始慢慢下放我们现在发现说欧币站上你去搜说

我用 Adobe 做音频剪辑播客剪辑一大把的视频教程包括像现在你可能去咸鱼小红顺去找这些带剪辑都有大量的人来去学会了技术来给大家提供服务也是一定程度上降低了大家做播客的门槛比如像我记得

我应该最早是 18 19 年开始自己做博客然后当年真的是非常痛苦就是你要自己录完然后自己去剪然后那会儿的软件也不像现在那么好用然后你就要去做非常复杂剪辑像秀才你现在知道国内有做 descript 那个就是做文本剪辑的那个工具吗

西马拉雅我们做了用 AI 做了音检其实就是服务有声剧和博客的一件剪辑对然后他其实想做的就是说过去会发现第一是录制

有很多口水词啊以及一些声音以及一些房间的一些声音因为环境是不可控的所以它会有些本身的噪声啊和混响然后那需要一些声音的预处理以及一些针对比如口屁词啊口水词吞咽词等等这些

非语信息的处理那这些其实都是过去你都得一下一下一下听去捡的但是今天这些事情都在大模型时代下都已经被建模了都对上不同 talking 了那其实本质上它可以一键的来处理对我觉得这是特别逗啊这个我想说就是说 copy 这个事就是我印象中就是就是有这些 AI 工具可以一键识别 copy 比如那个就是啊对然后就会剪掉

保证你的表达流畅但是呢现在所谓的 AI 生成的音频呢又不要让 AI 去刻意去把这种东西给加回来了对这事就很有意思你是怎么看那个对我觉得加回来本质上就是因为 AI 还是想

更像人因为人就是有狗屁词但可能这个得从两方面来看因为我们为什么在内容的就是有素材我们知道从有到优的过程就是你有一个素材变成一个优质的内容的时候为什么要减掉的原因是因为从听众的感觉上来讲这些是会影响会直观的影响到用户的听感以及他的享受的因为这些口耳词本质上它其实是一种非

非非常强的面识下文的语气它其实是一个相当于说可以从内容上来讲它是内容的噪声然后但是我觉得其实从创作或从声声的来讲其实本质上它要像人那当然我们也分就是什么时候需要加这种所谓的拟声词或口水词其实本质上

是在一些对话或者这种对话体的这种场景下它需要更拟人更自然这时候需要加一些那加的核心其实也就是想让它更像人因为本身我觉得当前的这种语音声纳模型还是不够那么好所以它为了在表现上能让感觉感受到它像人所以它刻意地加了一些所谓的口吹词和口辟词

只是为了就是其实有其实是为了装作人对好奇这种技术难吗就是先说这个呃就是难和简单我觉得定是他的定义可能是来自于说呃

是否是一个专业的语音的模型的从业者对于语音的从业者来讲我觉得可能这件事情并不是一件非常难的事情但我觉得从整个多摩泰大模型的建模方式上变化来讲就是我觉得这个音频也只是到了可能 60 分到 70 分

并没有真正突破到 90 分我觉得语音的图灵策试语音模型线无论是任何一家国内国外的一家其实都还没有到只是说大家觉得能听了

但是可能就是有时候会觉得说还不错但是真的说他是个人吗或者真的像个人一样吗那我觉得这个的相似度其实本质上还是有需要去更好从模型结构上来讲需要去提升的

这里面我还补一下就是我自己其实觉得说口批这个东西它一方面是说我们试图去剪掉它是因为我们会认为它太多了我们有点难受但另一个层面上来讲我们很多时候我们为什么会吐槽这些剪口批的功能是因为它剪得太干净了它太干净会导致整个节奏过于的紧密会让我喘不过气它就像我们写文章我们要关注这个长短剧结合我们要给读者一定的喘息的空间对然后那播客剪这个也是一样的这是其一其二是我自己会觉得说

口辟从某种意义上来讲它其实是一个很个人的属性就是我的口辟和 Bob 的口辟可能不一样然后 Bob 的口辟可能和秀才不一样每个人的口辟代表着这个听众听到你以后他大概是一个什么样的感觉如果你全部都没有口辟全部都是非常非常干的内容我们去掉所有的形容词副词那个时候它信息量可能没有什么太多的损耗但是你会听起来第一非常累第二你会发现说这个内容好像

我讲也行报备也行秀才也行其实这个时候听感觉会差很多这点我非常赞同小白的观点就是我觉得从我们的经验学长来看之前我们确实剪太干净了然后然后其实从我们的 VOC 上来讲其实用户

就是用户会从他的视角用户消费者来讲就是每一个主播他的挺顿他的韵律他的口水词或者口屁词都是他人格化的外显

那这都是用户在消费播客的时候当消费的时间或者消费的周期变长的时候他已经不是单纯的在消费内容本身了他反而是在消费主播的本身主播个人的一些人格化的东西或者主播跟主播的关系等等那这时候主播的人格化的外形会

会就是如果剪特别干净会反而拉开用户和创作者之间的距离距离感会变得更强因为你跟他没有人格化的这种联系了就是这个事情也是我们之前在做这件事的时候反思所以我们后来就是只是识别然后

可能也在想说第一是把自主权释放出去第二是说从学习力从用户反馈力能看到到底哪些该剪的还不该剪因为我觉得如果剪特别干净的话其实虽然从我们第三者来讲我们觉得很好但是从用户的

这种粉丝来讲其实我们也跟粉丝有够深入的讨论就是他们觉得太干了对他觉得这种太干了的事情就非常的干吧反而有些像我刚才说这种口水词其实反而是很有意思的一个就是

就是在甘巴上又加点水的感觉我其实还想多再细分一下这个我们说口水词啊其实包括 AI 生成对话里面有一个说法叫 back channel 对

就是我们说比如两个人在说话的时候 A 在说主动他主导对话但 B 其实一直在表示肯定说对的或者是你说的对或者是简单的这一下这些可能在以前比如说 AI 刚开始去生成对话音频的时候是没有这种

两边都有同时的声道去表达但是我们发现现在所谓是互动式音频的生成的话你会发现很多这样的这种来自 bad channel 的这种的词汇其实在对话里面它其实的作用其实就是一个叫对话管理对吧就是一个能够告诉两边说你说对我想继续听所以我就表示你说对就是你继续说吧对

会有这种的绘画管理的一些能力这块是不是也在做一些技术对其实这个点从技术建模论来讲其实之前最开始我们第一代大模型做的都是单声道的就是单信道就是说

就是每个音色单独讯所以大家会发现当我单独讯完一个音色之后那我单独测试通过了单独上线了但是当我在做一个播客节目的时候其实播客像我们现在在做播客节目以上我的所有的语气情绪韵律很大程度上会受前者比如说 Bob 比如小白的一些语境的影响所以说我们这会发现就是

如果是单纯对一个行道的声音做建模的话会发现它在转路上包括这种上下纹的转换上它的气口是有非常明显的差异的这一下子就听出来它

它很假然后所以说现在包括 Nandopro M 我觉得做的最好的点其实给我最大的震撼是说它在整个的气部转化上是非常自然的然后它在建模方式上也是采用多通道的建模方式就把两个人的语料都放在一起在一起做训练它的整个的预测结构不再是一个单纯的线性结构而是一个 Z 字形结构

那这个本身来讲它可以基于前者的这个内容的生成情况然后再去生成后者的情况那这样的话本身在气候转换上包括韵律上包括可以更好的结合语音信息能够做好更好的表达我觉得这是整个尤其在互动甚至在 chat 领域都是非常重要的发展方向

这块就是 Node2 LN 还是做的最好的目前是 Z 制型的模型国内大部分大家现在也在做这个建模方式听说他们好像马上开放 API 了对吧就是给大家可以用我们其实刚才聊了很多这些大家的音频剪辑这些 AI 这些气口我们其实聊了很多这些 AI 在生产过程中的这些技术但其实我觉得目前的音频的整个

整个的变化还是不用想的快而且不仅仅出现在剪辑其实更多的是表现在整个音频内容分发和互动上因为如果我们回过头去看说我们整个播客的整个这个交互的历史其实你会看到它大概有三个阶段我们已经看到三个阶段和未来的阶段过去的三个阶段分别是最早期的

大家只读纯听节目你只能听这个节目你也不知道这个节目背后你没办法给他留评论你可能也连不及不上他这是第一个时代然后第二个时代呢是我们会看到苹果最早出了评论的功能就是在苹果播客 Apple 播客上它其实是有一个

评论区的功能你可以给他标新然后你可以留言我们会我在大概九年小宇宙还没有出来的时候经常会听到一些主播会说你要在这个 Apple 博客下面给我留言然后你可以给我们打分是我们的支持会有这样的像运营一个 App 那样运营对这是很早的时候的一个版本然后到了我们说第三个阶段呢就是我们会发现说小宇宙的评论区会被这些播客主播和听众们被广泛的利用起来

以前我们说的是大家评分然后你要发邮件给我到了小野洲的时代小野洲的评论区被大量广泛的使用然后大家在节目里口播又变成说你可以在我的小野洲的评论区然后跟我互动然后我们会看到说会有听众在底下留言然后我们也会看到有主播进去评论我觉得这其实又是一个时代只是前面的三个时代

当然我觉得像大模型出来以后我们其实看到了一种新的可能性就是有没有可能不只是我和主播的互动它里面是不是还可以有更多新的互动比如说我跟 AI 的互动或者甚至是 AI 和 AI 之间的互动像我们刚才说还有就是

从一步互动能不能实时互动对这里面其实有很多新的互动的变化我觉得大家可以聊聊对我可以先分享一下我的一些想法对我觉得这是可能从几方面来讲我觉得整个的这种互动形式的从单向变双向变多元变实时从一步变实时本质上代表的是我们跟

就是用户跟创作者之间的关系的权属关系发生了变化以及亲密度发生了变化过去第一代其实是创作者做内容它是个一对多的关系它是分发的关系然后用户实际上是不能它是被动消费它是一个非常难的非常痛的被动消费然后它有观点或有想法没法去表达

其实本质上这个从单向的传播来讲它被动调配下来它是一个它跟创作者的关系是创作者在上它是下的关系所以用户其实本质上没法很好地表达自我对然后第二代其实评论其实我们之前一直试图在用各种方式无论用 AI 还是用人的运营方式把喜马拉雅的评论区能够让氛围构建起来但实际上也发现

就是评论其实是文本模态但是你听本身是个音频模态那你听完之后你再转成文本模态去评论本身就是我们从结果上来看效果并没有显著的变化那我们资源分析原因就是说这是两个模态的事情就是你音频模态消费完之后我并没有在原有的语境和氛围下跟你有一个深度互动而是要跳转出来用我的力量

另外一个文本模态去评论对这里面我突然有个脑洞就是我们的播客 APP 应该做一个功能比如说我一按我的耳机线或者我一按某个功能它暂停下来然后开始录我说的话然后把我说话的录音给作为评论发上去我觉得那样可能会很好玩对对对这也是我们的一些想法对我们可能跟我们后面的创业项目可以有很大的关系对然后

这个可以放到后下一拍来继续深入来展开一下对然后那我可能接着继续接下来分享一下一些想法就是我觉得评论其实它也是一个呃创始者在上用户在下的关系评论其实依然不够平等它

因为本质上我并不能实时的跟创作者互动其实本质上我是个异部我的异部就是一旦是文本模态的话创作者想评就评创作者不要评就不评所以本质上它依然是个创作者在上我在下的过程然后那可能只是说我比上一代进步了两五但是它依然不是一个平等的关系那我们觉得是说真正的播客其实就像一群朋友一样我们在一起文字上

围绕着一个主题一起去畅聊那可能围绕着一个主题我们一起去探索一起去共同的写一起去共同的共创某个内容一起去共同的开发某个内容一起去探索某个新的可能性那这本身其实是一个

伙伴的关系而同时它是沿着一个不确定性的结果去做探索那本身它的所有的内容都是一个不确定性奖励我觉得就是非常像游戏里的成果一样它是不确定性的奖励那你在无论跟人跟 AI 或者是怎么样它在一个互动且平等的场域下一起去沿着某个结果或某个主题去探索新的可能性的时候这个的

我觉得爽点或者也是长期用户痛点所以我觉得为什么当时 Clubhouse 会突然爆火我觉得本身也可能这方面的原因 Bob 你怎么看我刚想多的事情是

到底这个媒介因为其实我们一旦是说互动式播客的时候播客原教旨主义朋友说你们这个不叫播客你们必须叫互动式音频因为其实的确就是这些边界因为 AI 来之后很多变化太快了很多东西大家都不知道怎么定义但是人类是擅长用已经熟知的一些东西去描述新的东西我就举个例子比如说最开始的汽车不叫汽车叫做 Hossless

Hossless car 之类的就是说没有马的马车之类的所以其实你会觉得这个是很奇怪但其实就是我们一点点通过定义的东西慢慢去推进我们心中的共同的概念所以现在叫互动式播客也好互动式音频也好其实我想说的是更加像刚才秀才说的是我们怎么去一种更加像是一种探索不确定性的而且持续把这种不确定性给

玩下去的一种一种新的媒介形态对那这个我们暂时就叫互动视频没问题对就是我觉得非常有意思包括 Notebook 也做了一个 Join 的功能不知道大家有试过吗就是你有你在听两个播客主播在说话的时候你觉得我能不能打断一下就比如说他们在说一个物理的一个就简单比如说他们在聊

牛顿定律然后说这个我听不懂老师能不能给我再解释一下然后用一个更加生动的一个按键解释一下他就主播就马上去按到你的方式稍微去跟你解释完之后他又拉回到那个原来的那个对话语境所以其实这种参与就非常神奇有点像其实刚刚说 Clubhouse 有点这种我可能举手对我能不能打断我能不能就是重重进去参与到整个内容的

设计和生成里面去然后我参与设计生成内容同时听众还能够也能享受到也能看到这些东西所以是非常一个符合和动态的一种互动参与了对我觉得这个很有可能是我们从过去的二年底十月三十多号 GPT 发展后先起了这一部大模型的浪潮我觉得互动是更像是这个浪潮的下半场

那上半场其实大家核心还是围绕着生产效率或生产利益的爆发式的革命把创作当消费但我觉得下半场应该是消费及创作

我觉得这是完全两个不同的不同的范式的变化对然后我觉得本身第一代上一代 1.0 的上半场其实大模型的上半场其实本质上是因为创作能力的下放让整个创作力的边界能涌现出来所以它是个创作及消费的过程

然后他其实本身打破了人的本身创造的可能性然后但是我觉得下半场其实会通过互动的形式因为互动就是人的天性我们每天都在跟不同的人互动就是我们每天都互动作为人的天性来讲其实他在不停的从别人的里面获取和跟别人一起来共建或消费别人内容的时候他其实也创造新的内容

所以就像我们今天也得到播客体系一样就是可能我们今天这个大纲可能更像是一个潜在的一个主线剧本每一个章节都像一个副本其实我们都是在每一个副本里沿着一个隐藏的主线在一起探索一个新的可能性的东西我很好奇啊就是到底这互动是播客我们稍微挖深一点到底有哪些场景和哪些类型你现在能够能想到能跟大家介绍一下吗

我觉得就是首先我觉得首先我们不要定义从我视角看我觉得我们不能第一天就定义它是什么因为定义是什么的时候很容易就所以跟你讲你想描述一种技术可能性提供了什么技术可能性我可能更多的想描述的是它是一种新的就是我会觉得说大模型的这个时代它

它一定会发生生产就是每一次生产力革命都带来了生产要素的变化结构性变化那这一代我觉得大模型变化带来最大的结构性变化是第一个是知识劳动的转移第二个是数据劳动的转移那其实本质上我觉得围绕着这两个结构性变化来讲其实本质上

互动更像是一种新的美剂因为在这种大的极端变异下我觉得一定会涌现出新的内容范式出来以及新的交互范式新的交互范式本身是成为新的信息或知识流动的载体对

然后这里我刚才在听你们聊的时候突然又有一个脑洞就是我刚才在想比如说刚才秀才在讲说我们其实可以在这个过程中让大家有更多的交互其实未来说不定有一种可能性的是听众可以参与到这个播客的二次录制当中就是我们其实比如说我们今天三个人我们录了一期播客然后呢我们三个人有三个音频的轨道放在这里然后呢听众呢他可以参与到我们三个人的这个他变成那个第四轨

然后他可以进来去跟我们聊天然后我们的内容可能结合大模型大模型可能看到我们这种鬼缩的内容他知道我们在想什么然后去跟用户一起去聊然后再延展出一期新的播客对我觉得如果有这个还蛮好玩的所以他刚刚说的就是说这个无限的分叉对如果有这种产品希望可以拿这一期作为一个开端然后我觉得可以玩一玩应该会蛮好玩对关于这个玩法我之前也想过另外一种跟那个

那个 coast 的人聊其实还有一种比较简单的现在可行的就是你主播你把那个音色授权给你的听众

然后两个比如说两个两个有台你可以串台两个音色的串你让你自己的这个读者去生成一期播客但是用的是主播的音色就有点泛制的感觉就是有点 anyway 就是一种有点就是呃就是大家能用到我们的这些某些知识产权或 IP 去做新的内容那这个算到时候这个如果真内容做好了这个怎么分账这个怎么算这个 credit 也是很有意思的事对

对我觉得甚至就是我觉得互动式音频的玩法的可能性很有可能是当然我觉得小白刚才说的一点我非常非常非常赞同因为这一点很有可能就是我就本身就是我们的方案我们要做的这个事情本身的某一步然后从从我视角看我会觉得说互动式的音频其实打开的是一个新的大门你其实拿到的是个新的门票

然后那进去的所有的原有的这种因为你可能这一天就拿到了新的生产要素生产要素在你这里的时候你就可以玩出新的花样然后我甚至脑我再脑洞一点就是说每一个人都是一个内容级的 agent 然后

然后那假设我们今天三个人在这里一起畅聊播客畅聊播客的历史到技术的演进到未来的可能性那其实是我们三个内容级 agent 的互动那其实还有

还有另外的另外一个博客也是有另外的三个人的内容集的 agent 也在互动那其实串台也是可能的甚至台跟台之间也可能产生互动就是我是觉得是说这种东西都可以交给用户来选择因为我之前访谈过很多我们的喜马的用户创造者真的就是我觉得最大限制他们创作的动力最大的是来自于自己做产品经理的时候自己的思维的范式

我们发现他们真的有非常多的想法去玩非常多的花样但是可能我们缺乏一个工具或一个平台让他们玩新的花样

对然后我觉得创造力是人类不可能被替代的原因我觉得大模型它本质是个压缩那它可能会涌现出一定的智慧可能性那它会给你一些灵感但是我觉得真正有趣的事情一定是来自于这个人过往所有的经历的环境以及经历所产生的东西就是我觉得这就是人最大的魅力

我想补充一下其实我们再聊回刚才说平台的事就是我一直刚刚有用感受其实我们最早说第 07 好像是鼓励人都会主播但其实这事我觉得有一些问题就是一旦定义主播这个事其实就有问题就是说哪怕是我们说想让这个工具平台更加简易化让普通人也能参与录制播客了但是他成为主播那一刹那他还是一种

点对多的那种传播的形态所以它其实本质上没有改变到那个内容消费的那个权利对其实我们说互动式播客应该就是说让每一期音频节目都成为第零期对不是说你做第零期然后做一二三期变得更加专业而是在每一期你的体验都不一样

你可以很轻松的去做第零七然后每次播客你才都不一样我觉得这是才是我太赞同你了这一点我非常非常赞同就是我觉得就是音频首先最大的是乐几它是以乐几为核心的这是我们最大的一个洞察就是音频最大的核心是乐几为核心的当你让它变成主播的时候它其实身份的转移会带来它创作的

创作的变化但实际上我们在做音频内容或在做互动的时候我们每一期互动的音频都应该是一个以乐几为核心的只不过说我当我有诉求去分发出去分货 open 出去的时候那我就 open 出去那 open 出去的时候可以把它马上变成一个直播

那它又变成了一个新的玩法那有更多的人会涌进你的这个第零七里跟你一起玩就本质上它是你现在不停的从一个小的个体的边界在不断的突破你的边界边际然后让更多的人在一起更好的玩我觉得就是这是一个新的场新的场带来的新的内容我觉得这是这也是我

做梦都会很 surprise 的那一点对我经常在梦里会梦到很多这种场景对我也很好奇啊就是感觉这个有种殊途同归感觉我们路径是从播客或者音频制作开始进入的

但是包括像 Credit AI 其实最近也在出个功的 Credit 本来是做陪伴式 AI 当然也是很多音频的沟通的他们最近做了一个也是一个类似刚刚说的你可以把不同的 Credit 就是这些角色之间把它 merge

拼在一起然后你再写一段 pronounce 让他造一个新的故事出来有点刚刚我们说的一些雏形在对然后那你说游戏那是不是也是很多这样的互动式的然后我造一个然后大家互动起来所以就是好像不同的人都看到了这种我们持续上探索这种

不确定性的这种探索的冒险然后但是又从不同的路径进入对泡泡说游戏让我想起来又一个脑洞就是玩家是会下线的所有下线的玩家自动变成 NPC 然后大模型帮你把过去你做的事变成你这个人的人设然后给其他的玩家发任务感觉这个里面会增加出来非常多的新的玩法

没错没错对所以这个其实你构建了新的世界对所以所以不想说元宇宙但 anyway 就是的确就是说这个 think big 肯定是往这块靠的对我们但我想我想拉回来一点点因为我们我还挺想聊技术今天难得秀才在里面说技术就是你觉得现在的这个互动是不够的一些基建到底哪些是 ready 的哪些还是没有做好的就是哪些还可以往前走的对

我觉得当然我们的梦想对我觉得报说的很对啊当然我们的梦是很好的但是实际上也得依托于技术作为技术设施来作为一个很好的底盘嘛那我觉得从整个的能力上来讲我觉得今天第一今天此时此刻我觉得东上端的语音大模型

依然不够好不够好原因就是因为他还没通过你说的图灵是吧我觉得图灵是一方面图灵那是一方面第二方面其实本质上现在的多当当模型更多的还是说把 ASRM 和 TTS 整合在一起本质上是把语音的 talking 和语音的 talking 对齐在一起但本质上他最大的当时诉求

核心是为了不让情感 emotion 的信息或者这种类似 emotion 的这种复原信息不要在模态间转化中损失掉因为之前我们在做很多 TTS 建模的时候在上一年做建模的时候然后实际上我们是丢掉很多信息的我们只留我们就是会发现我们无论怎么做都做不好其实就是因为我们把有很多 emotion 的信息或者这种类似 emotion 的信息丢掉了那

甚至我们甚至还要去做单纯的这种混响这种非语义的这种信息的生成也都要做就是我觉得就是多段多安多段多安云大模型我觉得第一点是它现在核心的这种进步方式还是有很大的进步空间的然后我们现在其实用了很多这种

呃图像啊以及视频的建模方式来做做音频就我觉得呃大模型对于我们最大的挑战其实第一天挑战我觉得最大的来自于是文本的文本模态的人进攻到了音频原有的模态里的人嗯

而音频原来我们才人还在原地踏步所以这是我们 23 年最焦虑的点然后第二点是说当我们看到图像其实音频本身是个媒二频谱本身它也是有视域和频域这种图像的那基本上这里面也很多可以用图像的玩法来做

其实如果把视频当做是一个连续时间序列的图像的话那音频又何尝不是一个连续时间序列的语义或者说图像呢对然后所以我觉得这里面有非常非常多可以 title 的工作那学术界和产业界其实都在往前去去去拱对

那另一方面我觉得在当前本身在这个因为现在语音模型做断断断断的话我们不可能做非常大的这个断断断模型因为都很小大概 10 币左右吧对然后因为太大的话推理成本

扛不住对然后就是但我觉得这个事情今天可能还是一个问题但我觉得从我视角看因为我今天我有个预判就是说我在今年的 1 月 1 号当时在上海我们在一起很多 AI 朋友在一起玩的时候我们在一起聊有个预判是说我们觉得到今年年底文本模型的成本降 10 倍但是其实到今天已经降了三倍了

然后我觉得下半年再降三倍其实也是完全没问题的这个方向你看到了所以说就是降到十倍我觉得是到今年底依然是一个可预期的一个结果那为什么文本大模型降本那么快呢核心还是本身文本大模型用场景足够多然后音频为什么降的慢是因为音频的使用场景现在还是没有被广泛打开

就是 verse agent 其实它现在的应用场景很多时候还是在配套这种视频模态的东西做然后我觉得而音频模态本身它是把音频和语义的这种重新的在统一空间下建模那我觉得当文本模态变得越来越强的时候其实音频模态大量文本模态的人就会一出道去做音频的多档端对他们说可能顺势而做的事情

我觉得可能到今年年底到明年的六月份我觉得音频的模态降了三倍是可预期的门门模态就降了包括如果有没有一个非常好用的就是公认的像 DPC 好用的门门模型的音频模型出现对开源的免费的这个我觉得也是可能是个时间点

对就是我们有看到国外有一些比较好的工作但是我觉得大家还是在往前探索就还没有到那个像 DeepThink 点一样其实我觉得 DeepThink 对我来说最大的意义是不是它 RE 是它 V3

他用 2048 张卡训练个 V3 其实 V3 就很强当然我对 R1 做了很多很新颖的方法去通过后续练的方式提高他的表达和表现但实际上他是完全基于 V3 所以 R2 也会基于 V4 嘛所以本质上我觉得就是当有一个很好的肌膜肌膜出来的时候我觉得他就是一个语音这个场景最大的

说对我觉得这个事情不会特别远所以说就随便拍个脑袋估一下吧就是这个音频界的这个就是 DVC 的时刻对我觉得从我视角看我觉得可能是在 26 年的 2 月份到 26 年的 8 月份之间这么具体 OK 在此之前我们还可以做点啥对

模型团队加油让秀才老师的预测失效对对对因为我身边有很多朋友在混远包括在自己也都在做拆散模型对我觉得其实还有些问题就是说

现在的断断模型是没法直接挂 RAG 的他现在依然还得先把语音转成文本然后再挂 RAG 的支付库因为有很多信息他们就是现在的断断模型他是没法直接管支付库他是他是一个向量直接转到底的就是我们从生产端角度上现在肯定是这种集联式的可以相为就虽然是断断模型但最后还是个集联的对但是的确我们从理想角度来说特别我们说播客这种互动式的场景的时候带

必然是到端端端把复原信息给表达出来的但他又同时面临这种知识库的智商的确实对其实还是还是有段路要走感觉就是现在端端端模型依然没想清楚如何把动态的数据如何融入进去好啊那技术上聊其实我们在大纲里面还有聊来的事就是这个我觉得已经不算播客了对就是也是前段时间就这几天我一直在等他们邀请嘛每天大概凌晨

凌晨三点的时候他们就会有出一批邀请码就是这个 notebook LN 的这个前创始的那个产品经理拉姐那个对吧对他们出来个叫 HUX 吧应该叫 HUSE 的一个他们不只是这个音频就是他们把会把邮件啊日历啊这些新闻啊你关心的话题啊都每天都会转换成一个可以互动交互的音频

这块你是怎么看这块对就是我会我会站在我会试图站在拉姐的视角看这个问题就她做这个事情我觉得是她从上一个产品中收获的用户反馈就是我觉得本身如果是让我来定义她做的事情她就是要把越级做到极致

就把所有的用户的身边的模态都变成可交互式的可互动式的可交互式的内容我觉得邮件日历所有的内容都是

都是以乐极为核心的一个互动从他视角看如果我是从他视角看的话我会这么看其实我是因为他刚才发的时候我还我给他发邮件他没理我对然后因为我在试图理解他的想法对然后我最开始我最开始以为他做那个邮件的插入是为了做一个信息的潜质去帮你因为他后面本身是一句话去生成一个博客嘛

所以一句话说成博客之前在我的认知力是非常扯的一件事情

就是因为怎么可能你一句话就你能猜透用户所有的想法为他生成一个他批评的活客呢因为这个事情是但是给足了这些 contest 是有可能对就是你得给足 contest 的所以说我之前的当我看到他做这件事的理解他导入他的日历导入邮件导入其他的我觉得更多我当然我第一反应是他想拿更多的前置信息嗯

来给你做因为其实一句话成成博客本质上是一种推荐那你怎么做好推荐就是因为你的上下文要足够长对所以我刚才在聊互动式的时候我觉得还有个悖论就是互动式它会不会一直在强占人的时间我再回到一些我们说复古的一些状态就是博客本身它有些优势就是你可以编

做家务的时候跟开车手也能够去消费它比如视频我觉得有点难因为它消耗你的那个感官太多了音频它只占用一个通道所以就会很多时候你其实被动本身就是它的主要的特性

你不能让他被动本身又变成主动对所以这个你怎么看就是他就是被动本身可能就是他喜欢用听播客听音频内容的一种能力但是现在你又拼命希望让他去主动去主动去介入和互动

我是这么看待这个事情的就是我觉得被动消费和主动消费之间其实是没有特别大的鸿沟的就是他当然因为美国可能比如卡车司机或者说我们通常开车可能开七八小时都很正常对吧然后那个做家务的时候去听那其实本质上这个时候他其实核心就是想输入信息

但是输信息的时候他其实会有在某一刻他有表达欲那这个时候你就应该把表达欲重新从那个互动是 always ready 的他想介入的时候就介入我们不应该去强制他一直介入为什么要强制别人

就是我觉得强制别人做一件事是非常不合理的事情就是他在没有介入的时候他也是一个好东西介入他可以变得更好我觉得这样可能是一个比较 ready 的状态对就是其实你是给他提供了一个他可以提问的或表达的一个场

然后他在没有活动的时候他可以消费这个已有常的内容然后可能是别人的一些点然后只不过在这一刻他想表达的时候你应该给他极大自由度而且这一刻我就会让他感觉到整个体验是完整的对我觉得其实我之前一直在思考到底他的

就是交互行情到底该是什么样的这个事情其实我之前大概有之前从四月份想到了今天想到了不想想到上周对然后主要是所以上周是有一些比较明确的节点是吗对上周我去参加公共会 GTLC 大会找了跟许可老师聊聊他那个 PIDOT 那个手机苹果后面贴那个贴片式的那个录音机 Apple Out 对对对然后我觉得这个产品

绝了就是为什么绝了是说它是在一个非常成熟且庞大的苹果手机市场下做了非常小的切口而且是非常低侵入式侵入感很弱的一个切口但是它又把你的所有的生产资料拿到了手里

我觉得这个事情对我的触动非常非常大的然后我觉得就是说你在这个用户的这个世界里就应该不应该是一个强打扰的过程你就是应该是一个像插件一样插在他的生活里的一个环节但是你时刻在跟他有交互的东西

然后你其实这种互动式的音频未尝何尝不是另一种的 always online 好想做广告这就是我们 real time engagement 的使命其实实时互动就是很多时候你是应该看不到的但是它又永远在你身边它一直在观察你甚至你需要的它可能会主动去提醒你很多时候应该是这样才叫

我们就 always on 也好对实时互动也好对嗯对我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我

就做这件事情会让自己愉悦对然后同时这个事情本身它又是一个新的探索方向我觉得这就是不确定的起降力对然后所以说我觉得确实我觉得可能未来的内容一定会发生最大变化因为本质上就是生产力在发生最大变化就是内容你看今天的内容没有任何变化

就是就是你还是在看视频你还是在听音频只不过音频是 AI 给你做的没错没错或图视频给你做更好看了或者更有意思了这些都不是本质的变化我觉得这都是表现的变化就是哪怕今天给你的视频今天换一个皮换另一个风格我觉得这都是表现的变化它没有发生内容本质范式的变化我觉得这个就是这个

是非常就是就是还我觉得核心就是说还是大家还在探索嘛对所以我觉得还是有机会有一个新的内容范式出来而新的范式一定是带来新的交互范式的变化嗯非常赞同

我觉得今天我们聊的还是非常多我当然我对我自己而言就是我觉得说前面那些历史的东西是我们看到了过去可能是什么样子然后我们刚才畅想了非常多的新的可能性我现在唯一的期待就是能够早点出一个就像我刚才聊的那样的一个互动式的音频的产品

对然后未来 3.5 年之后的读者那听众你们好啊对这个时候你们可以用这期播客看怎么能借物进来交流对我觉得那个时候的你们可能和我们今天聊的又不一样因为你已经站在了未来那个时间点你其实你在往回看你看到了这些产品然后希望你能够

基于我们聊的内容然后你和我们三个人互动然后再把你互动的内容发布出来然后如果更好的话就是如果那个时候你还能找到我们在各种社交平台上希望你可以爱到我们因为我真的很想听听说

三年以后就是你作为一个听众然后回过头来跟我们聊的时候它最终的效果是一个什么样的我自己觉得会可能会让我非常的惊艳对对对这个技术产品编号会很快而且这块应该是人的观念上都会发生改变对秀才你想看最后还能说你啥

我觉得是说呃每每个人都是在这个时代下光速的在成长然后然后我觉得其实播客也在成长然后那其实我觉得呃

播客其实不仅是承载我们获取信息的一个载体它更像是我们在跟世界连接的这个载体然后我觉得是说希望大家还是多多听听播客多多跟世界联系对多多跟我们联系对我们翘的是 POCAR20 周年对吧对我们今年刚好 20 周年下个五年下个十年会是怎么样非常期待我的感受是我其实挺幸运的我们邀请到

秀才是在他脑袋里面碰撞最激烈的时候很多时候都还没有定很多是草稿但是他想了很多事情就是也见了很多人去交流的时候去捕捉他一些一些未成熟但非常有可能孵化出 big idea 的事情对所以我觉得

这也是回到一个广告就是为什么我们做这个 wise agent camp 其实我们也觉得技术底层很多成熟了但是很多 wise agent 相关的场景都还在探索当中然后也是把一群都在做这种 wise agent 探索的人聚在一起做了一个创业营可能接下去的原版人生我们还会邀请更多的 wise agent camp 的嘉宾过来一起交流一起聊聊到底音频到底实时互动这样的

实时 AI 这些东西还能做出什么东西来吧对那我们今天是这样子就到这里结束了谢谢秀才谢谢大家拜拜拜拜

感谢您收听本期节目本期播客节目由金金乐道制作播出您也可以在我们的官网 dao.fm 找到我们的更多内容作品如果您喜欢我们的节目欢迎在微信微博朋友圈等社交媒体转发分享您的分享对我们而言十分重要如果您希望与我们互动可以关注我们的微信公众号金金乐道播客天津的金欢乐的乐道路的道在关注后按提示操作即可加入我们的听友社群