<context>Snipd:一款用于学习的 AI 播客应用程序 我们正在与 Amplify 合作开展 2025 年 AI 工程现状调查,该调查将在旧金山的 AIE 世界博览会上发布!参与调查,共同塑造 AI 工程的未来!我们在一年前第一次接触到 Snipd,并立即被其设计所吸引,但对“剪辑”作为标题行为的实际效果表示怀疑:播客应用程序具有极强的粘性——Spotify 斥资近 10 亿美元收购播客和独家内容,仅仅是为了在普通用户中提高 8% 的市场份额。然而,在 Overcast 2.0 重写版令人失望且在过去三年中没有 AI 功能后,我最终还是决定改用 Snipd。现在是 2025 年,你的播客应用程序应该能够让你搜索播客的文字记录。Snipd 是迄今为止最好的实现方案。然而,他们仍在不断发布新功能:令我们印象深刻的不仅仅是这个只有 4 个人的小团队能够在大型巨头的竞争中自主开发一款面向消费者的 AI 应用程序并取得如此好的成绩;还在于他们对通过播客学习以及随着时间的推移改进知识保留(也就是“播客版 Duolingo”)的认真思考。作为一个教育性 AI 播客,这是一个我们能够支持的使命。完整视频播客在 YouTube 上找到我们!这是我们第一次在户外拍摄播客!节目笔记* Shazam 的工作原理?* Flutter/FlutterFlow* wav2vec 论文* Perplexity 在线大型语言模型* 谷歌搜索接地* 将 Snipd 转录与我们的 Bee 集进行比较* NIPS 2017 Flo Rida* Gustav Söderström - 背景音频时间戳*[00:00:03] AI 工程师纽约峰会收获*[00:00:17] 纽约天气*[00:00:26] Swyx 和 Snipd*[00:01:01] Kevin 的 AI 峰会体验*[00:01:31] 苏黎世和 AI*[00:03:25] SigLIP 作者加入 OpenAI*[00:03:39] 苏黎世生活成本很高*[00:04:06] Snipd 的起源故事*[00:05:24] 机器学习简介*[00:09:28] Snipd 和用户知识提取*[00:13:48] 应用程序的技术栈、Flutter、Python*[00:15:11] 如何识别说话者*[00:18:29] “可后台运行”视频的概念*[00:29:05] 语音克隆技术*[00:31:03] 使用 AI 代理*[00:34:32] Snipd 的未来是多模态 AI*[00:36:37] Snipd 和现有的用户行为*[00:42:10] 应用程序、摘要和时间戳*[00:55:25] AI 和播客的未来*[1:14:55] 语音 AI文字记录swyx [00:00:03]:嘿,我在纽约,和 Snipd 的 Kevin Ben-Smith 在一起。欢迎。Kevin [00:00:07]:嗨,嗨。很高兴来到这里。swyx [00:00:09]:是的,我想这是我们第一次在户外录制播客。Kevin [00:00:14]:我不得不说,这是一个相当不错的第一次录制地点。swyx [00:00:18]:我实际上有点不确定,因为你知道,天气很冷。我查了一下温度,大概是一摄氏度,但在阳光下还不错。是的,相当不错。尤其是有我们美味的茶。茶,是的,完美。我们将讨论 Snips。我是一个 Snips 用户。我不得不承认,除了 Twitter,它是我手机上使用频率最高的应用程序。不错。当我早上醒来时,我会打开 Snips,看看有什么新内容。我认为就手机上的使用时间或使用频率而言,它排名第一或第二。不错,不错。所以我真的必须谈谈它,因为我认为对 AI 感兴趣的人们想要思考的是,我们如何……我们是一个 AI 播客,我们必须谈谈 AI 播客应用程序。但在我们开始之前,我们刚刚结束……我们刚刚结束了 AI 工程师峰会,你参加了两天。感觉如何?Kevin [00:01:07]:非常棒。对我来说,最有价值的是与志同道合的人们待在同一个房间里,他们正在构建未来,并且正在见证未来。你知道,尤其是在 AI 代理方面,我经常与不在 AI 行业的朋友们进行交谈。这就像发生得太快了,你……听起来你像是在谈论科幻小说。这简直是疯狂的谈话。你知道,与许多已经看到这些事物的人交谈,这令人耳目一新,是的,然后从他们那里获得灵感,而不是总是感觉像……好吧,我想我只是疯了。这永远不会发生。它真的正在发生。对我来说,这非常有价值。那么第二天,对你来说比第一天更相关?是的,第二天。所以第二天是工程主题。这绝对是我最有价值的一天,就像我本人也是一名从业者一样。是的。尤其是有一个或两个关于语音 AI 和带有语音的 AI 代理的演讲。好的。这非常吸引人。之后我还与演讲者进行了交谈。是的,他们也非常开放,并且,你知道,这种分享的态度,我认为在 AI 社区中普遍存在。我还学到了很多东西,比如我现在可以带走的非常实用的东西。是的。swyx [00:02:25]:我的意思是,在我看来,我只看了大约一半的演讲。因为我一直在四处奔波,我认为人们看到我……快结束的时候,我有点崩溃了。我倒在地上……快结束的时候,因为我需要休息一下,但是是的,我很高兴自己去看语音 AI 的演讲。Kevin [00:02:43]:是的,是的,去做吧。我的意思是,在我看来,非常感谢你组织这次会议,将大家聚集在一起。你在瑞士有类似的活动吗?简短的答案是没有。我的意思是,我不得不说,AI 社区,尤其是在苏黎世,我们在这里……是的,非常好,并且正在发展壮大,尤其是在 ETH(苏黎世联邦理工学院)的推动下,那里的技术大学以及所有的大公司,他们都在那里有 AI 团队。谷歌在苏黎世拥有美国境外最大的科技中心。是的。Facebook 在 Reality Labs 投入了很多。苹果有一个秘密的 AI 团队。OpenAI,然后 Antswapic 刚刚宣布他们将来到苏黎世。所以有很多事情正在发生。是的。swyx [00:03:23]:所以,是的,我认为最近最值得注意的举动是,我认为谷歌的整个视觉团队……卢卡斯·拜尔……以及 Siglip 的所有其他作者都离开了谷歌,加入了 OpenAI,我认为这就像……这对于整个团队同时集体搬迁来说是一件大事。所以我去了苏黎世,感觉那里消费很高。那是一个很棒的城市。是的,很棒的大学,但我并不认为它是一个商业中心。它是一个商业中心吗?我想是的,对吧?Kevin [00:03:51]:这有点像……历史上它是一个金融中心,金融中心。是的。我的意思是,那里有一些大型银行,对吧?尤其是瑞银集团,世界上最大的财富管理公司,但它现在正逐渐成为一个科技中心,所有大型科技公司都在那里。swyx [00:04:08]:我想是的。是的,而且就研究而言,都是 ETH。是的,还有一些其他的事情。是的,是的,是的。Kevin [00:04:13]:都是 ETH 推动的。然后是它的姐妹大学 EPFL,位于洛桑。好的。他们也在做很多事情,但这确实是 ETH。否则,不,我的意思是,这是一个美丽的,非常美丽的城市。我可以推荐……给任何想来苏黎世参观的人,告诉我。很高兴带你四处看看,当然,你知道,你离大自然很近。你离山很近。你有很多美丽的湖泊。我认为这就是它如此宜居的原因。swyx [00:04:42]:嗯,而且成本并不便宜,但我的意思是,我们现在在纽约市,而且……我不知道,我今天早上喝了一杯 8 美元的咖啡,所以……苏黎世的咖啡比纽约市便宜。好的,好的。让我们谈谈 Snips。什么是 Snips?然后我们将谈谈你的起源故事,但我只是……让我们先简要介绍一下,什么是 Snips?是的。Kevin [00:05:03]:我总是看到 Snips 的两种定义,所以我将给你一个非常简单直接的定义,然后是一个更细致的定义……我认为这对于我们接下来的谈话非常有价值。所以最简单的说法就是,看,我们是一个 AI 驱动的播客应用程序。所以如果你听播客,我们现在正在提供这种 AI 增强的体验。但是如果你从更细致的角度来看播客……角度来看,实际上,我们非常关注像你的听众一样的人,他们听播客是为了学习新知识。像你的听众一样,他们想了解 AI,了解正在发生的事情,了解最新的研究,了解正在发生的事情。我们想提供一个口语音频平台,你可以在那里最有效地做到这一点。AI 基本上是我们实现这一目标的方式。是的。swyx [00:05:53]:目的的手段。是的,完全正确。你开始的时候,它一直都是 AI 吗?还是更多地关注社交分享?Kevin [00:05:59]:我们发布的第一个版本是在大约三年半前。好的。是的,所以这是在 ChatGPT 之前。在 Whisper 之前。是的,在 Whisper 之前。是的。所以我认为我们现在在应用程序中拥有的许多功能,当时还不可能实现。但从一开始,我们就一直关注知识。这就是为什么,你知道,在我们团队中,为什么我们听播客,但我们确实采取了一种略微不同的方法。一开始的想法是,所以名字是 Snips,你可以创建这些我们所谓的 Snips,它基本上是一个小片段,就像播客中的一个剪辑。我们确实设想了一个类似于社交 TikTok 平台的东西,一些人会收听完整的剧集,他们会剪辑其中某些……最好的部分。他们会将其发布到信息流中,其他用户会消费这个 Snips 信息流。并将其用作发现工具或仅仅是一种手段。是的,所以你会有创建 Snips 的人和收听 Snips 的人。所以我们一开始的重大假设是,你知道,让人们收听这些 Snips 会很容易,但让他们实际创建 Snips 会非常困难。因此,我们将大部分精力都集中在尽可能无缝且轻松地创建 Snip 上。是的。swyx [00:07:17]:它类似于 TikTok。你需要 CapCut 才能在 TikTok 上有视频。完全正确。Kevin [00:07:23]:所以对于 Snips,基本上每当你听到一个惊人的见解,一个伟大的时刻,你只需轻按三下耳机。我们的 AI 实际上会保存你刚刚收听的时刻,并对其进行总结以创建一个笔记。这基本上就是一个 Snip。所以是的,我们构建了这一切,并将其发布。我们发现的结果基本上完全相反。我们看到人们使用 Snips 来发现播客,但他们真的……你知道,他们并不……你知道,他们真的不喜欢收听长篇播客,但他们疯狂地创建 Snips。这绝对是那些顿悟时刻之一,当时我们意识到,嘿,我们应该真正加倍关注知识学习,关注……是的,帮助你更有效地学习,并帮助你捕捉你收听的知识,并真正利用它。因为总的来说,你知道,我们生活在一个内容如此丰富的世界中,我们不断地消费、消费、消费。在播客结束时,你很容易就开始收听下一个播客。五分钟后,你已经忘记了你刚刚学到的所有东西的 90%、99%。是的。swyx [00:08:31]:你不知道这一点,大多数人也不知道这一点,但这是我的第四个播客。我的第三个播客是一个个人混音播客,我手动剪辑了我喜欢的播客部分,并在其上添加了我自己的评论,然后将其发布为小型剧集。不错。所以这些可能是 5 到 10 分钟的 Snips。是的。然后我添加了一些我认为是好故事或好见解的东西。然后我添加了我自己的评论,并将其发布为一个单独的播客。这很酷。它还在运行吗?它还在运行,但没有活跃,但你可以回去找到它。如果你足够好奇,你会看到它。不错,不错。是的,你以后必须给我看看。这非常手动,因为基本上我的流程是这样的,我听到一些有趣的东西,我会记下时间戳,我会记下播客的 URL。我过去使用 Overcast,所以它只会链接到 Overcast 页面。然后……把它放在我的笔记应用程序中……回家。每当我想要发布时,我会取其中一个,然后下载 MP3,剪辑 MP3,录制我的开头和结尾,然后将其发布为播客。但是现在 Snips,我的意思是,我可以直接双击或三击。Kevin [00:09:39]:我的意思是,这些故事与我们从用户那里听到的故事非常相似。你知道,你一边做其他事情一边收听播客是很正常的。是的。我们的许多用户,他们在开车,他们在锻炼,在遛狗。所以在那些你听到一些令人惊奇的事情的时刻,很难把它写下来,或者……你必须拿出你的手机。有些人会截屏,记下时间戳,然后之后你必须回去再试着找到它。当然你再也找不到它了,因为没有搜索。没有命令 F。这些都是我们自己作为用户也遇到的问题。鉴于我们的背景是 AI,我们意识到,等等,嘿,这……不应该这样。像今天的播客应用程序一样,它们仍然是……它们基本上是重新利用的音乐播放器。但我们实际上将播客视为世界上最大的知识来源之一。一旦你从不同的角度看待它,再加上 AI 现在正在实现的一切,你就会意识到,嘿,这不是播客应用程序应该有的样子。是的。swyx [00:10:41]:是的,我同意。你提到你所说的你的背景是 AI。首先,团队是谁?你的意思是你的背景是 AI?Kevin [00:10:48]:这是两件非常不同的事情。我要问一些问题。是的。也许从我的背景故事开始。是的。我的背景故事实际上可以追溯到……比如说 12 年前或类似的时间。我搬到苏黎世,在 ETH 学习。实际上,我学习的是完全不同的东西。我学习的是数学和经济学,基本上是量化金融专业。一样。好的,哇。好的。所以是的,然后正如你所知,所有这些用于资产定价、衍生品定价、量化交易的数学模型。对我来说,最吸引我的事情是它背后的数学建模。数学……统计学,但我对金融方面的事情从来都不是那么热情。真的吗?哦,好的。是的,我的意思是,我们在这一点上有所不同。Kevin [00:11:36]:我的意思是,我注意到现在……回顾当时……比如说一个症状。我想我从未在业余时间阅读过关于这个主题的学术论文。然后在我学习快结束的时候,我已经在一家大银行工作了。我最好的朋友之一,他来找我说,嘿,我刚刚上了这门课。你必须……你必须上这门课。好的。我说,什么,什么,这是什么?它叫做机器学习。我说,这是什么样的愚蠢名字?是的。所以他给我发了幻灯片,就像在一个周末里,我浏览了所有的幻灯片,我只是……我只是知道,该死的,这就是它。我爱上了它。哇。是的。好的。然后在接下来的……我想大约 12 个月的时间里,我真正地投入其中。开始阅读所有相关内容,例如阅读博客文章,开始构建我自己的模型。这门课是由一位名人、著名大学开设的吗?它像 Andrew Ng 的 Coursera 课程吗?不。Kevin [00:12:31]:所以这是 ETH 的一门课程。所以是 ETH 的一位教授。顺便问一下,他用英语授课吗?是的。好的。swyx [00:12:37]:所以这些幻灯片在某个地方可以找到。是的,当然。我的意思是,现在它们已经过时了。是的,当然。好吧,我认为,你知道,稍微回顾一下金融方面的事情。所以我过去是一名交易员,卖方和买方。我首先是期权交易员,然后我更像是一位量化对冲基金分析师。我们从未真正使用过机器学习。它更像是一点点统计建模,但实际上就像你一样,你知道,你的回归。Kevin [00:13:03]:不,我的意思是,就是这样。或者你……你求解偏微分方程,然后使用数值方法来求解这些方程。那是你的学位。那不是你在工作中真正做的。对吧?除非……好吧,我不知道你在工作中做什么。在我的工作中?不,我们没有求解偏微分方程。是的。swyx [00:13:18]:你在学校学习所有这些,然后你不用它。Kevin [00:13:20]:我的意思是,我们……好吧,让我们这么说吧。在某些方面,是的,我的意思是,我确实编写了执行此操作的算法,但这基本上就像……它是最基本的算法,然后你只是稍微改进它们一点。就像你在这里和那里稍微调整一下一样。这不像从头开始,就像,哦,这是一个新的偏微分方程。我们怎么知道……swyx [00:13:43]:是的,是的,我的意思是,这就是现实生活,对吧?大部分都是无聊的,或者你正在使用已有的东西,因为它们已经存在,因为……它们解决了最重要的问题。是的,投资组合管理对我来说更有趣。我们是在最早将社交数据与量化交易相结合的人之一。我认为……我认为现在这很常见,但是……无论如何,然后你……你深入研究了机器学习,然后呢?你辞去了你的工作?是的。是的。哇。Kevin [00:14:12]:我辞去了我的工作,因为……我的意思是,我也在银行开始使用它。就像尝试……你知道,我拼命地试图找到任何借口在这里或那里使用它,但这对我来说很清楚,不,如果我想这样做……我只需要……做一个真正的决定。所以我辞去了我的工作,加入了一家位于苏黎世的早期科技初创公司,在那里我组建了 AI 团队五年。哇。是的。所以是的,我们为银行构建了各种机器学习……东西,从销售团队的模型到识别哪些客户……应该向他们销售哪些产品以及出于什么原因,一直到……我们做了很多银行交易方面的工作。对我来说,实际上最有趣的项目之一是……我们有一个 NLP 模型,它会获取交易的预订文本,例如信用卡交易,并对其进行美化。是的。因为其中包含所有这些……你知道,像数字、缩写等等。有时你看着它就像……这是什么?它只是……你知道,它只会将其更改为……我不知道,CVS。是的,是的。但是我的意思是,你会出现幻觉吗?不,不,不。一切的设置方式并非如此……它还不是像你今天使用的完全端到端的生成神经网络。好的。swyx [00:15:30]:太棒了。然后你什么时候开始全职从事 Snips?是的。Kevin [00:15:33]:所以基本上是在那之后。我的意思是,事情的开始是这样的,我的一个朋友让我对机器学习感兴趣……他和我在……就像他也让我对初创公司感兴趣一样。他对我的生活产生了很大的影响。我们俩有时会一起讨论初创公司的想法。他的背景也在 AI 数据科学方面。我们有一些想法,但鉴于我们全职工作,我们正在考虑……所以我们参加了 Hack Zurich。那是……欧洲最大的黑客马拉松,或者至少当时是。我们说,嘿,这只是一个周末。让我们尝试一个想法,像一起黑客攻击一些东西,看看效果如何。我们的想法是,我们能够搜索播客剧集,就像在播客内部一样。所以我们做了。长话短说,我们设法做到了,就像构建了一些东西,我们意识到,嘿,这实际上有效。你可以再次在播客中找到东西。我们有一个自然语言搜索,我们在舞台上进行了演示。我们实际上赢得了黑客马拉松,这很酷。我的意思是,我们……我们还认为我们有一个很好的……一个很好的……好的演示或一个好的例子。所以我们使用了与埃隆·马斯克一起的著名乔·罗根剧集,埃隆·马斯克在那里吸食大麻。好的。这是一个两个半小时的剧集。所以我们当时在舞台上,然后我们只是搜索“吸食大麻”。啊。Kevin [00:15:17]:不,不,不。一切的设置方式并非如此……它还不是像你今天使用的完全端到端的生成神经网络。好的。swyx [00:15:30]:太棒了。然后你什么时候开始全职从事 Snips?是的。Kevin [00:15:33]:所以基本上是在那之后。我的意思是,事情的开始是这样的,我的一个朋友让我对机器学习感兴趣……他和我在……就像他也让我对初创公司感兴趣一样。他对我的生活产生了很大的影响。我们俩有时会一起讨论初创公司的想法。他的背景也在 AI 数据科学方面。我们有一些想法,但鉴于我们全职工作,我们正在考虑……所以我们参加了 Hack Zurich。那是……欧洲最大的黑客马拉松,或者至少当时是。我们说,嘿,这只是一个周末。让我们尝试一个想法,像一起黑客攻击一些东西,看看效果如何。我们的想法是,我们能够搜索播客剧集,就像在播客内部一样。所以我们做了。长话短说,我们设法做到了,就像构建了一些东西,我们意识到,嘿,这实际上有效。你可以再次在播客中找到东西。我们有一个自然语言搜索,我们在舞台上进行了演示。我们实际上赢得了黑客马拉松,这很酷。我的意思是,我们……我们还认为我们有一个很好的……一个很好的……好的演示或一个好的例子。所以我们使用了与埃隆·马斯克一起的著名乔·罗根剧集,埃隆·马斯克在那里吸食大麻。好的。这是一个两个半小时的剧集。所以我们当时在舞台上,然后我们只是搜索“吸食大麻”。啊。它会找到那个确切的时刻。它会播放它,就像……来吧,埃隆·马斯克,就像吸烟一样。所以它也是视频吗?不,它实际上完全基于音频,但我们确实有用于演示的视频,这当然产生了惊人的效果。就像这给了我们很多启动能量,但这实际上与赢得黑客马拉松无关。但发生的事情很有趣,在我们舞台上进行演示后,其他一些参与者说……很多人走到我们面前,开始说,嘿,我可以使用这个吗?就像我遇到了这个问题一样。有些人还向我们讲述了他们遇到的其他问题,就像与播客非常相关的问题一样,就像……我可以将它用于那个吗?这基本上就是我意识到,嘿,实际上不仅仅是我们遇到了这些关于播客的问题,并且充分利用了这些知识。还有其他人。那大概是四年前的事情了,然后,是的,我们决定辞去工作,开始……这个 Snip 的事情。现在团队规模有多大?我们只有四个人。我们只有四个人。是的,像四个人一样。我们都是技术人员。是的。基本上后端有两个。所以我的一个联合创始人就是那个让我对机器学习和初创公司感兴趣的人。我们一起赢得了黑客马拉松。所以我们有两个后端人员负责 AI 和所有其他后端工作,以及两个前端人员负责构建应用程序。这主要用于 Android 和……是的,它是 iOS 和 Android。我们还有一个适用于 Apple 的手表应用程序。但是是的,它主要……手表的事情,这很有趣,因为在 Lanespace Discord 中,我们大多数人都一直在慢慢采用 Snips。你一年前来找我,向我介绍了 Snip。我说,我不知道。我非常依赖 Overcast。然后我们慢慢地切换了。为什么是手表?所以这可以追溯到我们的许多用户,他们在收听播客时会做其他事情。而我们中的一个人赋予他们捕捉这些知识的能力,即使他们同时在做其他事情,这也是杀手级功能之一。也许我实际上可以……也许在某个时候我应该更详细地概述我们拥有的所有功能。当然。所以这是一个杀手级功能。而人们使用它的一个主要用例是跑步。是的。所以如果你是一个跑步爱好者,一个慢跑爱好者或骑自行车的人,就像真正有竞争力地骑自行车一样。许多人都不想在跑步时随身携带手机。所以你把所有东西都加载到手表上?所以你可以下载剧集。我的意思是,如果你有一个可以访问互联网的 Apple Watch,比如带有 SIM 卡的,你也可以直接流式传输。这也是可能的。当然,它基本上非常……只是收听和剪辑。然后你可以在你的手机上看到你所有的 Snips。让我告诉你我刚刚遇到的这个错误。播放剧集出错。Substack,这个播客的主机,不允许在这个 Apple Watch 上播放这个播客。是的,这是一件非常棒的事情。所以我们发现,所有托管在 Substack 上的播客,你都不能在 Apple Watch 上播放它们。为什么会有这种限制?就像,别问我。我们试图联系 Substack。我们试图联系一些在 Substack 上托管播客的知名播客,让他们知道。Substack 似乎并不关心。这并非我们应用程序特有的问题。你也可以查看 Apple Podcast 应用程序。问题一样。只是我们实际上已经识别出了它,并且我们告诉用户发生了什么。我会说我们把播客托管在 Substack 上……但他们对播客工具并不认真。我以前告诉过他们,我一直非常坦率地对待他们。所以我并不觉得我在以任何方式贬低他们。这有点令人难过,因为否则它是一个完美的创作平台。但他们将播客视为次要事物的方式,我认为这真的很令人失望。鉴于你提到了所有这些功能,也许我可以更详细地概述一下我们拥有的功能。因为对我们来说,这在我们心中很清楚,也许对一些……我的意思是,好的,我会告诉你我的版本。是的。你可以纠正我,对吧?所以首先,我认为主要工作是让它成为一个播客收听应用程序。它基本上应该是你在 Overcast 或 Apple Podcasts 或任何其他类似应用程序上通常获得的完整超集。你从 Listen Notes 中提取你的节目列表。就像……你如何找到……像输入任何东西,你就能找到它们,对吧?是的,我们有一个由 ListenNotes 提供支持的搜索引擎。但是我的意思是,与此同时,我们自己拥有一个包含大约 99% 的所有播客的大型数据库。是的。我注意到,默认体验是你不会自动下载……这对你和其他人之间的一个非常大的区别,如果我订阅了一个东西,它会自动下载,而且我一夜之间已经下载了 MP3。对我来说,我必须主动将其添加到我的队列中,然后它才会自动下载。实际上,我一开始并不喜欢那样。我认为我可能告诉过你,我说,哦,这就像我不喜欢的功能一样。因为它意味着我必须选择收听它才能下载,而不是……在选择加入和选择退出之间存在差异。所以我选择加入我收听的每一集。然后你打开它,这取决于你是否启用了 AI 功能,但默认体验是没有启用 AI 功能。你可以收听它,你可以看到 Snips,Snips 的数量,以及人们在剧集期间 Sni
<context>Snipd:一款用于学习的 AI 播客应用程序 我们正在与 Amplify 合作开展 2025 年 AI 工程现状调查,该调查将在旧金山的 AIE 世界博览会上发布!参与调查,共同塑造 AI 工程的未来!我们在一年前第一次接触到 Snipd,并立即被其设计所吸引,但对“剪辑”作为标题行为的实际效果表示怀疑:播客应用具有极强的粘性——Spotify 斥资近 10 亿美元收购播客和独家内容,仅仅是为了在普通用户中提高 8% 的市场份额。然而,在 Overcast 2.0 重写版令人失望且在过去三年中没有 AI 功能后,我最终还是决定改用 Snipd。现在是 2025 年,你的播客应用程序应该能够让你搜索播客的文字记录。Snipd 是迄今为止最好的实现方案。然而,他们仍在不断发布新功能:令我们印象深刻的不仅仅是这个只有 4 个人的小团队如何能够在大型巨头的竞争中自主开发一款面向消费者的 AI 应用并取得如此好的成绩;还在于他们对通过播客学习以及如何随着时间的推移提高知识保留率(也就是“播客版 Duolingo”)的认真思考。作为一个教育性的 AI 播客,这是一个我们能够支持的使命。完整视频播客在 YouTube 上找到我们!这是我们第一次在户外拍摄播客!节目笔记* Shazam 的工作原理?* Flutter/FlutterFlow* wav2vec 论文* Perplexity 在线大型语言模型* 谷歌搜索接地* 将 Snipd 转录与我们的 Bee 集进行比较* NIPS 2017 Flo Rida* Gustav Söderström - 背景音频时间戳* [00:00:03] AI 工程师纽约峰会的心得* [00:00:17] 纽约的天气* [00:00:26] Swyx 和 Snipd* [00:01:01] Kevin 的 AI 峰会体验* [00:01:31] 苏黎世和 AI* [00:03:25] SigLIP 作者加入 OpenAI* [00:03:39] 苏黎世生活成本很高* [00:04:06] Snipd 的起源故事* [00:05:24] 机器学习简介* [00:09:28] Snipd 和用户知识提取* [00:13:48] 应用的技术栈、Flutter、Python* [00:15:11] 如何识别说话者* [00:18:29] “可后台运行”视频的概念* [00:29:05] 语音克隆技术* [00:31:03] 使用 AI 代理* [00:34:32] Snipd 的未来是多模态 AI* [00:36:37] Snipd 和现有的用户行为* [00:42:10] 应用、总结和时间戳* [00:55:25] AI 和播客的未来* [1:14:55] 语音 AI文字记录swyx [00:00:03]:嘿,我在纽约,和 Snipd 的 Kevin Ben-Smith 在一起。欢迎。Kevin [00:00:07]:嗨,很高兴来到这里。swyx [00:00:09]:是的,我想这是我们第一次在户外录制播客。Kevin [00:00:14]:我不得不说,这是一个相当不错的第一次录制地点。swyx [00:00:18]:我实际上有点不确定,因为你知道,天气很冷。我查了一下温度,大概是一摄氏度,但在阳光下还不错。是的,相当不错。特别是我们美味的茶。是的,完美的。我们将讨论 Snipd。我是一个 Snipd 用户。我是一个 Snipd 用户。除了 Twitter,它几乎是我手机上使用频率最高的应用程序。不错。当我早上醒来时,我会打开 Snipd,看看有什么新内容。我认为就手机上的使用时间或使用频率而言,它排名第一或第二。不错。不错。所以我真的需要谈谈它,因为我认为对 AI 感兴趣的人会思考,我们如何……我们是一个 AI 播客,我们必须谈谈 AI 播客应用程序。但在我们开始之前,我们刚刚结束……我们刚刚结束了 AI 工程师峰会,你参加了两天。感觉如何?Kevin [00:01:07]:非常棒。对我来说,最有价值的是与志同道合的人们待在同一个房间里,他们正在构建未来,并且正在见证未来。你知道,尤其是在 AI 代理方面,我经常与不在 AI 行业的朋友们进行交谈。这种情况发生的很快,你听起来像是在讲科幻小说。这简直是疯狂的谈话。它,你知道,与这么多已经看到这些事物的人交谈是如此令人耳目一新,是的,然后从他们那里获得灵感,而不是总是感觉像,好吧,我认为我只是疯了。而且,这永远不会发生。它确实正在发生。对我来说,这非常有价值。所以第二天,对你来说比第一天更相关。是的,第二天。所以第二天是工程主题。是的,这对我来说绝对是最有价值的。作为一名制作人。我自己也是从业者,特别是有一两场关于语音 AI 和带有语音的 AI 代理的演讲。好的。所以这非常吸引人。之后也与演讲者进行了交谈。是的,他们也非常开放,并且,你知道,这种分享的态度,我认为在 AI 社区中普遍存在。我也学到了很多东西,比如我现在可以带走的一些非常实用的东西。是的。swyx [00:02:25]:我的意思是,在我这边,我认为我只看了大约一半的演讲。因为我一直在四处奔波,我认为人们在最后看到我时,我有点崩溃了。我倒在地上,在最后,因为我需要休息一下,但是是的,我很高兴自己去看语音 AI 的演讲。Kevin [00:02:43]:是的,是的,去做吧。我的意思是,在我这边,非常感谢你组织这次会议,将大家聚集在一起。你在瑞士有类似的活动吗?简短的答案是没有。嗯,我不得不说,AI 社区,尤其是在苏黎世,在那里……是的,我们在那里……我们在那里工作。是的,它非常好。而且正在发展,尤其是在 ETH(苏黎世联邦理工学院)的推动下,那里的技术大学和所有大公司,他们都在那里有 AI 团队。谷歌,比如谷歌在苏黎世拥有美国境外最大的科技中心。是的,Facebook 在 Reality Labs 投入了很多。苹果有一个秘密的 AI 团队,OpenAI,然后 SwapBit 刚刚宣布他们要来苏黎世。是的,所以有很多事情正在发生。是的。swyx [00:03:23]:所以,是的,我认为最近最值得注意的举动是,我认为来自谷歌的整个视觉团队……卢卡斯·拜尔……以及 Siglip 的所有其他作者都离开了谷歌,加入了 OpenAI,我认为这就像……整个团队同时集体搬家是一件大事。所以我去了苏黎世,感觉那里很贵。那是一个很棒的城市。是的,大学很棒,但我没有把它看作是一个商业中心。它是一个商业中心吗?我想是的。Kevin [00:03:51]:它有点像……从历史上看,它是一个金融中心,金融中心。是的,那里有一些大型银行,对吧?尤其是瑞银集团,世界上最大的财富管理公司,但它现在正逐渐成为一个科技中心,所有大型科技公司都在那里。swyx [00:04:08]:我想是的。是的,在研究方面,都是 ETH。还有一些其他的东西。是的,是的,是的。Kevin [00:04:13]:都是 ETH 推动的。然后,它的姐妹大学 EPFL(洛桑联邦理工学院)在洛桑。好的。他们也在做很多事情,但是,它,它,它确实是 ETH。否则,不,我的意思是,它是一个美丽的,非常美丽的城市。我可以推荐给任何人。来参观苏黎世,我很乐意带你四处看看,当然,你知道,你,你离大自然很近,你离山很近,你有很多美丽的湖泊。是的,我认为这就是它成为一个宜居城市的原因。是的。swyx [00:04:42]:嗯,而且成本并不……并不便宜,但我的意思是,我们现在在纽约市,而且……我不知道,我今天早上喝了一杯 8 美元的咖啡,所以……苏黎世的咖啡比纽约市便宜。好的,好的。让我们谈谈 Snipd。什么是 Snipd?然后我们将谈谈你的起源故事,但我只是……让我们先简要介绍一下,什么是 Snipd?是的。Kevin [00:05:03]:我总是看到 Snipd 的两种定义,所以我将给你一个非常简单直接的定义,然后是一个更细致的定义,我认为这对于我们接下来的谈话非常有价值。最简单的说法是,我们是一个 AI 驱动的播客应用程序。所以如果你听播客,我们现在正在提供这种 AI 增强的体验。但是如果你从更细致的角度来看待播客……的角度来看,实际上,我们非常关注那些像你的听众一样喜欢听播客来学习新知识的人。像你的听众一样,他们想了解 AI,了解正在发生的事情,了解最新的研究,了解正在发生的事情。我们希望提供一个口语音频平台,让你能够最有效地做到这一点。而 AI 正是我们实现这一目标的方式。是的。swyx [00:05:53]:手段是目的。是的,完全正确。你开始的时候,它一直都是 AI 吗?还是它更侧重于社交分享?Kevin [00:05:59]:我们发布的第一个版本是在大约三年半前。好的。是的,所以这是在 ChatGPT 之前。在 Whisper 之前。是的,在 Whisper 之前。是的,所以我们现在在应用程序中拥有的许多功能,当时实际上还无法实现。但从一开始,我们就一直关注知识。这就是为什么,你知道,在我们团队中,为什么我们听播客,但我们确实采取了略微不同的方法。最初的想法是,这个名字是 Snipd,你可以创建这些我们称之为 Snipd 的东西,它基本上是从播客中剪辑出来的一小段片段。我们确实设想了一种类似于 TikTok 的社交平台,有些人会收听完整的剧集,他们会剪辑其中某些最好的部分。然后他们会将其发布到信息流中,其他用户会消费这个 Snipd 信息流。并将其用作发现工具或仅仅是一种手段。是的,所以你会有创建 Snipd 的人和收听 Snipd 的人。所以我们最初的假设是,让人们收听这些 Snipd 会很容易,但让他们实际创建 Snipd 却非常困难。因此,我们投入了大量精力,尽可能地让创建 Snipd 变得尽可能简单流畅。是的。swyx [00:07:17]:它类似于 TikTok。你需要 CapCut 才能在 TikTok 上有视频。完全正确。Kevin [00:07:23]:对于 Snipd,基本上每当你听到一个惊人的见解,一个伟大的时刻,你只需轻按耳机三次。我们的 AI 实际上会保存你刚刚收听的时刻,并对其进行总结以创建一个笔记。这基本上就是一个 Snipd。所以是的,我们构建了,我们构建了所有这些,并将其发布。我们发现的结果与我们的预期完全相反。我们看到人们使用 Snipd 来发现播客,但他们真的……你知道,他们并不……你知道,他们真的不喜欢收听长篇播客,但他们却疯狂地创建 Snipd。这绝对是那些顿悟时刻之一,当时我们意识到,嘿,我们应该真正加倍努力关注知识学习,是的,帮助你更有效地学习,并帮助你捕捉你收听的知识,并真正利用它。因为总的来说,你知道,我们生活在一个内容过剩的世界里,我们不断地消费,消费,消费。所以很容易在播客结束时,你只是开始收听下一个播客。五分钟后,你已经忘记了你刚刚学到的所有内容的 90%、99%。是的。swyx [00:08:31]:你不知道这一点,大多数人也不知道这一点,但这是我的第四个播客。我的第三个播客是一个个人混音播客,我手动剪辑了我喜欢的播客部分,并在其上添加了我自己的评论,然后将其发布为小型剧集。不错。所以这些可能是 5 到 10 分钟的 Snipd。是的,然后我添加了一些我认为是好故事或好见解的东西。然后我添加了我自己的评论,并将其发布为一个单独的播客。这很酷。它还在运行吗?它还在运行,但没有活跃,但你可以回去找到它。如果你足够好奇,你会看到它。不错。是的,你以后要给我看看。这是如此手动,因为基本上我的流程是,我听到一些有趣的东西。我记下时间戳,并记下播客的 URL。我过去使用 Overcast。所以它只会链接到 Overcast 页面。然后……放在我的笔记应用程序中,回家。每当我想要发布时,我会选择其中一个,然后下载 MP3,剪辑 MP3,录制我的开头和结尾,然后将其发布为播客。但是现在 Snipd,我的意思是,我可以只需双击或三击。Kevin [00:09:39]:我的意思是,这些故事与我们从用户那里听到的故事非常相似。你知道,你正在做的事情很正常,你在收听播客时正在做其他事情。是的,我们的许多用户,他们在开车,他们在锻炼,在遛狗。所以在那些你听到一些令人惊叹的事情的时刻,很难将它们写下来,或者,你知道,你必须拿出你的手机。有些人会截屏,记下时间戳,然后稍后你必须回去再次尝试找到它。当然你再也找不到它了,因为没有搜索。没有命令 F。而且,这些,这些都是我们自己作为用户也遇到的问题。鉴于我们的背景是 AI,我们意识到,等等,嘿,情况不应该这样。像今天的播客应用程序一样,它们基本上是重新利用的音乐播放器,但我们实际上将播客视为世界上最大的知识来源之一。一旦你从不同的角度看待它,再加上 AI 现在正在实现的一切,你就会意识到,嘿,这不是播客应用程序应该有的样子。是的。swyx [00:10:41]:是的,我同意。你提到你说的你的背景是 AI。首先,团队是谁?你的背景是 AI 是什么意思?Kevin [00:10:48]:这是两件非常不同的事情。我要问一些问题。是的,也许从我的背景故事开始。是的,我的背景故事实际上可以追溯到大约 12 年前或类似的时间。我搬到苏黎世,在 ETH 学习,实际上我学习的是完全不同的东西。我学习的是数学和经济学,基本上是量化金融专业。一样。哇,好吧。所以是的。然后,正如你所知,所有这些用于资产定价、衍生品定价、量化交易的数学模型。对我来说,最吸引我的事情是它背后的数学建模。数学、统计学,但我对金融方面的事情从来都不是那么热情。swyx [00:11:32]:哦,真的吗?哦,好的。是的,我们在这一点上有所不同。Kevin [00:11:36]:我的意思是,我注意到现在的一个症状,比如回顾当时。是的,我认为我从未在业余时间阅读过关于这个主题的学术论文。然后是在我的学习快结束的时候,我已经在一家大银行工作了。我最好的朋友之一找到我说,嘿,我刚刚参加了这个课程。你必须,你必须这样做。你必须参加这个讲座。好的。我说,什么,什么,什么?它是关于什么的?它叫做机器学习,我说,什么,什么,什么?这是什么样的愚蠢的名字?他给我发来了幻灯片,在周末我浏览了所有幻灯片,我只是……我只是知道,该死的。这就是它。我爱上了它。哇,是的,好的。然后在接下来的,我想大约 12 个月的时间里,我真正地投入其中。开始阅读所有相关内容,比如阅读博客文章,开始构建我自己的模型。swyx [00:12:26]:这个课程是某个名人、著名大学开的吗?是 Andrew Ng 的 Coursera 课程吗?不。Kevin [00:12:31]:这是 ETH 的课程。所以是 ETH 的一位教授。他用英语授课吗?是的。好的。swyx [00:12:37]:所以这些幻灯片在某个地方可以找到。是的,当然。我的意思是,现在它们已经过时了。是的,当然。好吧,我认为,你知道,回顾一下金融方面的事情。所以我,我曾经是一名交易员,卖方和买方。我首先是期权交易员,然后我更像是一位量化对冲基金分析师。我们从未真正使用过机器学习。它更像是一些统计建模,但实际上就像你一样,你拟合……你知道,你的回归。Kevin [00:13:03]:不,我的意思是,这就是它。而且……或者你,你求解偏微分方程,然后使用数值方法来……来求解这些。对你来说,这是你的学位。而这并不是你在工作中真正做的。对,除非……好吧,我不知道你在工作中做什么。在我的工作中。不,不,我们没有求解偏微分方程。是的。swyx [00:13:18]:你在学校学习所有这些,然后你不用它。Kevin [00:13:20]:我的意思是,我们……我们……让我们这么说吧。在某些方面,是的,我的意思是,我确实编写了执行此操作的算法,但这基本上就像……它是最基本的算法,然后你只是稍微改进它们一点。就像你在那里和那里稍微调整一下。是的,它不像从头开始一样,哦,这是一个新的偏微分方程。我们怎么知道?swyx [00:13:43]:是的,是的,我的意思是,这就是现实生活,对吧?大多数……大多数都比较无聊,或者你正在……你正在使用已有的东西,因为它们之所以存在是因为……它们解决了最重要的问题。嗯,是的。投资组合管理对我来说更有趣。嗯,而且……我们,我们是第一个将社交数据与量化交易相结合的人。我认为……我认为现在这很常见,但是……无论如何,然后你,你深入研究了机器学习,然后呢?你辞去了你的工作?是的,是的,哇。Kevin [00:14:12]:我辞去了我的工作,因为……嗯,我的意思是,我也在银行开始使用它。比如尝试……你知道,我拼命地试图找到任何借口来在这里或那里使用它,但这对我来说很清楚,不,如果我想这样做……我必须做出真正的改变。所以我辞去了我的工作,加入了一家位于苏黎世的早期科技初创公司,在那里建立了 AI 团队五年。哇,是的。所以是的,我们为银行构建了各种机器学习……东西,从……为销售团队的模型来识别哪些客户喜欢销售哪些产品以及原因,一直到……我们做了很多很多银行交易方面的工作。对我来说,实际上最有趣的项目之一是,我们有一个 NLP 模型,它可以获取交易的预订文本,比如信用卡交易,并进行美化。是的,因为它包含所有这些……你知道,比如数字和缩写等等。有时你看着它就像,这是什么?它只是……你知道,它会将其更改为……我不知道,CVS。是的。swyx [00:15:15]:是的,但是你的模型会出现幻觉吗?Kevin [00:15:17]:不,不,不。一切的设置方式并非如此,它还不是像你今天使用的完全端到端的生成神经网络。好的。swyx [00:15:30]:太棒了。然后你什么时候开始全职从事 Snipd 的工作?是的。Kevin [00:15:33]:所以基本上那是……那是之后的事情。我的意思是,事情的开始是这样的,我的一个朋友让我对机器学习产生了兴趣……他和我在……他让我对初创公司也产生了兴趣。他对我的生活影响很大。我们俩偶尔会一起讨论初创公司的想法。他的背景也在 AI 数据科学方面。我们有一些想法,但鉴于我们当时都在全职工作,我们正在考虑……所以我们参加了 Hack Zurich。这是……欧洲最大的黑客马拉松……或者至少当时是。我们说,嘿,这只是一个周末。让我们尝试一个想法,一起黑客攻击一些东西,看看效果如何。这个想法是我们能够搜索播客剧集,比如在播客内。是的。所以我们做了。长话短说,我们设法做到这一点,构建了一些东西,我们意识到,嘿,这实际上有效。你可以在播客中再次找到东西。我们有一个自然语言搜索,我们在舞台上进行了演示。我们实际上赢得了黑客马拉松,这很酷。我的意思是,我们……我们也……我认为我们有一个很好的……一个很好的……好的演示或一个好的例子。所以我们在舞台上,然后我们搜索了像吸大麻这样的词,它会找到那个确切的时刻。它会播放它。它就像……和埃隆·马斯克一起,只是吸烟。哦,所以它也是视频吗?不,它实际上完全基于音频。但我们在演示中使用了视频。是的,这当然产生了惊人的效果。是的,这给了我们很多启动能量,但这实际上与赢得黑客马拉松无关。是的。但发生了一件有趣的事情,在我们舞台上演示之后,其他几位参与者,比如很多人走到我们面前,开始说,嘿,我可以使用这个吗?比如我遇到了这个问题。有些人还向我们讲述了他们在播客中遇到的其他问题,比如非常接近这个的问题。比如这个。比如,我可以用它来做这个吗?这基本上是我意识到,嘿,实际上不仅仅是我们自己遇到了这些关于播客的问题,以及如何充分利用这些知识。是的,其他人。是的,那是大约四年前或类似的时间。然后,是的,我们决定辞去工作,开始……开始这个 Snipd 的事情。是的。团队现在有多少人?我们只有四个人。是的,只有四个人。是的,我们都是技术人员。是的,基本上两个人负责后端。所以我的一个联合创始人就是那个让我对机器学习和初创公司感兴趣的人。我们一起赢得了黑客马拉松。所以我们有两个后端人员负责 AI 和所有其他后端工作。还有两个人负责前端,构建应用程序。swyx [00:18:18]:这主要是 Android 和 iOS。是的。Kevin [00:18:21]:是 iOS 和 Android。我们还有一个 Apple Watch 应用,但是是的,它主要是 iOS。是的。swyx [00:18:27]:手表方面,这很有趣,因为在 Latent Space 的 Discord 中,你知道,我们大多数人都逐渐开始使用 Snipd。大约一年前你向我介绍了 Snipd。我说,我不知道。你知道,我对 Overcast 非常忠诚,然后我们慢慢地切换了。为什么是手表?Kevin [00:18:43]:所以这可以追溯到我们的许多用户,他们在收听播客时都在做其他事情,对吧?是的。而我们赋予他们能够捕捉这些知识的能力,即使他们同时在做其他事情,这也是杀手级功能之一。是的,也许我实际上……也许在某些时候我应该……也许可以更全面地概述我们拥有的所有功能。当然。所以这是杀手级功能之一,对于人们使用它的一个主要用例是跑步。是的。所以如果你是一个跑步爱好者,一个慢跑爱好者或骑自行车的人,比如真正有竞争力地骑自行车,很多人不想在跑步时随身携带手机。所以你将所有内容加载到手表上。所以你可以下载剧集。我的意思是,如果你有一个具有互联网访问权限的 Apple Watch,比如带有 SIM 卡,你也可以直接流式传输。这也是可能的。所以当然,它基本上非常有限,只能收听和剪辑。然后你可以在你的手机上看到你所有的 Snipd。让我告诉你我刚刚遇到的错误。swyx [00:19:47]:播放剧集出错。Substack,这个播客的主机,不允许在这个播客在 Apple Watch 上播放。是的。Kevin [00:19:52]:这是一件非常糟糕的事情。所以我们发现,所有托管在 Substack 上的播客都无法在 Apple Watch 上播放。为什么会有这种限制?什么?别问我。我们试图联系 Substack。我们试图联系一些将播客托管在 Substack 上的知名播客,让他们知道。Substack 似乎并不关心。这并非我们应用程序特有的问题。你也可以查看 Apple Podcast 应用程序。是的,问题一样。只是我们已经识别出了它。我们会告诉用户发生了什么。swyx [00:20:25]:我会说我们将我们的播客托管在 Substack 上,但他们对他们的播客工具并不认真。我以前告诉过他们,我已经非常坦率地告诉过他们。所以我并不觉得我在以任何方式批评他们。这有点令人难过,因为否则它是一个完美的创意平台。但他们将播客视为一种事后想法的方式,我认为这非常令人失望。Kevin [00:20:45]:也许鉴于你提到了所有这些功能,也许我可以更全面地概述一下我们拥有的功能。让我们这样做。让我们这样做。所以我想我们主要是在我们的脑海中……也许对于一些听众来说。swyx [00:20:55]:我的意思是,我会告诉你我的版本。是的,他们可以纠正我,对吧?首先,我认为主要工作是将其作为一个播客收听应用程序。它应该基本上是你通常在 Overcast 或 Apple Podcasts 或任何其他应用程序上获得内容的完整超集。你从 ListenNotes 中提取你的节目列表。你如何找到节目?你必须输入任何内容,然后你就能找到它们,对吧?Kevin [00:21:18]:是的,我们有一个由 ListenNotes 提供支持的搜索引擎。是的,但与此同时,我们自己拥有一个庞大的数据库,其中包含 99% 的所有播客。是的。swyx [00:21:27]:我注意到,默认体验是你不会自动下载节目。这对你与其他应用程序相比是一个非常大的区别,比如,你知道,如果我订阅了某个节目,它会自动下载,我一夜之间就已经下载了 MP3。对我来说,我必须主动将其添加到我的队列中,然后它才会自动下载。实际上,我最初不喜欢这一点。我想我可能告诉过你,我说,哦,这是一个我不喜欢的功能。因为它意味着我必须选择收听它才能下载,而不是……它是选择加入的。选择加入和选择退出之间存在差异。所以我选择加入我收听的每一集。然后,比如,你打开它,这取决于你是否启用了 AI 功能。但默认体验是没有启用 AI 功能。你可以收听它。你可以看到 Snipd,Snipd 的数量以及人们在剧集期间 Snipd 的位置,这大致与兴趣水平相关。显然,你可以在那里 Snipd。我认为 Snipd 真的很酷。比如,我用它在 Discord 上分享了很多东西。我认为我们有很多很多人只是分享 Snipd 和其他东西。在 Twitter 上发推文也是一种令人愉悦的体验。但是真正的功能只有在你真正打开 AI 功能时才会出现。所以我之所以使用 Snipd,是因为我厌倦了 Overcast 完全没有实现任何 AI 功能。相反,他们花了两年时间重写他们的应用程序以使其速度更快一点。我说,这是 2025 年。我应该有一个具有我可以搜索的文字记录的播客。非常非常基本的事情。Overcast 基本上永远不会拥有它。Kevin [00:22:49]:是的,我认为这是一个很好的……基本的概述。也许我可以补充一下我们拥有的 AI 功能。所以我们做的一件事是,每当新的播客发布时,我们都会转录剧集。我们进行说话人分段。我们识别说话人的姓名。每位嘉宾,我们都会提取嘉宾的简短介绍,尝试在线找到嘉宾的照片,添加它。我们将播客分解成章节,即 AI 生成的章节。那个。那个非常方便。每个标题都有简短的描述,每个章节都有简短的描述。我们识别所有在播客中提到的书籍。你可以看出我不使用那个功能。这取决于播客。有些播客嘉宾经常推荐很棒的书。所以稍后,你可以再次找到它。swyx [00:23:42]:所以你实际上是搜索“书”这个词,或者我只是读了……等等。Kevin [00:23:46]:不,我的意思是,它都是基于大型语言模型的。是的。所以基本上,我们有一个大型语言模型,它会浏览整个文字记录,并识别用户是否提到了书,然后我们使用 Perplexity API 以及各种其他大型语言模型编排来访问互联网,找到关于这本书的所有信息,找到封面,找到作者是谁,为作者获取简短的描述。然后我们检查作者还出现在哪些其他剧集中。swyx [00:24:15]:是的,这太棒了。Kevin [00:24:17]:因为对我来说,如果……如果有本有趣的书,我做的第一件事就是实际上收听一集关于这位作家的播客,因为他通常会在播客中给出非常好的概述。swyx [00:24:28]:有时播客是与本人作为嘉宾一起的。有时他的播客是关于本人的,但他本人不在那里。你们会同时识别吗?Kevin [00:24:37]:所以,是的,我们在我们最新的模型中同时识别两者。但实际上我们在应用程序中向你展示的内容,目标是目前只向你展示嘉宾以进行区分。将来,我们希望更多地展示其他内容。swyx [00:24:47]:就我而言,我不介意。是的,我不认为……如果我喜欢某人,无论他们是否在那里,我都会了解他们。Kevin [00:24:55]:是的,我的意思是,是的,也不是。我们已经看到,对于某些个性来说,这可能会失效。例如,我们发布此功能的第一个版本,它更频繁地识别某人,即使他不是嘉宾。例如,对我来说最好的例子是 Sam Altman 和埃隆·马斯克。他们几乎在每个第二个播客中都被提及,而且……他们不在那里,而且……如果你有兴趣……实际上从他们那里学习。我明白了。是的,我们更新了我们的算法,对其进行了大量改进。现在它已经变得好多了,只有在他们是嘉宾时才会识别他们。是的,所以这是……也许回到功能方面,还有两个更重要的功能。我们有能力与剧集进行聊天。是的。当然,你可以使用旧式的方法通过关键字搜索来搜索文字记录。但我认为对我来说,这是……这是你过去搜索和提取知识的方式。老式方法。AI 的方法基本上是一个大型语言模型。所以你可以询问大型语言模型,嘿,他们什么时候谈论主题 X?如果你只对剧集的某个特定部分感兴趣,你可以要求他们提供剧集的简短概述。之后的关键要点,也为你创建一个笔记。所以这实际上非常开放。是的。然后最后是前面提到的 Snipd 功能。为了重申一下,这个功能是,每当你听到一个惊人的想法时,你可以轻按耳机三次或点击应用程序中的按钮,AI 会总结你刚刚听到的见解,并将其与原始文字记录和音频一起保存在你的知识库中。我还注意到你跳过了动态内容。所以动态内容,我们不会自动跳过它。哦,对不起。你检测到。但我们检测到它。是的。我的意思是,这是大多数人实际上不知道的事情之一。就像广告插入播客或大多数播客的方式一样,实际上是每次你收听播客时,你实际上都会访问不同的音频文件。在服务器上,不同的广告会自动插入到 MP3 文件中。是的,基于 IP 地址。完全正确。这意味着如果我们转录剧集并拥有带有时间戳的文字记录,比如特定于单词的时间戳,如果你突然获得不同的音频文件,整个时间戳都会乱套。这是一个巨大的问题。为此,我们实际上必须构建……另一个算法,它会在运行时动态地重新同步你正在收听的音频和我们拥有的文字记录。是的。这是一个非常有趣的问题。你通过匹配声波来同步吗?或者你通过匹配单词来同步吗?基本上,你进行部分转录。我们不是匹配单词。它发生在……基本上是字节级别匹配。好的。所以它依赖于这个……它依赖于在某个时刻存在精确匹配。所以实际上不是,我们实际上不是进行精确匹配,而是在进行模糊匹配。哇。为了识别时刻。基本上,我们基本上为播客构建了 Shazam。只是一个小的副项目来解决这个问题。实际上,有趣的事实是,Shazam 算法是公开的。他们发表了一篇论文,其中提到了它。我还没有真正深入研究这篇论文。我认为这很有趣,因为基本上没有其他人构建了 Shazam。是的,我的意思是,好吧,一件事情是算法。如果你现在谈论 Shazam,另一件事也是拥有其背后的数据库,并拥有用户心态,如果他们遇到这个问题,他们会来找你,对吧?是的,是的,是的。我对技术栈非常感兴趣。这是一个大型数据管道。你能分享一下技术栈吗?什么是最有趣或最具挑战性的部分?所以一般的技术栈是我们的整个后端是……或 90% 的后端是用 Python 编写的。好的。在 Google Cloud Platform 上托管所有内容。我们的前端是用……好吧,我们使用 Flutter 框架。所以它是用 Dart 编写的,然后编译为原生代码。所以我们有一个代码库可以处理 Android 和 iOS。你认为这是一个好的决定吗?这是很多人正在探索的事情。到目前为止,是的。好的。看,它有优点和缺点。一些……你知道,例如,我前面提到我们有一个 Apple Watch 应用程序。是的。我的意思是,没有 Flutter 可以做到这一点,对吧?所以你构建原生代码。然后,当然,你必须将这些东西同步在一起。我的意思是,我不是前端工程师,所以我只是在转述这些信息。但我们的前端工程师对此非常满意。它使我们能够非常快速地在两个平台上运行。当我与人们交谈时,他们听到我们正在使用 Flutter,通常他们会认为,啊,它性能不好。它超级垃圾,而且一切都很卡顿。然后他们使用它。他们使用我们的应用程序,他们总是非常惊讶。或者如果他们已经使用过我们的应用程序,我无法告诉他们。他们会说,什么?所以实际上有很多事情你可以用它做。危险,担忧,有一些担忧,对吧?第一,它是谷歌,所以他们什么时候会放弃它?第二,你知道,他们首先针对 Android 进行优化。所以 iOS 就像事后才考虑的。或者就像你可以感觉到它不是一个原生的 iOS 应用程序。但你们投入了很多精力。然后也许第三,从我的角度来看,作为一名 JavaScript 程序员,React Native 本应该实现这个梦想。我认为它并没有真正实现这个梦想。也许 Expo 正在尝试这样做,但同样,它并不像 Flutter 那样高效。我花了一周时间学习 Flutter 和 Dart。我投资了 Flutter Flow,这是一家本地 Flutter 初创公司,发展得非常好。我认为很多人仍然对 Flutter 持怀疑态度。所以你们要放弃 Flutter 吗?不,我们没有计划这样做。你只是在谈论手表应用程序。好的,让我们回到技术栈。你知道,这只是为了给你一个大致的概述。我认为更有趣的事情当然是在 AI 方面。所以我们……就像我前面提到的,当我们开始的时候,那是 ChatGPT 出现之前,在 GPT 3.5 Turbo API 出现之前。所以一开始,我们实际上是自己运行所有内容。开源模型,尝试微调它们。它们有效,结果不错,但说实话,它们不是。在 Whisper 之前是什么?转录?是的。我们当时使用的是 Wave to vec。以前有一个谷歌的,对吧?不,是 Facebook 的。那实际上是一篇论文。当那篇论文出现时,对我来说,这就是我决定尝试一些东西来在音频领域创办一家初创公司的原因之一。对我来说,这有点像……在那之前,我一直非常关注 NLP 领域。正如我前面提到的,我们也在我之前工作的初创公司做了一些事情。而且……Wave to vec 是我至少看到的第一篇论文,其中整个 Transformer 架构转移到了音频。更笼统地说,就像这是我第一次看到 Transformer 架构应用于连续数据而不是离散标记一样。好的。而且它效果惊人。而且像 Transformer 架构加上自监督学习一样,这两件事都转移过来了。然后对我来说,这就像,嘿,这现在将像文本领域一样开始流行起来。已经开始流行起来了。有了这两件事,即使我们想要构建的一些功能现在还无法实现,它们也将在短期内随着这种发展轨迹而实现。所以这是一个小的旁注。不,所以与此同时,是的,我们正在使用 Whisper。我们仍然自己托管一些模型。例如,整个转录说话人分段管道。你需要它尽可能便宜。是的,完全正确。我的意思是,我们正在大规模地进行这项工作。我们有很多音频……
<context>Snipd:一款用于学习的 AI 播客应用程序 我们正在与 Amplify 合作开展 2025 年 AI 工程现状调查,该调查将在旧金山的 AIE 世界博览会上发布!参与调查,共同塑造 AI 工程的未来!我们在一年前第一次接触到 Snipd,并立即被其设计所吸引,但对“剪辑”作为标题行为的实际效果表示怀疑:播客应用具有极强的粘性——Spotify 斥资近 10 亿美元收购播客和独家内容,仅仅是为了在普通用户中提高 8% 的市场份额。然而,在 Overcast 2.0 重写版令人失望且在过去三年中没有 AI 功能后,我最终还是决定改用 Snipd。现在是 2025 年了,你的播客应用程序应该能够让你搜索播客的文字记录。Snipd 是迄今为止最好的实现方案。然而,他们仍在不断发布新功能:令我们印象深刻的不仅仅是这个只有 4 个人的小团队能够在大型巨头的竞争中自主开发一款面向消费者的 AI 应用并取得如此好的成绩;还在于他们对通过播客学习以及随着时间的推移改进知识保留(也就是“播客版 Duolingo”)的认真思考。作为一个教育性 AI 播客,这是一个我们能够支持的使命。完整视频播客在 YouTube 上找到我们!这是我们第一次在户外拍摄播客!节目笔记* Shazam 的工作原理?* Flutter/FlutterFlow* wav2vec 论文* Perplexity 在线大型语言模型* 谷歌搜索接地* 将 Snipd 转录与我们的 Bee 集进行比较* NIPS 2017 Flo Rida* Gustav Söderström - 背景音频时间戳* [00:00:03] AI 工程师纽约会议的收获* [00:00:17] 纽约的天气* [00:00:26] Swyx 和 Snipd* [00:01:01] Kevin 的 AI 峰会体验* [00:01:31] 苏黎世和 AI* [00:03:25] SigLIP 作者加入 OpenAI* [00:03:39] 苏黎世生活成本很高* [00:04:06] Snipd 的起源故事* [00:05:24] 机器学习简介* [00:09:28] Snipd 和用户知识提取* [00:13:48] 应用的技术栈、Flutter、Python* [00:15:11] 如何识别说话者* [00:18:29] “可后台运行”视频的概念* [00:29:05] 语音克隆技术* [00:31:03] 使用 AI 代理* [00:34:32] Snipd 的未来是多模态 AI* [00:36:37] Snipd 和现有的用户行为* [00:42:10] 应用、总结和时间戳* [00:55:25] AI 和播客的未来* [1:14:55] 语音 AI文字记录swyx [00:00:03]:嘿,我在纽约,和 Snipd 的 Kevin Ben-Smith 在一起。欢迎。Kevin [00:00:07]:嗨,很高兴来到这里。swyx [00:00:09]:是的,我想这是我们第一次在户外录制播客。Kevin [00:00:14]:我不得不说,这是一个相当不错的第一次录制地点。swyx [00:00:18]:我实际上有点不确定,因为你知道,天气很冷。我查了一下温度,大概是一摄氏度,但在阳光下还不错。是的,相当不错。特别是我们美味的茶。是的,完美的。我们将讨论 Snipd。我是一个 Snipd 用户。我是一个 Snipd 用户。除了 Twitter 之外,它几乎是我手机上使用频率最高的应用程序。不错。当我早上醒来时,我会打开 Snipd,看看有什么新内容。我认为就手机上的使用时间或使用频率而言,它排名第一或第二。不错。不错。所以我真的需要谈谈它,因为我认为对 AI 感兴趣的人会思考,我们如何……我们是一个 AI 播客,我们必须谈谈 AI 播客应用程序。但在我们开始之前,我们刚刚结束……我们刚刚结束了 AI 工程师峰会,你参加了两天。感觉如何?Kevin [00:01:07]:非常棒。对我来说,最有价值的是与志同道合的人们待在同一个房间里,他们正在构建未来,并且正在见证未来。你知道,尤其是在 AI 代理方面,我经常与不在 AI 行业的朋友们进行交谈。这就像很快就会发生那样,听起来你像是在谈论科幻小说。这简直是疯狂的谈话。它,你知道,与这么多已经看到这些事情的人交谈是如此令人耳目一新,是的,然后从他们那里获得灵感,而不是总是感觉像,好吧,我认为我只是疯了。这永远不会发生。它真的正在发生。对我来说,这非常有价值。所以第二天,对你来说比第一天更相关。是的,第二天。所以第二天是工程主题。是的,这对我来说绝对是最有价值的。作为一名制作人。我自己也是从业者,特别是有一两场关于语音 AI 和带有语音的 AI 代理的演讲。好的。所以这非常吸引人。之后也与演讲者进行了交谈。是的,他们也非常开放,并且,你知道,这种分享的态度,我认为在 AI 社区中普遍存在。我也学到了很多东西,比如我现在可以带走的一些非常实用的东西。是的。swyx [00:02:25]:我的意思是,在我这边,我认为我只看了大约一半的演讲。因为我一直在四处奔波,我认为人们在最后看到我时,我有点崩溃了。我倒在地上,在最后,因为我需要休息一下,但是是的,我很高兴自己观看语音 AI 的演讲。Kevin [00:02:43]:是的,是的,这样做。我的意思是,在我看来,非常感谢你组织这次会议,将大家聚集在一起。你在瑞士有类似的活动吗?简短的答案是没有。我的意思是,我不得不说,AI 社区,尤其是在苏黎世,在那里……是的,我们在那里,我们在那里工作。是的,它非常好。并且正在发展,尤其是在 ETH(苏黎世联邦理工学院)的推动下,那里的技术大学和所有大公司,他们都在那里设有 AI 团队。谷歌,比如谷歌在苏黎世拥有美国境外最大的科技中心。是的,Facebook 在 Reality Labs 投入了很多。苹果有一个秘密的 AI 团队,OpenAI,然后 SwapBit 刚刚宣布他们将来到苏黎世。是的,所以有很多事情正在发生。是的。swyx [00:03:23]:所以,是的,我认为最近最值得注意的举动是,我认为来自谷歌的整个视觉团队……Lucas Beyer……以及 Siglip 的其他所有作者都离开了谷歌,加入了 OpenAI,我认为这就像……这是一个整个团队同时集体搬家的重大举动。所以我去了苏黎世,感觉那里很贵。那是一个很棒的城市。是的,大学很棒,但我没有把它看作是一个商业中心。它是一个商业中心吗?我想是的。Kevin [00:03:51]:它有点像……从历史上看,它是一个金融中心,金融中心。是的,那里有一些大型银行,对吧?尤其是瑞银集团,世界上最大的财富管理公司,但它现在正逐渐成为一个科技中心,所有大型科技公司都在那里。swyx [00:04:08]:我想是的。是的,在研究方面,都是 ETH。还有一些其他的事情。是的,是的,是的。Kevin [00:04:13]:都是 ETH 推动的。然后是它的姐妹大学 EPFL,位于洛桑。好的。他们也在做很多事情,但是,它,它,它真的是 ETH。否则,不,我的意思是,它是一个美丽的,非常美丽的城市。我可以推荐给任何人。来参观苏黎世,我很乐意带你四处看看,当然,你知道,你,你离大自然很近,你离山很近,你有很多美丽的湖泊。是的,我认为这就是使它成为一个宜居城市的原因。是的。swyx [00:04:42]:嗯,而且成本并不……并不便宜,但我的意思是,我们现在在纽约市,而且……我不知道,我今天早上喝了一杯 8 美元的咖啡,所以……苏黎世的咖啡比纽约市便宜。好的,好的。让我们谈谈 Snipd。什么是 Snipd,你知道,然后我们将谈谈你的起源故事,但我只是……让我们,让我们简要地介绍一下,什么是 Snipd?是的。Kevin [00:05:03]:我总是看到 Snipd 的两种定义,所以我将给你一个非常简单直接的定义,然后是一个更细致的定义,我认为这对于我们接下来的谈话非常有价值。最简单的说法是,我们是一个 AI 驱动的播客应用程序。所以如果你听播客,我们现在正在提供这种 AI 增强的体验。但是如果你从更细致的角度来看待播客……角度来看,实际上,我们非常关注像你的听众一样喜欢听播客来学习新知识的人。像你的听众一样,他们想了解 AI,了解正在发生的事情,了解最新的研究,了解正在发生的事情。我们希望提供一个口语音频平台,让你能够最有效地做到这一点。而 AI 正是我们实现这一目标的方式。是的。swyx [00:05:53]:手段是目的。是的,完全正确。你开始的时候,它一直都是 AI 吗?还是它更侧重于社交分享?Kevin [00:05:59]:我们发布的第一个版本是在大约三年半前。好的。是的,所以这是在 ChatGPT 之前。在 Whisper 之前。是的,在 Whisper 之前。是的,所以我们现在在应用程序中拥有的许多功能,当时实际上还无法实现。但从一开始,我们就一直关注知识。这就是为什么,你知道,在我们团队中,我们为什么听播客,但我们确实采取了略微不同的方法。最初的想法是,所以这个名字是 Snipd,你可以创建这些我们称之为 Snipd 的东西,它基本上是从播客中剪辑出来的一小段片段。我们确实设想了一种类似于 TikTok 的社交平台,有些人会收听完整的剧集,他们会剪辑其中某些最好的部分。然后他们会将其发布到信息流中,其他用户会消费这个 Snipd 信息流。并将其用作发现工具或仅仅是一种手段。是的,所以你会有创建 Snipd 的人和收听 Snipd 的人。所以我们最初的假设是,让人们收听这些 Snipd 会很容易,但让他们实际创建 Snipd 却非常困难。因此,我们投入了大量精力,尽可能地让创建 Snipd 变得尽可能流畅和容易。是的。swyx [00:07:17]:它类似于 TikTok。你需要 CapCut 才能在 TikTok 上有视频。完全正确。Kevin [00:07:23]:对于 Snipd,基本上每当你听到一个惊人的见解,一个伟大的时刻,你只需轻按三次耳机。我们的 AI 实际上会保存你刚刚收听的时刻,并对其进行总结以创建一个笔记。这基本上就是一个 Snipd。所以是的,我们构建了,我们构建了所有这些,并将其发布。我们发现的实际上是完全相反的情况。我们看到人们使用 Snipd 来发现播客,但他们真的……你知道,他们并不……你知道,他们真的不喜欢收听长篇播客,但他们却疯狂地创建 Snipd。这绝对是那些顿悟时刻之一,当时我们意识到,嘿,我们应该真正加倍关注知识学习,是的,帮助你更有效地学习,并帮助你捕捉你收听的知识,并真正利用它。因为总的来说,你知道,我们生活在一个内容过剩的世界里,我们不断地消费,消费,消费。所以很容易在播客结束时,你只是开始收听下一个播客。五分钟后,你已经忘记了你实际上刚刚学习的内容的 90%、99%。是的。swyx [00:08:31]:你不知道这一点,大多数人也不知道这一点,但这是我的第四个播客。我的第三个播客是一个个人混音带播客,我手动剪辑了我喜欢的播客部分,并在其顶部添加了我自己的评论,然后将其发布为小型剧集。不错。所以这些可能是 5 到 10 分钟的 Snipd。是的,然后我添加了一些我认为是好故事或好见解的东西。然后我添加了我自己的评论,并将其发布为一个单独的播客。这很酷。它还在运行吗?它还在运行,但没有活跃,但你可以回去找到它。如果你足够好奇,你会看到它。不错。是的,你以后要给我看看。这是如此手动,因为基本上我的流程是,我听到一些有趣的东西。我记下时间戳,并记下播客的 URL。我过去使用 Overcast。所以它只会链接到 Overcast 页面。然后……放在我的笔记应用程序中,回家。每当我想要发布时,我会选择其中一个,然后下载 MP3,剪辑 MP3,录制我的开头和结尾,然后将其发布为播客。但是现在 Snipd,我的意思是,我可以直接双击或三击。Kevin [00:09:39]:我的意思是,这些故事与我们从用户那里听到的故事非常相似。你知道,你正在做的事情很正常,你在收听播客时正在做其他事情。是的,我们的许多用户,他们在开车,他们在锻炼,在遛狗。所以在那些你听到一些令人惊叹的事情的时刻,很难将它们写下来,或者,你知道,你必须拿出你的手机。有些人会截屏,记下时间戳,然后稍后你必须回去再次尝试找到它。当然你再也找不到它了,因为没有搜索。没有命令 F。而且,这些都是我们自己作为用户也遇到的问题。鉴于我们的背景是 AI,我们意识到,等等,嘿,情况不应该这样。像今天的播客应用程序一样,它们基本上是重新利用的音乐播放器,但我们实际上将播客视为世界上最大的知识来源之一。一旦你从不同的角度看待它,再加上 AI 现在正在实现的一切,你就会意识到,嘿,这不是播客应用程序应该有的样子。是的。swyx [00:10:41]:是的,我同意。你提到你说的你的背景是 AI。首先,团队是谁?你的意思是你的背景是 AI 吗?Kevin [00:10:48]:这是两件非常不同的事情。我要问一些问题。是的,也许从我的背景故事开始。是的,我的背景故事实际上可以追溯到大约 12 年前或类似的时间。我搬到苏黎世,在 ETH 学习,实际上我学习的是完全不同的东西。我学习的是数学和经济学,基本上是量化金融专业。一样。哇,好吧。所以是的。然后,正如你所知,所有这些用于资产定价、衍生品定价、量化交易的数学模型。对我来说,最吸引我的事情是其背后的数学建模。数学、统计学,但我对金融方面的事情从来都不是那么热情。swyx [00:11:32]:哦,真的吗?哦,好的。是的,我们在这一点上有所不同。Kevin [00:11:36]:我的意思是,我注意到现在的一种症状,比如回顾当时。是的,我认为我从未在业余时间阅读过关于这个主题的学术论文。然后是在我的学习快结束的时候,我已经在一家大银行工作了。我最好的朋友之一找到我说,嘿,我刚刚参加了这个课程。你必须,你必须这样做。你必须参加这个讲座。好的。我说,什么,什么,什么?它是关于什么的?它叫做机器学习,我说,什么,什么,什么?这是什么样的愚蠢的名字?他给我发来了幻灯片,在周末我浏览了所有幻灯片,我只是……我只是知道,该死的。这就是它。我爱上了它。哇,是的,好的。然后在接下来的,我认为大约 12 个月的时间里,我真正地投入其中。开始阅读所有相关内容,比如阅读博客文章,开始构建我自己的模型。swyx [00:12:26]:这个课程是某个名人、著名大学开的吗?是 Andrew Ng 的 Coursera 课程吗?不。Kevin [00:12:31]:所以这是 ETH 的课程。所以是 ETH 的一位教授。他用英语授课吗?是的。好的。swyx [00:12:37]:所以这些幻灯片在某个地方可以找到。是的,当然。我的意思是,现在它们已经过时了。是的,当然。好吧,我认为,你知道,回顾一下金融方面的事情。所以我,我曾经是一名交易员,卖方和买方。我首先是期权交易员,然后我更像是一位量化对冲基金分析师。我们从未真正使用过机器学习。它更像是一些统计建模,但实际上就像你一样,你拟合……你知道,你的回归。Kevin [00:13:03]:不,我的意思是,这就是它。或者你,你求解偏微分方程,然后使用数值方法来求解这些方程。对你来说,这是你的学位。而这并不是你在工作中真正做的。对,除非……好吧,我不知道你在工作中做什么。在我的工作中。不,不,我们没有求解偏微分方程。是的。swyx [00:13:18]:你在学校学习所有这些,然后你不用它。Kevin [00:13:20]:我的意思是,我们,我们,让我们这么说吧。在某些方面,是的,我的意思是,我确实编写了执行此操作的算法,但这基本上就像……它是最基本的算法,然后你只是稍微改进它们一点。就像你在那里和那里稍微调整一下。是的,它不像从头开始一样,哦,这是一个新的偏微分方程。我们怎么知道?swyx [00:13:43]:是的,是的,我的意思是,这就是现实生活,对吧?大多数情况下,它有点无聊,或者你正在使用已有的东西,因为它们之所以被建立起来,是因为……它们解决了最重要的问题。嗯,是的。投资组合管理对我来说更有趣。嗯,我们,我们是第一个将社交数据与量化交易相结合的人。我认为……我认为现在这很常见,但是……无论如何,然后你,你深入研究了机器学习,然后呢?你辞去了你的工作?是的,是的,哇。Kevin [00:14:12]:我辞去了我的工作,因为……我的意思是,我也在银行开始使用它。比如尝试……你知道,我拼命地试图找到任何借口来在这里或那里使用它,但这对我来说很清楚,不,如果我想这样做……我必须做出真正的改变。所以我辞去了我的工作,加入了一家位于苏黎世的早期科技初创公司,在那里建立了 AI 团队五年。哇,是的。所以是的,我们为银行构建了各种机器学习……东西,从……为销售团队构建的模型,以识别哪些客户喜欢销售哪些产品以及原因,一直到……我们做了很多很多银行交易方面的工作。对我来说,实际上最有趣的项目之一是,我们有一个 NLP 模型,它可以获取交易的预订文本,比如信用卡交易,并进行精细化处理。是的,因为它包含所有这些……你知道,比如数字和缩写等等。有时你看着它就像,这是什么?它只是……你知道,它会将其更改为……我不知道,CVS。是的。swyx [00:15:15]:是的,但是你的模型会出现幻觉吗?Kevin [00:15:17]:不,不,不。一切的设置方式并非如此,它还不是像你今天使用的完全端到端的生成神经网络。好的。swyx [00:15:30]:太棒了。然后你什么时候开始全职从事 Snipd 的工作?是的。Kevin [00:15:33]:所以基本上那是……那是之后的事情。我的意思是,事情的开始是这样的,我的一个朋友让我对机器学习产生了兴趣……他和我在……他让我对初创公司也产生了兴趣。他对我的生活影响很大。我们俩偶尔会一起讨论初创公司的想法。他的背景也在 AI 数据科学方面。我们有一些想法,但鉴于我们当时都在全职工作,我们正在考虑……所以我们参加了 Hack Zurich。这是……欧洲最大的黑客马拉松……或者至少当时是。我们说,嘿,这只是一个周末。让我们尝试一个想法,一起黑客攻击一些东西,看看效果如何。这个想法是我们能够搜索播客剧集,比如在播客内。是的。所以我们做了。长话短说,我们设法做到这一点,构建了一些东西,我们意识到,嘿,这实际上有效。你可以在播客中再次找到东西。我们有一个自然语言搜索,我们在舞台上进行了演示。我们实际上赢得了黑客马拉松,这很酷。我的意思是,我们,我们也……我认为我们有一个很好的……一个很好的,好的演示或一个好的例子。所以我们在舞台上,然后我们搜索了像吸大麻这样的词,它会找到那个确切的时刻。它会播放它。它就像……和埃隆·马斯克一起,只是吸烟。哦,所以它也是视频吗?不,它实际上完全基于音频。但我们在演示中使用了视频。是的,这当然产生了惊人的效果。是的,这给了我们很多启动能量,但这实际上与赢得黑客马拉松无关。是的。但发生了一件有趣的事情,在我们舞台上演示之后,其他几位参与者,比如很多人走到我们面前,开始说,嘿,我可以使用这个吗?比如我遇到了这个问题。有些人还向我们讲述了他们在播客中遇到的其他问题,比如非常接近这个的问题。在哪里……像这样……我也可以将它用于那个吗?这基本上是我意识到,嘿,实际上不仅仅是我们自己遇到了这些关于播客的问题,以及如何充分利用这些知识。是的,其他人。是的,那是大约四年前或类似的时间。然后,是的,我们决定辞去工作,开始,开始这个 Snipd 的事情。是的。团队现在有多少人?我们只有四个人。是的,只有四个人。是的,我们都是技术人员。是的,基本上两个人负责后端。所以我的一个联合创始人就是那个让我对机器学习和初创公司感兴趣的人。我们一起赢得了黑客马拉松。所以我们有两个后端人员负责 AI 和所有其他后端工作。还有两个人负责前端,构建应用程序。swyx [00:18:18]:这主要是 Android 和 iOS。是的。Kevin [00:18:21]:是 iOS 和 Android。我们还有一个 Apple Watch 应用,但是是的,它主要是 iOS。是的。swyx [00:18:27]:手表方面,这很有趣,因为在 Latent Space 的 Discord 中,我们大多数人都逐渐开始使用 Snipd。大约一年前你向我介绍了 Snipd。我说,我不知道。你知道,我对 Overcast 非常忠诚,然后我们慢慢地切换了。为什么是手表?Kevin [00:18:43]:所以这可以追溯到我们的许多用户,他们在收听播客时都在做其他事情,对吧?是的。而我们赋予他们能够捕捉这些知识的能力,即使他们同时在做其他事情,这也是杀手级功能之一。是的,也许我实际上可以……也许在某些时候我应该对我们拥有的所有功能做一个更全面的概述。当然。所以这是杀手级功能之一,对于人们使用它的一个主要用例是跑步。是的。所以如果你是一个跑步爱好者,一个慢跑爱好者或骑自行车的人,比如真正有竞争力地骑自行车,很多人不想在跑步时随身携带手机。所以你将所有内容加载到手表上。所以你可以下载剧集。我的意思是,如果你有一个具有互联网访问权限的 Apple Watch,比如带有 SIM 卡,你也可以直接流式传输。这也是可能的。所以当然它基本上非常有限,只能收听和剪辑。然后你可以在你的手机上看到你所有的 Snipd。让我告诉你我刚刚遇到的错误。swyx [00:19:47]:播放剧集时出错。Substack,这个播客的主机,不允许在这个播客在 Apple Watch 上播放。是的。Kevin [00:19:52]:这是一件非常漂亮的事情。我们发现,所有托管在 Substack 上的播客都无法在 Apple Watch 上播放。为什么会有这种限制?什么?别问我。我们试图联系 Substack。我们试图联系一些将播客托管在 Substack 上的知名播客,让他们知道。Substack 似乎并不关心。这并非我们应用程序特有的问题。你也可以查看 Apple Podcast 应用程序。是的,问题一样。只是我们已经识别出了它。我们会告诉用户发生了什么。swyx [00:20:25]:我会说我们将我们的播客托管在 Substack 上,但他们对他们的播客工具并不认真。我以前告诉过他们,我已经非常坦率地告诉过他们。所以我并不觉得我在以任何方式贬低他们。这有点令人难过,因为否则它是一个完美的创意平台。但他们将播客视为一种事后想法的方式,我认为这非常令人失望。Kevin [00:20:45]:也许鉴于你提到了所有这些功能,也许我可以对我们拥有的功能做一个更好的概述。让我们这样做。让我们这样做。所以我想我们主要是在我们的脑海中……也许对于一些听众来说。swyx [00:20:55]:我的意思是,我会告诉你我的版本。是的,他们可以纠正我,对吧?首先,我认为主要工作是将其作为一个播客收听应用程序。它应该基本上是你通常在 Overcast 或 Apple Podcasts 或任何其他应用程序上获得内容的完整超集。你从 ListenNotes 中提取你的节目列表。你如何找到节目?你必须输入任何内容,然后你就能找到它们,对吧?Kevin [00:21:18]:是的,我们有一个由 ListenNotes 提供支持的搜索引擎。是的,但与此同时,我们自己拥有一个庞大的数据库,其中包含 99% 的所有播客。是的。swyx [00:21:27]:我注意到,默认体验是你不会自动下载节目。这对你与其他应用程序相比是一个非常大的区别,比如,你知道,如果我订阅了某个节目,它会自动下载,我一夜之间就已经下载了 MP3。对我来说,我必须主动将其添加到我的队列中,然后它才会自动下载。实际上,我最初不喜欢这一点。我想我可能告诉过你,我说,哦,这是一个我不喜欢的功能。因为它意味着我必须选择收听它才能下载,而不是……它是选择加入的。选择加入和选择退出之间存在差异。所以我选择加入我收听的每一集。然后,比如,你打开它,这取决于你是否启用了 AI 功能。但默认体验是没有启用 AI 功能。你可以收听它。你可以看到 Snipd,Snipd 的数量以及人们在剧集期间 Snipd 的位置,这大致与兴趣水平相关。显然,你可以在那里 Snipd。我认为这是默认体验。我认为 Snipd 真的很酷。比如,我用它在 Discord 上分享了很多东西。我认为我们有大量的……只是人们分享 Snipd 和其他东西。在 Twitter 上发布内容也是一种令人愉悦的体验。但是真正的功能只有在你实际启用 AI 功能时才会出现。所以我之所以使用 Snipd,是因为我厌倦了 Overcast 完全没有实现任何 AI 功能。相反,他们花了两年时间重写他们的应用程序,使其速度更快一点。我说,这是 2025 年。我应该有一个具有我可以搜索的文字记录的播客。非常,非常基本的事情。Overcast 基本上永远不会拥有它。Kevin [00:22:49]:是的,我认为这是一个很好的……基本的概述。也许我可以补充一下我们拥有的 AI 功能。所以我们做的一件事是,每当新的播客发布时,我们都会转录剧集。我们进行说话人分段。我们识别说话人的姓名。每位嘉宾,我们都会提取嘉宾的简短介绍,尝试在线找到嘉宾的照片,添加它。我们将播客分解成章节,即 AI 生成的章节。那个。那个非常方便。每个标题都有一个简短的描述,每个章节都有一个简短的描述。我们识别所有在播客中提到的书籍。你可以看出我不使用那个功能。这取决于播客。有些播客嘉宾经常推荐很棒的书。所以稍后你可以再次找到它。swyx [00:23:42]:所以你实际上是搜索“书”这个词,还是我刚刚读到……等等。Kevin [00:23:46]:不,我的意思是,它都是基于大型语言模型的。是的。所以基本上,我们有一个大型语言模型,它会浏览整个文字记录,并识别用户是否提到了书,然后我们使用 Perplexity API 以及其他各种大型语言模型编排来访问互联网,找到关于这本书的所有信息,找到封面,找到作者是谁或是什么,获取作者的简短描述。然后我们检查作者还出现在哪些其他剧集中。swyx [00:24:15]:是的,这太棒了。Kevin [00:24:17]:因为对我来说,如果……如果有本有趣的书,我做的第一件事就是实际上收听一个有作家参与的播客剧集,因为他通常会在播客中给出非常好的概述。swyx [00:24:28]:有时播客是与嘉宾一起的。有时他的播客是关于这个人,而没有他本人。你们会同时捕捉到吗?Kevin [00:24:37]:是的,我们在最新的模型中同时捕捉到。但实际上我们在应用程序中向你展示的内容,目标是目前只向你展示嘉宾,以将其分开。将来,我们希望更多地展示其他内容。swyx [00:24:47]:就其价值而言,我不介意。是的,我不认为……如果我喜欢某人,无论他们是否在那里,我都会了解他们。Kevin [00:24:55]:是的,我的意思是,是也不是。我们,我们已经看到,有些个性可能会崩溃。例如,我们发布此功能的第一个版本,它更频繁地挑选一个人,即使他不是嘉宾。是的。例如,对我来说最好的例子是 Sam Altman 和埃隆·马斯克。他们几乎在每个第二个播客中都被提及,而他们并不在那里。如果你对此感兴趣,你可以去了解埃隆·马斯克。实际上是从他们那里学习。是的,我明白了。是的,我们更新了我们的算法,对其进行了很大的改进。现在它在只挑选他们是嘉宾的情况下已经好多了。是的,所以这也许可以回到功能上来,还有两个更重要的功能,比如我们有与剧集聊天的能力。是的。当然,你可以使用旧式的方法通过关键字搜索来搜索文字记录。但我认为对我来说,这就是你过去如何进行搜索和提取知识的方式。老式方法。而 AI 的方式……方式基本上是一个大型语言模型。所以你可以询问大型语言模型,嘿,他们什么时候谈论主题 X?如果你只对剧集的某个特定部分感兴趣,你可以要求它提供剧集的简短概述。之后的主要收获也为你创建一个笔记。所以这实际上非常……开放式。是的。然后最后是前面提到的 Snipd 功能。是的。我的意思是,这里的功能是,每当你听到一个惊人的想法时,你可以轻按三次耳机或点击应用程序中的按钮,AI 会总结你刚刚听到的见解,并将其与原始文字记录和音频一起保存在你的知识库中。我还注意到你跳过了动态内容。所以动态内容,我们不会自动跳过它。哦,对不起。你们会检测到。但我们会检测到。是的,我的意思是,这是大多数人实际上不知道的事情之一,比如广告如何插入播客或大多数播客中,实际上是每次你收听播客时,你实际上都会访问不同的音频文件,并且在服务器上,不同的广告会自动插入到 MP3 文件中。是的,基于 IP。这正是这意味着什么,如果我们转录剧集并拥有带有时间戳的文字记录,比如单词,特定于单词的时间戳,如果你突然获得不同的音频文件,比如整个时间都说我搞砸了,这是一个巨大的问题。为此,我们实际上必须构建另一个算法,该算法可以在现场动态地……重新同步你正在收听的音频和我们拥有的文字记录。是的,这本身就是一个令人着迷的问题。swyx [00:27:24]:你们是通过匹配声波来同步的吗?还是你们是通过匹配单词来同步的吗?比如你们基本上是进行部分转录?Kevin [00:27:33]:我们没有匹配单词。它发生在基本上是字节级别的匹配。是的。好的。swyx [00:27:40]:它依赖于这一点。它依赖于在某些时候的精确匹配。Kevin [00:27:46]:所以它实际上是……我们实际上没有进行精确匹配,但我们正在进行模糊匹配以识别时刻。它基本上是……我们基本上为播客构建了 Shazam。只是一个小的副项目来解决这个问题。swyx [00:28:02]:实际上,有趣的事实是,显然 Shazam 算法是公开的。他们发表了论文,对此进行了讨论。我还没有真正深入研究这篇论文。我认为很有趣的是,基本上没有人构建过 Shazam。Kevin [00:28:16]:是的,我的意思是,一方面是算法。如果你现在谈论 Shazam,另一方面是拥有其背后的数据库以及拥有用户心态,如果他们有这个问题,他们会来找你,对吧?swyx [00:28:29]:是的,我对技术栈非常感兴趣。这是一个大型数据管道。你能分享一下技术栈吗?Kevin [00:28:35]:哪些是最有趣或最具挑战性的部分?所以一般的技术栈是我们的整个后端是……90% 的后端是用 Python 编写的。好的。在 Google Cloud Platform 上托管所有内容。我们的前端是用……好吧,我们使用 Flutter 框架。所以它是用 Dart 编写的,然后编译成原生代码。所以我们有一个代码库可以同时处理 Android 和 iOS。你认为这是一个好的决定吗?这是很多人正在探索的事情。到目前为止,是的。好的,它有其优点和缺点。例如,前面我提到我们有一个 Apple Watch 应用程序。是的。我的意思是,没有 Flutter 可以用于它,对吧?所以你构建原生代码。然后当然你必须将这些东西同步在一起。我的意思是,我不是前端工程师,所以我只是在转述这些信息,但我们的前端工程师对此非常满意。它使我们能够相当快地在两个平台上从一开始就存在。当我与人们交谈时,他们听到我们正在使用 Flutter,通常他们会认为,啊,它性能不高。它超级垃圾,卡顿,等等。然后他们使用它。他们使用我们的应用程序,他们总是非常惊讶。或者如果他们已经使用过我们的应用程序,我无法告诉他们。他们会说,什么?是的。所以实际上你可以用它做很多事情。swyx [00:29:51]:危险,担忧,有一些担忧,对吧?第一,它是谷歌的。所以他们什么时候会放弃它?第二,你知道,他们首先针对 Android 进行优化。所以 iOS 就像一个次要的……事后想法,或者你可以感觉到它不是一个原生的 iOS 应用程序。嗯,你们在这方面投入了很多精力。然后也许第三,从我的角度来看,作为一名 JavaScript 程序员,React Native 本应该在那里。我认为它并没有真正实现这个梦想。嗯,也许 Expo 正在尝试这样做,但是,同样,它并没有……感觉不像 Flutter 那样高效。我花了一周时间学习 Flutter 和 Dart,并且我是 FlutterFlow 的投资者,这是一家本地……Flutter,Flutter 初创公司。发展得非常好。我认为很多人仍然对 Flutter 持怀疑态度。是的,等等。所以你们要放弃 Flutter 吗?Kevin [00:30:41]:我不知道。我们没有这样的计划。是的。swyx [00:30:43]:你只是在谈论那个。什么?是的,小心。好的,让我们回到技术栈。Kevin [00:30:47]:你知道,这只是为了给你一个大致的概述。我认为更有趣的事情当然是在 AI 方面。所以我们,就像我前面提到的那样,当我们开始的时候,是在 ChatGPT 之前,在 ChatGPT 时刻之前,在 GPT 3.5 turbo API 之前。所以一开始,我们实际上是自己运行所有内容,开源模型,尝试微调它们。它们有效。有我们,但是让我们说实话。它们不是……是什么样的?在 Whisper 之前,转录。是的,我们当时使用的是 wave2vec,比如……有一个谷歌的,对吧?不,它是 Facebook 的,Facebook 的。那实际上是一篇论文。对我来说,当那篇论文出现时,这是我说的原因之一,我们应该尝试一些东西来开始在音频领域创业。对我来说,这有点像在那之前我一直在非常密切地关注 NLP 领域。正如我前面提到的那样,我们,我们在创业公司也做
短视频仍然不太好。我仍然需要手动下载然后重新发布到YouTube。短视频我仍然需要挑选,它们大多很糟糕。仍然有很多粗糙的边缘,理想情况下,作为创作者,你知道我想要什么。你肯定知道我想要什么。我坐下来,录制,按下按钮,就完成了。
我们还没到那一步。我认为你们可以做到。好的。如果我可以为你翻译一下,这实际上是关于简化播客创作过程的。我会告诉你什么,这将提高质量
因为大多数播客或YouTube视频很烂的原因是,它们是由那些没有生活经验、在世界上并不重要的人制作的。他们没有从事重要的工作。因此,你实际上想要实现的是让首席执行官们都能制作他们自己的播客,他们很忙。他们不会坐在那里弄清楚Riverside。
很多人喜欢Lanespace的原因是,它需要像我这样的傻瓜,我本可以过上更好的生活,赚更多的钱,在其他地方有一份真正的工作。我只是选择这样做,因为我喜欢它。否则,他们将永远无法接触到我以及我能接触到的人。
这就是我的宣传。酷。还有什么你通常想和播客创作者谈谈的吗?我认为我们已经涵盖了一切。我想最后的消息是,你知道,去试试Snips。这是一个免费增值版本,所以你可以免费使用和试用所有功能。
也很乐意为你提供一个链接,你可以添加到节目说明中。如果人们想这样做,可以免费试用高级版本一个月。是的,试试看。我会说,是的,感谢你的到来。我会说,在你向我演示之后,我没有转换另外四到六个月,因为我发现转换非常具有挑战性。
我认为这是主要问题。你基本上有导入OPML,对吧?但是没有办法导入所有现有的半听过的剧集或我的排名等等。为此,对于那些……我有篇博客文章谈到了我的转换。把它当作一次清理的机会。
这是一个很好的观点,是的。你需要一些东西,你知道,只是在这里重新关注?首先开始,2025年,首先开始。是的,太棒了。感谢你参与Snip的工作。感谢你的到来。你知道,我们通常会花很多时间与大型公司、风险投资初创公司、B2B SaaS等进行交谈,你知道,这类事情。但我认为你们的旅程就像,你知道,这是一个小型团队在构建一个B2C消费者应用程序,这是我们也喜欢展示的那种东西,因为很多人想要构建你们正在做的事情。
他们没有看到成功的、自信的、在这个非常具有挑战性的市场中取得成功的榜样。所以,是的,感谢你分享你的想法。谢谢。是的。谢谢你的邀请。也感谢你创建了一个很棒的播客和一个很棒的会议。谢谢。谢谢。