We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
A
Alessio
R
Raiza Martin
S
Swyx
U
Usama Bin Shafqat
Topics
Raiza Martin:NotebookLM 的成功出乎意料,最重要的是聆听用户反馈并快速迭代。团队与 DeepMind 紧密合作,注重用户体验,并通过 Discord 社区收集实时反馈。产品设计注重简洁性,避免过多的自定义选项,并通过观察 Steven Johnson 等用户的实际使用方式来改进产品。未来计划支持更多语言和方言,并考虑提供 API 接口。 Usama Bin Shafqat:NotebookLM 的音频模型模拟人类对话,通过设置不同的 AI 角色来增加对话的趣味性和张力,并逐步展开信息。团队内部进行了大量的试听和反馈收集,并最终形成了正式的评估流程。幽默感是 AI 的一大挑战,NotebookLM 通过其他方式间接地激发幽默感。 Swyx:NotebookLM 的成功在于其独特的 AI 使用方式,它将 AI 视为虚拟人物,并赋予其独立的观点和表达方式,而非仅仅是工具。 Alessio:NotebookLM 的成功在于其个性化和娱乐性,它可以生成用户感兴趣的内容,并以音频的形式呈现。 Steven Johnson:作为 NotebookLM 的用户,他强调了该产品在帮助人们思考和分析信息方面的作用。

Deep Dive

Chapters
NotebookLM started as Project Tailwind, a tool designed for adult learners to interact with textbooks using LLMs. It evolved through user feedback gathered from platforms like AI Test Kitchen and Discord, expanding to support multiple documents, languages, and eventually incorporating audio overviews.
  • Project Tailwind launched at Google I/O 2023
  • NotebookLM emerged from user feedback and a desire to create practical applications for LLMs
  • Initial focus on Q&A and summarization
  • Expanded support for multiple documents, various languages, and audio overviews
  • Discord community played a key role in feature development and feedback

Shownotes Transcript

我相信你们会收到很多相互冲突的意见。在我们继续之前,我想问一下,因为我们正好在讨论这个话题,你们是如何让音频变得引人入胜的?这不仅对深度探讨有用,对我们作为播客主持人也很重要。什么是引人入胜的?如果你能为我们分解一下,那就太好了。

我可以尝试一下,虽然我并不敢称自己是专家。

所以我会给你一些建议,比如语调和速度的变化。你知道,这是一种写作建议,比如这句话有五个单词,而那句话有三个单词。这种建议就是要让你在写作中加入兴奋感和笑声等等,但除此之外,你还可以如何分解呢?

基本的结构显然不能游离不定。需要有一个最终目标,声音要朝着这个目标前进,无论是人类的还是人工的。我发现一个常见的问题是,如果两个人之间总是意见一致,那就不太好听。因此,需要有某种紧张感和悬念,比如保留一些信息,听故事时,你会逐渐了解更多。

音频的吸引力可能更为重要,因为你实际上没有能力像翻阅书籍那样快速浏览内容。你可能在开车,或者在其他地方,这样你就会被吸引,因为有悬念。这也是很多播客的工作方式,虽然不一定是访谈,但很多真实犯罪和娱乐类节目都是通过逐步展开信息来吸引听众的。这也回到了内容转化的主题,比如你可能是从维基百科的某个历史故事开始的,维基百科的内容通常会在第一段就直接给出信息。

我们本可以选择一种方式,比如让某个人直接叙述这个故事,这可能对某些观众有效。我想这就是我对标准历史课程的想象。但因为我们试图将其放入这种双人对话的格式中,我们注入了不同的观点,而不是一开始就给出所有信息。

也许你会抓住一个主题,深入探讨,然后再试图将自己带回主线。这主要是从脚本的设置角度来看。至于音频,我之前提到过,它试图尽可能接近人类的语言,这是我们迄今为止发现的成功之处。

是的,音频中有插入语。当你听两个人交谈时,会有很多“是的,是的,对吧?”以及很多质疑的声音,比如“哦,真的吗?”

你觉得怎么样?我注意到了这一点,这太棒了。

完全正确,确实如此。

我的问题是,你们是否请了语音专家来做这些,还是你们自己想出来的?你们可以说,好的,和一群小说作家谈谈,看看如何让内容更引人入胜。或者是喜剧作家,或者其他任何需要让内容引人入胜的领域。

是的,但音频是什么呢?确实有专业领域在研究这个,而我们作为AI工程师只是随意摸索。

这是个好主意,但你们显然没有这样做。

是的,我的猜测是,你们没有。确实,有些人会认为,制作引人入胜的音频需要有语言学专家在场,但实际上并非如此,因为这个人曾在语言学领域学习,而现在是工程师。他说,他的许多同学并不擅长语言,他们知道如何分析语言以及语言中的数学模式和节奏,但这并不意味着他们在口语或写作上会很流利。

所以,我认为我们还没有在音频格式上投资专家,但也许将来会。

这真是太有趣了。我认为有一个非常人性化的问题,那就是:什么使某件事变得有趣?还有一个更深层次的问题是:我们都在寻找什么样的质量?是需要有人搞笑吗?

有些东西必须是娱乐性的,有些东西必须直截了当。我认为,当你试图提炼这些时,这就是我们在这个实验中学到的有趣之处。我们只推出了一种格式,因此我们必须将我们对有趣事物的所有信念浓缩到一个包裹中。

因此,我认为我们了解到,与聊天机器人互动在最初是新奇的,但并不有趣。人类才是让与聊天机器人互动变得有趣的原因。

我会尝试一下,像是“有趣”这个词的拼写。人们与之互动的乐趣在于,你可以给它添加自己的风格。

但这意味着要翻转这个概念,告诉它:“现在你来有趣。”你给聊天机器人机会去做这件事,而这并不是聊天机器人本身。它只是音频,而是那种质感,我认为这真的让它活了过来。

正如我们在这里描述的那样,我现在必须引导你走向有关商业化的路径,我该如何做到这一点?我确实认为你需要专家。我认为我们会在未来与专家合作,但我认为这必须是在我们正在构建的下一个项目的背景下。

我想我在这里想要改变什么?我根本相信需要改进的是什么?我认为我们仍然需要进行更多的研究,以了解人们实际上在使用这个工具做什么。我们现在仍处于早期阶段,甚至还不到一个月。

是的,我认为另一个要素是,你带来的都是你自己的资料。你对这些资料有一定的了解,或者你关心这些资料。因此,我认为这也改变了整个局面。你关心的是这些资料的动态,但你只希望它足够好,能够引人入胜,因为最终他们谈论的是你的抵押贷款契约或其他任何事情。

从主题本身来看,这很有趣,甚至不考虑协议和缓慢揭示的信息。

我认为这是一个大问题。也许如果我画出一个图,如果有人在朗读它,那就是绝对的糟糕。

但你们是否会为幽默而提示?这是个难题,对吧?

我认为这更像是一种引导方式,尽可能地引出幽默。我认为幽默实际上是最难的事情之一。

但我不知道这是否是人类的。

是的,但你看到那个鸡的例子了吗?好的。

如果你还没有看到。

在Threads上有一个视频,我认为这是马尔科·王的作品。

欢迎来到今天的深度探讨。哦,是的,准备好迎接有趣的内容,因为我们要深入探讨鸡,鸡,鸡,鸡,鸡。

你没听错,来自道格·宗克。

是的,你听到这个标题是正确的。

今天的听众,你们将需要我们的帮助。

我完全可以理解为什么。绝对是密集的,令人困惑,充满了比KFC自助餐还多的鸡肉。

这太有趣了!所以像这样的内容,真的令人愉悦,令人惊讶。但幽默并不是我们所提示的。

幽默也是上下文相关的。我们意识到,虽然我们没有为幽默提示,但我们确实为其他许多事情提供了提示,这些事情引出了幽默。

我认为关于生成内容的事情,如果我们看看YouTube,我们在YouTube上制作视频,很多人都在缩略图上大喊大叫以获得点击。每个人都有一种“你需要做什么才能获得点击”的元思维。

但我认为在你们的产品中,另一边并没有实际的创作者投入时间,因此你们实际上可以生成一种可能并不普遍吸引人的内容。

你知道,我认为这最有趣的事情是,是否有办法让每个视频都能更接近你的口味。

当你观看时,这就是我认为AI的承诺,我们只是触及了这一点。每次我从某人那里获得信息时,他们都是以他们的首选方式将其传递给我的。对吧?如果有人给我一个PDF,那就是一个PDF。如果有人给我一百页的幻灯片,那就是我将要阅读的格式。

但我认为我们现在生活在一个转变的时代,转变真的很可能。比如,我不想阅读一百页的幻灯片,但我愿意在回家的路上听一个十六分钟的音频概述。我认为这真的很新颖,这为我们铺平了道路,可能是我们想要但没有预料到的。

我还认为你们会听到很多通常不会有内容制作的内容。我看到一个TikTok,一个女人上传了她2004年的日记。

当然,没人会制作关于日记的播客。希望不是,这听起来有点尴尬,有点诡异。

但她正在进行这种实时的倾听,哦,这是我日记的播客。现在听起来很有趣,我们可以一起听,但这种联系是个人的。她与她的信息以完全不同的方式互动,我认为这就是一个超级有趣的空间。

我正在为自己创造内容,以适合我想要的方式消费它。或者人们比较退休计划选项,没人会给你这样的内容,关于你个人的财务状况。

即使在我们开始这个实验时,很多目标都是为了处理一些非常冷门的内容,看看我们能如何转化它。如果你查看山景城的市议会会议记录,你永远不会去阅读它,但如果它是一个三分钟的摘要,那就会很有趣。

如果你有一个系统,一个提示,能够覆盖你所投入的一切。

你可以将其串联起来。

也许这真的很有趣。你知道,我正在努力弄清楚你们与其他人相比做对了什么。我认为你们对AI的处理方式与我交谈过的许多构建者有些不同。

我不知道这是什么。你说的,我必须转移到我身上。但这就像人们将AI视为一种工具,但通常它只是执行他们的命令。你们真正做的是加载这两个虚拟代理。

我不知道你们是否曾经说过“代理”这个词,但你们让这两个虚拟人类存在,并让他们从自己的观点出发,允许他们以某种方式生活。这准确吗?

我认为这接近准确。一般来说,我会小心地说,哦,你知道,让这些角色存在。但我认为,回到你之前的问题,是什么让它变得有趣,这就是让它变得有趣的原因。

我需要做到这一点,才能让它变得有趣。我认为这是一项值得挑战的工作。我还认为,这很有趣,因为他们对这个话题感兴趣。

这是否有趣?

是的,拥有两个退休计划是否有趣?不,但听这两个人谈论它,你会觉得这是最棒的发明。就像,深入探讨401k与Chase的比较,或者其他任何事情。

我知道,他们确实会说“你看这个”。

我知道,我知道。我梦到过这件事,抱歉。

我还有几个问题,关于这个工程的事情,显然其中一些只是我在创造性地询问它是如何工作的。你们如何在何时信任AI来为你们做决定?换句话说,作为今天的产品。

你想以某种方式改进它。你是将其工程化到系统中,像写代码一样确保它发生,还是仅仅将其放入提示中,希望LLM为你完成?

你知道我的意思吗?具体来说,是关于一般产品的事情。我认为这是人们正在努力解决的一个问题。

有些人会说,复合AI的人和大型AI的人。复合AI的人会说,Databricks有很多小模型,将它们串联在一起以生成输出。这是确定性的,你可以控制每一个部分,最终生成的内容。而OpenAI的人则完全相反,写一个巨大的提示,让模型自己去解决。