We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Science of Success: AI Takes a Deep Dive Into Podcasting

2024/11/22

WSJ’s The Future of Everything

AI Deep Dive AI Chapters Transcript

People

Ben Cohen

Deepa Seetharaman

Narrator

一位专注于电动车和能源领域的播客主持人和内容创作者。

Topics

旁白介绍了 Google 最新推出的实验性 AI 音频功能 Deep Dive，它能够将用户提供的文本、链接或文件转化为类似播客的音频对话。主持人 Ben Cohen 与华尔街日报 AI 记者 Deepa Seetharaman 探讨了 Deep Dive 的工作原理、其技术优势与不足，以及 AI 语音合成技术的发展现状和潜在风险。Deepa Seetharaman 解释了大型语言模型如何通过预测和总结文本内容来生成对话，并指出 Deep Dive 虽然能够生成引人入胜的内容，但也存在 AI 幻觉和错误的可能性。他们还讨论了 AI 语音合成技术如何通过模仿人类语音的停顿和语气词来提高逼真度，以及这种技术带来的伦理和社会影响。

Deep Dive

Chapters

The introduction explores the concept of AI-generated podcasts, their popularity, and the uncanny feeling of connecting with AI hosts.

Google's experimental audio feature, NotebookLM, creates AI-generated podcasts called Deep Dive.
Users can input various types of information to generate an entertaining conversation.
AI voices are becoming increasingly convincing, leading to a blend of fascination and discomfort.

Shownotes Transcript

有了人工智能，建立道德基础不仅是正确的事情，也是成功的关键。加入IBM的讨论，听听联邦银行IBM咨询全球可信赖人工智能领导者为什么这么说。

我必须告诉你们一个新的热门播客。它涵盖了你能想象到的任何主题。主持人似乎无所不知。他们的谈话轻松而引人入胜。坦白地说，他们听起来就像我乐意与之相处的伙伴，但我不能，因为他们不是真实的人——一个有趣的转折。

整个城市，甚至人类，是的。

这里正在发生非常棒的事情。

你们刚刚听到的双人主持节目《深度探究》，是由谷歌今年9月推出的实验性音频功能。主持人的声音以及他们所说的一切……

都是由人工智能生成的，以创建《深度探究》的每一集。用户可以拖拽文件、粘贴链接，或者直接将文本输入一个名为NotebookLM的免费工具。他们可以输入多达50个PDF、网页、文章，或者任何信息。

NotebookLM会将这些信息转化为引人入胜且易于理解的对话。这些对话相当准确，但并非没有幻觉。正如我们从生成式人工智能中所预料的那样，谷歌将生成的约10分钟音频片段称为“音频概述”。

你可能会称它为播客，而且我停不下来。我并非唯一一个受益者，从需要学习辅助的学生到硅谷的人工智能专家，该平台越来越受欢迎。深度学习专家、OpenAI联合创始人以及负责自动驾驶计算机视觉的文本和图像团队的Andrea Carpathia在X上写道：“《深度探究》现在是我最喜欢的播客。”

我听得越多，就越觉得我和主持人成了朋友。我想这是我第一次真正喜欢人工智能生成的两个人物。所以它很快可能会成为你最喜欢的播客，当然除了这个。

来自《华尔街日报》的《成功的科学》。我将探讨当今的成功如何引领明天的创新。我是本·科恩，我为《华尔街日报》撰写专栏文章，探讨个人、想法和团队如何运作以及何时蓬勃发展。本周，我们将深入探讨谷歌的《深度探究》是如何运作的，以及它何时失效。

你听到的节目开头对话，是我将最近的专栏文章输入NotebookLM的结果。但你可以用几乎任何东西制作播客，例如维基百科页面、YouTube视频片段、随机PDF文件、你的大学论文、上个月商业研讨会的笔记、你祖母的食谱、你的简历、你的信用卡账单。我甚至听过一个关于我个人财务状况的完整播客，由《深度探究》主持人之一制作。

人们正在做的事情真是令人惊叹。

深度学习专家卡波夫最近对税收问题进行了深入探讨，他利用它对火星、黄金、短裤和鸡蛋以及帕拉格兰进行了深入研究。他甚至生成了一整套名为“神秘史”的播客系列，其中包含10集，内容基于维基百科页面，从亚特兰蒂斯到青铜时代。但你可能还有其他原因想要将信息转化为音频对话。

也许你是听觉学习者，更喜欢听而不是读。也许你发现播客比演示文稿更引人入胜。为了深入了解其工作原理、那些令人信服的人工智能声音的潜在陷阱，以及为什么你仍然不能完全信任它们所说的一切，我在节目休息后采访了《华尔街日报》的人工智能记者迪帕·西萨拉曼。

如何在你的组织中为负责任的人工智能奠定基础？以下是一些建议。法托·邦尼尔是IBM咨询公司全球可信赖人工智能领导者。

这始于一个问题：我们最终想要与人工智能建立什么样的关系？人工智能的目的不是取代人类，而是增强人类的智慧。一旦你对如何思考有了想法，你可能会想使用人工智能，然后提出诸如“为了赢得人们对这种模型的信任，需要哪些条件”之类的问题。

NotebookLM如何将你输入的信息转化为引人入胜的10分钟对话？为了回答这个问题，并展望《深度探究》人工智能声音的未来，我采访了《华尔街日报》的人工智能记者迪帕·西萨拉曼。嗨，迪帕。

嗨，本，你好吗？

我很好。我觉得我们现在是《深度对话》的主持人，听起来不错，所以让我们深入了解它的工作原理。我与谷歌实验室（这家科技巨头孵化和构建人工智能产品的部门）的几位人士进行了交谈。

他们告诉我，当你上传你的源材料（例如链接、PDF或任何你想要的内容）时，NotebookLM会立即消化并输出一个基本的书面摘要。在这个语境中，“消化”意味着什么？这项技术实际上在做什么？

大型语言模型基本上是预测机器。一些人称它们为高级自动完成工具，它们运行大量的计算来预测下一个最可能的词。例如，如果你在谷歌上输入“床”，最可能的下一个词显然是“单”。

是的，完全正确。我的意思是，这很明显。这就是它如何生成这些长句和看起来像是人类撰写的长篇文字的原因，因为它们分析了大量的文本，并弄清楚了在特定语境下最可能出现的内容。

因此，你可以看到同样的技术技能如何用于总结。总结有很多种类型。有提取性总结，它识别原始文本中看起来非常重要的特定句子和短语。还有抽象性总结，它生成捕捉所呈现想法的思想和短语和句子。无论哪种方式，所有这些都是这些产品背后的模型，将文本总结成更短、更简洁、更易于理解的内容，特别是针对《深度探究》这样的内容。

谷歌实验室的人士告诉我，在幕后有一个模型，它不断编辑对话脚本，目标是引人入胜，并阐明见解，而不仅仅是总结，而是重点介绍最有趣和最令人惊讶的内容。这如何运作？它如何产生新的想法？

这有点……嗯，这种抽象总结的想法是查看文本，确定人类通常认为关于该文本非常有趣的内容，然后将其呈现出来，然后再次使用数学来确定最好地提取、总结和思考文本的方式。我使用引号中的“思考”一词，因为你可以在播客中看到它，但我这样做是因为它只是用于确定最可能和最受欢迎的句子版本以及这些总结的数学层。有时它使用文本本身的语言，有时它使用你从未见过的其他语言。

是的，但这也会出错。我们都听说过，也许这些波动是大型语言模型（LLM）能够产生的，它会产生偏见，并建立不正确或可能不存在或没有意义的联系和影响。这个特定产品似乎比其他流行的人工智能产品做得更好，部分原因是它仅基于源材料。但为什么它仍然会出错？

在任何基于大型语言模型的产品中，完全避免错误都将非常困难。它永远不会达到零。部分原因是，这些大型语言模型在本质上会产生它认为最可能的答案，而不是正确的答案。

因此，答案听起来正确，但可能并不正确。你可以在其上做一些事情。它基于特定的训练，可以肯定地减少幻觉。

但我从研究中一次又一次地看到，它永远无法完全消除它，它仍然可能发生，因为它仍然遵循这一原则。它实际上并没有被训练来理解什么是正确的事情。它被训练来思考最可能的事情。

好的，让我们谈谈声音。它们并不完美，但非常接近，非常接近。什么能让人工智能的声音听起来更像人类？

人类的声音。我的意思是，反复研究人类的声音。还有音量游戏，许多这些训练都是巨大的。

它只是随着时间的推移聆听人类的声音。它开始听起来更像人类。你提到它并不完美。它绝对不完美。人类会做一些事情，例如在尴尬的时刻停顿，或者像这样说很多“嗯”和“啊”，然后开始并重新开始。

我说话的方式，整个时间都是一种非常人性化的方式，因为它有点不完美，而你不太会在这些声音中看到这一点。它们不会像这样说“嗯”或“啊”。它们从一个想法开始，然后一次性结束，我认为大多数人类不会这样做。

对，完全正确。谷歌实验室的人士告诉我，他们实际上将所有这些“嗯”和“啊”以及停顿都编入了《深度探究》的对话中，因为他们了解人类多年来已经进化到期望这些东西。

如果这些声音像计算机一样用完美的句子说话，没有人会想听，对吧？因此，为了使其更易于收听，他们还必须增加所谓的“噪音”。

他们说这叫做“失真”。这些对话中需要更多的失真才能使它们听起来像对话。为了使其更好，你必须使其……

稍微差一些。你提到噪音，人工智能声音的频率与人类说话的方式有所不同。因此，即使你和我听不到它，软件也能听到它，并且可以区分人类和人工智能的声音，但即使这些检测机制也变得越来越难以区分。

我将自己关于《深度探究》的专栏文章输入NotebookLM，其中有一部分他们谈论它，并说谷歌设法让人工智能的声音听起来更像人类，而且听起来是这样的。

他们真的弄清楚了如何让人工智能听起来更像人类。

这使得整个体验更加令人愉快。我的意思是，你会被对话吸引，就像你和朋友们一起闲聊一样。但让我们面对现实，这项技术并不完美。

哇，太棒了。

这里有一些非常奇怪的东西，让我感到有点不舒服，但也非常着迷。你的反应是什么？

这很有道理。有很多关于人工智能的讨论，其中一个基本原则就是所有这些人工智能产品都应该，你知道，你正在与人工智能系统对话，它不应该扮演人类角色。它不应该扮演人类或假装成人类。

所以这一刻很有趣，因为它既奇怪又……嗯，它既不像是人类，又像是假装不是人类，我认为它在披露和隐藏背后某种东西之间挣扎。你希望未来这个系统如何处理这种互动？

所有这些都非常令人震惊。你每天都在经历这些。我偶尔会进来，并被人工智能所震撼。

但这意味着什么？这只是一个玩具吗？这是对未来的瞥见吗？还是介于两者之间？你如何看待它？

我认为两者兼而有之。我认为它既是玩具，又是对未来的瞥见，也是一个警示信号。在我报道人工智能之前，我报道社交媒体八年。我认为，当你回顾社交媒体的经验时，它确实是一种与你通常不会交谈的人建立联系的绝佳方式。从那里可以获得很多好处。

但也有很多坏处，对吧？我们也看到全球出现了虚假信息和各种问题，这让你不禁要问，这个更大的项目是否值得。我认为人工智能具有类似的潜力，因为它非常有用，我们正在享受它，但我们也必须应对未来，在与基本上像软件系统一样的东西建立关系时，我们必须弄清楚这些关系的准则是什么。它只是引发了一系列令人着迷的问题，我认为这些问题是未来的一部分。但是的，它也是一个有趣的玩具。

迪帕，很高兴能和你这个真正的人类交谈。谢谢你让……

我更了解这件事。谢谢你的参与。

本周《成功的科学》播客由查理·加登堡、迈克尔·莱维尔和杰斯·芬顿制作。我们的主题音乐由丹尼尔·刘易斯创作。我是本·科恩，请务必查看我在《华尔街日报》上的专栏文章，如果你喜欢这个节目，请告诉你的朋友，并在你最喜欢的平台上给我们五星评价。谢谢你的收听。

此前，我们讨论了负责任的人工智能在实践中是什么样子。以下是IBM咨询公司的法托·邦尼尔再次谈论为什么这始于数据。

我对“数据”一词最喜欢的定义是人类经验的架构。人工智能就像一面镜子，反映出我们的偏见。

但我们必须足够勇敢和反思，在镜子中审视自己，并决定这种反映是否与我们组织的价值观一致。如果它不一致，那么你应该问自己，为什么你选择了这些数据？如果它不一致，那么你可能需要改变你的整个方法。

了解更多关于IBM人工智能咨询服务的信息，请访问ibm.com/consulting。

Science of Success: AI Takes a Deep Dive Into Podcasting 15:33 Share

WSJ’s The Future of Everything

Deep Dive

Shownotes Transcript

Science of Success: AI Takes a Deep Dive Into Podcasting