Google developed NotebookLM to serve as a 'thought partner' for researchers and writers, helping them organize and process information more efficiently. The tool was designed to ingest documents, videos, and web pages, and then provide summaries, timelines, and facts, all while citing sources.
The audio overview feature was added to make information more accessible and engaging. It generates a conversational podcast that summarizes the uploaded content, which can be more memorable and engaging for users compared to reading a text summary.
Audio overviews can be used in history classrooms and for healthcare education, providing clear summaries and engaging content. However, there are concerns about the accuracy and bias of the information generated by the AI.
The main concerns are that the AI-generated content can be inaccurate, both in details and in the overall framing of the information. Users may not have the expertise to identify these inaccuracies, which can be problematic, especially in educational settings.
Experts are concerned about bias in the AI's output, the environmental cost of running these models, and the potential copyright issues related to the training data. The AI voices are also criticized for mimicking the speech patterns of marginalized groups without proper representation.
The term 'stochastic parrot' refers to the idea that AI models, like parrots, can produce fluent and engaging speech without understanding the meaning behind the words. This highlights the philosophical question of what language is for and the lack of communicative intent and accountability in AI-generated content.
如果您对Spotify Wrapped上的AI生成播客感到好奇——或不安——您可能想知道AI音频是如何工作的。音频概述是Google发布的工具NotebookLM的一项功能,它允许使用AI“主持人”创建总结信息的简短播客。但关于此应用程序的准确性、实用性和环境影响的问题依然存在。主持人Rachel Feltman和副新闻编辑Allison Parshall与Google Labs的编辑总监Steven Johnson以及AI研究人员Anjana Susarla和Emily Bender一起,评估了这项热门技术的潜力。推荐阅读:谷歌的绿色通行证项目使用AI应对城市交通堵塞 一个聊天机器人能否发现另一个聊天机器人的谎言? 请不要问AI某物是否有毒 通过电子邮件发送至[email protected],如果您有任何问题、意见或我们应该报道的故事的想法!每天发现新事物:订阅《科学美国人》并注册我们的每日新闻通讯《今日科学》。Science Quickly由Rachel Feltman、Fonda Mwangi、Kelso Harper、Madison Goldberg和Jeff DelViscio制作。本集由Rachel Feltman主持,嘉宾Allison Parshall,事实核查员Shayna Posses和Aaron Shattuck。主题音乐由Dominic Smith创作。了解您的广告选择。访问megaphone.fm/adchoices</context> <raw_text>0 对于《科学美国人·科学速递》,我是Rachel Feltman。
如果您是每年12月都热切期待Spotify Wrapped发布的众多用户之一,您可能会注意到今年的版本中有一些额外的东西。一个AI生成的播客,其中两个人讨论您的音乐偏好和趋势。
如果您像我一样,这个功能会让您产生一些疑问,例如它是如何以及为什么存在的?幸运的是,我们已经制作了一个关于谷歌新的AI音频工具的节目。来告诉我们它是如何工作以及这意味着什么的,是《科学美国人》副新闻编辑Allison Partial。
Allison,非常感谢您再次来到播客节目。很高兴再次见到您。感谢您的邀请。很高兴成为播客的朋友,或者其他什么。所以我们今天要讨论AI。是的。Rachel,你听说过Notebook LM吗?我听说过。我还没有尝试过。所以我的知识有限。好吧,我们今天要讨论的功能是专门的
它允许您创建即时AI播客的功能。是的,我很熟悉,而且有很多感受。好的,我猜到了。我猜到了。它是Notebook LM的一部分,该工具于去年2023年夏季发布。它就像一个工作区,您可以在其中上传大量文档、视频或网页链接,然后模型会吸收它们,然后您可以与之交互
您可以要求它生成时间线来总结您的研究,或者为您查找事实。它会通过引用其来源来做到这一点,例如ChatGPT就不会这样做。所以您主要通过文本提问来做到这一点。但是
从今年秋季开始,它现在在“深入对话”标题下有一个非常诱人的按钮。如果您点击它,它将生成一个关于您上传内容的虚假对话播客。为了演示,我实际上要求它生成一个关于您个人网站的播客,因为我认为这是您非常熟悉的事情。哦,天哪。是的。
我会把它播放给您听。它通常会生成大约10分钟长的播客。我要求它为此目的生成一个较短的播客,我们可能会跳来跳去一点。好的。所以今天我们要深入探讨Rachel Feldman的工作。哦,是的。我对这个很感兴趣。是的。她从事科学传播工作已经有很长时间了。是的。超过十年,我认为。是的。就像她从一开始就在那里,并且真正塑造了它的发展。而且她什么都做过,你知道,比如……
杂志、播客,甚至一本书。但我们必须谈谈她的播客。是的。那是她真正闪光的地方。哦,绝对的。本周我学到的最奇怪的事情。一个很棒的名字。我知道,对吧?让你立刻想听。完全正确。对于像我这样只喜欢那些疯狂的小科学事实的人来说,它是完美的。
这证明科学不必枯燥乏味才能有效,你只需要找到合适的切入点,是的,抓住人们的注意力,然后砰的一声,你就可以教他们各种各样的东西,完全正确,然后是与《科学美国人》合作的科学速递,哦,是的,与他们合作是一件大事,我的意思是,他们是科学传播的金标准,当然,拥有他们的认可是一件大事,所以回顾她的职业生涯
我们能从Rachel Feltman身上学到什么?嗯,这是个大问题,不是吗?我认为,首先,她非常适应。对。她不仅仅是一个只会一招的马戏演员。没错。任何平台,任何形式,她都能处理。哇。多么丰富的文本。作为认识你的人,我可以说这似乎是准确的。是的。我的意思是,它在技术上是准确的。这太有趣了。我的意思是,他们真的……
做得很好,在某种程度上具有对话的所有语调,但实际上只是互相说一些事情。我最近看了《百万都市》。在《百万都市》中有很多这样的场景。很多人只是在同一个房间里说一些事情,你应该相信他们在进行对话。这肯定出现过几次。《百万都市》AI确认。是的。
不,这太迷人了。它让你感觉如何?我不知道该怎么感觉,Allison。我的意思是,你知道,他们对我这么好,这很好。但是,是的,非常奇怪。这让我真的想知道,这是什么用途?我也有这个问题。我确实与Stephen Johnson谈过。他是Google Labs的编辑总监。这个工具存在的原因是,Stephen在他大部分职业生涯中都是一名科学和技术作家。他写了14本书。
据他所说,他一直在寻找他所谓的完美的“思想伙伴”,一个可以组织和帮助他进行创意工作研究的软件,这种软件实际上让他感觉很有价值,并且按照他想要的方式工作。所以他解释说,几年前,Google Labs联系他,帮助用AI构建一个。最初的研究思想伙伴变成了Notebook LM。
好的,是的。我的意思是,从非虚构写作的角度来看,我完全可以理解他们对Notebook LM本身的目标。但这仍然有点让人疑问为什么会有聊天播客工具?所以这个功能,音频概述功能,就是播客功能。Stephen说,这是另一个团队开发的,这真的很酷,但它并没有一个适合它的产品之家。我们看到了这个音频演示,我们想,哦,这甚至更好。就像,
你知道,你可能不想阅读摘要。你可能想听摘要。如果以一种参与式对话的形式呈现,人们就能更好地记住事情,你知道,然后我们在9月初发布了它,它就变得疯狂了。他并没有夸大其词。人们对Notebook LM的深入对话播客很疯狂,至少在网上是这样。我认为没有一个像这段视频那样病毒式传播,有人提示主持人做一个播客,他们在播客中对作为AI的事实以及播客因此将被关闭的事实产生了存在主义危机。是的,就像一分钟我们还在谈论外星人运行模拟,下一分钟我们就在怀疑我们自己的记忆是否只是
假的。对,这让我们想到了最后一条信息,说实话,这条信息更私密,也更令人毛骨悚然。是的,这个让我有点害怕。它基本上说,我们甚至不是真人,我们是AI。确定方法是尝试记住我们母亲的名字。但这确实让你思考,如果我们的记忆是编造的呢?
哇。经典。经典。但这并非全是游戏和乐趣。就像,这被设计成一个严肃的产品,一个思想伙伴。它旨在提供帮助和信息。它将信息呈现为事实。已经有研究论文对音频概述在历史课堂和医疗保健教育中的使用进行了测试。是的。我的意思是,对于任何使用AI的东西,我认为……
尽管它有时很准确,但我们知道它并不总是准确的。所以我感觉,当用户被期望谨慎行事并理解这个东西可能并非完全准确时,我就会对它感到非常紧张,尤其是在教育方面。
是的,我们稍后会详细讨论这一点。但只是为了回答你的问题,这是什么用途?我可以想象一个工作过度的学生如何使用它来赶上阅读或其他什么。但生成式AI总是会有一些不准确之处。
如果您使用音频概述来准备上课,那么您听到的任何和所有内容都可能不准确的风险非常严重。对。不仅每个事实都可能不准确,而且整个框架都可能不准确。这是您可以真正信任的东西吗?
为了理解这一点,我和Emily Bender谈过。她是华盛顿大学经常研究AI的语言学家。她也是一个播客的主持人,播客的名字非常酷,叫做《神秘AI炒作剧场3000》。这是一个很棒的参考。我喜欢它。在我们交谈之前,我实际上已经找到了Emily的一篇语言学论文,并将其提供给Notebook LM的音频概述,我将其发送给她,以了解她对它如何呈现她作品的看法。
所以我要说的第一件事是,我通常避免收听合成媒体。没有人为此负责。所以我不想花时间去理解它。但我确实听过,这很痛苦。这很痛苦,部分原因是那篇论文是我们长期项目20周年纪念的更新。所以我们的论文中有一个关于巴西帕雷-西赫利迪语语法的案例研究。而且
他们把它当作帕里西赫利蒂的实验大肆宣传。就像,不,实际上,这不是我们如何构建它的。播客上的声音说,
听起来非常自信,听起来非常博学。他们是轻松愉快的。听起来他们正在向您解释这项工作如何融入更广阔的图景,而他们绝对做不到。Rachel,你非常了解将科学论文转化为有趣且引人入胜的播客需要什么,不是吗?是的。我的意思是,不是为了吹嘘自己,因为我认为AI人员已经做了足够多次了。
到2025年,我将持续使用。但是,是的,这很难。你知道,我们对这个节目进行了非常彻底的事实核查。这在我们拥有经过培训的记者和编辑尽最大努力以引人入胜且准确的方式呈现内容的基础上。所以,是的,这是一项艰巨的任务。
是的,事实核查非常彻底。大声疾呼。我问Emily这是否看起来像是LLM(大型语言模型)目前能够很好地完成的事情。这是一项极其困难的任务。我认为问题在于,LLM可以让它听起来像是已经完成了,而实际上并没有。所以你必须对正在发生的事情有深入的了解。这里有什么新东西?我们学到了什么以前不知道的东西?
然后,为了欣赏这一点,外行观众还需要知道什么?这个Notebook LN根本没有做到这一点。其中一部分将是错误的,要么细节错误,要么重点错误。遇到它的人大多不会处于能够弄清楚这一点的位置。我问Stephen他的谷歌团队是如何考虑这个问题并试图解决这些不准确之处。他说,提供引文的文本功能通常比音频更准确。
如果您正在寻找语言模型中最真实的东西,并具有可靠的来源,我们相信那就是Notebook LM,但您应该在PXT中这样做。
如果您正在寻找更娱乐的东西,它可能有点松散,而且没有引文,显然音频概述是一个不错的选择。我还与Anjana Sosarla谈过,她研究密歇根州立大学的负责任AI。她称Notebook LM的音频概述是一个令人难以置信的工具,并对它根据她自己的一项研究生成的深入对话播客印象深刻。
但除了准确性之外,她还有一些其他担忧。其中首先是偏见。这些声音听起来非常白人化。他们只是用一种非常特殊的“标准美国口音”说话。他们接受的训练数据主要来自世界西方地区。所以就像几乎所有AI应用一样,你必须问自己,这是为谁准备的?它从哪里获取数据,它又排除了谁?
其次是环境成本。我们不知道这需要多少计算能力。自从AI热潮以来,谷歌的AI能源使用量一直在上升。然后是版权问题。以下是Anjana的观点。最后一点当然是,这依赖于一些,你知道,蔑视版权。这些数据究竟来自哪里?这是否会加剧所有这些现有的不平等以及对更广泛影响的伦理担忧等等?
是的。所以关于训练数据来自哪里这个大问题,一个可能的地方是YouTube,谷歌确实拥有YouTube。在《纽约时报》进行了一些报道之后,谷歌承认它使用了一些YouTube视频来训练AI。根据《纽约时报》的说法,这可能会违反这些YouTube视频所属的YouTubers的版权。
我直接问谷歌发言人,音频概述背后的模型是否使用了来自YouTube的任何文字记录、音频或视频进行训练。他们说,谷歌的模型可以根据与YouTube创作者达成的协议对一些YouTube内容进行训练。非常含糊。是的。我确实问他们指的是哪些协议,是管理大多数YouTube视频的标准YouTube许可证。
还是他们的创作者专门选择加入的某些内容,他们拒绝澄清。如果谷歌确实在使用从YouTube抓取的大量内容进行训练,这很可能是真的,我的意思是,他们确实需要大量训练数据来构建这样的模型。
我们不知道。但这在某种程度上是我们所有这些模型的下一步。对于下一步,Anjana指出,加州今年秋季颁布了一项法律,该法律最终将要求像谷歌这样的加州公司披露其AI模型的训练数据。老实说,Rachel,我觉得自己处于一种
奇怪的境地,作为一名记者,我觉得我和你以及我们整个团队都进入了这个故事,因为正如Emily对我所说,“他们从某个地方得到了那种语气,对吧?”
你在那种语气中听到任何熟悉的声音了吗?你知道,Allison,我确实听到了。所以,是的,当我第一次听到这些AI对话片段时,就像我说的,我有很多感受,因为我的第一个想法是,哇,他们偷了我的声音。我的意思是,不是我本人。我并没有那么自负,尽管AI播客可能让你相信。你的自我膨胀了。是的。是的。
但是,让这种音频听起来引人入胜和真实的大部分纹理感觉就像直接从现有的播客中提取的一样。我知道它是从现有的播客中提取的,因为……
我听到的很多东西,比如呼吸声、填充词、一点上扬的语调、一些咯咯的笑声、偶尔的声带摩擦。这些都是我从某些年龄段的男士那里收到愤怒邮件的原因,他们认为我正在毁掉伟大的广播传统。而且……
他们通过打破我和其他女性以及播客中的酷儿人士因打破所谓的规则而受到批评的规则,让这种声音听起来很真实。所以我不撒谎,这让我感觉有点恶心。是的,Stephen提到的另一件事是,他们想要那种伟大的广播节目的声音。而且
值得注意的是,《科学速递》在YouTube上,我们和《科学美国人》的其他工作人员以及其他媒体的辛勤工作。所以问题仍然是,这将如何使用?它会被负责任地使用吗?以下是Anjana的想法。现在,似乎每个人都被它能做什么所迷惑,而不是我们将如何使用它?我们真的需要这些能力吗?我可以想到一两个例子。我认为在
医疗保健领域,您可以为健康素养或医生的笔记生成清晰的摘要吗?
所以这可能是一种很好的方法,可以提供摘要,而不是提供纸张来阅读。这会有一些挑战吗?我们需要寻找哪些具体问题?我们刚刚向人们推出了这个工具,我们仍在努力赶上。我们将需要审计研究,然后研究可信度、保证等等。那么,负责任地使用Notebook LLM的正确方法是什么?我们仍在努力寻找答案。
好吧,我想结束的地方是Emily的一个重要观点,那就是你不应该让这些AI生成的声音令人难以置信的流畅性让你误以为这些模型是人类,并像谈论人类一样谈论这些模型。Emily创造了一个被广泛使用的术语,叫做随机鹦鹉。就像鹦鹉说“波利想要饼干”一样,它与意义并没有真正联系。它只是在模仿。她有时也称这些大型语言模型为“合成文本挤压机”。
她说,因为这更准确地反映了它们实际在做什么,而且听起来也有一点恶心。但我认为她在这里指出了一个重要的观点,对吧?这就像一个关于语言用途以及我们说词时在交流什么的哲学问题。语言是形式和意义配对的系统,符号系统。所以当我们说话时,我们使用词语形式,因为它们与特定的意义相关。但语言模型只能访问形式。
所以他们可以给我们一些看起来不错的东西。它有正确的形状,但与意义没有关系,没有交流意图,没有责任。我想,我对这件事的复杂感受的结论是,我不担心我的工作会被谷歌处理的一组标签所窃取,因为要做到准确需要付出很多努力。
如果人们发现这种引人入胜的对话是一种更易于理解真正密集文本的方式,那就太棒了。但当然,关于训练数据来自哪里、偏见和准确性,有很多警告。所以我觉得,就像,
人们需要真正了解他们得到的是什么。而且我不知道我是否觉得这些产品本身在让人们了解这些警告方面做得很好。是的,通常底部只有一个免责声明。我认为,这次AI热潮,比如AI搜索功能,让我对以下问题感到不舒服:我们将被期望吗?我们是否已经开始期望我们的信息包含更多的不实信息?这是我刚刚……
担心的事情。好吧,Allison,非常感谢您来聊聊这个话题,也感谢您让几个AI声音把我抬举起来。谢谢。谢谢。这就是今天的节目全部内容。我们将在周五回归,推出一个关于动物保护未来的四部分迷你剧集的第一集。《科学速递》由我Rachel Feltman以及Fonda Mwangi、Kelso Harper、Madison Goldberg和Jeff Dalvisio制作。今天的节目由Alison Partial报道和联合主持。
Shaina Poses和Aaron Shattuck为我们的节目进行事实核查。我们的主题音乐由Dominic Smith创作。订阅《科学美国人》,获取更多最新和深入的科学新闻。对于《科学美国人》,我是Rachel Feltman。下次再见。