We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Story Behind Gannett's AI Debacle

The Story Behind Gannett's AI Debacle

2023/9/27
logo of podcast On the Media

On the Media

AI Deep Dive AI Chapters Transcript
People
J
Jay Allred
T
Twitter用户
Topics
Twitter用户:Gannett公司使用AI生成的体育新闻报道中出现了许多奇怪的短语,例如“close encounters of the athletic kind”,以及一些语句不通顺的问题,引发了广泛关注和批评。这些错误暴露出AI技术在新闻报道中的应用仍存在诸多问题。 Scott Simon:AI生成的体育新闻报道中存在占位符,本应出现吉祥物名称的地方却空着,进一步说明AI技术在处理细节信息方面存在不足。 Micah Loewinger:Gannett公司因AI生成的新闻报道出现问题而面临公关危机,暂停了使用AI报道高中体育比赛结果的项目,并停止了与Lede AI公司的合作。这起事件引发了人们对AI技术在新闻报道中应用的担忧和反思。 Jay Allred:Lede AI系统利用ScoreStream服务收集的高中体育比赛结果数据,并根据比赛结果的不同场景选择预先写好的模板生成新闻报道。Gannett公司报道中出现的错误是由于Lede AI为Gannett公司定制的代码中存在bug,并且测试不足导致的。一些尴尬的短语是人工编写的,并非AI生成的。Lede AI的目标是为新闻机构提供高中体育比赛的基本报道,从而解放记者去做更有意义的报道。Richland Source使用Lede AI来报道一些他们无法派记者去现场报道的比赛。Richland Source的记者会报道重要的比赛,而Lede AI则负责报道其他比赛,编辑可以根据需要对Lede AI生成的报道进行补充。Richland Source会在AI生成的新闻报道中明确标注作者为“Auto Newsdesk”,并在文章底部注明使用了AI工具,并提供反馈表格。作者认为AI技术应该用于报道那些无法被报道的新闻,并对其进行严格的审查和验证。作者也表达了对AI技术可能取代入门级记者职位的担忧,以及对大型新闻机构盲目采用AI技术的担忧。作者认为,AI技术的应用目标应该是提高新闻报道的价值,而非单纯追求效率和裁员。 Micah Loewinger: The incident highlights the risks of AI automation, even in low-stakes areas like high school sports reporting. The accumulation of small errors across numerous articles demonstrates the need for cautious scaling and thorough testing of AI systems before widespread deployment. The potential for harm is significantly greater in high-stakes reporting such as crime or arrest reports.

Deep Dive

Chapters
Gannett's AI service for high school sports coverage quickly faced issues with bizarre phrases and robotic placeholders, leading to a PR crisis.

Shownotes Transcript

本期节目由Progressive保险赞助播出。无论您喜欢犯罪纪实节目、喜剧节目、名人访谈还是新闻节目,您都可以自己决定播客队列中的内容。而且您猜怎么着?现在您也可以通过Progressive的“自定价格”工具来决定您的汽车保险了。它的运作方式正如其名。您告诉Progressive您想为汽车保险支付多少钱,他们会向您展示符合您预算的保险方案。立即访问Progressive.com获取报价,加入超过2800万信任Progressive的驾驶员行列。

Progressive意外险公司及其关联公司。价格和保险匹配受州法律限制。我从沃尔玛买的Keurig咖啡机总是派上大用场。我买它是为了能继续赶写我的论文。你知道我得赶上截止日期。我还买它是为了能熬夜突击考试。当然,你知道我会一边优雅地啜饮咖啡,一边悠闲地走进我的早课。我想说它简直是救命稻草。为之干杯!在沃尔玛选购您的咖啡燃料需求吧。♪

听众支持。WNYC工作室。8月份,美国最大的报纸公司甘尼特推出了一项新的AI服务,该服务将为伊利诺伊州、德克萨斯州、威斯康星州、田纳西州、俄亥俄州、亚利桑那州和印第安纳州提供高中体育赛事的自动化报道。几天之内,事情就严重出错了。人们纷纷

推特/X上的网友很快发现,诸如“体育界的近距离接触”之类的奇特短语,或者某个球队“从另一个球队手中夺走胜利”之类的说法,出现在数百篇地方新闻报道中。

正如斯科特·西蒙在NPR上解释的那样,在一些AI文章中,本该出现吉祥物名称的地方出现了机器人占位符。沃辛顿基督教队的获胜吉祥物在周六俄亥俄州的一场男子足球比赛中以2比1击败了韦斯特维尔北队的失利吉祥物。

这是根据上个月《哥伦布纪事报》刊登的一篇报道。获胜的吉祥物万岁!我们的客户面临着公关问题。杰伊·奥尔雷德是Source Media Properties的首席执行官,该公司旗下包括俄亥俄州的地方新闻机构Richland Source。

他也是Lead AI的联合创始人,该公司开发了甘尼特用来自动化部分报道的技术。甘尼特无限期暂停了使用我们的AI报道高中体育比赛结果的项目。我们也不再为甘尼特制作内容了。杰伊同意和我谈谈出了什么问题,这是他与甘尼特交易破裂后的首次广泛采访。

我想了解他为什么一开始要开发这项技术,这项技术应该如何运作,以及这场灾难是否动摇了他对AI在新闻业潜力 的信心。

他告诉我,几年前,他的团队在他自己Richland Source新闻编辑室开始构建和使用Lead AI,之后他们了解到可以利用名为ScoreStream的服务获取高中体育比赛结果,该服务收集通常由球迷记录的比赛结果。例如,我们以俄亥俄州为例。

我们会查看俄亥俄州所有高可信度比赛,然后分析计分板。因此,如果我们查看的是一场橄榄球比赛,我们会试图弄清楚,这是一场势均力敌的比赛吗?是加时赛吗?是一场一边倒的比赛吗?是第四节的反败为胜吗?我们将这些不同的结果归类为不同的场景。然后,我们将从预先编写的模板库中提取,将这些变量插入到这些预先编写的模板中,

选择一个标题。它们都是预先写好的,并且包含要插入的变量。通常情况下,对于我们的客户,我们会通过API(应用程序编程接口)连接到他们的CMS。进入并代表客户以编程方式创建该资产。为其命名,指定作者,为SEO添加标签。

然后,我们可以将这些资产发布为草稿状态,也可以实际为客户自动发布它们。您有多少客户?全国各地大约有20个独立的新闻编辑室。目标是,您基本上可以提供,比如说,俄亥俄州各地或任何地方的高中体育赛事的相当基本的报道,

这样您的撰稿人和编辑就不必仅仅负责制作这些报道,然后他们就可以去做更有意义的报道了。我们是一个小型新闻编辑室。我们只有10个人,只有一名全职体育记者。我们地区有20多所高中。因此,我们可以使用Lead AI来报道当晚的6场比赛。这让我们能够为那些我们根本无法到达比赛现场的社区提供报道。

我们的体育记者报道A级比赛或第一场比赛。我们将用另外两名记者报道B级和C级比赛。然后Lead AI将为我们撰写其他三场比赛的简报。从这个角度来看,当晚值班的编辑可以联系教练,充实Lead AI的故事,将Lead AI提供的技术与我们新闻编辑室提供的实际新闻报道相结合。

您如何向读者传达他们正在阅读的内容并非由人类撰写?Richland Source上发布的每一篇文章都有一个作者,该作者名为Auto Newsdesk。如果您点击Auto Newsdesk,它会立即将自己标识为AI工具。在文章底部,我们声明我们正在使用AI工具。我们实际上链接到了Lead AI的网站。

我们有一个反馈表,与我们发布的每一篇内容一起发布。人们的反应如何?总的来说,读者理解这是信息。这不是新闻报道。当然,很多时候读者希望内容更长,并包含球员姓名、照片和视频。他们希望这是一篇报道文章。没错。因此,在某种程度上,我们满足了信息需求,但并非一定满足了信息愿望。

关于这一点,有两点需要注意,存在很大的差距。第一,AI还不能作为记者被信任。第二,至少在高中体育领域,没有一个数据集能够让我们自信地报道球员姓名、视频和照片,并能够准确识别所有这些信息。这需要人类来完成。是的。那么,您究竟是如何……

让Lead AI制作听起来像人类写的文章呢?我的意思是,我知道对于一些大型语言模型来说,它们需要大量的数据。这导致了围绕AI初创公司抓取网络大量内容(包括书籍)的许多争议。

整个新闻机构,整个论坛,如Reddit。所以请向我解释一下您是如何向Lead AI提供语言和模板的。我们数据库中的每一个单词、每一个逗号、每一个分号都是由人写出来的。然后由另一个人检查,然后再由另一个人检查。

这让我们在所有情况下都能确信,如果我们使用我们的标准数据集,那么只要数据准确,我们制作的内容就是准确的。而且它非常准确。好的。这很有趣,因为在8月下旬,社交媒体上的人们开始发布Lead AI放入一些地方新闻来源的一些非常尴尬的短语。例如,在Twitter上引起广泛关注的是,

是《哥伦布纪事报》和其他甘尼特旗下报纸的一篇文章。读者发现Lead AI使用了诸如“体育界的近距离接触”之类的短语。许多文章提到了高中体育赛事,或者某个球队“从另一个球队手中夺走胜利”。你知道,这些都是大多数人类记者认为从尴尬到写作糟糕的短语。那么,这是怎么回事呢?是的。

我知道你会问到这个问题,我很高兴你问了。8月中旬,我们的技术与甘尼特在美国的六七个主要市场进行了大规模发布。我们为该特定客户编写了一些自定义代码,而该代码存在错误,米卡。

它的测试不如我们通常的测试那么充分,因为我们内部设定了一个截止日期,这使得我们非常重视与高中橄榄球赛季的开幕式一起启动。在甘尼特文章中出现的一些内容,尤其是错误,是小型公司所说的结果,

努力为与一家非常大的公司合作的发布做好准备。至于措辞的尴尬和臭名昭著的“体育界的近距离接触”,那是人类写的,米卡。一个人写的。好坏是一个主观的衡量标准。我们被指出了一些短语,这些短语不再在我们的数据库中。

这很简单,只需将它们删除即可。说实话,成为一个梗很奇怪。是的。但我们正处于地方新闻行业部署的早期阶段。我希望我们没有参与一个失败的部署。

我们从中吸取了很多教训。我很好奇这到底是功能还是错误。所以我实际上只是在Richland Source上搜索了这些短语。我统计了Richland Source今年有140多篇文章使用了“体育界的近距离接触”或类似的短语,其中包括今年有50篇文章在标题中使用了“获胜的近距离接触”这个短语。所以我并不相信这仅仅是……

与甘尼特一起推出新服务时发生的偶然事件,就像你们多年来一直在发表这些句子一样。不,我很感谢你指出这一点,因为这个短语多年来一直存在于我们的代码中。

甘尼特发布中独有的内容是一些其他的,他讽刺地说,一些不幸的事情。例如,在一些报纸上发表的几篇开头部分,我们在本该出现吉祥物名称的地方插入了一个变量。在一些情况下,我们发布了两段非常相似的开头段落,

它们在事实信息方面完全相同,但表达方式略有不同。这些是内置于该自定义代码中的错误。但是互联网上指出的那些尴尬的短语,已经存在多年了。我想,但是你看,我想这就是……

让媒体评论家、记者和编辑不寒而栗的原因,因为我们谈论的是高中体育,这并不是新闻业中风险最高的领域。但它似乎确实说明了自动化的风险,其中一个小的错误。

当自动化时,就会变成全国各地150个小错误。是的,绝对的。我们从这个过程中学到的一件事是,规模应该谨慎对待。如果让我重新来过,在我们有史以来最大的一次发布中,我会在一个网站上发布,并上下检查每一篇内容。我们会发现完全相同的错误和尴尬的措辞

这些异议也会出现。然后我们就可以更改这些内容并修复这些错误,然后在一周后在两个网站上发布。当这两个网站没问题时,我们可以再添加第三个和第四个。

高中体育是一个低风险领域。如果这是犯罪报道呢?是的。如果这些是逮捕报告呢?可能会造成真正的伤害,作为行业领导者。我认为这应该让我们所有人停下来思考。这就是我与你进行这次谈话的原因。我很感谢你。我很感谢你的坦诚和开放的反省。你是否担心地方新闻编辑室会看到这一点?

Lead AI的承诺,也许认为它能够胜任比实际能力更强的任务,并取消入门级工作岗位。我每天都在考虑这个问题。

在与全国各地的新闻领导者交谈了三年后,我从未听过他们中的任何一个人说,我非常兴奋AI能够让我减少员工人数。好吧,没有人会这么说。你说得对。他们说我们希望提高效率。我们用委婉语说话。我同意你的观点。让人们不说“减少员工人数”之类的话是一个良好的开端。

然而,我不知道大型公共新闻机构将如何选择部署这项技术。是的,我想说到大型公共新闻机构,BuzzFeed裁掉了其新员工,然后说,我们将转向AI。几年前,微软旗下的MSN也做了类似的事情。对于那些疯狂的更大机构,我们该怎么办?

完全接受AI,并相信或可能想相信它可以取代新闻业。我认为那些相信这一点的机构并不是我们理解的新闻机构,米卡。

我不是他们的发言人。我只能谈谈我进行过的对话。但无论规模大小,他们都在努力弄清楚如何实施这项技术,以便他们能够做得更好的新闻报道,因为在许多情况下,他们已经削减了组织规模,以至于没有多少冗余可以裁减了。

试图利用这项技术创建工具,让他们的记者能够进行更有影响力的报道,而不必追逐受众想要的信息性报道,但他们根本没有足够的人手去做。说了这么多,

我晚上仍然为此失眠。你为什么失眠?是打算用你的委婉语来提高效率,并通过减少人员来实现吗?还是打算为消费者创造更多价值,以便我们可以让这架飞机的机头朝上?

我们可以开始创造一个未来,让地方新闻企业家能够将地方新闻视为一个良好的小型企业。与此同时,在你表达担忧的同时,我也感受到一种信念,即这项技术可以提供帮助,并且会发展壮大并发挥作用。我的意思是,你如何将这两者结合在一起?我们的尴尬短语和高中体育报道中放置不当的变量并没有对任何人造成伤害。

但如果我们当时做的是逮捕报告,那可能会造成难以置信的伤害。现实情况是我们都将面临这个问题。我不希望任何人经历这些糟糕的事情,米卡。对。

我认为这里有一些教训需要学习,我们可以作为一个行业成长和进步,因为现实情况是,这些事情不是即将到来,而是已经来了。我在你的一些回答中听到的仍然是这种隐含的信念,即技术奔腾不息,无论如何都会到来。我想知道这是否是一个时刻,可以这么说,AI可能有一些用途,但我们不必仅仅因为技术很棒,兄弟,就将其推向其逻辑结论。是的,我同意

我认为我们应该使用Lead AI之类的技术来报道那些否则永远不会被报道的未报道的故事。我们应该严格审查这项技术,并确保它值得信赖且准确。

我知道有一些方法可以做到这一点。你已经坦诚地谈到了你的团队所犯的错误以及这项技术的局限性。你是否觉得媒体内部对AI的一些强烈反对是不公平的?例如,你认为有什么东西没有达到目标吗?我认为我们的行业倾向于从防御的角度来回应AI之类的事情。这是非常可以理解的。

我们的行业在过去二十年来一直在削减新闻编辑室的规模。我希望我们能够进入这样的空间,在那里我们理解我们更多的是共同努力,并且我们正在努力弄清楚。我认为我们作为一个行业需要能够同时掌握多件事,那就是恶意部署AI到我们的行业中会损害我们的行业。

有意、深思熟虑地为读者、社区和记者带来益处,可以使我们的行业受益。这两件事都可能发生。我希望是后者。这将是我继续努力的工作。杰伊,非常感谢你。谢谢你,米卡。我很高兴被邀请参加你的节目。谢谢。

杰伊·奥尔雷德是Source Media Properties的首席执行官,该公司旗下包括Lead AI和Richland Source(俄亥俄州的地方新闻机构)等公司。这就是本周中期播客的全部内容。您一定不要错过本周的大型节目。我们正在推出一个我们与ProPublica联合制作的全新系列节目。周五晚餐时间左右查看您的订阅源。我是迈克尔·翁格。