We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI and the future of dictionaries, with Erin McKean

AI and the future of dictionaries, with Erin McKean

2025/4/17
logo of podcast Grammar Girl Quick and Dirty Tips for Better Writing

Grammar Girl Quick and Dirty Tips for Better Writing

AI Deep Dive AI Chapters Transcript
People
E
Erin McKean
Topics
Erin McKean: 我对人工智能持怀疑态度,我认为'人工智能'这个词用词不当,更准确的叫法是'模仿智能',因为大型语言模型是基于英语的统计模式,而单词的含义取决于语境。我们进行了一项研究,测试了大型语言模型在字典任务中的表现,结果显示其表现平平,但该领域的研究非常活跃。大型语言模型的训练成本非常高昂,这使得雇佣大量语言学家可能更经济实惠。大型语言模型会产生'幻觉',因为它本质上预测下一个最可能的单词,但这并不一定是一个真实的或有意义的单词。人工智能的应用会改变现状,但其成本和投资回报可能不如人们预期的那样高,因为语言学家的成本远低于人工智能工程师。要使大型语言模型在特定任务上表现出色,通常需要进行专门的训练和微调。大型语言模型的训练依赖于海量文本数据,而这与语言学家和计算语言学家所依赖的数据相同,这可能会对学术研究造成影响。如果所有文本数据不再被视为学术研究的公平游戏,那么计算语言学和词典学领域的研究进展将会停滞。目前难以区分互联网上的文本是人类创作还是大型语言模型生成的,这会影响语言学家的分析和研究结果。大型语言模型不擅长一些词典学任务,例如按字母顺序排列单词、识别语料库中未包含的单词以及生成国际音标发音。大型语言模型擅长将成人水平的定义改写成更低的阅读水平。现在成为一名语言学家的机会比以前少了很多。语言学家工作的减少并非完全由人工智能造成,互联网和印刷媒体的衰落也起到了作用。互联网对词典的商业模式造成了冲击,但同时也使像Wordnik这样的在线词典成为可能。我目前将Wordnik视为一个耗费大量个人时间的爱好,希望未来它能够成为一个能够维持生计的项目。

Deep Dive

Shownotes Transcript

语法女孩在这里。我是 Mignon Fogarty。在接下来的几周里,当我们从访谈中休息时,我们将发布一些支持节目的人在常规季节期间获得的最佳额外集。这周,你将听到与 Erin McKean 的幕后对话,她是一位几乎独自运营在线字典 Wordnik 的词典编纂者。我们正在讨论 AI 如何影响字典。

她甚至进行了一项研究,看看 AI 可以完成哪些字典任务,哪些不能。所以每次我进行采访时,我们都会做这些额外的内容。几乎每周都有。感谢目前支持节目的 Grammarpalooza 订阅者。你们使这一切成为可能,我们非常感激。如果你正在收听或观看,并且希望成为 Grammarpalooza 的支持者并支持这个节目,

我们也会很感激。你可以在 Apple Podcasts 的语法女孩节目页面上注册。此外,你还可以通过短信获取所有内容。要了解更多信息,请访问 quickanddirtytips.com slash bonus。你会在节目笔记中找到这两个选项的链接。

如果你想帮助,可以在 Apple Podcasts 的节目页面上注册,或者通过短信获取所有内容。你可以通过访问 quickanddirtytips.com slash bonus 了解更多关于该选项的信息。这两个链接都会在节目笔记中。

Erin,非常感谢你来到这里。哦,非常感谢你邀请我。是的。在主要部分中提到的其中一件事情是你提到了字典中的 AI。我真的很好奇你的想法。我是说,最近,dictionary.com 解雇了他们所有的词典编纂者。

尽管他们没有说这是因为 AI,但很多人都在猜测这可能是因为 AI。所以我只是想知道你的想法。而且因为你非常精通技术,你在你的字典上做了很多技术工作,你使用 API,对吧?所以,你对这种似乎正在影响字典的技术有什么看法?

所以,我有点怀疑 AI,但我对此感到有些伤心,因为我认为人工智能有点是个误称。事实上,我在网上看到有人说我们应该称之为模仿智能。我认为这个说法更好,对吧?

所有这些大型语言模型都是基于英语的统计模式,对吧?所以理论上,英语只是我们使用单词的统计模式。单词实际上只在上下文中有意义,这意味着如果你在一个句子中有一个单词,并且它在另一个句子中前后都被相同的单词包围,你可以

几乎可以感觉到它们会有类似的意义,因为它们有相似的上下文。就像我最喜欢的一个例子是,如果你对某人说“吐司”这个词,他们不知道他们会得到香槟还是一片涂了果酱的面包,直到你说更多的东西。对吧?因此,我真的认为,甚至我现在可能仍然认为,有一些字典任务

这些模型会做得很好。所以实际上,Will Fitzgerald,他曾与我在 WordDict 工作,我们为 AsiaLex 做了一篇论文,讨论使用大型语言模型进行一些字典任务的投资回报率。因此,我们直接使用了 chat GPT,并让它处理一些任务。结果是...

嗯,结果并不理想,对吧?但这是一个非常活跃的研究领域。Euralex 上已经发表了论文。我相信在下一个字典协会会议上会有更多的论文,因为人们想要相信。现在,问题是,我认为,这只是我个人的看法,因为我在谷歌的日常工作中并不涉及任何与 AI 相关的工作。我在开源项目办公室工作。好的。许多模型...

可能没有我们认为的那么便宜。它们有环境成本。现在的价格算是一种亏损引导,但训练这些模型的成本非常高。据估计,其中一些模型的训练成本达到一万亿美元。

我不知道你怎么看,但我认为用一万亿美元可以雇佣很多词典编纂者。是的,这真是令人震惊。是的。因此,这项投资被认为是值得的原因是他们认为它们会是通用的,对吧?它是生成性 AI。你可以生成任何你想要的东西。但它真的会有效吗?我们都见过这些模型产生的幻觉,对吧?

当你思考时,他们实际上给你的是什么他们认为下一个最可能的单词。这是一个真实的单词吗?通常不是。是的,关于这一点有很多内容。我现在正在读一本很棒的书,我们实际上将在 WordNet 博客文章中介绍这本书,五个来自博客的单词,我们从一本有趣的书中选取五个单词。书名叫《AI Snake Oil》。是的。它有一些非常有趣的思考 AI、生成模型、预测 AI 的方式,对吧?

我认为这些都是非常有用的。像是什么东西适合什么以及你如何判断是我认为 AI 的关键问题。我可能可以对此讨论几个小时,因为我发现这是一个迷人的话题。但简短的答案是,它可能会改变一些事情。它不会像人们认为的那样便宜、简单或高投资回报率,因为你知道还有什么?

词典编纂者的成本远远低于 AI 工程师,差不多低一个数量级。

因此,如果你必须雇佣一个数据管道工程师、一个 AI 工程师、一个编写代码的人和一个调优模型的人,你可以用那笔钱雇佣很多词典编纂者。调优模型才是关键,对吧?因为,我的意思是,你可以说,好吧,你花了一万亿美元,但你并不是在替代词典编纂者。你还会将其用于医学和科学研究以及...

你知道,很多其他事情。因此,想法是,或许如果分散在所有这些事情上,那么,也许,知道,也许值得进行大投资,但要获得在某项任务上表现出色的东西,通常需要进行一些特别的培训。对吗?我理解得对吗?是的,你想调优模型,以便它给你想要的输出,就像调节引擎一样。对词典编纂者而言,AI 还有一个问题是,这些模型必须在大量文本上进行训练。

而且现在每个人都在争相收集尽可能多的文本,因为他们认为越大越好。现在有一些研究表明,这可能不是真的。但像 HarperCollins 今天宣布,他们将把他们的书籍授权给一家未具名的 AI 公司。人们开始觉得,这个工具可能会取代我。为什么我要让它访问我的工作,以便它能成为我?但这就是词典编纂者依赖的数据,以制作字典。是的。

这就是计算语言学家依赖的数据,以进行研究。如果所有这些数据不再被视为研究的公平游戏,因为 AI 工具对其进行欺凌,我们在这些领域的科学进展将停滞不前,因为没有计算语言学家,没有词典编纂者有钱去进行那种授权。

这真有趣。是的,我也看到了这一点。人们很生气,他们在说,不,你不能使用我的书。但,是的,但如果他们对那些不那么令人恐惧、不那么激进的研究者说同样的话,那就是一个问题。我们一直认为这是合理使用,因为如果你在字典中查找一个单词,它有一句来自你书中的句子,

那并不会替代你的书的部分价值。希望我们不会使用那句泄露情节的句子。但通常,它不被视为竞争性商品,对吧?但如果你训练一个 AI 模型来以 Erin McKean 的风格写小说,我会感到不快。我会非常生气。而且,为什么?还有...

另一个对词典编纂者和语言学家普遍存在的问题是,我们没有好的方式来理解互联网上的文本是由大型语言模型生成的,还是由人类生成的。因此,如果我看到来自博客文章的示例句子,而我无法判断它是人类写的还是不是,我们把这些数据输入到我们所有的分析和系统中。

也许我们只是在描述机器人的英语,而不是人类的英语。我们现在不知道互联网上有多少文本是 LLM 生成的。很难判断。任何说他们能判断的人都是在试图卖给你一些东西。对吧?而且,确实有人报告说,他们看到一些明显是 AI 写的东西在谷歌搜索结果中排名很高。你现在必须非常小心。

是的。是的。我很好奇你在你的论文中尝试让它做什么任务,它不太擅长。因为我非常好奇。因为一般来说,在线上的单词并不是按字母顺序排列的。它不能像 LLM 做得很差的任务那样按字母顺序排列单词。一个 LLM 做得很差的任务是查看一组单词并查看一个语料库,并说,嘿,这个语料库中出现了哪些单词而这个列表中没有。

它在生成 IPA 发音方面做得不好,因为 IPA 发音在数据中并没有太多出现。没有足够的相关信息,使其成为 LLM 的合理任务。是的。我认为它表现最好的任务是将以成年水平写的定义重写为较低的阅读水平。实际上,这样做效果很好。是的。我试图想出我们可以外包给 LLM 的最无聊的词典编纂任务是什么。我想,哦,这不...

每个词典编纂者最讨厌做的事情是什么?我认为这因人而异。我非常不喜欢写 IPA 发音,因为我真的很糟糕。

但,我不知道,如果当时有足够的词典编纂者可以填满一个中型音乐厅,我们可以做一个很好的调查。是的。当你说到一种不可复制的职业道路时,我在想。当今成为词典编纂者似乎比 15 或 20 年前要困难得多。是的。没有工作。是的,根本没有工作。我可能已经有六个月没有收到学生的电子邮件询问如何成为词典编纂者了。

我以前每月都会收到。是的。这真是令人伤心的事情。让我...

非常,非常伤心。这些都是很酷的工作。我希望晚上上床时知道在世界的某个地方有一百个词典编纂者,知道他们在研究单词。我,是的,我的意思是,是的。有一个非常美好的引用,来自 J.R.R. 霍尔伯特,他是一位 30 年代的词典编纂者,他谈到这是世界上最好的工作,因为你每晚都能入睡,

感到自己在推进伟大的事业朝着完成的方向,所有的问题都很小但却非常吸引人,你从来不会在几个月或几年的时间里走进死胡同。

然后不得不像回溯一样。不,你总是在进步。问题虽然小,但却真的很有趣。你知道,这是真的。是的,这很棒。而且,这并不是 AI 完全造成的问题。词典编纂者的工作减少,我认为这已经发生很久了。而互联网确实在破坏字典的商业模式,你知道的,已经有一段时间了。

对于所有印刷品来说,基本上。广告收入并不能弥补实际购买实体商品的收入损失。但,你知道,我不能抱怨,因为 Wordnik 如果没有互联网就无法存在。我们无法将 Wordnik 放入一本书中,对吧?对。你知道,很难弄清楚什么会是更好的商业模式,但我现在感到非常幸运。

而且,Wordnik 基本上是我非常复杂的爱好。我在早晨、晚上和周末都在做这件事。这就像经营一个小剧院,对吧?我不必...

我不必像做资本主义那样去工作,只要我愿意投入我的无偿劳动。如果我能熬过这个奇怪的商业周期,那么希望在我准备退休时,它实际上会成为一个赚钱的事业,以至于有人可以重新接手作为全职工作。这是我的目标。是的。这是一个相当不错的目标。而且与此同时,我从来没有感到无聊。对吧?是的。

但是你确实有其他的爱好。你还有其他的爱好。所以我确实说过我们会谈谈你对裙子的热爱。你有一个每日裙子活动,并且你为此写了一本小说。这与这个每日裙子活动也有很大关系,对吧?你能谈谈这个吗?是的。大约 20 年前,我开始了一个名为每日裙子的博客。在最初的,不知道多少年里,我几乎每天都在写关于一条裙子的博客。

然后当 Wordnik 成为一家初创公司时,我想,我没有更多的时间。但我就是喜欢裙子。我觉得它们是最有趣的衣物,我喜欢缝纫,我喜欢制作裙子。所以我想,这有点像是一个鸡和蛋的情况。因此,我开始博客

关于裙子。如果我出现在某个地方而没有穿裙子,人们就会对我感到有些生气。为什么你不穿裙子?你是裙子的人。所以我基本上已经穿了 15 年的裙子。是的。

我的意思是,除非我在瑜伽课上或其他地方,但。是的。你自己并没有每天做一条裙子,对吧?不,不,不。那个,理论上是可能的,但如果我真的这样做,我现在可能会有各种重复性劳损伤害。是的。我一个好月份做几条裙子。好的。然后,所有的裙子都有口袋吗?

它们都有巨大的口袋。我觉得如果你不能把手臂基本上像几乎到肘部放进口袋里,那它甚至算不上是口袋?是的。干得好。我想能够携带三本平装书和一只小兔子。像...

太棒了。你写的关于裙子的小说是什么?哦,这本小说叫《裙子的秘密生活》,因为在博客上,我曾经从裙子的角度写这些小故事。然后我得到了代理的兴趣,他们说,嘿,这应该是一本书吗?在那时,我在出版行业工作了足够长的时间,知道短篇故事集是不会卖的。所以我想,写一本框架小说吧。

故事可以放在小说中,但它们并不是小说的全部,如果这样说没错的话。所以这就是一本完全标准的架子小说。

我最喜欢的小说家之一,Kathleen Norris,她是 1930 年代最畅销的女性小说家。她说她的小说的整个主题是让一个女孩陷入麻烦,然后将她救出来。我认为这就是所有架子小说的情节,对吧?让一个女孩陷入麻烦,救她出来。我们喜欢那样。会有一个快乐的结局。很好。

所以是的,它仍然在卖。它仍然在印刷中,我对此非常高兴。拥有一本仍在印刷中的书真不错。而且它在澳大利亚的表现很好。因此,它已被选为在澳大利亚拍摄电影。哦,那太棒了。所以希望它有一天能拍成电影。哦,如果成真请告诉我。我会告诉每个人,因为那将是惊人的。

是的。你必须去澳大利亚。你知道,去澳大利亚看电影是可以抵税的。哦,是的。我绝对会为了这个去澳大利亚。澳大利亚很有趣。你去过吗?没有,我很想去。我强烈推荐。

是的。我的大学室友住在澳大利亚,所以我真的应该去。你有一个内置的借口。我确实。虽然很远。真的很远。确实是一次很长的飞行。是的。但只要你在那里,你还应该去新西兰。是的。然后我有一个月吗?我现在不觉得我有。

那么,谈到书籍,我们来结束谈谈,我们请客人推荐他们最喜欢的书籍。那么你能和我们分享一些你最喜欢的书籍吗?哦,挑选一些最喜欢的书籍真的很难,因为我真的很喜欢书,并且有太多书了。所以我建议的一本书是 Diana Vreeland 的书。实际上,她在我身后的这张照片中。她基本上是现代女性杂志编辑角色的创造者。

她还是大都会艺术博物馆服装研究所的创始人。她绝对是 100% 疯狂的,而且是以最好的方式。她在 Harper's Bazaar 上有一个专栏,她称之为“你为什么不?”它们只是荒谬的建议。实际上,我把这本书从书架上拿了下来。因此,它是

《这是一本书,Diana Freeland》。封面是白色的,上面和下面有红色的文字。然后“你为什么不?”是斜体的黑色文字,横跨中间。是的。因此,她会说,为什么不把你的旧貂皮大衣变成浴袍?为什么不?她最著名的“你为什么不?”建议是,为什么不在平香槟中洗孩子的头发?所以...

我喜欢阅读 Diana Vreeland 的东西。我喜欢阅读关于 Diana Vreeland 的东西。很长一段时间,我有一个 Twitter 账户,假装是 Diana Vreeland,随时说“你为什么不”,这都是疯狂的。我想很快就把它转移到蓝天上。是的。我觉得她很可爱,也很迷人。

那么这是她专栏的合集还是传记?这是她在 Harper's Bazaar 上做的东西的合集,包括她大部分的“你为什么不”。还有另一本迷人的书,是她在 Vogue 担任编辑时发送的备忘录,这些备忘录也绝对不理智。是的。

太棒了。是的,你必须看看。但我喜欢在感觉自己陷入困境时拿起这本书看看。你知道,是否有一种叫做斜策略的东西?基本上,这是一组卡片,或者有在线版本。当你感觉陷入困境时,它是用来做的。就像,取你做的最后一件事并反转它。对。但我认为“你为什么不”的建议让我朝更远的方向发展。嗯。

考虑平香槟作为洗发水。就是要放开。好的,还有其他书籍吗?我完全作弊,推荐了 Rosemary Kirstein 的《舵手女人》系列。这基本上是科幻奇幻小说。为什么这是作弊?因为有四本。哦,好吧。如果你喜欢...

如果你喜欢你的奇幻小说中有大量语言学内容,那就继续阅读这个系列,因为在第三本书中有一个惊人的语言学部分。整个《舵手女人》书的前提是,有一些被称为舵手女人的人。这就是她们的工作。她们四处走动,问问题并尝试学习一些东西。

如果你不回答舵手女人的问题,任何舵手女人将永远不会为你回答问题。所以这有点像她们是流动的问询图书管理员。

哦,我爱这个。太好了。太好了。有时候我犹豫推荐这些,因为作者仍在努力写第五本书,但这些书在一个合适的地方结束。它不是一个大的悬念。你可以获得所有你可能想要的乐趣,阅读这四本书。这是很多。我是说,这是一大堆开始的内容。是的。

听起来真棒。它们太好了。还有其他的吗?如果你知道,当他们问你如果可以和历史上的任何人共进晚餐,你会选择谁,Diana Vreeland 是一个,Samuel Johnson 是另一个。我喜欢阅读关于 Samuel Johnson 的书。我最喜欢的一本关于 Samuel Johnson 的书叫《Samuel Johnson and the Life of Writing》。

由 Paul Fussell 撰写。这是一本和我一样老的书,字面意思。但他真的谈到了 Samuel Johnson 如何看待写作,不仅是字典,还有他写的所有东西。他非常多产,并且谈到了他自己的个人斗争,因为他真的想成为一个比他认为自己更好的人。

因此,他的许多写作都是在我们今天不太考虑的体裁中,比如祈祷。谁在常规写作实践中坐下来写祈祷?很少有人这样做,而且大多数人都是神职人员,对吧?无论如何,我觉得 Samuel Johnson 令人无尽地着迷。是的。

我认为很多人只读像《约翰逊传》这样的书。但我认为还有很多更多的内容。你可以阅读关于约翰逊的更多内容。是的。我是说,我们通常在这里结束,但实际上让我想起,在主要访谈开始时,你说你从八九岁开始就想成为一个词典编纂者。我想知道,你是通过约翰逊了解到词典编纂的并对他产生了兴趣?还是你只是喜欢,知道家里有字典,你只是喜欢阅读它们,觉得人们写这些,我想做这个?

这是个很傻的故事。所以当我还是一个像海绵一样的阅读者,每天阅读数小时时,总是借到法律允许的最多书籍。我也阅读任何进入我家中的东西,我的父母对此都很随意。我的爸爸在销售工作,他会拿到《华尔街日报》。我会阅读《华尔街日报》的有趣部分,那里有一个叫浮动专栏的东西。我当时不知道这个名字,但它是第一页的人物故事。

嗯,有一篇关于 OED 第二版的故事,讲述它已经逾期了大约 27 年。所以那是,知道这是我活着的四倍的时间。我想,哇。所以我想,等一下,人们在制作字典,而这就是那份工作的样子。我可以做那个工作。

所以我想,我想制作字典。而且我当时还是一个北卡罗来纳州的小女孩。没有人真的知道字典制作是什么。北卡罗来纳州没有字典公司。所以他们就说,好的,随便吧,亲爱的,随你想要的。没有人真正劝我放弃。对吧?就像,没人告诉我,哦,词典编纂者的工作比芭蕾舞者还少。你知道的,

哦,这是个好故事。那根本不是个傻故事。我敢打赌,《华尔街日报》的人会很惊讶,他们激励了孩子们。我曾经遇到过一个在《华尔街日报》工作的人,她是那个专栏的编辑之一。我告诉她这件事时,她很惊讶。我仍然保留着那篇报纸文章。我从报纸上剪下来的。我希望我让我爸爸在剪之前把报纸看完。

哦,那太好了。我把它放在一个文件夹里。你需要把它装框。它应该挂在你爱的女人旁边。它上面有我孩子的手写字和日期标记。哦,我的天,那太完美了。好吧。

好吧,Erin McKean,非常感谢你今天来到这里。人们可以在哪里找到你在线?哦,你总是可以在 wordnik.com 找到 Wordnik。我在蓝天上的用户名是 E. McKean,我想在蓝天社交上。是的。

是的,就差不多这些。哦,dressaday.com 是我关于裙子的博客。是的。我的姓是 McKean,M-C-K-E-A-N。是的。我基本上在每个地方的头像都是一个小粉色机器人。所以请寻找那个作为你 Erin McKean 内容的真实性标志。太好了。非常感谢你。再见。你欢迎。

我希望您喜欢这个额外片段。如果您错过了完整的采访,Erin 在 11 月讲述她如何几乎独自运营她的在线词典 Wordnik 的主要节目,您可以在您的订阅源或节目说明中找到它。再次感谢所有 Grammarpalooza 支持者。我们感谢您的帮助。

非常感谢。如果您正在收听或观看,并且想成为 Grammarpalooza 支持者,您会在 11 月收到此节目。最重要的是,您只需通过表达对节目的赞赏来提供帮助。因此,您可以通过 Apple Podcasts 上的节目页面,即 Grammar Girl 节目页面注册,或者通过 Subtext 获取所有短信。

这两个链接都在节目说明中。如果您想了解更多信息,您可以在 quickanddirtytips.com/bonus 了解更多信息。就这样。感谢收听。