We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Could We Speak to Dolphins? A Promising LLM Makes That a Possibility

2025/5/23

Science Quickly

AI Deep Dive AI Chapters Transcript

People

Arik Kirschenbaum

Denise Herzing

Melissa Hobson

Rachel Feltman

Thad Starner

Thea Taylor

Topics

Rachel Feltman: 我认为海豚非常聪明和可爱，我一直好奇它们在想什么。梅丽莎·霍布森向我介绍了 Dolphin Gemma 项目，这是一个旨在解码海豚叫声的大型语言模型，这让我对我们是否能与海豚交流充满了期待。 Melissa Hobson: 我发现水下环境充满了声音，海豚主要通过声音进行交流。它们的声音交流方式非常广泛，包括口哨声、咔哒声和爆发脉冲声。Dolphin Gemma 项目利用人工智能来分析这些声音，希望能帮助我们理解海豚的语言。 Thea Taylor: 作为一名海洋生物学家，我对人工智能模型如何促进我们对海豚交流的理解非常感兴趣。我认为我们需要小心区分动物是否真正理解语言，还是仅仅将声音与奖励联系起来。我们必须以科学和公正的态度看待这个问题。 Arik Kirschenbaum: 我认为我们并不完全了解海豚是如何交流的，也不知道它们有多少话要说。我认为人工智能可以帮助我们发现人类可能没有注意到的模式。但是，我认为海豚可能没有我们所拥有的那种语言，因为语言是一种非常复杂且昂贵的东西，需要进化优势。 Thad Starner: 我和我的团队一直在努力重现一种叫做 VCM3 的特殊声音，但是我们一直没有成功。令我惊讶的是，Dolphin Gemma 竟然能够生成这种声音。我们希望通过 Dolphin Gemma 了解海豚如何完成声音序列，并发现它们交流的模式。 Denise Herzing: 我和我的团队花了 40 年时间研究大西洋斑点海豚，并收集了大量的声学数据。我们使用这些数据来训练 Dolphin Gemma。我们还开发了一种叫做 CHAT 的技术，可以让我们与海豚进行双向交流。我们希望通过这种技术，我们可以向海豚展示系统是如何工作的，并鼓励它们模仿我们的声音。

Deep Dive

Shownotes Transcript

海豚拥有广泛的词汇量。它们用哨声、咔哒声和“爆裂脉冲”发出声音。这种多样化的交流方式使得科学家难以破译海豚的语言。人工智能可以帮助研究人员处理音频，并找到人类耳朵可能无法识别的细微模式。记者梅丽莎·霍布森关注了由谷歌与野生海豚项目和佐治亚理工学院合作创建的大型语言模型DolphinGemma。该项目旨在解开哨声中的咔哒声，并了解海豚在水下聊些什么。推荐阅读：阅读我们关于DolphinGemma的文章：https://www.scientificamerican.com/article/can-ai-let-us-chat-with-dolphins/ 观看我们关于该项目的视频：https://www.tiktok.com/@scientificamerican/video/7499862659072871723 关注霍布森的报道： http://www.melissahobson.co.uk/ 告诉我们您的想法！参加我们的调查，就有机会赢得一些SciAm礼品！ http://sciencequickly.com/survey 如果您有任何问题、意见或想让我们报道的故事创意，请发送电子邮件至[email protected]！每天发现新事物：订阅《科学美国人》并注册我们的每日新闻通讯“今日科学”。 Science Quickly由Rachel Feltman、Fonda Mwangi、Kelso Harper、Naeem Amarsy和Jeff DelViscio制作。本集由Rachel Feltman联合主持。我们的节目由Alex Sugiura编辑，Shayna Posses和Aaron Shattuck负责事实核查。主题音乐由Dominic Smith创作。了解您的广告选择。访问megaphone.fm/adchoices</context> <raw_text>0 闭上眼睛，呼气，感受你的身体放松，放下今天你所承受的一切。

嗯，我放下了担心我的新隐形眼镜无法及时送到这节课的担忧。我从1-800-CONTACTS免费获得了它们。哦，我的天哪，他们太快了。深呼吸。哦，对不起。当我看到他们给我的第一笔订单的折扣时，我几乎喘不过气来。哦，对不起。合十礼。今天访问1-800-CONTACTS.com，即可节省您的第一笔订单。1-800-CONTACTS。

嘿，听众们，我是瑞秋。自从我开始主持《科学速递》已经一年了，因此，我想请您帮个小忙。我们非常希望获得您对《科学速递》表现以及您希望我们如何发展的反馈。

这就是为什么我们正在进行听众调查的原因。如果您在本月完成调查，您将有资格赢得一些很棒的《科学美国人》礼品。您可以在sciencequickly.com/survey找到调查问卷，我们也会在节目说明中提供链接。如果您能花几分钟时间完成调查，我们将不胜感激。我们保证不会占用您太多时间。再次提醒，您可以在sciencequickly.com/survey找到调查问卷。感谢您提前告知您的想法。

对于《科学美国人·科学速递》，我是瑞秋·费尔特曼。有一些动物几乎每个人都喜欢。毛茸茸的大熊猫、可爱的小猫、真正的老虎。海豚可能也会出现在大多数人的名单上。它们聪明、顽皮，脸上总是带着傻乎乎的笑容。但并非所有。

看着它们在水中快速游动，你会不禁好奇，这些家伙在想什么？这是许多科学家提出的问题。但我们真的能找到答案吗？如果我们甚至可以回应呢？自由撰稿人、海洋作家梅丽莎·霍布森一直在关注一个正在引起轰动（对不起，在媒体上）的新项目。它被称为第一个用于海豚发声的大型语言模型，或称LLM。

这项新技术能否让我们真正与海豚交流？以下是梅丽莎分享她了解到的内容。当你低下头潜入海滩的海浪时，水会使周围的噪音变得低沉，一切都会安静片刻。人们通常认为这意味着海洋是寂静的，但这并不完全正确。水下栖息地实际上充满了噪音。事实上，一些海洋动物非常依赖声音进行交流，例如海豚。

如果你曾经在水中与海豚一起游泳，或者在电视上看过它们，你会注意到它们总是喋喋不休、叽叽喳喳、咔哒作响和吱吱作响。虽然这些聪明的哺乳动物也使用视觉、触觉和化学信号，但它们经常使用发声来相互交流。它们拥有非常非常广泛的声学交流方式。这是西萨塞克斯海豚项目海洋生物学家兼常务董事西娅·泰勒说的。

一个位于英格兰南海岸的海豚研究组织。她没有参与海豚LLM项目，但她对这种人工智能模型如何提高我们对海豚交流的理解非常感兴趣。在发声方面，海豚通常发出三种不同类型的聲音：用于交流和识别的哨声、帮助它们导航的咔哒声，

以及爆裂脉冲，这是快速的一系列咔哒声。这些声音往往在打斗和其他近距离社交行为中听到。世界各地的科学家们已经花费了数十年的时间试图找出海豚如何利用声音进行交流，以及这些哺乳动物发出的不同声音是否具有特定的含义。例如，我们知道每只海豚都有一个独特的哨声，这基本上就是它的名字。

但它们还能说什么呢？阿里克·基申鲍姆是英格兰剑桥大学吉尔顿学院的动物学家。他是动物交流方面的专家，尤其是在海豚和狼等掠食性物种中。阿里克没有参与海豚LLM的工作。嗯，我们并不真正了解海豚是如何交流的。而我们最不知道的事情是，我们不知道它们能说多少话。

就个体之间的合作而言，这并不是很清楚，有多少是通过交流来调节的。多年来，世界各地的研究人员收集了大量关于海豚发声的数据。

手动浏览这些录音以寻找模式需要时间。人工智能可以比我们更快地处理数据。它还有一个好处，那就是没有人类的视角。我们几乎有机会利用人工智能让它自由发挥，去观察我们可能没有看到和没有捕捉到的模式和指标。所以我认为这正是我特别兴奋的地方。

这就是一个研究团队希望利用名为Dolphin Gemma的人工智能项目所做的事情，这是一个用于海豚发声的大型语言模型，由谷歌与佐治亚理工学院和非营利性野生海豚项目合作创建。我采访了佐治亚理工学院教授兼谷歌DeepMind研究科学家塔德·斯塔纳和野生海豚项目创始人丹尼斯·赫辛，以了解LLM的工作原理。

野生海豚项目已经花了40年的时间研究大西洋斑点海豚，

这包括记录用于训练Dolphin Gemma的声学数据。然后，佐治亚理工学院和谷歌的团队要求LLM生成类似海豚的声音序列。它创造的东西让所有人都感到惊讶。人工智能模型生成了一种声音类型，塔德和他的团队无法使用传统的计算机程序人工复制这种声音。创造这种独特的海豚声音的能力能否让我们更接近与这些动物交流？

我们一直很难重现我们称之为VCM3的特定类型的发声。

当我们试图进行双向交流工作时，这是海豚更喜欢回应我们的方式。VCM 3型或VCM3是前面提到的爆裂脉冲的一种变体。传统上，在圈养实验研究中，海豚出于某种原因，会模仿它们使用音调哨声给出的哨声。就像，对，你会听到它。

我们看到的是塔德所描述的，是我们合作的斑点海豚似乎想要模仿的方式。它使用一次或两次咔哒声。它基本上会自动去除某些频带的能量。

所以当我第一次看到Dolphin Gemma第一个版本的成果时，有一半是，你知道的，模仿海洋噪音。但后一半实际上是在做我们期望从海豚那里看到的哨声类型。令我惊讶的是，VCM3出现了。我说，哦，我的天哪，那些对我们来说最难做的事情，我们终于有办法真正创造出那些VCM3了。

他们将使用人工智能的另一种方式是查看LLM如何完成海豚声音序列。这有点像你在谷歌搜索栏中输入内容，自动完成功能开始完成你的句子，预测你将要问什么。

一旦我们用所有内容训练好Dolphin Gemma，我们就可以对特定类型的发声进行微调，并说，好吧，当你听到这个时，你接下来会预测什么？我们可以要求它多次这样做，看看它是否会预测出特定的发声。然后我们可以回顾丹尼斯40年的数据，说，嘿，这是否一致，对吧？它帮助我们

用放大镜来观察我们应该注意什么。如果人工智能持续不断地给出相同的答案，它可能会揭示出一种模式。如果研究人员发现了一种模式，他们就可以检查野生海豚项目的 underwater 视频片段，看看海豚在发出特定声音时是如何行动的。

这可以为发声增加重要的背景信息。好吧，当我们在这些20个序列中看到序列A时，它们在做什么？它们总是在打架吗？它们总是在管教它们的幼崽吗？我的意思是，我们知道它们有一些与某些类型的行为相关的特定类型的声音，但我们没有的是重复的结构，这将暗示它们声学中的一些类似语言的结构。

该团队还希望了解当研究人员播放由计算机程序创建的类似海豚的声音来指代海草或玩具等物品时，动物会做什么。为此，该团队计划使用塔德团队开发的一项名为CHAT的技术。它代表鲸类听觉增强遥测。该设备在与海豚自由潜水时佩戴，能够识别音频并播放声音。幸运的是，对于必须佩戴它的丹尼斯来说，

这项技术多年来已经变得更小、更轻便，现在都集成在一个单元中。

它以前由两部分组成：胸板和臂板。当丹尼斯实际滑入水中时，她很可能会把自己撞晕。我从未把自己撞晕过。进出才是挑战。你需要一个小型起重机，对吧？因为这东西又大又重，直到你进入水中，很难制作出你可以快速穿上东西。所以多年来，我们一直在迭代一个安装在胸部和手臂上的系统。

现在我们有了这个小的东西，它只安装在胸部。这里最大的变化是，我们发现Pixel手机的AI现在已经足够好了，可以实时进行所有处理，比我们五年前制造的专用机器要好得多。所以我们已经从一个

我不知道，一个盒子里的四五台不同的电脑，变成了基本上是一部智能手机。它真的改变了我们能做的事情。而且我不再害怕丹尼斯每次滑入水中了。研究人员使用聊天系统来标记不同的物品。两个自由潜水员进入水中，附近有海豚。

如果研究人员可以看到他们不会干扰海豚的自然行为，他们会使用他们的聊天设备播放人造的类似海豚的声音，同时拿着或传递一个特定的物体。希望海豚可能会学会哪些声音指的是不同的物品，并模仿这些特定的声音来索要相应的物品。

你想向海豚展示系统的工作原理，而不仅仅是期望它们快速理解并吸收它，对吧？所以另一个人和另一个研究人员，我们正在用我们的小型合成哨声互相索要玩具。我们交换玩具。我们在海豚周围观看时与它们一起玩耍。如果海豚想加入游戏，它们可以模仿该玩具的哨声，我们会把它给它们。例如，这是研究人员用来表示围巾的声音。海豚喜欢玩围巾。

丹尼斯有一个她用来识别自己的特定哨声。

但是团队是否无意中训练了海豚，就像你教狗坐下一样？以下是西娅的看法。我认为我的犹豫在于，这是否是动物真正理解语言，还是更像是，我发出这个声音与这个东西有关，我得到奖励。这就是我们必须小心的地方，我们不能带入人类的偏见和，哦，它理解这种兴奋，我明白，我完全理解人们想要感觉像

我们可以与海豚交流，因为，我的意思是，谁不想能够与海豚交谈呢？但我认为我们确实必须小心，在看待语言的概念以及动物理解什么时，要从非常客观和科学的角度来看待它。这就是我们需要停下来拿出字典的地方。因为如果我们试图发现海豚是否拥有语言，我们

我们需要明确语言到底是什么。嗯，没有一个真正好的语言定义，但我认为，如果我们要给它一个非常独特的名称“语言”，那么真正必须存在的一件事是，这些不同的交流

符号或声音或单词或任何你想要称呼它们的东西需要能够以不同的方式组合，这样你几乎可以说任何东西，如果你可以将不同的声音或不同的单词组合成不同的句子，那么你就可以支配无限范围的概念，你可以传达，而真正能够无限地表达你想要表达的东西，这似乎是语言的重要组成部分

所以，如果我们将语言理解为传达无限事物的能力，而不是仅仅将不同的噪音分配给不同的物体，我们能否说海豚拥有语言？

目前，阿里克认为答案可能是否定的。所以它们显然具有识别物体并通过不同的声音区分不同物体的认知能力。这并不完全相同。这甚至与拥有语言相差甚远。我们知道可以教海豚……

理解人类语言。如果让我猜测，我会说我认为海豚可能没有像我们一样的语言。原因很简单。语言是一种非常复杂的语言

而且代价高昂的东西。这是消耗我们大量大脑的东西，它只有在提供一些进化优势时才会进化。而且海豚从语言中获得什么进化优势并不完全清楚。对阿里克来说，这个研究项目不是关于翻译动物发出的声音，

而是看看它们是否似乎将复杂的AI序列识别为具有意义。电影《星际迷航：回家之旅》中有一个很好的例子，企业号的船员试图与座头鲸交流。

柯克问史波克，我们可以回应这些动物吗？他说，嗯，我们可以模拟声音，但不能模拟意义。我们将用胡言乱语来回应。现在，他们会用胡言乱语来回应的原因有几个。一个原因是，当你听几只座头鲸时，你不可能有足够的信息来

建立一个真正详细的沟通地图。当你在人类语言上训练大型语言模型时，你使用的是整个互联网。数十亿计的表达正在被分析。

我们中没有人研究动物交流拥有接近人类数据集大小的数据集。因此，仅仅通过观察序列来反向工程和理解意义是非常困难的。还有一个问题。当我们将一种人类语言翻译成另一种语言时，我们知道两种语言的含义。

但这对海豚交流来说并不适用。当我们与动物一起工作时，我们实际上不知道特定序列的含义。我们或许可以确定序列具有意义，但如果没有能够询问动物本身，这当然需要语言，那么理解这种意义就非常非常困难。所以这是一个我们在解码动物交流时面临的非常循环的问题。

丹尼斯说，这个项目并不完全是关于试图与海豚交谈，至少现在还不是。与这些动物进行真正对话的可能性还很遥远。但研究人员乐观地认为，人工智能可以为他们破译海豚哨声的努力打开新的大门。最终，他们希望在这些序列中找到潜在的含义。那么Dolphin Gemma能否帮助我们弄清楚海豚和其他动物是否拥有语言？

塔德希望如此。语言伴随着文化。我希望如果我们开始进行这项双向工作，海豚会向我们揭示我们以前从未预料到的新事物。我的意思是，我们知道它们在这些地区潜得很深，看到人类从未见过的事物。

我们知道它们与其他海洋生物有很多互动，我们对此一无所知。但即使我们不太可能很快与弗利帕聊天，科学家们也对这可能导致什么感兴趣。人类常常将语言视为将我们与动物区分开来的东西。如果我们发现它们使用语言，人们是否会对鲸类动物（鲸鱼、海豚和鼠海豚）更有同情心？

作为对鲸类动物交流特别感兴趣的人，我认为这可能是理解它的一大进步，即使是在更基本的意义上。如果我们能够开始更多地了解鲸类动物的世界，我们对它们的了解越多，我们就能更好地保护它们，我们就能更好地理解什么是重要的。所以，是的，我很期待看到这能为鲸类动物保护的未来带来什么。

这就是本周星期五迷恋的全部内容。我们将休假周一纪念日，但我们将于周三回来。在此期间，如果您能花一点时间填写我们正在进行的听众调查，我们将不胜感激。我们希望了解更多关于我们听众的信息，以便我们可以继续使《科学速递》成为最好的播客。如果您在本月提交答案，您将有资格赢得一些甜蜜的SIAM礼品。立即访问sciencequickly.com/survey填写。

《科学速递》由我瑞秋·费尔特曼以及Fonda Mwangi、Kelso Harper、Naima Marci和Jeff Dalvisio制作。本集由梅丽莎·霍布森报道和联合主持，由亚历克斯·扎吉亚拉编辑。Shaina Poses和Aaron Shattuck负责节目的事实核查。我们的主题音乐由Dominic Smith创作。订阅《科学美国人》，获取更多最新和深入的科学新闻。对于《科学美国人》，这是瑞秋·费尔特曼。祝您周末愉快。♪

谢谢。

Could We Speak to Dolphins? A Promising LLM Makes That a Possibility 19:07 Share

Science Quickly

Deep Dive

Shownotes Transcript

Could We Speak to Dolphins? A Promising LLM Makes That a Possibility