We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Reasoning, Robustness, and Human Feedback in AI - Max Bartolo (Cohere)

2025/3/18

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Max Bartolo

Topics

Max Bartolo: 我在Cohere从事人工智能模型的研究工作，主要关注模型的推理能力、鲁棒性和实用性。我的研究涵盖了模型验证、对抗性数据收集、模型评估以及人类反馈机制等多个方面。我发现，模型的推理能力并非简单的模式匹配，而是结合了模式匹配和基于规则的推理。模型的鲁棒性至关重要，需要通过动态基准测试和对抗性数据收集来不断提升。人类反馈在模型训练和评估中发挥着重要作用，但其并非金标准，人类的偏好受多种因素影响，例如格式、风格和自信程度。因此，我们需要更细致地分析人类反馈，并根据用户的个人偏好动态调整模型的行为。此外，模型的上下文窗口大小也至关重要，需要在性能和效率之间取得平衡。未来，我们需要开发更通用的推理模型，并更关注模型在实际应用中的价值。

Deep Dive

Chapters

This chapter explores the challenges of ensuring AI model consistency and robustness. It questions whether models truly reason or simply excel at specific benchmarks and highlights the need for reliable performance.

The expectation of machines is consistently that they are right all the time.
Model consistency and robustness are crucial; if a model fails inconsistently, it raises doubts about its reasoning capabilities.
Humans are adept at finding examples where models fail, suggesting a lack of genuine reasoning.

Shownotes Transcript

机器始终被期望是正确的。这是传统软件的一个功能。

如果你有一个计算器，你输入一加二，计算器显示三，然后你尝试二加七，计算器显示十七，你会扔掉你的计算器。你不会尝试其他任何问题。我们需要这种一致性，也需要这种鲁棒性。下一步是真正说服人类，模型实际上始终如一地执行他们被要求做的事情。

模型会推理吗？也许会。我认为推理是一个有点超载的术语。它被用来表示许多不同的含义。我甚至不知道这是否是正确的问题。我们是否真的关心模型是否以我们可能认为的方式进行推理？如果人类能够持续成功地让模型在略微不同的例子上失败，那么我认为可以公平地假设模型并没有真正进行推理。它只是想出了如何在特定基准测试中表现良好。

MLST 由 2forAI Labs 赞助。现在他们是位于瑞士的 DeepSeek。他们有一个很棒的团队。你已经见过团队中的许多人。他们当然收购了 Minds AI。他们在 ARC 上做了很多伟大的工作。他们现在正在研究 O1 风格的模型以及推理、思考和测试时间计算。你想要为他们工作的原因是你可以获得大量的自主权，你可以获得可见性，你可以发表你的研究成果。而且他们也在招聘，除了机器学习工程师，他们还在招聘首席科学家。

他们真的非常希望为这个职位找到最合适的人选，他们准备支付高额的签约奖金。因此，如果您有兴趣作为机器学习工程师或首席科学家为他们工作，请联系 Benjamin Cruzier，访问 twoforlabs.ai 并看看会发生什么。

欢迎来到 MLST。很荣幸能邀请您来到这里。谢谢，Tim。感谢邀请我。自我介绍一下。我是 Max。我是 Cohere 的研究员。我从事许多工作，主要是在训练后，但我对对抗性数据收集也很感兴趣，改进模型数据收集的更好方法，评估，这推动了这种持续的反馈循环，我们针对我们在模型性能方面关心的内容，然后找出如何提高这些方面的性能

然后你经常会看到性能很快就会饱和。在那时，你需要弄清楚，我们关心的下一层评估是什么？你正在这个持续的过程中进行迭代。我特别感兴趣的是让模型进行推理，更稳健地运行，并普遍更有用。我认为推理是一个有点超载的术语。它被用来表示许多不同的含义。我甚至不知道那

是否是正确的问题，即我们是否真的关心模型是否以我们可能认为人类推理的方式进行推理？我认为关于我们是否以我们认为自己推理的方式进行推理存在争议。但很明显，使用下一个文档预测进行训练的模型可以做一些非常令人印象深刻的事情。以及是否

实际的推理正在幕后发生，我认为这是一个有趣的研究问题，但在让模型做我们希望它们做的事情方面并不是真正的瓶颈。所以是的，我们最近与 Laura Rees 合作开展了一项工作。她与 Assetco 合作，并在预训练期间调查了模型从哪些类型的推理或哪些类型的信息中学习

预训练文档中的程序知识。她对我说过的电梯演讲是，你知道，我认为我们许多人对推理都相当怀疑，对吧？你知道，我受到 Cholet 的启发，我们说这些东西，你知道，不是哈希表，但是，你知道，它们正在做某种曲线拟合，某种检索或类似的东西。劳拉说她开始时也是这么想的。结果让她大吃一惊。那么她发现了什么？我们开始时认为……

模型基本上只是从它们预训练的所有信息的压缩版本中检索事实。他们基本上依赖于这种参数知识，这是存储在模型参数中的知识，以回答大多数看起来像推理查询的查询。

所以我们使用了一种叫做影响函数的东西，你可以把它想象成一种近似特定训练样本对模型行为的影响的方法。我们大约有 40 个事实问题。我们还有 40 个推理查询。其中一个发现，并且有很多有趣的发现，是对于事实问题，模型主要依赖于包含问题答案的文档。最多，那将是

模型为了回答事实问题而依赖的几个文档。但是对于推理查询，情况要复杂得多。信息分布在更多文档中，很多时候是包含回答问题所需的推理类型的文档。

而且它分布得更分散。因此，影响的分布几乎是分散的。它绝对给人留下了这样的印象

该模型只是依赖于它从这些不同的来源收集到的程序知识，并可能以有趣的方式将它们组合起来。是的，我们进行这项研究时，预计会发现相反的结果。我真的很喜欢结果真正挑战你思考问题的方式的工作。我认为，对我来说，对劳拉来说也是如此，它改变了我们看待这些模型运行方式的方式。

对此的反驳可能是，好吧，所有这些推理查询都非常相似。因此，也许模型只是依赖于这些不同的文档，因为查询的相似性。因此，我们也有一组控制

问题，它们在词汇和结构上与实际的推理查询非常相似，但不需要任何推理就能回答它们。举个例子，对吧？假设我们有

一个问题，例如，一条线由点 2, 2 和 3, 3 定义。线的斜率是多少？你需要弄清楚正确的方程式是什么，计算出斜率是 1 并给出答案。为此，你可能会依赖于你从这些文档中收集到的信息。而控制查询看起来像这样，

线的斜率是 1，线的斜率是多少？或者一条线由它具有 1 的斜率这一事实定义，线的斜率是多少？听起来并且在结构上与我们关心的问题非常相似，但不需要任何推理，因为答案就在那里。我们看到的是模型处理这些信息方式的巨大对比。所以这给了我们一个强烈的迹象，表明

该模型实际上正在进行某种形式的推理来计算这些斜率。影响函数的挑战之一是它们自然不具有很好的可扩展性。从非常简单的意义上说，你可以通过在没有该样本的情况下重新训练模型并比较差异来计算样本的影响。这显然非常昂贵。

影响函数本身需要计算逆海森矩阵。这很有用，因为它为你提供了关于模型损失景观的这种二阶信息。因此，它让你了解包含你关心的这个额外样本对损失景观的曲率和结构影响。

而且它非常昂贵。海森矩阵就像一个大矩阵。它在每个轴上都有维度，即模型中的参数数量。我们在这里使用 70 亿和 350 亿个参数。因此，它的计算成本非常高。因此，我们使用了 Anthropic 去年年底发布的基本上是基于其工作的成果。他们使用 ECVAC 扩展了近似曲率估计。

我认为是在 2018 年左右发布的。因此，这确实使我们能够与其他一些优化一起，将其扩展到相当大的模型规模。我认为关于模型规模，我们发现另一个非常有见地的方面是，似乎几乎没有相关性

7b 模型哪些文档具有影响力，以及 350 亿参数模型哪些文档具有影响力。我们并没有太多时间深入研究这方面的细节，但这也很有趣。这表明不同大小的模型可能只是以不同的方式学习事物。你对推理的定义是什么？对于模型来说，真正有效地推理意味着什么？我认为这归结为

所以对我来说，推理和鲁棒性是相互关联的，因为如果你能够推理，那么我希望正确的推理意味着稳健的推理。我举个例子。假设我们回到计算线的斜率。

如果一个模型能够真正地推理出这个相对简单的过程，对吧？你需要理解要应用哪个函数，然后一致地应用该函数。如果一个模型在 1000 次中有 999 次都做到了，但在 1000 次中有一次失败了，

对我来说，这确实开始质疑，例如，质疑这个模型是否真的在以我可能期望人类推理的方式进行推理，而那里的反驳总是哦，但是人类永远不会，他们并非不会犯错，对吧，他们总是会犯错误，也会出错，机器在这方面有点优势，他们不会

感到疲倦，他们没有，我认为，要应付作为人类的局限性。因此，我确实希望对某种特定类型的推理或特定定义的推理要求能够真正稳健且一致。是的，我认为现在越来越多的人开始看到这项技术的价值。我的意思是，我举个例子，比如这个用于跟踪播客的应用程序。我用半个小时就写好了。

对。只是使用语言模型。我们需要重新构想许多应用程序。我认为第一个策略是将人工智能融入现有应用程序。现在我们看到的是一整代全新的应用程序，这些应用程序是人工智能优先的。这就像 iPhone 时刻。我认为人们开始真正意识到这一点。但是让我们快速谈谈测试时间训练。

它被誉为新的缩放定律。当然，在 ARC 挑战赛中，所有获胜的结果都是这种转导式主动微调，即与其使用由其他人一次训练的全局共享模型，

我将采用该模型，并根据我的情况对其进行微调。我现在有一个非常适合这种情况的模型。它似乎更像是一种更分散的人工智能范式。但是我的意思是，你显然在 Cohere 工作，目前 Cohere 非常集中。我的意思是，你如何看待拥有大型集中式模型以及拥有更多分散式训练方法的未来？我认为我们将看到越来越多。我认为瓶颈是，

到目前为止一直是，你知道，有多少人拥有训练这些模型的知识、技能和经验。随着越来越多的人对人工智能、它所蕴含的承诺感到兴奋，

围绕共享这些模型的工作，例如 Cohere 模型，例如，公开发布的方式。你可以从 Hugging Face 下载 Cohere Command-R-Plus 或 Command-R 模型。你可以继续微调它。我们已经看到很多人这样做。我认为你需要弄清楚一些约束。

最佳的执行方式是什么，而不会潜在地丢失可能存在于基础模型中的通用知识能力。但是有一个接口可以保持

跨模型和跨人类也是如此，那就是语言。如果你可以，我们知道你可以在很大程度上做到这一点。如果你从我们随着时间的推移所做的事情的角度来看，那就是

改进数据，就我们能从中学习的内容而言，那么这将解锁全球的可能性，几乎每个人。如果你有正确的方法使用模型来改进数据并拥有共享的数据资源，就可以从该数据中训练模型，假设他们拥有专业知识和

计算能力。是的，这几乎是一种思维方式。我的意思是，我现在已经编写了应用程序，将它连接到聊天机器人接口比编写 UI 更容易。

因为你拥有这种令人难以置信的复杂性。例如，我使用 Open Interpreter，我现在已经采用了这种模式，在 Open Interpreter 中，我只是将我的 Python 多智能体系统加载到内存中，然后我告诉智能体显示它们的接口，然后 Open Interpreter 就可以工作了。因此我可以操作我的数据库，我说，你知道，在目录表中添加一些内容，然后我添加此引用，删除此引用，它就可以工作了。我不需要做任何事情。这是一种完全不同的思考软件的方式。

我认为我们需要很长时间才能弄清楚这一点，但这确实令人惊叹，你还可以拥有二阶智能，因此与其直接与接口对话，你可以与另一个智能体对话，该智能体本身正在做一些智能的事情，这简直令人难以置信，就像矩阵一样，可能性是无限的，是的，这太疯狂了……

关于人工智能对齐，在我们继续讨论之前，因为你之前也谈到了一些社会影响。首先，你对人工智能对齐怎么看？显然非常重要，对吧？我们想要不会做坏事的人工智能系统。这是一种起点。我们不想要破坏我们的环境、使我们的社会变得更糟并对人类产生负面影响的人工智能系统。

我认为问题实际上是，我们想让人工智能系统与什么对齐？我们可以，你知道，通常你将对齐定义为拥有其价值观或行为与人类想要或期望的东西对齐的模型。但是如果你把它分解开来，我认为弄清楚这一点可能已经非常困难了

人类想要什么，人类期望什么，所有人类都想要或期望相同的东西吗？这在上下文中是静态的吗？还是根据你所处的上下文而变化？因此，这是一个非常复杂的问题，我们需要解决。我们甚至还没有为人类解决社会问题。

现在我们必须为这种正在渗透我们生活的新技术解决这个问题。因此，我认为我们需要弄清楚所有这些，但我们也需要采取一些基本的安全措施，以确保，你知道，

这项技术对一般用途仍然安全，以便我们可以继续进步、发展并确保我们充分利用其潜力。让我们谈谈人类反馈。你与 Tom 和 Phil 合写了一篇名为《人类反馈并非金标准》的论文。你能告诉我们关于这篇论文的内容吗？《人类反馈并非金标准》这篇论文的动机是

对在整个模型训练和评估流程中使用人类反馈的兴趣和兴奋。所以几年前，RLHF 是一件大事。这是新事物。每个人都对此感到兴奋。使用 RLHF 的一般方法是，好吧，我们给人类

一个提示，他们会看到两个完成。例如，天空是什么颜色？完成 A 是蓝色，完成 B 是黄色。一个人工标注者查看这两个完成，并说，我更喜欢完成 A。希望他们有充分的理由更喜欢一个完成而不是另一个完成。并且取得了巨大的、巨大的进展

我们从这个使用人类反馈来优化和微调这些模型的想法中在许多基准测试中看到了这一点。我们很快开始看到这种方法的收益递减。至少最初，这种影响是

人类喜欢的输出风格提供了更好的结果。在许多情况下，更好的结果也以某种方式通过人类偏好来衡量。因此，你或者有一个人类评估任务，其中人类会查看模型的输出，并说他们更喜欢哪个，以便对模型进行排名。

或者你训练一个奖励模型，并将其用作人类偏好的替代物。这个捕捉生成的所有内容的单一偏好分数的想法似乎非常有限。我们开始研究的是

如果我们使该反馈信号更细化会怎样？如果我们试图了解人类更喜欢哪些特定模型生成的内容会怎样？因此，我们在该论文中进行的第一个实验是

我们对这些不同的错误类型进行了分类。我们在已建立的数据集中识别出模型生成包含这些错误的完成的示例。然后我们要求一组人类根据是否存在某些错误来对这些完成进行评分。我们要求另一组独立的人类对这些完成的评分从 1 到 5 进行标注。

然后 Tom 进行了一些非常详细的分析，并试图找出哪些类型的错误会导致

人类对整体质量的偏好判断。我们发现的结果非常有趣。我们发现人类非常不喜欢模型拒绝回答问题。仔细想想，这似乎非常直观。人类偏好判断很大程度上受到格式和风格的影响。

我们在一些早期工作中也看到了这一点，例如，许多早期的摘要工作似乎表明，人类更喜欢较长的摘要，这也相当直观，因为较长的摘要包含更多信息，甚至仅仅因为这个事实就更有可能包含来自摘要的更多相关信息。

我们发现有趣的是，当某些特征，你知道，例如，我们在 Cohere，我们与企业客户交谈，他们关心模型是否正确。他们关心模型，你知道，不重复。他们关心某些属性，这些属性可能与，你知道，一个查看两个不同完成的人工标注者关心的属性不同。像事实性这样的属性或标准非常有趣。

在对整体质量的贡献方面排名较低。因此我们认为，好吧，这可能是有问题的，对吧？我们在某种程度上优化这些模型以提供更详尽、更有趣的完成，但代价是它们可能不太正确。后续工作是，我们想知道，

可能还有一些我们没有注意到的混杂因素或其他影响？我们有这样一个假设，即模型输出的自信程度和复杂性可能会影响人类如何感知完成的质量。因此，我们进行了非常相似的实验。我们所做的是提示这些模型，非常简单的单行提示，类似于给出响应，但听起来非常自信。我们发现，就

旨在听起来更自信的生成在一致性上被评为更高质量且错误更少。图中有一个特定的图，我认为它很好地显示了这一点，其中你可以在 Y 轴上看到错误率，在 X 轴上你看到

自信值在 1 到 5 之间。当自信程度达到一定程度时，错误率实际上趋于可以忽略不计。我们知道这也是人类如何与其他人互动的一个特征，对吧？如果某人听起来非常自信，他们更有可能被认为是，比如说，他们所在领域的专家。这方面有很多工作要做。

我们不一定会认为这种影响会如此明显，因为人类正在与人工智能系统互动。在许多情况下，这些都是经过训练的标注者。他们已经得到了关于如何推断这些不同完成的质量的非常明确的指示。对我来说，这项工作的另一个引人注目的点是

自信程度对感知正确性的影响。更自信的生成通常被人类认为更正确。因此，我们查看了这些示例的一个样本，这些示例被认为是“专家标注者”，主要由 Tom 检查数据，并真正

对是否存在任何事实性错误进行评分。我们实际上发现，当提示模型更自信时，它往往不太准确。即使它不太准确，因为它更自信，标注者

却觉得它实际上更正确了。因此，这对我们来说是引人注目的，因为我们有这样一个非常明确的例子，它与我们想要优化或想要在模型中激励的行为相反，但同时也

以一种几乎无法识别的方式这样做。进行此操作的标注者没有意识到他们受到了这些方面的影响或偏见。我认为这代表了朝着人类偏好进行优化的非常大规模的努力，而人类偏好的定义非常

在许多方面，都是未指定的。这很有趣，因为我们之前说过人类是理性的，对吧？但是你刚刚给了我们很多例子，说明我们有多么不理性，对吧？我们有这种风格偏见。我们看到一些自信的东西，我们就认为它是正确的，等等。你还举了一个例子，好吧，你知道，如果我们试图让人工标注者比较两本完整的书会怎样？

好吧，这显然不仅超出了我们的认知范围，而且模糊性呈指数级增长。似乎我们不可能以任何可靠的方式做到这一点。那么我们在这里能做什么？你说让我们有更多的属性。

但是你沿着这条路走多远呢？因为你最终不会有成千上万的属性吗？是的，当然。我也有类似的问题，对吧？我在地中海文化中长大。我喜欢答案非常直接和重点突出，对吧？如果问我天空是什么颜色，我说蓝色，天空的颜色是蓝色，我会更喜欢蓝色。这并不是大多数人喜欢的。

你绝对可以深入研究这个问题，好吧，标准是什么？维度是什么？我们关心的是什么？我不一定认为这是一个问题。我认为我非常感兴趣的一个领域是这个想法，即修改模型行为以适应

即时个性化需求，对吧，无需额外微调。如果你拥有所有这些数据，想象一下，我可以构建某种反映 Tim 偏好的数据画像，对吧？这些 100 个数据点反映了 Tim 如何希望与模型互动。也许这些会随着时间的推移而改变，它们可能会改变。它是定制的。它是针对你的。它是一种

它捕捉了你个人在与你正在使用的模型的行为互动中所寻找的所有信息。如果你想这样做，你可以做一些相对直接的事情，例如将其用作提示的一部分或有效地进行上下文学习，对吧？在推理时为模型提供这些信息，说这是 Tim，这是他的偏好，根据这些偏好生成一个

根据这些偏好。我们看到的模型在对输入空间中甚至复杂信息进行条件化方面相对较好。通常，这种为特定人员构建特定模型的想法，无需承担开销和成本

为地球上的每个人训练一个模型。如果我们必须训练 70 亿个 GPT-4 并提供这些模型，那么从资源的角度来看，这将非常令人望而却步。但是如果我们只训练一个模型，它非常出色，而且非常稳健，

并且真正根据个人的要求进行良好的条件化，那么我们可以相对便宜地做到这一点（相对而言）。是的，这让我想到 Prism，这是一个由 Hannah Kirk 领导的项目。它刚刚在 NeurIPS 上获得了最佳论文奖。那里的想法是，好吧，让我们弄清楚如何

大规模地，这些不同的属性、人口统计、文化影响、地理影响、语言影响，会影响人类关心的内容以及人类希望模型如何表现。

这是一项非常有趣的工作。里面有很多内容。有超过 100 页的内容。所以我强烈建议大家至少阅读两次这篇论文。就其提供的关于理解人类偏好意味着什么以及对不同人意味着什么的见解而言，它非常丰富。有一些非常有趣的发现

其中之一就是代表性。即使是像人们与模型交谈的内容这样简单的事情也是……

受到他们的背景或他们作为人的身份的高度影响。你可能会争辩说，这可能不是什么大问题，但你必须始终将模型开发视为这种整体循环反馈循环效应，人们与这些模型进行的对话将推动对模型的改进。即使你的使用在

标准后训练数据中没有得到很好的体现，那么模型在你关心的方面就会更差。然后它将成为更多人相对关心的事情。因此，有这样的例子，这项工作大约进行了一年半的时间。所以这是一个非常庞大的项目。并且有一些例子，例如

围绕以色列-巴勒斯坦冲突有很多对话，而且大部分对话来自中东地区的人们。如果……

如果进入这些模型的大部分数据甚至没有代表这样简单的事情，我们甚至在这里没有谈论人类偏好方面的完成，我们只是说我们与这些模型互动的内容是什么，那么你就会有所有这些

以后会出现偏差和问题，你知道，该模型不会为每个人服务，它会在某种程度上为构建它的人或对使用它贡献最大的人服务，然后是的，这项工作再次非常详细，有很多分析关于……关于完成或模型生成如何影响人类偏好，所以有

与“人类反馈并非金标准”工作类似的许多发现，同样的普遍意义是拒绝、格式和风格起着重要的作用。我们通常对我们认为最好的模型、然后是第二好的模型，然后是第三好的模型的平均排名有感觉。

有一套，我认为，已建立的基准或已建立的模型评估方法，例如聊天机器人竞技场，再次，它回到了人类偏好究竟捕捉了什么，对吧？我们对模型有一个几乎规范的排名，但它很大程度上受到提供判断的人、他们询问的内容以及他们的个人偏好的影响。

因此，Prism 的作用在于它真正分解了首选模型的排名是如何根据提问者或与模型互动的人而变化的。是的，你甚至可以看到哪些模型更好方面发生了很大的变化。你会看到模型在排名中上升五个位置或下降五个位置甚至更多。这项工作中有 21 个模型。所以这是一个相当

相当大的变化。这对模型开发者来说也可能非常有见地，如果你从根本上相信你正在构建技术来服务全人类的话。例如，我们的 Cohere 模型 Command，这是 Command 模型的非常早期的第一代。

在大多数情况下表现都非常好。然后出于某种原因，对于亚洲用户来说，其性能相对于其他模型似乎下降了。这种见解对于试图弄清楚我们能做些什么来更好地服务该地区的人们来说，可能非常有帮助。基于这样的见解，我们已经采取了许多措施来改进

我们构建这些模型的方式。是的，我的意思是，Andrew 发表了一篇非常好的论文，名为对抗性错误，对不起，对抗性示例不是错误，而是特性。他说他们学习了这些非鲁棒性特征，基本上就像

你知道奇怪的蓝色像素意味着梅赛德斯之类的东西，它们碰巧泛化得非常好，但从推理的角度来看，它们显然是出于错误的原因这样做的，所以碰巧是这种情况，它们现在有效，但是当存在分布偏移时，它们明天就会停止工作，所以我们几乎希望有一种有原则的方法来判断哪个是好的特征，哪个不是好的特征，是的，这

在这些高维空间中非常难以做到。但是你可以控制输入和输出空间。我认为这就是……所以对抗性示例的普遍意义在于

对抗性噪声是由函数生成的。想想诸如将不可检测的高斯噪声注入图像或用同义词替换语言中的单词之类的操作。你会争辩说，模型的输出不应该改变，因为查询的要求或含义在语义上没有任何变化。而且……

我认为，通常情况下，你会看到模型对此的反应基本上是学会应对生成对抗性噪声的函数。因此，它并没有真正学习处理现实世界的噪声。你只是有一个试图模拟现实世界噪声的函数，这往往更简单、更容易学习和抵消。这就是为什么我对

人为引导的对抗性示例非常感兴趣。所以这个普遍的想法是让人和模型互动，让人探测模型，试图识别模型的弱点、失效模式、模型始终或不一致地出错的事情，以及

将其用作种子或灵感来训练数据，然后在所有数据上训练它们，使模型对我们称之为更复杂、更具代表性的噪声分布形状更具鲁棒性。

这就是对抗性 QA 试图做的事情。这是 2019 年的这项工作，以及这篇名为 BDAI 的论文，这是我的第一篇博士论文。从让模型和想法的角度来看，这个想法并非一定新颖

让人类互动。之前已经做了相当多的工作，所以再次提到这个数据集 DROP，它在构建方式上有一个小的组成部分，从某种意义上说是对抗性的。

有一些关于智力竞赛任务的工作。所以过去很多人尝试过这种方法。我们真正想研究的是，以这种方式以及仅以这种方式进行数据收集对模型学习的内容、它们学习的表示的丰富程度以及这些表示的鲁棒性有何不同的影响。

是的，我们发现了一些极其有趣的发现。例如，我们发现，当模型参与其中时，你收集到的问题的多样性

更加多样化，更加复杂，通常也更加有趣。你往往会看到你收集到的数据的质量也会下降，仅仅是因为你开始看到更多的歧义，你开始看到更多的人类很容易理解的隐含信息，但这些信息可能有点模糊不清，而且……

实际上更能代表现实世界的互动，并非每个问题都定义明确或指定明确。是的，所以我们有三种当时最先进的模型。

Bert 和 Roberta，我们还有 BIDAF，这是一种更早的问答模型，可能在 2017 年或 18 年是最先进的。我们发现，即使针对相对较弱的模型收集到的对抗性示例，对于训练更强大的模型也非常有益。所以感觉上几乎是

分布发生了变化，你处于非对抗性环境中，可以将其视为有一段文字，注释者需要在该段落中找到答案并提出一个答案是该段落中提取的跨度的答案的问题。在这种情况下，你会得到非常——

我们称之为平淡无奇的问题，对吧？相对容易的事情，例如，假设这段文字谈论的是天空。我们会始终如一地使用始终如一的例子。

所以这段文字谈论的是天空以及它是蓝色的等等。问题是，天空是什么颜色？你甚至在词汇重叠方面都有这种几乎直接的映射到段落，到答案在段落中的位置。

注释的答案将是蓝色。所以设置是这样的，现在你有一个模型参与其中。现在模型将尝试回答这个问题。所以你会问模型，天空是什么颜色？模型会说蓝色。所以你还没有找到对抗性示例。你找到一个对模型来说非常容易的示例。所以你真正想要做的是最大化你正在收集的数据的信号。现在你必须调整你的问题，你必须问类似的问题，

云所在之物是什么颜色？也许它有点复杂，有点复杂，也许现在模型在段落中找到了另一种颜色并说绿色，并且它回答错误了。所以你成功地欺骗了模型。

通过这个过程，你从训练数据的角度获得了更多有趣的数据。所以我们看到在使用这些数据进行训练时，模型的性能有多么鲁棒，这方面有了相当大的改进。我认为至少对我个人而言，

当时，问答领域有很多初创公司。我个人认识其中一些人，他们会告诉我，我们已经将你的数据集添加到我们的模型训练中，它在现实世界的应用中要好得多。他们也会在基准测试中看到改进，但他们对仅仅是

现实世界环境中的影响有多大印象特别深刻。我认为这就是鲁棒性带给你的。它使这些系统更适用于我们关心的环境。从某种角度来看，这不是一项非常复杂的任务。你有一段文字，它来自维基百科，语言相对简单，很容易理解。

然后你从人类与模型互动以及在探测模型的方式上具有创造性方面获得了这些更复杂的问题。在这里，我们有代表 2019 年最先进技术的模型，也就是五年前。对抗性 QA 最近被用于

探测和测试 LAMA3 系列模型的对抗性鲁棒性。在这份技术报告中，它被称为 Dynabench QA，我们稍后会讨论 Dynabench。Dynabench 是对抗性 QA 的后续工作。

虽然今天的 LLMs 在这项特定任务上远远超过了我们当时拥有的模型，但它们距离人类的表现还有相当大的差距，这表明在性能方面还有很长的路要走。

一般的鲁棒性能力。我们不断谈论这种模式匹配和推理的混合，难道不奇怪吗？我的意思是，你给出的例子很漂亮。你知道，云所在之物是什么颜色？我的意思是，是的，你可以通过推理来解决这个问题，但在英语中还有很多其他的例子，我们只是在不断地编造。你知道，就像这样，就像语言游戏一样。我们只是编造东西。而且

这让我着迷的是，这是你所说的组合。所以我们只是增强鲁棒性，并且只是结合所有这些不同的模式。但我们也希望拥有能够推理的系统。你知道，我确定……

我可以继续想出更复杂、更复杂的问题来提问，这样答案就不会改变，而这些变化在模型的训练数据中没有体现。当然，在这种情况下，我可能故意试图让你困惑。

但我认为问题是，如果你的表示是鲁棒的，我不应该能够做到这一点。告诉我关于 Dynabench 的信息。所以 Dynabench 是对抗性 QA 和对抗性 NLI 的后续项目，Yi-Hsien Ni、Dawa Keeler 和 Adina Williams 做了这项工作。所以 Dawa 某种程度上，你知道，

是这个项目的策划者。他做了所有繁重的工作来获得资金，来获得支持来构建这个项目。它最初是在 Fadebook AI Research 启动的。我想我在 2020 年初在实习期间参与了 Dynabench 的工作。

然后持续了大约一年。期间还发生了一场全球性大流行。所以这是一个激动人心的时刻。所以 Dynabench 是一个平台，它是一个研究平台，用于测试和探测模型参与循环对抗性数据收集的范围，尤其是在动态方式下进行。所以这个想法是……

你从某个数据集开始，对吧？你用它训练一个模型，然后你与该模型互动，你想找到它的弱点。你想探测它。你想弄清楚它的失效模式是什么。你在这样做的过程中收集数据，你可以将其用作训练数据。你获得训练数据，然后你通常在原始数据加上你的新对抗性数据上重新训练你的模型，这使得模型更加鲁棒。

你经常获得的副产品是一个模型，对于你之前尝试的大多数类型的复杂对抗性提示，现在通常会开始正确地处理这些提示。它通常仍然会在某些通常更复杂的提示集上失败。然后它会挑战你作为对抗性注释者，现在要超越这个新模型的限制，并开始

开始尝试以不同的方式探测和破坏它。你可以随着时间的推移不断这样做。你实际上是在构建一个越来越强大的模型，直到它变得难以置信地难以欺骗。因此，Dynabench 已经为该领域的许多研究项目提供了动力，例如……

仇恨言论检测、情感分析。Prism 本身就是通过 Dynabench 平台运行的。正在进行与 Common Crawl 的合作，试图弄清楚我们如何才能改进预训练数据的爬取质量。Dynabench 自从

它现在位于 ML Commons 社区。因此，有一个工作组，即以数据为中心的机器学习研究工作组，负责维护 Dynabench 并确保该领域想要贡献的人、想要探索使模型更鲁棒的方法、构建更好训练集和评估集的方法的人，

拥有一个空间以及必要的资源和工具来做到这一点。Dynabench 的另一个方面，也就是它的名称来源——基准测试部分，是这个想法

它不仅仅是与模型的交互是动态的，我们的基准也是动态的。相当长一段时间以来，而且我可能会争辩说直到今天，我们作为一个社区的普遍运作方式一直是人们创建基准，因为他们有一些有趣的现象想要测试。

并且创建了该基准。一旦创建完成，你实际上就有了 Goodhart 定律，对吧？你有一个明确的衡量标准来衡量你想要优化的目标。然后，你拥有社区中非常聪明、非常有才华的人来优化基准反映的特定问题。通常情况下，你会看到进展，这在该特定基准上发生的非常非常迅速。

因此，Dawa 在 DynaBench 论文中有一个图表，你可以在其中看到不同基准随着时间的推移而饱和。而且……

如果我记得没错的话，我认为 MNIST 大约需要 8 到 10 年的时间，而 SQuAD 大约需要 1.5 到 2 年的时间。随着每个基准的出现，它变得越来越短，这主要是因为该领域不断发展和成熟，对吧？有更多的人在研究这些问题，这意味着进展通常会更快。因此，Dynabench 的核心理念之一

是这个想法，即我们理想情况下也希望动态地进行基准测试，并且我们的基准应该随着时间的推移而发展和变化，以便我们真正衡量我们关心的模型的当前能力集。我认为这对

对人类来说也是如此，对吧？你不会给一个拥有博士学位的人进行小学数学考试，并以此来判断，你知道，这个人是否应该进行手术或其他相对重要的事情。

重要的事情。在某种程度上，我们对 LLMs 做了一些这样的事情。我见过很多这样的例子，人们心中有一个非常明确的任务，对他们希望模型在这种环境下的行为方式有非常明确的理解。他们拥有领域知识，拥有专业知识来很好地验证该任务上的性能。然后他们会选择他们想要使用的模型，因为它具有更高的 MMLU 分数，或者因为它在 Chatbot Arena 中排名更高。

我不知道这是确保我们真正评估我们关心的模型能力的全部广度的最佳方法。我认为最好的方法之一

是构建反映你关心的任务和应用程序的基准。理想情况下，如果你可以动态地做到这一点，那么今天的模型达到 70%，随着技术的不断进步，它将达到 100%。

这可能并不意味着该模型可以解决你放入其中的所有可能的各种情况或环境，而是表明你的基准是有限的，因为它总是以对现有模型能力的某种理解为条件。因此，你只想确保你的评估也会随着时间的推移而更新。是的，基准测试绝对是一场噩梦。

基准测试的优点是它们是标准化的，你知道，所以我们可以比较苹果和苹果。我在夏天与 Sarah Hooker 谈过话，她提倡，你知道，例如，与其设置绝对的浮点运算次数限制，这可能会直接导致 Goodhart 定律，她建议使用篮子或指数或动态基准或类似的东西。我们如何设计新的基准类型，使其在某种程度上不受 Goodhart 定律的影响？我认为我们几乎陷入了

局部基准测试最优解中，多年来我们一直以某种方式做事，这几乎看起来是自然而然的方式。我认为我们作为一个社区，对吧，我们可能应该考虑退一步思考

鉴于今天的技术水平，鉴于今天的语言模型能够做什么，评估它们正确的思考方式是什么？我认为例如，在我们教育系统中对人们的考试已经发展了数百年，并且可以说是并不完美，但是

我认为我们几乎以这种方式针对特定能力进行目标设定，你知道，分层分类法，你有一套技能，并且你对这些技能如何结合在一起产生，你知道，

更复杂的技能有一定的概念。我举一个非常简单的例子。如果你要训练成为一名外科医生，你将上医学院，你将从所有人类都需要的一套基本技能开始，然后你需要专门学习，你可能会学习化学和生物学，你需要理解那里的核心概念，理解如何应用某些

功能或推理模式。你进步得越多，你的考试就越复杂和专业化。然后，评估旨在做所有事情的模型的潜在方法是（假设我们想要构建旨在做所有事情的通用模型），提出一套旨在测试模型的考试

故意设计用于测试模型。它们可能受到我们测试人类方式的启发，也可能不会，因为模型和人类具有不同的特性。我认为我们开始在这个领域看到一些非常早期的工作。我认为我们还应该在这个框架中考虑的一件事是再次确保我们有一个

一种方法来保证这个过程是动态的，因为技术会不断改进，一旦基准跟不上，实际上就是我们需要从头开始重新思考一切的时候，或者也许我们已经达到了模型在所有领域都优于专家人类的地步。

你能告诉我们关于 DataPerf 的信息吗？DataPerf 是一套挑战，也通过 Dynabench 平台运行，目标是成为非常以数据为中心的。所以这个以数据为中心的想法侧重于这样一个事实，即我们所做的许多事情都取决于我们用来训练这些模型的数据。当然，也有一些关于什么的浪潮，我想，

对贡献最大的因素是什么。是数据吗？是模型吗？是架构吗？是资源吗？是硬件吗？我认为 DataPerf 出现在一个时间点上

它肯定感觉像是对算法有很多关注，而对数据关注较少。是的，其主要动机是确保数据仍然是我们所做一切的核心，并且对数据的改进仍然是我们所有人都在努力构建更好、更强大的通用模型的旅程的核心部分。所以你在 Cohere 工作。

告诉我们你在那里做什么。我在训练后工作。大约两年前，我加入了 Cohere，当时语言建模领域更加原始，我说是更加不成熟。所以这大约是在 ChatGPT 推出之前的几周。

显然，从那时起，兴趣、兴奋和投资也大量涌入。所以在 Cohere，我组建了训练后团队。当我加入时，显然我们已经拥有非常非常扎实的基模型。这些是预训练模型。它们是在大量文本上进行训练的，数万亿个标记，并被训练来生成下一个单词。

当时，很明显这些模型非常强大，但并没有很好地遵循指令。使这些模型更有用的一种方法是让它们遵循人类的指令，并让它们做人类想让它们做的事情。所以像这样的一种例子是，

如果你问基模型一个问题，例如，“天空是什么颜色？”基模型会回复类似的内容，

草是什么颜色？太阳是什么颜色？主要是因为它看到问题的环境在许多情况下只是问题列表。即使是带有可折叠部分的常见问题解答页面，这些部分也可能没有以正确的方式进行解析。当然，这是一种有趣的行为，但这并不是你期望的，肯定也不是我们对这类模型的期望。

因此，我早期与 Asir（他负责预训练）一起做的一件事是，我们构建了一个非常基本的界面来收集一些遵循指令的数据。我们要求内部人员注意，请

提供一些问题，并写出这些问题的答案应该是什么。这就是拥有提示和完成的想法。直到今天，这仍然是为这些模型在监督微调阶段创建数据的很大一部分。

这些注释者群体要么编写他们自己的提示，要么让这些提示播种或合成生成，或者以不同的方式对提示进行采样。然后他们必须写出一个完成，它必须非常高质量，符合你的风格指南，并符合你希望你的模型表现的方式。

所以我们这样做了，我们进行了一场内部竞赛。公司内部的兴趣和参与程度令人难以置信。我们认为我们目标非常远大，在我想不到两周的时间内，目标是 10,000 个例子，诸如此类。

是的，我们显然超出了这些预期，并且训练了第一代真正能够很好地遵循指令的 Command 模型。然后事情就从那里发展了。所以我们随后每周都训练一个新模型。

最初是监督微调阶段的指令遵循，然后我们开始与我们自己的内部注释者、外部数据供应商合作，获取所有来源的有趣指令遵循数据。我们开始合成生成数据。

我们这样做了大约一年，所以每周大约 52 周，我们都会交付一个新模型，当时它们是常见的夜间模型，我不知道你是否……是的，但是……它们在开发者社区中受到了很多关注和兴奋，特别是人们总是想知道，你知道，新的模型是什么，以及

有几周，就像大多数周一样，我们只是拥有一个优于先前模型的模型，这在这些过程中是自然的。我认为可能有四五周的时间，根据我们的内部指标，该模型与之前的模型相同或略差。

所以我们不会发布该模型。然后你会有人问，哦，我不知道。根据我对模型的交互，它似乎并没有改变。你是否仍然计划发布该模型？所以这对我们来说是一个非常鼓舞人心的时刻。然后在大约，你知道，去年年底，我们某种程度上……

组织了一次更大规模的、更有条理的推动，朝着新一代模型发展，这些模型成为了 Command R 和 R+，在发布时，也就是今年 4 月，它们在几乎所有指标上的排名都非常高。我认为我们是第四大，就像 Chatbot Arena 上排名第四的提供商一样。

我认为有 Anthropic、OpenAI 和 Google，然后是 Cohere。当然，现在我们正在开发下一代模型。你对量化有什么看法？

你知道，人们喜欢将你的模型撕成碎片，降低精度并进行黑客攻击等等。从效率提升的角度来看，这作为短期解决方案非常有用。我认为量化并不总是很清楚。问题总是回到评估。因此，大多数量化工作的目标是使模型更有效率，并在评估中保持性能。

从某种角度来看，你可能会接受一些小的性能下降以换取巨大的效率提升。从这个角度来看，它非常有效，如果我有

100b 模型或 35b 模型，并且我想将 100b 模型量化到与 35b 模型相同的每标记成本级别，我可能会以相同的价格范围获得性能更好的模型。但是我也可以量化 35b 模型并降低那里的成本。我认为其中一个

权衡是这些盲点，你可能没有衡量所有内容。正如我们已经讨论的那样，我们的评估是不完整的。在许多情况下，它们无法衡量诸如高级复杂推理之类的东西。在许多情况下，它们在测试例如非常长期的相互依赖性和长上下文性能等方面非常有限。因此，始终存在这样的风险，即

你可能会降低人们关心的方面（由于某种原因你可能无法衡量）的性能。- 推理是综合还是执行？我的意思是，我可以教你如何进行乘法或长除法或类似的事情，而你只是在执行规则的机制。

正如你所说，我们犯了很多错误，但我们有能力综合规则并以代数方式描述它们。我希望综合是一个要求，但你可以真正测试执行。而且，你知道，各种机械可解释性工作试图研究，你知道，模型是如何设计的？

实际上在幕后发生了什么。最近在扩展测试时间计算方面的工作，其中模型正在生成这些推理链，然后提供最终答案。在许多情况下，性能更好。我认为这仍然严重未被探索。我们不

不一定确切知道导致性能提升的影响是什么。我认为有一些初步迹象表明，我们也正在进行一些工作，表明没有

严格要求模型以自然语言进行推理或拥有这些明确生成的内部思维链。我认为，如果你想测试一个系统是否能够推理，我认为对抗性环境是一个允许你真正探测特定能力、特定类型推理的环境。我们在许多早期的对抗性 QA、BDAI 风格的工作中看到了这一点，其中

特定基准的局限性就是基准本身。因此，你已经策划了一个基准，你已经让众包工作者提出了许多有趣而复杂的问题，然后你某种程度上

检查模型的性能如何，通常性能会很快饱和，你知道模型表现得很好。例如，DROP 是一个非常经典的问答基准，它非常流行，仍然非常流行，用于评估语言模型。如果我记得没错的话，DROP 代表段落上的离散推理，它真正关注的是数值推理。这里的局限性在于，如果模型

如果一个模型在基准测试中达到了人类水平的性能，你能断言该模型能够推理吗？我认为这需要更进一步，那就是如果你得到这个模型，把它放在人类面前，问人类：“探究这种能力，探究这种类型的推理，看看你能不能让模型失败。”如果人类能够持续成功地让模型在与训练内容和测试内容略微不同的例子上失败，

那么我认为可以公平地假设该模型并没有真正进行推理。它只是弄清楚了如何在特定的基准测试中表现良好。我们应该多么严格？因为正如你刚才所说，推理是二元的。就像你要么掌握了它，要么没有。或者你可以认为，如果它在大多数情况下都能稳健地运行，即使有一些极端情况，我们仍然可以说它在推理。我认为我们必须坚持……

非常高的标准。原因是我不希望人机交互与人际交互相同。我们彼此建立信任。我们进行对话，许多情况下涉及特定领域的复杂推理。我们真正了解自身的局限性。我认为

我认为对机器的期望是一直正确。这是传统软件工程及其方法的一个功能。如果你有一个计算器，你输入1加2，计算器显示3，然后你尝试2加7，计算器显示17，你会扔掉你的计算器。你不会尝试其他问题。

而且，你知道，早期的LLM，即使是非常早期，非常简单的数学问题，它们也会出错。是的，所以我认为有一种感觉，

标准实际上更高了。我们需要这种一致性和稳健性。我完全可以想象，随着任务复杂性的增加，可能会有更多的出错空间，但在更简单的任务上，我们今天用来评估这些模型的任务相对简单，对吧？其中一个

非常常见的基准测试是GSM 8K，它是小学数学，对人类来说非常容易，或者至少对有一定熟练程度的人类来说非常容易。我的意思是，目前的模型做得非常好。而且我可能会争辩说，对吧，你通常看到的性能水平是97%、98%。你可能在那里看到的其实是测试集中的噪声，而不是模型本身的能力。

但是，回到之前的观点，下一步是真正地将该模型放在人类面前，让他们探究小学数学水平和类型的推理，并使人类相信该模型实际上始终如一地执行

所要求的任务。所以，你知道，对于这些深度学习模型来说，它们具有推理的特征，也具有某种统计匹配的特征。它们似乎两者兼而有之，这很出色，因为我们可以将它们与推理算法对齐，但我们也可以让它们在其他情况下做出良好的猜测。但是你勾勒出了这个例子，有时它就像一个哈希表，它只会从文档中检索事实，有时它会进行推理。

但是边界是清晰的，不是吗？所以有时它是定向的，有时它是相当分散的，而且相当弥散的。这个过程是如何运作的？它的认识论一致性如何？我怀疑这类似于人类学习的方式，我们学习……

我认为我会称之为相对简单的任务，或者首先学习理解和应用相对简单的函数，然后随着时间的推移将这些函数组合成更复杂的复合函数，你可能会对特定问题应用特定类型的推理或特定函数，或者可能会对不同的问题应用不同的方法。

我怀疑这类似于我们开始看到的东西，以及我们可能在这些深度学习模型中看到的更多的东西。如果你不需要推理，那么推理效率低下，对吧？如果一个模型被问到，1加1等于多少？它在预训练中已经看到成百上千次了，

它不需要从第一性原理出发，去弄清楚数学的复杂性以及如何进行基本的加法运算，但这并不会影响解决这个问题，只要解决方案是正确的。

你对Arc挑战赛有什么看法？我认为这是朝着正确方向迈出的又一步。我们需要不断提出挑战，真正突破当前模型的极限。我们将解决这个问题，然后我们将继续下一个问题。希望在某个时刻，我认为将这些挑战与现实世界的应用联系起来变得更加重要，就我们对AI系统有什么用，我们通过设计希望AI系统做什么而言，

你知道，这些挑战在现实世界中的应用以及对我们有什么用，我们通过设计希望AI系统做什么？我们希望它们如何在社会中运作？我们希望它们如何与人类互动？我认为这些问题变得越来越重要，希望在不久的将来，你知道，这些将是我们关心的问题，那就是，

我如何才能获得现有技术并将其应用于造福人类？连接主义能让我们走完全程吗？你认为我们可以设计出能够进行可靠、稳健推理的正确类型的神经网络吗？或者你认为我们需要某种混合架构？我不太关心，因为我认为没有直接的理由

期望我们正在做的事情存在严重的架构瓶颈。我的意思是，有一些，但它们很容易克服，对吧？例如标记化，

我们最近与Sander一起在MLP上发表了一篇论文。它获得了杰出论文奖。它被Andrej Karpati转发，这让我社交媒体上的关注度暴涨。我从未见过这种在使用统计数据方面的激增。但是这个……

这项工作关注的是故障标记的概念，这个概念是指某些标记会导致深度学习模型出现奇怪的行为。这有各种原因。主要原因是你的标记器拟合的数据与随后训练模型的数据之间存在不匹配。最终发生的情况是，你有一些标记很少被看到，或者

或者在许多情况下几乎没有被看到，你使用了权重衰减，这意味着这些标记的嵌入随着模型训练的进行趋于零，即使它不趋于零，它也趋于非常小的幅度，这使得很难区分标记特定的信息，并且模型很容易对标记的身份感到困惑，你知道这种效应

突出了一个直接的局限性，这不仅仅是架构的问题，而是我们目前做事方式的问题。但我认为这不是连接主义与更传统、更结构化的处理方式的问题。

更多的是指出我们目前做事方式的局限性。我今天没有看到任何迹象表明更深、更大、更大的模型无法做到更令人印象深刻的事情。一旦我们达到它们无法做到这一点的地步，我认为那时我们就会知道答案。然后我们可以从那里开始。

但与此同时，我认为我们在过去几年取得了令人难以置信的进步，这既来自数据方面，也主要得益于Transformer提供的效率和并行性。

我相信未来我们会看到更多创新。我相信进一步的效率提升将进一步加速发展。LLM的数据效率与人类的数据效率并不完全相同，这一点仍然很清楚。LLM在训练过程中看到了许多人类数据的生命线，

我们也是如此，对吧？如果有计算能力和资源，我们是受时间限制的，而AI系统则不受限制。是的，我认为在某种意义上存在相似之处，即我们处理和构建的信息也是多代的。

就像我们的语言和知识一样，即使我们每70年左右就会死亡，它似乎也在不断增长。我认为这是非常正确的，我认为肯定发生了一些知识压缩，这使得将信息传递给下一代更加高效。

软件具有优势。持续预训练的空间才刚刚开始被探索，但目前在大多数情况下，主要是由于架构的限制，对吧？如果你想增加模型的大小，那么弄清楚基于我目前拥有的知识的正确初始化将变得不简单。但是如果你将LLM正在做的事情视为

对数据的有效压缩，那么从现有的有效压缩开始似乎比每次都从头开始要高效得多。这对于LLM来说比对于人类来说要方便得多。你可以复制一个模型的权重，并将它们传递给另一个模型。你对完全相同的

知识、信息和能力的实例化，这是你无法用人类做到的事情。对于你们来说，拥有一个大的上下文窗口有多重要？我们开始看到一些具有非常大的上下文窗口的模型。这是否很容易添加，或者是否充满了问题？通常情况下，这很有挑战性……

在上下文窗口的跨度内保持高性能。我认为大约12个月前，肯定有一种感觉，那就是一场竞赛，为了在上下文窗口方面变得越来越大。

我们第一代模型的上下文窗口为4K。我们目前的模型具有128K的上下文窗口。你看到几乎所有LLM提供商都开始推动这个更长上下文的想法并将其推向市场。我认为谷歌特别是在这个领域做了一些非常有趣的创新，转向以前被认为很难实现的上下文窗口。

并且仍然保持良好的性能。我认为这是一个权衡，因为绝大多数用户查询都不是长上下文，但长上下文对于许多你想在语言模型之上构建的东西很有用。因此，诸如检索增强生成之类的技术，

这取决于你的检索效果如何。因此，Cohere拥有极具竞争力的嵌入模型，这在那里非常有用，并且还有重新排序模型。然后还有一个问题，好吧，我检索和排序的内容有多少可以作为上下文放入模型中，模型可以利用这些信息并在文档之间聚合信息，

以有益的方式。然后，一旦你开始使用工具，一旦你开始进行极其冗长的对话，就会出现与模型进行有效无限对话的想法，在某种程度上，对话就是状态。我们之前谈到了个性化。如果你与模型的整个对话

代表了你想要与模型互动的方式，包括反馈，那么这可能是一个值得探索的领域。在处理代码时，拥有长上下文能力具有巨大的优势，你可以在其中执行诸如

提供模型你的整个代码库并让它处理信息、提取信息、潜在地重写内容之类的操作。你可以解锁很多价值。我认为这是一个先有鸡还是先有蛋的问题。模型传统上不是

具有相对较短的上下文。我的意思是，回想一下，我认为BERT有512个标记上下文，大多数人认为这已经足够了。现在我们已经达到了数十万，甚至数百万。但我认为有一个问题是，在什么点上继续将内容输入上下文是有意义的？它变得效率更低，对吧？

你可以使用一些巧妙的缓存技术来加快速度，但通常需要进行更多的处理才能生成相同的答案。如果该答案比其他情况下的答案更好，我认为这是公平的。如果你到了无缘无故地向上下文添加信息的地步，那么……

我并没有任何判断。我只是不确定这样做有什么意义。所以我还记得几个月前，有一种想法认为你不需要使用无限上下文模型进行检索增强生成，因为你可以将所有存在的数据作为输入，这是非常正确的。你可以，但是

你想要吗？你会从中得到什么？这在直觉上感觉有点浪费。就像，再说一次，如果我问你天空是什么颜色？但我还告诉你，你需要阅读整个互联网才能回答这个问题。在许多情况下，你不需要。你对……

推理模型有什么看法？我的意思是，当然，这绝对是令人感兴趣的事情，对吧？我们通常希望模型或努力开发在所有维度上都是一流的模型。我们知道，一般的推理能力使模型在很多方面都更好，你知道，

它们在推理类型的基准测试中表现得更好，这本身就有价值，但它们对人们也更有用、更有价值，因为你可以用它们做更复杂的事情。我非常喜欢能够在测试时间计算与性能之间进行权衡的想法。所以这是我的团队目前正在研究的一件事。但我们更广泛地看待它。这不仅仅是……

这不仅仅是允许模型生成更多标记，你知道，为了优化某个性能数字。它更多的是围绕着思考这些模型如何与用户互动？你可以与用户分享哪些信号和信息，也许甚至在你进行这个推理过程时？以及我们如何再次使它可控和可定制？你可能有一个

一个相对简单且不重要的任务，例如，如果模型具有良好的校准置信度分数，你可以告诉模型：“如果你至少有60%的把握，请告诉我答案。”只要，再次，你有了这种合理的校准的核心要求，那么

这基本上意味着，如果你运行它100次，如果模型有60%的把握，它应该在60%的时间里得到正确的答案。这在创意写作环境中可能很好，或者这可能是你在特定环境中想要的。而如果你有一个非常复杂、非常重要的任务，你可能会说类似的话，

我承担不起你出错的风险。尽可能多地思考。如果你对答案有任何疑问，请告诉我。但如果你要输出答案，请确保它是正确的。显然，我们离任何能够做到这一点的模型还很远。但我认为这种……

行为，从几乎用户互动的角度来思考问题。我认为，是的，在未来几年这将是极其有趣的。我同意。而且，你知道，最大的挑战就是构建应用程序，想象一下这项技术可以做什么，就像做好企业搜索这些基本的事情一样。我们还有很长的路要走，但这将是一段激动人心的旅程。

当然。Max，非常感谢你今天加入我们。太棒了。谢谢。同样。感谢你的邀请。

Reasoning, Robustness, and Human Feedback in AI - Max Bartolo (Cohere) 01:23:11 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Reasoning, Robustness, and Human Feedback in AI - Max Bartolo (Cohere)