感谢收听 A16Z AI 播客。今天我们有一场引人入胜且冗长的讨论,所以我们将简短介绍。如果您熟悉生成式 AI 模型的世界,您可能熟悉 LM Arena。
由加州大学伯克利分校的一个团队创建和管理的排行榜和竞赛空间。最初专注于语言模型,此后扩展到涵盖视觉模型、编码模型等等。最近,LM Arena 背后的团队宣布他们正在成立一家公司,以扩大该项目的覆盖范围和影响力。他们希望聚集一个全球性的 AI 用户社区,利用他们的集体经验和评价来提高 AI 模型的可靠性,并帮助每个人找到适合其用例的正确模型。
因此,事不宜迟,以下是 LM Arena 创始人 Anastasios 和 Angelopoulos、Weiland Chang 和 Jan Stojka 与 A16z 普通合伙人 Anjane Mitha 讨论 AI 评估现状和未来的情况。在这些披露之后,他们开始讨论大规模、实时测试和评估的重要性。
提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应用于评估任何投资或证券,并且并非针对 A16Z 基金的任何投资者或潜在投资者。更多详情,请访问 a16z.com/disclosures。
是的,那太好了。有时我会被问到,AI 应该为人类进行的最后一次考试是什么?这似乎是错误的问题。我们应该问的是,您希望您的 AI 在部署之前每天每小时每秒进行的实时考试是什么?特别是当我们开始……我认为对我来说出现的一件事是,竞技场被误解的部分原因是我们还处于早期阶段。
在 AI 领域。因此,虽然像 MMLU 这样的基准测试以及这些静态考试的想法在三年前很有用,但未来是关于实时评估、实时系统、在野外进行实时测试的。现在,许多人担心的是这些系统的可靠性。当我们开始从擅长例如陪伴和更多消费者用例的聊天机器人转向任务关键型系统、国防、医疗保健、金融服务时,
当我们超越陪伴或网络开发转向这些任务关键型用例时,Arena 将如何发展?我认为这正是我们想要创建一家公司来支持这个项目以进一步扩展平台的原因。所以现在我们每月有一百万用户。如果我们将其扩展到五到十个甚至更多,以捕捉更多来自不同行业的不同的用户群呢?
在这种情况下,我们将能够真正放大人们真正关心的所有这些不同领域的关键任务,他们将习惯于使用这些任务。您可以想象,当我们扩展时,我们将为核物理学家、放射科医生提供微型服务。
等等,对吧?这些专家将来到这里,获得他们研究问题的最佳答案。这很有趣。未来,现在 Arena 正在成为一家公司,
您可以看到一个科学实验室、一家航运公司或一家国防公司在其自己的基础设施上为他们自己的用户部署他们自己的竞技场,针对他们自己的提示。许多人已经向我们提出了这个要求。所以这些将是某种私有竞技场。私有评估。值得一提的是,我认为当人们考虑到这些任务关键型行业时,他们通常会考虑响应的事实性质等等。但是……
实际上,即使在这些行业中,人们提出的大多数问题都是主观的。好的,在硬科学或任务关键型行业中,人们只是提出简明扼要的问题,他们只需要检索和查找。这是完全错误的。
这些模型之所以有用,正是因为它们允许您在这些奇怪的问题之间进行插值,并回答未完全指定的问题,并给出旨在回答问题但可能没有完全事实依据的答案。对。他们可能会通过 RAG(检索增强生成)结合事实元素,但答案具有主观性。
这是每个人都必须面对的现实。如果这些系统要部署在医学和国防等领域,它们将部署在数据混乱的地方,因为它们在那里有用。好的。鉴于这一事实,
您将如何确保它们的可靠性?好吧,你需要像 Arena 这样的东西。目前,Arena 在 AI 领域很难被忽视,无论是 Grok3 的推出以及埃隆在主题演讲中将其摆在首位,还是 Demis 使用 WebDev Arena 的分数来证明 Gemini 有多好。它已成为所有大型实验室评估和测试的标准,对吧?但这是否意味着……
你们一直在帮助他们多于开源实验室或小型实验室吗?不,我们与小型和大型模型提供商合作。好的,我们基本上与任何想在我们的约束条件下与我们合作的人合作,并尽力提供帮助。事实上,建立一家公司的原因之一是我们不希望 Waylon 必须手动处理所有这些来自人们的请求。
所以这是一个挑战,但我们尽量尽可能地扩展规模。事实上,我们帮助每个人做的一件事是预发布测试他们的模型。好的,这不仅仅是我们一起评估发布的模型,而且我们还试图成为他们的发布合作伙伴,并说,嘿,我们可以帮助你们挑选在我们的用户群中表现最好的模型,并将其作为他们应该实际发布给世界的模型的指导方针吗?
这就是我们的平台的工作方式。这让我们更接近某些东西,正如我们所讨论的,可靠性非常重要。这些主观测量非常重要。我们将如何进入一个拥有 CI/CD 管道的世界,人们可以在预发布时测试他们的模型,并确保它们对各种不同的人都有效?好吧,你需要像 Arena 这样的东西来做到这一点。这也是公司致力于做的事情的一部分。
因此,人们可以来测试许多不同的模型。我们与基本上每一个来到我们这里的提供商都这样做。他们可以看到,哦,哪个模型在 Arena 用户的分布上表现更好或更差。然后他们可以使用这些信息来帮助他们决定发布哪个模型。在他们决定发布模型后,它将永远持续评估。
这就是您获得数据新鲜感的地方。该模型将继续进行测试。我们正在努力创建一个世界,在这个世界中,这些主观和人为的考虑因素将成为模型开发人员最终发布流程的一部分。如果我理解正确的话,测试越多,我们应该期望 AI 系统变得越可靠。所以我们应该……就像任何软件系统一样。这是这个领域的基本争论之一,对吧?是……
在这个领域中,进步的衡量标准是什么,正确的进步衡量标准是什么?有一系列工作试图创建考试。他们称之为越来越难的考试。由于两个原因,我一直发现 LMA Arena 很有趣。一个是相反的方法,它说让群众的智慧来指导我们。二是让开源来定义考试。我认为这非常重要,因为
如果你让一群专家在一个房间里决定什么是对人类来说正确的考试,那么不可避免的是,如果事实证明该群体的价值观被编码到其中,那么世界其他地区就无法使用由不同价值观衡量的 AI 系统。所以人们进行这些专家评估很好。完全没问题。这与我们所做的工作是正交的。我很高兴我们有它们。但与此同时,你必须问问自己,是什么让某人成为专家,对吧?他们是什么方面的专家?
我认为全世界都在朝着反对专家是万事万物最终极权威的方向发展。实际上,每个人都有自己的观点,每个人都有自己的观点。
事实上,世界上有如此多的各个主题的自然专家,他们并不一定需要博士学位才能真正聪明、品味高雅并拥有宝贵的观点。我认为 Arena 的优点之一是它允许我们真正做到这一点,并说,嘿,自然专家在哪里?实际上,我们可以找到数据驱动的方法来识别他们吗?如果我们可以去看看,说,嘿,在这个世界某个随机地方的这个人实际上非常擅长
编码和数学。他们的投票实际上意义重大。他们的偏好能够指导 AI 的未来。这是一件令人惊奇的事情。我们希望能够进一步扩展它。好的,但我将对此稍作反驳。我将表达一些我从专家那里听到的批评,那就是,看,如果你是一位专家,你已经获得了成为你所在领域的高学历个人的大脑、资源等等。
我们有责任指导人类。我们的工作实际上是指导大众。我们应该定义什么是好的人类偏好,而不是什么不是,因为大众实际上不知道什么是对他们好的。普通用户,外行人更喜欢粗制滥造的东西。对吧?我们听过这些论点。是的。有没有一丝真相,或者您是如何看待这个问题的?所以我想这里有几件事。所以第一,
就像 Anastasio 说的那样,创建困难的考试这种替代方法是有价值的。毫无疑问。我认为我还想指出的一点是,我非常重视这种批评,以及关于专家标记的批评。现在,我去找了我认识并尊重的几位专家,并问他们,你会标记吗?你会标记吗?
几乎每个人都告诉我,不,我没有时间。对吧?所以这里有一个问题,你是否会真正得到专家?对吧?对。我不知道。我不这么认为。对吧。你会得到一些来自该领域愿意进行标记的人,但最好的人不愿意。从根本上说,他们没有时间。对吧?对。
现在,但是这些人,如果我们向他们提供,我们现在没有这样做,我说的是未来,一个他们的社区来到这里并提出问题以突破界限、帮助他们的研究等等的平台。他们将首先,你将得到这些人,对吧?因为他们这样做是为了再次推进他们的研究。
而且我们将获得他们的投票。所以从根本上说,我可以做的事情在竞技场中可以获得。再说一次,我现在不是在谈论今天。我说的是未来。它甚至在今天发生。它甚至在今天发生。它甚至在今天发生。所以你会得到真正的专家。对吧?顶级专家。好的,答案是。无法雇佣的人。无法雇佣的人。这是一个很好的说法。我还想说的关于外行等等的事情是
而且你资助了很多公司。你在资助很多公司,AI 和 A16Z,而且你在许多公司的董事会任职。这些公司建造什么?他们的产品是什么?谁使用他们的产品?对吧?对吧?不是顶级专家。是外行人。对吧?这些是他们的用户。这就是 OpenAI 赚钱的方式,等等,还有许多其他公司。对吧?那么,评估是否应该考虑
这些用户的偏好,对吧?答案显然是肯定的,对吧?那么,再次,像这些考试对于理解这些模型的能力、这些基准测试非常重要,毫无疑问。但他们不会反映。MMLU 可能不如反映这些 AI 模型用户的偏好那样好。
产品和服务。我想在这里深入探讨一层,那就是我们真正兴奋的事情之一是人们为什么以这种方式投票的问题?谁在左右投票?他们为什么要这样做?在什么样的提示下他们会投票给某个模型或另一个模型?在什么样的主题或模型上更好?基本上,我们可以将人类偏好分解成其组成部分吗?
假设您有批评。你说人们根据粗制滥造的东西投票。表情符号正在推动投票,响应长度是……确实,人们更喜欢较长的响应而不是较短的响应,即使内容相同或众所周知的人类偏见也是如此。这回到了强化学习。我们可以学习这种偏见并实际调整它并纠正它吗?答案是肯定的。这就是为什么我们将样式控制设置为默认值。因此,我们开发了这种称为样式控制的方法,它……
允许您不仅运行例如布拉德利-特里回归,还可以包含某些协变量来模拟样式和情绪对人们投票方式的影响。当您拟合此模型时,您获得的不仅仅是偏好的预测,还有对原因的理解。
人们正在以他们的方式投票。这就是我们试图针对因果量,例如响应长度或情绪等等的因果效应。
好的,总是有更多工作要做才能使事情更接近我们想要的实际因果估计。但是,如果我们继续将人类偏好分解成其组成部分,那么我们正在构建一个越来越丰富的评估,它可以告诉我们所有影响响应的因素,如何优化人们的偏好或保持样式不变。假设我想保持简洁。
但我想要最大化你的偏好。好的,我该如何做到这一点?好吧,没有多少人拥有这些信息,但我们正在构建允许您这样做的方法。好的?问题是,我们可以将样式与内容区分开来吗?就是这样。存在影响,并且您想知道它。句号。该平台可以帮助您。影响是什么?影响是什么?是的。所以我认为这是另一个需要深入探讨的重要领域。有一段时间,你们决定
继续使用平台的基本设计(即 Chatbot Arena)来衡量编码模型的进展是不够的。我还记得看到一个发布,我认为你们称之为 WebDev Arena,它显示了一个完全不同的界面。然后意识到这对你们来说是一个相当大的变化,对吧?为什么我们需要……
一种新的竞技场来纠正这种影响。为什么有必要?我认为这可以追溯到,我认为,Jan 的观点。就像当你构建一个产品,一个 AI 产品时,你想知道人们如何使用它。你想了解为什么用户更喜欢这个而不是那个。为了收集这种数据,你必须首先构建类似产品。
然后,正如我们所知,在过去几年中,人们一直在 AI 之上构建各种不同的应用程序,而不仅仅是聊天机器人。对。聊天机器人是目前人类与 AI 交互的广泛使用的界面之一。但是如今,人们正在将这些模型应用于编码,然后更像工具使用、代理行为,诸如此类的东西,对吧?
因此,作为第一步,我们正在考虑,好的,我们如何捕捉所有这些用例?然后答案是,我们必须构建人们可以使用的东西,同样的环境,人们可以在其中进行实时测试以提供给我们真实的反馈。
所以,这就是最初的想法。这大约是在去年夏天,就在这种文本到网络、文本到应用程序趋势的开始。一开始是……一开始是云工件。那是第一个。我们看到了。我们对此感到惊讶。然后,我们如何为此进行评估?我们必须感谢我们团队中的 Arian。是的。然后,Arian 基本上……
就像刚刚加入团队,然后他实际上在实习,所以我们说,好吧,为什么我们不构建一些新的东西,那时云效应如何才能对这种文本到网络应用程序进行评估,然后这就是想法,一个小括号,到目前为止我们三个人都在谈论,但最终团队发展得相当大,现在我不知道,大约有
大约 20 个人,研究生和本科生,都在做很多非常令人兴奋和有趣的工作来扩展 Chatbot Arena 的能力和功能以及覆盖范围。我只是想确保我的其他同事也参与其中,例如 Joey 和其他人。我认为功劳应该归于
远不止我们三个人。但这就是我们想要提供的。无论你想要什么,我们都希望你能找到答案。从根本上说,如果你正在查看排行榜,只有一件事真正重要,那就是,你是否关心来到我们的平台上投票的社区成员的偏好?
就是这样。这就是我们衡量的唯一事物。我们不声称自己是 AGI 基准。我们忠实地代表着我们社区的偏好。这就是为什么我们社区的持续发展对我们如此重要。
而且我们拥有一个由各种各样的人组成的多元化社区,包括专家、非专家、艺术家、科学家。不同的语言。不同的语言。阳光下的每一个人。我们希望他们来到这个平台来表达他们的偏好。因为如果我们可以做到这一点,它已经在某种程度上发生了。但是如果我们可以继续发展它,将会发生的事情是,再次,为了让一个模型表现良好,需要发生的是新人需要进来并为它投票。因此,如果我们可以提供这种视角……
世界各地的偏好。事情正在发生变化,对吧?这就像,这些正在改变。这再次,这不像,这就像我们有这项研究,我不知道,你想谈谈新鲜感,对吧?关于,我们总是看到
新的提示,对吧?这不像,哦,我们将一遍又一遍地看到所有这些提示,对吧?有点饱和。情况并非如此。这正是我们相信 ARENA 从根本上不同的原因。与污染有关。ARENA 的最初目的是试图解决污染问题,过度拟合问题。
这就像人们在静态基准测试上测试模型。或者人们所说的过度拟合。是的,或者人们所说的过度拟合。那么你如何克服过度拟合?你收集新数据,对吧?这就是你克服过度拟合的方式。Arena 的设计是每秒收集新数据。所以所有问题都是新的,所有投票都是新的。然后我们基本上衡量不同的东西,所有这些提示之间有什么区别,对吧?分布是什么样的等等。
然后我们保守地估计超过 80% 左右。是的,是的。如果我,是的,是的。正确。这项研究是由我们团队的另一位成员 Lisa 完成的,它基本上衡量了与过去三个月看到的相比,您一天内有多少新的提示。对。
通过大约 70%、75% 的相似度分数,您有超过 70% 的提示是新的。75%、80%。超过 80%,对吧?所以大量的提示是新的,对吧?当你提到新的时,我们谈论的是相似性。测试并不高。这不像,哦,它们是相同的。是的,只是为了更深入地探讨 Weyland 的说法,什么是过度拟合?
静态基准测试过度拟合。为什么?正如 Jan 之前所说,你一遍又一遍地给学生同样的测试。你有一个模型,你测试它,你查看它是否在静态数据集上有所改进,然后你找到另一个模型,你测试它,然后你选择做得越来越好的那个。最终会发生什么情况是,测试变得毫无意义,因为你已经看过它很多次了,以至于你记住了答案。这就是过度拟合。Chatbot Arena 通过设计免疫于过度拟合。这些总是得到新的问题。
为了在竞技场中表现良好,需要新的用户来为您的模型投票。就是这样。这意味着用户喜欢它。我注意到的一件事是,经常与我争论 Arena 是一个糟糕的评估系统、排行榜不可信、分数被操纵、可被利用的同一批研究人员,
第一,倾向于在排行榜上名列前茅时也庆祝。第二,我发现实际上越来越多,特别是对于像 WebDev 这样的专业竞技场,人们有一种自然的倾向,那就是接受这实际上是一个非常好的潜在能力指标。这是为什么?为什么 WebDev Arena 对于实际性能改进(例如编码能力)如此好的代理,而编码能力是一个非常通用的能力,对吧?这非常违反直觉。它
编程实际上是一个非常通用的学科和技能。然而,似乎在一个非常通用的方式中,这种能力仍然能够在像 WebDev Arena 这样的专业竞技场中得到很好的捕捉。这是为什么?是的,首先,让我说,我认为所有这些竞技场都包含信号。不仅仅是 WebDev Arena。只是人们对语言有更多意见。
所以 web dev 稍微客观一些。更容易看到你构建的网站,并且这个比另一个更好。它有很多信号。此外,它粉碎了模型。我的意思是,可以非常清楚地看出,一个模型在 web dev 竞技场中立即比另一个模型好得多。砰,你看到了,这就像,为什么?只是模型的能力。也许我们会链接并说更多。我认为这只是一个困难得多的任务,因为它就像从文本中,一个网站的描述。
你必须首先理解请求,然后构建,比如编写代码,对吧?然后代码必须符合,也许满足某些要求,例如样式要求或组件,诸如此类的东西。然后它必须编译,对吧?它必须是,我们基本上在浏览器中实时运行它,然后连接到沙箱,诸如此类的东西。所以有很多模型必须正确才能构建。
一个人们可以真正交互的网站。- 从根本上更好地区分模型,因为它是一个困难得多的问题。所以很少有人能做到。- 所以对于那些说这些静态考试是困难的测试而 Arena 是一个容易获得基准的批评者来说,事实上,WebDev Arena 是一个很好的例子,它表明这是一个非常困难的评估。它实际上是一个艰难的考验。
比一些静态选择题测试更好地代表现实世界。大致正确吗?是的,当然。然后来自用户的很多输入都是针对现实世界的任务。他们正在尝试构建一些真实的网站。然后这也衡量了一些超越我们想象用户会做什么的学术基准的东西。这就像真正试图近似
用户的意图,用户的偏好直接。我必须说,我也完全不同意这个问题的基础。隐含的假设是聊天很容易,或者甚至比 web dev 更容易。这是完全错误的。这是人们对这个问题的一种完全幼稚的看法。
因为很难构建人们喜欢的东西。人们擅长聊天,但你比其他人更喜欢某些人。这是主观的,每个人都有自己的观点,而且情况非常丰富。你可能比我更喜欢一个非常不同的模型。其他人,例如音乐家,可能比我更喜欢一个非常不同的模型。理解所有这些差异非常困难。任何认为这是可被利用的人
都在自欺欺人。那么,为了以最强的论点来表达这一点,允许我评估模型是否良好的正确方法不是允许我生成我自己的排行榜吗?作为一个人?绝对的。是的,我们应该给你工具来做到这一点,我们目前正在构建它们。
这相当深刻。你看到世界正在走向每个人都有自己个人竞技场的地方吗?绝对的。绝对的。它应该为你个人定制。你应该了解哪些模型最适合你。这将是针对你的任务,这个人和任务,对吧?因为对于不同的,如果你想做不同的事情,你可能会有不同的排行榜,对吧?如果你今天对税收有疑问,你会去找不同的人。然后如果你对,
编程或其他什么有疑问,对吧?所以这也会取决于你想完成什么任务,对吧?我真的很想回到一件事。我认为这是因为,我试图对所有批评进行相当多的思考,因为从表面上看,对某些人来说,直觉上是有道理的,对吧?这就是为什么许多人提出相同的批评。
我认为还发生了另一件事。作为人类,我们相信为什么人们说竞技场不好,因为人们被愚弄了,对吧?从根本上说,这是他们那种论点。他们被愚弄了,因为答案很长,表情符号更多等等。当我从人类的角度来看待这个问题时,我的想法是我不会被愚弄。
对吧?这就是它不相关的。这些人会被这些东西愚弄。我现在不会。这就是为什么不好。这就是为什么它不是一个好的替代品。问题在于你,我们,我犯错了,对吧?每个人都错了。而这实际上,这就是为什么聊天机器人竞技场,就像Anastasios所说的那样,它是一个替代品。它提供了一个放大镜。但是你知道,我们所有人,我们都有我们自己的
特性,我们自己的文化,我们自己建立在与不同人互动基础上的历史,对吧?所以我们有不同的偏好。这从根本上来说就是这样,对吧?而这些偏好并非完全客观,对吧?因为人们说只有一个客观答案,但我们所有人都是不同的,对吧?这是一种根本的区别。
批评与我们实际提供的内容以及我们每个人都认为需要的内容之间的脱节,对吧?稍微详细地解释一下,你说我们都有我们自己的文化,对吧?而我们都很了解的Ben Horowitz有一句我喜欢的名言,他说,文化不是一套信念,而是一套行动,对吧?所以假设,
我们的信念,Arena的理念是,用户在使用AI模型时采取的一系列行动是判断该模型对他们是否有效的最可靠来源,而不是某些第三方封闭源评估。告诉你什么对你有好处。对。这就是为什么再次,就像回到之前的那样,你知道,我认为你听到的捕捉人类偏好是根本性的,因为我们正在构建
这些AI与人类互动,对吧?我认为这是基础。但是如果你,就像我们在之前的讨论中一样,说,人们说,好吧,但是其他人被愚弄了。这不是我,对吧?虽然我也被愚弄了,但我并不相信,对吧?你总是相信自己比你实际更好。但是我们可以提供风格控制。好的,等等。你可以删除它。调整这种效果,对吧?
我们将提供越来越多的。你可以调整这种效果和那种效果,对吧?所以你也会得到你的答案。LM Arena最初是一个研究项目。所以带我们回到它开始的时候。所以它大约在两年前的2020年4月下旬启动。
在那时,在Arena之前,我们正在从事一个名为Vicuna的项目,它就像第一个发布的开放模型之一,就像ChatGPT的克隆。是的。在那时,Llama 1刚刚发布,这是一个基础模型。它真的不知道如何与人类聊天,只能通过预训练过程。那时,我不认为人们……
称之为后训练。人们称之为指令微调,诸如此类。所以我们就像在实验室里探索我们如何重现它?我们如何制作ChatGPT的开源版本?然后感谢Lianmin,他有一个想法,我们可以使用互联网上发布的一些公开数据。这有点像用户ChatGPT的对话。它被称为ShareGPT。它就像高质量的聊天。
用户分享的一组对话。所以基本上我们作为一个团队,一群实验室的博士生,设定了一个雄心勃勃的目标,那就是,我们尝试在两周内发布这个模型,训练这个模型,诸如此类。所以,然后在这个过程中,结果令人惊讶的是,那时我们正在玩这个模型,然后我们认为,我们必须向世界展示它。所以我们基本上只是建立了一个网站
然后把那个模型放在网站上然后发布它。那时,内部存在巨大的争论,比如我们应该如何,当我们发布它时,我们应该如何评估这个模型?这个模型到底有多好?感觉很好,对吧?因为当我们把它与Llama(基础模型)进行比较时,你可以感受到区别,对吧?该模型只是学习了如何聊天,学习了如何像ChatGPT一样说话。
所以存在很大的争论,比如我们如何评估它?那时我们没有太多时间。所以我们想,好吧,我们要么做这种标记,自己提出问题并标记数据,然后将其与其他模型进行比较。或者我们做一些自动化的东西。然后那时,GPT-4刚刚在3月份发布。人们想知道,你能做什么,对吧?
然后我们想,好吧,为什么我们不把它用于评估呢?我们使用GPT-4作为评判者来进行这种自动评估。那时,没有人相信它。然后它再次成为一场巨大的辩论。但我们没有时间。所以我们最终还是做了。而且它再次出奇地有效。我们发布了它。但之后最大的问题仍然存在一个悬而未决的问题,那就是我们如何评估这些
聊天机器人,对吧?所以很快我们就想出了这个主意,为什么我们不让社区里的每个人都投票决定哪个模型更好,因为那时我们服务于那个模型,然后我们也同时服务于其他一些开源模型。每周都会有新的发现。所以
我们注册了一个网站,我们展示了它们,所有这些,然后我们想出了一个并排的UI,人们可以比较它们。然后很快,我们说,好吧,为什么我们不设计一个战斗模式,就像我们匿名他们的身份,
人们投票。这就是Arena的起源,它基本上是为了解决我们的问题,即我们如何评估这些模型,理解这些模型的差异。实际上,我们第一次开始时,确实尝试让一些学生买一些披萨,让他们在一个房间里,并标记Vicuna和其他模型的回复以进行比较。然后很明显,这无法扩展。
然后是将LLM作为评判者。我们尝试了,它出奇地有效。然后这是一场相当大的辩论。好吧,我们将构建一个平台来扩展,因为问题仍然是,好吧,似乎轶事地GPT-4,它在我们开始使用它作为评判者之前两周发布。仍然存在这个问题,好吧,是的,它似乎做得很好,但仍然像……
怎么样,它与人类相比如何?对。这是一个关于,好吧,我们如何扩展人工评估的问题?
我们讨论了很多如何去做,因为它并不清楚。因为如果你想想以前,你只是问人们,我有一个提示,这个提示由所有模型回答。然后你标记它,对吧?好坏。这是一种典型的如何扩展该过程的方法。然后你需要对它们进行排名,对吧?你首先有n个选择。
相同问题的答案和模型,很难对它们进行排名,对吧?想想看。我们在语气等方面略有不同,试图对它们进行排名。然后我们看到了很多,我认为灵感来自于人类在现实生活中对游戏中的玩家或团队进行评价,对吧?显然,你只有锦标赛才能做到这一点。
在那里,你可以这么说,玩家彼此一对一地比赛。然后基于此,你将获得一些积分来赢得比赛、输掉比赛或死亡。然后你将有一个排行榜。但这同样,问题是,如果你有一个锦标赛,锦标赛中的假设通常是玩家的数量在锦标赛中不会改变。
在锦标赛期间。对吧?而且一般来说,大多数锦标赛中,这位玩家必须与每个人比赛,所以这是一个n平方的问题,或者n是玩家的数量。然后我们考虑,好吧,现实生活中还有其他方法来对玩家或团队进行排名,而他们彼此之间不比赛。他们没有机会,要么是因为玩家数量太大,要么是因为你还需要容纳新玩家。
进入游戏。这就是我们所关心的,然后我们考虑,好吧,有一些学科是这样做的,比如国际象棋、网球、ATP排名等等。这就是这个想法。我们说,好吧,为什么不做一些像ELO评分一样的事情呢?好吧。为此,你需要什么?哦,你只需要一对一。并非每个人都需要参加同一个锦标赛。
这就是我们采用的方式。这就是为什么Arena有这种战斗模式,你有一个提示和来自两个随机匿名轻量级语言模型的答案。你可以选择哪个更好,或者风险方面等等。你是什么时候加入对话并带来了,据我了解,
Bradley Terry方法。是的,事实证明它在技术上比我们想象的要深奥得多。所以那时,杨说,我们需要找人来支持它。更像是理论方面,
为了有一个坚实的基础来对所有这些模型进行排名。那时,它不再像一个有趣的项目了。它最初只是一个有趣的项目。人们开始关注它,对吧?所以你最好做点什么。我去找我的同事Michael Jordan,一位非常著名的机器学习AI研究员,他是这里的教员。实际上,当我在这里伯克利建立这种实验室,跨学科实验室时,我一直在和他一起工作。
我们在2005年、2006年与他一起工作。他加入了系统人员、数据库人员,一起从事激动人心的项目。他告诉我,哦,我知道,我认识一个合适的人选。是Anastasio。我看到了当时正在构建的东西。Arena仍然与今天的Arena相去甚远。我认为,它并没有那么多使用。我看到了它,我想,哇,这是一个多么好的机会来做一些有趣的统计建模和理论。
比如能够理解我们如何最佳地对模型进行采样?我们如何进行这种估计?好吧,让我们从ELO转向Bradley Terry,因为我们实际上在这里进行估计,而不是像……ELO评分会随着时间推移而变化。它不会收敛,但Bradley Terry模型会收敛。然后我们如何为这个估计正确地构建置信区间等等……
诸如此类。所有这些东西对我来说都非常有趣。我们只是在……是的,两扇门旁边见面。我们在白板上写了五六个不同的主题。是的。我的意思是,我们开始研究它们,剩下的就是历史了,对吧?在很多方面,我觉得这是一个……Arena的诞生不可能发生在其他任何地方,除了……
伯克利这样的基础研究型大学的跨学科实验室。这是真的吗,还是你认为?好吧,如果它来自其他地方,情况肯定会更糟。原因在于,我们来自伯克利和大学这一事实是
真正体现了我们在中立性方面的科学方法。我认为如果它来自工业实验室,人们总是会质疑,哦,这些人,他们是否也在训练模型,他们的动机是什么等等。但现实是,我们只是学生。我们这样做是为了评估模型,它来自科学的角度。就是这样。我认为这是人们在看待我们时能够看到的东西,并且为我们的业务建立了很大的信任。另一个角度是
在这个这样的实验室里,你可以得到什么,你可以得到。也许在行业中,你也可以得到跨学科团队,但它们将是大型团队,对吧?因为你会说,好吧,你将组建一个做AI的团队,一个做系统的团队一起工作。这些已经是大型团队了。但在这里,你得到的是小型团队,几个人,每个人都可以来自不同的领域。对吧?对。
我们有一些系统方面的人才。早期,我们必须构建系统来服务这些开源模型,对吧?
我们必须服务于Eileen提到的Vicuña,对吧?然后你必须有一些人实际上非常擅长使用共享GPT数据。为了进行一些数据整理等等,我们做了相当多的数据预处理,对吧?当Anastasio加入后,我们现在有了机器学习专家
但团队仍然只有四五个人。早期,小型团队行动非常迅速。所以我认为这就是区别,你有一个非常小的团队,但它是跨学科的和小的。所以我认为你可能会在行业中,你可能会得到跨学科团队,但它们将是大型的。如果你能瞬间回到2023年初的那一刻,
如果我错了请纠正我,但如果我必须总结一下当时海湾地区的研究环境,大多数人基本上都在赞扬AI在学术界的消亡,对吧?这种想法是,哦,你真的不能做任何严肃的研究。你不能从研究机构为计算机科学或AI的前沿做出贡献。这实际上很常见,如果你还记得的话。没有什么比证明这些人是错的更令人满意了。对,对。那么你认为人们错在哪里?
我认为如果我可以退一步,因为我年纪够大了,所以我见过一些这样的情况。我记得当我还是学生的时候,我做的是系统工作和网络工作。那是互联网时代。而且
我参加了这些会议,有一些小组讨论,“操作系统死了吗?”“操作系统研究死了吗?”这是小组讨论的主题。原因是在那时,在上个世纪末,微软和苹果占据主导地位。当然还有一些free BSD等等。
但是,虽然它不是来自学术界,而是Linux。实际上,Linux之前是Minix,它来自荷兰的学术界。所以这是第一点。然后在2004年,当我们来到这里并开始这个实验室时,也存在一个问题,那就是这种分布式系统是什么?因为很多研究人员都在研究分布式系统。学术界能做什么?因为它是……
谷歌正在做所有这些搜索Q系统、MapReduce、谷歌文件系统,所有这些都在谷歌发生。对。对。最好的人才都去了谷歌等等。然后我们在这里做了,然后出现了Spark,对吧?对。它也来自学术界,对吧?对。
我认为这就是它开始的时候,人们实际上对Vicuna感到惊讶,只是一群学生,实际上是他们自己的主动性,对吧?我几乎是在事后才知道这件事的,从互联网上选择这种数据集,它是高质量的,并使用它。人们对质量感到非常惊讶,对吧?这就是人们问,这是真的吗?对。
对。所以我想要一个评估。我一直有点,你只是向我展示一些轶事,对吧?好吧,它看起来不错,但怎么样?有些人并不相信。是的。然后说,这是一个GPT-4包装器。是的。我记得。我记得那年晚些时候我们在NeurIPS,对吧?我记得NeurIPS
Ailyn坐在我旁边的桌子上,一位非常著名的研究员,他仍然在OpenAI,问我,哦,那是参与Vicuna项目的团队吗?我说,是的。
他说,哦,是的,我一直想和他们谈谈,因为我们认为他们违反了我们的服务条款。因为他们只是在转售我们的GPT-4。我不知道他是否来和你对质,但这正是人们默认的假设。这是不相信。所以因为一段时间以来,这些都是最好的开源模型。我不知道,三个月、四个月或其他什么时间。对。
所以这就是为什么评估在那时如此重要,对吧?因为这是不相信。所以我们试图用一些评估来支持,这似乎更客观。对。这确实是一个好模型。再次,从那时起,我们在这里做了很多其他的事情,并开源了像推理、LLM推理,像VLLM和HLANG。但我确实认为在这种意义上,在行业中,
我昨天实际上参加了一个小组讨论,同样的,这种讨论。好吧,就像,你知道,也许学术界应该做这件事。而行业应该做这件事,对吧?就像让我们,作为一个行业,你根本无法做任何事情,比如预训练等等。我认为最终,这取决于你拥有什么资源以及你解决什么问题。而且我再次认为,通过我给出的例子,如果学术界有资源来
会让你大吃一惊。显然,它将处于创新的最前沿。所以这几乎总是发生,对吧?就像在这种情况下。在这种情况下,当然我们有,我们不需要巨大的资源,对吧?我们只是一群聪明、充满激情的学生。所以当Chatbot Arena开始时,
有很多兴奋等等。但随后是这件事,好吧,至少对小组中的一些人来说,感觉我们已经完成了。我们发表论文等等,对吧?一段时间以来,即使你看使用情况,它也下降了一点,几乎是。是的,几乎就是这样。几乎就是这样。
然后Weylin,那时,他的主要研究重点是不同的。一些图神经网络,分布式图神经网络等等。我记得在我们的某个一对一会议上,Weylin对我说,看,我真的很喜欢,我想,而不是做这种工作,我真的很热衷于聊天机器人竞技场。我真的很想做,对,并专注于它。
然后当某种程度上,然后它开始了,Weylin就像一个人的后端开始了。他开始向排行榜添加更多模型,进行营销等等。很快之后,Anastasio来了,然后就有点神奇了,对吧?你拥有这些充满激情的人,他们一起工作得如此出色。他们的技能非常互补。
甚至个性,然后它开始关闭。我之所以提到这一点,是因为如果没有这种拐点,它是在项目开始很久之后出现的,我们不会在这里。我认为最近我看到一张图表,它比较了过去两年中每年在LM Arena上发布和测试的模型数量。
在2023年第一季度,我认为是两个模型。如果你看看过去这个季度,我认为大约有68个模型,对吧?总的来说,第一年大约有12个模型。而今天平台上已经有280多个了。所以在某种程度上,这听起来像是你们两个人意识到
这应该不仅仅是一篇一次性的论文。那是什么时候?我仍然记得我们为Chatbot Arena撰写论文的时候。那就像几周非常努力的工作,我们一直努力到截止日期。之后,我转向我当时的女朋友。我说,你知道吗?我认为这将是一篇非常好的论文。是的。
是的,Waylon和我当时正在谈论,但我认为我们很早就开始考虑这个问题,这可能变成什么,并试图以各种方式降低风险,并试图构建它,并说,嘿,这是在增长吗?我们可以继续构建它吗?另一个真正推动增长的领域是竞争。
在2020年初Cloud 3发布后,AI的竞争变得更加激烈。让我告诉你,为了回答你的问题,因为我认为这非常有趣,也许我有更独特的观点。我创建的其他公司都是基于来自这个实验室的项目。
比如Databricks与Spark或任何使用Ray的规模。在那里,动机非常明确。你有一个成功的开源项目,它越来越受欢迎。然后有一些公司开始使用这个项目。然后你到了这样一点,说,好吧,如果我要押注这个项目成为我的基础设施的一部分,那么当构建它的学生,比如Mateo等等,毕业后会发生什么?对。
谁来维护它?谁来发展它?所以在那种特定情况下,这是很自然的。好吧,如果真的这个变得更加成功,你必须有一家公司来支持它。无论是一家新公司还是一家现有公司,如果没有现有公司,那么参与该项目的员工,如果他们想进一步推动它,几乎就像你必须创建一家公司才能拥有足够的资源来推动它一样。
但这对于Anastasio所说的原因来说是不同的。这是一种,我们是伯克利,这是一种保持中立的信任。我记得Weylin大约一年前对我说,“我认为也许我们应该成立一家公司。”我告诉他,“伙计,你在说什么,这必须非常中立。也许我们做一个基金会等等。”
这场讨论实际上来来回回持续了一段时间。我甚至感到沮丧。我告诉这个人我认为应该发生什么,我们应该只是一个基金会等等。他来找我,他好像没听到,他好像在告诉我同样的事情,对吧?所以我们试图说服你,基本上。他们试图说服我,对吧?然后对我来说,就像,我们和一些基金会等等谈过。
但当我非常清楚地意识到,当他开始获得越来越多的需求等等时,没有办法。
你需要如此多的资金来构建这样一个平台,对吧?因为你需要服务模型,你需要构建一个完整的后端,可扩展的后端等等来做到这一点。然后是你的用户体验,对吧?所以当你看到为了将它们提升到下一个水平所需要完成的工作量时,如果没有大量的资金,你根本无法做到这一点。
所以对我来说,这是一种拐点。但这些人可以说得更多,因为他们在很久以前就比我更相信这一点。是的。我认为我们去年讨论的另一件事是,当我们试图讨论这是否真的可以成为一个解决该领域更根本问题的业务时。
我认为Anastasio当时正在对我们可以用数据提供的更细粒度的评估给出一些看法。你想多谈谈这个吗?聊天机器人竞技场,当你查看排行榜时,它运行的是边际回归,这意味着排行榜对所有用户和他们提出的所有提示进行平均排名。但有一个愿景,你可以将它推向逻辑的极致,那里有一个总排行榜。然后你可以将排行榜分为不同的类别,编码、数学、难题等等。但真正的价值……
在于,好吧,如果我可以告诉你哪个模型最适合你呢?如果我可以告诉你哪个模型最适合你和你的问题,最适合你的业务呢?那里有很多有趣的方法论问题需要提出。实际上,它们需要大量的资源来回答。所以我们最近一直在研究的一件事叫做Prompt to Leaderboard。Prompt to Leaderboard提出了以下问题。你给我你的提示。我们可以告诉你哪些模型最适合
针对该提示。现在的问题是,我们以前从未见过这个提示。我们只见过每个提示一次或零次,对吧?因为大多数人不会问所有问题。从根本上说,这是一个难题,因为你试图估计的是,如果无限多的人来问我同一个问题然后投票会怎样?这是你在脑海中试图进行的思想实验,但你无法通过运行标准回归来真正回答这个问题。所以,我们想出的策略是训练语言模型
可以输出排行榜。这实际上是一个深刻的问题,因为你实际上是在做的是训练LLM来输出我们之前讨论过的这些Bradley-Terry回归。你如何做到这一点?好吧,你必须确保在训练模型时,回归会自然地从数据中出现。你唯一得到的是二元偏好。但尽管如此,事实证明你可以做到。这具有如此多的效用,并且需要……
如此多的资源才能真正扩展。它将测试和评估的问题转化为通常是一种不性感的问题。你认为它就像,好吧,我该如何评估ML?好吧,我只是计算准确性,对吧?但现实情况是,这并不能反映模型在不同设置和不同人群中的性能异质性。但相反,Prompt Leaderboard告诉我们的是,你可以将评估问题转化为学习问题。
如果我能学习一些东西来告诉我我的模型在所有不同空间部分的表现如何?事实证明,你可以通过训练大型语言模型来做到这一点,而且因为语言模型是你获得这种评估的中间体,所以它也伴随着一个规模法则。对。
也就是说,你获得的数据越多,你构建的平台越大,你就能更好地进行评估,你就能做得越细致,你就能做得越个性化。这是一个非常强大的想法。我认为这就是我们相信的原因,嘿,这值得成为一家独立的公司。如此根本的技术创新将改变人们处理该领域的方式。让我尝试用更不准确的解释来解释这一点,但我认为它突出了数据如此重要的原因。
因此,排行榜上的提示基本上是当你给出你的提示时,就像Anastasio所说的那样,我们可能从未见过这个提示,更可能如此。但是,我们可能已经看到了许多与你的提示相似的其他提示,对吧?所以直觉上你可以认为你可以使用这些相似提示的投票作为代理来计算你的提示模型有多好。现在从这种
也许不是那么准确的类比或解释,你可以看到我拥有的数据越多,与你的提示相似的提示就越多。所以我可以越准确。我还想说一件我们没有谈到的事情,对我来说,我一开始就对这个项目感到非常兴奋。如果你考虑一下IKUNA之外以及我们自己的故事,人们如何以及仍然评估这些模型,你就会有这种基准。对。
MMLU,当时的Helm,Sweepbench,所有这些模型,对吧?问题在于它们是静态的,对吧?所以你有时会过度喂养它们。在那时,如果你还记得的话,已经开始出现关于污染的讨论了。我说的是一年半前,两年前,关于污染,对吧?
有一些非常高调的例子。为什么?因为这些大型语言模型将进行训练,正如我们现在所知,数据是一个瓶颈。因此,它们会利用互联网上所有可能获得的数据进行训练。许多这些基准也存在于互联网上。
所以这并非有意为之,可能是很多,但它们将利用其中一些非常重要的基准进行训练,而这些基准将被用来评估它们。所以这是一种根本性的问题。我认为Shalvat Arena的独特之处在于它会随着时间的推移而发展。我们认为这种方式……
人们通常评估这些模型的方式就像反复给学生同样的考试一样。
当然我们不会这样做,或者至少我们尽量不这样做。我现在作为一名教师来说。对于每个班级,每一年,我们都需要给出不同的例子。所以这是一种,同样,对于人类来说,也是一样的事情。要评估人类,要评估这种随着时间推移的学习,就像这些模型一样,你需要想出一些东西,你需要改进基准,改进例子。我认为这就是独特的方面。
以及Chatbot Arena的独特价值。也许这些人可以更多地谈谈基准随时间的推移的新鲜度和演变。基准测试和评估之间最大的区别是什么?让我先退一步。基准测试,它们是如何收集的?发生的事情是,你提出一个问题或给出输入,然后人类对输出进行评分。那么基准应该是什么?有一个答案键。基准就像一个有答案键的测试。
人类必须查看它并告诉你什么是对的或错的。竞技场的根本见解在于,由于我们构建了这个平台,我们可以做一些更接近强化学习的事情。基准测试就像监督学习。竞技场就像强化学习。在监督学习中,你只能做得和你拥有的最好的人一样好。因为发生的事情是你从老师那里学习。在强化学习中,你从世界学习。
你能够学习比最好的人所能教你的东西更好。为什么?因为你只得到了这些偏好。你得到了,这是好是坏?没有人需要告诉你为什么。没有人需要告诉你,嘿,哦,你需要改进事实。哦,你的写作风格需要在XYZ方面改进,你应该编辑这个句子。忘记所有这些。由于强化学习在训练语言模型方面如此强大,它在评估中也很强大。它可以捕捉到你和我如果在寻找的话,
永远无法理解如何编码的东西。正是开放世界的性质使你能够返回并挖掘数据,以提取比我们想象中更深刻的见解。
自己想出来。所以这似乎是根本性的矛盾,对吧?如果你,假设你是AI行业的领导者,你的产品实验室或你的产品公司,你说,我们相信对我们来说最有价值的事情是构建有用的AI产品。我们对基准破解不感兴趣。我们有兴趣制造真正有用的产品。如果这确实是事实,你应该严格支持在
在像WebDevArena这样的竞技场上越来越多地测试你的系统。假设你想构建一个有用的Web开发AI体验。那么你应该希望你的团队在这个产品上进行越来越多的测试,对吧?你想在自然使用的分布中做得很好。那么我们预计任何认真构建有用AI产品的人都希望更多地使用像WebDevArena这样的测试环境。为什么人们抱怨……
一些实验室的测试比其他实验室多。为什么他们说这是坏事?首先,我认为值得一提的是,我们为所有实验室提供相同水平的服务。没有人会受到优待或其他任何待遇。这是一个中立的平台。我们希望帮助生态系统发展。但其次,更直接地回答你的问题,人们还没有完全理解
竞技场。我认为人们仍然认为竞技场是一个基准。人们仍然认为它像,哦,人们可以过度拟合这个东西。但是还没有渗透,这是因为它是一种全新的评估方法,当你拥有新鲜数据时,你无法过度拟合。这仅仅意味着你做得很好,仅此而已。不会发生过度拟合。可能会发生的是你做得很好。你可以和我争论做得很好是否是一件好事。
好吧,这完全没问题。这不是人们的想法。我认为人们的想法仍然是,哦,你测试了这么多,那一定意味着你……因为人们习惯了。因为人们,哦,这是统计101,等等。我知道统计学。如果你在这个分布中做得很好,那么在其他条件相同的情况下,这是一件绝对的好事。然后人们可以选择,我有多想调整我的聊天模型?这是你的选择。你可以选择你对这个信号有多重视。这也很好。
所以我认为这是一个根本性的误解。但我认为随着我们的发展,随着我们继续构建它,随着它的发展,人们将对这个话题有更多的了解。然后我希望世界能够理解它。再说一次,为了确保,因为我们很早就与Stassi进行了这些讨论。所以过度拟合指的是相同的数据。对。好的。好的。但是当你做类似的事情时,你进行监督学习或类似的事情,
然后呢?你有数据,训练数据,然后你有测试数据,你在训练期间没有显示这些数据。你希望它在训练数据上表现良好,对吧?所以过度拟合意味着它在测试数据上表现良好,但仅在训练数据上表现良好。如果你从这个角度考虑,不可能过度拟合,因为我们不断……
新鲜数据。对吧?人们可以说这是一特定领域,由用户集合等等给出,你将学习在这个领域做得更好,在这个领域,这完全没问题。它可能应该关心这一点,因为这个领域是你关心的一群人。对吧?但这与过度拟合非常不同,
它有非常特殊的含义。人们在这里想到的是,哦,我要做,当他们使用热力拟合时,我要做得好,我要学习如何在竞技场观众中做得更好。这就是他们想到的。但这再次,这根本上是不同的。好吧,实际上,让我们谈谈竞技场观众一会儿,因为你提到这是一个关键部分,对吧?而不是继续
训练你的模型以在静态分布上表现良好。去年年初我和Waylon第一次聊天到去年年底之间,让我震惊的一件事是Arena的流量增长了10倍。社区的用户群增长了10倍。这是为什么?这感觉像是人们没有,这对我来说肯定是不明显的。引擎盖里发生了什么?为什么越来越多的人使用Arena?在你看来,
这是人们没有意识到过度拟合有多难的原因之一吗?为什么过度拟合几乎是不可能的?它基于人们偏好的中位数。我认为人们对看到使用量增长感到惊讶的原因之一是,当他们想到Arena时,他们会想到排行榜。他们再次想到基准。中等水平的人如何使用基准?这很奇怪。但实际上,Arena基本上是现实世界的测试。
现在只是测试来自所有前沿实验室的最佳AI。人们对测试最佳AI、使用最佳AI的需求会随着时间的推移而增长吗?是的。这就是Arena的根本基础,就像,这是一个开放的空间,每个人都可以免费来到这里比较所有AI以满足他们自己的用例。
我们一直在看到的这种需求一直在增长,我们相信它具有非常强大的持续增长潜力。与此同时,我们收集各种各样的比较数据,我们可以用这些数据来评估各种塑料。所以我想指出的一件事,因为我们一直在讨论
关于投票的讨论很多,对吧?投票是一个基本结构,它允许我们评估这个模型等等。投票必须是高质量的。如果它们没有高质量,就像你说的那样,垃圾进垃圾出。我们相信,至少有两件事我们相信竞技场的投票是高质量的。一个是提问的人
是评估答案的人。所以他们大概会了解那个问题和那个答案的背景。而不是我有一个问题和两个答案,我让一个随机的标记者来说哪个答案更好。
这现在来自信息检索领域几十年了。当人们评估他们自己问题的答案时,这被称为黄金标准。当专家评估其他人的问题和答案时,如果我没记错的话,这被称为白银。但第二件事,投票的人,投票的人,在我们的例子中是内在动机的。我们没有要求他们投票,对吧?他们可以选择不投票。
只有想投票的人。相对于那些付钱给人类投票的公司。他们提供其他类型的激励。比如,哦,如果你投票更多,我们可以给你更多资源或其他什么东西。因为你可以想象,你可以很容易地想象你如何获得错误的激励,这些激励不一定与……
提高路由质量相一致。在我听到你们谈论平台的设计时,让我印象深刻的一件事是,与其他付费服务不同,你可以在这些服务中随意发放现金或奖励,当你有人内在地测试模型的使用质量时,这开始看起来越来越像
软件测试。所以15年前,当软件系统开始部署到互联网上时,它们有bug,不安全,不稳定,不可靠。因此,作为一个行业,我们开发了单元测试、CICD和A/B测试的概念。今天,软件系统在部署到生产环境之前会经过一套相当可靠的
检查。我错了吗?或者我应该认为这是一个很好的类比,如果我们希望AI的进步,AI进步的轨迹朝着越来越可靠的方向发展,那么我们实际上希望模型开发人员和AI开发人员在实际发布到世界之前对他们的系统进行更多测试。所以我认为这就是我们开始的时候,这是关于令人兴奋的AI的另一件事
这是关于,我们相信,你现在可以看到,在广泛的场景中采用AI的主要挑战之一实际上是可靠性。特别是如果你看看企业,对吧?这个答案正确吗?这是一种根本性的问题,对吧?就像你说的那样,它与软件系统非常相似。对于软件系统,我们……
开发,就像你说的那样,这种复杂而精密的测试流程,对吧?CICD等等,对吧?所以你应该考虑一下。你需要类似的东西
对于这些模型来说,现在基本上说真话就像几乎静态的基准一样,对吧?这就是我们正在做的,对吧?你开始训练你的模型,当损失率趋于平稳时,你开始测试检查点,对吧?你有一个60、70、80的基准,你在一张电子表格中查看它,看看哪个检查点更好,无论如何,然后你可以测量。这就是发生的事情,对吧?今天,对吧?
但是就像我们讨论的那样,如果你真的要为人类构建你的应用程序,好吧,你仍然可以在你的静态基准上进行测试。没有什么错。非常有价值。但你也要在Shabbat Arena上测试你的模型,你的检查点,因为我们在本次讨论中提到的所有原因。是的。所以理想情况下,你希望竞技场成为你训练模型的CI/CD的极限部分。
我们花了很多时间讨论ARENA是如何诞生的,以及主要思想,至少是理论上的思想,是如何为了在AI中释放出更高的可靠性,我们需要对AI进行更多测试。所以让我们花一些时间更深入地探讨实现这一目标的实际情况。在实际构建最佳测试平台以提高AI可靠性方面,最困难的挑战是什么?
Arena是一个非常有趣的平台。它是独一无二的,目前有点像独一无二的。因此,有一些实际上非常令人兴奋的技术挑战。我们一直在努力改进平台,无论是从方法论方面还是从基础设施方面。
而使其独一无二的是它结合了AI、机器学习、将评估转换为学习算法,例如强化学习方面,以及相当大规模的基础设施。很多人不知道这一点,但Chabot Arena被一百万以上月度用户使用。我们每天都会收到数万张选票。
我们已经进行了超过1.5亿次对话。规模巨大。它就像这种主观现实世界评估的主要平台,并且还在不断发展。所以基础设施方面实际上相当具有挑战性。然后问题是,我们拥有这个史无前例的数据集。我们如何才能最大限度地利用它并利用它来实际瞄准我们想要的东西?这就像,
尽可能细致地评估和测量模型性能。为什么这很难?为什么粒度很难?好吧,粒度具有挑战性,因为从根本上说,当你谈论粒度时,你所提出的问题是,它对这个特定个人或这个特定提示或这个特定用例如何运作?这是一个很难回答的问题。为什么?这是因为你,Ange,来到这个平台。你问了三个问题,你对其中一个问题进行了投票。
我该如何判断哪个模型最适合你?这就像一个稀疏问题,发生的事情是用户和查询存在一个大型矩阵。用户可能提出的查询数量是无限的。用户数量非常庞大。他们只问了三个。你该如何学习哪个模型最适合该特定用户?好吧,你必须做一些有创意的事情。
而这种方法与所有这些在机器学习统计、推荐系统等等方面非常深入的核心主题有关。但是当你考虑语言时,它们会以一种新的方式出现。例如,我们正在为未来努力解决的一个问题是个性化。我该如何为你创建一个个性化的排行榜?假设我有你的提示历史和一些投票。好吧,
为了运行只针对你的回归,我可能需要数百张选票。除非我有那么多数据,否则方差会太高。但我永远不会收集到关于用户的那么多数据。或者说,目前只有对于最强大的用户,我才能收集到那么多数据。因此,我们需要一种方法来训练模型,这些模型可以查看你的交互历史,然后可以将你与其他用户进行比较,并在用户之间进行合并。
这样你就可以为特定的人、特定类别的人等等创建排行榜。这是一个具有挑战性和趣味性的问题。你只需要使用我们拥有的这种有限的信息,即二元偏好数据。你如何做到这一点?好吧,这是一个很酷的问题。这是一个难题。这是我们喜欢采取措施解决的问题。而不仅仅是个性化。如果我想评估数据怎么办?如果我想告诉你哪些数据点是高信号怎么办?哪些用户是高品味数据?
如果我想说,Ansh,他在生物信息学方面非常出色,但是当你问他关于历史的问题时,这个人不知道自己在说什么。或者如果我想说,嘿,这个人是这个特定主题的当地专家,我应该提高他们的意见权重,比如说。或者这个人只是投票噪音。我该如何将他们排除在外?我们需要能够执行这些任务,而这些任务从根本上来说是困难的,因为
我们收集的数据的结构。但它们在方法论上也很令人兴奋,我们一直在取得进展,这也是激励我们的部分原因。这一切都是由这个庞大的基础设施和平台实现的。它需要大规模地完成。它需要非常快速地完成。Wei Lin是这方面的专家,他应该对此进行更多说明。是的。在我们进入基础设施之前,我认为还有一点相关说明,以及我们正在研究的各种问题
像ML问题一样,也与早期的推荐系统有关,当时人们试图弄清楚这个问题的成本,对吧?你每个用户只有很少的数据点,但你试图为他们做一些个性化的推荐。或者Netflix。Netflix,是的。对于电影,人们喜欢什么?随着我们越来越倾向于一个更加个性化的世界,在这个世界里,公司试图构建AI产品
面向消费者的产品,每个人,并且利用所有这些用户历史记录、提示,该模型现在具有记忆功能。因此,需要开发相当多的新方法。特别是,在这种类似的评估环境中。
似乎AI进步出现了两三个新兴前沿,对吧?与两三年前相比,当时的模型相当简单,人们对模型性能质量的大多数问题主要与上下文学习有关,对吧?我给模型几个例子。它在预测该序列中的下一个
标记或单词方面有多好。这是一个相当简单的度量。快进两年或三年,现在模型已经变得非同寻常。模型越来越像系统。你描述的系统改进之一是内存,对吧?所以与五、六个月前相比,当时大多数AI助手如ChatGPT没有内存,
但现在有了,人们开始注意到模型和系统层之间明显的垂直化,对吧?所以众所周知,OpenAI在对他们最新的模型4.1或4.5或其他什么模型进行后训练时花费了大量时间,其内置的假设是模型可以访问用户的内存和上下文,对吧?当你拥有时,你如何
解决评估模型的问题,其中模型、系统、应用程序之间的界限变得模糊,这正在变成一种全栈式的产品体验,相对于一个假设没有所有这些的模型,对吧?因为现在这些与两三年前相比,并排的品尝测试看起来更容易进行,因为它看起来像可口可乐与百事可乐或其他什么,对吧?现在它看起来像甜点,对吧?
与主菜相比,无论是什么。我对类比的解释很糟糕,但你明白我的意思,对吧?例如,今天的ChatGPT具有内存。Claude没有,对吧?这些是表面上看起来非常相似的两个消费者应用程序,但在引擎盖下,它们却大相径庭。实现方式正在发生分歧。然而在Arena上,它们是可以并排评估的。
那么未来会是什么样子?你们如何解开这样一个事实,即堆栈正变得越来越垂直化和集成,跨越模型系统接口应用程序,但今天的Arena主要是人们习惯于认为基本上是对称系统的模型的并排评估?是的,我认为这是一个组合
同样,评估将变得越来越具有挑战性,并且更特定于你的应用程序。就像所有软件系统都需要它自己的CI/CD管道一样。彼此之间非常不同。我认为所有AI产品也会发生同样的事情。所以我们的信念是,为了收集真正有意义的数据或评估,对我们来说,对应用程序构建者或用户来说,我们必须为每个人构建一个现实世界的环境来进行测试,使用它,给我们真实的反馈。这也是为什么我们,并且这是一个挑战的组合,ML、产品、设计和工程基础设施。因为最终,我们将服务
我们已经为数百万用户提供服务。我们将为数千万用户提供服务。我们如何设计一个人们真正喜欢使用的产品?与此同时,这是我们可以从各种类型的用户那里收集到的最自然的反馈,包括内存。那么如果我们在Arena中拥有内存怎么办?这种类似的应用程序,测试,就像真正长的上下文
模型推理过去的能力,然后可能有一个机架系统来检索用户过去历史中的相关信息,以便为用户创建更个性化的内容或更个性化的排行榜,帮助他们选择最适合其用例的AI。当ChatGPT内置内存时,但Claude没有时,
当我出现在网站上并试图并排评估这些模型时,这实际上如何在生产中工作?两者都通过API提供模型。这是否意味着在竞技场方面,你必须重新创建内存,然后将其抽象为所有模型使用的共享服务?这种实现将如何工作?是的,我认为我们越来越会超越单一模型。该模型具有连接到不同系统的能力
你会说,像上下文一样的信息来源。搜索竞技场就是一个例子。搜索竞技场就像我们几个月前推出的那样。它基本上是一个专门用于评估具有互联网资产、web数据资产的模型的竞技场,对吧?在这种情况下,模型不仅仅是模型本身。
它必须与其他组件结合在一起。内存也是如此,对吧?你还有另一个组件,它从用户历史中检索相关信息。然后这个历史实际上更丰富,不仅仅是提示,它还包含不同模型之间的所有战斗,比较数据,然后用户表达偏好。所以这种类似的
然后它也可能是多模态的,对吧?它可以是图像,可以是视频,或者PDF,对吧?人们会上传长文档,诸如此类的东西。所以所有这些不同类型的上下文,不同模式的数据,我们如何利用它们?
为了创造更个性化的体验并对其进行评估。这将是一个非常有趣的挑战。是的,我会说我们基本上有两种前进的方式。首先,平台将继续发展,当然。我们将继续创建新的竞技场。我们将继续改进竞技场,以集成诸如工件组件和内存等内容,等等。第二是集成。最终,如果有人想评估他们的应用程序,我们应该能够为他们提供一个工具包,该工具包
与我们的服务集成以执行此操作。假设我正在构建一个代码编辑器。是的。但我希望了解现有的17个模型中哪个最适合我的用户。确切地说。那是什么样的?我使用Arena SDK?确切地说。明白了。完全正确。那么那会是什么样子呢?我的用户会……
生成一堆交互,然后Arena SDK在Arena端提供服务以并排运行?或者评估实际上发生在我的应用程序中?我不这么认为。我认为它可以在上下文中发生。所以你可以做的是,你可以拥有某种网关,允许人们访问各种不同的模型,甚至可能是他们自己没有挑选的模型,而是他们甚至可能无法访问的尖端模型。它们甚至可能是预发布的,对吧?是的。
我的用户会……生成一堆交互,然后Arena SDK在Arena端提供服务以并排运行?或者评估实际上发生在我的应用程序中?我不这么认为。我认为它可以在上下文中发生。所以你可以做的是,你可以拥有某种网关,允许人们访问各种不同的模型,甚至可能是他们自己没有挑选的模型,而是他们甚至可能无法访问的尖端模型。它们甚至可能是预发布的,对吧?是的。
然后,我们可以在我们这边利用我们在数据采样工具、模型训练以及我们收集到的包含所有多提供商比较的庞大数据集方面积累的所有经验,来做一些事情,例如为您的用户选择最佳模型,了解所有不同模型的性能,所有成本效益权衡,不同模型的成本与性能的帕累托曲线。所有这些都是我们可以检测到的,我们可以使用上下文反馈来做到这一点。
假设有人说,让我们连接到一个点赞、点踩按钮,将其反馈给竞技场 SDK。我们可以查看一下。利用这些信息,我们可以为该组织制作排行榜。我们是这方面的专家,对吧?我们已经做了很多年了。例如提示排行榜和各种技术,你知道的。D3,是的。所以我们现在正在构建一个我们称之为数据驱动调试 D3 的项目。
它还有一段时间才会出来。几个月后就会出来。但其根本前提是,成对比较反馈并不是我们可以用来构建排行榜的唯一一种反馈。我们可以用任何形式的反馈来构建排行榜。正因为如此,我们不仅可以连接到弹出式成对偏好比较以获得任何公司,这当然是我们可以做到的。但如果我想根据代码被复制的次数来对代码模型进行排名呢?
或接受。是的,代码更改被接受。有多少,比如,模型生成的代码与最终交付的代码之间的编辑距离是多少?这很有趣。你说的是,我们正在从一个世界转向另一个世界,在这个世界里,用于确定是否要改进 AI 模型的主要信号是一种非常明确的点赞、点踩二元偏好。你看到了一个未来,在那里我与产品进行的每一次互动
参与度、保留率,一直到 GUI 交互,都可以帮助模型了解需要改进的地方。绝对的。这正是我们可以将我们一直在开发的方法论融入其中并为人们提供有益反馈以继续改进其模型的那种东西。如果你想创建人们会使用的代码,
确保人们正在使用它,并且编辑距离很小,并且人们接受你的更改。好的。如果你想构建一个像 Devin 这样的代理,它将成为你的软件工程师,有多少 PR 最终被合并?这就是我们正在构建的技术,它可以让你深入了解非常丰富的见解。我认为,由于我们正在开发这种新方法,我们认为我们拥有能够为人们提供这种服务的优势。你之前谈到了提示到排行榜。让我惊讶的一件事
当我查看存储库时,它是一个开源存储库,是该模型在竞技场上的表现有多好。你能实际走一遍你们重新回顾一下它是什么,然后当你们实际将其部署在竞技场时发生了什么吗?我将在这里深入一些技术细节,因为我认为它很酷。那么,提示到排行榜,它能做什么?如果你查看聊天机器人竞技场排行榜,它是布拉德利-特里系数。
提示到排行榜是我们构建的一项技术,它允许你获取提示,然后为每个模型生成特定于该提示的布拉德利-特里系数。布拉德利-特里系数是一个排行榜。越高越好。这意味着你更有可能赢得战斗。那么,生成排行榜的下一步是什么呢?好吧,让我们做一个路由器。Anj 问我一个问题。我将只针对这个问题生成一个排行榜。然后,如果我将他的问题路由到排行榜顶部的模型呢?
事实证明,当你这样做时,当你训练一个提示到排行榜模型时,比如一个 70 亿参数的模型,然后你用它来路由 Ange 的问题以及所有人的问题,该模型的表现比路由器中使用的任何组成模型都要好得多。现在,这里还有另一件更有趣的事情。因为布拉德利-特里系数具有特定的参数形式和统计意义,所以你可以在下游优化问题中使用它们。
因此,优化问题的一个例子是路由器。在成本约束下最大化性能。例如,路由器可以是一个随机路由器,它在不同模型之间进行选择。它有一个随机策略来选择,嘿,Ange 问我一个问题。我有 50% 的概率将路由到这里,有 50% 的概率将路由到这里。我将以这种方式进行操作,我的平均成本为一分钱。我将在该条件下最大化我的性能。
现在,如果你追踪性能,任何单个模型作为路由器一部分所能提供的最佳性能作为成本的函数,这比路由器差 2 倍。换句话说,就每单位成本的性能而言,路由器为你提供了双倍的回报。如果你想使用路由器实现 1280 的竞技场分数,它的成本将是你使用任何单个模型成本的一半。
这太棒了。这意味着你正在利用这些模型在提示空间不同部分的性能异质性来正确地路由它们。并且由于它具有统计解释,你也可以对其进行成本约束。这就是为什么提示到排行榜很有趣,因为我们认为它是一个根本性的第一步。
以一种有原则的方式解决这个问题。从我们的角度来看,这是做路由的正确方法。如果你想做路由来最大化偏好,就像在内部开放时,他们正在进行这些 A/B 测试,对吧?如果你想最大化你在这里获得的反馈和参与度,那么你应该使用像提示到排行榜这样的策略。因此,我们希望这种事情能够使他们更容易避免下拉菜单,并且他们实际上可以在自己的产品中实现它。我相信他们有自己的策略,但这可能对他们也有帮助。
让我们稍微谈谈,你说过随着时间的推移,体验会变得不同。竞技场的体验将与 ChatGPT 不同。让我们稍微谈谈路线图。在接下来的几个月里,你们正在努力做的最重要的事情是什么?然后让我们展望更长远的目标。是的,我们已经提到的两个是个性化和用户排行榜,对吧?首先,我们可以让人们
找出他们最喜欢的模型,并倾向于这种体验,激励他们给我们更好的投票,来这里查看他们的个人排行榜和个人指标,然后给他们很多东西来深入挖掘。在这种情况下,我们将个人和平台的利益统一起来,因为你不想搞砸你的个人排行榜。就像人们现在使用社交媒体一样,他们不喜欢随机帖子,因为他们
如果他们这样做,那么他们的信息流就会被搞砸。所以就像,哦,我会更小心投票。我会更小心地查看所有这些不同的模型等等,我们相信这将共同创造一个更好、更高质量的竞技场。绝对的。然后关于用户排行榜,我们能否以这样一种方式评估数据,让人们知道他们在所提问题的类型、问题的有用性方面处于什么位置?
我们认为人们会喜欢这个。能够用数学的方式看到这一点是一件非常有趣的事情,我正在问最好的问题。我会喜欢这个。如果我问的是世界上最好的统计问题,我会喜欢的。我认为人们会使用它并认为,嘿,我想成为顶尖人物。
那么我们能否继续调整激励措施呢?顺便说一句,一旦我们做到这一点,它就会更有价值。排行榜更有价值,因为它意味着我们开始消除那些可能有点像,“哦,我不知道这些按钮是什么。点击。”的人产生的噪音。相反,人们会得到真正有意的、高品味的投票,识别出这些人,甚至能够如此仔细地进行个性化,以至于我们可以为不同类型的人制作排行榜。那将是不可思议的。
然后,另一方面,就像我们作为一个平台对谁是那些用户以及我们如何甚至定制分发有更多可见性一样
另一方面,模型开发者或大型开发者关心的是。我想说,哦,我想在我的 AI 或我的系统中测试日本的开发者,比如说。然后我们能否有能力定制这种分发来定位最能反映你的用例的有意义的分发?其中一件事
你们一直非常关注的是开源。我认为从第一天起,LM Arena 就开源了提示、投票、平台上生成的数据块。我认为我们每周都会更新排行榜。然后我们处理数据的全部代码基础设施都是作为开源发布的,还包括研究、博客、论文,以及提示排行榜,我们发布了论文、开源、模型、代码以及所有内容。因为我们相信这对与社区建立信任以及真正建立我们能够在其之上实现越来越多的价值的基础至关重要。因此,出于采用原因、信任原因,
以及合作。当你们从一个研究项目转变为一家公司时,在你们扩大团队、项目发展壮大的过程中,你们公司创造和坚持的最重要的价值观是什么?绝对的。好吧,我们非常关注中立性、创新性和信任度。
我们来自学术背景,是的,我们想保持这种文化,这是一个项目。这是一个以社区为中心的项目。它将继续发展壮大。是的,它将成为一家公司。该公司将支持我们已经构建的项目并使其发展壮大。是的,它将继续变化。它会变得更好,对吧?我们将继续改进它。我们将继续发表论文。我们将继续发布开源。我们将继续发布开放数据,对吧?这将成为我们文化的一部分。而且,
这是双向的,因为这是你招聘的方式。最好的人不想躲在一家公司里开发一堆永远不会发布的专有技术。它只会停留在公司内部最近邻居的记录中。只有他们才知道。我们希望全世界都知道评估这些模型和加速生态系统最好的方法是什么,并且发布这些数据也是我们信任的重要组成部分。
如果人们想问这个问题,嘿,模型的性能如何?为什么它们表现良好?去看看数据。这就是我们对 Lama 所做的。当人们对 Lama 有疑问时,我们只是发布了数据。很容易。去看看。我们计划在我们公司存在的整个生命周期中做这样的事情。这就是我们招募将帮助我们开发方法论的最佳研究人员的方式。这就是我们开发关心整个生态系统,而不仅仅是一家公司的最佳工程师的方式。最终,这就是我们将开发最佳产品的方式。我们将成为该领域的核心
我们已经这样做了,但我们将巩固它,那就是保持开放和中立。你将如何解决经常存在的这种紧张关系呢?当有人担心随着 AI 越来越普遍,随着 AI 系统开始部署在非常关键的行业(例如我们讨论过的国防、医疗保健等)时,实际上有人认为这些系统应该
闭源并在相当封闭的环境中进行评估,而不是以这种方式公开测试,这实际上是不负责任的。你如何看待这种文化冲突?听着,我不是国家安全方面的专家,但我认为像我们这样的评估平台有很多不同的使用方法。如果他们想公开评估它,他们可以。如果他们需要私有部署,我们也可以做到。这仅仅取决于国家安全风险的程度,这超出了我的能力范围。
但对于所有这些事情,你都需要某种主观的社区驱动的评估。那是肯定的。如果事情要在现实世界中部署,你需要真实的人来测试它们。是的。而且,当你开发模型时,这个模型将被广泛的公众使用,必须有一个测试阶段。然后我们正在尝试……我们正在构建的是弥合……
实验室构建的东西,就像最新的前沿研究,世界将把它用作一个大型的。你需要一个环境来进行测试,从某种意义上说,这是一个更受控的环境,拥有你想要定制的分发的人,你想要了解偏好。需要这样的平台存在。
并希望为其服务。是的,你能谈谈红队竞技场吗?是的,例如,竞技场的这种现实世界测试理念可以应用于我们讨论过的许多不同的应用程序,对吧?从聊天机器人到 Webdap 到不同的模态,图像,诸如此类的东西。以及红队,因为红队在其核心是像一群人试图打破模型以查看它是否真的忠实地遵循
模型已被指示执行或创建的操作,对吧?所以这些天,许多前沿实验室一直在发布类似模型规范的东西,比如模型应该如何以这种方式或那种方式运行,对吧?然后,但是你怎么确保模型遵循这些指令呢?你再次需要现实世界的测试。你需要红队,你需要一群在这个领域有知识的人来帮忙,对吧?所以,
同样,这也可以由社区驱动,因为有一群充满活力的社区破坏者。他们想帮忙。他们也希望它像,他们想,他们为了乐趣而测试它。就像,所以在红队竞技场,我们有一个排行榜,不仅针对模型,也针对用户,针对破坏者,谁是最好的破坏者。
可以识别所有不同模型的问题。所以非常特别的是,现实世界测试的这个想法仍然适用,并且仍然可以为我们相信的生态系统提供价值。那么,如果我想了解模型中的安全或安全风险,我可以去红队竞技场查看模型在那里生成的评估,这样说公平吗?红队竞技场在实践中如何实际工作以提高这些模型的安全性和可靠性?是的,当然。我认为与我们如何理解 JetBar、WebDAI 等类似。将会有许多不同的应用程序,人们试图在模型之上构建。这是一个客户服务模型。
或像检索系统之类的,对吧?你希望模型以某种方式运行,并且你希望控制。然后在红队竞技场,这个想法将是,为什么我们不构建一个环境来模拟这些应用程序呢?例如,我们可以构建一个模拟客户服务的环境
模型被指示不要采取某些行动的地方。然后你作为破坏者试图破坏模型。因此,我们将获得的关于现实世界测试破坏的信号将反映人们关心的特定用例。顺便说一句,红队竞技场现在还只是一个原型。我们正在继续努力。但看到人们可以……很有趣。
它不一定是拒绝回答人们提出的这些查询最多的模型,不一定更好。有些人想要一个更可控的模型。有些人想要一个会说任何他们想说的话的模型。有些人想要一个完全安全的模型,你可以使用 PG-13 或 G 级。没关系。只要人们有选择。所以当我们开始在这里结束时,很多人问的一个问题是,世界是什么样的,特别是评估和测试的世界?
当我们从预训练世界转向后训练世界,从模型世界转向代理世界时,对吧?从某种意义上说,你们似乎有点领先于曲线,竞技场一直是代理的环境,而不是一组静态的。所以当人们开始,当代理在长期任务和工具调用等方面变得更好时,这个未来,经济中大量的作品主要由完全端到端的自动化系统完成,竞技场是否必须以任何根本的方式改变?
为了那个未来?还是看起来大体相同?是的,我认为如果我们一直在谈论什么是根本性的,那就是有机的现实世界测试和反馈。这不会改变。我可以告诉你,这不会改变。我们是否必须调整 UI?是的。我们是否必须改进产品?是的。我们是否必须推出新的评估产品?是的。我们是否必须开发新的方法论?是的。基础会改变吗?我认为不会。我认为现实情况是,如果你想真正测试你的模型,你必须让它经受现实世界的考验。你必须收集来自现实世界使用的反馈。就是这样。
所以我们对未来会发生什么感到非常兴奋。我们实际上甚至不知道产品在未来 5 到 10 年内将如何发展。对吧?生态系统发展如此迅速。但无论它走到哪里,我们都兴奋地追随。太棒了。谢谢你们。谢谢。谢谢。
如果你坚持到这里,非常感谢你一直听到最后。并在接下来的几周继续收听,因为我们有一些很棒的讨论要安排。最后,如果你喜欢这次讨论或你在本播客中听到的任何其他内容,请广泛分享并评价 Apple Podcasts 上的节目。