We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 706: Large Language Model Leaderboards and Benchmarks

706: Large Language Model Leaderboards and Benchmarks

2023/8/18
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Insights AI Chapters Transcript
People
J
Jon Krohn
K
Katarina Konstantinescu
Topics
Katarina Konstantinescu:大型语言模型(LLM)的性能评估需要考虑多个方面,包括学术研究中的基准测试和普通用户的实际体验。基准测试通常关注准确性、效率等指标,而忽略了创造力、易用性等用户体验相关的因素。因此,基准测试结果可能与普通用户的实际体验不符。此外,由于顶级LLM通常是闭源的,评估数据集污染的问题难以解决,因为无法完全了解模型的训练数据。这会导致评估结果被夸大。由于模型性能不断提升,以及训练数据集的不确定性,LLM的基准测试需要不断更新和完善。LLM性能评估需要考虑多个方面,例如准确性、公平性、毒性等,如何综合考虑这些因素是一个挑战。通过长期收集LLM性能指标,可以将性能评估转化为预测问题,从而研究影响LLM性能的因素。不同的LLM基准测试可能更适合不同的应用场景。 Jon Krohn:GPT-4等模型的训练数据包含了互联网上的大量信息,包括基准测试数据集,这会导致评估结果被夸大。随着LLM模型不断更新和改进,以及信息获取速度的加快,保持基准测试的有效性将面临越来越大的挑战。尽管LLM性能评估存在一些问题,但该领域正在不断进步,模型性能也在不断提升。Chatbot Arena通过人工评估的方式收集数据,能够更直接地反映用户的实际体验,但仍然存在一些问题。Chatbot Arena借鉴了象棋中的ELO评分系统,用于评估LLM的性能,更贴近用户的实际体验。普通用户对LLM的评价可能与基准测试结果存在差异,数据集污染是LLM评估中的一个重要问题,现有的LLM排行榜各有优缺点。

Deep Dive

Key Insights

What are the key challenges in evaluating large language models (LLMs)?

The challenges include dataset contamination, where models may have already seen the evaluation data during training, and the divergence between academic benchmarks and real-world user perceptions of performance, such as creativity and user interface experience.

Why is dataset contamination a significant issue in LLM evaluations?

Since top-performing LLMs are often trained on vast amounts of publicly available data, including benchmark datasets, their performance on these benchmarks may be inflated because they have already encountered the evaluation data during training.

What is HELM and why is it significant in LLM evaluation?

HELM, or Holistic Evaluation of Language Models, is a comprehensive benchmark developed by Stanford University's Center for Research on Foundation Models. It systematically evaluates LLMs across multiple tasks and metrics, aiming to provide a more holistic view of model performance.

How does the Chatbot Arena differ from traditional LLM benchmarks?

Chatbot Arena uses head-to-head comparisons where human users select which model's output they prefer, providing a more qualitative evaluation. This method incorporates human feedback directly into the evaluation process, unlike traditional benchmarks that rely on predefined metrics.

What are the limitations of relying on leaderboards for LLM comparisons?

Leaderboards, such as those from HELM, Chatbot Arena, and Hugging Face, often have different evaluation criteria and model inclusions, making it difficult to get a clear picture of overall performance. They also may not align with specific use cases, as different models excel in different tasks.

What role does creativity play in user perceptions of LLM performance?

Creativity is a key aspect of user experience that is not typically measured in academic benchmarks. Users may value creative outputs, such as unique responses or innovative ideas, which are not captured by traditional accuracy or performance metrics.

How does the release of Llama 2 impact the LLM landscape?

Llama 2, released by Meta, includes models with 7 billion, 13 billion, and 70 billion parameters. The 13 billion parameter model performs comparably to the previous top open-source model, Falcon, while the 70 billion parameter model outperforms all previous open-source LLMs on Meta's benchmarks.

What is the significance of the ELO rating system in Chatbot Arena?

The ELO rating system, borrowed from chess, ranks LLMs based on head-to-head comparisons. It adjusts model ratings based on user preferences in output quality, providing a dynamic and user-driven evaluation method that reflects real-world performance.

What are the potential long-term benefits of comprehensive LLM evaluations like HELM?

Comprehensive evaluations can help identify general principles of LLM performance, such as the impact of model size or training objectives on outcomes. This could lead to standardized metrics and a better understanding of what factors contribute to successful LLMs.

How does the issue of moving goalposts affect LLM benchmarks?

As LLMs improve and potentially incorporate real-time updates, benchmarks may become obsolete quickly. New benchmarks are needed to keep up with the rapid advancements, creating a constant challenge for evaluation standardization.

Shownotes Transcript

在本期节目中,Caterina Constantinescu 深入探讨了大型语言模型 (LLM),重点介绍了顶级排行榜、评估基准和现实世界用户的感知。此外,还将了解数据集污染的挑战以及 HELM 和 Chatbot Arena 等平台的复杂性。其他资料:www.superdatascience.com/706 有兴趣赞助 SuperDataScience Podcast 节目?请访问 JonKrohn.com/podcast 获取赞助信息。</context> <raw_text>0 这是第 706 集,嘉宾是 GlobalLogic 首席数据顾问 Katarina Konstantinescu。

欢迎回到 Super Data Science Podcast。今天,我邀请到了富有洞察力的 Katarina Konstantinescu。Katarina 是 GlobalLogic 的首席数据顾问,GlobalLogic 是一家大型的全生命周期软件开发服务提供商,在全球拥有超过 25,000 名员工。此前,她曾在金融服务和营销公司担任数据科学家。她是苏格兰数据科学会议和聚会的重要参与者,并拥有苏格兰爱丁堡大学的博士学位。

在本期节目中,Katarina 详细介绍了比较开源和商业大型语言模型质量的最佳排行榜,以及与 LLM 评估基准相关的优势和问题。好了,让我们直接进入我们的对话。Katarina,欢迎来到 Super Data Science Podcast。很高兴再次见到你。那么,你今天是从哪里打电话进来的呢?实际上是苏格兰的爱丁堡。顺便说一句,我很高兴来到这里。

很好。爱丁堡是一个地方,正如你从我们在纽约艺术会议上相遇时所知,爱丁堡是我在攻读博士学位期间在那里进行研究合作时花费大量时间的地方,这导致了我唯一一篇真正顶尖的机器学习期刊论文。我有一篇来自我在爱丁堡大学合作的 NeurIPS 论文。所以有很多惊人的信息。

爱丁堡的计算机科学系,尤其是在人工智能方面。而且已经持续了几十年了。它是人工智能领域的一所强大院校。它可能是最古老的人工智能院校之一。我的意思是,我不知道还有什么可以追溯到更早的时期。这太有趣了。是的,这绝对是爱丁堡的一个吸引力,我觉得它甚至不需要这个。这是一个如此华丽,哥特式风格的地方。但对我来说,我的轨迹却大相径庭。

我实际上来这里学习心理学,然后通过一些沿途的发现,不知不觉地转向了数据科学,实际上在我的博士学位期间,我越来越对数据设计方面感兴趣。

以及我正在运行的实验、数据分析,而不是心理学理论本身。但后来也发生了一些意外。我发现自己正在运行爱丁堡的 R 聚会。

与许多从事数据科学的人会面,慢慢地我最终为数据实验室工作了几年,那是我第一次真正的数据科学工作,从那以后我就一直坚持了下来。我还住在爱丁堡。这可能是在我出现在这里十年之后。所以,我们在这里。这是一个美丽的城市。冬天很黑暗。

但它是一个美丽的城市。那是肯定的。这是爱丁堡最艰难的事情。我认为在冬天,太阳大约下午 3 点落下,这相当糟糕,说实话。但是,你与爱丁堡的 RR 聚会的联系,我想,最终将我们联系在一起,因为这就是你最终与 Jared Lander 运营的纽约 RR 聚会建立联系的方式。

所以,是的,你在 R 会议上做了一个演讲。我们在纽约 R 会议上现场拍摄了一集超级数据科学节目,最近作为第 703 集与 Chris Wiggins 一起发布。那是一集很棒的节目。你在那里也做了一个关于大型语言模型基准测试的精彩演讲。所以我今天想专门做一个关于这个主题的节目。

所以,至少在录制时是一个大新闻,并且希望在本集发布时仍然相当相关,因为这个领域发展如此迅速。但在录制时,Llama 2 最近发布了,Llama 2 是

由 Meta 发布,包含 11 个基准测试,因此公开发布了三个 Llama 2 模型。有一个 70 亿参数、一个 130 亿参数和一个 700 亿参数的模型。即使是 130 亿参数的模型在这 11 个 Meta 发布的基准测试中

它与我之前所说的顶级开源大型语言模型(用于聊天应用程序)相当,即 400 亿参数的 Falcon 模型。所以突然之间,你有了这个 Llama 2 架构,它的尺寸只有三分之一,但在这些基准测试中的性能却相当。但是当你跳到 Llama 2,700 亿参数的模型时,它就将所有现有的参数

开源 LLM 从模型中,从水中吹走了。所以,是的,那么你呢,我们应该相信这个吗?我们可以相信这些基准测试吗?是什么,我的意思是,是的,深入挖掘我们,深入挖掘我们,了解为什么这些基准测试有用,但也了解问题是什么。

酷。是的,这是一个非常好的起点,可以开始我们的整个对话,因为这个例子我认为涵盖了我真正想谈论的各个方面。我认为我要深入探讨的第一个方面是这一切意味着什么?你怎么能……

以一种真正体现过去几年在这个 LLM 领域所付出的所有努力的方式,来解释性能的概念以及它的含义是什么?所有涉及的方面是什么?最终,一旦你开始深入研究所有这些细节,包括所有基准测试、所有指标以及这些测试套件中使用的特定领域,如果你愿意的话,

你如何才能再次深入挖掘,得出一些在整个领域都有意义的结论,尤其是在它发展如此之快的情况下?所以我想我可能会首先指出一个风险,那就是我们立即被置于这个学术研究的领域。很明显……

一个已经非常发达的领域。我们正在讨论所有这些基准测试,正如你提到的那样,但我事先想强调的是,最终,我们的想法是这些模型将被一些外行人、一些用户所接触,他们对性能的想法可能与所有这些基准测试中的内容并不特别重叠。

我认为一个很好的例子可以真正说明这一点,例如,作为一个普通的普通人,我可能会考虑询问 ChatGPT 例如适合我侄女的礼物是什么。我的整个体验和我对性能的想法可能更与

答案是否足够有创意?创意不是你在这些基准测试中通常看到的。你甚至如何开始衡量创造力?所以这是一个方面。它也可能与……

围绕这些模型的界面,使其足够容易让用户与模型本身进行交互。所以,是的,我认为这绝对是值得在对话中进一步探讨的事情,尤其是在该领域进一步发展的情况下。但为了回到更学术的研究角度,那么我

我可能在这个时候深入探讨的是,因为它是一个非常好的、可靠的努力,试图结合许多方面的测量、指标、数据集,那就是围绕 HELM 论文的整个努力。

所以,与其立即讨论这个模型在这个任务或那个任务或这个指标或那个指标上是否比那个模型更好,

在 HELM 中,我认为……哦,对不起,Katarina,打断你了,但快速地,让我们为我们的听众定义一下 HELM 是什么,至少是首字母缩写。它是大型语言模型的整体评估,我相信你将把它作为一个全面的基准来介绍。但在我们开始之前,在你开始录制之前,你向我提到过与任何这些测试相关的另一个方面。也许你本来打算用 HELM 来介绍它,但这是关于污染的问题。

是的。所以,我认为一个可能不太明显的方面,首先,每当我们谈论评估风险时,就是这个想法,特别是那些被认为是最先进的并且具有,

广义地说,良好的性能,引号,它们往往是闭源的。所以发生的情况是,我们对最初进入这些模型的所有类型的数据并没有很好的掌握。因此,

结果是,我们在确定我们是否真的在我们的测试中将这些模型暴露于它们之前已经看到的数据方面存在一定程度的不确定性,如果情况如此,那么显然我们看到的任何性能都可能最终被夸大。这与如果我们使用 GPT-4 并被它在这些类型的指标上获得惊人的结果所震惊,但这

它已经接受了整个互联网的训练。因此,这些测试问题、测试答案都在其中。所以这是一个经典的……

这种情况,当我们创建机器学习模型时,我们要确保我们的评估数据不包含训练数据。但是,如果算法已经接受了互联网上所有内容的训练,那么任何评估中的问题和答案可能都已存在其中。更重要的是,这很有趣,因为在 GPT-3.5 到 GPT-4 的性能方面,在诸如 LSAT 或

我不知道它是否专门是 LSAT,实际上。它是一种通用的律师资格考试。所以 LSAT,我想,是为了进入美国的法学院。律师资格考试是在你获得法学学位并想在美国许多不同州获得资格后进行的考试,这是一个普遍的考试。我不记得确切的数字,但像 GPT 3.5 那样,你知道,十分之九的人会胜过它。

人类会胜过它。然后有了 GPT-4,情况就反过来了。只有十分之一的人类会在这次律师资格考试中胜过它。是的,这实际上是一个非常好的例子,因为 LSAT 绝对是这些基准测试的一部分。所以,如果像 GPT-4 这样的东西被训练成在该方面表现良好,那么如果你进来并试图再次在相同的

类型的基准测试上测试它,那么这有点没有意义,因为你不会真正发现关于其性能的任何新信息。这让我们想到了一个不同的观点,我很高兴我们现在能够提出这个观点。有这个想法

可能永远不会有一个特定的时间点,我们可以停止改进和更新这些基准测试,因为,首先,我们不知道最初训练集中包含了什么。所以唯一真正的方法是找到聪明和巧妙的方法来

测试模型的性能并不断更新基准测试本身。但同样,随着性能的提高,基准测试实际上可能会过时并且相对容易。所以从这两个角度来看,一直有这种努力来添加新的测试,例如 Big Bench,

我认为一开始有 200 个测试或类似的东西,但现在由于这个确切的原因,有 20,214 个测试。这就是为什么可能也会有很多变化,从任何类型的标准化角度来看,随着时间的推移可能会增加,因为目前我们,

性能可能意味着很多事情。它可能意味着准确性。它可能意味着公平性。它可能意味着缺乏毒性。所以,是的。

一个很大的测量问题是如何结合所有这些不同的方面,以及你是否需要这样做,因为有一些迹象表明,有一些研究表明,尽管这些方面在实质上大相径庭,但所有这些方面最终都高度相关,这也是一个有趣的想法

所以,是的,由于所有这些原因,我认为整个领域的这项研究不会很快停止。所以另一个大问题是如何才能让自己保持最新状态并消化该领域发生的一切?是的,这确实看起来很棘手,这个问题是不断地必须提出新的基准来评估研究。

这将成为一个越来越大的问题,因为据推测,与你今天进行谷歌搜索的方式相同,你当然会获得来自互联网各地的几分钟或几小时前的信息。并且似乎可以想象,在不久的将来,

虽然像今天的 GPT-4 这样的模型接受的是几年前停止的数据训练,但据推测,人们正在研究不断更新这些模型权重的方法,以便你可以在模型权重中使用最新的世界信息来获得 LLM。因此,有人可以发布一个基准测试,然后几分钟后,LLM 已经记住了解决方案。所以这是一个

是的,我想移动的标杆是定义。另一方面,我们当然可以说这些模型正在变得更好。所以尽管存在所有这些问题,但我对使用 GPT-4 相对于 GPT-3.5 时,我得到的答案比以前好得多,并且比以前不太可能出现幻觉,这一点非常有信心。所以……

这些测试应该测量某些东西。我认为这些测试确实有价值。它们具有巨大的价值,并且应该相关。我希望它们会相关,或者至少看起来像当这些论文发表和 Llama 2 发布时,我看到,哇,700 亿参数的 Llama 2 模型,它优于

Falcon 和 Vicuna,Vicuna 和所有这些以前的模型。然后我去使用 700 亿参数的 Llama 2 在 hugging face 聊天界面中。我想,哇,这实际上在一些我提出的问题上非常接近 GPT-4,我觉得这些问题是它以前没有遇到过的问题。所以这种潜在的真正改进正在发生。

它似乎确实与这些定量指标相关。但是,是的,棘手的问题,很多棘手的问题。我不知道。你认为 Helm……你似乎觉得 Helm 可能是你之前开始谈论的解决方案。我认为……

他们尝试系统地解释性能并尝试交叉各种因素的方式可能是我最终组织这项研究的方式。这就是为什么它真正吸引了我。

但是,投入其中的巨大努力确实使得在某些时候很难看到森林中的树木。我想更深入地探讨一下这个想法。但是,是的,我们正在讨论,例如,我认为有五到六种核心类型的任务,从诸如总结、信息检索、情感之类的任务开始。我

我面前打开了页面。所以再次,Helen,它是大型语言模型的整体评估,它是斯坦福大学基础模型研究中心 (CRFM) 的一项努力。他们根据你所描述的许多类别评估了 42 个总场景,例如总结、问答、情感分析、毒性检测和

它继续进行。知识、推理、武器、效率、校准。我没有列出所有单独的测试。我列出了类别。是的,完全正确。可能会有六到十二个不同的测试。是的。并将所有这些乘以他们正在考虑的数十个模型。所以你很快就会得到大量的信息。如果你退一步,你自然会问自己,比如,这一切意味着什么?

现在,作者们通过在网站上创建排行榜来帮助筛选这些大量信息。这是一个非常有趣的工具,因为它不是一个独特的概念。我们在 chatbot arena 上有排行榜,在 Hugging Face 上也有一个。

但问题是。我最初的想法是,哦,太好了,我不必一定要跟上各个模型。我可以简单地浏览一下这些排行榜,了解该领域发生的事情的要点,然后任何引起我注意的事情,我都会更深入地研究一下。但我开始意识到,这并不那么简单

因为即使有这三个排行榜,现实情况是它们的评估标准、包含的模型本身并不重叠。所以查看三个不同的地方已经有点模糊了正在发生的事情的画面。所以。

与这个想法相关,我开始意识到,实际上像 Helm 这样的大型论文巧妙地引入了你感兴趣的时间范围的概念。因为如果你对现在和这里的模型感兴趣,因为你可能想要为你想创建的特定应用程序选择一个模型,你

那么当然,你会深入研究这些内容,并认为,好吧,对于这项任务,这个指标,我想看看哪个做得最好。我会选择它并自己进一步测试它,或者其他什么。但如果我们对

有更长远的眼光,那么也许我们感兴趣的是与这个模型与那个模型的细节无关,而是诸如什么是好的、嗯、标准化的方法,我们可以甚至考虑这些事情的衡量,因为它太广泛了,因为它涉及到许多不同的方面。也许在未来的某个时刻,与其检查,嗯,

数十个不同的基准测试,多个排行榜,也许会有更少的地方可以检查,或者至少我们可以希望如此。由于最终,一旦我们正确地获得了所有这些指标,例如,我不知道,

信息检索或问答的准确性以及为数十个模型计算的任何相关指标,我们可以用这些指标做的是开始将所有内容框架化为一个预测问题,这就是事情变得真正有趣的地方。因为如果我们继续收集这些类型的指标,我们最终将越来越接近这个时间点,我们可以说,好吧,什么成分

来自各种模型的模型实际上进入了这种观察到的性能水平?是因为它们有这么多参数吗?是因为它们有这个训练目标还是像一般来说,是否存在某种成功的秘诀往往会导致更好的性能?如果是这样,那是什么?

除非我们进行所有这些评估,否则我们不会真正知道这些问题的答案,但要从这个更广泛的角度来看待它们,而不是这个模型或那个模型,而是某种程度上控制 LLM 在一般水平上如何运行的普遍规律。是的,所有这些都非常、非常好的观点,并且非常有思想地认为我们最终可以融合并拥有某种

一个真相状态供你参考。在录制时访问 Hugging Face 的 OpenLLM 排行榜很有趣。我们确实有各种版本的 LLAMA2 通常位于顶部。看起来一些小组已经用更多的指令微调对其进行了重新训练。

是的,Hugging Face 正在尝试对一些不同的评估进行平均,例如 Hello Swag、NMLU、Truthful QA。但这些测试只是 Helm 运行的 40 个测试中的三个,例如。

是的,所以我想,我的意思是,很高兴认为我们也许可以去获得一个绝对的答案。但我认为另一方面,根据你或你的用户将要使用的具体用例,也许这些不同类型的基准测试,这种粒度级别是有用的。例如,对于 Llama 2,

我实际上没有自己测试过,但我读到 Llama 2 在代码任务或数学任务上的表现不如 GPT-4,即使它在只是普通自然语言的情况下的表现可能相当,在这种情况下,它只是人类语言。

所以是的,这种区别最终可能取决于你的用例。例如,你不会想用 WAMA 2 来制作类似于 GitHub 副驾驶的东西。你可能想从其他东西开始。公平地说,是的,我确实同意这一点。它确实让我想起了 Big Bench 中所有各种非常有趣的测试。我们正在处理诸如……

查找时代错误和字谜之类的东西,这取决于模型的应用,可能真的完全无关紧要。所以是的。是的。是的,所以除了 Helm 和 Huggy Face 开放排行榜(我将在节目说明中包含),你还简要提到了 chatbot arena,它在某种程度上收集了

更有价值、更昂贵的数据,因为评估不是在这些基准测试上进行的,而是进行面对面的比较,然后人类用户选择他们是否喜欢模型 A 或模型 B 的输出,并且他们可以对这些模型是什么进行盲测。在接下来的下一集中,第 707 集,

我们邀请到了伯克利大学的 Joey Gonzalez 教授,他是 chatbot arena 背后的关键人物之一。所以他将更详细地介绍,他还将向我们透露为什么它不像看起来那样完美的评估。仍然存在问题,就像总有……

是的,我想我们,你知道,我想就像科学和技术中的许多事情一样,我们正在犯错误,但希望每次都犯更小的错误,并朝着进步的方向前进,这再次,可以肯定地说,就像,你知道,我们可以对这些特定的评估基准或排行榜提出所有这些批评一样

最终,我们知道这是一个发展非常迅速的领域。在过去一年中,这些模型所做的事情令人难以置信。你知道,我在播客开始时提到的与最终用户有关的事情,他们实际上认为什么是好的性能?那甚至意味着什么?我认为 chatbot arena

嗯,实际上非常接近这个想法,他们的系统结合了这些 ELO 等级。嗯,这是我今天早些时候自己非常喜欢玩的东西。嗯,

广义地说,这是从国际象棋中采用的一种方法。因此,就大型锦标赛中发生的事情而言,你可能会有两名球员互相对抗,并且根据谁获胜,他们要么获得积分提升,要么如果他们输了,他们实际上会扣除积分。并且在这些 LLM 上使用了相同的方法。

但作为一个普通用户,你可能心中有一些提示,例如,

请像埃隆·马斯克写的那样生成文本,或者类似的东西,或者像推文文本。我今天早些时候自己尝试过这个,说实话,我从竞争模型中得到的两个答案实际上都非常合法地听起来像马斯克,如果你愿意的话。所以是的,玩起来很有趣。这绝对是……

chatbot arena 的亮点,而不是说 helm,尽管嗯,即使在这种情况下,嗯,也尝试将一些嗯,人类反馈纳入循环,但我认为它远不是这项工作的重点,很好,是的,但嗯,在那里很好地提到了这种人类反馈作为前进的一种好方法,并且

我认为 chatbot arena 中的一切都可用。所有数据都可供人们使用并使模型更好。所以这是一个非常酷的领域。正如我们所有听众已经意识到的那样,这是一个非常令人兴奋的人工智能时代,也许这也是他们收听节目的部分原因。是的。

所以,Katarina,在我让你离开之前,我会向我们的嘉宾推荐一本书。你给我们推荐一本吗?我有。虽然实际上我第一次接触这本书是在很久以前,当时我还在攻读心理学学位。我实际上把它带在身边。它是丹尼尔·韦格纳的《意识意志的错觉》。并且

当我遇到这个时,我实际上正在法国通过 Erasmus 奖学金学习。我记得当时对这个概念感到震惊,即意识意志实际上可以通过实验进行操纵。老实说,阅读这些实验的设计水平以及人们的

想要做某事的客观感觉最终被操纵,对我来说,在这个时候是独一无二的。所以,如果有人对这个有任何好奇心,我强烈推荐它。谁知道呢,这些关于意识意志的概念也许会进入对话,并且已经与 LLM 进行了对话。所以就是这样。

是的,这当然是我们与 Ben Goertzel 在第 697 集中深入探讨的意识体验、人工通用智能之间的关系。作为一名拥有神经科学博士学位的人,我对此非常着迷。正如我在录制前对你提到的那样,

我获得了一份全额博士奖学金来攻读意识博士学位。所以是意识的神经相关性。所以试图识别

使用脑扫描或你书中概述的《意识意志的错觉》中的一些实验,我们使用诸如颅内刺激之类的实验。所以你,是的,你,你,经颅磁刺激。没错。那是,是的。TMS。谢谢。这允许你拥有,

一个磁信号。你可能还记得物理学中磁力和电力是直接交织在一起的。所以你可以将这些磁信号发送到头骨中,然后影响你的脑细胞的工作方式,这涉及到一些导电性。是的,你可以影响人们的意识感知,就像你说的那样。所以有一个真正

在某种程度上,对像我们许多听众这样的科学思维的人来说,这是一种显而易见的事情,因为我们生活在一个因果关系的系统中,你不可能在你的大脑中有一些与所有这些都分开的小人物,并且以某种方式做出决定,这种方式超出了仅仅是物理过程,例如嗯,你知道因果关系、分子的碰撞

然而,我们非常令人信服地拥有这种自由意志的错觉。在某种程度上,是的,我的意思是,如果你能理解这一点,如果你真的接受自由意志是一种错觉,那么我不知道,这可能很难。生活可能会变得非常艰难。这是一个可怕的想法。是的。所以是的,我没有最终获得那份博士奖学金,因为我想,这可能会让我头疼。

在本集中,Caterina Constantinescu 深入探讨了大型语言模型 (LLM),重点介绍了顶级排行榜、评估基准和现实世界用户的看法。此外,还将了解数据集污染的挑战以及 HELM 和 Chatbot Arena 等平台的复杂性。其他资料:www.superdatascience.com/706 有兴趣赞助 SuperDataScience Podcast 节目?请访问 JonKrohn.com/podcast 获取赞助信息。</context> <raw_text>0 然后转而从事机器学习。是的,我很高兴你这么做了,因为现在我们在这里,幸运的是。是的,无论如何,非常感谢你,Katarina。这是一集非常有趣的节目,对评估大型语言模型进行了非常好的深入探讨。最后一件事情,如果人们想在节目结束后关注你,听取你最新的想法,最好的方法是什么?

可能是推特。你可以在 C 双下划线 Constantine 找到我。很好。我们一定会把它包含在节目说明中。Katarina,非常感谢你。一会儿再见。太棒了。谢谢。再见。

太棒了,多么富有信息量的讨论。在今天的节目中,Katarina 阐述了普通 LLM 用户的定性评估可能与基准评估存在差异。鉴于顶级 LLM 通常会使用所有可找到的公开数据(包括基准评估数据集)进行训练,评估数据集污染是一个巨大的问题。

最后,她讨论了顶级 LLM 排行榜的优缺点,即 Helm、Chatbot Arena 和 Hugging Face OpenLLM 排行榜。如果你喜欢今天的节目,请务必收听下一集,第 707 集,届时我们将邀请 Chatbot Arena 的共同创建者 Joey Gonzalez 教授,以及 Vicuña 和 Gorilla 等开创性的开源 LLM。是的,他下周会参加节目。

好了,今天的节目就到这里。通过分享、评论或订阅来支持这个节目,但最重要的是,继续收听。直到下次,继续努力,我期待着很快与你们一起再次享受 Superdata Science Podcast。