We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI's Unsung Hero: Data Labeling and Expert Evals

AI's Unsung Hero: Data Labeling and Expert Evals

2025/6/27
logo of podcast AI + a16z

AI + a16z

AI Deep Dive AI Chapters Transcript
People
M
Manu Sharma
M
Matt Bornstein
Topics
Manu Sharma: 在人工智能模型训练的早期阶段,监督学习占据主导地位,但随着GPT-3和DALL-E等模型的出现,无监督学习开始崭露头角。在ChatGPT时代,通过强化学习从人类专家那里获取偏好变得越来越重要。现在,我们正处于一个强化学习回归的时代,专家们不仅要教算法如何给出正确答案,还要教它们如何评估答案的质量。我亲身经历了数据标注从计算机视觉到推理模型,再到语音模型的演变,并带领Labelbox成功适应了这些变化。 Matt Bornstein: 我认为数据标注和评估在模型训练中起着至关重要的作用。价值已经从标注预训练数据转移到评估强化学习阶段的输出。这种转变反映了模型能力、架构和应用的变化,以及对人类专家在更复杂模式和更苛刻用户中帮助模型执行的需求增加。

Deep Dive

Chapters
This chapter explores the evolution of data labeling and evaluation in AI, from early supervised learning to today's sophisticated reinforcement learning loops. It discusses the shift from pre-training to post-training and the role of human experts in assessing the quality of AI responses.
  • Supervised learning was replaced by unsupervised learning.
  • Reinforcement learning emerged as a new technical vector.
  • Experts teach algorithms how to assess the quality of answers, not just the correctness.

Shownotes Transcript

Labelbox CEO Manu Sharma joins a16z Infra partner Matt Bornstein to explore the evolution of data labeling and evaluation in AI — from early supervised learning to today’s sophisticated reinforcement learning loops.Manu recounts Labelbox’s origins in computer vision, and then how the shift to foundation models and generative AI changed the game. The value moved from pre-training to post-training and, today, models are trained not just to answer questions, but to assess the quality of their own responses. Labelbox has responded by building a global network of “aligners” — top professionals from fields like  coding, healthcare, and customer service, who label and evaluate data used to fine-tune AI systems.The conversation also touches on Meta’s acquisition of Scale AI, underscoring how critical data and talent have become in the AGI race. Here's a sample of Manu explaining how Labelbox was able to transition from one era of AI to another:It took us some time to really understand like that the world is shifting from building AI models to renting AI intelligence. A vast number of enterprises around the world are no longer building their own models; they're actually renting base intelligence and adding on top of it to make that work for their company. And that was a very big shift. But then the even bigger opportunity was the hyperscalers and the AI labs that are spending billions of dollars of capital developing these models and data sets. We really ought to go and figure out and innovate for them. For us, it was a big shift from the DNA perspective because Labelbox was built with a hardcore software-tools mindset. Our go-to market, engineering, and product and design teams operated like software companies. But I think the hardest part for many of us, at that time, was to just make the decision that we're going just go try it and do it. And nothing is better than that: "Let's just go build an MVP and see what happens."Follow everyone on X:Manu SharmaMatt Bornstein Check out everything a16z is doing with artificial intelligence here, including articles, projects, and more podcasts.</context> <raw_text>0 大约在GPT-3、DALLE出现的时候,也就是我们开始看到一些根本性变化的模型的早期阶段,监督学习开始退居次要地位,而无监督学习开始发挥作用。

在大约ChatGPT出现的时候,我们开始看到RLHF出现,让人们从头开始撰写论文或解决问题是相当繁琐的。但是我们可以很容易地从不同领域的专家那里获取偏好。现在是2025年,我们正处于强化学习回归的阶段。

这是一个所有AI实验室都在扩展的新技术方向,我最好的描述方式是元学习。因此,专家们不是告诉计算机什么是好什么是坏,而是试图教这些算法如何评估什么是好什么是坏。这不仅仅是得到正确的答案,而是答案有多好。

感谢收听A16Z AI播客。在本期节目中,我们将深入探讨AI行业中一个默默无闻的英雄——数据标注和评估。现在,您可能已经听说过Meta对Scale AI的大规模投资。但在这一消息之前,它仍然是模型训练流程中极其重要的一部分,在非从业者中很大程度上未被关注。因此,我们邀请了Labelbox的联合创始人兼首席执行官Manu Sharma。我们

与a16z基础设施合伙人Matt Bornstein坐下来,解释了数据标注的基础和演变,以及他的公司如何能够从计算机视觉到推理模型,再到最近帮助推动最先进的语音模型的进步。正如Manu详细解释的那样,在过去几年中,价值从标记预训练数据转移到评估强化学习阶段的输出,这标志着模型能力、架构和应用的转变,

以及对人类专家更大的需求,以帮助模型在更复杂的模式和更苛刻的用户面前更好地运行。这是一个对该领域的极好介绍,也是一个关于创始人如何利用创业浪潮的绝佳例子。在这些免责声明之后,您将听到所有这些内容。

提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对任何A16Z基金的投资者或潜在投资者。更多详情,请访问a16z.com/disclosures。

2014年到2016年或2018年是真正令人兴奋的时期,我们第一次开始看到计算机视觉算法开始发挥作用。

我当时在几家从事空间产业技术的公司工作。我当时正在Planet Labs开发技术,我们每天用大约300或400颗环绕地球运行的卫星扫描地球。有如此海量的数据,使用机器学习算法从数据中提取见解,

并用这些见解赋能地理空间产业,这几乎是显而易见的事情。大约在这个时候,我觉得对数据的需求对于开发这些模型至关重要,我们可以在这里构建一些东西,我们可以在这里构建一个产品,等等。我认为这真正促成了Labelbox的建立,我们在Reddit上推出了它

最重要的是,我们的初始原型非常受欢迎,在发布后的几周内,我们开始获得订阅客户。我们的客户遍布各个行业,包括医疗保健、机器人、地理空间和保险行业。看到这种令人兴奋的势头,我们开始围绕它建立公司。

从本质上讲。所以这些是,我称之为传统机器学习真正开始起飞的早期阶段。没错,完全正确。而你当时就在那里。没错,帮助它实现。没错,完全正确。因此,自动驾驶汽车公司开始出现,然后有一些大型公司拥有海量数据,他们将这些

计算机视觉算法应用于了解他们可以构建哪些产品和功能。所以这还处于非常早期的阶段。然而,对于一些在该行业工作了一段时间的人来说,这是显而易见的。我还记得在2010年或2012年,我当时正在参加学术项目,

我的神经网络工作就像三层神经网络,可能有10个神经元。你可以数出来。它们在MATLAB、Simulink上,你可以用它来测试和训练这些网络。所以从2008年到2016年,已经取得了巨大的进步。

因此,如果你要推断这一点,那么在未来,视觉将无处不在,这将是一个非常令人兴奋的时代。然后我认为,在大约2020年左右,我们开始看到Transformer开始发挥主导作用,但在ChatGPT出现之前,这并不是很明显。那么你最初用LabelBox解决的是什么问题呢?

是的。所以当你考虑在那个时候构建机器学习模型时,基本上需要三样东西:计算能力、数据和人才。所以当谈到数据时,我们正在开发检测各种事物的算法。我们试图检测

某些国家周围发生的一些非法活动?你可以从卫星图像中看到一些特征,比如,“嘿,你知道,如果这是一个非常大的森林,而你看到一条路突然出现,这很可能是一些非法活动的信号。

或者如果你正在检测合成孔径雷达图像中的目标船只,或者甚至只是变化检测。比如有多少建筑物,有多少东西在港口发展等等。发生了多少森林砍伐。所有这些都是非常不同的用例。

你需要专门的数据集来处理它们。我们当时的挑战是如何快速地生成大量不同专业领域的标记数据?当时我们很难简单地将这项工作外包出去,因为这个行业还很新,我想。

最大的挑战之一是,我们公司已经拥有来自我们网络的专家。我们已经了解我们的客户或他们的附属公司,他们拥有这些专业知识。

因此,当时的最大挑战是一个协作式数据标注系统。当时,几乎所有用于标注数据工具都是桌面工具。因此,如果你想让比如说100名专家标注数据,你必须在每台电脑上安装软件的副本,然后管理所有这些操作。

因此,我们解决的第一个问题,字面上的第一个问题,就是一个非常智能的排队系统,并将其引入网络。因此,任意数量的人都可以简单地将数据上传到这个原型中,配置本体,并开始标注数据。

这使得所有这些不同领域的专家能够轻松地协同标注数据。因为它一开始就是由专家驱动的,

专家们觉得他们掌控了一切,这也意味着他们非常接近数据生产,并且可以快速迭代模型。例如,如果模型在某些领域表现不佳,他们会很快标记更多数据并继续进行。这实际上是我们解决的第一个问题。事实上,事后看来,这仍然是我们所做工作的最大引擎之一。这很有趣。所以这是现代软件……

计算机视觉数据标注。没错,协作式计算机。这就是你在Reddit上发布的内容,人们对此感到兴奋。没错,百分之百。因为当时根本没有替代方案。都是桌面工具或某种遗留服务公司,你必须真的与五、六个销售人员交谈,然后才能获得演示等等。机器学习工程师并不想经历所有这些。他们只想快速解决问题。是的。

并被控制。——所以你做了一个有趣的评论,你解决的第一个问题是排队和这种,你如何管理数据标注者和注释者的池?Labelbox自从早期以来已经发展壮大,对吧?现在你不仅做计算机视觉,你还增加了文本和所有其他数据模式。

你不仅提供软件,还提供服务和标注者等等。但有趣的是,听起来你是在说,你今天作为一家大型多元化AI数据公司所解决的问题,在某种程度上与你在Reddit上第一次演示时想要解决的问题相同。你能详细说明一下吗?是的,当然。我认为事后看来这真的很有趣,核心原则保持不变,但背景以及细微之处和细节已经发生了很大的变化。

让我们看看AI系统的轨迹。2018年,我们主要处于监督学习阶段。

在监督学习中,你基本上是在生成你希望机器预测的标签。因此,你知道,典型的例子是你可以围绕船只画一个圆圈等等。你知道,你希望视觉系统能够检测人类或船只等等。你实际上是在要求这些人以这种方式标记它们。

因此,当时的这种范式正在全面展开。现在,要为任何类型的监督学习中的机器学习系统生成数据集需要大量数据。你所处理的问题越普遍,所需的数据就越多。

例如,一方面,自动驾驶汽车是一种非常普遍的问题。有很多边缘情况。因此,你只需要为每个城市、每种条件、光照条件和天气等等提供大量数据。但是如果你比如说是在检测病理切片中的某种细胞等等,那么这个问题可能更窄一些。然而,在所有这些情况下,你都需要数据。

通常是大量数据。因此,我们用我们的软件解决了这个问题,我们使这些团队能够协同标记任何类型的、任何格式的这些数据。随着我们在范式中前进,在大约像GPT-3、DALLE出现的时候,也就是我们开始看到

一些根本性变化的模型的早期阶段。监督学习开始退居次要地位,而无监督学习开始发挥作用。这是一个即使是该领域的专家也不太确定接下来会发生什么的时期。当然,在一组研究人员中,存在着很多热情,他们认为无监督学习必须有效。这是扩展事物的前进的唯一途径。并且

它开始发挥作用。然而,这需要我们,需要世界更多的时间,也许是六到九个月的时间来弄清楚,好吧,

虽然我们可以让这些模型学习大量数据,但你仍然需要用人类智能来训练这些模型。这就是预训练和后训练这两个术语的由来。从这个意义上说,在这个阶段,你仍然需要大量专家数据。

因此,当我们看到这些趋势随着时间的推移逐渐显现时,它本质上是同一个问题。在以前的问题中,我们实际上是在使我们的客户能够与专家一起标记数据。但在后一种配置中,我们现在需要来自广阔的专业知识海洋,即人类知识的数据。

因为这些基础模型的训练方式是全面的。像RLHF和SFT这样的术语出现了,这基本上是一些使这些模型对人类真正有用的技术。例如,你拿一个预训练的模型,它可能没有那么有趣,或者与之互动。但是当你用这些人类数据进行后训练时,它肯定会成为一个助手,并且

同样的事情。因此,在这个生成RLHF数据或SFD的背景下,现在像基础模型公司、超大规模公司这样的公司进入后,他们需要跨数学、物理、艺术、科学、编码等等领域的大量数据。我们采用了我们构建的相同类型的核心技术,并

在此基础上进行扩展,以满足这种新兴行业的需要。但同样,问题仍然相同。你必须与大量专家合作,生成最高质量的数据,拥有……

大量的运营严谨性,这在大多数情况下都编码在软件中,并继续改进生成这些数据的方法。现在AI的前沿如此先进,几乎所有用于改进最先进模型能力的数据都需要人工智能、软件和人类的融合。

没有办法孤立地生成最佳数据。因此,你的客户从50名放射科医生教一个模型某种狭窄的技能,变成了数千名标注者教模型以某种合理的方式与人类互动或与人类互动。但你的论点是

数据以及对模型的人类输入仍然是一个关键因素。绝对正确。现在,监督的性质,如果你愿意的话,或者人类如何教这些模型的性质已经发生了很大的变化。事实上,有一个非常有趣的趋势可以观察到。同样,在早期,监督非常详细。你真的在告诉计算机,“嘿,你知道,这是这个,这是那个”。

然后在Transformer中,在大约ChatGPT出现的时候,我们开始看到RLHF出现,这有点像让人们从头开始撰写论文或解决问题是相当繁琐的。

但是我们可以很容易地从不同领域的专家那里获取偏好。因此,这成为捕获人类信号的一种非常重要的技术。因此,现在人类实际上并没有做艰苦的工作,而是提供偏好,这仍然是一项相当复杂的工作。

因此,随着模型不断学习,现在是2025年,我们正处于强化学习回归的阶段,它是一种新技术方向,所有AI实验室都在扩展。在强化学习中,人类,我们的专家们实际上是在教模型一切。

我最好的描述方式是元学习。因此,专家们不是告诉计算机什么是好什么是坏,而是试图教这些算法如何评估什么是好什么是坏。那么这方面的一个例子是什么呢?

假设你正在生成最先进的编码模型,软件工程师会提出一些他们每天都会遇到的真正有趣的问题。他们会编写解决该问题的代码,但他们实际上也会编写一系列测试,让AI模型自动对该问题的输出进行评分。

这些我们行业中所说的标准,在软件工程中人们编写的测试的背景下,或者可能是计算机使用代理。因此,你知道,所有这些都包含在我们所说的RL信息员中。因此,我们现在真正处于一个专家正在教授长期任务,而且

还提供这些AI模型自动评分的评估记分卡的阶段,比如它们是否得到了正确的答案。这不仅仅是得到正确的答案。而是答案有多好。所以这是一个非常平滑的梯度。

比如,你知道,也许我的分数是80%。这还不够好。我希望RL系统在解决这些大问题时能够获得95%或98%的分数。所以这就是我们现在所处的阶段。这意味着,你知道,对于医疗保健、生命科学和科学发现等所有这些领域,我们正在制作的工具,现在我们必须教这些模型如何,

如何执行长期任务并对其进行评分。他们如何知道实际上有一个非常好的输出?因此,是的,人类仍然需要教这些模型这种质量判断。所以听起来你是在说,我们要求人类注释者做的事情实际上变得更复杂了。这不像……

热狗,不是热狗。这就像一个相当复杂的领域和一套标准,以及输入数据的方式。是的。你知道,另一个比喻是,我认为这就像,你知道,也许就像,你正在教一个蹒跚学步的孩子,在早期阶段,指令非常繁重,比如,你知道,做这个,做那个。但现在我们扮演的是大师的角色,就像一个非常优秀的大师级教练。

我们在非常高的层次上向这些模型提供指导和指导,指导它们如何做出决策和判断。这就是正在发生的校准。你知道,现在,同样,我们才刚刚开始AI代理的旅程。并且

AI代理在许多方面是什么?它在世界上可能表现出来的一种方式是,我们在各个行业中所做的几乎所有知识工作,你都可以将其映射到某种工作流程。在某些时候,这些AI系统将变得如此优秀,以至于它们能够可靠且高效地执行该工作流程。

为了让这些代理学习,他们需要数据。他们需要了解任务是什么样的,以及他们如何知道自己实际上是否成功地完成了任务。因此,如果你要完成一个非常长期的任务,这可能需要人类花费数小时或数天的时间,那么整个任务必须分解成一种特殊格式的数据。这些标准帮助这些模型理解

他们是否正确完成了任务,以及他们在多大程度上正确完成了任务。所以这就是,你知道,我认为这是一个无限的阶梯,我想,对于我们来说,随着这些模型和系统变得更好,我们将继续承担这个阶梯。你相信吗

我们所说的代理,我把它放在引号中,因为我们之前在这个播客中讨论过一些关于代理的问题,我倾向于认为代理可能不是真实的东西。但作为一种警告,你认为这些类型的循环AI应用程序需要……

独特的数据来训练,对吧?因为,你知道,很明显,比如说,你知道,编码需要特殊的数据,数学需要特殊的数据。在不同领域之间存在一定程度的泛化,但不是很多。你认为这种代理的规划和任务评估等等是一种单独的模式,你需要训练数据才能仅仅在这一点上变得更好吗?是的。

或者你认为随着底层能力随着时间的推移而不断提高,代理也会变得更好?我认为答案是两者兼而有之。我认为需要一种基本的能力,那就是推理,推理、规划等等,以理解用户的意图,然后制定某种计划来执行这些操作。

随着这种能力的提高,这些代理的编排层的可靠性通常会提高。而且我认为,在我们开始看到的几乎每一个成功的应用程序产品背后,都存在一个真正高质量的评估数据集。

什么是评估数据集?评估数据集只是一个保留集,你知道,通常是从训练数据中提取的。所以我认为,比如说,如果你正在构建一个非常好的,比如说,编码助手,你确实希望作为一个公司真正地提炼出这种品味,比如是什么让你的产品,是什么让任何这种公司或产品,你知道,你追求的一致性。

关于该行业,关于该工作流程,真正引人注目的地方。这必须提炼成某种评估数据集。这个评估数据集现在如此重要,因为在RL中,你实际上可以使用它来超优化或优化整个系统的超参数。

整个系统。所以有基础模型,基础模型,然后还有你可能用于检索的其他参数,用于多代理系统的其他参数。你知道,答案可能在于优化所有这些参数,以使整个端到端系统更可靠。所以我认为,你知道,这两种说法都是正确的。

你需要这些基础模型变得更好,我认为这已经发生了。例如,我们从许多AI实验室客户那里看到,他们现在正试图将这些应用程序产品和编码的功能带入他们的基础模型中。我认为这是他们的一大目标。

今年的目标是,我认为如果你与这些AI实验室交谈,他们会说,“嘿,我们希望你不需要在我们基础模型之上添加所有这些编排层。我们希望模型更聪明一些。”然后应用程序产品公司正在通过弄清楚用例、将其转换为评估,以及在这些基础模型之上构建出色的用户体验和产品来快速创新。

这对于我们看到的每个类别中的每个客户或每个应用程序产品都是普遍适用的。这很有趣。所以你是在说,对于大多数用例来说,都有某种需要解决的一般性问题,比如编码,实验室会越来越擅长,基础模型会越来越擅长。还需要进行某种系统级别的优化,这对于该应用程序来说。

以及某种特定于应用程序的评估集,允许进行这种优化。是的,当然。我的意思是,让我们以客户服务为例。你知道,我认为今年语音方面,我们做了很多工作,我们基本上是过去九个月语音模型每一次突破背后的力量。如果你看看客户服务,比如你通过语音与一家公司交谈,

你知道,你首先会接触到某种接待员,它会询问你的意图等等。你知道,该代理可能会把你带到第二个代理,比如,“嘿,我在这里是为了退款,你知道,你的订单。我在这里是为了帮助你销售更多新产品。”

因此,这些都是针对任何工作的定制代理。因此,这家客户服务公司,比如说,正在部署这些功能的公司必须将他们自己对什么是优秀客户服务的品味以及他们希望如何实现这一目标传达给他们的客户。最终,无论如何,这都归结于什么是评估数据集。

他们将用来客观地了解他们的意图或目标,业务目标如何在整个系统中得到体现。解决这个业务问题不再是一个单一模型。这是一个,你知道,许多AI模型,也许它们是用系统提示定制的等等,但它是一个系统。

你必须优化它,处理每天数百万个电话,所以这就是我们行业现在开始解决的问题,所以你谈到了从传统机器学习到Transformer、ChatGPT、语音机器人等等的旅程,这对Labelbox来说一定是一件大事,对吧?我只是想想象一下你当时的想法,我了解一些情况,因为我们当时经常谈论……

你知道,你可以做出这样的决定,我不相信这些新东西。让我们坚持我们所做的,坚持我们所知道的,那就是传统的机器学习。回想起来,那将是一个糟糕的决定,对吧?我猜想这将是艰难的。你将错过这个巨大的新机遇,而你所做的决定是全力以赴地投入到新事物中,这需要新的数据类型,在某种程度上是一种新的商业模式,比如对团队进行重新调整。作为首席执行官和创始人,你能谈谈这是一种什么样的体验,以及你当时的想法吗?是的。

是的,有很多不确定性,你知道,还有很多第一性原理的思考,才能得出这种高信念的赌注,你知道,在那一刻从来都不是那么清晰的。因为LabelBox是一家热门公司。你做得很好。这不像是一个转型。这只是像这样一件大事即将到来,对吧?这对我来说真的很令人兴奋。

是的,当然。我的意思是,在软件类别中,我们一直是我们所提供的产品的领导者,那就是数据标注软件等等。我们的长期信念一直是相同的,那就是我们希望制作出最好的产品,让人类与AI系统保持一致。

你知道,在计算机视觉时代,我们认为最好的方法是在监督学习时代,最好的方法是提供这种工具和软件层,你知道,任何数量的公司都可以与他们自己的专家一起使用这些工具和软件层来生成这些标签并训练这些模型。他们正在每个用例、每家公司中制作数据引擎。在这个生成式AI时刻之后,我们花了一些时间来真正理解,你知道……

每个AI实验室都在尝试和调整不同的技术。我们花了一些时间才意识到,“嘿,不,很多数据,世界正在从构建AI模型转向租赁AI智能,就像智能一样。”

因此,世界各地的许多企业不再构建自己的模型。他们实际上是在租赁基础智能,并在其之上添加内容,以使人工智能为他们的公司服务。这是一个非常大的转变。

这也意味着,我们最终将在哪里完成这项任务?我认为我们将继续与定制这些模型的公司合作。但随后出现了更大的机遇,例如,“嘿,这些是超大规模公司和人工智能实验室,他们正在花费数十亿美元的资金来开发这些模型和数据集”。

除了我们其他的客户之外,我们真的应该去为他们寻找和创新。而且,你知道,我认为这是2023年末、2024年的时候。我认为其他一些参与者已经开始进入这个领域,因为他们诞生于服务公司。对我们来说,真正的挑战是,这是一个从DNA角度来看的巨大转变,因为Labelbox是秉持着

软件工具的理念构建的,我们的市场营销团队、工程团队、产品和设计团队,所有这些

都像软件公司一样运作,我们真正地了解我们的客户及其路线图,并试图构建功能,并且你知道所有软件实验室和销售方面的技巧都是为销售软件而设计的,而重新调整这些需要非常大的努力,但我认为这真正始于一个高度信念的赌注,那就是,“嘿,不……”

这些正在发生巨大的变化,让我们看看我们将如何为超大规模公司服务?我们将如何为人工智能实验室服务?这实际上归结为两点。

我们拥有业界一流的软件工具和平台,大量的公司正在通过我们的工具进行标注。我们需要专业知识。我们需要来自世界各地的这些人类专家,以便我们可以自己招募他们。然后我们需要运营能力来实际运行这些数据管道。因此,我们使用了我们自己的产品,并在该产品之上构建了这些功能。

这实际上还不到一年前。我们在6月或7月宣布了我们的校准器,这是一种网络,我们正在招聘和评估这些专家,例如数学和物理学博士,或者不同的语言专家、软件工程师等等。

从那时起,我们已经能够系统地遍历每个部门、每个团队,并将它们重新配置为本质上运行为数据工厂。

而且,你知道,当时的这些决定总是很难的。对于公司中的个人来说,这些变化总是很困难的。但是,你知道,最终对每个人来说都有益的事情是能够看到进步。因此,如果您在所有这些不确定性中进行这些更改,只要团队看到客观的进步,例如,“嘿,你知道,我们现在正在为世界上几乎每个实验室提供服务”。这并非一蹴而就。这是一种

每个月,每周,我们都在进行创新,做一些别人没有做的事情。这给了我们的团队继续重组公司的动力。你当时的主观感受是什么?你是处于恐惧模式,比如,“哦,这可能行不通,世界正在变化”?还是处于雄心勃勃的模式,比如,“是的,我们终于建立了这个基础,现在有数十亿美元的资金在等着我们,让我们去争取它”?你当时在想什么和感觉什么?我认为两者兼而有之,因为每当我们尝试构建或试验新事物时,我们总是对这个问题感到好奇。例如,对我们来说,去雇佣这些人类专家等等,

有很多好奇心,比如,“好吧,我们将如何去做,什么才是Labelbox的做法?”因此,存在着这种好奇心和疑问

初学者的心态。——这很有趣。所以我有一套新的问题需要解决。——这是一套新的问题需要解决。这真的很令人感兴趣。但你也知道这可能行不通。因此,你知道,在我们公司历史上,我们曾尝试开发新产品或新功能。你知道,你看,有些事情不会成功。有些事情会非常成功。

所以当时存在这种紧张感等等。但我认为当时我们许多人最难做出的决定就是决定我们要尝试一下。公司有时这实际上可能是最难的,因为你让所有这些聪明的人都在反对所有这些方向,以及为什么它可能行不通等等。但最终,我们把我们的时刻引导到,

当我们构建某些东西时,当我们在Reddit上发布时,让我们去构建并看看。没有什么比这更好的了。让我们去构建和尝试构建一个MVP,看看会发生什么。因此,当我们考虑构建这个网络时,

我们说,“嘿,一定有更好的方法来招聘和评估这些承包商和专家”。我认为即使在今天的行业中,很多事情都是通过离线任务或类似于编码、类似于代码风格的任务来完成的。

我们打了一个赌,我们将使用最先进的人工智能模型来面试、现场面试这些候选人,并真正了解他们的能力和技能。而且,你知道,诸如此类的事情,对我们来说,创新并最终开始工作是如此令人兴奋。这非常有趣。所以你几乎是在说做出决定是困难的部分。你说我们正在研究第一性原理,我们正在研究市场,我们必须这样做。

一旦你做出了决定,听起来你必须与团队一起管理它等等。但是好奇心占据了主导地位。而且,我喜欢这个想法,回到这一点对创始人、工程师和所有类型的建设者来说都是一件非常有力量的事情。就像回到真正有效并给我们带来灵感的第一件事一样,“哦,公司里有一些东西”,就像有一些东西一样。所以它几乎给了你许可,让你再次去寻找它,听起来是这样的。

没错。我认为最困难的部分是,你知道,这里有很多时候你可以说服自己,“嘿,你知道,这看起来太不一样了。那么我们为什么要这样做呢?”要构建任何东西,你都必须有一种教条式的动力来相信使命和我们将要做的事情。有时这可能会指向需要调整的方向。有时这会妨碍你本来想要做的事情……

想要做的事情。改变这种方向有时,我的意思是,我发现这是最难的,尤其是在一个大型团队中。我的意思是,想想看,当与大型科技公司相比时,我们是一家相当小的公司,而且,你知道,即使随着公司的发展,尝试新事物也可能会变得非常困难。我认为这正是文化和文化,

文化和一些软性因素如此重要的原因,因为我们希望能够接受这些赌注,尝试一些可能超出我们既定讨论、路线图或使命的新事物。尤其是在我们这样的行业中,每隔几个月一切都会发生变化。因此,你必须能够拥有这种……

是的。

而且,好的一面是,从某种意义上说,每隔几个月一切都在变化,因为实验室六个月后需要的将与今天大相径庭。这意味着有空间进行创新,并做得比其他人更好。

有一个关于人工智能年的笑话,对吧?就像狗年一样,你知道,狗年相当于人的一年七倍。我认为人工智能年相当于人的一年大约一千倍。每天似乎都是一个新的周期。我不能不问你关于Scale的问题就让你走。这是

现在这个行业正在发生的一件地壳运动般的事情。我认为这与你刚才所说的有很多联系,对吧?比如Scale很早就参与了雇佣人们作为某种……你知道……数据标注员并提供这项服务的游戏。你后来做出了这个决定,但采取了一种更现代化、更受人工智能驱动的方法,这听起来是你能够如此快速扩展的原因之一。首先,这是正确的解读吗?第二个问题是,你知道……

Scale的部分收购如何改变了行业并改变了LabelBox的机会?是的,我的意思是,我们的行业肯定吸引了很多眼球和很多兴趣,或者我猜是聚光灯。而且,你知道,如果我分享一条信息,它会告诉你……数据对于AGI工作有多么重要。它归结为三点,计算、数据和人才。而且,你知道,你真的必须把这三件事都做好才能处于AGI工作的前沿,而且,你知道……或者应用产品。我认为

AGI的竞争如此激烈,我认为Meta和扎克伯格的这一举动完全是合理的,从大局来看,它完全说得通。Meta在其产品套件中进行创新的机会巨大。

你可以想象所有这些原因,为什么像Gemini或ChatGPD这样的能力应该存在于所有这些应用程序和Meta中等等。也许他们可以,再次,他们有机会去构建全新的产品体验。所以我认为我的猜测是,他们认为扎克伯格看到了这个机会,他想尝试一些新的和不同的东西。

所以扎克伯格同意你的观点,数据至少值150亿美元。好吧,所以我认为我在这里最好的解读是,我认为这实际上更多的是关于人才,而不是其他任何东西。但数据显然仍然是其中非常重要的一部分,因为Llama系列一直是……他们拥有计算能力。他们已经拥有数据。

他们从一开始就与Scale和其他公司合作。所以我认为这可能类似于,“嘿,你知道,他需要一支海豹突击队来开展这项新工作,并恢复这种活力等等”。这是我最好的猜测。但是是的,数据仍然是所有这些努力和项目中非常重要、关键的因素。

而且实际上,它的重要性每隔几个月都在增强,因为数据的复杂性现在已经进入了知识工作的领域。

因此,为了应对所有这些用例和人们谈论的代理工作流程,你真的需要这些行业中最好的专家,并将他们的问题转化为这些强化学习环境,以便算法能够学习。我认为人类知识是独一无二的,它可能不像人们想象的那么微不足道。它可能像

就世界的力量而言,在智力、创造力和知识的所有这些不同方面而言,是无限广阔的。你提到AGI是许多这些实验室的目标,这在某种程度上是人类现在可以努力工作并实现的最宏伟的目标。数据如何帮助我们实现AGI?你认为我们是否正在耗尽实现AGI所需的数据?

是的,我认为我们,用于预训练的数据,你知道,或者这些模型的预训练已经达到某种高原。

因此,在预训练中仍有改进的空间。我相信随着时间的推移,我们将看到一些非常有趣的效率提升。但这不再是获得最佳投资回报率的重点。因此,这些基础模型的大部分收益都来自后训练。

在后训练中,正如我们所讨论的,强化学习正在成为计算预算中越来越大的一部分。许多这些数据集和技术并不存在,因为我们现在正试图让这些模型表现出一种行为,你知道,非常聪明的人和知识工作者会这样做。他们将能够可靠地完成这些任务。因此,这种数据,

实际上并不以这些模型想要学习的格式存在。因此它必须被产生。没有办法避免它。

就是这样。而且我认为,你知道,你必须保持开放的心态,也许会有新的新颖方法来产生数据集,你知道,无论是合成技术等等,这可能会加速开发或经历所有这些用例的路径,你知道,对于知识工作。现在,你知道,我认为在未来一两年内更有可能发生的情况是,

我们现在正在看到的情况,但规模更大,我们正在为编码创建几乎所有数据集,作为最先进的技术。它包括可验证的领域,如编码和数学,但也包括音频、视频和不可验证的场景。创造性的开放式。创造性的开放式。我们有,例如,现在有一些技术可以让你在所有这些数据模式中应用强化学习

所有这些创建的数据都是人工智能、软件和人类以及专家的融合。所以……

因此,在许多方面,我们正在使用所有这些技术,如人工智能、软件和工作流程,来消除实际工作的繁琐部分,并真正让专家专注于产生信号。这个信号对于这些模型的学习至关重要。这就是我们在未来一两年内如何以更大规模地产生数据集的方式。现在,这些数据集的体积不必很大。我们谈论的是数量级更小的数据集。

与计算机视觉时代相比,规模要小得多。因此,这些是,你知道,可以将它们视为精品、小型数据集,只是质量极高,类似于特定的任务或领域。强化学习算法非常好,它们可以从中学习。

那么,这意味着我们需要地球上的一小部分人来帮忙,你知道,我们需要一个有礼貌的人来教模型礼貌,一个律师来教它法律,一个数学家来教……你知道,就像……数据标注者实际上是什么样的?

是的,实际上是全面的。因此,在编码方面,这些实际上是我们的校准器、我们的软件工程师,他们中的许多人现在实际上在美国或欧洲的科技公司工作。这是一个例子。几乎所有在科学、数学和工程方面领先的顶级大学都是

学生和博士项目,甚至是教授都是网络的一部分,他们正在为这些模型开发这些数据集做出贡献。例如,在数学方面,你真的必须让人们在数学的任何领域中处于他们游戏顶峰的专家来产生模型可以从中学习的数据。

就复杂性和纯粹的智力而言,它真的处于顶峰。如果你,比如说,在医疗保健领域,你必须与医疗专业人员合作。

了解所有认证医生和护士等等的专业人员,以教模型如何……你知道……在科学发现中表现或提供帮助等等。它真的在……这是一项知识工作。而且,你知道,你真的在利用那些在这些行业中处于顶峰的人。现在正是这些人正在产生这些数据集。

所以我们已经达到了模型中存在基础知识的阶段,它确实是专家,在精确意义上的专家,即拥有知识或专业知识的人,对吧?

普通人没有。现在正是这些人正在教模型。是的,绝对的。我的意思是,为了让你对一年前左右产生这些数据集所需的人类智力梯度上升有一个直观的了解,每个人都非常兴奋地拥有作家和英语作家,并帮助这些模型撰写优秀的文章等等。

我们现在已经相当好地解决了这个问题。我认为这些模型可以做得很好。显然,还有改进的空间,但通常你可以说这个问题已经解决了。

然后,你知道,当推理范式出现时,需要来自大学学生的大量数据等等,因为他们可以做,他们可以完成很多工作,例如,在深入研究中,例如,能力来自学术界的人们产生这些数据集、标准等等,说明一份优秀的报告是什么样的,你知道,就像,就像,大学里的人们就是这样做的,我猜。所以,

我认为我们实际上已经超越了这一点。因此,要产生最先进的数据,你真的必须利用那些处于他们游戏顶峰并在公司工作的人。

你知道,无论是材料科学。因此,如果你真的想让模型展现出强大的能力,你必须利用世界上最好的高分子科学家与研究人员一起产生这些数据集。这就是现在的标准。感谢您收听至结束。希望您现在对数据标注这个主题以及做好这项工作需要付出多少令人难以置信的工作有了更深入的了解。如果您喜欢这次讨论,请对播客进行评分,并在您的网络中广泛分享。