We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep 68: CEO of Mercor Brendan Foody on Evals Replacing Knowledge Work, AI x Hiring Today & the Future of Data Labeling

Ep 68: CEO of Mercor Brendan Foody on Evals Replacing Knowledge Work, AI x Hiring Today & the Future of Data Labeling

2025/6/4
logo of podcast Unsupervised Learning

Unsupervised Learning

AI Deep Dive AI Chapters Transcript
People
B
Brendan Foody
Topics
Brendan Foody: 我认为目前人工智能在评估文本信息方面已经非常出色,几乎达到了超人的水平。无论是面试记录、书面评估还是简历信息,AI都能进行高效的分析和评估。然而,这种能力在经济中的应用还远未普及,存在巨大的发展空间。我们公司致力于利用AI技术解决劳动力市场的信息不对称问题,将全球的人才与机会连接起来。我相信未来AI将能够自动化许多评估流程,使招聘更加高效和客观。我设想的未来是,AI能够提供对候选人工作表现的置信区间预测,减少人类在招聘过程中的干预。当然,人类的判断在某些方面仍然很重要,例如评估候选人是否具有激情和是否容易相处。因此,我认为AI和人类招聘人员应该协同工作,让人类招聘人员能够专注于与最有潜力的候选人互动,而不是浪费时间在不太可能被录用的人身上。 Brendan Foody: 我也关注到数据标注领域的快速变化。过去,模型不够完善时,可以通过众包方式进行数据标注和评估。但随着模型变得越来越好,需要更高质量的人才直接与研究人员合作,以发现模型的不足并改进其性能。因此,我认为数据标注市场将向高质量人才倾斜。总的来说,我认为AI在人才评估领域的应用前景广阔,但也需要不断关注技术发展和社会影响,以确保其能够为人类带来真正的价值。

Deep Dive

Chapters
This chapter explores the current state of AI in talent evaluation. AI excels at text-based assessments but still faces challenges in areas like evaluating 'vibe' and passion. The rapid improvement of reasoning models has significantly enhanced AI's capabilities.
  • AI is close to superhuman at evaluating text-based information like interview transcripts and resumes.
  • Reasoning models have greatly improved AI's ability to handle context and focus on relevant information.
  • AI still struggles with multimodal assessments, such as evaluating a candidate's 'vibe' or passion.

Shownotes Transcript

Brendan Foody 是 Mercor 的联合创始人兼首席执行官,Mercor 是一家构建 AI 原生劳动力市场的基础设施的公司。Mercor 的平台已被用于标记数据、筛选人才、预测绩效以及评估人和 AI 候选人。这是一家非常有趣的公司,它位于招聘、评估和改进基础模型的核心领域。Brendan 的团队最近筹集了 1 亿美元资金,并且正在与当今 AI 领域最先进的一些公司合作。

我们今天的谈话涉及许多有趣的话题,包括未来人类在劳动力中将扮演什么角色。我们讨论了哪些类型的标签数据对改进未来的模型真正重要。Brendan 回顾了 Mercor 的快速发展和他做出的一些关键决策。我们还讨论了 AI 在当今招聘过程中有效和无效的地方。总而言之,这是一次非常有趣的谈话。我认为您会非常喜欢它。

在我们开始本期节目之前,我只有一个补充说明。你们中的很多人都在 Spotify 或 Apple 上对节目进行了评分,非常感谢你们。如果您喜欢这个节目,请考虑在任一平台上对节目进行评分。评分有助于我们发展壮大,这有助于我们继续邀请最好的嘉宾,并为对话保持很高的标准。现在,让我们开始与 Brendan Foody 的对话。

非常感谢您来到播客节目。非常感谢。是的,非常感谢您邀请我。我是您的忠实粉丝,很高兴能与您聊天。是的,很高兴您能来这里。我认为我们可以从最高层次开始,那就是对于我们的听众来说,如果您能解释一下,我们现在处于什么阶段?AI 评估人才的现状如何?什么有效?什么无效?发生了什么?我……

对它的效果之好感到惊讶。我认为,人类能够通过文本评估的所有内容,模型都接近于超人的水平,无论是某人的访谈记录、他们以书面形式填写的评估,甚至是简历上的信号。

这是一个引人入胜的二分法,因为其中很少一部分实际上已经分布在经济中,对吧?因此,与之相关的巨大机遇就在眼前。这也是我们非常热衷于研究和开发的事情之一。——是的,在推理模型出现之前,有些事情是行不通的,比如,谈谈过去六个月的情况,随着这些模型的改进,哪些事情最终开始对你们有效?

是的,我还记得在 2023 年 3 月底 GPT-4 发布的时候,我们构建了第一个 AI 面试官原型,但什么都没用,对吧?模型每两三个问题就会出现幻觉,所有这些。因此,它一直在随着时间的推移而不断进步。我认为推理模型显然是知识,并且模型在第一年得到了很大的改进。然后,推理模型使它们在处理大量上下文、弄清楚哪些重要、哪些需要关注方面变得更好。

等等。这真的很酷。尽管如此,模型在多模态方面并不擅长,仅仅是因为历史上这并不是实验室的重点,而且使用 RL 进行多模态处理要困难得多,但我们很高兴很快就能添加多模态功能。是的。哪些里程碑让您觉得,“我迫不及待地想让模型能够做到 X 或 Y”?是的,有很多事情。有些事情人类非常擅长,比如对是否喜欢与这个人一起工作、这个人是否充满热情以及他们对所说内容的真诚程度进行“氛围检查”。这很难,对吧?即使对于最优秀的人类来说也很难,更不用说模型了。所以我对此以及构建评估感到非常兴奋。但每当我阅读模型的推理链并试图破译评估中的内容时,我总是会想,哇,

模型似乎比我们团队中的任何研究人员创建的评估都要合理得多,对吧?所以……

他们改进的速度真是令人难以置信。我认为每个人都显然看到代码中的一切都在运行,但我们只是在许多其他领域处于早期阶段,这些领域正在以令人难以置信的方式起飞。显然,您所做的大部分工作似乎是为人类制定评估标准,以及他们将在工作中表现如何。显然,我们现在有很多人正在创建 AI 员工。就像,“嘿,代理将执行此操作。”您将有一个 AI 代理执行员工将执行的这组任务。

你们是否参与其中?绝对参与。我的意思是,我们做了很大一部分工作。也许可以稍微介绍一下公司背景,我们之所以创立这家公司,是因为我们觉得世界各地都有非常有才华的人没有得到机会。主要原因是劳动力市场非常分散,世界其他地方的候选人,也许是在美国或其他国家的远程候选人,只申请了少量工作。旧金山的公司只考虑……

百分比的人,因为他们正在手动解决这个问题。通过应用大型语言模型,我们可以解决这个问题,从而建立一个全球统一的劳动力市场,每个候选人都可以申请,每家公司都可以从中招聘。但随后我们意识到,在招聘与这些新的知识工作角色相关的员工以及评估大型语言模型方面,出现了一个巨大的增长。

现在,我们为使用我们的技术来促进这一目标的顶级 AI 实验室招聘各种专家,这既是为了创建评估来评估我们的专家,也是为了评估模型和您正在讨论的所有这些代理。也许对于我们的听众来说,在 Mercor 方面,你们显然有很多 AI 的用途以及筛选候选人的简历。

您可以介绍一下 AI 的一些不同用例,以及你们今天正在构建的堆栈是什么样的吗?我认为一个很好的启发式方法就是考虑人类会手动执行的所有事情,对这些事情进行评估,并看看我们如何使它们自动化。因此,与人类审查简历、进行面试,然后对人员进行排名或决定应该雇用谁的方式类似。

我们使用大型语言模型自动化所有这些流程。我们对以下方面进行了评估:我们解析简历的准确性如何,我们对简历不同部分的评分准确性如何,我们在面试中提问的准确性如何,对面试进行评估,然后将所有这些内容与参考或我们拥有的关于候选人的其他任何类型的数据一起传递到模型上下文中,以对他们的工作表现做出最终预测。它主要是现成的模型,而你们正在策划围绕它们的评估和上下文吗?

是的,对于更基本的事情,有很多现成的模型,但特别是对于做出候选人最终评估的最难问题,这就是后期训练发挥作用的地方。并从我们从客户那里获得的所有数据中学习,了解谁做得很好,出于什么原因,我们如何才能从这些信号中学习,以便对未来应该雇用谁做出更好的预测。您是否了解过

关于这些信号的任何令人惊讶的事情,或者 AI 发现的某些事情,您认为,“也许这不是我原本的想法,也不是人类的想法”?是的,有很多事情。我认为

AI 的主要优势之一是它能够深入了解候选人的所有信息。它能够捕捉到人类有时会错过或忽略的小细节,例如“氛围检查”,因为人们已经对候选人有了自己的想法。因此,有很多像简历信号这样的小东西。如果人们在一个他们只是为了娱乐而做的特定领域表现出极大的兴趣,正如您所预期的那样,一直到不同信号,例如某人是否在他们最终工作所在的国家留学。他们可能会更好地沟通,并且更适合在工作环境中工作。有很多这样的细节会浮出水面,并且非常具体地针对项目和客户。您是否看到某些事情将永远由人类完成?您刚才谈到了多模态内容,但我猜,您如何看待……

AI 和人类面试官的合作,以及 AI 完全进行评估的世界?在简单的层面上,招聘流程包括评估候选人和销售候选人。我认为,评估部分很快就会因为大型语言模型而变得非常出色,以至于认为我们知道得更好是愚蠢的。

对吧?人们只会接受推荐,因为它将证明它在评估、客户关心的最终结果上表现得更好。我认为,人类仍然会在我们即将与之合作并共事的人的销售过程中发挥非常重要的作用。

我认为这可以使人力资源招聘人员和招聘经理将所有时间都花在他们想雇用的候选人身上,而不是那些他们最终不想雇用的候选人的所有面试上。因此,实际上,是的,帮助人们更好地了解角色、更好地了解他们将与之共事的人以及他们应该为之兴奋的所有事情。是的,我喜欢这个说法。人们会开始操纵评估吗?这是您看到的情况吗?我猜……

大型语言模型会捕捉到某些东西,如果您输入这个关键词。——他们都决定出国留学。——他们都在他们招聘的地方出国留学。——是的,这就是为什么有时你必须对信号保密的原因,对吧?是的,我的意思是,我们有很多事情需要处理这个问题,就像每个大型招聘流程一样。

所以我认为关键是确保评估是相对动态的。要么是他们正在处理的问题经常发生变化,要么是您向他们提出关于他们背景特定部分的非常深入的问题。因为当模型能够为面试做大量的准备时,人才评估中就会出现如此多的可能性,对吧?就像当我进行高管候选人的第一次面试时,所有的事情

也许有时我会对他们进行参考,但大多数时候我会花几分钟查看他们的领英资料。我有一些初步的笔记。但想象一下,如果我可以听他们参加的播客,对吧?阅读他们撰写的博客文章,他们可能在博士期间完成的所有论文,并询问这些事情,对吧?您可以更深入、更细致地了解,而这很难被操纵。显然,你们有这些模型,它们非常擅长预测这些候选人的表现如何。在多大程度上,这种可解释性很重要?

或者这些模型就像一个黑盒子一样,“是的,这个人会很好,这个人不会好”。是的,我认为它对于可解释性很重要,原因有两个。首先是让客户了解并信任这些说法,对吧?比如建立信任和理解

所有推理链。然后,第二个显然是确保模型出于正确的理由选择人员,他们应该考虑的理由。因此,这是有益的,但我认为经济的最终状态可能就是这样,就像,它将是某种 API 或交互,人们想要完成工作,或者他们需要某种程度的人为参与。呃,

以及对该人在工作中表现如何的置信区间。人类在该过程中扮演的中介角色要少得多。是的,这就像通往那里的一个临时信任里程碑。没错。不,这很有道理。然后显然,你们知道,今天在某种程度上,在数据标记方面,你们有很多契合点,存在着某种清晰的反馈循环,比如,我想象你们甚至可以对准确性进行评分,而且你们可能有多个人在查看相同的数据。谈谈将此转化为……的一些挑战

也许更模糊的人类工作领域。完全正确。我的意思是,比如风险投资。是的。等 15 年,然后你就会得到你的反馈循环。我认为一种思考方式是,如果你有 100 个人都在做同样的工作,那么对他们进行排名很容易,而如果你有 100 个人在做非常不同的工作,对吧?比如创始人,对吧?他们都在从事某种程度上细致入微的事情。很难像

什么他们说的话或我们学到的东西实际上转化为了结果?因为方程式中有很多混杂变量。所以我认为对于规模较大的角色来说,这将相对容易。如果您正在招聘 20 名客户主管,对吧,对他们进行排名,从这些信号中学习。然后模型开始能够从模型中学习。

这些更复杂的事情,每个人都在做不同的事情。就像我们正在对一群 Teal Fellows 进行排名,这是一个有趣的案例。但这绝对更具挑战性,并且更依赖于模型的底层推理能力。也许只是谈谈其中出现的一些挑战?

是的,好吧,这基本上是因为通常有很多事情不在模型上下文中。因此,模型难以从中学习。人们喜欢忘记将其添加到模型上下文中。所以也许是这样的,我听到我的朋友说这个公司产品的这个好东西,对吧?或者这些事情,嗯,

可能没有进入,确保添加所有参考,人类可能会注意到的人际关系方面的事情。因此,我们发现,实际上,通常只是确保必要的数 据位于模型上下文中是问题的绝大部分。——是的,我想在未来,也许我们只是用智能眼镜记录每一次对话。——是的,是的。——很容易输入模型。——Bridgewater 从一开始就做对了。——是的,没错,没错。这就是我们的方向吗?它会像Bridgewater一样大规模吗?

我们会看到的。我的意思是,我认为当然很多公司都会对此持反对态度。我认为会有监管原因和法律原因导致人们不想这样做。但我认为还会有更好的流程来帮助模型获取这些上下文信息,对吧?也许是 AI 对经理和团队成员进行离职面谈,以帮助更好地了解发生了什么,因为所有人员的脑海中都有很多细节,对吧?

围绕着这一点,我们需要将其输入模型,以便它们能够做出这些超人的预测。是的,越来越多的创始人以及各种各样的人正在将 AI 带入他们的会议。所以我认为很多这些会议和互动都会被记录下来,供 AI 学习。完全正确。我认为这将很有趣。我们需要你获取我们的记录并对我们进行排名。只有在我超过你的时候。

您如何看待当今的数据标记领域?您如何看待不同的参与者彼此区分?似乎规模确实处于领先地位,但现在该领域出现了一批新的参与者。您如何看待这个世界?是的,我认为

大多数人都不了解数据标注和评估领域的关键在于市场变化以及它与两年前相比有多么不同。因为当 ChatGPT 发布时,模型并不那么好。很容易让它们出错。它们犯了无数错误。即使是高中生……

或者大学生也可以做很多完成或评估来帮助改进这些模型,这种众包方式会运行这些巨大的管道来获取数十万个 SFT 或 RLHF,SFT 是输入、输出,RLHF 是在许多不同的偏好选项之间进行选择,就像您在 ChatGPT 中看到的那样。

但是随着模型变得越来越好,这种众包模式开始失效,因为您需要真正高质量的人员直接与研究人员合作,以帮助他们理解为什么这个模型表现良好?为什么它表现不佳?我们如何创建这些真正复杂的数据来帮助模型出错,并真正反映我们想要自动化的现实世界事物?因此,我们的平台能够找到您想要与之合作的优秀人才

非常适合这种情况,我们可以非常快速地招聘这些真正高质量的人才。这导致我们起飞并与大型实验室建立了所有联系。我认为这种趋势将继续下去,那些停留在这些超高容量众包管道中的公司

肯定会看到很多变化。而那些了解市场发展方向并依赖真正高质量的人才来支撑它的新参与者将继续占据大量市场份额。您认为对

我猜,数据标记过程中的需求将永远存在。显然,可以使用这些模型做的事情越来越多,或者大型模型在一个任务上变得非常擅长,然后可以训练小型模型。您如何看待它的发展?是的,我认为,只要经济中存在人类可以做而模型无法做的事情,我们就需要创建

评估或 RL 环境,以便模型可以学习如何做这些事情。所以我认为某些领域比其他领域解决得更快,对吧?就像在数学中,甚至在代码的许多部分中,您不需要那么多数据。它很容易验证。模型将解决这些问题。但是还有一些领域是像更开放的问题。当我们评估他们时,是什么造就了一个优秀的创始人,对吧?或者,说实话,就像一个大型

大部分知识工作领域,也许它们中的大多数都是这些难以验证并理解什么是好的开放式问题。您只需要将模型不具备的所有理解都输入模型。这就是为什么我认为知识的数量级会增加。

随着时间的推移,人类数据和评估市场。如果我理解正确的话,你们,我知道,我认为你们最初的套利之一,以及激励公司成立的原因是,你们有这些来自世界各地的优秀程序员,并且,你们知道,他们没有获得一些这些工作的机会。显然,这对于编码数据来说非常重要。嗯,显然你们也扩展到了其他领域。比如编码,它是一个完美的例子,所有用例可能也都很适合评估。比如,当你们进入一些更模糊的领域时,你们需要改变或改进什么,呃,

以及在这些领域招聘人员。是的,我认为他们依赖于人类会手动执行的许多启发式方法,这可能是一种好方法。例如,如果您想自动化成为一名顾问,您如何评估可以帮助做到这一点的顾问,给他们一个案例研究?也许这与他们的背景有关。也许这是一个愚蠢的问题,但你们可能都是优秀的程序员。所以我认为你们知道如何评估程序员。如果您开始在平台上获得一名医生,那么您甚至如何知道

人类的启发式方法是什么。我认为您要表达的观点非常有趣,那就是,当您开始进入超出机器学习团队能力的领域时,他们需要拥有这些专家。我们需要有医生来帮助我们创建我们的医生评估以及我们对什么是好医生的评估,以及,嗯,许多其他领域。同样,这也是研究人员需要对他们的所有技术做的事情,对吧?当我们都在进行肢体运动时,很容易,呃,

查看高中物理学,并说哪个问题是对的,或者哪个问题稍微好一点。但是当它是博士水平的化学,而研究人员没有化学博士学位时,很难理解发生了什么,以解释这些评估,以弄清楚我们如何改进它们。所以我认为

这就是您之前关于评估的问题的另一个重大转变,那就是对于评估我们的人才以及研究人员评估模型的方式来说,这将是一个更具协作性的过程,并与人们合作来帮助模型出错并提高能力。我之前听您说过,这种短期数据标签合同工作就像,这是您所做工作的完美初始市场。而且需求量巨大,这是一种楔子,最终可以实现端到端的劳动力市场。

我很想听您谈谈从这里到实现这一愿景,公司的顺序是什么样的?是的,我写了我们的秘密总体规划,其中对此进行了一些介绍。但我认为,市场通常难以建立的原因是它们非常依赖于网络效应。因此,使它们具有防御能力的东西也使它们难以建立。因此,现在重要的是我们非常专注于挖掘我们必须……

扩大网络效应,发展市场,并专注于此。但我们也开始看到对从我们现有的大型科技公司客户那里招聘大量承包商的需求,他们可能需要数百名数据科学家或软件工程师或特定领域以外的任何角色,这实际上与人类数据完全相同。这只是一个更传统的市场,在历史上您将与埃森哲或德勤等公司竞争。

因此,将其作为第二个主要重点,然后扩展到各种全职招聘。但关键的一点是,在业务的整个生命周期中,我们一直在做所有这些事情。即使是业务的第一年也与人类数据无关。这就像为我们的朋友和我们自己招聘承包商一样,其中许多人后来成为了全职员工。

因此,它更连续。有很多事情将它们统一起来,我们知道所有公司都想要更多候选人。他们希望能够更快地雇用他们,并且他们有信心他们会表现良好。因此,如果我们只是衡量这些事情并随着时间的推移改进它们,那么这将使我们能够适应业务的每个阶段。是的。

您是否在某个时刻很明显地要转向人类数据方面?这太明显了,这就是……是的,我记得那是我还在上大学的时候。所以,我的意思是,这项业务的背景是我在高中 14 岁时遇到了我的联合创始人。我们都在一起参加演讲和辩论队。他们赢得了所有比赛。我不像他们那么好,但我正在创建公司。然后我们开始在印度的 IIT 招聘国际人员。我们与 IT、Krog、Porous Code Club 合作,以及……

我们惊讶地发现,正如您提到的那样,这些人很聪明,但没有得到工作。我们觉得我们可以雇用他们来完成项目。我们的朋友想付钱给我们来雇用他们。我们可以收取少量费用。所以我们非常努力,自筹资金到百万美元的收入水平。在支付我们自己之前,我们获得了 8 万美元的利润,然后辍学,对此我感到非常自豪。

但当然,直到我们筹集资金,父母们仍然对此不满意。但对于您的问题,在 2023 年 8 月,我们的一个客户将我们介绍给了 XAI 的联合创始人,当时他们仍在特斯拉办公室工作。他说,Mercor 在印度拥有这些非常聪明的工程师,他们在数学和编码方面非常出色。

然后第二天,XAI 的联合创始人或其中一个或两个与我和我们的团队进行了通话,我们都非常兴奋,然后两天后,他们让我们进入特斯拉办公室,与整个 XAI 联合创始团队见面,除了埃隆之外,这就在他们与埃隆进行会议之前,我们还在上大学,对吧,这太疯狂了,我们只是想

哇,他们为什么这么想要我们所构建的东西?这是因为市场中正在发生如此迅速的变化,而其他人还没有意识到,对吧?现在,当然,我们已经将其扩展并进行了讨论,因为我们拥有大量的

市场份额。但那是重点。然后我们,但他们还没有准备好人类数据。因此,直到大约六个月后,我们才开始与许多前沿实验室合作,并真正扩展业务。您可以看到即将到来的浪潮。是的。是的,我认为随着时间的推移,我意识到,在寻找产品市场契合度的创始人中,

人们有时会过于强求。就像你需要寻找市场的迹象,就像,“哇,这里有黄金可以找到”,然后就挖掘它。因为如果很难获得最初的销售,那么扩大流程就会很困难。您需要查看的是哪些真正严重的痛点,最富有的公司将不惜一切代价支付,然后嗅探出来,然后依赖它们。

我想你们已经扩展到了编码之外。比如,回到医生的例子,因为当我描述它时,我感到震惊,一方面,你们知道,在某种意义上,比如,

评估一名好医生的标准,实际上是你最终将这些人带到模型公司的原因。他们会弄清楚,这是否是一名好医生会使用的推理过程?当你与某人一起进行评估时,你实际上在做什么?是的,我认为现在人类更擅长的一件事是从指令、培训和所有反馈中随着时间的推移而学习。所以

对不起,我正在寻找人们展示的这些替代指标,例如,他们知道,正在就这个问题提出正确的问题。他们正在以正确的方式思考这个问题。他们的背景中有一些信号表明他们曾在这些高绩效环境中工作,在这些环境中,人们显然会随着时间的推移而显著学习。嗯,

所有这些都转化为他们找到方法来扰乱模型并提高其能力。你们今天使用自己的产品吗?它如何在你们的招聘过程中使用?当然。我们将其用于除高管职位以外的所有职位。我的意思是,我们仍然为高管职位发布招聘信息,但我宁愿自己进行第一次面试,而不是直接将他们送到人工智能面试,原因是销售,而不是审查。呃,

是的,我的意思是,它非常有效。事实上,我们发现,在许多情况下,它是最具预测性的信号。我认为人们低估了招聘过程的一点是,人类有一种非常强的偏见,认为他们在这种基于感觉的评估中是对的。

我想,招聘就像最初的感觉,一切都是对的,对吧?绝对不会,不会因此而受苦。是的,这就像,这就像,让我们将一切建立在谁在工作中真正表现出色的人员的绩效数据的基础上。我记得实际上,我们,所以我们有一个职位正在招聘战略项目主管。

在战略项目主管现场面试之前,我们曾经进行过人工案例研究。现场面试是与我们一起工作一天,看看他们如何在工作的各个方面表现,并确定谁应该被录用。然后我们在现场面试之前完全切换到人工智能流程。现场面试的转化率上升了。所以这就像通过使用人工智能面试官,对比较更加客观。

在所有申请该职位的人员中进行标准化,而不是在三个不同的面试官之间混合,这使我们能够获得更好的转化率。评估方面呢?你们是否使用了许多你们自己为评估而招募的人员?你们内部做了很多这样的工作吗?是的,我们使用了很多人——或者我们与来自我们市场的人员合作来创建我们自己的评估。所以这与我们与客户一起经历的过程类似。

当然,我们仍然需要研究人员参与其中,并了解模型出错的原因是什么?我们如何创建我们的分类法,让我们的后期培训数据反映我们的分类法,并提高评估的准确性

但这都是相同的流程和人员。显然,你谈到了一点关于使用多模态能力来确定热情和其他事情。对于平台的未来,你们还在考虑将视频和其他内容整合到哪些方面?是的,一件……

我经常思考的是强化学习在改进视频能力的时间表中将扮演什么角色,因为强化学习非常擅长这些搜索问题。视频只是大量的标记。这就是为什么模型难以处理它。因此,在许多方面,这是一个搜索问题,即我们如何寻找信号,即该人对特定事物非常兴奋,或者他们是否在面试中作弊,或者我们可以在多模态环境中找到哪些其他内容。

所以我经常思考我们如何有效地创建正确的数据来让模型关注这些数据,以及许多前沿实验室正在做的事情来改进这些空间能力。我的意思是,很明显,即使在短短几年内,最终标记市场也发生了如此巨大的变化。当你考虑两年后的情况时,你认为这一切将走向何方?你认为这实际上是你业务的一部分,还是普遍如此?

两年后,是否只需要专家中的专家?——我认为这是一大部分。原因是,正如我在开头提到的,我们之所以创办这家公司,是因为劳动力聚集的概念,感觉上,经济中劳动力分配的方式极其低效,我们可以让它更高效得多。但其中很大一部分是押注于,五年后人类将在经济中做什么?——请告诉我们。——这是一个对每个人来说都是个巨大的问题。

至少我看到的一切都让我相信,对于人类来说,对他们还不知道如何做的事情或模型还无法做到的事情进行评估,比让他们不断重复地执行这项任务要有效得多。所以我实际上……

认为知识工作的大部分内容很可能会转向创建评估。它可能不是我们现在拥有的这种严格的背景,即人们在注释工具上工作。它可能会更具动态性,然后与面试官讨论如何解决他们的问题。但我认为这将……

成为经济中的一大部分。我认为很少有人意识到这一点,因为他们中的许多人将其与 SFT 和 RLHF 市场中发生的事情混为一谈,其中许多数据类型不再像以前那样有用,而且它们的预算正在下降。你认为人们发展或某种程度上,我不知道,如果你要给某人建议,

正在上学,学习或关注什么,你会把他们引向哪里?——我肯定会优化快速的学习速度,因为事情变化得如此之快。很难知道。有很多事情,人们很长时间以来都不认为模型擅长,但它们很快就变得非常擅长。

我会说尽可能多地与人工智能一起工作。我从我们市场上的人那里听到的一件事是,他们喜欢整天玩弄这些模型。他们可以思考,他们可以花几个小时思考模型无法解决的问题,无法做到的事情,以及模型错过了哪些东西?

他们说,他们培养了许多宝贵的技能,这些技能可以帮助他们在作为麦肯锡分析师的工作流程中,应该在哪里使用人工智能?不应该在哪里使用人工智能等等?所以我认为,尽可能多地花时间与模型相处,并非常熟悉他们在特定领域擅长或不擅长的事情,这真的很有帮助。但很难说,比如,成为一名软件工程师,成为一名软件工程师。是的。是的。

是的,很有趣的是,你知道,显然,是的,就像你说的那样,我们中的许多人将花费更多的时间来训练这些模型,并且,你知道,几乎有无限的事情。显然,有一些硬技能有正确或错误的答案,但也有很多只是主观的事情,也许在未来,我不知道,我们会因为训练我们自己的个人模型而获得报酬。完全正确,完全正确,是的,我认为这将是其中很大一部分。我会说另一件事是,人们应该关注需求非常有弹性的领域。例如,

我认为经济中对构建 100 倍或 1000 倍软件的需求。也许不是 1000 倍的网络应用程序,而是对现有产品的更多功能迭代、更好的排名算法等等,而其他角色的需求可能更加固定。

我们只需要这么多会计师,对吧?以及如此多的会计职能。因此,我们越能专注于那些当我们能够提高总生产力时需求会大幅增加的事情,这可能也是一个安全的赌注。是的,这是一个很好的说法。我前几天与一位创始人交谈,他说,对于所有关于软件工程即将消失的讨论,我真的很需要更多软件工程师。是的。

我知道。这是我真正感到兴奋的事情。如果他们使我们的软件工程师的生产力提高 10 倍,我们可能会雇用更多软件工程师,对吧?完全正确。我认为围绕需求以及价格如何随着时间的推移而影响需求总是有有趣的曲线。我的意思是,我当然可以想象,当你们开始时,你们可能会有诱惑去构建招聘员副驾驶或为招聘机构构建软件的合作伙伴。你们显然决定端到端地进行。从一开始就显而易见吗?这又是如何发生的?是的。

我认为开始的一部分只是由……我认为我们从第一性原理出发解决问题有很多好处,因为我们没有看到它是如何完成的。我们知道朋友们想要解决的问题是他们想与软件工程师合作。因此,我们将处理与让表现良好的软件工程师与他们合作相关的一切。但事后看来……

我认为会有更多企业会朝着这个方向发展,因为为可能不存在的工作构建副驾驶是没有意义的,至少与现在的情况几乎相同。更明智的做法可能是以一种能够从反馈循环中学习并做出更好预测的方式自动化这个端到端的流程。

是的,尽管显然在你们的情况下,我认为你们受益于这个数据劳动力市场实际上非常适合在能力相对不成熟的时候,你们可以端到端地完成它,对吧?而且我确信,如果那不存在,我猜想你们可能不得不为这些其他更复杂的角色提供副驾驶。我认为这是绝对正确的,对吧?因为这就像,如果你正在招聘全职员工,那么显然,根据定义,人们希望将他们列入他们的工资单。所以我认为我们很幸运的一点是,我们的

运营模式以及我们构建许多业务的方式非常有利于市场上我们看到的需求和转变。最初,听起来你们是在帮助为朋友们寻找承包商。我假设在某些时候你们想,这是一个副项目,然后在某些时候它变成了主要的事情。在什么时候你们想,是的,我实际上要为接下来的 20 年建立这个业务,而不是这件我在大学开始时做的事情?

好吧,背景是我高中时一直在创建公司。我有一家公司做得很好,所以我不想上大学。我告诉我的父母,不,我不打算上大学。他们不喜欢听到这个。所以最终我安抚了他们。我申请了大学,去上学了。但我告诉他们,我总是会辍学。他们并不真正相信我。他们认为一旦我同意上学,这是一个安全的赌注。

然后我去上学,每个学期我都告诉他们——他们在你的电脑上屏蔽了 Teal Fellow 这个词。比如,请不要查找这个。是的,每个学期,你知道,我会告诉他们同样的事情。然后最终我辍学了,并没有真正提前通知他们或告诉他们,因为我想,我已经告诉他们两年了,对吧?你提前通知了他们。我提前通知了他们。迹象很明显。很长的提前通知,对吧?是的。

所以我认为对我来说,这就像,我知道我,我只是想创办一家公司。我热衷于建立对世界产生影响的事情,而不是参加那些感觉没有多少成效的课程。嗯,在许多方面,我只是在寻找正确的事情来花费我的时间。我认为与我的联合创始人一起,它最初是一个副项目,你知道,想要,想要确保他们有证据来证明他们的父母,他们辍学的决定是正确的,嗯,

这很有趣,他们辍学的部分条件是我们需要筹集资金。即使我们有这项业务,其收入达到一百万美元,在支付我们自己的工资后,利润率为 80%。它正在取得很大进展。这还不够。关键是我们需要筹集我们的种子轮融资。这就是让风险投资公司继续经营下去的原因。父母想要一些验证。这是可信度步骤。好吧,这是一个很好的过渡。你们最近筹集了大量资金,获得了 1 亿美元的融资。恭喜。谢谢。这是一种……

现在允许你们做什么?或者你们是如何考虑的,你知道,什么时候是筹集更多资金的正确时机?我确信人们总是想把钱扔给你们。那么,你们是如何考虑关闭资金来源的呢?好吧,这也很有趣。我们唯一一次去筹集资金实际上是我们的种子轮融资,当时我们想,好吧,我们需要筹集资金来证明辍学是正确的。然后是我们的 A 轮和 B 轮融资,没错。我们的 A 轮和 B 轮融资都是主动进行的。所以我们的想法

是,我们希望将稀释率保持在相对较低的 5%,并积累一些资金,以便我们可以投资于我们刚才谈到的产品能力,例如,我们如何,你知道,拥有推荐奖励以及所有这些能够建立我们市场供应集的创意消费者产品,以及投资更多后期培训数据以提高我们模型的性能预测能力。嗯,

在许多方面,我们 ML 团队面临的最大障碍之一就是创建更多评估和越来越多的强化学习环境来改进我们的模型,这恰好非常有利于我们的业务。你们拥有一批基础模型公司的客户,例如

你认为随着时间的推移,这种格局会发生怎样的变化?我的意思是,有些人认为,它将合并为两到三家,也许我们会看到更多。你认为最终会有多少不同的参与者,他们最终是如何区分的?这是一个非常好的问题。我绝对属于那种认为 OpenAI 是并且将继续是一家产品公司,而不是一家 API 公司的思想流派。我认为许多 API 功能将会商品化,而真正重要的是你如何与所有客户的背景整合,以及随着时间的推移,他们能够产生多少定价能力。但我认为

市场将如此之大,以至于我可以看到他们中的每一个都领导着一个特定的细分市场,他们能够在其中吸收大量价值。就像即使其中一个实验室只是全力以赴地建立一个对冲基金,我敢打赌他们也能赚到天文数字的钱,对吧?所以我,是的,我认为很容易进行模式匹配并说这些公司估值过高。但是如果你真的从第一性原理出发来解决自动化知识工作以及这个机会是什么的问题。这就像很难证明这些拥有如此优秀团队并取得如此巨大进展的公司无法建立真正令人难以置信的业务。

是的,我的意思是,显然,今天,感觉上已经发生了如此多的跨领域泛化,这感觉上已经趋向于,更像是一种赢家通吃或强者通吃,而不是,嘿,我们将拥有一家在这个地方非常出色,一家在那个地方非常出色的公司。尽管我认为你的对冲基金例子很有趣,因为它可以……围绕模型的支架还有很多东西需要构建才能使其发挥作用。是的,我的意思是,有很多价值。有很多价值需要关注。我认为拥有一个通用的 API 对于多家公司来说可能不是一个好生意。所以……

我认为在这方面将会有一个参与者,很可能是目前排名前两位的实验室之一。然后,对于每个垂直领域和每个客户用例,都将进行大量的定制。你认为对于那些需要一些复杂标记的自定义模型来说?

哦,当然。我的意思是,有很多。我的意思是,想象一下,如果每个交易公司都能对他们交易分析的特定部分进行评估,这些部分是准确的结论还是不准确的结论,这些结论转化为交易成功与否。并且你拥有一个顶级后期培训团队,他们只是专注于,我们如何优化拥有正确的交易分析,以便比我们的交易员能够达到的速度更快?我

认为存在巨大的机会。我正在和你谈话。感觉上,许多交易公司的最佳策略应该是停止交易,花九个月的时间……

专注于,专注于,呃,后期培训模型。也许我实际上对许多交易公司在后期培训方面的复杂程度低于预期感到有些惊讶。我认为部分原因是他们都在纽约,或者他们的核心团队很大一部分都在纽约,而实验室在旧金山。许多顶级研究人员希望从事 AGI 研究,而不是赚钱。呃,

我认为他们将投入巨资。这将与前沿实验室建立九位数、十位数的伙伴关系,以帮助定制他们的特定用例。你目前在人工智能领域最大的未知问题是什么?你感觉上,上帝,如果我知道这个问题的答案,它将对我现在如何经营业务产生重大影响?

我认为这是你之前所说的,五年或十年后人类将做什么。这是一个非常难以回答的问题。我认为这在许多方面是公司的使命。我们有各种各样的直觉,但世界变化得非常快。我认为,

如此多的工作将被自动化,更好地理解这一点以及我们如何帮助定义人类的新机会以及他们在经济中扮演的角色是最重要的事情之一。——是的,我们应该从政策角度做更多的事情吗?你如何看待社会其他机构应该在这里发挥的作用?

绝对的。我认为许多监管机构都非常关注实际上与美国人的生活影响不大的事情,他们关注的是与中国的竞争,当然,这很重要,但这与人们的日常生活关系不大。他们关注的是安全风险,这很重要,但这与人们的日常生活关系不大。我认为每个人在未来两三年内将开始恐慌的事情是,这些模型在他们的工作中比他们好得多。我们需要弄清楚他们将如何融入经济。我们知道这会发生,对吧?这不仅仅是这种低概率、高影响的风险。所以我认为,监管机构需要在如何规划未来、如何进行公众预期管理以及未来几年的世界将是什么样子方面更加积极主动。

是的,我想我们很难不知道我们正在为谁进行再培训。是的,就是这样。正是如此。但我希望对此有更多讨论,对吧?并且更多地关注下一代工作将是什么样子,以及当他们上学和进入职场时,我们应该给他们什么指导。是的。

好吧,我们总是喜欢在采访结束时进行快速问答环节,在这个环节中,我们会对我们在最后塞进的一些过于宽泛的问题给出你的快速看法。所以也许首先,我们很想,你知道,在当今人工智能领域,什么东西被过度炒作了,什么东西被低估了?哦,好问题。我认为评估被低估了。

非常显著。即使它们被炒作了,我认为它们仍然被非常显著地低估了。人类能力的最后堡垒之一。是的,我认为真正被过度炒作的一件事是 SFT 到 RLHF 数据,或者说那种过时的遗留数据。有些公司实际上正在花费数十亿美元用于它,而他们不需要花费那么多,或者需要花费少一个数量级。这将会改变。去年你在人工智能领域改变了哪些想法?有趣的是,我,

我认为我自动化软件工程的时间表已经大大延长了。我过去曾经有点怀疑听到研究人员说他们拥有真正优秀的人工智能软件工程师的时间表,这个工程师能够编写比人类更高的命中率的 PR。我认为现在很明显,这将在今年晚些时候到来,有时在明年上半年。这将非常非常酷。

是的。你认为,我的意思是,显然,就像你谈到的这些人工智能改进一样,你知道,这就像,如果你在两年前谈论它们,你会说,哦,我的上帝,这将改变世界。然后它们发生了,这就像,好吧,这改变了一些事情,但不像,你是否觉得这是一个令人惊叹的时刻,就像,软件工程方面的就业发生了巨大的变化?还是它会感觉像 10% 或 20% 的变化?

好吧,我认为框架它的东西是我们刚才谈到的角色的弹性,而且我不太担心工程工作的短期前景,因为我认为给他们提供提高生产力的工具只会意味着我们将构建更多软件。但这肯定会改变角色的性质,并且那些具有产品思维的人,那些了解如何做模型可能不太擅长的事情的人在市场上具有更大的比较优势。除了 Mercor 之外,你最兴奋的人工智能初创公司是什么?

我真的很兴奋 OpenAI 的编码能力,即使这不是一个反向的答案。我还认为,将会有大量的自定义代理。所以我有一个朋友的公司正在秘密开发,我对此非常兴奋。好吧。显然,你们不能在这个播客上分享它。当我们停止录音时,我们会骚扰你,问这是什么。显然,你知道,像……

你正在经营一家影响巨大的公司。假设你今天才开始。你知道,你才刚刚开始构建一些人工智能应用程序。完全不同的类别。你认为现在还有什么有趣的东西可以构建?或者你还会去花时间做什么?我认为我会选择一个特定的知识工作垂直领域,可能是金融领域的一些东西可以自动化,并在该垂直领域构建自定义代理来做到这一点。你可以建立这家人工智能交易公司。

是的,我可能会尝试选择一些我认为更有积极影响的事情,因为我认为,我认为,你知道,确保我们在上午而不是下午获得正确的估值可能不会改变世界。但是,呃,是的,我会选择一些我认为非常有影响力的事情,呃,来自动化某些能力。但是,呃,

是的,这是一个很酷的世界。是的。好吧,我一直想把最后一句话留给你。这是一次引人入胜的谈话。人们可以在哪里了解更多关于你以及你在 Mercor 的工作的信息?麦克风是你的。任何你想指引我们听众的地方。是的,当然。访问我们的网站 mercor.com。我们正在为我们自己招聘大量人员,他们是我们的客户,或者为我们自己招聘少量人员,为我们的客户招聘大量人员,并且拥有各种各样的好机会,我们很乐意与人们一起工作。太棒了。

呃,非常感谢。这非常有趣。是的。非常感谢。这很有趣。