We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

From Job Displacement to AI Trainers, Brendan Foody on Work in the AI Age

2025/4/10

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript

People

Brendan Foody

Topics

Brendan Foody: 我是Mercor的联合创始人兼CEO，我们利用大型语言模型(LLM)自动化招聘流程，比人工更有效地预测求职者在工作中的表现。我们的模型可以评估任何具有经济价值的技能，应用范围广泛，从咨询到软件工程，甚至包括爱好和视频游戏等领域。我们最初的业务与人力数据无关，但后来发现AI模型可以用于招聘各种职位的人才，包括为AI模型训练提供数据的人才。我们相信，未来所有招聘都将转向AI系统，AI模型在人才评估方面已经优于人工招聘经理。AI模型能够识别出各行各业中表现突出的“10倍人才”，这对于客户价值和公司长期经济效益至关重要。不同行业人才能力分布不同，有的行业呈幂律分布，有的则更接近正态分布。AI模型擅长处理可通过文本衡量的任何事情，但在处理多模态信号和评估人才的热情等方面仍有提升空间。AI模型在处理高容量流程方面表现出色，能够有效利用网上信息识别人才，并识别出一些隐藏的信号。评估人才的内在动力和热情非常重要。我们也在评估模型本身相对于人类的表现。许多工作岗位将很快被AI取代，这将带来严重的社会问题，我们需要解决AI取代人类工作后如何重新分配财富的问题。被AI取代的人可能会转向体力劳动或一些利基技能领域。为了保持经济价值，人们应该培养适应性和快速学习能力。AI模型学习速度最快的领域是那些可验证的领域，例如数学或代码，而对于不可验证的领域，例如对创始人的品味判断，AI模型的学习速度会慢一些。AI模型将能够通过各种方式验证信息，这将因行业而异。我总体上相信知识的迁移性，但新的领域仍然需要一定的数据来启动学习过程。评估AI模型的关键在于评估其经济价值，而不是仅仅依靠零样本测试或学术测试。创建AI模型的评估标准是自动化大多数知识工作的最大障碍。创建AI模型评估标准应该从相对同质的任务开始，例如客户支持。为那些多样化的任务创建评估标准将更具挑战性，但也更有价值。我不建议强迫孩子学习计算机科学，而更应该鼓励他们培养批判性思维和解决问题的能力。培养孩子对某一领域的热情和批判性思维比学习具体的编程技能更重要。AI模型可以识别出人才的“品味”，即他们对问题的思考方式和对细微差别的感知能力。在人才评估中，应该尽可能直接衡量目标，而不是依赖于代理指标。未来将有大量的人从事数据收集工作，数据收集工作的重要性在于创建AI模型的评估标准。数据收集工作的持续时间取决于AI模型达到超智能的快慢。除非AI模型达到超智能水平，否则人类仍然需要参与创建评估标准。知识工作可以分为解决最终任务和创建评估标准两种类型。从经济角度来看，知识工作将从重复性任务转向创建评估标准。AI模型达到超智能的快慢将决定人类创建评估标准的需求。AI模型将参与创建评估标准，但仍然需要人类专家进行验证。AI模型能够区分有价值的人类知识和无价值的人类知识。在AI模型达到超智能之前，仍然需要大量的评估标准来支持其在各个领域的应用。为高级人才创建评估标准的激励机制需要考虑其机会成本。随着技能水平的提高，高技能人才的评估标准将变得更加重要。AI模型应该能够识别出那些最难被自动化取代的任务。AI模型将能够识别出人类在经济中所扮演的角色。人们低估了AI对就业的冲击速度。客户支持和招聘等领域已经出现大规模的失业现象。人们低估了AI模型在非可验证领域创建评估标准的重要性。人们低估了人类在未来经济中的作用。许多行业已经存在某种形式的普遍基本收入（UBI）。我们需要考虑如何在AI时代重新分配经济盈余。随着AI人才评估技术的进步，企业可能会进行更多裁员。AI人才评估技术可能会面临法律挑战。AI人才评估技术在经济上是不可避免的，尽管可能会面临阻力。受监管行业与非受监管行业对AI人才评估技术的接受程度不同。受监管行业缺乏经济压力，导致其对AI人才评估技术的接受程度较低。AI模型未来可能更擅长担任管理者角色。AI模型未来可以帮助人们更好地组织和管理工作。目前的AI模型擅长解决数学问题，但在处理一些基本的个人助理工作方面仍有不足。AI模型具备构建代理系统的潜力，但仍需要进一步的工程工作。AI模型需要学习如何在不同情况下使用工具和合成信息。强化学习微调（RFT）是一种高效的模型定制方法。强化学习微调（RFT）比监督式微调更有效率。 Sarah Elad

Deep Dive

Shownotes Transcript

嗨，各位听众，欢迎收听《No Priors》。今天，我们与Merkur的联合创始人兼首席执行官Brendan Foody进行聊天，该公司负责招募人员来训练AI模型。Merkur由三位辍学生和Teal学者于2023年创立。此后，他们筹集了1亿美元资金，营收突破1亿美元，并与顶级AI实验室合作。今天，我们将讨论基础模型训练的数据未来将从何而来。

对最先进模型的评估以及劳动力市场的未来。Brendan，欢迎来到《No Pryors》。Brendan，非常感谢你抽出时间。是的，感谢你们的邀请。很高兴来到这里。你们公司在过去六个月左右取得了巨大的进展。公司发展势头强劲。你能稍微谈谈Mercor是做什么的吗？

是的，总的来说，我们训练的模型能够比人类更好地预测某人在工作中的表现。这类似于人类如何审查简历、进行面试并决定聘用谁，我们使用大型语言模型（LLM）自动化所有这些流程。它非常有效。所有顶级AI实验室都使用它来招聘数千名员工，这些人将训练下一代模型。实验室现在正在寻找哪些技能和职位描述？

实际上是所有具有经济价值的东西，因为强化学习变得如此有效，以至于一旦你创建了评估，模型就可以学习它们以及如何改进能力。因此，对于我们希望大型语言模型擅长做的所有事情，我们需要对这些事情进行评估。

它涵盖了从咨询到软件工程师，再到业余爱好者和电子游戏，以及你能想象到的所有事情。它实际上是你所看到的那些基础模型公司甚至应用层公司正在投资的任何能力，评估都在所有这些的上游。

你们是否也在帮助核心基础模型以外的公司进行类似的招聘，或者目前主要还是专注于AI模型？是的。实际上，当我们开始这项业务时，它与人类数据完全无关。只是我们发现，世界各地都有非常有才华的人没有得到机会，我们可以应用大型语言模型来使寻找他们工作的过程更容易。

更高效。然后，在与市场上的几个客户会面后，我们意识到由于人类数据市场的转变，存在巨大的空白，人类数据市场曾经是众包问题，即如何获得大量编写语法勉强正确的句子的中低技能人员，用于早期版本的ChatGPT。它正在向审核问题过渡，即如何找到

世界上一些最优秀的人才，他们可以直接与研究人员合作，推动模型能力的进步。但我们仍然保留了为角色招聘人员的核心DNA，包括人类数据和其他方面。我们的许多客户都同时进行这两种招聘。你认为所有招聘最终都会转向这些AI系统来评估人员，或者至少是所有知识工作？我认为肯定会的，因为我们已经在我们的许多评估中看到，模型比人类招聘经理在评估人才方面更好。而且这还只是早期阶段。

因此，我认为我们将达到一个几乎不听从模型是不理性的地步，对吧？人们会相信模型的推荐。也许出于法律原因，我们仍然需要人工按下按钮并进行最终签字。但是，我们将比信任人类更信任模型关于谁应该执行特定任务或工作的建议。我想在任何领域，人们都说有10倍的人才。

有10倍的程序员比普通程序员的生产力高得多。有10倍的医生、投资者等等。你在模型的输出中是否看到了这一点？换句话说，你能够识别出那些异常出色的人吗？完全可以。这是最令人着迷的事情之一，

知识工作的幂律性质决定了绩效预测的重要性。想象一下，如果你能理解工程团队中哪些工程师的绩效将达到第90个百分位数，对吧？或者，如果你可以说，我知道这个人成本只有原来的一半，但绩效却能达到前四分之一，

对吧？它决定了你如何看待我们为客户创造的价值，以及你如何看待业务的长期经济效益。这一切都与如何衡量客户成果并真正关注它们有关。它是幂律分布还是什么类型的分布？因为人们总是将人类绩效视为正态分布。你认为这实际上是正确的吗？或者你认为这是解释知识工作相关的人类绩效的错误方法？

这因行业而异，对吧？比如你在投资方面，对吧？这可能是你能想象到的最符合幂律分布的事情。其中，只有每个十年中排名前几位公司才占据不成比例的份额。正是那些投资这些公司的投资者，而如果你正在招聘工厂工人，对吧？这是一种更商品化的技能组合。差异要小得多。我认为软件工程介于两者之间，对吧？

它绝对非常符合幂律分布，但我认为它不像世界上少数最好的投资者那样符合幂律分布。你是否对模型在评估或识别人才方面优于人类（即人类数据优先）的领域有预测，这可能是由于技能水平的分布或可衡量性？是的。

是的，所以它实际上是你可以用文本衡量的一切，模型都非常擅长。如果你可以在面试中提问并阅读笔录，那么模型在这方面就比人类强。跨越……

比人们最初想象的更多领域。它不像我最初预料的那样依赖于特定领域。我认为模型进展较慢的领域是多模态信号和理解，比如这个人对他们正在做的事情有多热情？对吧？他们有多强的说服力或销售能力？

这些能力将会出现，但它们只需要更多的时间。所以这就是我现在思考它的思维模型。对。所以，如果我正在面试我们公司的一名候选人，他们正在说关于动力水平的正确话语，但我并不相信，如果我在这里有任何预测能力，这可能是一个更高级别的信号。完全正确，完全正确。正是如此。另一件事是，模型在高容量流程方面要好得多。

例如，假设你正在为同一份工作评估20个人，并且你雇佣了这些人，你就会看到他们的表现如何。很容易将每个人的背景特征归因于他们的表现，对吧？这是一种等级排序，你可以理解，比如这个人在面试中有一些细微之处，或者这个人在简历中有一些细微之处。这就是解释他们工作表现的因素，而如果这20个人正在从事20个不同的工作。

那么这就像弄清楚是什么导致了这些事情的发生一样混乱。要理解是什么特征真正驱动着信号，要困难得多。因此，我认为那些首先实现自动化的将是那些高容量的流程。是否有任何……

让你对发现的特征感到惊讶的方面，比如，我不知道，你今天正在研究的任何领域，这些特征能够识别出优秀的人才？这是一个很好的问题。或者可能是工程方面，因为它与我们的许多听众相关。是的，我认为……

对于工程来说，一件非常有趣的事情是，关于许多优秀工程师的很多信号都存在于网上，我认为人们并没有充分利用，对吧？它涵盖了从他们的GitHub到他们网站上的个人项目，再到他们在大学期间撰写的博客文章。只是因为……它受到人工流程的限制。

招聘经理没有时间阅读所有这些内容，对吧？他们没有时间，或者对于设计师来说，他们没有时间在进行初步面试之前考虑某人Dribbble个人资料中的每一个提案或图像。因此，我认为人们最不重视信号的地方之一是可以在线找到的东西。

但是，很多可以在面试中被索引的东西，比如这个人有多热情？这个人是否具备这项工作所需的技能？我认为人类在这方面相对比较擅长。至少他们现在更被接受。对于那些在线工作较少的其他类型的领域，是否存在隐藏的信号？例如医生、律师。还有很多其他职业……

是的，存在各种各样的隐藏信号。过去我们看到的一个有趣的例子是，那些居住在国外但在西方国家留学的人往往更善于合作或与

人们沟通。这就像他们在回顾和评估时有意义的信号，但对于没有完全了解市场上发生的一切的人来说，很难理解和欣赏。而且通常，正如你所能想象的那样，最重要的事情之一就是人们对某个领域有多么内在的动力和热情。因此，不仅要寻找简历和面试中的信号，还要寻找在线信号，比如什么表明了这一点。

对吧？这不仅与你雇佣谁有关，还与这些人应该从事什么工作有关，对吧？想象一下，雇佣一名生物学博士来解决生物学问题与雇佣撰写药物发现论文的人来解决问题并提出与其论文相关的创新解决方案之间的细微差别。而且我们目前在匹配方式、使用所有这些信号的方式方面存在很多低效之处。所以你们正在评估人员。你们是否也在对模型相对于人员进行评估？是的，是的，当然。那么，你对最终会被这些模型取代的人的比例有什么看法？换句话说，如果你能判断相对绩效并查看相对输出，

你如何开始考虑取代、增强或其他方面？我认为许多角色的取代将很快发生，这将非常痛苦，并将成为一个重大的政治问题。我认为我们将围绕此问题以及即将发生的取代展开一场大型民粹主义运动。但经济中最重要的一个问题是弄清楚

如何应对这个问题，对吧？比如，我们如何弄清楚几年后所有从事客户支持或招聘工作的人应该做什么？一旦我们接近超级智能，尤其是在其价值和收益更趋于平行分布的情况下，我们如何重新分配财富？因此，我花了很多时间思考这将如何发展。我认为这确实是……的核心——你认为最终会发生什么？X% 的人会被我的彩色工作取代。你认为他们会做什么？——我认为会有更多与物理世界相关的工作。我认为还会有很多利基技能——物理世界是什么意思？

好吧，它可以涵盖从创建机器人数据的人到餐馆服务员，或者只是治疗师，因为人们想要人际互动，无论那是什么样子。我认为所有……我认为物理世界的自动化将比数字世界慢得多，仅仅是因为在虚拟世界中可以发生很多自我强化的

收益和自我改进，但在物理世界中却不行。你对现在作为人类应该投资哪些技能、知识和推理能力以保持经济价值有什么看法？Sam Ullman在有人问他这个问题时说，人们应该优化自己，变得非常多才多艺，能够快速学习并改变他们所做的事情。

我认为这非常有道理，因为有很多事情人们认为模型不擅长，但它们很快就会变得非常擅长，以至于我几乎认为你只需要能够快速适应。你认为模型学习速度最快的那些事情的特征是什么？如果你要说，这是一个启发式方法。是的。

你认为这些组成部分是什么？如果它是可验证的。对于数学或学生代码等可验证的事情，它们将很快得到解决。因此，你需要一个反馈循环或效用函数来作为模型的优化目标。对于不可验证的事情，比如你对创始人的品味，对吧？这很难自动化。这也是一个非常稀疏的信号，因为，是的，关于它的数据并不多。这是一个目前相当基础的研究问题。但你认为除了代码和数学之外，关于可验证性的最有趣的观点是什么？

好吧，我认为有一些方法可以让你取得成功

某些自动评分器或人类可以应用的标准。我对此非常感兴趣，或者模型可以应用这些标准。我非常感兴趣这将如何随着时间的推移而发展。显然，还有很多其他领域，模型将处理非结构化数据，将它们结构化，并弄清楚如何验证它们。这因行业而异。我认为一个实验室很难做到所有这些。而且会有

你知道，随着我们越来越进步，每个行业的边际收益都会变得更具挑战性。你对代码和数学类型推理和智能的泛化程度有多相信？比如，如果我在证明数学方面好得多，最终它会让我变得有趣吗？我指的是智能。是的，我通常相信这一点。呃，

但在某种程度上，你仍然需要相当数量的新领域数据来启动它。但会有很多迁移学习。我认为当莎拉做证明时，这很有趣。所以我觉得这一切都说得通。她能证明。实际上，我认为不擅长证明很有趣。

好的，让我们谈谈评估，因为你们正在从事模型能力的最前沿工作。人们一直有一种感觉，他们称之为评估危机，即模型如此出色，并且在当今能力的边缘有些难以区分，以至于我们不知道如何测试它们，忽略了评估的所有问题。

人们操纵基准，对吧？你认为如何，比如，关于评估模型的正确想法是什么，尤其是在它们变得比人类更优秀的时候？好吧，我认为最重要的事情之一是，历史上许多评估都是针对模型的零样本或测试问题，对吧？这可能是学术性的。当我们实际上需要评估的是什么具有经济价值时。

当软件工程师去上班时，它远不止是编写PR。它需要与所有相关方协调，以了解产品经理想要什么，以及这如何融入每个团队的优先事项，以及这如何转化为最终的工作成果。因此，我认为我们将看到大量针对代理的评估创建。这是自动化最大的障碍。

自动化经济中大部分知识工作。人们应该从哪里开始？这感觉不太具有普遍性。所以Sierra有一个叫做TauBench的东西，我认为人们正在尝试，这里还有其他努力，但这可能更特定于某种功能。是的，我认为……

人们将需要按行业拥有这些，他们可能应该从更同质的任务开始，对吧？比如，对于客户支持工单来说，这是一个很好的例子，因为客户支持代理与一个界面进行交互。他们可能会调用一些工具，例如访问数据库或阅读文档，但这相对来说是一个比较同质的统一任务。

我认为更具挑战性，但在许多情况下也更有价值的事情是为这些非常非常多样化的任务创建评估，对吧？成为一名优秀的软件工程师所需要的一切。这将非常难以做到。我认为这将是

即使是一些可验证的领域，也需要多年的建设，因为成为一名优秀的软件工程师需要考虑很多因素，比如他们对品味的理解，比如解决问题的方法，或者人们真正喜欢使用的产品是什么？我对此感到非常兴奋。所以，如果你要给有小孩的人一些建议，比如你的孩子，我不知道，五到十岁。是的。他们的孩子应该学习计算机科学吗？我会。

可能不会鼓励他们教孩子计算机科学，但我并不完全反对。我认为关键是，我会鼓励他们找到一些对他们来说在智力上具有刺激性、他们真正热衷的事情，在那里他们可以学习一般的推理能力，嗯

这些推理能力可能非常有价值并且可以交叉应用。我一直很喜欢从小创业、发展壮大以及做一些小事情。我认为这可能会有所帮助。但我怀疑

真正有价值的事情只是五年后能够编写代码的人。我认为更有可能的是，那些对市场上缺失的东西有不同意见的人，以及对解决这个问题需要哪些功能和细微差别有品味的人。你几次提到品味。你认为在任何领域都能发现品味的信号吗？是的，绝对可以。我的意思是，我认为通常你只需要看到

看到人们如何思考某些问题的更细微的信号。有些人有直觉，无论是他们解决问题的方式，还是如果他们正在查看不同的产品，他们如何注意到细微差别。是的，这因行业而异。这与行业背景有关，但重要的是要衡量。你如何给它评分？

这里的正反馈循环是什么？我们做过各种各样的尝试，但通常我们会让人们解决一个尽可能接近他们在工作中会解决的问题。然后我们会看看他们与其他人的比较情况。所以这有助于评分。是的，一些进一步的思考过程是其中的一部分。例如，我知道这几乎就像查看代码审查或其他一些中间工作，相对于某些东西。

我们当然会这样做。我意识到关于人才评估的一件事是，很多人过于关注他们所关心事情的替代指标，而不是他们真正关心的事情。因此，理想情况下，你想要衡量你真正关心的事情。所以，如果这个人正在构建产品的MVP，理想情况下，你会有一个面试，就像缩小范围的版本一样。你需要使用替代指标的地方是，当它是一个较长期的任务时，你只想构建替代指标以获得尽可能多的信号。所以这就是

我思考人才评估的方式。是的。我可以问一个关于影响规模的问题吗？所以，如果我考虑一下当今最大的雇主，比如我们称之为数百万员工的低个位数。是的。对。我不知道承包商和亚马逊员工等等。但是你认为有多少人最终会从事数据收集工作？

我认为这是一个巨大的数量。我认为原因在于，这一切都归结于为经济中的所有事物创建评估。我认为一部分将是企业的现有员工，他们正在为该企业创建评估，以便这些代理可以了解什么是好的。一部分将是

你知道，通过市场雇佣承包商来帮助建立这些评估。但如果这成为世界上最常见的知识工作，我也不会感到惊讶。这能持续多久？

所以实际上，人们被带进来是为了取代自己。这是真的。这是一个六个月的周期吗？这是一个两年的周期吗？人们相对于这些任务的相关性持续多长时间？总会有一个前沿。除非它变得比人类更优秀，对吧？是的，除非它变得比人类更优秀。这几乎就像达到超人类智能所需的时间。但我进行了一次有趣的谈话，那就是你甚至不知道自己拥有超智能，除非你对所有事物都有评估。是的。

因为你好像需要了解什么是人类基线，什么是好的。它以对人类行为的理解为基础。是的，我的一个朋友基本上相信奈奎斯特采样定理，它基本上是说，如果你正在对信号进行采样，你需要能够以两倍的频率对其进行采样，才能真正推断出它是什么。否则，你的采样不够丰富，无法知道。嗯哼。

因此，他认为智能也存在某种版本的这种定理。比如你可以判断某人是否比你聪明，但你不知道他们聪明多少，因为你没有能力进行足够快速的采样来理解它。因此，我总是想知道这在超级智能或超人类能力的背景下，就你能有多聪明而言

因为它很难引导到评估中。好吧，所以我认为，当你把它推向极限并拥有超智能时，你所说的很有道理。但我思考这个问题的另一种方式是，如果我们将知识工作分为两类，一类是解决最终任务。

它是一种可变成本，比如你需要反复执行它。另一个是创建一个评估来教模型如何解决该任务，这是一种一次性完成的固定成本。从结构上看，工作从反复执行的可变成本转向如何建立评估和流程以让模型自己执行此操作的固定成本，似乎效率更高。

也就是说，这一切都取决于我们接近超级智能的速度有多快。如果模型变得如此之快，那么当然，我认为我们不需要人类创建很多评估，但我也不认为我们需要人类参与经济的许多其他部分。因此，你需要仔细考虑它们的比率。这是否会对这些事物变得多好产生渐近线，或者它们会随着时间的推移开始创建自己的评估？

我认为它们将在创建自己的评估方面发挥作用。它们可能会提出关于好的响应应该是什么样的某些标准，而人类则验证这些标准。但是，我认为你通常需要将其建立在该特定领域的专家之上。当然。但我只是在想MedPalm之类的东西，对吧？

MedPalm 2，其中模型的输出优于普通医生。它基本上是谷歌构建的一个健康模型。他们将使用医生小组来评估模型的输出与个体医生的输出。该模型的表现远优于个体医生。

在某些时候，它应该比医生小组做得更好，医生小组的反馈应该会使模型变得更糟，对吧？换句话说，如果你只是根据个体医生的意见做出判断，那么模型已经会变得更糟。因此，这里有一个问题，即人类评分在多大程度上……

因为人类不擅长这项任务而导致更糟糕的结果？好吧，我认为模型将能够区分有价值的人类知识和没有价值的人类知识。也许你让医生为这项特定任务创建大量评估，而模型意识到，哇，我看到了医生在这项特定任务中犯的错误，但我将忽略它们。而且，这里有一些看起来有见地的事情，或者我可以学习的事情。而且

模型将，是的，使用这些数据并非常重视这些数据。我要说的另一件事是，我认为很容易查看这些评估以及评估的改进速度，并认为我们比实际情况更接近超级智能。但事实是，在真正擅长SweeBench和取代软件工程之间还有很多事情要做。

对。比如我们谈到的所有协调问题。成为一名优秀的软件工程师还有很多其他方面，比如他们对品味和架构理解的理解。这将比你想象的要长得多。你如何看待所有这些专家团队的激励措施？

知识工作者，因为对于拥有品味和架构理解能力的优秀软件工程师来说，在Mercore或其他有趣的科技公司工作的机会成本与……

地理套利在基本的知识工作中并不存在，随着时间的推移，技能水平会提高。这在编码中是正确的，对医生来说是正确的，对金融人士来说是正确的，在许多你可能需要评估和标签的领域也是正确的。

完全正确。我认为随着时间的推移，它肯定会变得更符合幂律分布，这意味着最优秀的人当然会赚取巨额财富。你认为这更多的是提高任何信息对高技能工人的价值吗？

是的，是的。但你也希望评估处于模型无法做到的事情的前沿。因此，对于一个范围非常明确的问题，例如回答某人提出的医学问题，你可能需要获得世界上少数能够在这项范围非常明确的问题上比模型做得更好的医生之一。但对于如何以患者能够接受的方式讨论此案例的更广泛的代理问题？我们如何与这些工具协调以帮助完成诊断并发送任何电子邮件？

时间。我认为对于这类事情，我仍然预计大部分钟形曲线，即更接近分布平均值的人，将能够贡献更长的时间。你认为没有人真正预料到的最大转变是什么？它可能是特定领域的。也可能是更广泛的。好吧，也许我会分两部分回答这个问题。因为当我想到没有人时，就像

感觉全国大部分人并没有真正理解工作将被取代的速度有多快。正如我之前所说，这感觉就像一个大问题。我认为我们需要作为政府、作为经济体等，保持非常积极主动的态度。你是否已经看到某些领域正在发生大规模的职位流失，而你认为这些都没有被报道？在客户支持方面，这肯定已经被报道了。

呃，在招聘方面，我认为其中一个挑战是，很多事情都发生在经济收缩时期，那时人们效率更高，更关注底线，所以我认为很多事情还没有发生，但即将发生。然后，就那些可能连……

旧金山的人都没有考虑到的问题而言，这是该问题另一个有趣的方面，那就是对不可验证领域的代理评估严重不足。另一件事是，旧金山的居民往往不会批判性地思考人类在经济中将扮演的角色，因为他们过于专注于自动化人类。所以我认为更重要的是要更多地考虑这个问题。我想到的一件事是

我认为理想情况下，模型应该帮助我们随着时间的推移弄清楚这一点，对吧？例如，人们对什么充满热情？是什么激励着他们？也许它不需要具有经济价值。也许它只是他们喜欢从事的一种特定类型的项目。我认为人们并没有……

充分考虑人类在 10 年后将如何融入经济。你知道，我觉得我真正误解或没有完全理解范围的是，我们实际上在经济的不同部门拥有不同形式的普遍基本收入（UBI）的程度。政府就是一个明显的例子，那里发生了大量的浪费、欺诈、欺骗等行为。是的。

学术界的部分领域，如果你只看看官僚机构相对于实际学生人数或教师人数的增长，大型科技公司，如果你看看规模，基本上，很多这些东西实际上都是 UBI。因此，在某种程度上，可以说我们经济的某些部分已经经历了你所说的情况，即

高薪工作可能在相对基础上并非超级高效。因此，问题是，鉴于这些变化导致的职位流失，我们作为一个社会是否真的会接受这种情况？如果是这样，那么经济盈余从何而来？

是的，这很有趣。我认为，随着我们对员工价值的分析越来越好，这些公司将开始进行更多裁员、更多削减等，这似乎是合乎逻辑的。你认为这些评估会在某个时候变得非法吗？因为感觉这在不同学科或领域的某些方面，或基于能力的测试方面，已经发生了一点。它在 70 年代发生在政府身上，当时他们将其从标准衡量指标中删除了。

我只是想知道这是否会成为人们普遍不愿采用的东西，因为它会暴露一些事情，或者你认为它在经济上是不可避免的吗？肯定会有阻力，但我认为这在经济上是不可避免的，因为它很难监管，而且就像

对公司来说非常有价值，他们会朝着这个方向发展？我认为这取决于经济的哪些部门，因为其中一些部门并非经济驱动的。它们只是作为部门效率不高，但如果你看看医疗保健或教育，每个人都看到了这张图表，它显示了许多行业在每美元支出方面有一定的产出

你会看到医疗保健和教育的支出不断增加，但产出却没有提高。是的。而且这种情况已经持续很长时间了，而许多其他行业的生产力都在提高。答案是没有经济压力。当然。它实际上是受监管部门与不受监管部门之间的区别。监管是导致与经济脱节的原因。是的。

是的。此外，我认为一件非常有趣的事情是，许多人认为人工智能作为独立贡献者非常出色，而实际上它很快就会在成为管理者方面变得更好。对吧。例如，承担一个大问题，将其分解，找出如何根据他们应该如何工作来对员工进行绩效管理。这与你关于我们应该如何处理所有那些低效员工的观点有关。对吧。

因为如果我们有一个冷酷理性的代理人来做出决定，那很可能与历史上做出的许多决定大相径庭。我们公司最近问过我，我希望助手做些什么，而它现在还没有做。对吧。我认为最重要的事情是，你知道，如果我给它足够的背景信息和一些我试图实现的目标，我不是一个特别有条理的人。我有很多

输出，我认为，所有事情都是相对的。但是，你知道，它是否像完美地优先排序和分配任务以及排序，这样我不会在一个特定的事情上遇到瓶颈？不，对吧？我绝对希望助手能为我做到这一点。完全正确。它回到了之前的观点，对吧？告诉我。告诉我接下来三分钟该做什么。我们有这些模型，它们就像

在数学方面非常出色，对吧？例如，你给他们一个测试，他们可以轻松通过测试，但他们仍然无法完成基本的个人助理工作，对吧？我认为这表明仍然有很多研究和产品需要开发。例如，我们如何才能弥合经济上有价值的东西与完成你愿意为之支付人类工资的端到端工作的差距？你认为这些模型足够好吗？只需要一些增量工程工作就能使其变得更好？或者你认为这是，好吧，我们实际上拥有模型能力

你认为这将使我们能够构建某些类型的三元系统，而不是我们需要……MARK MANDEL：这些系统也是主动的。MARK BLYTH：实际上，也许让我这样说。我认为，对于各个类别的代理人来说，只需要少量评估，基础模型就具备所有推理能力。你仍然需要这些评估的原因是，模型需要了解它们应该在何时以何种方式使用工具。他们需要了解如何从这些工具中综合信息。

但这并不是推理问题。它更像是一个学习每个公司的知识库以及该角色中什么是好的问题。因此，将进行一些培训后的工作，我对 RFT 和它将意味着的一切都非常看好。

你能详细说说 RFT 并为我们的听众解释一下吗？是的。基本上，每个人过去都谈论在监督微调 (SFT) 的背景下进行微调，你将为模型提供输入和输出，模型将从这些输入-输出对中学习。但主要问题是，监督微调定制从未真正流行起来，因为它效率不高。

例如，公司会创建几百个，并最终尝试将其扩展到数万或数十万个 SFT 对，但往往无法获得他们正在寻找的许多功能。而在强化微调中，你改为定义你关心的结果。例如，在 Sierra 的案例中，我与他们讨论了他们如何定义

什么是好的客户支持回应。在我们的案例中，我们定义了您应该将哪些关键因素识别为该候选人的特征，无论是他们在面试期间充满热情，展示了 XYZ 领域知识，还是从事了展示该技能的副项目。然后，你奖励模型识别这一点。因此，你设置了解决方案，然后模型可以

在该环境中学习如何变得非常擅长。我之所以对它流行起来如此乐观，是因为它非常高效，对吧？它终于可以对应用程序层进行模型定制了。而高效实际上是指数百到数千个示例，对于企业或中型企业来说，这是一个可以考虑的合理数字，而不是……

我不知道，十亿个标记。是的。是的，完全正确。所以这将非常酷。我认为我们将拥有这些代理人，他们将担任员工目前担任的所有角色，与员工一起工作。人类员工将帮助创建评估。我还认为，我们市场上的承包商将在其中发挥重要作用。这将是创建跨所有企业的自定义代理的大量评估构建。

Mercore 在未来一年左右最重要的是完成什么？

作为一家企业，我们专注于两件事。我认为这些对于今年以及未来五年都将是最重要的。首先，我们如何让世界上所有最聪明的人加入我们的平台？这与我们市场供应方有关，市场网络效应类似于 Uber 或 Airbnb。因为如果我们拥有最好的候选人，并且能够为他们提供工作机会并了解他们的需求。第二件事是预测工作绩效。你是否试图提供任何不属于薪酬的东西？

是的，我们有。我们意识到，平均劳动力市场中，供应方与需求方的比率为 50:1，这意味着平均申请者会与也申请的他们的朋友交谈，而他们都没有找到工作。这几乎只是构建劳动力市场的一个结构性部分。

实际上将劳动力市场扩展到让数亿世界上最聪明的人加入平台的方法是构建所有这些免费工具，例如人工智能模拟面试、人工智能职业建议、人们可以共享的个人资料，所有这些都能为消费者创造最神奇的体验，并免费赠送，因为它是通过业务另一端的货币化引擎驱动的。所以这是

我们非常重要的关注点。我打断了你。你要谈论其他重要的事情。是的。它是绩效预测。我们从客户那里获得所有数据，了解谁做得很好，原因是什么，以及我们如何从所有这些见解中学习，以便更好地预测未来应该聘用谁。这就是你可以在世界上许多最著名的公司中找到的数据飞轮。我认为

当你观察业务时，市场网络效应更为明显。但我实际上认为，根据我们看到的一些初步结果，数据飞轮将随着时间的推移变得越来越重要。你如何看待劳动力市场在长期内的发展？

好吧，我认为劳动力市场中最大的低效率是碎片化，无论候选人身在何处，他们都会申请十几份工作，而旧金山的一家公司只会考虑世界上极少数人，因为所有这些都受到这些匹配的人工流程的限制。

对，他们需要手动查看每份简历，进行每次面试，并决定聘用谁。当你能够以软件成本解决这个问题时，它为全球统一劳动力市场铺平了道路，每个候选人都可以申请，每家公司都可以从中招聘。我相信这不仅是世界上最大的经济机遇，也是影响最大的机遇。

至于你如何为每个人找到他们将充满热情并取得成功的工作。这是否包括人工智能代理？换句话说，市场将是人和代理人的混合体，都在全球范围内争夺劳动力？我认为是这样，因为客户最终会带来需要解决的问题，对吧？理想情况下，这是这两种方法如何结合在一起的协调。鉴于你花所有时间思考

如何吸引高技能候选人并确定他们的有效性。例如，你对在初创公司和规模化公司招聘的人有什么建议？早期，很难强调人才密度的重要性。就像在招聘速度和招聘质量之间总存在权衡一样。你应该

对于那些早期员工来说，总是要重视质量。例如，你需要耐心，你需要确保人们非常优秀。当你扩大组织规模时，你显然不想降低这些标准，但人们需要更多地关注数据，了解哪些人的特征实际上能够推动他们关心的结果。感觉很多问题发生的地方是当这种情况滑坡时，当它有点像

这种基于氛围的评估规模不大，每个招聘经理都以碎片化的方式进行。很难在整个公司强制执行这些标准。因此，非常有条理地了解你的招聘目标是什么？你所知道的人的哪些特征实际上能够实现你关心的业务成果？以及你如何衡量这些事情非常重要。

我发现几乎每家伟大的公司要么招聘得好，就像你说的那样，要么解雇得好，这有点像你的第二阶段。但我认为他们通常会做得很好，早期会做好其中一件事。出于某种原因，大多数人似乎早期都没有做好这两件事。我不知道为什么。我认为这几乎是一种创始人的偏见之类的东西。然后我觉得随着时间的推移，希望他们都能做到。谷歌就是一个很好的例子，

一个总是招聘得好但解雇不好的组织。他们花了很长时间才清理掉这些人。多年，实际上是多年。有趣。另一方面，Facebook 因其早期人才库较为多样而闻名，但他们非常擅长淘汰表现不佳的早期员工。所以我一直认为这两种公司之间存在有趣的二分法。当每家公司只有几十人或几百人时，这些都是山谷中的传闻。现在，很明显，他们在如何处理这两件事方面都非常专业化了。他们有他们的 UBI。是的，完全正确。是的。

所以我认为这很有趣。是的，我认为这就像因为我主要考虑的是工程招聘、市场营销招聘和投资者招聘。所有这些职业都有某种时间尺度的结果，而不是一个小时。对吧。所以我认为你总是在寻找这些长期结果工作的结果的替代指标。我认为有一个非常有趣的问题与评估和评估非常相关，例如，

好吧，我们将为这些角色中的每一个发现哪些替代指标？因为我认为这是招聘好，而不是解雇好的一个巨大的捷径。如果你可以进行推荐，如果你可以对工程师进行工作试用，你实际上在最初的五天、三十天内就能了解很多情况。

某些事情是否会成功。完全正确。而且，你知道，我认为我们总是，我总是寻找它的替代指标。是的。我认为市场中疯狂的一件事是，你进行工作试用的任何候选人可能都与旧金山许多其他顶级公司进行了工作试用。如果你没有任何关于这方面的数据，

对。显然，有一些有趣的数据，例如隐私和集中化问题，例如公司希望这成为他们的专有知识。但我认为市场将随着时间的推移而变得更加高效，甚至包括人们的推荐。对。例如，那些你没有雇用的人。理论上，对于顶级公司来说，了解不同市场中的其他公司不聘用特定候选人的原因是有益的，等等。你认为尝试某种类型的公司

例如，上一代人中世界各地雇佣的通用通用评估，例如，做错了什么。对吧。因为像，好吧，我们应该有一种某种共同的申请或共享评估的理论存在，但并没有大规模地发挥作用或发挥作用。我认为 LinkedIn 集中并汇总了申请流程的第一层。

例如，这个人做了什么，以及他们与谁有联系？历史上遇到的挑战是，促进交易的其余流程无法汇总和自动化。无法记录所有这些面试，也无法可扩展地对每个人进行面试。无法像，你知道，获取所有这些数据并对其进行适当分析，了解导致某人表现良好的因素是什么。所以我认为这就像

现在之所以能够实现，是因为大型语言模型 (LLM) 发展如此迅速。这说得通。我认为我的合作伙伴迈克的一个理论是关于大型语言模型能够询问人类以及该数据在许多不同领域的有用性的可扩展性。很高兴看到招聘方面的汇总数据。

所以我的联合创始人和我都是 Thiel 研究员。因此，我们非常热衷于如何应用一种视角来帮助识别下一批 Thiel 研究员。所以我经常想知道，想象一下，如果你可以将 Peter Thiel 作为启发式方法来采访世界上所有 18 岁的人，对吧？而且，也许他可以仔细地花时间来确定，你知道，谁实际上擅长什么工作。我认为我们很快就会进入这样的世界。看看这将如何影响劳动力市场、投资市场以及其他一切，将会很有趣。这真的很酷。感谢你这样做，Brendan。是的，太棒了。感谢你们的邀请。感谢你们的到来。在 Twitter 上关注我们 @NoPriorsPod。如果你想看到我们的脸，请订阅我们的 YouTube 频道。在 Apple Podcasts、Spotify 或你收听节目的任何地方关注该节目。这样你每周都会收到一集新节目。并在 no-priors.com 上注册电子邮件或查找每集的文字记录。

From Job Displacement to AI Trainers, Brendan Foody on Work in the AI Age 41:52 Share

No Priors: Artificial Intelligence | Technology | Startups

Deep Dive

Shownotes Transcript

From Job Displacement to AI Trainers, Brendan Foody on Work in the AI Age