全球化、互联网和人工智能在过去几十年里呈指数级地增加了法律工作量。因此,对法律工作的需求实际上是无限的,因为公司希望进行不同的交易、诉讼等等。所以需求无限,
这意味着供应非常有限。而供应约束带来的不幸的人力成本是工作时间过长,经常从事非常平凡、枯燥的任务。我们与我们聘用的律师、我们的客户交谈过。他们成为律师不是为了第五次起草同一份文件的第五稿,也不是为了提出同样的法律研究问题,对吧?他们成为律师是为了以创造性的方式运用法律,发表意见,塑造社会的结构。
感谢收听 A16Z AI 播客。如果您对应用人工智能感兴趣,特别是为专业和可能受监管的垂直市场构建产品,那么您应该从 A16Z 合伙人 Kimberly Tan 和 Harvey 产品主管 Atish Nayak 之间的这次讨论中获得很多启发。
如果您不熟悉 Harvey,它是一家快速发展的初创公司,目标是利用大型语言模型为法律行业提供服务。Atish 谈到了 Harvey 瞄准的各种法律工作领域,但更重要的是,他深入探讨了任何成功的垂直应用的关键方面,例如与客户密切合作、与他们现有的工具和工作流程集成以及内部拥有行业专业知识。更广泛地说,他还谈到了 Harvey 如何考虑扩展到其他知识工作领域以及其采用和创新当今最佳基础模型的战略。
这是一次精彩的讨论,您将在这些披露之后听到。提醒您,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对 A16Z 基金的任何投资者或潜在投资者。更多详情,请访问 a16z.com/disclosures。
我是 Matish。我负责领导 Harvey 的产品工作。我在 Harvey 工作了一年半,当时我们大约有 30 个人。从那时起,我们已经发展到 250 人,所以经历了这段增长过程,这真是非同寻常的旅程。总的来说,我的背景和大部分职业生涯实际上都在高增长的人工智能初创公司。在此之前,我在 Scale 工作了四年半,担任产品领导者。在此之前,我在 Shield AI 工作,这也是一家 a16z 的投资组合公司。我在 Harvey 工作了一年半了。
再次成为 Hypergrowth 中 Harvey 的一部分,这是一种荣幸,因为这是人类历史上一个关键时刻。我认为很多事情都会改变,我很高兴能够站在前沿。也许对于那些不熟悉或正在网上收听的观众来说,
Harvey 究竟是做什么的?因为我认为很多人知道 Harvey 的存在,但我们可能并不十分了解其产品是什么。所以 Harvey 是针对法律和专业服务的特定领域人工智能。我们的产品基本上可以帮助用户和律师自动化起草、综合、战略建议、备忘录等等。明白了。
在我们更深入地探讨应用人工智能实践之前,考虑到理论上可以为法律或专业服务做很多不同的工作流程,Harvey 是否有最常处理的具体用例?从广义上讲,法律工作可能有两种或三种类型。一种是交易工作,这主要是指并购、
风险投资、涉及巨额资金的大型交易。然后是诉讼,如果有人起诉某人,如果法院有案件,也通常涉及大量资金。然后可能第三种是真正专注于内部的,即企业法律顾问和企业内部团队。这三个是较大的类别。我们以各种方式为这些类别提供服务。因此,如果您考虑一下
在并购中需要什么。你需要进行尽职调查。你需要了解所有的责任,你需要了解财务状况,你需要了解目标公司和收购公司的陷阱在哪里。因此,每次尽职调查都可以分解成
你知道,几乎 10 到 12 个不同的工作流程。我们在这些工作流程中以不同的方式提供帮助,诉讼也是如此。所以这是高层次的,并且真正专注于旅程中的不同步骤。- 长期以来,在硅谷圈子里,人们认为向律师事务所或专业服务机构销售产品并不是最有效益的领域,因为他们不是以快速采用技术而闻名的。许多人认为计费模式与提高效率或使用技术并不一致。
我很想知道,Harvey 在这方面看到了什么?我认为有两件事。一个是市场,另一个是 Harvey 特别做了什么。我认为对于任何初创公司来说,市场时机都非常重要。如果你总体来看,2022 年 11 月 ChatGPT 推出时,这确实为许多人释放了生成式 AI 的力量。因此,律师、内部法律顾问、管理合伙人、首席信息官真正开始了解这项技术,并表示,
哇,这实际上可以改变很多事情。这并不是什么隐藏的事情。在 Chachapiti AI 之前,它可能只是你不知道如何应用的隐藏事物。但因为它把它交到了人们手中,所以关于法律实践将会改变的消息不胫而走。所以消息不胫而走。每个人都知道它会发生。因为每个人都知道会发生,所以很多企业都说,嘿,律师事务所,
我的律师事务所 X,我们使用 AI。我已经看到了 AI 的作用。你们也应该使用 AI 来提高效率,做更多工作等等。律师事务所开始感受到客户的压力。然后,律师事务所市场和整个法律市场竞争非常激烈。在任何地区,都有四五家主要参与者在互相争夺。所以……
对于律师事务所来说,表明自己是创新的非常重要,因为他们会获得更多客户,而且效率更高。因此,由于这种竞争动态,现在每个人都希望采用技术。我认为这是市场时机和 Harvey 所处位置的完美风暴。因此,市场存在这些宏观变动和压力。然后我认为 Harvey 早期,而且我们现在仍然做得很好,那就是真正地将法律专业知识
融入所有不同的职能中。这意味着,早期,我们实际上有律师在销售产品。所以律师担任客户主管,首席执行官是律师。我们的法律研究主管实际上也是一名律师,我稍后会详细介绍。但是,是的,我们有律师在销售产品。因此,他们会去律师事务所,说他们的语言,说他们的行话,非常有同理心。他们实际上来自我们服务的许多客户。所以他们确切地知道事情是如何运作的。
这确实使我们能够获得分销,并真正启动 GTM。然后在产品和人工智能方面,我们还在产品和人工智能团队中嵌入了律师。我们有一个法律研究部门,与产品经理和人工智能工程师紧密合作。他们真正做的是……
将法律流程基本转换为算法。我们有一个代理或复合人工智能系统,其功能与律师事务所的功能基本相同。因此,在律师事务所中,如果合伙人获得交易或诉讼,他们会将其分解成多个不同的部分,也许交给初级合伙人,初级合伙人进一步分解,交给律师,然后传递下去。然后
然后,因为律师事务所是相当等级森严的组织,律师们做这项工作,然后他们向上级提交审批和检查,最终合伙人向客户交付最终产品。与我们的工程师合作的律师实际上只是基本复制了不同类型任务的相同模型,并
转换并逐字逐句地列出不同的流程,以便人工智能引擎将其转换为模型系统。您是否认为这些不同的代理工作流程会取代以前人们所做的任何劳动?或者您是否更倾向于经典的代理模型,即劳动力替代与副驾驶模型?这是一个很好的问题。我认为这有点片面。我认为整个法律领域……
非常复杂,而且变得越来越复杂,说实话,也很难驾驭。全球化、互联网和人工智能在过去几十年里呈指数级地增加了法律工作量。因此,对法律工作的需求实际上是无限的,因为公司希望进行不同的交易、诉讼等等。所以需求无限。这意味着供应非常有限。
而供应约束带来的不幸的人力成本是工作时间过长,经常从事非常平凡、枯燥的任务。我们与我们聘用的律师、我们的客户交谈过。他们成为律师不是为了第五次起草同一份文件的第五稿,也不是为了提出同样的法律研究问题,对吧?他们成为律师是为了以创造性的方式运用法律,发表意见,塑造社会的结构。
所以我们经常从客户那里听到,比如 Harvey 让他们节省了 30%、40% 的时间,因为它确实帮助他们自动化了那些平凡的例行工作。实际上,前几天,我们的一个客户说 Harvey 让他们能够按时回家与家人团聚,因为它能够加快很多事情。所以需求无限,
供应非常有限,这是一个人工智能可以提供帮助的好地方。你能详细谈谈吗?这种互动模式实际上会是什么样的?我认为这是一个关于生成式人工智能的一般性问题。人机交互的成分是什么?有多少是完全自动化的?我认为现实情况是
假设您正在起草 S4 或 S1。S1 是您上市的时候。您不会将其一次性输入到最大的推理模型中,然后说,嘿,给我写一个 S1,然后就完成了,对吧?因为所有银行家都是安全的。是的,所有银行家都是安全的。O1 不会一次性完成您的 S1。起草 S1 或进行并购的过程实际上是与双方、律师事务所、客户以及任何其他相关方进行互动的。
因此,我们认为这些代理必须与人类良好地协作才能完成工作,因为人类可能有一些他们没有告诉代理的特定意图,或者他们可能有一些代理实际上没有的数据。
因此,我们考虑以一种很好的 AI 原生 UX 方式构建这些代理,以便他们能够实际与不同的组织协作以完成工作,并说,嘿,你知道,我写了这个草稿。我在正确的轨道上吗?给我更多信息,因为我不知道该如何处理这里的决定。所以,是的。
我认为我们将开始看到更多主动的代理,它们会真正地 ping 每个公司中的不同人员,并有效地协作以完成某项工作。也许回到我刚才问的问题,即市场如何改变世界以及 ChachiBT 如何成为企业意识到消息不胫而走的那一刻。这是否改变了……
法律或律师事务所对收费的看法等等?因为长期以来,人们对法律的看法之一是,由于计费模式,从利润的角度来看,你花费多少时间实际上并不重要,即使人们可能只想回家陪孩子。我认为这可以追溯到市场动态,即需求无限。你只需要提高效率才能满足所有这些需求。我们开始……
采用基于种子模型的模式。我们基本上按每个种子的价格收费。这并不是因为我们不相信基于结果的定价或为工作付费是未来。这仅仅是因为
我们希望使其对企业买家来说易于理解。我认为有一种 VC 的说法,基于结果的定价是未来,或者正在发生。我认为它会发生。但我认为人们必须理解的是,企业并不真正知道如何考虑购买基于结果的工作,特别是对于像 AI 这样实验性的产品。所以我认为这会随着时间的推移而发生。我还知道一件事,关于
首次将 AI 部署到企业中,对于其中一些客户来说,人们可能不知道如何使用它。这是一种全新的 UX 体验。人们往往不知道如何提示代理。你们是如何考虑需要做哪些事情才能让企业真正从 AI 产品中获得价值的?因此,我们的利用率从去年早期的 40%
增长到现在的 70%。指标是什么?基本上是按月计算的活跃用户数与座位数的比率。好的。是的,我认为这种增长很大程度上是由于不同职能部门的良好老式纪律推动的。所以也许从 GTM 销售团队开始,正如我提到的,我们在销售团队中嵌入了律师。他们确实,因为他们来自这个领域,因为他们来自我们许多客户原型,他们非常重视……
一种非常具体的入职培训计划和用例构建,你知道,他们说的是行话,他们确切地说的是如何完成某个用例。因此,这使得它对我们的用户来说更容易接受。这是销售和 GTM 方面的一个方面。在客户成功方面,我们确实尝试在内部将许多部署游戏化。因此,我们的客户成功团队经常进行大型发布或用例竞赛,律师事务所喜欢在领英上发布信息。所以如果……
我们说,嘿,这个人是最好的 AI 提示工程师等等。他们喜欢在领英上谈论这件事,并创造了一种良好的对话氛围。
竞争心态。是的。然后另一个问题是,当你们扩展到其他行业时,你们现在已经成立了两年左右了,你们实际上想扩展到法律领域之外。所以我首先想了解一下这样做的理由,而不是可能更深入地研究法律,然后我想了解你们的 product set 以及针对新垂直领域的市场营销策略是否适用。好问题。我认为,首先,我们有很多法律客户,但我们不想躺在功劳簿上自满。我们实际上有一个文化原则,那就是说,工作没有完成。
这是在引用科比的名言。我不知道你是否知道。所以……我不知道,但现在我知道了。我们永远不想自满。所以我们的很多努力仍然集中在法律方面。但我认为总体而言……
如果你看看交易,如果你看看诉讼,如果你看看律师和整个法律工作,通常会涉及很多不仅仅是法律的职业。例如,在交易中,如果您正在进行并购,就会涉及税务人员、财务人员、人力资源人员来合并这两个团队。因此,总的来说,我认为只说律师可以使用 Harvey 并利用它进行交易是不公平的。所以……
我们考虑的方式是,当我们进行这些基于大型项目的工作流程时,利用它来扩展到,嘿,也许税务专业人员需要知道与法律人员相同的事情,可能只需要增加一些内容。因此,我们真正利用律师和他们从事的工作项目来自然地扩展到这些垂直领域。
有几种方法可以做到这一点。我的意思是,通常我们采取非常以客户为中心的方法。因此,我们的许多企业客户实际上已经将他们的合规和人力资源团队放在 Harvey 上,因为如果您正在审查雇佣合同,那么人力资源团队显然会非常参与。所以这是一个途径,
在企业内部有机地扩展,然后以客户为中心,并与领先的公司合作。因此,我们与普华永道合作,构建了基本的定制税务和财务尽职调查系统,因为普华永道
尤其是在国际上,他们是税法的专家,他们是财务尽职调查的专家。他们确实帮助我们学习了很多关于这些领域的知识,并将我们推向这个方向。所以我们一直在为这种扩张播下种子。在接下来的两三年里,我们将自然地扩展到这些领域。当你说定制模型或这些领域的定制工作流程时,你的意思是……
定制是指普华永道特有的,因此你们实际上并不想将其引入可能类似的客户,特别是对于税务工作,你们知道世界各地的税务律师
会问很多关于某些税法的问题,以及如何将其应用于他们的客户。因此,很多这些知识实际上都在普华永道。英国法律或英国税法的世界领先税务专家实际上都在普华永道。因此,当我们说我们正在在那里构建定制系统时,我们实际上正在使用他们整理的大量数据,以及使用
来自他们专家的评估来改进该系统。因此,我们构建了各种微调模型,即包含这些数据和来自这些客户的评估的 RAG 系统。
我认为普华永道在这方面是独一无二的,但随着时间的推移,我们也可能会开始与其他专业服务提供商合作。所以我想再谈谈产品构建以及你们如何看待评估、如何选择模型提供商等等。但关于这一点,最后一点是,你谈到了普华永道是如何成为一个伟大的合作伙伴,帮助设计你们以前没有的一些更定制的项目。
我想象这首先需要很大的信任,因为他们正在向你们提供非常敏感的数据,然后还有一些我认为任何为企业或任何企业买家构建产品的人都会遇到的很多开放性问题,例如我的数据实际上是如何被使用的?它是否会被反馈给模型?它会传递给我的竞争对手吗?等等?所以我很想知道你们是如何考虑这些问题的。我认为这是企业软件中一个未充分讨论的话题,不仅仅是人工智能。
企业准备工作远远超出了 SOC 2。它是……
我认为这是一种你必须从一开始就与你的产品和工程团队建立的文化。因此,从一开始我们就做的一些例子是,我们首先与最难缠的客户合作。他们在世界各地从事极其敏感的工作。对于他们来说,信任一家相对较小的初创公司来做这件事是一件大事。因此,我们从一开始就实施的一些事情是,我认为首先,一项严格的禁止培训发送数据的政策。
默认情况下,我们所有的文件,所有内容都不允许 Harvey,当然不允许它甚至训练这些数据,但是
Harvey 的人员甚至无法查看这些数据。我们称之为“眼睛离开”,但 Harvey 的任何人都无法访问我们的大部分客户数据,因为这是一组非常敏感的数据。这其中的另一部分是我们有一个非常严格的外部供应商列表。例如,我们只允许使用 Azure 部署的模型来改进我们的系统和增强我们的产品。这是因为,同样,Azure 在企业中享有很高的信任度,就像所有
我们所有的客户,他们都在大型 Azure 部署中。所以他们非常信任 Azure。但这同时也意味着,如果出现新的模型,谷歌、Anthropic 或 Twitter 上出现的新奇工具,我们不能立即使用它。我们必须对此非常严格。我认为,同样,这可以追溯到产品工程文化。我们真的必须确保工程师明白,你实际上不能只是使用
使用产品或部署它。我们对此非常严格。我认为最后一点是,我们非常早地聘请了一个安全团队。我认为我们的安全主管是前 15 名员工之一。他确实帮助我们制定了一个非常强大的安全计划。当他站在首席信息官或……
高管面前时,他们知道我们是合法的,他们知道我们听起来不像一家初创公司。所以我认为这些混合因素对于获得这种信任至关重要。你们构建应用人工智能产品的理念是什么?一方面,你可以拥有客户,这很好。另一方面,每天都会有新的有趣的东西出现在 Twitter 上。现在基本上每个月都会出现新的模型。我想象这将是一个非常艰难的基础,难以在其之上构建一致的产品。
是的,所以我认为有几种方法。还有一个问题,我们经常会问,你们有多关注律师现有的工作流程和现有领域,这就像一个全新的 AI 原生 UX?我认为需要强调的一点是,律师没有 IDE。律师没有像 VS code 或光标之类的工具。他们使用最多的两种工具是 Word 和电子邮件,或者说是 Outlook。并且
我们正在与电子邮件和 Word 集成。但最终,我们并没有真正选择在现有工具或现有软件之上构建,因为实际上根本没有这样的工具。因此,我们确实选择了 AI 原生 UX。是的。这是什么意思?什么是 AI 原生 UX?最终,主要原则之一是,我们希望 Harvey 感觉像一位同事,而不仅仅是 AI 或软件。我们希望它感觉像一个人。并且
如果您与律师事务所或企业的某个人一起工作,如果您给他们工作,您可以与他们进行基本对话并反复进行。所以假设我走到某个人面前说,嘿,你能帮我起草这份一对一披露吗?如果他们是你的好同事,他们会问你,嘿,我需要更多信息。你能告诉我信息来源是什么吗?我应该以什么格式和语气为基础?或者我们甚至在做什么交易?然后他们可能会写一个草稿,然后说,嘿,你能检查一下我的工作吗?我在正确的轨道上吗?
我认为这正是我们希望 Harvey 感觉像的样子,你正在来回进行,并且正在得到指导以完成这项工作。它仍然是聊天机器人 UI 吗?或者人们实际使用的是什么 UI?它有点像带有动态 UI 组件的聊天 UI。我
我认为我们真正想要考虑的另一个原则是,有一个叫做宜家效应的原则,这基本上是指,如果人们帮助构建某物,他们会对它负有更多的责任。宜家确实利用了这一点,对吧?他们确实……他们确实让构建他们的家具的过程变得非常愉快和有趣,并且在手册等方面投入了很多。人们……宜家有狂热的追随者,因为人们自己组装它。也许现在他们没有那么多了,但是……他们以前有。他们以前有,是的。所以对我来说,这可以追溯到……
你不能用 O1 一次性完成 S1。实际的法律工作需要来回很多次。这很复杂。你需要人类、独特的数据集,如果我们只是说,
嘿,你知道,起草这个披露时间表,Harvey 做到了,没有人会相信它,因为他们不知道实际创建它需要什么。因此,我们希望将这些提示烘焙进去,我们称之为“肩部轻拍”,以便 Harvey 在实际产生结果之前要求反馈、要求数据、要求意图。你能谈谈
如果我是一个律师,那么在实践中会是什么样子?我知道很多人正在尝试弄清楚的一个 UX 实验是,当代理正在工作时,它会……告诉我它正在做什么。但也有一些停机时间发生在那里。律师会收到一个小通知吗?就像,哦,回来吧。我有一个问题。他们如何将其与他们的日常工作相结合,以便它不仅仅是坐在那里监控代理?我认为一件事
对于我们的用户群和我们的产品来说,有趣的一点是,我们对延迟并不那么敏感。我认为对于许多聊天产品或您的消费者 AI 产品来说,大多数人都期望立即得到答案。但由于 Harvey 产生的输出质量如此之好,如此人性化,
人们可以接受等待两分钟、三分钟、四分钟才能获得结果。正因为如此,我们能够在每一次传递中加入更多智能、更多模型调用、更多算法。所以……
人们可以等待,并且可以接受等待。我们开始添加基本上是异步代理的工作方式,它会在完成后通过电子邮件通知您或在完成后 ping 您。因此,这种延迟约束对我们来说并不是一个很大的约束,这让我们有很大的自由度来工作。只要代理基本上提供它正在做什么的透明度,并且它不仅仅是无休止的旋转,我认为这对我们的用户群来说是有效的。
你认为我们已经达到了知道什么是最好的 AI 原生 UI 或 UX 体验的程度了吗?如果答案是肯定的,我很想知道它是什么。如果答案是否定的,你认为仍在进行哪些实验?或者你认为人们还没有完全弄清楚哪些类型的工作流程?是的,简短的答案是否定的。聊天是 AI 的命令行。我认为当 MS-DOS 首次推出时,你只是在终端中输入内容来移动东西。这就是我们现在与 AI 的关系。我
实际上,我认为有希望在 2025 年看到更多关于 AI 原生 UX、动态 UX、与模型交互的方式的创新,而不仅仅是基于文本的。我认为首先,我认为人们必须意识到,大多数用户,当然包括我们的用户,都有非常不明确的查询或提示。人们对 AI 的舒适程度令人惊讶,他们只是假设任何事情。
AI 知道一切。我们收到很多支持工单,说,进入我的电子邮件并搜索这个东西,然后产生这个结果。或者你记得我上次谈到这个的时候吗?用它来想出答案。我认为这是一件教育性的事情,但我也认为 AI 必须再次与个人协作才能提取意图。
从个体出发,而不是仅仅依赖一次性提示来获得完全正确的答案。因此,我希望看到更多独特的来回互动和代理可以提供的指导,而不仅仅是基于文本的提示。我认为对于企业来说,你实际上更需要这种 AI 原生 UX,因为工作非常复杂和困难,而且
通常工作是由团队或个人完成的。因此,你需要一个更完善的自然 UX,我认为消费者不需要,因为用例多种多样,而且
因为有太多方法可以使用 AI。也许最好的 UI 是聊天,对吧?因为它非常开放,你可以只用一个开放式 UI 来捕捉整个市场,这正是我们现在看到的。所以我认为企业应该对 AI 原生 UX 进行更多实验,因为工作流程非常具体,因为工作非常困难。再说一次,绝非一次性完成。是的,很有道理。也许稍微换个话题。我很想知道……
在你们能谈论的范围内,你们是如何考虑底层基础设施的?你们主要使用一种模型吗?如果是这样,那是什么?你们是如何考虑在新的功能出现时更换模型的等等?正如我之前提到的,Harvey 包含
数百个不同的模型调用,基本上是一个代理或复合 AI 系统来产生输出。目前,我们主要使用 OpenAI 模型,无论是直接使用 OpenAI 还是通过 Azure 在生产环境中使用 OpenAI。这主要是因为,一方面,模型非常好。OpenAI 和 Azure 的基础设施都非常好且快速。还有安全性和客户信任。正如我之前提到的,人们真的非常希望确保 Azure 是默认的云。
是我们选择的默认云。这正是我们能够获得信任的方式。但总的来说,我们并没有真正与 OpenAI 绑定。我们已经与所有主要的实验室合作,基本上评估他们的产品,并就他们应该如何考虑法律推理和共享数据集、共享我们收集的见解提供指导。因此
我们当然愿意使用各种不同的模型。只是由于安全和基础设施的限制,我们还没有做到这一点。是的。对你们来说,更换模型有多容易?因为它们是非确定性的,你可以想象一些奇怪的事情发生。例如,如果你们更换了模型,你们是如何事后对其进行评估以确保体验仍然一致的?从 AI 基础设施的角度来看,我认为从早期开始,我们就真的
试图强调模块化,以便我们可以交换模型字符串和端点。更困难的事情实际上是评估,正如你提到的那样。每个模型都有不同的个性、特征和行为。也许用于微调的相同提示或数据对不同的模型不起作用。因此……
更换模型确实需要大量的评估,因为我们希望确保它不会降低质量。那么你们是否构建了内部评估基础设施来做到这一点?评估是我们关注的重点。你知道,我来自规模化公司,我知道人类专家数据对于构建 AI 系统极其重要。我认为有两种
我们考虑的评估方面。一个是基本上内部评估以改进我们的 AI 系统。然后是外部评估以传达价值。在内部方面,我们基本上拥有一批内部或我们签约的人类专家。例如,来自所有不同国家、所有不同执业领域的律师,能够进行各种绝对或相对评估。绝对评估就像,看看这段内容,然后
并根据这个标准或其他什么来对其进行排名。然后并排比较就像,好吧,看看算法的两个不同版本,然后并排对其进行排名。
我们在这方面投入了大量资金,并且随着我们的发展,我们已经将其扩展。在外部方面,困难在于许多法律工作实际上是在对客观事实应用主观意见。判断主观意见非常困难。当然没有客观真理。例如,
你是否以这种方式适用法律,或者你的解释比其他的更好或更糟?因此,总体而言,外部评估和沟通非常困难。然后通常外部的法律任务非常多。如果你看看现有的法律任务分类法,几乎有 10,000 个叶子节点。律师们实际上已经绘制出了这个图。所以我认为这里面临的挑战部分在于……
如何向客户传达 Harvey 很好或准确,或者不会出错等等?因此,我们花费了大量时间,我们在去年早些时候发布了这个名为 Big Law Bench 的基准测试,它基本上展示了律师每天都会做的代表实际计费工作的任务。这是同类基准测试中的第一个,例如,
到目前为止,所有公开的法律基准测试都是多项选择题。我希望法律是多项选择题,但法律不是多项选择题。它非常开放和混乱。因此,我们制作的基准测试实际上是在说,这是我们知道律师会做的实际工作。这就是 Harvey 的表现。我认为我们所做的另一件独特的事情是我们不一定会衡量准确性。我们正在衡量准确性
模型完成的工作百分比与 100% 的人工响应相比。你的意思是时间是指标?更像是总工作量。明白了。所以它可能让你完成了起草披露时间表的 85%、90%。也许人类只需要将其完成 10%。原因是因为……
如果你只是根据准确性来构建框架,没有人会想要一个 90% 准确的代理系统,对吧?这不是思考如何传达价值的正确框架,因为即使你得到了 90% 完成的产品,它仍然比从零开始更有帮助。是的。然后关于这个方面的最后一个问题,这是一个有点离题的问题,但当我谈到围绕更换模型的基础设施时,我一直在想,但是进行评估以确保,你知道,体验是一致的,并且产品不会下降。
你对新的 OpenAI 推理模型有什么看法?因为我想象法律实际上是比许多其他用例更依赖推理的用例之一。你是否发现这有很大的不同?这如何影响你们思考你们实际上想要使用的模型?我认为这对我们的产品和客户来说是一个巨大的突破。正如我之前提到的,一件好事是我们的客户……
延迟不是一个很大的限制。这些推理模型的一个缺点是它们需要时间来思考并展示它们的思维过程和思维链。因此,我们的客户已经习惯了这一点。因此,由于我们产品的设计方式,引入这些推理模型实际上非常自然。然后在 AI 方面,这些模型实际上非常擅长
长篇起草和长篇推理,例如,根据从各种不同事实中提取的信息起草整个驳回动议论点,这在这些推理模型之前是不可能的。——也许这有点过于深入细节了,但我试图考虑一些关于,就像你说的,基于席位的指标是一个非常清晰的指标,或者基于用量的指标也是一个非常清晰的指标。因此,对于支持票证来说,票证就是度量单位。
你们是如何定义这些评估集中完成的工作单元的?因为我想象人们很难做到这一点,因为这相对来说也是一个新事物,很难理解这到底意味着什么。
是的,总的来说这非常困难,并且根据任务的不同而差异很大。我认为有……根据任务的不同,也根据客户的不同,你为一个案例创建年表的方式可能与律师事务所大相径庭。所以我认为我们考虑过这个问题,让我们首先尝试标准化这些任务的名称和分类法,然后制定标准,例如,也许律师事务所 A 和律师事务所 B……
年表中的日期列在不同的地方,但它至少有日期。对。所以我认为我们实际上已经为我们评估的每种主要任务开发了一个完整的标准,这是独特的,该标准对于该任务是独特的。我们试图将其标准化,但差异很大。很有道理。
Harvey 是否构建了自己的基础模型?或者你们是否有任何计划?简短的答案是,我们没有构建自己的基础模型。相反,我们与 OpenAI 密切合作,进行微调、后训练、提示工程、RAG,以构建这些代理类型的复合 AI 系统。你们……
最终想要构建自己的基础模型吗?我只是好奇,无论答案是什么,你们做出是或否决定的理由是什么?简短的答案是否定的。我们不想构建自己的基础模型。我认为计算统计数据已经公布,但这极其昂贵。我们宁愿……你们筹集了大量资金。是的,他们确实筹集了大量资金。数十亿美元。
我们宁愿将其留给专家,并真正专注于交付我们自己的客户价值以及围绕它的产品。好的,所以你们不想构建自己的基础模型。那么,当你们考虑基础模型越来越好时,你们感到好奇,你知道,很多人说,AGI 几乎还有三到五年时间,或者其他什么。随着基础模型在推理能力方面越来越好,你们是否认为它们最终会成为竞争对手?现在有能力做更多特定领域的事情了。我们必须假设模型会越来越好。
那么这对我们意味着什么?我们必须积累不同类型的优势,而不仅仅是模型本身。因此,其中一些优势包括产品、数据、网络和品牌。所以有 UX 和企业平台。所以我认为大多数人再次低估了在企业中实际部署产品需要什么。我认为甚至
即使是 AGI 也可能会低估在银行进行安全检查需要什么。因此,我们再次构建了许多这些安全检查、权限、审计日志记录、使用情况仪表板以及真正需要的企业和管理员功能。像 SAP、ServiceNow、Workday 这样的公司已经在这个领域投入了数十年的时间。这就是为什么企业喜欢它们并享受它们的原因。所以我认为投资企业平台非常重要。
UX 也极其重要。正如我提到的,AI 将用于与整个组织协作的 UX 将不是基于聊天的产品。因此,我们需要真正创新 UX 以及如何进行特定于工作流程的 UX,以便你可以与 AI 协作。所以这是另一个。然后我认为数据集非常重要。所以 AGI 将不会拥有……
律师事务所某个内部服务器上的数据,对吧?这种情况会发生。许多律师事务所都有内部服务器。因此,真正使律师事务所与众不同的是他们实际拥有的许多历史交易、案例和数据。因此,我们开始让 Harvey 能够使用这些数据并根据这些数据定制输出和工作流程。所以
所以我认为总的来说,当你积累这些产品 UX 优势时……所有 AI 热潮,我们每周听到的关于 AI 的所有信息,这些信息实际上渗透到企业中的程度如何?你认为我们听到这些信息与这些信息实际部署之间存在怎样的延迟?是的,这是一个很好的问题。我认为
与硅谷获取信息的方式类似,你知道,现在通常通过 X,我们的许多律师事务所客户通过 LinkedIn 获取信息。因此,我了解我们角色的最佳方式实际上是查看我们许多角色的许多 LinkedIn 帖子,看看他们喜欢什么,看看他们在关注谁,因为这正是时代精神和对话发生的地方。我认为总的来说,也许像
去年这个时候,我们实际上会去拜访客户,他们从未听说过 ChatGPT。当然,AI,但从未听说过 ChatGPT。例如 2023 年底,2024 年初?不,2024 年初。是的,完全正确。他们从未听说过 ChatGPT,也从未使用过它。这对我来说是一个警钟,因为我来自规模化公司,长期以来我一直被 AI 包围着。我想,
好吧,这实际上并没有像我想象的那样普及。我认为快进到今天,大多数人都听说过 ChatGPT,但是,你知道,人们通常不使用它。我认为现在如果你问任何科技界人士,为什么你不使用 ChatGPT?你处于劣势。但是我们大多数律师事务所客户和那个世界的人通常不使用它,但他们至少听说过它。然后我认为对于企业来说,他们有,你知道,自从 ChatGPT 出现以来已经两年左右了,例如,
他们至少已经部署了一些内部聊天机器人,或者购买了 Copilot,并可能使用它来起草电子邮件或其他什么。但是
即使在领先的企业中,而不仅仅是律师事务所,我们也没有真正看到 AI 在 Harvey 试图推动的方式中特定于工作流程的采用。所以我认为,这回到了我的瓶颈问题,我认为我们还处于早期阶段。AGI 的兴起可能会发生,而 LinkedIn 上的律师事务所五年内都不会听到它。所以我认为……
这实际上对我们团队来说是一个很好的同理心测试,大多数人不知道这件事正在发生。因此,更多应用 AI 初创公司真正进入这些所谓的隐藏市场是另一个原因,因为它确实是完全开放的。那么我想我的下一个问题,你可能已经回答了,是
他们是否考虑过他们的商业模式或人员配置模式需要如何适应 AI 的影响?也许答案是,不,因为在 LinkedIn 上,你没有看到人们谈论即将到来的 AGI。但至少在硅谷,当涉及到专业服务或基于计费的模式时,人们会经常谈论这个问题。是的,我认为这种心态……
实际上每三到六个月就会改变一次。这可能是信息的前沿或滞后时间。但就像六个月前,律师事务所的客户基本上会说,不要在我的项目中使用 AI,因为 X、Y 和 Z,信任问题、风险问题。但在去年年底,他们现在只是说,你必须在我们的项目中使用 AI,因为它会更高效。所以我认为这正在不断发展,这种理解也在不断发展。我认为有……
我们合作的更多前沿公司和客户已经真正深入研究,嘿,我们认为 AI 将彻底改变我们的实践方式。我们应该开始并尝试推动和控制它。所以我认为有一些更有远见的公司正在考虑这个问题。
但总的来说,人们知道会发生一些事情,但他们不知道是什么,也不知道它将如何改变。我们也不知道。是的,我们也不知道。AI 似乎每天都在变得更好。而且,你知道,有新的功能。现在总是有新的公司不断涌现。你们是如何考虑这个问题的,或者你们是如何考虑,你知道,未来几年的情况的?例如,如果你对……有任何预测
你认为大多数人在企业中,尤其是在 AI 中,实际上会在哪里找到价值?你认为还需要哪些突破才能让更多地方看到投资回报率等等?——我认为在硅谷,我们经常谈论 AI 的兴起或 AGI 的兴起。
模型会变得如此出色,它会迅速发展,然后每个人都会幸福地生活,再也不用工作了。是的,两年后就退休。然后再次退休。我只是认为智能不是你唯一需要的东西。在部署这些东西时,你会遇到人为瓶颈。你会遇到所谓的软件瓶颈,例如信任,例如与模型良好协作的能力。所以我认为我会鼓励,并希望我们在 2025 年看到更多这样的技术,
鼓励更多企业 AI 公司与他们的客户进行非常深入的合作,并深入了解他们的工作流程,以便他们能够以非常具体的方式向他们提供 AI,并围绕它构建产品和 UX,并建立企业信任。所以我认为至少在未来两三年内,我们不会达到 AGI 天堂。它将继续成为真正以客户为中心的建设者,以独特的方式将 AI 应用于企业工作流程。
就是这样。又一集结束了。感谢收听。我们希望你至少学到了一些东西。特别是随着 LLM 及其周围的生态系统不断成熟,构建可用于生产的企业级产品的复杂性将变得越来越重要。这是我们将继续关注的事情。提醒一下,如果你喜欢这一集,或者如果你喜欢这个播客,请对它进行评分、评论,并将其分享给你的网络。