在本期《法律科技初创企业焦点》播客中,我邀请到了vLex的解决方案冠军副总裁Damien Riehl,他也是SALI(法律行业标准进步组织)的领导者。Damien对vLex进行了深入的概述,vLex是一家法律数据/法律数据科学公司,拥有令人印象深刻的数据库,其中包含来自美国和世界各地的超过10亿份法律文件。他解释了vLex如何利用数据科学对海量信息进行标记和结构化,使用户能够在数据中运行大型语言模型(LLM)来回答复杂的法律问题。我们还探讨了拥有结构良好的数据的重要性,以及SALI如何通过提供全面的法律概念分类法来实现这一点,从而极大地提高了法律数据的可用性。随着我们深入探讨,我们讨论了检索增强生成(RAG)的概念,以及vLex如何采用五阶段流程来提高vLex的LLM提供的法律答案以可靠数据为基础的可能性。Damien详细阐述了此流程不仅检索相关案例,还分析其有效性和相关性,为用户提供强大的法律分析,而律师通常需要花费数小时才能完成这项工作。我们还谈到了生成式AI对法律职业的影响,特别是它如何扰乱传统的计费模式。Damien强调了原告方律师利用VLex技术节省时间并提高盈利能力的优势,同时也指出了依赖计时计费的被告方律师可能面临的挑战。随后,谈话转向了法律科技的竞争格局,我们讨论了大型科技公司可能吸收法律科技创新所带来的风险。Damien强调拥有独特的数据集和价值主张在拥挤的市场中脱颖而出的重要性,并警告说,仅仅充当现有LLM包装器的公司,而没有提供额外价值的公司,可能难以生存。在讨论结束时,我们探讨了AI在法律科技中的未来,特别是符号推理与神经网络的集成。Damien分享了他对如何结合这两种方法来增强AI推理能力的见解,使其在法律领域更有效。最后,我们讨论了免费获取法律数据的重要性,以及它如何促进法律科技领域的创新和竞争。本期节目充满了宝贵的见解,适合任何对法律与技术交叉领域感兴趣的人,特别是那些希望了解数据科学和AI如何改变法律格局的人。</context> <raw_text>0 您好,欢迎收听《法律科技初创企业焦点》播客。我是您的播客主持人Charlie Uniman。在这个播客中,我将采访那些创建、投资、评论和使用法律科技初创企业开发的应用程序的人们。
我和我的嘉宾将讨论许多不同的与初创企业相关的主题,其中包括初创企业的管理和生活、初创企业的投资、定价和收入模式,以及影响用户决定购买法律科技的因素。我们不会专注于法律科技本身。相反,我们将关注开发、营销和销售该技术的初创企业。因此,无论您是初创企业创始人还是投资者,
律师或其他法律专业人士,还是法律教授、法律系学生或评论员,如果您思考法律科技初创企业,请坐下来,聆听并从我的嘉宾那里了解法律科技初创企业成功的秘诀。如果您对法律科技初创企业感兴趣并喜欢这个播客,请通过访问www.legaltechstartupfocus.com注册成为免费法律科技初创企业焦点社区的成员。
大家好,《法律科技初创企业焦点》播客的听众们。我很高兴今天邀请到我们的嘉宾Damian Reel,他是VLEX的解决方案冠军副总裁,我们将讨论一家法律科技公司。
他也是SALI的领导者,我以为我已经记住了SALI代表什么,但我让Damian告诉我们。他是对一个组织最重要的贡献者,该组织致力于使法律运作得更好,尤其是一些法律科技运作得更好。所以,欢迎您,Damian。
非常感谢您邀请我,Charlie。我很高兴来到这里。我很高兴邀请您。一点,嗯,如果您不介意的话,请告诉我们SALI代表什么。当然。它是法律行业标准进步组织(Standards Advancement for the Legal Industry),SALI,也称为SALI。
而且,你知道,SALI,我认为他们选择了这个缩写。在我来之前他们肯定就选好了。SALI自2017年以来就存在了。他们可能在实际选择SALI代表什么之前就选择了SALI这个名字。所以大多数人都将其称为SALI,而不是法律行业标准进步组织。是的,我喜欢这个缩写。Damian,对不起,我喉咙有点痒。你受过律师的训练。
现在你在VLEX从事法律科技工作。正如我提到的,你是解决方案冠军。请告诉我们VLEX大致上是做什么的。我们将进一步讨论VLEX的独门秘籍以及更多内容。如果您愿意的话,请给我们介绍一下VLEX。
当然。VLEX是一家法律数据公司。所以我们是法律解决方案,不仅仅是法律数据,我们拥有美国的所有案例、所有法规、所有规章、司法意见、简报、诉状、动议。因此,我们拥有超过10亿份法律文件,不仅在美国,而且在世界各地。因此,我们拥有美国的案例、法规、规章、简报、诉状、动议。我们也拥有英国的,
也就是伦敦的。我们也拥有欧洲大陆的,例如西班牙、欧盟等等。我们还有拉丁美洲。我们还有澳大利亚、新西兰等英联邦国家。因此,我们在100多个国家拥有超过10亿份文件。
我的工作是帮助VLEX团队对这10亿份法律文件进行数据科学分析。因此,您可以想象能够标记所有重要的事情,例如违反合同、驳回动议(无论您身处哪个司法管辖区),或者合并协议、不可抗力条款。我刚才提到的每一件事都是SALI标签。您可以想象使用这些SALI标签以及大约18,000个这样的SALI标签
来标记100多个国家/地区超过10亿份文件的每一份法律文件。然后,一旦您拥有这些结构良好、标记良好的数据,就可以在其上运行大型语言模型,从而能够回答法律问题,不仅在美国,不仅是50个州的调查,而且最终是50个国家的调查。
能够提出法律问题,然后能够根据基本事实获得法律答案。那就是基本事实案例、基本事实法规、基本事实规章。
实际上,我想说的是VLEX数据集,如果您了解Fastcase,Fastcase在2023年,也就是大约一年前与VLEX合并了。因此,实际上,我想说的是,我们可能拥有世界上最丰富、最广泛、最深入的案例、法规、规章、动议、简报、诉状数据集。因此,这确实是一个非常棒的游乐场,能够成为其中的一员。
确实,这是一个相当庞大的数据存储库。我们将触及数据科学领域中现在已经过时的说法,即数据是新的石油,以及这真正意味着什么。然后,正如你刚才所说,Damian,拥有数据是一回事。拥有可用数据……
是另一回事。可用性的一方面是稍微对其进行结构化,我认为SALI可以为VLex和其他公司做的事情是帮助为数据提供一些结构,主要是我理解的SALI提供的标记。SALI是什么?非营利组织,我理解正确吗?
没错。SALI是一个非营利组织。我是该非营利组织的志愿者。我们所做的一切都是免费和开源的。它是免费的,就像言论一样,您可以扩展它,随意使用它。也是免费的,就像啤酒一样,您无需支付任何费用。您只需访问GitHub,下载所有内容即可。因此,我们有18,000个标签。这是一种非常结构化的法律世界运作方式。
因此,我们确实创建了一个分类法,一个不仅包含每个法律概念,还包含每个业务概念的本体论。因此,固定费用是SALI中的内容。按小时收费也是SALI中的内容。固定费率、封顶费率。当然。因此,所有这些东西,所有对第一,实体法,或第二,法律业务至关重要的事情。我们都在计算这些东西。我们正在接受汤姆·路透社的捐赠。
来自LexisNexis、iManage、NetDocuments以及世界上所有最大的律师事务所。我刚刚收到了来自梅耶·布朗的1500多笔捐款。他们正在分类学上计算的所有内容,我现在都将其整合到SALI中,对K&L Gates也这样做,对Allen & Overy也这样做,以及许多其他公司。因此,我们只是接受所有人的捐款并对其进行标准化。因此,TR、NetDocuments和NetDocuments
Kira Zuva,也就是Noah Weisberg,捐赠了他的数据集。我们现在已经收到了数百份来自所有最大……
和最聪明的人的数据集。SALI是一个分类法,它正在标准化所有这些数据点。你知道,你的目标决定你的高度,但我想说的是,你的分类法决定你的水平。因此,至少就自动化而言,如果你没有将分类法和本体论理顺,你就会步履蹒跚。嗯哼。
你知道,我想到了一件事,我认为我在我们按下录音按钮之前的一些电子邮件通信中与你分享过。当你谈到大型语言模型时,有一个相邻的概念,即检索增强生成。
简单地说,就是进一步提示LLM,不仅使用你可能插入的典型的问答提示,而且还使用某种经过验证的文档来引导LLM朝着基本事实的方向发展,并将其从幻觉中推开一些,而不是完全推开。我对VLEX的理解是否正确,
你提供的所有文档,它都作为RAG(检索增强生成)的一种检查,对LLM能做什么进行检查。是不是这样?
完全正确。是的,我们有一个五阶段流程来完成我们的工作。第一阶段是我们在用户查询(即用户的问题)和源文本(即案例文本、法规文本或规章文本)之间进行向量嵌入匹配。
因此,我们将该文本放入向量嵌入模型中。然后,我们使用源文本作为RAG,并在案例文本或法规或规章文本与问题文本之间进行向量嵌入搜索和向量嵌入匹配。如果匹配,则完成第一阶段。然后第二阶段是,我们说,好的,大型语言模型,请告诉我这个案例文本回答用户问题的程度如何。
然后,在它给出大约一段关于该案例回答问题好坏程度的分析之后,第三阶段是能够说,请给我一个0%到100%的置信度分数,以表明该案例回答问题的程度如何。然后大型语言模型会给我一个置信度分数。
然后我们所做的是,我们将所有达到70%或更高的内容。也就是说,它以70%或更高的比例回答了问题。我们将此提供给用户。这就是第三阶段。
然后是第四阶段,我们所做的事情比检索增强生成做得更好。我们进入所有超过70%阈值的案例。然后我们说,如果回答问题的案例回答了我们的问题,那么该案例引用的案例也可能回答这个问题。因此,我们遍历所有超过70%阈值的案例引用的案例。如果它引用的任何案例都达到70%的阈值,那么我们将将其添加到列表中。
因此,我们称之为向下遍历树。然后我们也向上遍历树,因为许多案例都引用了原始案例。他们说这个案例已经有15年历史了。可能有100或200个案例引用了该案例。因此,我们遍历所有引用该原始案例的100或200个案例。如果这些引用该原始案例的100或200个案例中的任何一个都超过了70%的阈值,即70%的置信度分数,我们也将将其添加到列表中。
因此,这比仅仅进行向量嵌入搜索的检索增强生成要好,许多技术也这样做。我们也这样做。但是,我们还向下遍历该案例引用的所有案例,向上遍历引用该案例的所有案例。然后我们进行第五步,我认为我们现在正处于这个阶段,就是能够分析该案例已被识别的程度。
作为引证器进行审查。该案例是否已被推翻?或者该案例是否已被其他案例区分?因此,我们也将其作为分析的一部分。因此,如果罗诉韦德案出现在结果中,它将在用户界面中显示为已被推翻。我们可能会提到它,也就是说Vincent可能会在备忘录中提到它,但它会在这样的上下文中提到它,例如,超过30年来,罗诉韦德案一直是成文法,但已被多布斯案取代。
所以,所有这些都说明,这比你平均的RAG更好。这是向量嵌入加上向下遍历树和向上遍历树的所有符号式AI,以及所有的人工编辑来判断这个案例是好法还是坏法。我们将讨论一些符号与亚符号的问题。有时它被称为连接主义AI。
神经网络类型的推理,如果你想将它标记为推理的话。我想你可以。归纳推理与演绎推理相反,就像我喜欢说的那样。但是当……所以VLEX是……它的客户群是什么?正在寻找这种分析的律师事务所。而且……
而且我想,你知道,全国任何地方的任何规模的律师事务所。是的,没错。是的,我们在全国任何地方,任何规模的律师事务所。我们也在国际上。VLEX于1999年在巴塞罗那成立。所以它起源于西班牙,扩展到拉丁美洲,扩展到英国,当他们引入Fastcase时扩展到美国。所以我们在全球销售。我们不仅仅是美国。而且,请继续。
不,你说。是的。所以它不仅面向全球的律师事务所,我们还向他们的客户销售,也就是那些聘请这些律师事务所的财富20强公司。我们不仅回答我刚才描述的问题,而且如果您想上传一份申诉,我们将为您提供150到200页关于该申诉的良好法律分析。
能够说,这是对索赔的分析。这是根据该索赔可以提出的潜在法律抗辩的分析。以下是一些您可以向您的客户提出的问题,以帮助他们胜诉。我们提供了大约200页真正有用的信息,无需提示。您只需获得输出即可。因此,您可以想象,我刚才描述的内容通常需要一名助理花费80、90、100个小时才能给出这种输出。
因此,原告方律师非常喜欢这个。您可以想象,那些按风险收费的律师会说,哇,我花费的时间越少,赚的钱就越多。因此,原告方律师非常喜欢这个。按小时收费的被告方律师不太喜欢这个,因为他们会说,等等,如果这是100美元的应计小时费,接下来会发生什么?
但是,真正喜欢它的是客户。也就是我们服务的财富20强公司,内部法律部门。这些法律部门非常喜欢它,因为他们可以说,这太棒了。Vincent太棒了。我们将要做两件事。我们要做的第一件事是,我们将采用过去一年收到的申诉。
我们将通过Vincent运行其中一些申诉。获取200页的输出,然后将这200页与我们的律师所做和所说内容进行比较,我们的律师是否真的在这200页之上添加了任何内容?如果答案是否定的,他们没有,这将说明一些问题。然后他们会说,如果这200页包含我们希望我们的律师告诉我们的内容,但他们没有告诉我们,那又会怎样?
如果答案是很多,这也会说明一些问题。确实如此。这是回顾过去。然后展望未来,他们说我们将要做的是,我们将接收新的申诉。在我们向律师发送这些新的申诉之前,我们将通过Vincent运行它们。然后,我们将获取输出,即200页,并将它们发送给我们的律师。然后他们会说,你在这之上还能做什么?因为我们只为此付钱给你。我们不会付钱让你重新发明轮子。
因此,这极大地改变了原告方律师赚钱的能力,使内部法律顾问能够真正改变他们与外部法律顾问之间的动态,对于那些按小时计费的被告方律师来说,也许需要重新考虑他们工作的方式,因为这是一种方法,如果他们转向固定费用模式,他们实际上可以比按小时计费模式赚到更多钱,并且实际上以过去从未有过的方式满足他们的客户。
好吧,我们不会在本期播客中专门讨论生成式AI对业务模式的影响,以及律师事务所业务模式和整个私人执业领域的影响。但是,你知道,影响是巨大的。
令人震惊,其中之一是,如果你按小时计费,你会怎么做,我的想法很简单,那就是停止按小时计费,而是做更多工作,享受比按小时计费时更多的工作乐趣,好吧,这又是另一个话题的思考,但是的,影响是深远的
正如你开始阐述的那样,Damian。为了让我和我们的听众理解,VLEX在其Vincent工具中使用的LLM来源是什么?你知道,在少数几个首选的模型中,标准的基础模型,最初的OG基础模型,OpenAI、Gemini,
Meta,你从哪里获得你的LLM?-是的,我们使用的是LLM的集合,我们使用了您提到的所有这些模型以及其他一些模型,包括我们自己烘焙的一些模型。正如你所知,而且正如大多数可能收听这个播客的人所知,这是一个发展如此迅速的领域,我们认为将我们的马拴在任何一个模型上可能都是一个坏主意,因为它们总是并驾齐驱,并且不断地互相超越。
这是能力方面。然后还有成本方面,成本一直在下降。因此,实际上,过去使用Mixtral是很棒的,因为它既免费又开源。Llama也是免费和开源的。所以也许可以将其用于更便宜的事情。但是现在,新的OpenAI模型在API方面非常便宜,以至于你可能不必吝啬。
也许你实际上可以使用OpenAI模型,而无需选择一些开源模型。所以,所有这些都说明,在这个快速发展的领域,我们对基础模型是不可知的。我们正在为任务使用最佳模型,即在性能方面(即推理能力)和成本方面都是最佳的模型,以确保我们为客户提供合理的价值。是的,能够见证这种快速发展的演变
生成式AI,特别是只关注大型语言模型,变化和竞争,正如你所说,在各种性能指标上互相超越。我也敢说,我希望这是事实,即研究,我们将对此进行扩展,对大型语言模型工作方式的研究将扩展到包括其他推理方式,为了更好地表达,以便我们不会仅仅局限于它们执行的基于神经网络连接主义的归纳推理版本,但正如我们将要讨论的那样,这些模型是……
将改进其推理方式的研究,从更传统的演绎推理风格入手。为了进一步控制幻觉问题,为它们提供一些关于世界是什么样子以及法律世界是什么样子的世界模型,大型语言模型可以从中改进其性能。但我们稍后再讨论这个问题。
我写给Damian的一件事是我们可能会讨论的,你知道,在这个生成式AI、大型语言模型的使用领域,我们是否过度建设?
我想说的是,我这么说并不是为了奉承Velex,而是因为我真诚地相信这一点,Velex提供的独门秘籍是不仅结合了Vincent工具可以进行的分析,
而且还结合了Damian描述的庞大的数据库。但是,如果你没有这样的秘诀,你没有一个与众不同的特征,一个差异化因素,你认为我们会在法律科技领域面临市场崩溃吗?
更不用说在更广泛的LLM世界中,很快就会发生这种情况吗?在你看来,Damian,这是否是供应商应该记住的风险?我认为那些夸夸其谈的人和那些脚踏实地的人之间将会进行一次清算。
随着大型语言模型的性能越来越高,也就是说OpenAI、Gemini、Llama 3以及所有其他模型都越来越能展现推理能力。如果你仅仅是这些基础模型的包装器,而没有在其之上添加任何东西,那么我认为大众的智慧将惩罚你仅仅是一个包装器。
你真的必须提供比GPT-4更多的东西。否则,作为一个大型律师事务所,为什么我会选择:选项一,是聘用、购买你的产品并让你作为包装器;选项二是,我只需聘用一名提示工程师,因为该提示工程师能够像你一样熟练地进行提示工程。而聘用这个人将比每年支付你的产品费用便宜得多。
因此,如果你仅仅是基础模型的包装器,我认为市场上将会对这类产品进行清算。但我认为,那些将在市场上获胜的人将是那些能够充分证明他们正在提供产品价值的人。也就是说,他们提供的东西使购买
他们的产品比自己构建产品更好、更快、更强大。这始终是一个构建与购买的问题。你必须证明你的价值,以及为什么购买你的产品对他们来说是值得的。是使其更快吗?也许是。是提供你可以做的事情的集合,无需提示吗?也许是。
是拥有其他人没有的数据吗?可能是。我们稍后会讨论这个问题。但所有这些都是。你必须证明比仅仅是GPT-4的包装器更多的东西。我认为人们在今天,也就是2024年8月我们坐在这里的时候,正在弄清楚这一点,并且在市场上将越来越明显。
我认为你表达得很好。我听到人们试图为贬义词“包装器”进行辩护,说,好吧,有这些大型语言模型,但是如果我可以针对特定行业,法律科技就是一个例子,那么我就没问题。但我认为你是对的。你仅仅因为你围绕一些法律语言
熟悉性进行包装而没有问题。相反,你必须提供比仅仅是大型语言模型的前端更多的东西。一些真正的附加值,无论是通过数据,还是通过不同类型的推理,还是通过你提供的数据结构与数据量不同。如果你什么都做不到,我同意你的观点,Damian。带有W的包装器,而不仅仅是R,将会在市场废气中消失。我完全同意你的观点。
对此还有一点补充。有一些,你知道,我,我犹豫不决,我可能听到过和你听到的一样的人,但有些人说,好吧,是的,但是网站只是围绕SQL服务器的包装器。这在某种程度上是正确的,对吧?但是,那么,网站提供了什么,它是一个SaaS产品?它提供了什么,你知道,SQL服务器本身没有提供什么。然后我们回到基础,例如,Fastcase是否为你提供了25年的案例、法规和规章?
它们是否是美国和世界仅有的三个案例、法规和规章存储库之一?答案是肯定的。他们有8亿份卷宗和文件,你可以通过动议、简报、诉状,在所有联邦法院和38个州法院中进行。是的。因此,在大型语言模型出现之前,当我们只是一个SaaS网站产品时,我们是围绕SQL服务器的包装器,但我们也提供了这个惊人的数据集,它提供了更多内容。
那么,在我们的大型语言模型世界中,你除了SQL服务器、网站以及大型语言模型之外,还提供了什么?这是每个人都必须回答的问题。不,你是对的。在SaaS时代,甚至有人讨论SaaS作为一种商业模式是否……
在生成式AI面前注定要失败。在旧的SaaS时代,你拥有后端、前端以及两者之间的粘合剂。但现在你有了生成式AI提供的分析。你可以对数据做一些以前做不到的事情,仅仅让UI让你进入数据,以及某种神奇的粘合剂软件来提取数据。
现在你可以进行分析了。如果你的全部贡献只是两者之间的粘合剂,即LLM和用户界面,我同意。我认为你在如何赚钱方面存在问题。我与自己和其他人讨论过的一件事是,法律科技是否最终会遭受大型科技公司所遭受的
以及“七巨头”更广泛地对科技所做的事情,那就是这“七巨头”,你知道,苹果公司。
Meta、亚马逊、谷歌和其他公司正在某种程度上扼杀初创企业生态系统,要么进行收购,要么收购那些本来可能超越“七巨头”并进行创新的初创企业,要么进行收购,以避免来自反垄断监管机构的审查,或者进行收购,以避免一些反垄断审查,或者像我认为最新版本的这些收购被称为“黑客收购”。但是我们有TR,我们有LexisNexis。你认为“两巨头”会开始扼杀法律科技领域中更灵活但可能具有颠覆性的供应商的风险吗?
开始还是已经持续了40年?你可以随意选择。所以我想说的是,确实存在一种威胁,我不会说出特定公司的名字,但是如果法律科技领域存在双头垄断,你可以想象这种双头垄断会受到威胁。真正的问题是,
谁拥有这些数据?也就是说,有一段时间,法院会将其司法意见提供给特定的供应商,基本上是说,好吧,我们作为法院不想分发这些案例,所以我们将把它留给这些私人供应商来分发这些案例。这是在20世纪80年代和90年代,当时印刷非常昂贵。现在印刷并不昂贵。
那么,这种法律外包,也就是约束你我以及所有人的法律,既然每个人都需要接触法律,这种法律外包和私有化是我们想要继续的吗?
如果答案是否定的,我们不想继续下去,因为现在我们不需要印刷书籍并将其邮寄到世界各地。我们可以将其转换成比特,并像自由法律项目那样进行分发。那么,这将是一个截然不同的世界。实际上,如果你从这个角度来看,如果我们能够解放法律,那么寡头垄断还有什么护城河呢?
因为过去他们拥有案件、法规和规章的护城河。也许他们不再拥有这种护城河了。他们还拥有辅助材料的独立护城河,教授会收集所有案件、法规和规章,然后对这些材料进行分析。但事实证明,大型语言模型不仅可以进行一般意义上的检索和分析,还可以根据你的具体事实
并将你的具体事实应用于这些分析。与辅助材料相比,更新其材料以包含最新的案件、法规和规章可能需要六个月或一年的时间,如果法律像VLUX那样可用,我们可以每天更新。因此,我们可以提供昨天的案例,而论文却无法做到这一点。因此,辅助材料的护城河在我们大型语言模型的世界中消失了。
因此,如果你消除了案件、法规和规章的护城河,如果你消除了辅助材料的护城河,因为它们不再重要,那么长期以来依赖这些优势的寡头垄断的未来究竟是什么?
因此,我想说的是,更大的问题是你谈到的大型科技公司,比如谷歌、亚马逊、Facebook、Meta和微软等等。我认为他们更有可能直接吸收法律科技,不是因为他们以法律为目标,而是作为“路杀”。
他们正在吸收所有文字。事实证明,法律,我们所做的就是文字。我们律师,我们做的每一项工作,我们都吸收文字,分析文字,然后输出文字。事实证明,大型语言模型可以非常出色地完成这三件事。
因此,随着Facebook等公司吸收所有数据,随着谷歌等公司吸收所有数据,随着微软和OpenAI等公司吸收数据,他们都需要高质量的文本。事实证明,法律就是高质量的文本。它不仅是高质量的文本,而且大部分是人类创作的文本,这在今天已经变得稀缺了。法官每天都会输出大量高质量的人类文本,这将成为谷歌和Facebook的“猫薄荷”。
以及Meta、微软和OpenAI。因此,也许他们只是吸收了所有法律。那么,法律科技领域的寡头垄断还有什么护城河呢?因此,我认为,对大型科技公司的风险要大于对任何历史性寡头垄断的风险。不,你是对的。关于如果
大型公司只有合成数据可用于训练,因为所有的人工创建内容已被使用,或者持续提供的涓涓细流不足以满足这些大型语言模型的需求,有很多说法。但你说的对,法官是人,他们正在创造所有这些东西,而这正是每个大型语言模型都需要的那种原材料。
非常喜欢。你提出的观点很有趣。你可能已经为莉娜·卡恩或她在联邦贸易委员会的继任者制定了路线图,如果他们开始关注我们的法律科技“路杀”,他们将来可能会提起诉讼。直到最近,我还从未想过法律科技是一个足够大的市场,尽管
对于微软这样的一些大型参与者来说,规模绝对很大。但他们将开始关注,并且他们已经开始这么做了。关于你对文字的观点,你知道,生成式人工智能的革命是因为生成式人工智能是文字。是语言。这就是我们律师所做的。因此,如果你可以在我们律师面前放置一个界面,那就是基于语言的,这就是大型语言模型和其他界面提供的。
带有照片和视频的界面,但对于我们律师来说,语言,当然我们会像飞蛾扑火一样被它吸引,所有这些对生成式人工智能的兴趣。这是我们的核心内容。是语言。
同意。关于你对法官的观点,也许这将成为大型语言模型的养料,我认为法官迟迟不采用技术的说法,我认为这是极大的低估。他们是采用技术最慢的人之一,但这可能是一个特性,而不是一个缺陷,因为可能是最后一个堡垒,即非机器创建的文本,完全是人类创建的文本
可能就是那些人类法官,他们将能够持续不断地创作出人类书写的作品,这些作品将持续不断地为基础模型提供非合成数据,而是多年来的人工生成数据。
所以这是第一件事。第二件事,你谈到了莉娜·卡恩。而且,你知道,如果我们作为法律科技公司成为大型科技公司的“路杀”,避免这种情况的一种方法可能是联邦政府,她为之工作,也许他们可以使PACER免费。是的。而不是,你知道,PACER目前花费约20亿美元(十亿)来下载每一份文件。这是一个巨大的护城河。
对于VLACs已经花费了这20亿美元中的一部分。然后我们必须向客户收费以弥补我们已经产生的成本。但是,如果莉娜·卡恩的政府,也就是我们的联邦政府,如果他们将这笔费用降为零,而不是20亿美元呢?可能有上千家法律科技公司会涌现出来,并能够与寡头垄断竞争。而且
那么,我们在反竞争或更具竞争力的立场方面会处于什么位置呢?因此,我想说的是,使案件免费,使法规和规章免费且易于获取,这是避免未来出现任何寡头垄断的一步。是的,让千花齐放,我完全赞成。我们将转向一些更普遍的内容。
但我们会尽量让它对我们的听众感兴趣。我早些时候开始说,大型语言模型的当前版本,我说的是当前版本,它明天可能会改变,它通常来说是
它是增强版的自动完成。我这么说并非贬低它。训练它们完成它们所做的事情是一项相当大的成就。但是,我用引号括起来,“他们所做的”实际上只是预测生活。
在对大量昂贵的数据进行大量昂贵的训练后,下一个词是什么。或者更准确地说,他们会提出一个概率范围,说明在他们提供的输出中下一个词应该是什么。有时他们甚至会选择一个异常值,以便所谓的更具创造性。
但这是归纳推理。它是亚符号的。它没有接受过使用我们人类在使用语言时用来在世界上行进的概念的训练。相反,它所做的是,它看到了也许我们有限的人类无法提供的细微模式,但从这些模式中归纳地
在所有这些神经元中形成,这些神经元以各种不同的配置连接在一起,形成一组隐藏在这些权重和神经元中的规则,用于预测下一个或最可能的词。但是,还有另一种推理方法。另一种推理方法是,你知道……
所有的人都是凡人,苏格拉底是人,因此苏格拉底是凡人。这就是所谓的古老的演绎符号推理。曾经有一种人工智能,我这么说是一种方式,这在神经网络出现之前,基本上局限于这种演绎思维,也就是古老的人工智能。而今天的程序员,当他们以标准方式编程或使用概念时,
来组合逻辑以创建程序。一些批评者,最著名的是纽约大学名誉教授加里·马库斯说,大型语言模型的一个主要缺陷是,尽管它们确实完成了令人惊叹的事情,但它们无法
进行演绎推理。他们没有一套概念来描绘出一个世界,他们可以从中进行推理。他说,我多少同意,尽管我仍然对目前配置的LLM所能做的事情感到惊叹,他建议我们以某种方式将两者结合起来,称之为神经符号
称之为具有更类似于演绎逻辑的树的神经网络。你认为接下来会发生什么?特别是我们律师习惯于演绎推理,尽管我确实
记得作为一名法学院学生,你被教导要阅读大量案例并归纳地创建一个规则,但随后我们必须以演绎的方式应用该规则。你认为这两种人工智能推理模式之间会发生什么?
嗯,这可能是我在播客上被问到的最喜欢的提问了。我还想说,我从未参加过播客,人们会在那里抛出亚符号。因此,事实上,我不需要为这个播客降低我的语言水平,我实际上可以深入探讨你所要求我做的事情,这是一种巨大的快乐。所以,首先,感谢你带来的这份快乐。其次,Casetext的联合创始人Pablo Redondo。我们现在已经成为十年的朋友了。嗯,我们,嗯,在,嗯,
2022年7月在Iltacon,我们一起做了一个演讲,他真的在为神经网络敲桌子。请记住,这是2022年7月,就在ChatGPT出现几个月前。
所以他说,Damien,神经网络将接管世界。我说,不,不,不,不。符号人工智能才是关键。像SALI这样的知识图谱,SALI以符号方式表示世界。这才是真正重要的东西。所以我说,嘿,Pablo,让我们来一场名人死亡赛。
你代表神经网络一方,我代表符号人工智能一方。但在我们准备会议之后,我们实际上比我们不同意的地方更同意,这不仅仅是一方或另一方,而是这些东西的结合才是答案。原因是谷歌、Facebook、亚马逊以及其他所有大型科技公司都发现,知识图谱
才是关键。如果你想能够说你朋友的朋友可能也是我的朋友,或者喜欢这本书的人可能也喜欢那本书,知识图谱就可以做到这一点。这并非通过,我忘了你所说的归纳或演绎,而是通过基于规则的实际推理来做到这一点,能够说,如果这个人有共同的朋友,那么他们可能彼此之间有一些共同点。所以这是通过知识图谱完成的,并非巧合的是SALI也是一个知识图谱。
因此,我们,知识图谱是由一条边连接的两个节点。因此,律师起草驳回动议。律师是一个节点,驳回动议是一个节点,然后起草是这两个节点之间的边。因此,你可以将节点视为名词,而这些节点之间的边是动词。
因此,SALI有律师,SALI有驳回动议,SALI有起草。因此,你现在可以通过知识图谱符号地构建每个法律任务的表示,因为我们拥有对实体法至关重要的一切,以及我们拥有对法律业务至关重要的一切。
那么,这能给你带来大型语言模型无法给你带来什么?首先,如果你进行分析。如果你对大型语言模型说,告诉我史密斯法官驳回合同违约的动议的百分比是多少,那么大型语言模型将在各处产生幻觉。
相反,如果你说,让我们标记史密斯法官的所有命令,标记哪些是驳回动议,然后标记哪些是合同违约,你将获得确定性,一种确定性,比概率性大型语言模型好得多,但对这些分析的确定性。你需要这种符号推理。其次,大型语言模型无法给你带来的是互操作性。
如果你试图获取史密斯法官的所有关于合同违约的驳回动议,然后尝试从你的法律数据源(例如VLACs)中获取它们,然后将它们放入你的文档管理系统(例如iManage NetDocuments)。如果我们使用神经网络1,而目标使用神经网络2,那么我们使用相同神经网络的几率几乎为零。即便如此,这些东西的权重也几乎为零。
你需要能够拥有这种互操作性的是一种共同语言。也就是说,驳回动议必须在我的方面、VLex的方面以及iManage的方面进行标记,以便我们能够通过查询推送和拉取正确的数据,即驳回的合同违约动议。
大型语言模型将无法允许这种互操作性。所以这是我们可以做的第二件事。第一,分析。第二,互操作性。第三,是我知道你在这段对话中真正谈到的推理。因此,推理是大型语言模型今天具有相对较小的上下文窗口的东西。
因此,相对较小的上下文窗口会导致幻觉,会导致无法实际获取你希望获得的300页文档的正确部分。当然,上下文窗口一直在扩大。所以这可能就像一个老家伙说,“是的,在1980年,我们只有8K的RAM。”所以这可能是一件时间较短的事情。
但是现在,如果你的上下文窗口目前有限,如果你有一个符号推理能够说明过失不当陈述是一种过失索赔类型。它也是一种不当陈述索赔类型。它也是诽谤索赔的第三种类型。并且所有这些关系都通过符号连接,每一个都是通过边连接的节点。
然后你就可以说,如果我运行关于过失、不当陈述或诽谤的查询,所有这些路径都将符号地指向过失不当陈述。然后大型语言模型就不需要做那么多工作了。也就是说,你将知识图谱放入有限的上下文窗口中。然后,大型语言模型从这种符号人工智能中获益,从而提供更好的见解和更好的输出。
所以所有这些都是为了说明,它们结合在一起比单独使用要好得多。花生酱和巧克力放在一起更好吃。这正是我要去的地方。瑞斯花生酱杯的比喻。把它们放在一起,你就会得到比各部分之和更大的东西。关于你的观点……
提示窗口越来越大,一些神经网络支持者对符号推理和传统人工智能的反对意见是,网络本身可以通过查看这些示例来学习推理。我认为这个论点中的缺陷,当然我并不想把自己与杰弗里·辛顿和……
其他在大型语言模型领域享有盛誉的教授相提并论。然而,问题是他们可以学习其数据集提供的推理模式。当数据集是整个网络时,存在大量推理模式。但他们并没有学习……
在他们训练数据中看到的模式之外进行推理的能力。据我了解,他们难以从他们发现的模式中进行概括,即推理模式。因此,你会发现他们犯了一些幻觉和错误,这些错误非常滑稽。如果你像SALI那样向他们提供我现在从SALI看到的法律世界观,
那么他们就能看到这些概念,他们指的是大型语言模型,或者与大型语言模型一起工作的相邻符号推理器。他们可以看到这些概念,这些想法,你可以从中进行演绎推理,如果一个作为另一个的检查,即符号推理器对大型语言模型,如果大型语言模型提供它可以提供的巨大学习能力
数据方面对符号推理器,那么我认为你就有瑞斯花生酱杯了。我完全同意。抱歉打断,但我必须说,我对你刚才所说的话感到非常兴奋,以至于我不得不插话。并且能够采取自上而下的表示方式来解释法律世界的工作方式,大型语言模型的真正好处是我们可以将这种自上而下的推理与神经网络的自下而上的推理联系起来。
你可能认识273 Ventures,也就是迈克·博马里托和丹·卡茨。他们创建了他们的基础模型,吸收了所有案例、所有法规、所有规章、所有证券交易委员会材料以及世界各地的所有政府材料。该基础模型非常擅长成为所有重要概念的自下而上的表示。他们是正在做这件事的公司之一。另一个实体是自由法律项目。
也就是迈克·利斯纳和他的团队,你的听众可能知道也可能不知道,他们实际上已经接过了哈佛案例法访问项目的接力棒。哈佛案例法访问项目从2018年追溯到很久以前,哈佛扫描了他们所有的案例,然后对所有联邦和州案例都做了同样的事情。然后,大约六个月前,它现在是免费和开源的。
因此,自由法律项目正在接手这个接力棒,现在他们表示,他们将从2018年开始扫描所有书籍,并能够获取案例,以便使它们免费并开源。所以我正在与自由法律项目的一位名叫恩里科的人合作,他正在做的是获取案例法访问项目,首先,他将其放入向量嵌入空间。
所以现在在Hugging Space上是免费和开源的。其次,恩里科所做的是对它进行了主题建模。因此,例如,在加利福尼亚州的案例中,你可以看到加利福尼亚州案例中出现的十大法律主题。
所以这是对对加利福尼亚州案例法或美国案例法至关重要的主题的自下而上的表示。因此,我们可以将法律的自下而上的表示与SALI的自上而下的表示结合起来,以填补SALI尚未完成的工作的空白。因此,这种自下而上加自上而下的方法将为我们提供更好的符号表示,然后进一步为神经网络提供我们之前谈到的那种格式塔花生酱和巧克力。是的,我……
是的,我很高兴你提到了自由法律项目。除了73 Ventures的出色工作之外,我还忘记了这些人。
我们一直在谈论,让我回顾一下。你拥有大型语言模型的学习方面,这对于语言模型可以访问的数据至关重要。然后你拥有大型语言模型的推理方面。我们一直在谈论推理方面,它们可以进行的推理。
允许它们从所学内容中输出内容的实际编程,无论是符号
推理驱动应用程序,还是自下而上的学习,我称之为归纳推理,或者两者的结合。但是让我们回到数据上来。你曾经对我说过,并且最近你发送了一些内容,那就是,正如我之前提到的,如果数据是新的石油,那么它是公共石油还是私人石油?你已经谈到了一些。但随后你说,你只是一个炼油厂吗?你的意思是包装问题吗?完全正确。因此,让我们稍微定义一下术语。多年来,我们一直将数据视为石油。你必须首先提取石油,然后提炼石油,然后将其运送给客户,然后将其制成产品。所以,如果是塑料,它是塑料玩具吗?是塑料水瓶吗?然后你必须将其推向市场。
因此,当你考虑石油的生命周期时,法律数据也是如此,法律数据包括案例、法规、规章、司法意见、动议、简报、诉状。所有这些都是公共石油,然后你还有私人石油。也就是说,你拥有公司内部的案例合同。你有和解协议。这些都是私人石油。因此,实际上,
你过去必须拥有数千人在大型寡头垄断公司中总结石油,然后标记石油。但事实证明,使用大型语言模型,你不需要数千人来总结或标记。大型语言模型可以做得很好。而炼油任务就是我所说的
你只是一个石油炼油厂吗?也就是说,你是否正在获取公共石油、案例、法规和规章,或者私人石油、合同和和解协议,并且你只是在提炼它吗?如果你是单纯的炼油厂,那么你实际上没有任何护城河,你将被超越,或者你不会提供足够的价值来克服我们之前提到的构建与购买分析。
但是,你知道,真正的问题是你正在其之上构建的产品是什么?是塑料吗?是玩具还是水瓶?因此,你正在其之上构建的产品,为此,你需要非常聪明的律师能够说出我在执业时,
这是一个我一直认为值得花钱解决的痛点。然后你需要优秀的产品人员能够将其转化为产品。然后你还需要优秀的UX人员能够获得类似苹果的产品,因为律师喜欢简洁。然后你必须在营销方面信任公司。你真的相信这家公司一年、五年或十年后还会存在吗?
因此,实际上,你是否正在构建第一,一个真正值得克服构建与购买分析的产品?第二,你在市场上的营销和信任是否足够好,以至于人们会给你钱,因为他们知道你会存在一段时间?
是的,投资者也会对此发表意见。如果他们很聪明,他们会按照你刚才描述的那样看待它,并将资金输送给那些真正不仅仅是进行炼油厂运营的初创公司。因为正如你所说,如果这就是他们所做的全部工作,那么护城河将干涸,入侵者将入侵城堡。
让我们总结一下,你有一些面向未来的想法要谈谈。我想,你最喜欢你列出的几个想法中的哪一个?一个引起我注意的是,哪些阻碍和应对将提升赢家?我觉得这与我们刚才关于超越炼油厂阶段的讨论有关。对吗?
是的,我认为是这样的。所以说产品是什么?你提供的价值是什么,值得律师掏出钱包?因为事实证明,让律师这样做是一件非常困难的事情。那么你的价值是什么?你的产品是什么,它不仅仅是石油的炼油厂?
我想说的是,当你考虑这个产品将会是什么时,你之前在这段讨论中说过,你成败取决于你的分类法。因此,你可以选择一,尝试从整体上找出对法律至关重要的事情。这是选项一。这非常昂贵且困难。选项二是使用SALI。
SALI是免费的。它是开源的。它是汤森路透、LexisNexis、iManage、NetDocuments以及世界上最大的律师事务所和微软、英特尔等大型公司的优势。他们都捐赠了他们的数据集来改进SALI。那么,如果你成败取决于你的分类法,为什么你要从头开始构建它,而你可以获得所有这些大公司的优势呢?所以我会说……
未来将成为赢家的公司可能是那些能够弄清楚这个产品将会是什么的公司。我之前说过,赢家可能是那些在员工中拥有律师的公司,这些律师不仅仅是做了六个月的律师,而是真正长期在第一线工作,能够看到当前流程的所有痛点,无论是诉讼流程还是交易流程。
他们看到了这个过程中的痛点,能够说,我如何才能以值得律师或公司内部法律顾问打开钱包付钱的方式来改善这些痛点?当我为汤森路透工作时,我作为主题专家的一项工作是编写需求。我在产品方面工作。我会说,作为一名律师,我想做X、Y和Z来实现A、B和C。所以实际上,
事实证明,我刚才描述的是一个提示。过去的需求实际上是你今天构建这些系统的方式。因此,我过去必须将这些需求提供给我的工程团队,他们过去需要很长时间才能将其转化为代码。但现在没有延迟了。我只是写下这个提示,突然之间这就是产品了。
所以,我认为真正的赢家将是那些拥有经验丰富的律师的人。事实证明,律师首先拥有专业知识,能够指出这些痛点。其次,更重要的是,我们知道如何非常非常熟练地使用文字。因此,作为律师,我们是很好的提示工程师,因为我们表达清晰明确。
我们表达精确。提示真正需要的是清晰性和精确性,这两点律师都能做到。因此,我认为赢家将是那些能够聘请足够多的经验丰富的、擅长写作的律师来起草法律语言的人。世界上最好、最重要的编程语言是英语。事实证明,律师非常擅长英语。这就是我们的工作。达米安,非常感谢你。
花了一个小时的时间和我在一起。我认为,至少对于那些对法律科技感兴趣的人来说,这是一个关于优秀播客的绝佳例子。人们想联系你。如果你没记错的话,你在领英上写了很多东西?是的,领英是最好的地方,是的。当然,VLex和Sally是你参与的两个组织……
达米安参与其中。我在每个播客的结尾都会这么说。它始于疫情肆虐之时,当时不得不希望这种情况能够发生。现在,这种情况发生的可能性比以往任何时候都大。期待在现实生活中见到你,并有机会一起举杯庆祝。再次感谢你。我确实喜欢举杯庆祝。是的,我希望很快就能在现实生活中见到你。太棒了。再次感谢。
感谢收听LegalTech Startup Focus播客。如果您对LegalTech初创公司感兴趣并且喜欢这个播客,请考虑加入免费的LegalTech Startup Focus社区,方法是访问www.legaltechstartupfocus.com并注册。再次感谢。