After gaining early access to GPT-4, Jake Heller and his team realized its transformative potential for the legal industry. Within 48 hours, they decided to shift all 120 employees to focus entirely on building a new product, Co-Counsel, leveraging GPT-4. This decision was driven by the technology's ability to perform tasks that previously took a full day in just a minute and a half, offering a significant competitive advantage.
Case Text's valuation skyrocketed from $100 million to $650 million within two months of launching Co-Counsel, a product built on GPT-4 technology. This rapid increase in valuation led to a successful acquisition by Thomson Reuters.
Case Text had been investing in AI and natural language processing for over a decade, building close relationships with research labs like OpenAI. This groundwork allowed them to quickly recognize the potential of GPT-4 and pivot their entire company to leverage the technology, giving them a significant head start in the market.
Convincing the team to pivot to GPT-4 was challenging because many employees had seen previous pivots fail. Jake Heller led by example, building the first prototype himself and involving customers early to demonstrate the technology's potential. Seeing customer reactions during Zoom calls helped change skeptical minds quickly.
Case Text implemented a test-driven development framework, creating thousands of tests for each prompt to ensure accuracy. They broke down complex legal tasks into step-by-step prompts, ensuring the AI could handle nuanced legal work without hallucinations. This rigorous approach made Co-Counsel reliable enough for mission-critical legal tasks.
Vertical AI agents, like Case Text's Co-Counsel, are tailored to specific industries, offering deep domain expertise. Case Text's focus on the legal industry allowed them to build a product that significantly improved legal workflows, leading to their $650 million acquisition by Thomson Reuters. This success highlights the potential of vertical AI agents in creating billion-dollar SaaS opportunities.
Case Text's experience with earlier models like GPT-3.5, which often hallucinated and lacked precision, taught them the importance of rigorous testing and prompt engineering. When they gained access to GPT-4, they applied these lessons, breaking down tasks into smaller, testable prompts to ensure accuracy and reliability in their legal AI assistant, Co-Counsel.
Startups can learn the importance of early investment in AI, the value of test-driven development, and the need to pivot quickly when transformative technology emerges. Case Text's success also highlights the potential of vertical AI agents in creating significant market opportunities by solving specific industry pain points.
这是我们第一次体验这种感觉像神一样的AI,你知道,它突然就能完成那些我练习时需要一整天才能完成的任务,而它只用了一分半钟。整个公司,我们120个人在GPT-4发布前的几个月都没睡好觉。我们感觉自己拥有了远远领先于市场的机会。这就是你成为第一个登上月球的人的原因。是的。
欢迎回到《光锥》的另一期节目。我是加里。这是贾里德和戴安娜。哈吉出去了,但他会在下一期回来。今天我们有位非常特别的嘉宾,凯斯泰克斯的杰克·海勒。我认为杰克有点像第一个登上月球表面的人。我认为他在11、12年前就创建了凯斯泰克斯。他是一个
在最初的十年里,你的公司估值从零增长到1亿美元。然后在GPT-4发布后的两个月内,估值增长到6.5亿美元,并被汤姆森路透收购。所以你有很多关于如何从估值中创造真正价值的经验教训。
大型语言模型。我认为你是我们YC的朋友中,最早意识到这是一场翻天覆地的变革的人之一。不仅如此,
我们要押上公司的一切来赌它。而你是对的。所以,欢迎,杰克。很高兴来到这里。我认为关于杰克的故事,以及我们今天想邀请他的原因之一是,如果你只看看优秀创始人现在正在创办的公司,你会发现很多都是垂直AI代理。我的意思是,我试图统计S24中的那些公司。我们有……
在上一批中,数十家YC公司都在构建垂直特定AI代理。我认为杰克是目前运营最成功的垂直AI代理的创始人。这是迄今为止规模最大的收购,并且实际上已大规模部署在许多关键任务场景中。这其中的灵感来自于几个月前我们举办的一次静修,杰克做了一个令人难以置信的演讲,讲述了
关于他是如何构建它的。我们认为,对于观看《光锥》、对这个领域感兴趣的人来说,直接听取这个领域最成功的建设者之一的经验会非常有用,他是如何做到的?所以,你是怎么做到的?好吧,
首先,就像很多事情一样,这其中有一定的运气成分。在我们十年的旅程中,我们开始非常深入地投资AI和自然语言处理。我们与许多不同的研究实验室建立了密切联系,包括OpenAI的一些人。当他们开始测试早期版本时,我们当时没有意识到那是GPT-4,但那是GPT-4?我们很早就看到了它。
所以,你知道,在GPT-4公开发布的几个月前,我们公司所有的人都在保密协议下,都在研究这件事。我永远不会忘记我第一次看到它的时候,我们可能花了48个小时才决定让公司的每一个人都从我们当时正在做的项目转向,让公司100%的人力都投入到构建我们称之为“联合律师”的新产品上。
基于GPT-4技术。有多少人?我们当时大约有120人。所以你让120个人完全改变了他们的工作。是的,是的,是的。在48小时内。是的。对于观看节目的观众来说,凯斯泰克斯最初,我的意思是,一直都在法律领域。你是一名律师,你为自己创造了一些东西。而且,你知道,它的第一个版本实际上是案例法的注释版本,实际上。是的,完全正确。所以在公司的早期起源,
公司的使命,我们一直关注的是如何才能构建一些东西,将最好的技术带入法律领域?作为一名律师,我真的很喜欢这份工作。
我最讨厌的工作部分是我不得不与律师经常使用以完成工作的技术互动。我记得我在2012年还在律师事务所的时候,我想做一些非常琐碎的事情,当时我有一部新的iPhone,我可以上谷歌搜索电影时间或最近的素食泰国餐馆在哪里。这非常容易。
但是如果我想找到能够证明我的当事人无罪的证据,让他不必在监狱里度过余生,或者找到能够帮助我赢得十亿美元诉讼的关键法律案例,那么这将需要连续五天,每天工作到凌晨5点。我想,一定有更好的方法。作为一名律师,流程是什么?你必须阅读堆积如山的文档?差不多,是的。在我开始执业之前,在所有东西都变成虚拟或在线之前,
你实际上会在地下室里,摆满了装满文件的银行家箱子,一个接一个地阅读它们,试图找到辉瑞或谷歌等公司中的所有电子邮件,看看是否存在潜在的欺诈行为。然后,如果你想找到案例法,在我之前的时间里,你实际上会去图书馆,打开书,然后开始阅读。新的产品正在问世,它们是第一个基于网络的法律研究工具,用于
但它们非常笨拙。很难找到相关信息。你基本上不能对这些东西进行Ctrl+F搜索。基本上不能,是的。你背景中有趣的一点是,你恰好也是那种罕见的既有计算机科学背景的人。所以这肯定让你抓狂。是的,没错。我的意思是,在律师事务所,我永远不会忘记,我正在构建浏览器插件。
在我的工作工具之上,只是为了让我的生活更高效有效。事实上,我离开律师事务所创业并申请YC的原因之一是,我惹恼了总法律顾问,他认为,嘿,你为什么花这么多时间做这些技术方面的事情
而且当时也明确表示,我的律师事务所拥有所有这些技术。所以我决定做一些不同的事情。你想告诉我们一些关于凯斯泰克斯在LLM时代之前的十年历程吗?我认为,我从那段时间学到的一课是
当你创办一家公司时,你可能无法获得完全正确的方向。你知道,你正在努力解决一个问题,但这可能需要很长时间才能找到解决方案。例如,对我们来说,我们看到存在这种结合的问题:法律领域的糟糕技术,以及许多律师使用内容来进行研究和理解法律。
所以我们想,好吧,我们可以改进技术,但我们如何获得这些内容?我们花了大约两年的时间试图让加里所说的律师注释案例法并提供信息。所以它就像一个UGC网站,一个用户生成内容网站。是的,这是我们的一个主要关注点,就像更好的技术和更好的内容的组合拳一样。当时,我们的英雄是Stack Overflow、维基百科、GitHub和其他类型的开源或UGC网站。
这是一个彻底的失败。我们无法让律师贡献他们的时间和信息。我认为这些只是不同的人群。典型的维基百科编辑比他们知道如何处理的时间还要多。所以他们添加,并非所有,但许多人都在添加。他们免费添加内容,嗯,
而且是出于利他主义,律师按小时收费。他们的时间非常宝贵。他们总是时间不够用。他们没有时间为某个UGC网站贡献内容。所以我们不得不改变方向。我们开始投入大量资金。当时,它不被称为AI。它只是自然语言处理、机器学习,并看到
首先,我们不需要创建所有这些UGC来复制我们的竞争对手在这些大型内容数据库中拥有的某些最佳优势。其中一些你甚至当时就可以在某种程度上自动完成。
然后,我们还开始创建比我们的竞争对手基于……当时看来有点老式的AI技术所能提供的更好的用户体验,比如为Pandora和Spotify的推荐音乐提供支持的相同推荐算法。
你可以使用,他们基本上看的是这首歌与那首歌的关系。人们听这首歌,也听这首歌和那首歌,对吧?同样地,我们研究了,好吧,引用其他案例的案例,它们都参考了早期的意见。你知道,它们构建了这个引文网络。我们找到了检查律师工作的方法。他们会上传他们目前的工作,然后说,好吧,所有谈论这个案例的人都谈论这个案例。而你错过了这一点。像这样的酷炫体验。但是
事实是,直到最后,直到联合律师,我们所做的大部分事情都是相对来说,对法律工作流程的渐进式改进。关于这一点有点奇怪的是,当只是渐进式改进时,实际上很容易被忽略。我们的许多客户,他们永远不会这样说,但你会得到这种印象,你走进他们的房间,他们的办公室,你试图向他们推销产品。你说,这将改变你执业的方式。
他们说,好吧,我一年赚500万美元。我什么都不想改变。这项技术,我不想引入任何可能让我的生活变得更糟或可能更有效率的东西,因为他们按小时收费。直到很久以后,ChatGPT出现之后,我们才意识到这一点。当时我们正在秘密地开发GPT-4,ChatGPT出现了。突然之间,美国,甚至全世界,每一个律师都看到了,哦,我的上帝,我不知道这将如何改变我的工作,但它将非常大幅度地改变它。他们能感觉到。而同样的男士和女士们告诉我们,我一年赚500万美元。为什么它会改变我生活的任何事情?我们说,我一年赚500万美元。这将改变一些事情。我需要领先于此。这项技术本身,我们稍后会详细讨论,真正改变了我们为律师构建的东西,但也改变了市场对什么的看法,就像
什么是真正必要的也发生了变化。在我们十年的时间里,甚至在我们基于GPT-4公开发布联合律师之前,他们就开始打电话给我们,说我们知道你们在研究AI,
我们需要赶上这个潮流。你们能给我们展示什么?我们能一起研究什么?我认为这是因为这种变化不再是渐进式的了。它就像根本性的变化。突然之间,他们不得不关注它。他们不能忽视它。我想我对你有一个心智模型,那就是迷宫的概念。创始人一开始就在迷宫里,他们只是摸索着前进,就像在竞技场里,与客户交谈,学习墙壁在哪里,应该走哪条路?我应该向左走还是向右走?就像,
然后,正如创业创始人通常在迷宫中所做的那样,你实际上会到达一个死胡同。然后通常你必须改变方向。然后我认为你有一个非常有趣的故事,因为你可能正处于某个部分的末尾,而这些部分并不能让你完全适应产品市场。
但是LLM出现了,然后迷宫被震动了。然后你实际上比任何人都更接近产品市场契合。所以这就是一个疯狂的时代。是的,我认为完全正确。这就是你成为第一个登上月球的人的原因。是的,我认为这确实有一些道理。问题是,每次我们通过迷宫时,
感觉我们现在可能已经适应了产品市场。在我们推出联合律师之前,我们就已经获得了实际收入,我们有真正的客户,他们对我们评价很高。我一直都在思考Marc Andreessen在2000年代初写的一篇文章。我认为它叫做《唯一重要的事情》。
在这篇文章中,他描述了拥有产品市场契合的感觉。他列举了一些事情,比如你的服务器会宕机。你无法快速雇佣到足够的支持人员和销售人员。你将在Buck's(许多风投公司会带你去的一个著名的伍德赛德餐厅)免费吃一年。我在职业生涯早期就读到了这篇文章。我想,好吧,这是夸张的说法。但是当我们推出联合律师时,情况确实就是这样。我们的
服务器宕机了。我们无法雇佣到足够的支持人员。我们无法雇佣到足够的销售人员。我在Buck's吃了很多东西。以前,如果我们在《美国律师协会杂志》或其他法律特定出版物上发表文章,那将是一个非常重要的一天。我们上了CNN和MSNBC。突然之间,一切都变了。这就是真正的产品市场契合的样子。我认为市场标志,即使在2005年或文章发表的任何时候,
关于它在2023年的样子,完全正确。你能谈谈那个疯狂的时期吗?因为从你推出联合律师到以6.5亿美元的价格被收购,只有两个月的时间。所以在这两个月里发生了什么?好吧,需要明确的是,交易是在我们发布后六个月才完成的,但对话是在两个月前开始的。所以我们开始构建联合律师。为了背景说明,
我们在看到GPT-4后的48小时内,也就是一个周末想出的主意是,这在今天听起来并不疯狂,但在当时感觉很疯狂,那就是这个AI法律助理,我们的意思是它就像律师事务所的新成员一样。你可以直接与它交谈。
这与你今天与ChatGPT之类的工具交谈的方式非常相似,你可以给它分配任务,例如,“我需要你帮我阅读这百万份文件,并告诉我这家公司是否存在任何欺诈行为。”然后在几个小时内,它会说,“我已经阅读了所有文件。这是摘要。”或者总结文件,或者在研究数百或数千个案例后撰写完整的备忘录,回答律师最初的研究问题。
所以在这种意义上,它是这些律师事务所员工队伍的一个非常强大的延伸。从一开始,这就是我们的概念。我们制作了一个非常早期的初始版本。我们开始,因为我们不能,你知道,根据我们与OpenAI的协议,我们不能公开发布这个产品,但他们确实允许我们将保密协议扩展到少数客户。所以我们开始让我们的客户使用它。
所以,你知道,在GPT-4公开发布之前,我们已经有许多律师事务所,他们不知道自己正在使用GPT-4,但他们看到了非常特别的东西,对吧?这甚至是在ChatGPT之前。所以这是我们第一次体验
与这种感觉像神一样的AI交谈,你知道,它突然就能完成那些我练习时需要一整天才能完成的任务,而它只用了一分半钟。对。而且,正如你可能想象的那样,这很疯狂。我的意思是,首先,整个公司,我们120个人在GPT-4公开发布之前,以及因此可以公开发布产品之前,都没有睡好觉。
我们感觉自己拥有了远远领先于市场的机会。当每个人都非常努力地工作时,就会发生一些非常美好的事情,那就是你迭代得非常快。事实上,我仍然看到一些公司停留在我们第一个月看到的情况。
看到GBD4,对吧?我认为这是因为他们不像我们那样专注和投入,在我们GBD4公开发布之前的六个月左右,我们能够做到这一点。为了进行这种转变,你必须动摇公司。你有点进入了深度创始人模式,因为员工有很多抵触情绪。他们说,哦,这个东西正在工作。我们为什么要把自己投入到AI的深处?哦,是的。
告诉我们你作为创始人的那一刻。首先,如果你经营一家公司十年,情况尤其如此,因为他们已经看到你漫游在迷宫中,撞到死胡同。许多人都在那里度过了大部分或全部时间,看着我,作为创始人说,我们肯定要走这个方向。它肯定会奏效。但有时它不会。
你只能对员工做这么多次,对吧?所以这可能是我对其中一些人做的最后一次。他们说,杰克又来了,带着这项疯狂的新技术和一些我们打算大力投资的想法。是的,这需要努力说服人们。如果你想象一下不同的角色是什么,如果你在市场营销角色中,如果你正在销售或营销产品,
而我们正在,你知道,我们每年增长70%到80%。我们的年度经常性收入在1500万到2000万美元之间。情况并非糟糕透顶。对。这很好。是的,我们很棒。是的。但是,他们说,什么,为什么我们甚至要董事会?你知道,其中一些成员,我立刻就明白了。而其中一些人需要被说服。对。
关于创始人模式的那一刻,对我来说真正有效的一件事是我以身作则。我自己构建了它的第一个版本。即使是一家拥有众多工程师和律师等人的120人公司。在那之前,你打开了你的IDE,实际上自己构建了这个东西。哦,是的。部分原因是……
保密协议最初只扩展到我和我的联合创始人。就是这样。那实际上是一种祝福。是的,没错。结果证明这是完美的。即使在保密协议稍微扩展之后,我们最初也将其保持得很小,在最初的一段时间里。我在48小时内就决定整个公司都要做这件事。但我们实际上只在第一次获得访问权限后的一周半后才告诉公司。在那周半的时间里,我们构建了这个产品的第一个原型版本。
再说一次,我永远不会忘记这一点。时间安排太巧妙了。我们好像在周五看到了它。我们整个周末都在研究它。我们正在研究它。然后星期一是一个高管非正式会议,所有我的高管都来了,他们预计我们将讨论如何实现下个季度的销售目标。而我说,伙计们,我们现在不讨论这些。你知道,我们现在正在讨论完全不同的事情。让我在笔记本电脑上给你看一些东西,你知道吗?
所以是的,我自己构建了第一个版本,但是通过这个过程,我和其他几个人,我认为这真的很有帮助。我们还很早就引入了客户,这有助于说服很多人。一旦像一个持怀疑态度的销售人员、营销人员或任何其他人,甚至工程师,在Zoom电话的另一端,客户正在实时对产品做出反应,并给出他们诚实的反应,看到他们脸上的表情。
再说一次,你必须想象一下,这个世界在ChatGPT之前是什么样子,很难想象,但其中一些人第一次看到这个想法。
他们都被震惊了。这真的很快改变了人们的想法。我的意思是,我们看到人们在Zoom电话会议上经历了存在主义危机。你可以看到他们的表情变化。没错。以各种方式。就像,我要做什么?我们向其展示的资深律师中最常见的反应是,好吧,他们提起了一项反垄断诉讼。我必须处理这个问题。其中一些是……
真正由GPT-4的出现所驱动。就像你已经接触过3,你甚至接触过2,对吧?我们与许多实验室保持着密切关系,包括OpenAI,他们一直在
向我们展示其开发过程中的早期成果,他们说,你们能为法律领域构建一些东西吗?每次我们都说,不,这很糟糕。就像,你知道,当我们到达3和3.5时,我们说,好吧,这是说得通的英语,听起来像律师。所以为此表示祝贺。但是是的,
它只是在胡乱编造东西。很难将其与实际用例联系起来,尤其是在法律领域,准确获取事实非常重要。你不能产生幻觉。你甚至不能做出错误的假设。我们必须对这些早期模型进行大量工作,才能使它们接近可用。而它们根本就不是……我的意思是,沿途的一个标志性事件或例子是,当GPT-3.5发布时,进行了一项研究……
结果表明,GPT-3.5在律师资格考试中获得了第10个百分位数。所以它实际上比某些人做得更好,但是其中10%的人,是的。可能是那些只是随机填写的人,基本上。当我们获得GPT-4的早期访问权限时,我们说,好吧,让我们再次运行这项研究。我们与OpenAI合作。我们说,我们想确认这个测试不在训练集中,而且它不在。对它来说是一个全新的测试。我们进行的测试表明,它比90%的测试者做得更好。这是一个很大的区别。
我们还开始进行一些测试,比如,好吧,这里有四五个案例要阅读。
使用这些案例,写一份备忘录,回答这个问题。我们做了很多提示工作,以使其基本上准确地完成任务,引用我们提供给它的实际内容,而不是编造东西。我们说,好吧,这与我们之前看到的非常不同。所以对我们来说这是一个重要的时刻。老实说,我不确定我们合作的研究人员的心态是什么,但当我们进行那次会议时,感觉就像我们过去进行过的其他会议一样,
我们正准备说,这对于法律来说是行不通的,继续尝试,我认为他们看到我们在那个电话会议上经历了某种形式的存在主义危机,但我们的客户也经历了,我们说,哦,等等,这太不一样了,我想,你知道,今天我们有一个,我们有,你知道,思维链推理,我认为很多人认为它不仅仅是文本本身,还有导致工作流程的指令,但是你知道,
但在一开始,没有人知道这些东西。你是如何开始的?你已经编写了针对先前模型版本的测试。它们表现出色。但随后出现了一个时刻,你说,好吧,现在它是一件东西了。但接下来我们该做什么?我们该如何去做?所以我们当时开始使用的过程,它实际上与我们今天所做的过程并没有太大区别,它始于一个问题,即,好吧,我们试图为用户解决什么问题?用户想要进行研究,关于
法律研究。他们写了一份备忘录,回答他们的问题,并引用原始来源。所以这是最终结果。然后我们说,好吧,我们如何从最终结果出发,几乎是倒着来,需要什么才能达到这个结果?在我们为联合律师构建的东西中,我们称之为技能,这在当时感觉非常独特。我认为现在很多公司都称他们的AI能力为技能。所以当你构建这些技能时,事实证明通常需要
大量工作才能从,比如说,客户输入某些内容,比如一组文档或一个问题等等,到他们想要达到的最终结果。我们思考这个问题的方式是,世界上最好的律师会如何处理这个问题?所以,例如,在研究的情况下,最好的律师会收到请求,比如说,来自合伙人的请求,
然后将该请求分解成针对这些平台运行的实际搜索查询。有时他们使用特殊的搜索语法,看起来实际上非常像SQL,对吧?所以从英语查询中,你必须将其分解成这些不同的搜索查询,可能是十几种不同的搜索查询。你非常勤奋。然后他们会针对这些法律数据库执行搜索查询。他们会返回,比如说,每个查询100个结果。
然后,最勤奋、最优秀的律师会坐下来,阅读所有返回的结果,所有案例法、法规、规章。你会开始做一些事情,比如做笔记、总结和整理你可能要做的回应的大纲。就像逐行或逐段一样。是的,百分之百。
你开始从你阅读的内容中提取那些见解。然后,最后,根据所有这些工作和你收集的所有引文等等,你最终会整理你的研究备忘录。所以我们想,好吧,沿途的每一个步骤,绝大多数步骤,以前的技术都无法完成,但现在它们都是提示。
一步一步地思考。是的,一步一步地思考。是的,没错。但我们实际上把它分解成每一个,每一个,你知道,所以得到最终结果可能需要十几或二十几个不同的单独提示,顺便说一句,每一个提示本身都可能在一步一步地思考。但是,嗯,然后对于,对于每一个提示,你知道,作为你采取的一系列行动的一部分,为了得到最终结果,我们对什么是好的有了非常清晰的认识。
而且我们能够,你知道,我们之前有一系列类似电池的测试,但这变得更加激烈,我们一开始可能写了几十个测试,然后是几百个,然后是几千个,针对每一个提示,所以你知道,如果在这一研究过程的开始,
这项工作是用英语查询将其分解成搜索查询。我们对好的搜索查询是什么样子有非常清晰的认识,并为给定的输入编写了黄金标准答案,这就是输出的样子,对吧?所以我们的提示工程师,我一开始就是其中之一,我们都一起结束了。我们正在编写这些英语提示来尝试首先编写测试,基本上。
并编写了这些英语提示来尝试获取它。所以1200次中有1199次得到了正确的答案,或者诸如此类。所以有点像测试驱动开发。哦,是的。真的从做软件工程到提示。完全正确。有趣的是,在提示之前,我从未真正相信过测试驱动开发。我想,哦,代码有效。它没有。没关系。你会看到的……但是有了提示,我认为它实际上变得更加重要,因为……
这些LLM的性质是它们可能会出乎意料地朝着疯狂的方向发展。因此,你很容易添加一组指令来解决你用这些测试集看到的某个问题,然后用这些测试集来破坏某些东西。因此,我认为这种测试驱动开发的精确理论在提示领域应用了10倍以上。
有很多反对者说,许多公司只是在构建GPT包装器,并没有构建很多知识产权。但实际上,在解释所有这些方面有很多技巧。例如,你能告诉我们所有这些以及还有多少需要构建吗?哦,是的。我的意思是,我认为问题在于,当你真正试图为客户解决问题并真正完成工作时,在我们的例子中,就像一个年轻的助理可能会做的那样,并且做得非常好。
要完成这项工作,你必须添加许多层面的东西。当你把所有这些加起来的时候,
你并不像一个GPT包装器。你是一个完整的应用程序,在我们的例子中,它可能包括专有数据集,例如法律本身以及我们自动添加到法律中的注释。它可能包括与客户数据库的连接。在我们的案例中,在法律领域,他们有这些非常具体的法律专用文档管理系统。因此,连接到这些系统非常重要。它可能包括一些细微之处,例如你的OCR效果如何以及你使用什么OCR程序以及你如何设置它们。
当你执行这项任务时,例如,共同律师执行的任务之一是审查大量文件。
一旦你开始处理大量文件,你会看到上面到处都是手写的东西,而且扫描的文件倾斜了。法律界有一种疯狂的做法,他们在一页纸上打印四页纸以节省空间。所有OCR都可以直接读取它,但实际上它是1、2、3、4。所以当你处理完所有边缘情况后,坦率地说,甚至在你接触大型语言模型之前,大型语言模型之前的所有其他内容,你可能已经在你的应用程序中构建了数十个东西来使其工作并良好工作。
然后你进入提示部分,编写测试和非常具体的提示,以及如何将一个大问题分解成一步一步的思考策略。
以及你如何输入信息,如何以正确的方式格式化这些信息。所有这些也成为你的知识产权。它很难复制,很难构建,因此也很难复制。这就是所有业务逻辑,甚至所有非常成功的SaaS公司都拥有非常具体的领域,你需要非常非常定制的深奥的利基集成,例如插入这个深奥的
法律数据库?是的,绝对的。我一直思考的两件事是,一段时间以来,基本上所有的SaaS都只是SQL包装器,对吧?如果你想想像Salesforce这样非常成功的公司,他们围绕着基本上只是数据库以及数据库中表之间的连接构建了业务逻辑。
有时弥合非常技术人员可以做但大多数人不能做的事情之间的差距,或者弥合几乎有效的事情之间的差距。你可以在不编写一行代码的情况下在ChatGPT中进行很多很酷的演示,但这几乎有效,并且70%的时间都有效。但是要达到100%的时间,这是一项非常不同的任务。
人们每月会为70%支付20美元,而要真正有效,每月可能要支付500美元或1000美元,这取决于用例。因此,在最后一步或100英里中获得了很大的价值,无论是什么。是的。你能谈谈你是如何从70%到100%的吗?因为我认为我们经常听到的关于这项技术的另一个批评是,哦,这些LLM幻觉太多了。它们对于现实世界的使用不够准确。但是
正如你前面所说,你正在处理的用例是一个关键任务用例。如果代理向处理重要法庭案件的律师提供错误信息,则风险很大。你是如何使其准确到保守的律师能够信任它的?首先,这种测试驱动开发框架非常有效,因为你可以开始看到它出错的原因的模式。
然后你针对该模式添加指令。然后有时它仍然没有,你知道,做正确的事情。然后你开始真正问自己,好吧,我的指示是否非常清楚?你知道,我是否包含了信息?它不会,你知道,它不应该看到太多或太少的信息,以至于它无法真正获得完整的上下文。
通常这些东西都很聪明。因此,通常你可以找到你为什么未能通过某些测试的根本原因,然后构建到一个你实际上能够通过这些测试并正确执行的地方。我们了解到的一件事是,如果它在通过了100次测试后,坦率地说,它在任何随机分布的用户输入上以100%的准确率执行接下来的10万次测试的几率非常高。
让我印象深刻的一件事是棘手的,就像我们合作的许多创始人一样,他们非常倾向于直接处理它。就像没有评估,没有测试驱动。我们只是喜欢氛围提示工程。也许,我的意思是,你很快就切换到这个了。就像,从一开始就显而易见吗?你想,我们不能以其他方式做到这一点。我们不应该直接处理这些提示。是的,我认为最重要的事情首先取决于用例。
对于我们正在处理的许多事情,无论好坏,都有一个正确的答案。如果你得到错误的答案,律师不会高兴的。我曾经是一名律师,但也为律师签署了十年。每次我们在我们所做的任何事情中犯下最小的错误时,我们都会立即听到关于它的消息。
所以我脑子里可能会有这样的声音,当我经历这个过程时。从十年在预LM中挣扎的学习中获得了什么?你想,不,它必须是100%。哦,是的。哦,是的。这可能比我们意识到的更多领域都是如此。可能是。因为我们一直在思考的另一件事是,你可能会很快失去对这些东西的信心,对吧?你有一次糟糕的经历,特别是如果你的第一次经历很糟糕。
你会想,你知道,也许我一年后会检查一下这个AI的东西,特别是如果你是一个忙碌的律师,而不是技术人员。所以我们知道我们必须让律师在第一周的第一次接触真正有效,否则他们不会深入投资。所以让我们谈谈OpenAI O1,因为它是一个非常不同的模型。我的意思是,到目前为止,使用GPT-4和所有之前的版本,它
在智力方面的类比有点像丹尼尔·卡尼曼式智力的系统一思维,对吧?他围绕着它有一个关于诺贝尔奖的完整的经济理论。系统一思维非常快。这是一种人类非常直觉地并且基于模式做出的决定。而Elams在这方面非常出色。但他们在执行功能方面很糟糕。
因为我从你描述的所有事情中听到的是,你只是给LLM提供执行功能,例如,你怎么认为它是正确的?我该如何管理你?这真的是更慢的思考。我认为O1令人兴奋。我们还没有看到构建的东西,因为它只是几天前发布的,对吧?是的。
我认为它正在达到系统二的思维。我认为这已经成为一个重要的研究领域,我在一年前的近距离代表中看到了很多,当时许多研究人员都兴奋地想要解锁这一点,因为这是AGI的缺失部分。让我们谈谈你对O1的看法以及这如何改变?首先,我认为O1是一个非常令人印象深刻的模型。
就像其他事情一样,我们给了它我们知道会失败的测试,以及彻底性、精确性、智力应用于其中一些问题的程度。有时这是你不会期望需要一个超级智能模型才能做的事情。例如,在我们运行的测试之一中,我们给它一个律师的真实法律简报。
但我们稍微修改了律师对案件的一些引语,使其成为错误的引语或对案件的错误总结。所以它就像40页的法律简报。你只需添加一个词,例如“不”,就可以完全改变某些东西的含义。对。然后我们也向AI提供案件的全文。我们说,好吧,你知道什么?律师说了什么?
关于这个案件有什么错误,而且在此之前,几乎每个LLM都会说没什么,它完全正确,它只是对一些需要修改的简报的细微之处没有精确的思考,然后O1会立即得到,就像你说的那样,它会思考一段时间,你会想,这东西还在吗,你知道,但是然后它开始回答,并且
它就像,哦,好吧,你知道,把“和”改成“既不也不”。这些是你甚至坦率地说,早期的AI,例如LLM,能够通过的测试,但就是无法通过。突然之间,O1甚至正在做这些需要精确细节思考的事情。显然,我们不知道O1是如何真正工作的内部机制。我们有,你知道,这个关于思维链的广泛想法。看起来,我们知道如果
OpenAI拥有一个巨大的语料库,其中包含人们一步一步地思考做事过程中的内部独白,那么O1会更好得多。它有点押韵
你做的事情,你知道,踏上月球的第一步,对吧?就像是的,它与将其分解成你知道的块押韵,在那里你可以达到100%的准确性,而不仅仅是将其全部放入上下文窗口,并且你知道,也许神奇地它会起作用。是的,你认为这就是正在发生的事情吗?我认为他们很有可能,你知道,也许改变了他们的承包商的工作方式,而不仅仅是做,你知道,输入
输出答案,他们正在输入我该如何思考解决这个问题,然后输出答案。但是,你知道,有趣的是,然后它受到编写这些指令的人的智力的限制。我们正在研究的事情之一,对于O1来说,我们是否可以提示它告诉它在思考过程中应该思考什么,并注入,再次,就像我们聘请了该国一些最好的律师一样。
该国一些最好的律师会如何思考解决这个问题?也许,你知道,我们还没有关于这是否会极大地改善事情的结论性证据。还为时过早,而且过去的时间还不够。O1的一种新的提示技术的机会是教它不仅是如何回答问题,好的答案的例子是什么,而是如何思考。
我认为这是另一个非常有趣的机会,就是注入领域专业知识或你自己的智力。我非常感谢,因为我认为
你正在分享面包屑,以及这项技术刚刚开始的许多其他领域。我的意思是,你去几乎任何一家公司,人们都不知道发生了什么。他们实际上仍然重复所有那些陈词滥调,哦,你最好进行微调,或者所有这些东西都没有连接到,例如
我们每天与试图为用户创造事物的初创公司和创始人一起看到的东西。我很高兴的是,我们可以分享这个消息,例如这个知识,因为即使是我们谈论的事情,嘿,你可能应该进行评估。就像有很多alpha可以达到100%,而不仅仅是70%。这些是实际上会创造的面包屑
所有价值数十亿美元的公司,实际上可能是数千家公司。我们希望如此。我的意思是,我认为你开始看到像法律这样的许多其他领域真正升级,当你不需要花费数百万美元在六个月内,实际上在地下室逐字逐句地阅读文件时,对吧?当你真正能够克服这一点并获得结果时。现在你在战略性和智能地思考。对于这些公司来说,解锁是,我的意思是,他们目前支付数百万美元的薪水来完成这些工作。
每一个。对。因此,对于任何一家公司来说,如果能够推出一个能够完成其中80%工作的AI,其价值就在那里。我只是想鼓励人们不要因为那些陈词滥调而放弃,对吧?就像,哦,它幻觉太多了。它太不准确了。它太……了。例如,任何东西,它就像,有一条路。
你可以做到。而且有一个好消息,你知道吗?工作不会消失。它们只会变得更有趣。我认为就是这样。是的。好吧,时间到了。但是Jake,非常感谢你与我们在一起。感谢你的邀请。下次见。