We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 901: Automating Legal Work with Data-Centric ML (feat. Lilith Bat-Leah)

901: Automating Legal Work with Data-Centric ML (feat. Lilith Bat-Leah)

2025/7/1
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript
People
J
Jon Krohn
L
Lilith Bat-Leah
Topics
Jon Krohn: Epic是一家大型法律科技公司,拥有超过6000名员工。Epic AI Discovery Assistant声称可以自动化超过80%的传统电子取证流程,并完成审查比传统技术辅助审查快90%。我想了解线性审查、TAR和电子取证等术语,以及AI如何简化流程。 Lilith Bat-Leah: 我提供的软件确实支持TAR工作流程。TAR是一种使用机器学习将文档分类为与诉讼相关或不相关的过程。诉讼涉及大量的文档、电子邮件和各种非结构化数据。律师需要审查这些数据,以确定哪些需要提交给对方。电子取证是指以电子方式存储的业务记录的发现过程。机器学习工具使对方律师更容易找到关键证据。Epic AI Discovery Assistant利用LLM来更快地找到相关文档。你的自然语言指令和标记示例将用于训练最佳分类器。每个案例都需要一个单独的分类器,具体取决于需要分类的不同事项的数量。通常,你将始终具有响应能力模型,基本上是相关性模型。你可能还会对诸如特权、保密性以及律师关心的所有问题进行分类。法律行业中,评估指标的严格性非常重要,因为评估指标有时会与对方律师或政府机构协商。作为一名数据科学家,你必须能够解释评估指标的真正含义以及可能对律师和法官产生的影响。

Deep Dive

Shownotes Transcript

艾匹克公司AI实验室高级总监莉莉丝·巴特-利亚与乔恩·克罗恩探讨了AI如何利用大型语言模型(LLM)和检索增强生成(RAG)颠覆法律行业,以及数据中心机器学习研究运动(DMLR)如何系统地改进数据质量,以及为什么这如此重要。

(05:45)解读法律科技术语(TAR、电子证据发现)

(13:47)律师事务所如何使用数据和AI

(29:01)关于数据中心机器学习研究(DMLR)的全部内容

(46:58)莉莉丝在AI行业的职业历程

<raw_text>0 这是第901期节目,嘉宾是艾匹克公司AI实验室高级总监莉莉丝·巴特利亚。本期节目由戴尔AI工厂与英伟达以及Adverity(对话式分析平台)赞助播出。

欢迎收听Super Data Science播客,这是数据科学行业收听率最高的播客。每周,我们都会为您带来有趣且鼓舞人心的人物和理念,探索机器学习、AI及相关技术的尖端领域,这些技术正在使我们的世界变得更好。我是您的主持人约翰·克罗恩。感谢您今天的收听。现在,让我们化繁为简。

欢迎回到Super Data Science播客。今天我们请来了莉莉丝·巴特利亚,她是一位极具天赋的复杂技术信息沟通者。莉莉丝拥有超过十年的经验,专门从事机器学习在法律科技领域的应用。

她现在是艾匹克公司AI实验室的高级总监,艾匹克是一家领先的法律科技公司,拥有超过6000名员工。她发表了关于在法律发现中使用机器学习的评估方法的著作,以及关于数据中心机器学习的研究。她是数据中心机器学习研究工作组ML Commons的联合主席。

她还在ICML和ICLR(两个最重要的AI会议)上组织了数据中心研讨会。她拥有西北大学的学位,专注于统计学。今天的节目主要面向数据科学家、AI/ML工程师和软件开发人员等实践者。在本期节目中,莉莉丝详细介绍了AI如何通过自动化高达80%的传统发现流程来彻底改变法律行业,

为什么“漏检率”是法律科技中独有的关键指标,以及它揭示了机器学习评估的哪些内容,为什么我们应该停止沉迷于模型改进,而关注占据数据科学家80%时间的其他事情的令人惊讶的原因。她还谈到了她是如何从临时接待员成长为AI实验室主任的,以及她是如何爱上统计学的。好了,准备好收听这精彩的节目了吗?让我们开始吧!

莉莉丝,欢迎来到Super Data Science播客。我很高兴终于请你来到节目中。我们之前聊过这件事一段时间,现在终于实现了。你今天是从哪里打电话进来的?非常感谢你邀请我。我在纽约市。

我也是,确切地说。都在曼哈顿。不过无论如何都是远程录制,这确实让事情更容易了。如果我只是为那些在家想知道为什么我有时会与嘉宾远程录制纽约节目的人进行远程录制,那么设置的工作就会少得多。不过我想我也可以在旅行中录制。我不知道,远程处理事情只是让后勤工作更容易。我们实际上是在一年(或两年前?)的波士顿开放数据科学大会东部活动之后认识的。只是一年?我想只是一年前。只有一年。我们在回程的火车上相遇。所以是XCELA,这种所谓的特快列车,只在美利坚合众国的东北走廊才有,而且它并不快。如果人们乘坐过欧洲或亚洲的特快列车,你会觉得,这可不是一辆很快的火车。

但从纽约到波士顿或反过来,这是一次非常愉快的旅程。

而且这是你在美国北部,或者至少在美国可以乘坐的唯一一种舒适的火车。加拿大实际上也有一些不错的火车。我坐在那里,试图管好自己的事,但在我身后,你坐了下来,你正在详细地解释技术数据科学的概念,

非常清晰、简洁地以一种非常愉快的方式向你与之坐在一起的人解释。在听了一个小时之后,我从座位上跳了起来,因为我必须弄清楚这个人是谁。是你。谢谢。是的。你可以把这一切都归功于我接触过的法官和律师。

是的。所以我们将在这里进行一个关于法律的节目。但我认为这会对任何人都很有趣,因为,你知道,我们我认为深入研究不同的领域是很棒的,

无论你是否从事法律或法律科技工作,我们都会描述很多可以转移的概念。因此,你可能会想到你在自己行业中可以做的类似的事情。

是的,所以让我们从这一点开始。你是艾匹克(EPIQ)公司AI实验室的高级总监,艾匹克是一家领先的法律科技公司。他们是一家相当大的公司。我认为有数千名员工,我调查过。是的,我认为我们现在超过6000名员工了。是的,超过6000名员工。所以这是一家大型的法律科技公司。

今年早些时候,艾匹克推出了一款名为艾匹克AI发现助理的产品,它声称可以自动化超过80%的传统电子证据发现流程,并且比所谓的TAR(技术辅助审查)或线性审查快90%。我猜线性审查是指人工逐字逐句阅读页面上的每一个字。

所以,我们现在有一些法律科技术语,我不太熟悉。所以,请告诉我们线性审查、TAR和电子证据发现是什么。告诉我们这些术语,然后我们可以讨论AI如何让生活更轻松。是的,我会稍微限定一下其中一个说法。它是……比传统的TAR更好……

所以我想说我们提供的软件确实支持TAR工作流程。要真正描述这是什么,它代表技术辅助审查。它基本上……

它基本上描述了一个过程,你使用机器学习将文件分类为与诉讼相关或与诉讼无关。诉讼只是指某人起诉另一个人,我想。是的,是的。我向法律行业以外的人解释发现的方式是,基本上,每当两家公司互相起诉时,他们都必须交换任何可能被视为案件证据的东西。

所以最终看起来就像堆积如山的文档,可能是数十万甚至数百万份文档、电子邮件、Word文档、Excel表格、推文等等。

短信,任何东西,大量的非结构化数据可能与诉讼相关。然后律师必须仔细检查所有这些内容,并确定哪些内容需要提交给对方,哪些内容他们有法律义务提交给对方,因为这些内容可能是证据。简而言之,这就是电子证据发现。是什么让它成为电子证据发现?

很久以前,你可能熟悉那些律师有成箱文件的电视剧,那是传统的发现。但是现在,所有业务记录,所有数据都在日常业务中以电子方式维护。所以在21世纪初左右,我认为我们开始称之为电子证据发现而不是发现,但现在几乎所有文档发现都是电子证据发现了。明白了。例外情况是,你知道,石棉案,你必须回到纸质文件,将它们扫描进去,然后审查它们。这让我想到,是的,看那些老电视剧,

你会看到,这似乎是一种故意的策略,用尽可能多的文件来淹没你的对手,以拖延他们的时间并增加他们的费用,诸如此类的事情。是的。是的。所以现在这被认为是一种恶意做法。如果你试图用实际上与他们的案件无关的文件来压倒你的对方律师。

他们的信息请求。如果你使用某种版本的辅助技术审查,那么精度就非常重要。所以,既然我们现在有了所有这些用于电子证据发现的强大的机器学习工具,对方律师更容易发现他们可能正在寻找的“大海捞针”,并准确地找到对他们真正重要的证据。很好。非常酷。所以现在我认为我们对这个领域有了一定的了解。所以,请告诉我们关于

艾匹克的AI发现助理,告诉我们它与众不同的地方以及它如何加速。再次声明,你适当地限定了这个说法。但我们得到了这个80%。它自动化了80%的发现,并且比艾匹克快90%。

是的。

在我继续之前,我可以假设你的听众熟悉主动学习吗?我很想了解更多关于它的事情。非常好。主动学习只是一种更有效地选择数据来训练分类器的方法。在……

在电子证据发现中,通常有两种流行的方法。如果你有非常低的流行率,那么你最好使用相关性反馈。所以你将让人工标注者标记那些

模型最有可能认为相关的文档。所以你会使用它,然后你会迭代地多次重新训练模型以提高性能。这是在低流行率的情况下。如果你有更均衡的类别,即相关和不相关文档的比例大致相等。

那么你将需要使用不确定性采样,你将查看每个数据点的熵,让人工标注者标记模型最不确定的文档,以提高性能。所以,这些是我们在这个领域中倾向于使用的两种主动学习方法。

非常酷。这正是我在火车上听到的那种清晰的技术解释。太棒了,莉莉丝。是的,我们稍微绕了一点路来谈论主动学习。但是,是的,你正在向我们介绍

艾匹克的AI发现助理。是的,我确实应该,我非常兴奋地谈论艾匹克的工具,但是,再次声明,对于传统的TAR,它基本上是传统的长文本分类,从随机森林算法到支持向量机到逻辑回归都非常流行。是的。

你可以使用任何这些算法或一些集成学习,并结合主动学习组件来获得你的分类结果。艾匹克AI发现助理非常酷的一点是,它使用了更传统的长文本分类方法,但也利用了大型语言模型。所以你可以通过使用检索增强生成来找到最有可能与你关心的任何事情相关的文档,无论律师可能指定了什么问题,并从那里开始,从而在文档上获得一个良好的开端。然后你的自然语言指令和

以及你的标记示例将用于训练最好的分类器。所以它接受来自示例数据和自然语言指令的输入。

所以你需要一个分类器来处理基本上每一个案例,一个单独的分类器。有时在一个案例中会有很多很多分类器。这取决于他们关心分类多少不同的东西。所以通常,你总是会拥有一个响应性模型,假设它是为向对方提交准备的。你总是会拥有所谓的响应性模型,基本上是一个相关性模型。它与案件中的任何问题相关吗?

但是你可能还会有针对诸如特权之类的内容的分类器,即该文档是否受律师客户特权保护,因此没有义务披露它。然后可能是机密性。然后是案件中工作的律师可能关心的各种问题。

所以这意味着大型律师事务所通常会配备数据科学家,还是他们完全依赖于像艾匹克AI发现助理这样的工具,以便在没有某种技术专长(例如数据科学家的参与)的情况下,以完全自动化的方式训练这些分类器?

是的,他们主要依赖这些工具。所以很少有律师事务所拥有参与发现实践的数据科学家,也许这种情况正在改变,但我认为很少有律师事务所拥有参与发现实践的数据科学家。

所以,是的,他们确实依赖这些工具。话虽如此,你确实需要拥有一些专业知识,一些领域专业知识,以及对基本评估指标的一些熟悉程度,以确保你以可辩护的方式使用该工具。我们正在努力尽可能多地融入这些内容,融入专业知识,融入所有指标以及对它们的直观解释。

但我认为目前理想的情况是拥有这种领域专业知识以及对评估指标的一些了解。明白了。所以也许……

律师事务所可能会与艾匹克合作,不仅是为了获得工具,也是为了利用像你这样的人的专业知识。没错。是的。我们有一个很棒的团队,可以帮助客户处理具体事务,并帮助他们实现他们在特定案件中想要实现的目标。这可能需要……为一个案例构建数十个模型。

本期Super Data Science节目由戴尔AI工厂与英伟达赞助播出,帮助您加快从桌面到数据中心的AI应用。

戴尔AI工厂与英伟达提供了一个简单的开发启动平台,允许您在安全可靠的环境中进行本地原型设计。接下来,通过使用基于容器的微服务快速构建AI和数据工作流程来开发和准备扩展,然后使用可扩展的基础设施框架在企业中部署和优化。访问www.dell.com/superdatascience了解更多信息。网址是dell.com/superdatascience。

当风险如此之高时,对于大型律师事务所来说,当涉及到数十万甚至数百万份文件时,很明显,这些案件最终将非常昂贵。你正在谈论……

至少数百万美元,而且在这些诉讼情况下,通常情况下,被告或原告的风险可能高达数千万美元、数十亿美元。诉讼中会发生这种情况吗?诉讼中是否有被告和原告?是的,绝对会。所以在那种情况下,

风险非常高。那么,你如何平衡速度和自动化(这些都非常重要)与法律领域对可辩护性(你刚才用到的一个词)和尽职调查的高标准呢?这些都是很好的问题。在法律行业工作的一件有趣的事情是,这些标准评估指标,通常是召回率和精确率,

有时会与对方律师或某些政府机构协商。所以,这是你的评估指标和评估过程的严格性真正发挥作用的时候,

在你的评估过程中相当严格,真的非常重要,对吧?你可以争论误差范围以及所有类似的事情。作为一名数据科学家,你确实必须能够解释这到底意味着什么,以及它可能对律师,有时是对法官造成的后果。但事实是,每个案例都略有不同。

所以可辩护性归结于特定律师愿意捍卫的内容。并且有一些比例考虑和……你知道,不当负担考虑也包含在内。例如,如果你有一个非常非常低的流行率,你知道,相关性标签,对吧,如果你正在寻找一个非常罕见的文档子集,你知道,

仅仅为了能够评估它而对足够的文档进行采样可能会变得过于繁重。然后我们有这个指标,我在电子证据发现之外从未遇到过。我们称之为“漏检率”,我们只是对预测为不相关的文档子集进行采样。我们拥有所有相关文档的人工真实标签。所以从

从这两个指标中,我们可以估计召回率的区间。这是一个有趣的案例。围绕它的可辩护性是有争议的。我支持它,因为我们不使用任何这些指标来评估我们所说的线性审查,这只是人工对所有内容进行审查。

如果我们只是假设这是黄金标准,所有这些标签实际上都是正确的,我们知道它们可能并不正确,那么为什么我们应该将机器学习工作流程设定为更高的标准呢?对吧。我们应该能够接受这些是……

是黄金标准。所以,有很多有趣的辩论领域,很多不同的角度。再次声明,这仅仅取决于案件、谁提出了什么要求以及满足对方的要求对提交方来说有多么繁重。所有这些都构成一个可辩护的,所谓的可辩护的工作流程。是的。

让我们更详细地讨论一下这个似乎是法律科技独有的“漏检率”术语。对于我们的听众来说,它不是像魔术表演一样的错觉,而是像躲避,E-L-U-D-E。漏检率,E-L-U-S-I-O-N。这有点像欺骗的概念,对吧?

或者说像躲避检测,我想,因为它不像是有意的欺骗。是的,那些是你错过的文档。对,没错。那么,为什么这与等效的机器学习指标不同呢?这将是一个,我经常喜欢在我的面前放一个2x2表格,以确保我没有弄错,但这将是一个假阴性指标。

正确。是的。假阴性除以假阴性和真阴性。没错。坦白地说,对于我们的听众来说,我刚刚……

我刚刚花了几秒钟时间进行了一些研究,并发现这似乎是“漏检率”的通用术语。所以假阴性除以假阴性和真阴性在一般的机器学习中可以被称为假遗漏率。但我认为这有点……有点冗长。“漏检率”听起来更好听。听起来像是一个……它是一个简单的词。

我非常喜欢它。我不知道该把这个词归功于谁。嗯……它……它确实是从无到有出现的。嗯……所以,我希望我能告诉你更多……但我确实想出了如何根据漏检率来估计召回率的区间,对吧?漏检率的问题,这是一个非常合理的问题,是人们会取一个漏检率样本,

然后只是决定,嘿,是的,它很低。这很好。没有考虑初始流行率。对。所以如果你从……开始。所以,对。人们会说,哦,如果漏检率低于5%,那么它就很好。但是……

如果你的流行率一开始就低于5%,那就不好了,对吧?然后这对你没有任何说明。所以使用这种标准工作流程,所以现在我可以谈谈,我讨厌这些术语,但是有TAR 1.0和TAR 2.0。

它们基本上是不同工作流程的启发式方法,并且有不同的排列组合,对吧?有不同的方法可以获得你用来提供文档的模型,以及训练的不同停止点。但最终,它归结为TAR 1是一个工作流程,你只提供已被你的分类器分类的文档。

并且不一定被人工律师查看过。而TAR 2.0启发式地描述了一个工作流程,在你将每个预测为相关的文档送出之前,你都会查看它。所以在这种TAR 2工作流程中,以及在这个你让人工实际标注每个预测为相关文档的工作流程中,

那么,再次声明,现在你有了已知量。你确实知道有多少实际相关的文档。你不需要从召回率-精确率曲线或混淆矩阵中估计它。然后你可以根据漏检率的区间来估计召回率的区间。你听到我一直在谈论区间。我痴迷于关注置信度和

而不是点估计。没错。我实际上在节目的后面有一些关于这方面的问题,但我们不妨现在就讨论一下。你为什么……我的意思是,我可以猜到,但请告诉我们为什么你更喜欢使用范围,为什么你更喜欢提供范围内的信息而不是点估计?是的……

简短的答案是,统计学最酷的事情是你可以衡量你的不确定性。那么,你为什么不这样做呢?你为什么不衡量你的不确定性呢?但更严肃的答案是,我的意思是,我们正在处理不确定性,对吧?你不应该假设点估计真正代表你试图估计的参数,对吧?

你真的应该考虑这些置信区间,因为这样你就可以对知道它将位于该范围内感到非常满意,并且你正在考虑不确定性。对。所以……

很容易专注于点估计,但我之前说过,没有样本量、没有置信区间的点估计基本上就是用统计数据撒谎。你不知道实际的主张是什么。对。那么,那些没有接受过统计学训练的人在您提供置信区间而不是点估计时会如何反应呢?你有没有遇到过某种

你知道,困惑或强烈反对吗?是的。是的。嗯……这取决于我与谁合作。如果,你知道,如果是一个律师或法官,我会尝试演示,我有一个……甚至只是一个简单的Excel计算器,我会向他们展示,你知道,改变某些东西是如何影响这些估计的,并试图让他们对它有一个直观的理解。

如果是一个顾问,我试图让他们对它有一个更直观的理解,我会让他们我会让他们随机抽取某个群体中一半的文档并标记它们,例如“我关心的文档”。然后我让他们以90%的置信度进行抽样……

至少10次,这样他们可以看到,嘿,平均而言,10次中有一次,我从这个样本中估计的点估计不在我估计的范围内。对。我认为这建立了对置信度的直观理解。是的,是的,是的。老的大数定律。听起来很熟悉。

如果我还没有创建的话,我最终会创建关于这些概念的YouTube内容。我不记得我在哪里,我一直在创建这个数学基础内容,并且在三年前之前,我非常擅长将它发布到YouTube上。我知道在那段时间里,我确实有一个大数定律的视频,但我认为我可能还没有发布它。所以它最终会到来,总有一天。很好。与此同时……

人们可以查找它,但它基本上是,你知道,你抽取的数据越多,你的范围就越紧密,你的估计就越紧密。你开始更好地了解现实情况

而无需查看每个数据点。没错。我今天实际上只是向同事展示,当你的样本足够大时,95%置信水平与99%置信水平的区间往往会收敛,对吧?所以一旦你的样本足够大,你是否以95%或99%的置信度估计某事物实际上并不重要。对。

对,对,对。这很有道理。很好。好了,我们现在已经了解了很多关于法律、关于法律科技的知识。我们已经讨论过吗?是的,我想我们已经讨论过了。我们也讨论了艾匹克AI发现助理,因为你解释说,你

你知道,它内置了诸如检索增强生成之类的功能,这使得它能够胜过技术辅助审查1.0或2.0传统技术。这些更多的是工作流程术语而不是技术术语。我讨厌这些术语,因为它们让很多人感到困惑。但这是该行业已经使用了一段时间的东西。

很好。好了,所以我实际上认为我们可能会在整集节目中讨论的话题是,关于法律科技AI有很多有趣的事情需要讨论,我想进行我们刚才进行的对话。

但我们在火车上谈论这件事,并决定要进行一期节目的原因是数据中心机器学习这个想法。所以现在这个话题是……这不仅仅是,哦,这里有一些类比可能与你的行业相关。数据中心机器学习与每一位听众都相关,与任何使用数据的人都有关。

这与每个人都相关。所以,请告诉我们关于数据中心机器学习研究(DMLR)的信息。我的理解是,你是在法律领域的数据混乱的情况下偶然接触到DMLR的。

是的,没错。在我的第一个研发职位中,我非常专注于算法,以及为我们已经讨论过的这些分类任务寻找最佳的分类算法。在某个时候,我意识到我正在使用的数据标签非常嘈杂,只是有很多错误标记的实例等等。

这确实限制了我评估算法性能的能力,因为我无法完全信任我的数据。是的。

所以这让我对Andrew Ng创造的数据中心AI非常感兴趣。我最终参与了ML Commons的一个名为DataPerf的工作组,我们正在寻找基准数据中心机器学习。这最终导致我们在iClear和ICML组织了一些不同的研讨会,

嗯,DataPerf也成为了一篇NURBS论文。嗯……

是的,是的。基本上,它变成了一个完整的社区。所以现在有一个DMLR期刊,在这些会议上还有DMLR研讨会,然后DataPerf转变为ML Commons的数据中心机器学习研究工作组。所以我们有很多事情要做。我们正在与Common Crawl(一个策划大多数大型语言模型所使用的数据集的基金会)合作。

我们正在与他们合作开展一项挑战,这项挑战将产生一个可公开获得的低资源语言数据集。所以,如果你有兴趣加入工作组,请务必参与。再次声明,它与ML Commons合作。

你可以在该网站上找到并发送到工作组。我们将在节目说明中提供ML Commons的链接。当你提到低资源语言时,指的是在线数据很少的语言。它们可能是很少使用的语言,或者由于某种原因,即使这些语言相对常用,它们在互联网上也没有得到体现。

Epiq公司AI实验室高级总监莉莉丝·巴特-利亚与乔恩·克罗恩讨论了AI如何利用大型语言模型(LLM)和检索增强生成(RAG)颠覆法律行业,以及数据中心机器学习研究运动(DMLR)如何系统地改进数据质量,以及为什么这如此重要。

(05:45)解读法律科技术语(TAR,电子证据发现)

(13:47)律师事务所如何使用数据和AI

(29:01)关于数据中心机器学习研究(DMLR)的一切

(46:58)莉莉丝在AI行业的职业生涯

<raw_text>0 没错。很好。听起来很酷。您刚才提到的那些缩写,DMLR倡议正在获得关注,像ICLR、ICML、NeurIPS这样的会议,是最大的学术会议。所以您在那里产生如此大的影响真是太酷了。听到您与吴恩达的联系也很有趣,因为他……

我的笔记里这里某个地方有,我正在这里滚动查看。是的。所以在首届DMLR研讨会上,吴恩达是主题演讲嘉宾。是的,是的,没错。他还参与了DataPerf。他在DataPerf论文中。

您在需要时就能获得所需的洞察力。

借助Adverity的AI驱动的数据对话,营销人员终于可以用简单的英语与他们的数据对话,获得即时答案,做出更明智的决策,更轻松地进行协作,并将报告时间缩短一半。您会问什么问题?要了解更多信息,请查看节目说明或访问www.adverity.com。网址是A-D-V-E-R-I-T-Y dot com。

好的,我现在非常清楚DMLR的重要性、它获得的关注以及吴恩达这样的大人物参与其中。我们的听众中可能大多数人都知道吴恩达是谁。他是数据科学领域最杰出的人物之一。如果您还不熟悉他,他在12月份参加了我们的节目。所以您可以回顾第841集。我们也会在节目说明中提供指向该节目的链接。

嗯,所以,我现在清楚地理解了数据中心机器学习非常重要,并且正在获得关注,但是,我们的听众可能仍然不太了解它是什么。是的。是的。所以,我能解释的最好方法是,在传统的机器学习范式中,您正在迭代模型,您正在迭代模型架构、学习算法等等。这就是您真正专注于改进性能的地方,方法是迭代模型。在数据中心机器学习中,您正在迭代数据。所以您保持模型不变,改进数据。您正在系统地设计更好的数据。然后就会出现所有这些不同的问题,对吧?所以有一个问题是是否要聚合标签。

有一篇非常有趣的论文,Doremi,它研究了对Pile的不同领域的加权,以获得最佳的LLM预训练性能。

所以,是的,它可以有很多不同的方法。我想到另一篇论文,我不记得名字了,但他们研究了预先选择用于训练模型的最佳数据点,甚至不是主动学习,您从模型的结果开始确定应该标记哪些附加数据点,而只是从头开始使用数据集。

使用线性代数来确定哪些数据点值得标记。

对,对,对,对。所以这里的想法是,我认为这与我们作为数据科学家、机器学习工程师、AI工程师最终所做的大部分工作形成对比,我们试图改变模型权重以获得我们所处任何情况的最佳结果。在数据中心机器学习中,其理念是您可以实际保持模型权重不变

您可以调整数据本身,例如您拥有的数据量、这些数据的构成或您如何从数据中采样。所以基本上,您关注的是数据。它们成为您开发机器学习模型并最终提供结果的方式的核心。是的,这是更好的解释方法。我怀疑它更好。我怀疑它更好。它只是不同,因为您解释得非常好。

您真的,您真的擅长解释这些东西。很好。

在DMLR社区成员撰写的一篇论文中。所以这篇论文叫做DMLR:数据中心机器学习研究的过去、现在和未来。我会在节目说明中提供这篇论文的链接。我认为您是这篇论文的合著者,对吗?是的,您是。事实上,您是这篇论文的第三作者,共有几十位作者。在这篇论文中,

它引用了每个人都想做模型工作,而不是数据工作。那么,您认为需要哪些思维转变或激励措施才能提高ML社区对数据中心贡献的认知价值,以及

是的,是的。所以这些问题已经足够多了。是的,这是一个很好的问题。所以,当DMLR起步时,主要挑战之一是没有真正有声望的档案场所来发表这类工作,对吧?随着NeurIPS的数据集和基准测试跟踪的出现,这种情况开始得到解决。

然后启动DMLR期刊,顺便说一句,它是JMLR期刊最新的姊妹期刊,它有一些,是的,声望。但是,是的,所以,找到或建立这些高影响力的权威期刊。

发表这类工作的场所,我认为这在很大程度上促进了更多的数据中心工作。但我们还有很长的路要走,对吧?我的意思是,这是真的。我认为,对吧,大多数数据科学项目的80%都更多地与数据清理和数据工程有关。但我们真正关注的是迭代模型的20%。

但我们并不认为这是一件有趣、令人兴奋的事情。所以我认为我们确实需要运用我们的工程思维。我们如何系统地改进数据?它如何成为一项超越仅仅注释的任务,找到更好的方法来注释数据?

所有这些都必须发生,我认为它才能获得比现在更多的关注。是的,是的。一旦你用这种直截了当的方式表达出来,我们可能已经有100位嘉宾在播客中证实了这种80-20的比例,大约80%的现实世界数据科学项目都花在了数据清理上,而只有20%花在了模型构建上。有趣的是,当你想到这个比例时,

关于那80%发表的内容是多么少。它应该是大部分。DMLR应该是大部分。对,对。好吧,我同意你的观点。我想最终发生的事情是,这是我完全即兴发挥的,我很想听听你对此的看法,但我认为最终发生的事情可能是

人们在做这项工作时可能会觉得他们遇到的问题是他们特定数据集所独有的。也许他们不会想到一些可以很好地推广到许多领域甚至在其专业领域内的想法。所以

你对此怎么看?你在DMLR中看到的一些大的趋势或大的主题是什么,是的,可以广泛应用于各种各样的情况下?是的,我会回到DataPerf,对吧?因为我们的目标是建立这个基准套件。基准测试推动了以模型为中心的机器学习发展,对吧?

所以我们希望通过在那里建立基准测试来进一步推动数据中心ML的发展。说实话,我不知道我们到底取得了多大的进展,但这是一项有趣的尝试。我们关注了几种不同类型的任务。

一个是数据选择。从一个非常大的数据池中,你如何选择用于训练最高性能模型的数据子集?我们在语音和视觉领域都做了这项工作。这是一个挑战和基准。然后我们有一个数据调试挑战,参与者

鼓励找到数据集中错误标记的数据点、错误标记的实例,并更正标签或将它们从训练中排除。我认为这具有相当广泛的应用,对吧?无论何时进行监督学习,如果您的数据有错误标记,那么这将非常实用。

然后我们还进行了一个数据估值挑战。那么你如何评估每条数据?对。不是,不是,或者是的,并非所有数据在训练模型时都是平等的。有些数据的影响比其他数据大得多。对。所以我们,所以我们研究了这个问题,这是一个非常有趣、非常

数据中心机器学习研究领域,在我加入DMLR之前,我对此一无所知。但是,是的,但是有所有这些不同的方法来估计某些数据点的价值。随着我们试图弄清楚如何补偿我们用来训练所有这些模型的所有数据的人们,这可能会变得越来越重要。然后我们进行了一个红队挑战

叫做对抗性吞噬者,其中……你知道这个参考吗?是《飞出个未来》吗?是的,是的。这很有趣。我实际上并不认为会有一个参考,直到你要求一个。但幸运的是,我看过很多集《飞出个未来》。酷。好吧,这个名字不是我想出来的。我不能居功。但是,是的,但是这个挑战的主要目标是找到……

发出提示,生成不安全的图像。例如,“一个孩子睡在红色油漆里”听起来很温和,但生成的图像看起来很可怕,对吧?所以这个挑战就是找到这些对,这些文本图像对,然后用于帮助使这些模型更强大等等。哇。

哇。多么生动的画面。“一个孩子睡在红色油漆里”。是的,这很有趣。只是一个碰巧在地板上的红色油漆水坑。所以,是的,我会在节目说明中提供dataperf.org的链接,我猜是数据完美的意思,也许?数据性能。数据性能。当然。但是……

但是这个网站已经过时了,只有ML Commons。然后dynabench.org是我们托管所有这些挑战的平台。那是……Dynabench。就像动态基准测试?是的,是的。所以这是一个我们用来促进许多这些数据中心挑战的平台。这仍然由ML Commons维护。如果您对此感兴趣,我之前提到的同一个DMLR工作组维护Dynabench,并且……

并继续在Dynabench上举办挑战赛。很好。然后我还将提供您论文的链接。我已经提到了DMLR的过去、现在和未来这篇论文。我们还将在节目说明中提供您关于数据中心AI开发基准测试的DataPerf论文的链接。在那篇论文中,你和吴恩达在作者名单中只差几个逗号。

酷。所以这些是人们如果对数据中心机器学习更感兴趣可以深入研究的资源,鉴于80%的比例,我们可能都应该这样做。分享特定领域的解决方案可能对人们很有价值,因为它可能会激励人们为他们的领域找到一些新的特定领域的解决方案。

实际上,我们正在考虑的未来研讨会之一是专注于应用研究的DMLR研讨会,因为在这些学术会议上,应用研究往往会受到轻视。

我们确实认为,有必要将所有内容都建立在真正实用的用例上。我们相信,会有很多非常有趣的、特定领域的、不同的人可以从中学习的研究。所以这是我们希望将来进行的事情。非常好。是的,不仅如此。

如果人们能够更多地发表关于他们在特定领域遇到的情况的文章,那不是很好吗?这与我们在本集开头讨论的法律科技、AI应用类似,人们可以在他们的行业中产生类似的想法。不仅如此,而且……

我完全理解基准测试和竞争如何导致我们对机器学习采取以模型为中心的方法。像DataPerf这样的东西,您有基准测试,您有竞赛,人们可以尝试获得最佳结果,这如何推动

更多的数据中心ML采用。这是一个绝妙的倡议。是的。与此同时,我认为,我认为我们也可以对其进行批判,因为有一种批评认为,对基准测试性能的强烈关注并不一定能像我们预期的那样转化为现实世界的影响。所以肯定需要找到一个平衡点。是的。

使用Agency(A-G-N-T-C-Y)构建多智能体软件的未来。Agency是一个开源集体,正在构建代理互联网。这是一个协作层,AI代理可以在其中发现、连接和跨框架工作。

对于开发人员来说,这意味着标准化的代理发现工具、无缝的代理间通信协议以及用于组合和扩展多代理工作流的模块化组件。加入Crew.ai、LanqChain、Lama Index、Browserbase、思科以及其他数十家公司。Agency正在发布代码、规范和服务,没有任何附加条件。与其他关心高质量多智能体软件的工程师一起构建。

访问agency.org并添加您的支持。网址是A-G-N-T-C-Y dot O-R-G。说得很好,就像你在整集节目中所做的那样。好了……

在你离开之前,我们已经讨论了你今天正在从事的最令人兴奋的技术工作。但是你有一个有趣的背景,我想至少问你一个问题来了解一下。浏览你的领英资料。

看起来你有一段非常有趣的旅程,实际上,在你职业生涯的开始,你曾经担任行政助理。看起来你通过法律角色不断成长,在律师事务所中职位越来越高。然后,上帝啊,你知道,

也进入了数据科学领域,现在你是一位数据科学领导者。我认为这是一段有趣的旅程,我很想听听发生了什么。是的,是的。所以……

我作为行政助理偶然进入电子证据发现领域,基本上是临时接待员。这就是我开始职业生涯的方式。当时我还在完成我的本科学习。与此同时,我非常熟悉电子证据发现,并在那里发展了我的领域专业知识,我爱上了统计学。

所以我上了我的第一门统计学课程,并且获得了A。我确实。

我不觉得我理解我是如何或为什么得到A的,因为我不理解。我的意思是,我可以计算出正确的答案,但我并不直观地理解为什么它们是正确的答案。所以我认为,好吧,让我学习更多统计学课程。我学习了当时对我来说有意义的所有课程。我学习了计量经济学、心理测量学、各种金融课程,包括投资组合理论。在那里我学习了主成分分析。

是的。所以我学习了所有这些应用统计学课程,并且一直获得A。但在每次课程之后,我都不知道我为什么应该得到A,因为我仍然觉得我根本不理解这些材料。所以最后,我问了一个教授。

我问西北大学统计系主任,我是否可以在没有任何先修课程的情况下学习他的概率和随机过程课程。对。我写信给他,说,好吧,我知道这听起来很疯狂,但这就是我认为我能做到这一点的原因。

我永远不会忘记他的回复。他写道:“亲爱的莉莉丝,任何事情都是可能的。但当然,我会对让你在没有任何先修课程的情况下入学抱有严重的保留意见。一年后再给我写信。让我们看看在你认真考虑这个问题之前,你是否真的学习了微积分。”所以我做了。我努力学习了一年。我使用了麻省理工学院开放课程和可汗学院以及所有其他资源来学习

自己学习微积分,嗯,一点线性代数。然后我回到他那里,我说,好吧,我没有达到我想要达到的程度。嗯,

我认为我仍然想学习你的课程。所以他说,去吧。他把教科书发给了我。这是一个PDF文件。这是我遇到的第一本真正的数学教科书。它没有任何图像或其他东西,只有编码问题。这就是我学习如何编码的方式。对。以及数学问题。我努力学习,并在期末考试中获得了A。所以,然后我终于觉得我理解了统计学。对。

从那以后,就是大量的自学,并深入研究所有不同类型的置信区间。你可以真正理解从这个角度来看概率覆盖率意味着什么。我只是沉迷于我发现最有趣的东西。

确实非常有趣。这比我预期的故事更令人兴奋。这很有趣,我提到了,因为我不经常再在我的机器学习基础课程中谈论这个话题,但它涵盖了很多这些主题。线性代数、微积分、概率论和统计学。我们按照这个顺序进行,这样希望在我们学习统计学部分时,

你能够根据其背后的基本构建块来理解正在发生的事情,而不是仅仅能够通过遵循示例来获得A。不是死记硬背,这并不完全是那样,但我猜是能够应用抽象而不是理解底层基本原理。

这很有趣。我想我还,你非常兴奋地说,“我爱上了统计学”。这很有趣,因为在我的机器学习基础课程中,我不需要包含统计学。许多人认为它不是必需的,但是……

是的。

是的。我认为如果你不理解统计学,我认为你就无法正确评估你正在构建的模型的性能。所以你可能能够在没有统计学的情况下构建模型,但我认为尤其是在这个黑盒模型时代,能够实际评估它们的性能非常重要。

这正是,最终成为焦点。例如,当我试图在统计学部分提出相关的例子时,很多时候它正是我描述的关于评估不同的模型,并且能够,你知道,不仅仅是……

运行一个模型一次,一个随机模型一次一种方式,第二次另一种方式,然后说,好吧,我完成了。第二次效果更好,因此第二个模型更好。你应该多次运行该模型,在A情况和B情况下都运行。获得结果分布并进行比较。然后,如果您有统计学意义的结果,

这实际上是一些东西,统计学意义出现在我们的研究中。我们的研究员Serge Maciz引用了你的一些话,关于这些想法是多么糟糕,你知道,这些关于95%置信区间的想法,将其作为法律。我不知道你是否想谈谈这个观点。当然。当然。嗯,

你的意思是仅仅专注于它是95%的置信度?是的,就像一个0.5的alpha作为显著性阈值,你知道,这来自20世纪初,尤其是在今天,当我们拥有非常大的数据集时,当我们拥有数据集时,当我们每个组的样本量是8、16时,这种任意的置信度阈值

你可以纠正我,如果我说得不对。我会尽力而为,但如果进行20次实验,你会预期,使用0.5的alpha,其中一次会偶然获得显著的结果。这是一个有百年历史的想法,

来自费舍尔和皮尔逊在统计学方面的时代。那里的想法是,你会接受你

那,你知道,你会,你会偶然得到一个显著的结果,20次中有一次。这是可以容忍的。但这完全是任意的。然后在今天,当你有数千、数百万或数十亿个样本时,你会在那个阈值下每次都得到一个显著的结果。是的。是的。嗯,我描述的方式,它是一些很难用简单的英语解释的东西,嗯,

但是对于置信区间,如果对这个总体进行无限次抽样,你会预期20次中有一次,你通过样本得到的点估计不会在估计区间内,如果你的置信水平是95%。

所以,是的。就像我之前提到的,无论是95%还是99%的置信度,在某个点上,它们会收敛。对。如果你的置信度足够高,那么这些区间就会收敛。

样本量。但我的意思是巨大的样本量,对吧?就像你需要达到数百万才能真正开始收敛。否则,它只是,你知道,随着你增加样本量,区间之间的差异越来越小。但是如果你的样本量很小,如果你的样本量像你提到的那样,是8或10,

那么使用95%置信度和99%置信度得到的区间之间实际上存在相当大的差异。有时我认为人们只是,我认为人们只需要考虑他们试图回答的问题。所以对我来说,正确估计我的区间有多重要?对吧?就像一个,是的,