cover of episode 65. AI x 法律科技 | 探索数据工程为律师带来的效率革命

65. AI x 法律科技 | 探索数据工程为律师带来的效率革命

2024/12/5
logo of podcast 扩博智聊 | 有AI味道的访谈节目

扩博智聊 | 有AI味道的访谈节目

AI Deep Dive AI Chapters Transcript
People
张蕴颖 (Karen Zhang)
潘天一
Topics
张蕴颖 (Karen Zhang): 我本科专业是化学工程,后因行业形势和自身兴趣转行学习软件工程,从事数据工程师工作。在法律科技公司,我参与了多个项目的开发,包括客户关系管理系统(CRM)、法律文档管理系统和AI聊天机器人。这些系统通过自动化和数据分析,极大地提高了律师的工作效率,减少了重复性工作,例如查找文件、起草合同等。同时,我也观察到,AI技术的发展正在改变律师的职业发展路径,初级岗位减少,对高级律师的技能要求更高。在数据处理方面,我经常遇到数据格式不一致的问题,例如日期格式和数据类型等,需要进行标准化处理。此外,我还积极参与公益组织,希望通过分享我的经验,激励更多女性从事科技行业。 在加拿大,科技行业的就业情况近年来有所波动,2021年就业形势最好,2023年出现裁员潮,目前供大于求,对新毕业生不太友好。但对有经验的数据工程师来说,仍然存在不少机会。 数据工程师和数据科学家是紧密合作的关系,数据工程师负责构建数据管道和数据仓库,为数据科学家提供高质量的数据,从而支持他们进行模型构建和业务分析。 我参与的法律科技项目中,AI聊天机器人通过学习大量的法律文本数据,可以帮助律师起草文件、提供建议,进一步提高效率。 在个人职业发展方面,我始终保持对新技术的学习和关注,并思考如何在AI时代保持自身价值。我认为,数据工程师需要具备与客户沟通、理解需求的能力,这仍然是AI难以替代的。 潘天一:本期节目讨论了AI技术在法律科技领域的应用,以及由此带来的效率提升和职业变革。嘉宾张蕴颖分享了她从化学工程转行到数据工程的经历,以及她在法律科技公司的工作内容。她详细介绍了数据工程师在法律科技公司中的作用,以及如何利用AI技术提高律师的工作效率。同时,我们也探讨了AI技术带来的挑战,例如初级律师岗位的减少,以及如何应对这些挑战。

Deep Dive

Chapters

Shownotes Transcript

在你真正的做到就是比较 senior 的这个律师之前就是如果你是一个实习生给这个律师打下手的话基本就是都在找文件就是其实它是一个重复性很高的工作然后如果就是有一个可以去把它自动化的一个东西就比如说有这个 document 这个 feature 可以把它自动化的话

这样其实如果能做到就是满足律师的这些需求的话就是可以省掉很多时间大家好 欢迎收听《阔波治疗》智慧的智 聊天的聊我是主持人潘天一《阔波治疗》是一档带有 AI 味道的访谈节目节目背后的《阔波智能》虽然也是一家 AI 企业但我们在节目中邀请到的嘉宾也好讨论的话题与行业也好

都并不一定限于扩博智能自己服务的行业领域所以我们的愿景是通过《扩博治疗》这档节目让我们的听众更广泛地了解到一些多样性的人工智能应用场景和这些行业里有趣、有故事的人想更深入了解这些人可以关注我们的微信公众号《扩博智能 Clobotics》留言听友群三个字加入我们节目粉丝和嘉宾的互动群我们期待您的参与

说到人工智能我们其实离不开数据还有大数据我记得当时候就先谈不上这次的这一波这个 AI 浪潮已经早在 2016 年那一波上一次的这个浪潮之前当时候 AI 还没火起来的时候我自己记得市面上大家都在说大数据大数据我当时候自己还在想你

你收集了那么多数据海量数据到底干嘛呢那现在当然这个这个答案已经非常明显了就是就是用来训练这些模型但是我们呃很多应用 AI 的这些呃行业里边的这种呃

算是应用者吧我们其实我怎么去考虑这个数据的一些来源数据的质量和数据的一些其他相关问题我们可能使用者就如果要训练模型的时候就自己习惯性的从一个现成的这种数据库或者类似已经

被准备好的一些数据拿来去直接去用无论是训练或者去做一些推理或者别的方面的东西其实我们也不怎么去考虑数据是怎么来的但是其实这方面也挺重要的这跟 AI 也是一个非常相关的东西我们今天的嘉宾是张韵颖

他是来自加拿大一家云法律科技公司叫 CLIO 的数据工程师而且他之前呢也在那边念相关的一些学业方面的东西欢迎 Karen 来我们的节目哈喽大家好嗯

我的周问名叫张韵颖然后我来加拿大已经差不多十年了我是之前先在加拿大这边读的本科然后我本科的专业学的是 chemical engineering 也就是化学工程

然后后来就是 2020 年的时候然后当时就是有一波大概就是大数据数据科学以及软件这一方面的这个行业整个都特别的 popular 然后我也自己去大概看了一些课然后发现我们学校有一个一年的一个 master program 是学 software 相关的

然后我就算是一种机缘巧合吧,然后也读了这个 Software Master 的 program 然后呢我毕业之后就一直从事 Data Engineer 的工作,到现在已经差不多有三年了,三年多所以很高兴今天可以跟大家分享一些我个人的经历和对这个行业的一些理解

我们就从你这个学业这边开始吧就是我其实还挺好奇的你一开始读的这个本科其实跟软件也没什么任何相关的就是化工是吧所以当时候是什么让你去选择这个领域然后后面你又怎么

可能刚才你稍微有点提到了就是转行的这个机缘巧合是因为你看到了关于大数据的一些宣传但是你可以把整个这个思路在来龙去脉再更详细的说一遍吗对 好的 好的 没问题其实大概大致是有两个原因吧第一就是当时 2020 年的时候我是在加拿大的卡尔家里然后当时我本科毕业的时候我们这边的化工

毕业生主要就是从事石油方面的工作就是一个非常传统的行业然后当时就是石油这块经济并不是特别好所以可以有 available 的工作也很少

然后后来我就看到我们学校有这个一年的这个 program 就是关于 software 的然后我就大概去了解了一下也跟几个读这个 program 的学长聊了一下然后我就觉得因为首先这个 program 只有一年

然后就是时间投入的这个机会成本也比较少然后我就还蛮想试一下就是看看自己对这方面整个学下来到底有什么兴趣然后可以尝试一下看看能不能进入这个 tech 的行业所以我就觉得读这个 master program 还挺好的

所以我就也算是一种机缘巧合吧然后我就读了这个 program 然后发现上课的时候觉得还挺感兴趣的所以就觉得之后的职业发展也会往这个方向走然后就

选择了关于数据这方面的一个职位了我看你学的时候应该是非常投入就是这个反而在学习过程中找到了你自己算是属于自己的一个方向吧因为我看你的这个平均分数是满分的是

对就是当时感觉因为也就一年嘛所以就是想把所有的课就是用自己最好的就是 try my best 去学好然后就是基本上每一门课就是感觉还学的挺认真的然后我们当时有一门 machine learning 的课有一个 big data 的课还有就是

一些比较编程一些就是讲比较基础的一些理念就是 OOP 什么的还有一些就是专门学语言比如说 Java Python 这种课然后后来学下来就是感觉 Big Data 这块比较有意思吧就是它可以就是并不只是你

focus 在一个就是你的这个 technology 里面你还可以得到一些 business insight 虽然就是 data engineer 这方面得到的 insight 就是不如 data scientist

那么深入但是还是可以从里面获取一些关于 business 方面的一些东西所以我就觉得这个就有点像一个 intersection 一样就是 part of technology 然后 part ofbusiness insights 我觉得这个对我来说比较感兴趣

OK 这些角色之间的区别我等会还想问嘛但是在这个深入到这个话题之前我还挺好奇你刚才说你在 master 的时候学了不同的一些语言那你是在这个之前其实是没怎么接触过编程是吧是在研究生的时候才开始学的

对之前接触编程其实特别的浅薄吧我觉得就是一个大概大学大一还是大二的时候上了一个最 fundamental 的那种课就是大概让你知道一下这个 coding 到底是怎么回事然后让你写几个 for loop 这种的

就是我觉得特别的肤浅没有怎么深入就是在我读这个 program 之前是读了之后然后才慢慢的深入了解这些东西那么你毕业以后确实是好像之前你也说过就是还是比较运气好就是马上就接上接上轨然后直接加入了这个行业那么你

可以稍微简单讨论一下就是加拿大那边关于整个科技行业或者你所在的这种数据科技行业的一些就业情况现在是怎么样工作还好找吗嗯呃就是今年呃

我觉得就业情况最好的是 2021 年也就是我毕业的那一年然后在 23 年的时候就开始有一波裁员就是整个北美的科技行业就有一波裁员然后到今年我感觉稍微好了一点但是还是不如像 21 年的那个时候那么疯狂 21 年就是感觉整个行业大家都在

疯狂的跳槽然后就是隔一段时间就 recruiter reach out 那种现在的话没有那么疯狂但是我觉得工作还是有的但是有一点供大于求的这个感觉就是因为现在很多的大学生他们都选择了 computer science 或者 softwareengineering 相关的这些专业

然后其实需要的招的首先招的那个 new grad 这个岗位就肯定就是比不上 experienced hire 这块多然后

我们加拿大还就是有这种 co-op program 就是一个实习的 program 然后这个 program 就是在 Waterloo 是特别有名就是它会让你上大概两个学期的课然后去出去 co-op 一个学期然后呢其他的一些大学基本上是在大三的时候让你出去可以就是实习一年

但是这个现在竞争非常激烈就是基本每个单位要招这种实习生的岗位基本上就一两个吧就是一个 team 招一两个最多然后每一个发出去的 posting 都有好几百个人申请所以这个对实习生或者是对 new grad 我觉得现在其实并不是非常友好

就是我觉得主要原因就是学这个项目的人太多了对所以就有点在挤独木桥的感觉所以对 new grad 并不是很友好但是对 experience 他我觉得还是可以的就是这个 market 虽然没有前几年那么疯狂但是还是有一些 position 的

OK 那这种地理位置呢就比如说 Calgary 也算是你自己是怎么定义的就是加拿大的偏就是西岸偏中还是中部偏西呢

你怎么自己定义它不算是那种硅谷这种很热门的地方对是这样子就是虽然就是疫情的时候是最流行招这种 remote position 的那个阶段就是基本上疫情期间大部分的公司都不会太 care 你 base 在哪里

但是最近就是那个不知道大家有没有看新闻就是 Amazonannounce return to office 需要五天然后基本就是一个比较大的趋势就是 software industry 的呃员工也需要大概

Hybrid work 也就是大概一个星期需要去 office 一两天这样子然后如果看 industry 的话如果是 financial industry 招的这种 tech 职位就是多伦多要多一点就是像一些 fintech 比如说 stripewell simple 这些公司它都会需要你去 office 然后这些公司据我所知都会需要你 relocate 去 Toronto

然后 Vancouver 的话其实也还蛮多公司的就比如说我们现在的公司的总部也是在 Vancouver 的 Burnaby 那边然后 Vancouver 也有一些像什么 Amazon Microsoft 在那边也有公司 Calgary 说实话相对其他这两个城市就比较落后一点因为 Calgary

还是传统行业的公司比较多就是石油行业但是最近也在做一些转型就是也有一部分的 tech 公司现在在 base Calgary 但是我觉得 position 上来讲的话还是不如 Toronto 和 Mancour 那种的多等会我们也可以讨论你整个这个职业生涯的发展但是这个之前我就是先探讨一下刚才我已经卖了一个关子就是

数据岗位所以我因为不是我因为是自己也算是从外行转进来然后当时候学的东西其实没有那么扎根对你来说你自己怎么去理解不同的这些数据

岗位的一些偏这个区别就比如说从一开始那个刚才你提到的数据科学家然后你自己做的数据工程师还有什么数据分析师还有传统一点的就是做机器学习的工程那么这些就在我的理念里边好像都有点差不多对

那你这边有更细的这种细分吗对对这个我很乐意讲因为其实我刚入行的时候其实我自己也不是特别清楚然后就是 data engineerdata scientist 这个 difference 其实还蛮 confusing 的如果不是在这个 industry 里面的话就是

我们作为数据工程师我们一般是 deal with big data 就是处理大数据然后呢这个大数据又是一个非常宽泛的概念它描述了需要处理的这个海量的数据然后我们作为数据工程师的话我们是为企业就是为 end user 提供了处理大数据所需的工具和方法就是比如说

我们会建造 data pipeline 然后我们会去去会想就是你要怎么去布局你的这个数据仓库所以说就是我觉得我们的最主要的一个 mission 就是我们需要为 end user 提供一个呃

非常 convenient 然后非常有效的数据管道和一个非常容易你就可以用的一个数据仓库这个是我觉得我们作为数据工程师的一个主要任务

然后关于我们和数据科学家之间的联系其实 data scientist 就是我们 data engineer 的 downstream 的最主要的一个 user 之一就是可以这么理解就是一堆数据给到我们

然后我们作为 data engineer 我们做很多关于 data cleaningdata quality check 这样子的工作然后我们把一堆这个数据通过一系列的数据管道放到数据仓库里面然后数据科学家他会做一些 query 然后他会根据这些在数据仓库里面的数据他会建造他的模型

就是可以说数据工程师是为这个数据科学家所做的一些事情我们需要给他铺好路嗯

并且我们需要给他们提供高质量的数据这样子他们可以很方便的用这些数据你有没有觉得就是你们是在做一个这种基础基建然后数据科学家是在这个上面做各种 fancy 的这个应用但是他们会得到所有的这个坠光然后你们还是在做这个基础基建

可以这么理解但是我也不觉得就是呃那个有太多的 bias 或者怎样我觉得这两块就是都挺重要的因为就我感觉就像建房子一样如果你的这个呃更基没有搭好的话你也不可能把上面建的有多么好看或者是这个结构呃有多么的牢固所以我觉得

就是数据科学家跟数据工程师这两个 team 是一定是 work together 就是你们一定是需要相互合作的然后其实我们

我们的这个团就是我们团队基本上每天都会和就是数据科学家的团队就是进行沟通就是他们会告诉我们比如说他们有一些 new request 就比如说他们需要新增添一些 table 之前那个数据仓库里面没有

然后这个时候就会有一个 new ingestion request 就是我们需要去帮他把这个目前不在这个数据仓库里面的数据我们需要把它给他弄进去然后就是

还有的时候会比如说有一些 edge case 我们没有考虑到或者是有一些数据管道它在跑的时候出现了什么问题可能这个问题我们在数据仓库里面的时候并没有发现但是当它到这个数据科学家需要的 dashboard 也就是他们需要的那个 query 的时候可能会出现一些问题所以

所以就是我们这两个 team 其实就是联系非常的紧密就是感觉缺了谁都不可以如果你需要获得一些 a valuable business insight 的话那么还有那个刚才我在开头也说了我们可能偏应用者的时候流到我们这边其实数据已经被清理过了我们根本不知道它的源头是长什么样子那有没有一些

比较有趣的这种经历就是其实一个比较 common 就是比较难 deal with 的一个就是日期的格式就是 timestamp 并不是每一个 app 里面它的格式都是一样的就比如说今天这个日期有一些 app 里面记得会是先是 day 然后再是 month 然后再是 year 然后另一些里面可能就是他们先记得是 month 然后再是 day 然后再是 year

或者有一些他们就是记的时候出现了一些奇怪的东西就是他这个看起来并不是一个正常的 timestamp 然后这个时候就我们就需要去看到底是为什么所以就是比如说我们在 join 不同的 table 然后他这个不同的 table 有不一样的 timestamp 的时候我们就需要把这些日期格式进行标准化嗯

然后还有一个比较有意思就是也是最近遇到的一个 case 吧也是关于这个 timestamp 的就是我们在做 database migration 的时候有一种 use case 叫做 change data capture 就是比如说一个 column 我们在

上一次去处理这些上一次去把这些数据 ingest 到我们这个 pipeline 的时候它这个 column 是一种 type 就是一种

数据的格式然后它可能在下一次我们要把这些数据弄到我们的数据仓库的时候它又是另一种类型了然后这个时候的话我们就需要做 change data capture 然后在做这个 change data capture 的时候

我们用的这个服务叫做 Amazon 的一个叫做 DMS 的一个 service 然后这个 AWS 的 DMS 就是它在处理这个 timestamp column 的时候它就是把它给 cache 了

也就是说我们看到的这个 timestamp 就是一个非常奇怪的就比如说 9 开头的一个 year 或者是三级集体的一个 year 或者说是有一些 ID column 我们就是

common sense 认为它应该是 consistent 比如说就是九个数字的这么一串 ID 但是它在同一张表里它可能有的时候就是五位数然后有的时候就是九位数所以就是嗯

一张表里面的这些数据并不是 standardized 然后就是比如说像我刚刚提到的这个日期格式在不同的这个数据原理的整合里面其实就是还是蛮常见这个 time sample 我们需要把它去 standardize 就是并不是在每一个数据原理都是像我们 assume 的就是先是 day 再是 month 再是 year 然后

它还有很多的格式比如说是 UTC 它有不同的 region 就是有一些 app 里面它会以这个 UTC 作为 time 的这个 region 就是时区然后有一些它默认可能就不是这个时区所以这个时候我们就需要把这个日期这个 column 我们需要把它 standardize

虽然就是很多你说的场景可能对我来说已经是比较高级但是我好像最近在自己的一些搭建的应用里面也遇到过就我的一个场景是帮一个客户把他的一些物流的信息他每一条这个他的表其实很简单就是在一个 Excel 里边但是你说的那种列里边一个列里边他的数据格式可能还是会变或者有的时候那个列是空的

然后就没有这个东西所以你可能一开始建了一些建了一些这个测试数据的时候搭建的一些逻辑到后面真正使用的时候又看到新的数据来你发现这个逻辑又跑不通了或者出现一些你没有之前没有预想的这个 bug 就比如说如果你之前期待的一个值现在是空的那怎么办可能你就跑不出之前的那种结果

对是的就是这些的话一般在做一个新的这个数据管道的话最主要的就是首先你要明白你的这个数据源是什么就是所谓的你的这个 data 是什么 shape 就是一般我们拿到一组新的数据的话我们会先做一下 EDA 就是 exploratory data analysis 一个探索性的数据

分析吧或者挖掘这个时候你其实还是不会做那个真正的要做的处理的业务只是说去看看这个数据长什么样子可能猜到以后会遇到哪些坑

对是这样子的就是大概看一下这个数据到底长什么样子但是之后的整个管道我们需要怎么设计包括整个数据仓库我们需要怎么设计这些就是需要有 sample data 然后我们大概比如说先建一个设想的这个数据管道然后我们用一些就是 sample data 就是我们可能截取部分

一些数据然后跑一跑这个管道看看会出现什么问题然后之后再根据我们出现到的问题然后再进行这个数据管道方面的修改然后如果就是有 now 就是有这些空的值的话我们会大概看一下为什么是一个列里只有一两个

数据是空着的还是说一个列里大部分的数据都是空着的所以就是这些情况都会有不同的考虑方法还有就是一个比较常见的我们需要考虑的东西就是你需要怎么样去处理这个空数据你是直接把它

扔掉就是说不要了就这样子的话就是你可以 save 一些 memory 或者是你这些东西完全就是对于你来说没有任何的价值的话那这些空的数据

是不是可以不要然后还有一种方法就是把这个空的数据或者是一些我们通过就是这个数据质量检测的时候我们发现这组数据并不是我们想要的好的质量的数据那我们可能会选择把它放到另外一个 storage 里面就是我们不把它删掉但是我们把它存到一个我们不经常去用它的一个地方

还有就是我们可以就是建一个新的数据管道我们尝试去修这些

不好的数据所以就是这三个 use case 就是还是挺经常需要考虑的然后这个需要考虑的一个最大的决策因素就是这些比如说这些空的东西对我们需要回答的问题来说有没有用如果有用的话一般不会选择删掉然后就是会看一下我们需要怎么处理它们

我觉得这个作为我们的一个关于数据的一个基础课还是挺好的一个科普那我们后面其实我想讨论的一些就是跟片应用的东西虽然刚才你也说了做基础基建的可能从这种业务业务洞察角度不是那么像

数据科学那么直接可以对接但是你毕竟毕业以后也工作了已经有几家公司了嘛就是他们就是除了你在那里边做这个数据工程以外肯定

这些公司本身的业务你其实也是接触了一点所以就是可不可以讲讲就是你后面服务的这些领域到底长什么样子为什么比如说他们需要你做这种数据管道数据工程他们的核心的最后的那个应用是怎么样给用户带来价值

好我讲一下我现在这个就是法律科技公司的一些应用场景我觉得可能这个会比较有意思一点我们公司的这个软件就叫做 Clio 然后它有几个比较主要的 feature 其中一个是叫做 Clio Grow 就是一个 CRM 的一个 feature 就是

customer management 一个 platform 就比如说一个律师他需要接很多很多个 case 然后他接这么多个 case 的时候他就是需要一个很中心化的一个地方他可以去管理他的这些用户

然后我们这些律师需要为他做一些比如说是 billing 就是这个律师或者律所比如说他给他服务了这么多个小时他需要给他发这个账单然后还有就是 booking 就是比如说这个律师他需要一个应用可以帮助他去如何高效的管理他的这个时间

然后还有一个就是定价策略这一块就是可以根据它的一些历史的数据建议合理的这个收费

这个就是我们 clear grow 这个方面主要 cover 的一些 case 就是主要就是为律所管理他们的接待的客人然后这个其实应用的还比较广泛的就是这个 clear grow 基本上每一个律所或者律师就是会感兴趣这个 feature 就是因为

他需要一个比较中心化的地方去管理他的这些客人然后我们还会通过这个软件为帮助这些律所或者律师做一些数据推动的决策然后这个 ClueGrow 是一方面然后还有一方面我们叫做 Documents 就是帮助这些律师和律所去管理他的这些法律文档的

然后我们这个 Documents 方面呢就是我们可以有一些智能提取的一些功能然后我们可以分享一些比较关键的文件信息然后可以帮助这个律师去减少重复性的工作让他去专注于更高价值的这个法律分析

然后第三块我讲一讲最近我们做的一个 AI 领域的一个东西就是一个 AI 的 chatbot 这个 AI 的 chatbot 的这个应用场景主要就是首先我们刚刚提到了一个律师他需要进行很大量的这些文本的数据处理和分析所以他的重复性工作其实是很多的

然后这个 AI 的 chatbot 我们就可以用它这个律师可以问这个 chatbot 一些问题然后呢他就可以做一些这些基于他目前的一些文本数据的处理和分析

还有就是比如说一个律师他需要起草一个文件的话他可以通过这个 AI 的 chatbot 然后让这个 chatbot 给他提供一些有效的建议比如说是给这个文件他来提供一些框架然后这个律师只需要去写一些比较细节的东西这样子的话其实就是可以给这个律师

省了很多就是重复化工作的这些时间所以就是这三个 use case 是我们公司现在处理的一些 use case 然后我觉得还挺有意思的对然后就是回答一下我们作为数据工程师的这个团队是怎么帮助上面我说到的这几个 use case 的就是其实任何的它这个

中端的用户他用他需要用到这些数据的话跟我们其实都是联系非常紧密的因为我们需要从这个数据的 data source 就是这个数据的源头我们需要去建这个数据管道从他的源头先把它给取出来然后取出来之后我们再做 etl 也就是 e 就是 extract 就是先把它取出来

然后 T 就是代表 transform,transform 就是我们中间会做一些 engineering 方面的东西,比如说我们需要做一些 data quality check,我们需要把不同的表去把它连起来,或者是我们需要去做一些比较,

基础和简单的一些分析然后我们去掉一些我们不需要的数据这个就是我们在 transform 当中需要做的工作然后最后就是对对是的然后最后就是 L 就是 load 的意思

最后这一步就是我们把它放到需要的人所有的这个数据仓库就是最后一步就是 load 这一步所以就是刚刚所说的这些 use case 比如说是 clear grow 就是一个 customer management 的一个这个 database

然后我们就是把它放到我们现在的数据仓库里面然后一些下游的一些我们有一个另外的就是 customer reporting 的一个组它会给我们这些 end user 再进一步的处理它这些数据然后他们会写一些逻辑怎么把这些数据让我们的终端用户看到然后如果我们是做这个 AI chatbot 的话

就是我们需要首先如果是 machine learning team 他需要用这些数据的话我们首先就是给他保证这个数据的质量我们需要给他保证

至少他用来 train 的这些 data 是好的数据就是不能一半的数据都差的非常多差的非常离谱这些我们就是需要避免这些东西然后就是像刚才说的我们就是会给这些 AI chatbot 之前的数据做好处理就是给他们铺好路这个意思那

关于这个 client intake 就是这种这个 cleo grow 的部分去服务他们的一些这些律师的我觉得刚才你说的一个我比较好奇的一个场景就是在通过不同的历史数据历史操作建议一个定价的逻辑就是这里可能会有哪些因素会去决定这个定价是一个什么水平呢

我的理解就是他会根据一些不同的 parameters 比如说你的这个 case 的复杂程度有多少你的这个已经投入的这个时间有多少或者说是同样级别的律师就是同样比如说工作了大概五年或者十年同样级别就是同样 senior 级别的律师他们的这个定价大概是多少

根据这些 input 做一个就是大概的模型出来然后它可以帮你自动定义一个区间就是像我

我不知道你们有没有用过 Airbnb 就是 Airbnb 它作为一个你如果作为 Airbnb 的屋主的话你可以设置一个 Dynamic Pricing 就是说它会就是它这个平台会自动根据一些当下的需求然后还有你这个你本身的这个情况就是供与求之间的关系它会做一个 Balance 做一个平衡

然后就是这个功能跟它的这个 dynamic pricing 的这个功能会比较像我觉得 OK 有点像酒店式的那种季节性各种

供需动态的调整对我的理解应该是会有这些方面的考量但是我没有在那个 team 工作过所以我不是特别确定但是我猜应该是这样当然你可以判断一部分就是你给下游提供了哪一些数据哪一些 feature 就是哪一些这些列那么可能后面就会拿这些列的信息作为一些

判断的依据对对对那么 OK 当然最近的这个因为大圆模型比较普遍覆盖整个就是不同的行业那么对于这个 AR Chatbot 其实我也蛮感兴趣的就是你们这边比如说让他起草一些

合同的模板啊什么的这些就是你应该也是预先把一些模板的这个数据喂进去它也这个模型不一定是能凭空的就是去给你就虽然它大模型也会 hallucinate 它的这个这种造假或者幻觉我只是想考虑进去就是在这个法律服务行业需要很多

就是你的用词要非常精准那么在这种情况下大模型跟传统的这种数据还有点不一样吧大模型还有很多它自己内在的一些不确定性那么这种情况你们是有预料过吗会怎么去处理

我作为数据工程师这个组我们还没有真正的去接受接触这个大语言模型然后我们主要是负责一些传统的传统的这方面的一些 training data 就是

当然就是这个数据的这个 size 也比不上大语言模型的那种但是就是我们做过一些 training data 的这个 data pipeline 然后需要把一些 training data 去放到一个 data warehouse 里这个我们做过但是大语言模型我其实在我现在的这个组并没有真正的接触过

OK 那你们的那种训练数据是长什么样子它也是类似历史的一些这种文档吗对会有一些 sample 的这个历史的文档还有一种就是比如说是就是问答形式的比如说这个 checkbot 有一个什么样子的问题然后我预期一个怎样的答案就是很多是这种问答式的这个 training data

那这种是从之前的有些历史的就是可能在没有机器人的时候已经记录下来的那种客服的场景里面就自动会记录可能人工的一些回复吗他会不会用一些客服的这种场景的数据拿来训练

这个我其实不是特别清楚它这个训练的数据到底是哪来的我想应该可能部分是从这个客服的这个问答里面会截取一些就是比如说一些比较 common 的一些问题就是比较普遍大家可能都想知道的这种这种的我觉得应该就是会收取一些 OK 在我眼里就是一个法律服务科技是应该已经算是比

非常传统的一个领域了但是也能用上 AI

其实我们这边也有很多客户也是探索他可能本身不是律师但是是一种企业里边的不同的功能嘛那其中一个功能可能就是会计但是另一个功能可能就是他的这个企业内部的一些律师或者他的法务的一些应用场景其实听起来跟你说的也类似差不多就是需要高效的去

可能起草一些文件啊或者做一些这种阅读审核就是看还有没有问题对对就是我感觉这个就是大方向的这个逻辑其实还挺多就是不止这个律师行业就是挺多行业我觉得都还挺适用的没错没错我们更加偏向就是一个通用的

对像通用的一种白领办公对有这个感觉刚才还有一个场景好像你提过就是我也觉得蛮有意思的而且我们也在尝试的就是比如说你要起草一些文件它总是需要

那些固定的一些填空就是你的模板其实是固定的但是你的内容每个 case 会不同那么你会为这些 case 先可能收集一些证据或者这个材料但是你每个材料又要把这些关键的信息再提取出来然后填到那个表里边填到那些固定的那些位置里边

那可能每个材料是不一样然后有的是照片有的是这个扫描件它的那个文本其实是要先识别出来也会花很多时间可能传统传统这个律手里边会有大量的这种

刚刚毕业的应届生或者实习生去做这种比较基层的工作对其实我有跟我一个朋友他也是在这个律师行业的我之前跟他聊过在你真正的做到比较 senior 的律师之前如果你是一个实习生给律师打下手的话基本就是都在找文件

就是其实它是一个重复性很高的工作然后如果就是有一个可以去把它自动化的一个东西就比如说有这个 document 这个 feature 可以把它自动化的话这样其实如果能做到就是满足律师的这些需求的话就是可以省掉很多时间比如说有一个模板可以用来起草一个

就是一个 matter 的一个合同那我们就是可以用它来去 automate 掉很多比如说重复性很高的事情这个我跟其他的我们往期的一些关于尤其是关于这个法律服务的律师也聊过就是有一个现象可能会发现在近几年

这些律所就会有越来越少这些 junior 刚刚毕业的这个人的这种整个 level 就是他的人数就变得少很多了那么就导致他传统在这个行业里就是一个人怎么会变成 senior 如果他之前都是靠做这种比较基层的工作然后慢慢的就是累积经验

爬上去那么现在等于这个中间的这个部分就等于是完全断掉了只有一些几个 senior 的人然后没几个 junior 那以后的 senior 的人是怎么来这也是个问题对这个其实我还挺感同身受的因为这个痛点吧其实我觉得就是

比如说这个痛点其实在我们行业也是存在的就是它我觉得很大程度都取决于这个公司它这个是怎么去培养新人的就是它整个帮助新人去成长的这个环境是怎么样的就比如说如果一些公司它的这个环境对一些新人并不友好的话

有可能你干了两年你还是在干一个重复性很高的事情然后你就永远都在干这种事情就是他其实是一个痛点因为就是 senior 的人他会越来越 senior 因为他知道的东西越来越多但是你是怎样从一个实习生的一个 internship 的一个 student 你怎样去

去拿到一些首先就是你需要得到别人的认可然后你的老板会给你一些比较 challenging 就是你现在不知道但是你做完这个 project 会学到很多的这个东西你需要有这个机会你才可以去成长所以这个其实我觉得这个痛点还蛮普遍存在的

我们其实说到这个就可以转移到我们今天最后一个话题就是你在工作之外其实还会做很多这种志愿方面的一些参加他们的组织的活动我觉得这种社会性的问题可能是一方面你觉得应该是蛮感兴趣的吧所以你会做这件事情所以你能不能讲一讲就是从

你毕业以来或者甚至在学校参与的一些项目对就是我现在在给我们这个当地的卡尔加里的一个 data society 就是一个 non-profit 就是一个组织它是就是免费不收钱的然后它是它的宗旨就是想要去聚集我们

就是当地的所有做数据方面的一些 professional 就是不管你是 data scientistdata engineer 或者是做 machine learning 这方面的人然后

我的职责就是我会组织一些 meetup 比如说下个月有一场这个 presentation 就是我们会请 Microsoft 的人给我们大家做一个 presentation 讲一下他们比如说 copilot 的一些新的功能呀或者是也有

我们也请过 Databricks 的人就是他会介绍一下 Databricks 比如说在这个 AI 方面推出了什么新的功能怎样他通过就是我们这些需要用他这个软件的人可以去更快速更好的用它我做这些事情的

最基本的这个原因和就是我内心的一个 motivation 吧就是我希望从我和我一样身处在这个行业里面的人身上去获得一些灵感就是因为每一个人的故事都是不一样的每一个人的背景他们也都不一样所以我就觉得

因为我其实入行并不是很久然后我就想从大家身上去学一点东西或者就是建立一下自己的这个 network 就是去和不同的人去交流然后了解一下他们目前比如说是他们对这个 AI 方面他们是怎么想呀或者是比如说一些比较新的这个 technology 比如说

就是新的 architecture 有像 data lakehouse 或者是我们叫一个 data mesh 的一个 data architecture 听一下其他的跟我身处同一个行业的人他们是怎样的一个想法他们觉得这些 technology

对以后我们整个行业的这个发展是怎样的我觉得还是能从里面学到很多就是得到很多灵感吧这么说就是还有就是我刚刚说的大家的这个 background 都不一样然后大家是不同的人是怎么一步一步的他比如说像我是本科学了一个不同的专业然后转成了另一个专业

然后也有其他不同的人他们可能也是有相似的想法或者是有不一样的想法我觉得听一听这些人不同的想法有的时候还能给我带来挺多启发的所以这就是我为什么觉得就是组织这些 meetup 然后做这些 volunteering 让我感觉就是一个很 motivate 的一个事情

然后还有就是能给其他更多的一些新人提供价值吧就是比如说我们去讨论了这个 topic 然后相对来说这个行业里面比较新的一些人他们也可以从里面去获得一些启发然后他们也在建立他们自己的 network 我觉得就是通过这件事情我也帮助到了更多的人我觉得这件事情也让我挺开心的所以就是我做这些 volunteering 的这个初衷

除了刚才你说的这个 Data Society 以外你还在一个叫 Women Techmakers 的这个组织里边做一个一个大事那么这种 ambassador 所以所以

就是从女性在科技行业我们可能又是一个刻板印象尤其是在北美硅谷都是一些 white male 年轻的所以是这种就是群体他们在 build 未来的一个世界但是这个可能是真正就是我说的是一个刻板印象它实际上这个整个科技行业的从业者是有多么

多么多元化多样性对这个我还挺愿意讲的就是这个我们 Techmaker 它是 Google 的一个 program 然后就是它会鼓励我们这些女性的这个科技行业的从业者去多组织一些有利于就是服务于

女性的一些项目或者是它会鼓励我们作为女生的话多组织一些比如说是我干的这些 meetup 就是多组织一些关于我们这个行业方面的一些活动它的初衷是这个然后其实以我的工作经历来看包括是我在上我在上学我在上这个 software master 的这段时间

男生的确是跟女生比多很多基本上男女比例我觉得差不多在 8 比 2 左右吧啊

对然后比如说就是拿我现在的这个 team 为例子大概是十个人左右然后是两个女生然后剩下的都是男生还是这个同样的比例对对对对就是的确是有这个刻板印象的存在但是我觉得就是作为女生来讲的话嗯

在一些就是技术讨论啊什么方面的这些东西就是我觉得大家就是非常平等就是有什么就说什么然后大家也不会有什么 bias 什么之类就是我觉得就是其实你自己需要比较 confident 然后你自己需要就是 feel comfortable 不要给自己不要就是感觉真的有这些什么 bias 或者刻板印象的存在其实

我觉得就是特别是科技行业之前有很多就是鼓励女性的一些项目

其实大家都非常鼓励女生包括有一些就是我们这个我们这个社区就是在办的一些就是比如说是鼓励一些青少年的女性比如说是高中生呀或者是初中生鼓励她们就是从小就是开始学这些关于 STEM 有关的这些东西我觉得就是

北美这边整个工作氛围尤其是科技行业对女生其实还是非常友好的而且就是有一些公司它可能就是需要保持男女比例平衡或者是怎样可能就是如果你是女生还能占一定优势

所以就是大家我感觉也不需要有刻板印象或者是怎样就是作为女生就是其实还是挺平等的在这边应该也是这个利于你在这些组织里面做过很多这个努力才可以把这个就其实我觉得就是之前我们在录制之前讨论这个时候你说过一句话我觉得印象还是比较深刻的就是

你想通过把自己的这些经历作为一个例子给那些就是你说的可能这些青少年的女生给她们带来更多的灵感让她们去敢做这个就是学理工的一个决定吧或者对这方面的兴趣

对其实作为中国人就是亚裔吧在这边本来就是 minority 就是一个比较少数的种族吧就是跟白人比起来我们还是占少数吧但是就是

现在当然就是公司里都会讲平等呀什么的但是就是还是有这种会有 traditional 的这个思想存在就是会觉得还是一个其实这一点我感觉在传统行业其实比较会比较多一点就是真的就是一个 white people dominate 的一个行业就是

是真的如果你去看那个就是比如说石油行业的一些对就是他们 VP 或者以上级别的话基本就是

都是白人男性就基本上看不到除了白人男性以外的影子当然最近就是这几年可能他需要政治正确所以稍微好了一点但是的确这个东西是存在的但是在科技领域可能也是因为大家讲这个事情讲的比较多就是大家不会允许这种

bias 太过于偏激的存在吧所以就是如果就是看一个正常科技公司的一个 org chart 就是看比如说它的这个领导者呀是哪个族裔的呀其实亚洲女性还是有相当一部分是在做这些领导席位当然这个数量肯定是比不上

比不上男性但是还是有部分的人在做这样的事情就是所以就是说作为一个 female minority 这个可能性并不是没有而是你需要就是一个一个很自信的一个姿态然后你需要去证明给大家你可以去胜任这个职位你可以去做这个事情所以就是我觉得

看到一些其他人的这个故事呀或者是看到一些其他比我年长比我经历多很多的亚裔女性最后在这个事业上比较成功的这些例子我觉得还是对我来说还是很 inspired 所以就是这也是我为什么就是想就是做这个 woman techniker 一个原因就是可能有一些呃

比我小的或者是正在读大学或者是读高中的一些和我经历差不多的一些人我可能可以用我的经历去 inspire 到他们我觉得这个对我来说也很有意义是的起码就是你不要作为否定自己的那个第一个人

对对对因为自己这个坎也过不了的话那肯定就没法去证明自己了对对是这样的首先就是需要需要相信自己就是不要就是一棒子打死觉得这个行业只有就是只有男性才可以胜任其实并不是这样子嗯

OK 非常好的一个 message 给大家那么我们节目最后的一个环节就是嘉宾的推荐 Karen 你今天给我们大家带来一些什么有趣的东西呢有趣的东西就是我最近就在看那个就是金融学有一个叫抗波周期的一个东西我感觉还挺有意思的

他说的就是基本上就是这个经济学里的一个周期吧就是大概从这个欣喜到衰落大概整个加起来是几十年的一个时间比如说第一波我们比如说有什么蒸汽机呀然后再到第二波第三波直到现在我们有这个什么人工智能

可再生资源一些这种比较革新的东西就是它的这个主要的这个中心的要义就是说它每一个周期大概都会包括繁荣衰退萧条然后复苏这么几个阶段就是我觉得研究这个还挺有意思的然后觉得从这个里面也可以

联想到就是比如说我们作为这个科技行业比如说我们想一想大概十年以前大家比如说有 AI 这个概念但是完全就不会想到说之后 ChatGPT 或者是 AI 方面的应用会有这么的普及甚至有人说现在的这个

AI 的革命是第三次工业革命也有这种说法所以就是我感觉就是我觉得这个读一读这个抗拨周期还是挺有意思的然后可其实可以

用这个周期结合到一些其他的不是就是经济学以外的一些事情也可以用这个周期进行解释然后一些东西也可以用它进行联想我觉得挺有意思的你有没有觉得就是随着科技发展的这个速度它每个周期的期长会变成越来越短

就是更频繁对我其实想过这个问题就是比如说我们第一次工业革命蒸汽机纺织的那段时间我感觉可能差不多有大级十年吧但是看看现在就是这些 AI 的

AI 的这些迭代我觉得真的是非常的快如果我们看就是 XGPT 的它的那些大模型或者是其他的一些平台 competitor 他们做的一些大模型就是迭代起来真的是感觉不出一个月它就可以迭代一次所以就是感觉现在随着这些科技的发展每一次的迭代我觉得都会越来越短然后最终就是也不知道会发展成什么样子

那你自己的心态是什么呢你会觉得很 FOMO 还是你就躺平去观察我觉得还是以一个观察的角度吧就是首先

不可以抗拒 AI 这个东西就是首先 AI 出来的这些相关的工具比如说是 Copilot 一些可以帮助你提高生产效率的这个工具我觉得是一定需要用的因为这个就是一是可以给你提高你的这个生产效率然后还有一个就是你可以 Keep updated 就是你知道最新的这个科技它

给你带来了一些什么价值它下一步可能会怎样所以我觉得这个是非常关键的然后至于至于我自己这个数据工程师的这个岗位我觉得就是现在任何一个比如说不管你是这个 software developer 或者是你是一个 data engineer 像我一样

它是一个需要与别人沟通也就是说你需要去 gather business contacts 就是说你需要知道你的这个任务把它做完需要分为一二三四五这么五步然后 AI 它可以给你带来的这个效果是你可以就是相当于你是一个军师然后具体的这些执行的步骤你可以通过 AI 来进行

你可以减化你的这个工作量所以我觉得 FOMO 也算不上就是需要 keep updatedwith 这个最新的这个科技然后我需要就是知道我自己相对 AI 来说我不可替代的价值是什么所以你明确了这个价值之后你自己的这个存在的价值之后并不是单纯的一个你只是一个写代码的人所以

就是我觉得至少短暂的几年内应该不会被期待吧

对现在 AI 写代码的这个工具也挺牛的主要还是辅助吧对对对是的就是其实很多你需要和你的这个下游的这些用户你需要去交流你需要你需要告诉他我们正在做什么事情或者是我需要更加明确他的需求到底是什么是可以的什么是不可以的这些 AI 就是都

不能完全去帮我们完成所以就是还是需要人的这个交流在里面好的今天也学到了不少非常感谢张俊颖来给我们做了这一期的分享谢谢很高兴回答大家如果之后有什么问题都可以联系我您现在收听的是阔博治疗一档带有 AI 味道的访谈节目如果您喜欢这一期节目请给我们留个言或点个赞

请不吝点赞 订阅 转发 打赏支持明镜与点点栏目