cover of episode 67. AI x 金融科技 | 不要因为有大模型就忽视一句正则表达式能解决的问题

67. AI x 金融科技 | 不要因为有大模型就忽视一句正则表达式能解决的问题

2025/1/3
logo of podcast 扩博智聊 | 有AI味道的访谈节目

扩博智聊 | 有AI味道的访谈节目

AI Chapters Transcript
Chapters

Shownotes Transcript

不过还是美国金融体系还有美国政府体系的一个批评就是美国经常会产生很多前沿性的技术但往往他们自己的系统都是 late adopter 就是说在这个 startup curve 里面总是会有别的国家别的人先去利用美国所学到的技术发扬光大然后美国总是莫名其妙的很晚就是说开始用这个东西

大家好,欢迎收听《阔波治疗》,智慧的智,聊天的聊,我是主持人潘天一《阔波治疗》是一档带有 AI 味道的访谈节目,节目背后的《阔波智能》虽然也是一家 AI 企业但我们在节目中邀请到的嘉宾也好,讨论的话题与行业也好

都并不一定限于扩博智能自己服务的行业领域所以我们的愿景是通过《扩博治疗》这档节目让我们的听众更广泛地了解到一些多样性的人工智能应用场景和这些行业里有趣、有故事的人想更深入了解这些人可以关注我们的微信公众号《扩博智能 Clobotics》留言听友群三个字加入我们节目粉丝和嘉宾的互动群我们期待您的参与

我们今天的这个嘉宾我们是前同事然后在上海我们住的也非常近当然我后面才发现我们是 almost 邻居但今天的这个节目呢还是得稍微给一个 geek warning 稍微有个书呆的这个警告我们会可能聊的会偏比较技术欢迎到我们的节目 AlanAlan 大家好我认识你的时候我还没到阔博

我们都是阔博的老员工啊而且我们现在做这个节目的时候我们坐在阔博的新的办公室的会议室里面其实是老板的房间今天老板不在所以我们霸占了老板的房间来录这个节目也是最近这个公司搬了家我们作为老员工也是想过来看看正好这个圣诞假期艾伦也来回国了所以我们来看看这个怎么样

但是就是我回到刚才想问你的问题我认识你的时候你当时候是已经来还没有正式来吧还是实习生还是一个什么身份你当时候已经在阔博的那个北美办公室对吧对我那个时候是实习嘛我是 19 年 6 月份转正的 OKOK

对因为我 19 年 5 月份加入但是我之前来比如说 18 年的时候那个时候还是刘信还在的时候就是你还在这封店的时候对很早期但是 OK 那从更早就是我们 backtrack 就是你是从中国这边移民到美国还是你是在那边出生的我是在那边出生的然后我是属于就是在国内一直读国际学校然后出去上了个大学然后就在美国开始干活

所以你是在美国出生但是你有一段时间是在中国生活的对然后在这边上国际学校在毕业以后又去那边就是高中毕业以后就去那边读大学是吧是的然后就在那边开始工作了你读的是哪个大学我是在华大读的计算机三年毕业了就出来干活了我一直把你就是在我的心里 classify 成一个人才天才

已经不是人产了是天产了就是那么年轻的时候就有点像是个高中生是类似来我们这儿去学习然后现在在那边其实也就是跟你聊的时候我觉得我都跟不上去了

所以你可以说说你整个大概的一个履历吗?对,所以我也算是经历了不少改变吧,其实本科当时学的时候方向其实是 operating systems,

是可以叫为传统的这个计算机操作系统就是这跟后来其实出来以后去做 ML 其实还不太一样然后 ML 的话我其实一直也不是做算法其实一直在帮他们做 infrastructure 跟系统方面的工作

现在从一种角度上来说这个前景也是不错的因为一方面来说现在搜的这些 deep learning 也好这些机器学习的框架都比以前成熟了如果考虑我刚毕业的那段时间甚至我刚加入扩博的时间我们还能记得当时我们还在用就是一个非常古老的一个框架叫 cafe 那些东西很不成熟的对

对但是这个非常快速的就是在这几年全部都被这些大公司生成的这个 TensorFlow 跟 PyTorch 给替代了然后你会发现其实现在对于算法的要求其实反而对于绝大多数的场景上面是变低了对于如果有这种 AI 应用需求的话大家就会选择这种类似 Model 2 的这种情况

就会去选择用这种框架里面已经成熟的这种模型然后作为基本再好在这个基础上面再做后续的加工来迭代自己的产品然后往往其实这个就已经足够让很多的这个 business 和这种公司上面的这种 use case 能够盈利所以其实最后真的是

像我毕业那个时候就是说去搞这种传统意义上的这种大模型还在这种做调餐跟这种自己网络设计的这些其实反而变少了甚至说能做这一部分的必定很少因为就是说去卷这个最新型的这种结构的这些公司一个是不缺钱一个也是不缺数据所以他们属于他们自己这个赛道的

一个类型你怎么选择就什么让你选对 machine learning 或者做这方面的工程感兴趣是一个机缘巧合还是你在某时候就看到这个你自己决定就要往这个方向去靠拢

我觉得我们其实都是属于 16 年刚好在上学的时候也是学了一部分的这个机器学习的原理然后我们同时也都看到了当时就是由 Inception 开始带来的这个 CV 狂潮嘛所以当然自然我们毕业的那个时候 CV 的确是一个非常火热的这个 poppet

所以几天巧合下就开始去往这方面继续研究当然就是说做系统 infrastructure 不管是做 ML 还是做传统意义上的后端其实都是有一定的相似性所以我倒不觉得这里面就是就比如说一定要做 ML 或者一定要做后端这个倒不一定那你怎么看待研究或者科研和企业应用或者商业应用

因为你刚才说就为什么我问这个问题是你说很多时候当然你用的是企业的研发团队为例对不对他们有资源但是其实你我大概理解的意思就是你还说要卷这个底层的一些理论啊什么的就是去研究网络架构啊或者那些什么实际网络怎么去搭建但是这个很远已经远离这个真正的应用场景了那对于你来说你的个人的兴趣的话是偏哪对

对所以我觉得就是说到就是说这种传统意义上的这种啊算法研发我觉得这个现在也是比较啊建立很艰苦的吧就是一方面来说如果我们拿就是说比如说美国这种啊

深薄的这种概率跟这种人数的这个分布来说如果你考虑就是说在任何一个计算机领域里面比如说美国前 30 的这种大学他们可能一年招 PHE 的学生在这某一个领域里面应该也不会超过五个人对吧所以就想而且如果想到比如我当时的就是学这个操作系统的导师的话他

80 年来这个华大来读这个计算机它的本科其实是学的这个心理学就是属于两个八竿子不着边的这个就是说领域对吧大家最后其实是去做操作系统去读一个计算机的博士对吧

但是如果你考虑就是说比如说近十年来的这个就是说博士申请那现在的这种特别是说如果你拿二五年来作为一个基本例子对吧如果你去看这个前三十学校的这个就是平均收入的这些人才往往很多其实先不说能够发表鼎会吧可能甚至都是几篇文章都已经在手了你说对于这一类人来说他在这样的一个普通

program 也好或者在这个这样的几年里面他得到的又是什么我觉得这个其实是要打一定的问号在过去其实就是说大家去读一个博士的 program 的其中的一部分的意义也是学会如何自主的去做这个科研跟研发但你会发现也可以从某种角度也是因为现在的人我们所拥有的资源比以前多然后一方面也是因为这个领域就是金融比较激烈但是

的确从概率上面来说这个是一个非常艰难的一个问题对吧然后哪怕在这比如说我们说某一个领域里面有就是说某一个大学他可能收五个人对吧那就是前 30 的大学那加起来这也就是 150 人对吧你要想在这 150 人里面你也会有所谓的这种政态分布对吧

所以绝大多数的这一部分的毕业生他们可能也实际上就是会去大厂去做普通的研发或者科研论语对所以其实从某种角度上来说他们的这个

在读博士的这样一个经验也没有很好的帮助他们去做而且他们的马农能力可能又比不上那些就是传统的这种软件工程的人的这个能力是的所以这些都是就是也都是异端吧那哪怕你说拿这种最顶尖的那的确他们这种是可能会就是说

引领潮流或者带领接下来的下一步但往往其实也是有很长的沉淀和时间迭代在里面这个可以从两个方面去体现一方面来说比如说如果我们拿今年的土地链得主 Hinton 作为一个例子他是上世纪 80 年代的时候在研究 backpropagation 这类型的算法对吧

那它是經過了 40 年的潛伏期這個東西現在被推到了明面上然後它現在成為了一個大戶人所以說多少人現在能在外面大廠環境這麼好的這樣一個情況下就是明白著有一條很好的財路跟未來把這條路給否掉去做這麼長時間的研發首先就不是一個很容易的事情

那再换一种方式去想这个问题如果我们看就是近几年最火的一篇 paper 就是这个 transformers 的这一篇 tentions are all you need 对吧当时写这篇论文呢其实里面甚至也有研究生也有这个

甚至这些人他哪怕没有博士其实也并没有阻碍他去做所谓的核心研究或者去做就是说这种伟大的发明所以这些我觉得都是值得大家去就是说反思就是说

特别是在这样一个 AI 的时代就是想去学任何新的东西或者去做任何新的事物其实这个门槛可能比我们想的还要低所以在以往就是说需要长时间的这种学术积累的这样的一个场景上面去做事情并不是非常适用于就是计算机的这个领域特别是有鉴于我们这个领域这个发展速度是不是可以说就好像这种

创新的氛围其实反而在一些比较领先的企业里面是更浓一个是企业里面一个我觉得就是这个开源项目吧当然我觉得现在其实大学的这些教授跟学生我觉得也是有一定的反思所以比如说如果我们看 LM 的这些新的发明也有很多其实是由这个大学生的这种博士团体在自主研发

其实我们今天就讨论过几个例子,比如说像 DSPy 这样一个 LM 的这样一个 prompt management 的一个工具,然后也有很多类似的。但是我觉得在学校里面做这种东西其实是有两个潜在的风险,一个就是说风头变的速度也是很快的。

在学校里面大家去读书的时候大家都不希望读了几年的书出来以后就所做的事情就不再主流或者不再有用这个东西有些时候可能有各种各样的原因一方面可能是技术迭代使你当时学的东西已经不再重要或者就是说已经可以完全的被平替那另外一种就是说可能很多当时你学的这种就是底层姿势现在已经

从另一个角度不重要的原因就是因为有些比如说负重前行的人使得它变得更简单更容易利用其实不管是从 TensorFlow PyTorch 从最开始的这个 Cafe 这样的一个过程的迭代我们其实就已经能看出这一点我最近就是总结了一个思路叫就是从整个人类的角度来说你看这个

发展是必然会发生的就是总有人会做这个事情对不对但是这个人做这个事情的人

落在你头上这个概率可能几乎是零就是说必然但是肯定不是所以就是虽然这个东西可能很庞大但是我们真的每个人能做到这个伟大的发明似乎可能就是一个很随机的一个事情是而且我觉得这东西与其说是靠天分靠努力其实更大的一个成分真的也是运气

在机缘巧合下有些事情自然就发生了就是 KB 后面的故事是什么人家就在一个

公司的这个走廊上突然两个人聊起来然后三个人聊起来四个人聊起来然后这个团队就出现了那就是你刚好那个时候走过你就是加入他当然我觉得现在如果去做研发的话其实如果是我的话我可能会问的问题就是如果我们看像 Hinting 这种人甚至说很多所谓伟大的这种科学发明或者这种

就是当年研发到带来的这种收益都是当事人当时未曾想到的甚至会否定他会很否定为什么你要研究神经网络你是不是脑子有病但往往也有可能过个二三十年甚至可能再超过我们这一世可能这样会被后人拿出来然后发现它的价值那其实从某种角度上来说去做基础科学研究啊

更更倾向于是做这方面的这个工作啊一旦自愿是吧就是你可能没有回报但是这个价值还是很高是啊所以这方面肯定是现在有一定的这个啊利益冲突吧毕竟现在所谓的外面的市场环境也很好而且就是说每个人造成影响的方式也注定不一样啊

基础科学是一条出路,对吧?那现在所有的这些企业所给人类带来的价值其实也是很庞大的,所以我并不觉得就是说人一定要去做研发,当然就是说做研发肯定是会有人愿意去走这条路,那我们当然是希望他们尽可能的成功,这样对我们来说都是一件好事,对吧?

刚才你提到了这种风口的变数变相然后又提到了这个自然语言处理 NLP 其实因为刚才我们说的我们认识的时候包括在阔博做的主要也是视觉方面的一些工作但现在

你自己也换了一个方向对吧我们好像都换了一个方向所以你可以就是介绍你后面的扣播以后近几年做的一些事情是往哪个方向去靠拢对所以近年我是在家 Fintech 然后

非常機緣巧合下開始做往大模型應用方面開始編這個時候你是大概幾幾年其實這個也是比較早的其實我們在我想想

23 年其实 6 月份的时候其实就已经有点感觉到就是说这一波风口的来临那个时候其实就已经在就是这方面在做工作但是其公司里面想做的事情无非也就是一个啊

聊天机器人来解决一部分我们这个客服的压力当然作为一个金融厂去做客服机器人这个肯定是跟很多传统一样的客服机器人的难度不那么一样一方面来说有美国有非常非常多的这种条规去限制在客服的时候你能说什么不能说什么对啊我在想这个监管的

这个压力很大一个是监管的压力很大还有一个也是做起来的难度非常大那个时候最开始做的时候那个时候还是 GP4O 这些东西问是钱甚至可以说是它的价格下来钱所以那个时候的开源模型比如说 Lama2 它的这个

理解能力跟他去做这样的一些功能的这个能力是远远不及现在比如当代的这个 GPD-4 更不要说就是说 FindTune 过后的这个 GPD-4 对吧

那更不要说我们现在就是说 GPT 它的这个 O1 的模型以及它现在潜在或者或者在炒作的这个 O3 的这个模型可能可以达到的这个高度然后另一方面也是那个时候的辅助工具也非常少所以在这样的一年半里面我们看到了非常非常多的

开明项目出来去解决各种各样在这个领域里面碰到的痛点对吧

只是说相对来说一部分的优势是在这一次的这个起义里面很多公司很早的捕捉到了这个 serverless LM 的这样一个场景或者需求在最开始去做 CV 的时候那个时候是没有这样的存在所以大家都是自己拿着大量的数据去 fine tune 模型然后自己去部署模型

这样一个庞大的周期背后往往其实只有到非常后期才能够证明它的这个业务能力甚至说可以说为它的 business value 作为创业公司经常爱说的就是这个所谓的 product market fit 往往想达到这一点其实是难的更何况在以前的这个世界观里虽然很多想法很好但是可能实际上真的做出来又发现其实并不那么

并不那么美好对吧这些都是在 LM 的这个时代被极大的加速了这个也是要归功于很多的这个公司不管是由 OpenAI 开始带来的这样的一个 API based 的这样的一个付费或者收费模式以及就是说思考问题的方式还是说就是说当时可能就是说上一代就是 AI 人的这样一个所吃过的一些亏吧

然后还有一点就是因为 LM 它始终是跟 text 在打交道文字跟文本这些都是人类历史中就是说大家习以为常的东西相比于说视觉的很多不确定性或者就是说不可解释性文本的这个理解似乎就好解释很多对吧

而且我们都习惯于读和写所以就是说在这里面的这个理解能力上面甚至说想到他能做的事情上面都是可能比当时做视觉还要多得多那你刚才说就是最初的想法是从一个聊天机器人开始但是现在你们用

这种大语言模型已经做很多很多不同样子的应用场景了对对对它能丰富到什么程度就是我们可能现在只限于说在这种金融场景对对甚至啊其实双大模型它的一大能力就是解决很多啊

其实从模拟掌控方面来说我觉得 AI 它最大的强处或者它为什么就是说大家都会愿意去做 AI 的一个主要的原因就是它能够解决一个非常根本的问题就是当你有这样的一个业务问题然后这个问题就是说它是跟人数线性的收益的时候这种东西在机器的这个理解能力是非线性的时候就是会有一个降位打子对吧

所以我们就比如说像不管是说标注也好文字提取也好这些东西如果你以前让一个人做这个人大概都是能够做好的对吧然后我们也比较容易去加量对吧两个人可能就是原来一个人的两倍哪怕这个人做这个工作做得特别好可能这个也不会有一个特别显著的人数上的区别对吧

所以比如说如果当时你想去做这种文字汲取那你可能就是靠大量的人力去去加大出来但是现在的大圆圆模型就是它可以极大的减度减化这个问题使得以前你可能就是需要线性的人去做的事情你可以以一个非线性的这个成本或者收益去靠大模型拿到这个结果

这当然是肯定是会造成很大的打击而且我觉得这个肯定始终都是 AI 最大的一个 use case 之一还有一点就是随着计算资源的增长就是说非线性的收益就会越发的明显所以这些都是历史里面很有不是说历史就是说近代有非常多历史的这样一个世界观当时上世纪有一个

有名的研究员叫 Sutton 对吧他就是写了一篇 19 年什么时候写了一篇文章就是在讲这个所谓的 scaling law 对吧

对吧他当时就做了一个 prediction 就是说 AI 最后会出来的这些都是可以 scale 的东西就是跟计算资源拔定的从某种角度上来说现在 LM 的这个成功也是应验了他的这个 hypothesis 就更不要说以最后最开始对吧从最开始的这个所谓的 AI 就是下棋对吧

夏琪当年靠着这个计算资源的增长通过暴力的搜索其实是打败了当时的这个 Gaspar 对然后依据上围棋对吧通过跟自己去下大量的棋局所学习到的这个知识跟对棋的理解也是打败了当时的世界第一

以至于我们现在看到 LM 也是一样通过大量的计算加大量的数据学到的世界观能够解决其实非常多我们之前是无法靠人力去解决的问题因为这个世界一共也只有这么多人

那算力是一方面但是像伊利亚也说了就是算力其次还有这个数据那如果我们数据已经挖到底了就是一个没有更多的数据可以可以拿来用了就是人类

起码公用的语言文本也就那么多一些企业私有的东西虽然存在但是可能对于这种训练者来说是不可行的那么假设我们已经达到了一个公用大家所拿到的这个数据的最顶尖了这个 skilling law 还能有用吗对所以我觉得这里面就是

我个人感觉就是这个数据的利用就哪怕我们现在所谓看到感觉是已经达到这个数据的瓶颈了我觉得就是在接下来的时间也还是会有海量的数据持续的被产生

文本它有意思的地方就在于它是所谓人类的文化结构的一个体现对吧就比如说当今的这些所谓的 meme 或者流行词语有些时候可能就是随着时间的节带会继续出来所以数据这个问题我其实是感觉我不那么担心但是同样的回来就是说比如说我们去考虑比如像自动驾驶这种问题

如果一个人可能陪我在车里面坐两小时我就会开车了为什么这个机器还需要这么这么就是他可能已经不止两肯定不止这个就是不要说两个人的这个这个训练量他这个训练量可能就是把所有的这个世界的人的这个开车的时间全部加起来可能都要更多对吧他可能都还没有学会如何合适的开车或者就是说他肯定还有一些

边边角角的这些情况其实没有办法就是说很好的去解决所以我觉得就是说这个东西也是要看对于 Illya 这次的这个演讲我觉得很多人也觉得怕是在传道对吧他到底是对是错这个东西大家其实每个人都会有自己对未来的所谓的预测对错这个东西其实最有意思的地方不就是看他最后到底是对是错对

对作为我相对还年轻的我们还是有机会看到就是说这样一场革命最后的结论会到底是怎么样 OK 那刚才比如说你提到了一些什么文本提取就是可能是一个从德亨继承这边

的应用再延伸到更细的一个应用场景里面的一个做法那在你们的这个领域里面需要用文本的提取是做什么样子的就后面的一个业务对所以我们来说这个根本的问题是这样就是我们作为一个 FinTech 会收到很多

就是 Transactional level 的 data 一种交易数据所以就比如说如果你打开你的银行 APP 你会看到你一笔一笔的转账不管是比如说你付向一个买家或者就是说这是你的工资收入我们的产品其实是基于这个所建成的所以我们有非常海量的交易数据

那交易数据呢一直是一个比较有意思的话题因为像如果你倒退 20 年如果你想海量的去理解交易数据那你很有可能是花了一大笔钱买 Visa 或者 Mastercard 他们所学习到的知识对吧因为让你一个人去做或者就是说去

看透这么大量的交易数据其实是不可能的对吧你没有这么多人力你也没有这么多钱去做这样的一件事情所以那你只有一个选择去去付费给一个有钱跟有资源去做这样一件事的公司对吧

但是现在大模型使得就是说这个问题变得微妙起来因为大模型可以做很多就是原本你需要去付费解决的问题所以举个简单的例子假设这个人我们现在关心的就是他

他公司的这个工资进账的时候是哪个公司付给他的对吧啊这样的一个问题经常是可以通过这个文本提取来完成的啊但是这里面往往有非常多的难度对吧一方面来说啊付工资的工资非常非常的多啊

然后每一个银行可能展示这样一个工资的到账的这个方式也不一样有的可能会加上一些日期有的可能会加上一些尾号有的可能会选择加上一些交易的 ID 对吧在这样一个过程中想去靠传统意义上的这个计算机算法去就是说把这些设定一些规则是吧

一个死板的规则对去过滤掉这些东西其实是非常不完美而且会有非常非常多的局限性但是大语言模型其实可以很好的解决这个问题因为一方面来说一旦你有一定的文本这个文本量已经标注好的文本量你可以通过这个 fine tuning 来提高就是说一个

已经很聪明模型的这个理解能力以至于说它可以去帮你做掉很多这里面就是说你想做到的事情比如说我们跟大家说我不想看到日期我不想看到尾号把这些全部给去掉甚至它的这个商家文理解能力也是非常非常强的当我们去考虑比如说交易数据的时候我可能可以纵向的给比如

说三个月的交易数据那他就可以利用就是说在这个历史区间里面他所看到的这些这样的一些规律来决定他在当前这一步想怎么去工作跟怎么去配对吧所以在这一点上面我们其实通过 fine tuning 加上一定的 comp engineering 是达到非常非常好的收益那就是说现在对我们来说去

做海量数据的这样的一个计算可能一个月也不会超过 1000 块钱而且我们可以提各种各样我们自己感所感兴趣的问题这在以前其实是几乎不可能可能 Visa 跟 MasterCard 一个月的这个合同可能就远远不止我们现在可能几年的这个价格

OK,我们现在聊的很多是比较就是技术的一些 tricks 或者什么就是技术的一些特性特点但从可能你的角度来说你也能看到比如说它的

就是应用的一些价值就是我举个例子我其实这个刚才你说的这种场景我记得我当时候在也是在海外去我自己的那个网银上面或者说我现在有点忘了确实蛮久以前好像是在 2000 年代的那个出头吧 2000 或者 2010 年代的出头这个时候会有一些 App

会拿你的这种银行的交易信息然后帮你做一些分类就是为了你可能月底可以看一个一个 pie chart 或者别的样子可视化的一个报告说你这个月的钱哪里来花到哪里去了然后我当时我就觉得哇这个东西

我很需要就是为什么别人没有做但是你刚才也说到很多原因为什么这个做这个东西很难因为你从一个比较开放式的文本里面交易的这个信息里面怎么去真的很准的去做这个分类的判断你这个东西到底是交通成本还是你是买吃的买喝的或者什么娱乐然后当时候我记得做法是

有点像就是他那个服务也让我们用户取标就是我们自己可以先打一些标签然后他会根据我们历史的一些标签再猜新来的这个数据应该属于哪里如果错了的话我们还可以改这个标签甚至现在的银行也依旧在让人自己做这件事情这个其实最简单的一个体现就是现在很多信用卡会返现对吧但返现一般是根据你购买什么类型的这个产品去而定对吧

一般来说信用卡它最容易提供返现的领域就是饮食或者这种出行的成本一方面是因为他们会控制很多这种所谓的 PoS 机对吧通过 PoS 机本身可以增加一定的确定性然后另外一方面也是因为

比如说这个体系也是在不断不断完整的但是总会有那么几笔就是说交易你发现这本来我应该拿 3%的反线我只拿到 1%的反线所以你就会去过去纠正这个银行把这多 2%的反线拿回来然后在这个纠正过程中他实际上就得到了一个 ground truth label 对吧 ok

所以最终还是为了那个就是经济纠纷是所有的这个来源是吧所有的这个这个发展的或者说这个提高的来源确实我这个是有点题外话了但是有人有人确实说如果这个信用卡公司不给你返现的话你你凭什么给他工作对不对因为你每次刷卡就是就是替他工作是的的确的这个的确是而且我觉得信用卡这个东西也是一个很有意思的一个

一个概念因为所有的新型的金融公司从我的角度上来讲都想打败现在银行所带来的一套体系一套以卡为单位的这样一个体系但要怎么去做到这一点而且它的下一代应该长成什么样子其实至今为止也没有一个很好的答卷所以我觉得这个也是一个值得众多创业者去思考的问题美国有类似

支付宝微信支付类这种移动

其实也有美国现在可能最主流的就还是靠 Apple Pay 跟 Android Pay 去做绝大多数的这个交易但是当然这里面其中它之所以能够普及的主要原因其实要归功于一家叫 Square 的公司也就是 Twitter 的老板开的另外一家公司这家公司做的就是很多这种老板是吧对的老的老板不是 Elon Musk 虽然 Elon Musk 也是在这个 Dorsey

虽然 Elon Musk 也是在 PayPal 他也是做过付费因为他们控制了 POS 机的操作系统跟他的 APP 更新所以他们就可以去做这种所谓的 Apple Pay 跟 Entry Pay 的这样一个软硬件上面的支持

其实这个也是有点类似于就是说国内这种就是说大家去做这种扫码仪的这种工作如果国内它一直以来就是靠一个固定的一个二维码其实就已经可以做这件事情所以哪怕没有这些扫码仪只是稍微费那么一点劲

对啊就是感觉好像用一个更简单的方式解决同样的一个问题就是一个很 low tech solution 是对吧贴一个标签就行了所以这个也是我觉得大家对不管是美国的金融体系还是美国政府体系的一个批评吧就是美国经常会产生很多前沿性的技术但往往他们自己的系统都是

late adopter 就是说在这个 startup curve 里面总是会有别的国家别的人先去利用美国所学到的技术发扬光大然后美国总是莫名其妙的很晚就是说开始用这些东西其实一个比较有意思的例子就是这个 Apple

Apple Pay 跟 Android Pay 在加拿大的通知程度在加拿大如果你想坐地铁你可以通过 Apple Pay 跟 Android Pay 去进行付款但是在美国你依旧还得买交通卡就像我们今天坐地铁过来也是可以直接在中国在国内大家就可以用 NFC 去做类似的事情但是你会发现美国在这一点出奇的落后 OK OK

因为刚才我们从这个技术聊到了一些应用场景就比如说做你的这个一些财务财务这个报告的分析或者类似这种东西那么就是其实刚才我的问题还没问完我们就跑题了就是我我当时候的那个场景是这样的嘛那么现在你们的你们的公司的或者你们的客户的应用场景是用用这种提取出来数据会除了这种

比较简单的可能分析或者报告还会有什么更高高维度的这个用对所以我觉得就是说啊就这里面啊往往的难点其实是做的啊非常开放啊所以比如说如果你有一个非常啊固定的这个这样一个使用场景一般想去满足它是是不难的啊

就举个简单的例子如果我们想去精简比如说客服所看到的聊天记录是做这样的一件事非常固定的事情其实现在以现在的技术来说非常容易就可以做到这样一件事情但是如果你越是想做一个比如说类似像微信一样的一个存在它就什么东西都可以做光靠文本它就越困难

你怎么知道什么时候应该用这个什么时候应该用那个这个就是一个依旧非常困难的问题对吧那这里面有非常多的方式去达到你的目的对吧一种方式是现在最主流的这个方式大家还是训练这个 Intent Detection 对吧可能会自己去 Find to 你一个模型然后以自己的这个 Intent Detection 作为基本去 Find to 你这个 Model 的这个 Output

就是微调一个意图识别的模型是的但往往现在这个意图识别的模型其实也是一个大语言模型对吧所以这个大语言模型现在去做这些事情也非常聪明但是另外一种方式去做这种东西或者是想人会怎么去思考这个问题人是可以通过交互去做这种事情对吧

如果我给你问你的问题是不是这个对吧那我可能就可以得到一个比较确定的答案你到底是不是想做这样一件事情但如果我老问你这个问题的话你肯定会觉得很烦对吧但大模型确实好像它一点都不会反问你现在

就是他只是来回答你的一个需求但是他总不会来去确认一下他不确定的地方对所以这个也是现在所谓的 agent workflow 现在开始就是说引领的一个概念吧就是其实如果我们把 agent 想的简单一点它实际上就是一个有业务逻辑的这个一个大语言模型对吧

那这个业务逻辑可以是很多种类它可以是比如说我要访问这个用户对吧它也可以是我要去读一个数据库去抓取一些跟这个用户相关的信息然后再进行一定的结合输出一个面向用户的答案对吧这个里面其实是是

虚虚复复当然就是说所有 agent 或者就是说这些厂商可能他们眼中卖的 agent 实际上是一种就是说可以互相交互的这样的一个存在即便我们现在可能还没有达到这样的一个世界就比如说让两个 LM 之间能够聊天解决问题但是现在这个也开始有一点有这个模子对吧

多 agent 的合作协作是的就是一种最简单的合作就是我把我该做的事情做完然后我把它交到你手上你再接着做在这样一种模式上面其实在当今的这个 LM 的这个使用上面其实已经变得相对更加成熟了我还想听一些这个就是战场上的故事吧就是有些你做这种项目的时候遇到的很坑的替换让你就是印象很深刻比如说

也许是什么很搞笑的失败的场景就是你没有想到模型会那么愚蠢或者什么类似的对所以我在这里面我有一个所谓的经典案例吧就是说做聊天机器人的其中一个很大的一个核心需求就是说有一些类型的问题我并不想让这个机器人解决我希望一个人进来来回答这些问题

那我怎么样能够确保这个聊天机器人他在他不该回答的问题上面并不犯衰而不要就是说自己开始去编造一个所谓的答案那这个东西呢往往目前现在通过 prompt engineering 来尽可能去解决对

我们可能会在他的规则里面给他写定以下类型的问题你不要回答比如说如果这个人他现在问我你怎么贷款我们不是一家贷款公司你肯定不能跟他说任何贷款相关的问题既然你不知道怎么做我们永远可以让一个人工去做这件事情但他总是有些时候会犯蠢然后当时的 LM 也没有那么聪明当时 GPT-3 小车手想去纠结一些比较

比较微妙的这些问题其实还是有一定的复杂性甚至说往往你会碰到一种现象就是你拆了东墙补了西墙然后发现东墙又不行了对吧但是后来我们就是得到了一个反思吧或者就是说一个也是一种觉悟吧就是说往往

往往大家要觉得说把 AI 现在想的太过智能,但很多传统的算法还是非常有用。很多这种套比如说 prompting,during 很难解决的问题,可能一个简单的 regex 就能过滤掉你 99%的烦恼。所以往往其实特别是在模型越发聪明的前提下,我们也应该考虑是说如果没有这个模型,我怎么可能尽可能的避免我这个问题。

往往就是说就像 CV 当时的这样一个迭代过程慢慢的靠向了 Model Ensemble 其实就像 Agent 这个概念一样就是这个模型它并不是孤立作战的它有我们作为程序员可以给它加上各种各样辅助的功能各种各样辅助的限制所以与其有些时候去把这东西想得太过聪明有些时候也可以通过更传统的方式去限制这个模型它所能做的事情

包括比如说像在比如说 OpenAI 现在提供的这种 structured output 它其实也是变着发样的在帮你做类似的事情对吧它通过 schema validation 来解决就是说这个模型潜在可能没有正常按规矩回答的这种类型的这种案例对吧通过这样的一个结果的这样的一个输出的这样的一个 schema 来控制就是说你可以输出的维度是是

刚才你还说到就是可以用那个 REDX 中文叫什么震态表达式这个东西你说虽然可以用它来解决可能 99%的那些烦恼但是 99%的人是不会写这个表述的但是现在还可以用大模型把你的这个自然元翻译成 REDX 是的

所以最后还是大模型解决了大模型解决不了的问题而且就是说我们回到就是说现在的一个大模型接待的方向是把大模型

把大模型跟大模型之间的结果和这个输出给并起来所以一种就是这样解决这种问题可能原本上是很复杂但是现在比如说如果你做关键字的提取然后再去在关键字下面去做这种 filtering 对吧那你可能很有可能就可以把东西都并起来对吧所以就是说不管想去做现在其实在 LM 这个领域里面有其实

很大的两个核心问题就是一个就是说这种所谓的 guardrail 就是说我怎么避免我的这个 chatbot 或者我这个大模型去在他不知道该怎么做的这种场景上面去乱说话对吧那另外一个就是说我怎么去评估我这个大模型对吧因为毕竟出来的都是文本每次这个文本根据一个模型一变对吧这可能就又变了对吧

怎么去做好这样的一件事情然后我觉得也是大家也是开始反思就是说这个对数据管理跟很多传统医学的这种机器学习上面做的事情其实还是非常强相关的甚至会发现很有可能在接下来的十年里面就是说对数据管理做的比较好的公司可能就是会比这个

数据观点做得比较差的公司有很大的优势因为这个模型的迭代它模型可能会越来越聪明模型可能也会越来越强大但是你始终还是要去做这个所谓的评估对吧

你这样的一个业务场景你把它往模型里面一丢最后出来的结果是什么样子到底是不是你想要的结果这个始终会是一个大家想要做的事情刚才你提到评估可能我们时间有限所以这个是我可以问的最后一个话题吧就是评估尤其是大模型的这种回复答案评估的上面你有什么样子的一些经验我自己是没做过但是我想过这个问题因为

大模型又是一个很 free text 这种比较开放式的文本你好像也只能用另外一个大模型这种套娃的方式去评估它你有没有很好的一些比较客观的方式对所以在这个上面现在目前为止已知的方案有几个吧每个方案它都各有利弊目前为止还没有看到一个

类似于全能的方案能够替代掉剩下的这些方案对吧你第一个方案肯定就是用人工大量的标注对吧所以这个也是为什么说回到最后就是说去训练 Foundational Model 这样的一件事情都还是大厂在做对吧所以他这个就可以通过海量的人员标注甚至反复的标注去尽可能减少就是说他所不希望看到的情况

当然在这里面如何标注始终其实也是一个非常复杂的问题就是如果我们考虑这个大模型有的现在大模型在美国被训练的非常的 politically correct 对吧他碰到了一些东西他不敢乱说对吧他会觉得甚至乱说了可能会被大家贴到网上热潮对吧但你同时也有比如说类似像老马这种选手他就认为这个模型他就应该想说什么就说什么对吧

那他这个与其人为给他设下限制不如就是说这个东西就是他所看到的东西那他就有权利去做这样的一个输出

所以这人工肯定是一个方案而且我觉得现在目前所有的方案最后肯定都会有一部分还是会导向人工总会有那么一些疑难达成复杂的问题最后交给人工去解决并没有些时候一定因为人解决它就一定更好可能也是因为就是说大家跟人工作还是一个比较理解的一个模式对吧所以大家会相信人所说出的结果即便这个东西并不一定

完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完美 完

但这里面往往有一个议题或者现在目前观察到的规律就是说这个更强大的模型与其你花这个钱去让他去作品不如就花这个钱让他直接去回答这个问题因为它往往其实实际上是有质的提升这个质的提升其实我在当初从 Lama2 换到 GP3.5 的时候是有一定的感慨然后也从 3.5 换到 4 的时候也有这个感慨

我觉得当时 3.5 是跟就是 Cloud2 这个时间差不多是一起对上的然后那个时候还是感觉这个跟当时传统以上的开源模型有一个比较大的鸿沟然后再接就是说 4 跟 4 欧这样的一个模型出来这样一个鸿沟而且这个鸿沟现在也不光体现在这个所谓的理解能力上面这个成本其实也是大大的下来了所以现在以前你可能要用 3.5 做的事情现在你肯定用 4 欧做还更便宜

这个也会是一个持续的规模化效应带来的一个收益另外一种观点就是我应该用一个更小的模型去评估一个更大的模型这里面往往有非常多有意思的案例然后也有一些疑问就是说觉得这个小模型它能不能够输出正确的答案

这个里面其实也是实验已经验证了也是有不少的不稳定性那第三种呢就是说或者说现在可能就是说更被主流接受的一种方式就是说去写一个 rubric 然后通过多个大模型的结果来进行一个评估

当然这个你就想成本其实就更加贴近于人对吧如果我让多个模型去做同样的一件事情可能我就有更多的 sample 但即便是这样子其实让用模型评估这个事情本身就是有复杂性的

所以比如说一些碰到的一些所谓的经典坑经典踩坑案例就是说发现用同一个模型去评估这个模型加一个 prompt 出来的结果它可能会有 bias 所以就是说这个模型可能会倾向于自己所输出的东西这个肯定也不是说大家从做一项一个客观的评估员应该

所表现到的一个结果对吧但这个肯定也是一个问题对吧

用多个模型去做评估也不光是成本的问题其实工作量也是非常高的因为目前你每一个不同的模型就要重新写一遍 rubric 的 prompt 每个模型它可能对一些细微格式上的差异它可能就会导致它评估的准确性到底是好是坏所以在这一点上面也是一个不断迭代的话题所以我觉得就是说在 25 年

肯定很热的一个就是说所谓的研发的一个方向就是解决这两个问题然后其实我们也都知道已经有人在做这个事情了就 Stanford 的 DSPy 说白了其实就是在解决就是说不同模型之间 Prop 上面的这些细微的差距能不能也通过一个模型来管理

有没有可能你这边写出来一个所谓的规律然后他来负责帮你把这个变成比如说一个 GBT3.5 的 prompt 再变成一个 GBT4 的 prompt 再变成一个 Cloud 的 prompt 以致这两个模型对这个 XML 跟 JSON 有分别的喜好对

我觉得这就是 turtles all the way down 只有只能拿模型来解决模型的问题然后就是一圈一圈的套更大的模型对所以也有一些所谓的 unbelievers 觉得这就是一个伪科学那最后这个东西到底是不是一个伪科学或者最后会成什么样子我觉得肯定也是需要时间的就像当时搞 CV 这样的

从 AlexNet 最开始到 Inception 也是花了 4 年时间进行了一个成建加上各种各样的升级工作以至于说现在 Inception 依旧还是一个非常主流的模型甚至是随着计算资源的增长现在 Inception 都往 Edge 丢了以前可能还没有这种这么高端的硬件现在可能已经变成了更加主流的一个实现对吧

刚才虽然说是一个最后的问题但是你又提到中间第二个实现方式就是什么用更大的模型去评估更小的模型还是更小的模型评估更大的模型那我想到就是如果是第一个这个场景用更大的模型评估一个小的模型的话那我在想

这个模型的怎么去再做得更好更发展就是你永远需要先研发出一个大模型但是这个大模型又没法去评估它对

对所以这个里面现在也是有一种叫 distillation 的技巧就是跟最开始的这种 transfer learning 是很像的就是如果我训练了一个大模型它所得到的这些参数跟知识我能不能够把它精简然后把它给灌到一个小模型里面使得这个小模型现在可以去做这个大模型来可以做的事情但是因为这个小模型它小所以它的成本跟它的运算速度就一定会比这个大模型要更好

会不会是这个样子当然这个东西呢也是不是一个绝对的什么大小只是从它的一个有效率来说是的要提升但是这个问题它微妙或者有意思的地方就在于说就像最开始 Sutton 他所语归

估摸的一样虽然现在摩尔定律不再成立但是计算资源始终还是在增长那计算资源在增长的情况下是不是就是说这些细微的差距都不重要大家还是应该往更大更宽的模型去用因为如果计算资源一直在增长那现在可能看起来所谓的大模型可能十年后就跟小模型没有任何的本质上的区别

行那我们现在到真正的这个尾声了我们节目最后有一段这个最后一个环节就是让嘉宾来做一个推荐你最近有看到过什么有趣的东西想给大家分享一下吗

这个不一定限于我们今天这个聊的话题可以是其他的就是你觉得好玩的事情我是建议大家都去看一看这个所谓的这个 ArchPrize 和它的这个背后的这个挑战然后还是一个评估体系

它更接近一个 ImageNet 这样的存在就是它其实创造了一个所谓的 open corpus 跟一个 close corpus 然后它的目标就是说任何研究员可以用它的 open training data 去训练一个所谓的模型的一个抽象对吧然后他们会去负责执行这个模型然后最后的结论就是说在这个被掩藏的这个数据部分它到底能不能够有真正好的这个体现

所以就是说他在 training 的时候肯定也会生成一个 accuracy 但是就是说他这个你肯定不希望就是说 overfit 一个 model 到他的 training data 上面这跟我们就是做传统的监督训练的时候这个博士是一样但是您能不能给大家解释一下这个 ARC 数据集本身有什么创新

对,所以 ARC 这个数据集它跟传统意义上的 text data 就非常非常不一样它致力于解决的问题就是说这些所谓的以 attention 为基本的这些模型它在文本的能力上面似乎展现了就是说超乎寻常的智慧但往往是无法解决一些

看起来非常非常简单而且人可以非常容易做的事情所以他所想对标的一种场景其实就跟机器手的这样的一个实验是类似的当时就是有一个结论就是说如果你看市面上的机器手看上去非常五花八门对吧但你放下这些手虽然现在技术发展的很很

很厉害对吧但是这些手想去做一些传统意义上很简单的事情其实很难所以他当时就是做对标的例子其实就是一个 briefcase challenge 对吧就是如果一个男生有一个公文包这公文包里面所有的这些工具或者东西他能不能够让这个机器手也跟一个人正常的手一样就是说简单的去做比如说捡起一张纸或者签下自己的名字或者打一个领带

甚至说比如说敲个锤子然后他发现如果你用这种方式去衡量机器手是不是比就是说你去单纯的看比如我这机器手的这个手指纤维细度或者它的重量这个检测是不是准确的是不是要重要非常非常多那 ARC 它其实就是很接近于这样的一个存在然后真正的场景对

而且目前市面上所有的模型离它所谓的这个 completion 都还很远它的眼里的 completion 就是要至少达到 95%以上的这个准确性甚至它也都已经准备好了一套 ARC2 但是目前为止 ARC1 还没有任何的模型能及

哪怕是目前吹得非常厉害的所谓的 O3 在他的数据集上面训练好像也是达到了一个经养率 70%这已经比现在目前的当今的第二好的这样的一个成绩要高出来 20%现在好像没有记错的话 O1 自己应该是 40%吧好像这个可以看一看

那他的涨幅还是蛮大的对的但是即便这样子就是他其实离就是说人所希望的这样的一个成效其实也还是有一段但你现在说他是一个结合

日常生活的比如说一个 briefcase 一个箱子里面的东西那么它同时不光是在存在这个纯数字世界它也是一个结合就是叫什么巨星的一个这种场景它需不需要一个机器人人体

没有我觉得它还是接近于这种就是说图形上面的这种挑战比如说如果假设给你一个 2D 的这样的一个方位对吧然后给你这样的一个假设我们是想就是说填空对吧我们就想画出来一个方块对吧这个方块少了一个角对吧那让人去填这个错失的方块是一个

无比容易的一个东西对吧那为什么让模型做这个事情它就这么难呢这就有点像个门纱的测试是的所以这是为什么我用所谓的皮包作为一个例子 OK

所以如果你看到的话就是以现在目前他能够达到的情况哪怕把所有的计算资源都丢给他他其实现在也依旧解决不了这个问题然后如果看这个他的下一个这个所谓的这个竞争对手就是都是一些开源的这些潜在的模型但是即便这些他其实也是依旧差得非常非常的

这是他这个欧三的这个数字,然后剩下的这些其实是一些开源的人在折腾,但是如果你看欧万自己的话,他没有这个这些东西,其实还差的,还有一段距离,对,所以我觉得这个是一个很有意思的一个东西,他其实是由 Karis 的创始人,就是说生成了这样一个小挑战,OK,Archprise,对,行,

谢谢今天艾伦晨给我们带来的非常精彩的分享我们不光是从一个开始为机器计算机视觉的这个场景又慢慢聊到了这个自然语言的这个范畴了然后还不光聊这个纯科研方面的而且还有这个商业应用

双向的价值我觉得这个对我们来说心中可能也带来很多有意思的故事吧战绩好谢谢感谢您现在收听的是阔博之聊一档带有 AI 味道的访谈节目如果您喜欢这一期节目请给我们留个言或点个赞也欢迎在各大播客与电台平台上搜索订阅并关注阔博之聊智慧的智聊天的聊

并且收到下一期《阔波治疗》的上线通知我们期待您的参与