We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Machine Learning, AI Agents, and Autonomy // Egor Kraev // #282

2025/1/8

MLOps.community

AI Deep Dive AI Chapters Transcript

People

Demetrios

Egor Kraev

Topics

Egor Kraev: 我认为大型语言模型最大的作用之一是作为非结构化数据之间的桥梁。过去的数据科学需要将所有内容转化为向量或矩阵才能开始工作,而现在主题分类可以直接使用文本描述,更容易理解和修改。我所见过的 LLM 的大部分生产应用是将非结构化的语言数据转化为结构化的数据。实际上在生产环境中,LLM 的大部分用例不是作为一个神奇的代理来完成所有事情,而是作为额外的乐高积木与其他积木结合使用。 Demetrios: LLM可以将非结构化的混乱数据转化为结构化数据。

Deep Dive

Chapters

Egor Kraev, principal AI scientist at Wise, shares his diverse background, from studying mathematics in Russia and the US to working with nonprofits in Africa and then transitioning to a career in finance and AI. He discusses his journey and his current focus on causal inference and AI applications in Fintech.

Egor's diverse background in mathematics, economics, and finance.
His experience working with nonprofits in Africa.
His transition to a career in AI and Fintech.
His current role as Principal AI Scientist at Wise.

Shownotes Transcript

您好,我是叶戈尔·克雷耶夫。我现在是Wise公司的首席AI科学家,直到最近还在领导和组建其AI团队。与此同时,我很幸运也能在我的因果推断营销初创公司(代号为causal tune)工作。我不喝咖啡,更喜欢绿茶,比如琴酒之类的。

有些东西,一旦你尝到了好东西的味道,就再也喝不下不好的东西了。比如葡萄酒、威士忌,绿茶当然也是其中之一。

欢迎回到ML Ops社区播客。我是主持人德米特里奥斯。今天我们谈到了传统的机器学习、AI领域的东西,还有AI代理领域的东西。伊戈尔为每一个领域都构建了软件包和开源产品。深入探讨他使用不同工具所做的事情,无论是用于

欺诈检测还是细分和电子邮件的A/B测试,或者将LLM仅仅作为你的DAG的一部分,以及将LLM视为某种东西是多么有用

它获取非结构化、杂乱无章的数据,并将其转换为结构化数据。最后,是他围绕AI代理创建的Motley Crue框架,这样你就可以使用各种AI代理工具或框架来

如果你愿意,你不必只局限于Langchain、Langraph、Lama Index或Crew AI。Motley Crue允许你拥有一个由各种代理组成的团队,并利用每个代理的最佳之处。

现在让我们进入这段对话。对于Spotify上的用户,我有一个不错的歌曲推荐,来自我的新歌单“Big Desk Energy”,这首歌叫《Smeds》,由史蒂夫·卡迪根演唱。等等,开始了。

萨克斯风太棒了。好了,各位,我们在另一边再见。祝大家节日快乐,新年快乐。让我们开始这段对话吧。我想我们去年聊过

两三次,我们没有记录那些对话,现在我很高兴我们终于在录音了。在我们开始讨论任何技术细节之前,我想要谈谈这些,因为正如我多次提到的那样,我是Wise的忠实用户。我喜欢这个产品。我知道你正在领导Wise的各种AI项目。

海盗的事情是怎么回事?这正是我想知道的。我是瑞士海盗党的创始人之一。那是什么意思?好吧,当然,这意味着人们赋予它什么意义。对我来说,这意味着我认为版权和公共访问之间的平衡在几乎所有西方国家,或者我所知道的国家,都严重失衡。

因为能够控制你创造的任何信息,这并不是上帝赋予的权利,对吧?这是政府创造的垄断。因此,这种垄断必须服务于公共利益。因为垄断总是会破坏价值,所以它只有在增加价值时才值得。现在,例如,我们从Linux到无数事物中都了解到的蓬勃发展的开源产品,

表明并非在所有情况下都需要版权保护才能产生好的东西。有时需要,有时不需要。所以对我来说,海盗党努力要做的是稍微改变一下这种平衡。哇。好吧,当我以为你们都打扮成海盗,也许除了万圣节和派对之外,我完全错了。

当我看到写着的时候,我想,哦,天哪,他喜欢在眼睛上贴补丁。哦,不,是另一种海盗。这是一个概念劫持的经典例子。是的,很好。

你做得很好。你让我误解了。所以,在我们深入探讨Wise以及你在那里所做的一切之前,另一个值得讨论的方面是你加入Wise之前这些年所做的工作。我知道你曾在非洲,在加纳待过一段时间,对吧?是的,你能解释一下你在那里做什么吗?

哦,那是一个精彩的故事。我当时是美国的一名学生,作为一个年轻而充满激情的学生,我参与了反对国际货币基金组织和世界银行的反全球化抗议活动,他们正在对各种发展中国家做坏事,或者组织者所说的坏事。

然后作为这些抗议活动的一部分,一切都非常美好,非常文明。事实上,这让我想起了翁贝托·埃科在《玫瑰的名字》中对异教徒的描述。就像一个狂欢节。这是一件非常美好的事情。然后作为其中的一部分,我们中的一些人被邀请到国际货币基金组织,国际货币基金组织的人向我们解释他们实际上在做什么,他们实际上并不邪恶,诸如此类。

在那之后,就在那天晚上,在我经常去的非营利组织举办了一个派对。在那里,我告诉组织派对并拥有该非营利组织的女士,就像我告诉她一样,这个国际货币基金组织的人解释他们所做的事情做得太糟糕了。

就像我可以做得更好,更清晰、更简洁地解释他们所做的事情一样。然后她对我说,好吧,有一个人我想让你认识。然后她把我介绍给了查尔斯·阿布格雷,他是非营利组织领域的大人物。所以他在加纳创办了一家初创公司,做各种公益事业。

然后他首先邀请我待一周。然后我们得到了一笔贷款。然后我最终在那里度过了至少一半的博士学习时间,为该非营利组织做各种经济研究。是什么样的经济研究?实际上相当普通。所以通货膨胀与收入分配、不平等之间的关系,诸如此类的事情。

但让我继续前进、改变职业生涯的是,我意识到我的研究内容并不重要。因为游戏的名字就是让任何做可靠研究的人搬到不同级别的非营利组织,这样他们就会被邀请到不同的桌子上,并能够参与不同的对话。

但内容本身无关紧要,或者在很大程度上无关紧要,只要它在很大程度上指向非营利组织所坚持的正确方向。一旦我意识到这一点,并且厌倦了贫穷(这是在非洲的非营利组织工作的部分原因),我就改变了职业生涯,去了投资银行。所以你......

完全相反,你就像,你知道,国际货币基金组织的那个人,他们实际上,他们所做的事情并没有那么糟糕。也许我应该尝试一下金融。是的,你知道,如果你不能打败他,就加入他。是的。难以置信。好吧,我想说几件事,这些是我从我们的谈话中记下来的,我希望你能详细说明一下。因为每次和你交谈时,我都觉得你有很多独到的见解。而且你......

深入参与了AI和ML的许多不同领域,从传统的ML到LLM和AI,再到AI代理。所以你对我说的一件事让我印象深刻,那就是AI是连接非结构化数据和结构化数据的桥梁。你能解释一下你的意思吗?

好吧,我宁愿说大型语言模型最大的作用之一是成为非结构化数据和结构化数据之间的桥梁。因为如果你想想两年前我们是如何做数据科学的,你首先必须将所有东西都转换成向量或矩阵,然后你才能开始处理它。

所以当你进行主题分解时,主题实际上只是向量空间中的区域。然后你必须费尽心思解释它们甚至意味着什么,而且你根本无法指望普通人修改它们。而现在,如果你进行主题分类,那么主题描述就是主题,因为LM可以直接处理文本。是的。

至少我见过的四分之三的LLM生产应用仅仅是LLM将传入的模糊语言数据转换为结构化数据。这是一个客户投诉吗?这份合同的利率是多少,滞纳金百分比是多少?输入合同,输出数字。

而我实际看到的绝大多数应用程序就是这样。所以获取大量杂乱无章的非结构化数据,然后尝试找出某种系统,以便这是输入,输出是结构化的东西。没错。

事实上,我认为在生产中实际有效的LLM用例的绝大多数,不仅仅是收入作为神奇的LLM,收入作为神奇的代理,并且做所有事情。而是你将LLM作为额外的乐高积木,除了你拥有的所有其他积木之外,你将它们组合在一起。这就是你获得价值的方式。好的。现在,你认为现在解释

或者为AI辩护更容易了吗?因为它感觉比两年前你做ML时更容易理解,那时你必须告诉别人,哦,好吧,我们将把这个向量化,然后我们将进行矩阵运算,所有这些术语。希望你在向领导解释或展示不同的用例时没有这样做。但现在你真的不必那样做了,对吧?你可以用不同的层次说话

也许吧,但问题实际上从来都不是技术,甚至也不是能够解释技术。因为如果你知道你在做什么,那么你就能解释清楚。但是,似乎最大的障碍总是两种:A,组织结构,但这至少可以通过上级的足够意愿来打破。另一个是人们头脑中无形的障碍。

因为我观察到各种技术都有一件有趣的事情,从将外汇掉期带入Wise Treasury到现在的客户支持中的LLM,以及其他许多事情,那就是即使你有一个团队,他们有一个现有的工作流程,对他们来说这种工作流程有效,并且你向他们引入了新技术,这显然增加了价值,但他们从未见过。然后从你开始尝试向他们解释的那一刻起,

到它成为一件普通的事情,至少需要两年时间。哇。无论你多么努力,这都需要时间来让人们适应这件事以及他们遇到的所有其他问题。两年。

是的,并且要养成这些习惯,要锻炼这些肌肉,我将使用这个而不是我的传统工作流程,这是有道理的。所以如果你预算两年,那么你就将你的期望设定在一个现实的水平上。如果在此之前发生,也许你很幸运。是的,通常不会。你可以在两周内拿出原型,但要让人们真正适应它的存在,这就是它的工作方式,它实际上对你有好处,它并不可怕,两年。

是的。如果超过这个时间,就该开始找新工作了。也许吧,也许吧。谢天谢地,Wise实际上是一个更灵活的地方。所以我在这里从未有过好主意被阻止。好吧,你在Wise使用ML和AI的方式有很多,从传统的欺诈检测开始,因为它是一家金融服务公司,或者说是一家......

我认为你应该将其归类为金融科技公司,对吧?对于那些不知道的人来说,它确实很容易。我之所以喜欢使用它,是因为我可以在美国拥有资金,而我住在欧洲,

所以对我来说,转移资金非常容易,而且不必向传统银行支付过高的费用。我可以将我19岁和20岁来欧洲时的差异并列起来。所以Wise消除了所有这些,并使其变得非常容易。回到AI和ML,

你在Wise使用的是。由于它是金融业,我想有很多,A,欺诈检测,然后B,也许有一些,你在做贷款吗?我不认为你提供贷款,是吗?不,我们没有。但有很多事情。所以当然,绝对是欺诈检测、反洗钱,整个广泛的金融犯罪领域可能是最古老的,因为它非常明显地有利可图。

那是经典的ML。所以是数据的白表,XGBoost,高优先级调整,所有这些。这也是我们的公关部门不太喜欢我们详细说明的领域。然后还有,可以理解的是,出于充分的理由,

另一个是国库。国库是你在银行中所说的交易部门,因为人们希望我们转移的资金总是平衡的。因此,你必须以某种方式进入银行间市场,获取必要的货币,然后管理持有货币的风险。因为看待Wise的一种方式实际上是面向大众的做市商。

我们总是为任何货币对提供买入价和卖出价。所以实际上,我们是一种做市商,但一种非常不寻常的做市商,因为我们是面向大众的做市商,而不是面向其他大型金融机构。我们试图尽可能地保持价差紧缩,而不是银行试图尽可能多地获取利润。

是的。但国库有很多机器学习,交易流量估计,以确保我们有足够的现金。例如,你知道吗,如果你试图在斯里兰卡取款,

或者像货币管制的地方。实际上,Wise必须在前一天将美元发送给我们的合作伙伴银行,以便它们可以隔夜到达并在合作伙伴银行安全地等待。因此,当有人想要取款时,Wise可以要求合作伙伴银行向我们收取美元并给你当地货币。所以为了这种准即时体验,幕后有很多工作要做。

然后我的最后一个大领域,或者说我最喜欢的领域,当然,它远不是唯一的领域,是营销和因果推断以及所有这些有趣的游戏。是的。好吧,你之前也提到了支持,对吧?绝对的。我认为支持相对较新,因为在LLM出现之前,这很难做到,因为很多数据都是基于文本的。

但现在我们有一个很棒的数据科学团队在那里,他们已经有一些东西投入生产了,而且还有更多的东西即将到来。所以你说的另一件事让我印象深刻,我想让你详细说明一下,那就是LLM或AI不应被视为解决方案。它应该被更多地视为通往解决方案的一步。我理解的方式是我们应该将其视为DAG中的另一个步骤。

是的,100%同意。我还觉得,当人们要求ChatGPT将2加2,而ChatGPT告诉他们结果是5时,这非常愚蠢。他们会说,哦,AI失败了。整个事情就像,你应该把它想象成一个大型乐高积木。现在你有一些以前无法使用的额外积木。也许这些积木可以闪烁或发出声音,或者它们所做的任何事情。但这只是你乐高积木的另一个补充。

它从与所有其他积木的组合中获得力量。我相信这也不会是最后一件很酷的事情。因为我还记得10年前RNN出现时,正是同样的炒作浪潮,RNN和神经网络将为我们解决机器学习问题。然后大约八年左右,什么也没有,然后又出现了一件大事。我相信还会有另一件。现在,你看到哪些方式......

LLM或基础模型以及其他传统的ML或常规启发式方法一起使用?好吧,最明显的一种是LLM被用于老式的管道中。

或者正如我提到的那样,LLM只是转换数据。例如,它们会给你一个分数,说明这封客户电子邮件看起来像不像投诉?根据文本,可能性有多大?然后你将该分数添加到你可能拥有的其他一些数据点中,并进行老式的机器学习来对电子邮件进行分类。在这一点上,这是最容易做的事情,最可控的,最安全的。因此也是最适合生产的。

对于其他方面,我想LLM的有趣之处在于它们在许多方面使机器学习人性化。因此,它们使人类和机器学习之间的接口变得流畅。例如,在客户支持机器人中,对吧?之前你有一个文本块,然后你必须对其进行分类。客户在询问什么?这是一个老式的模型,向量空间,等等。

现在你可以直接问LLM,这条消息是否包含足够的信息来理解客户想要什么?如果没有,我还应该问客户什么?然后你就可以向客户提出更多信息,他们会给你。因此,你可以释放出这种互动潜力,而这在以前是不存在的。是的。

我想谈谈因果推断技术以及你在那里所做的事情,因为你说营销以及所有这些有趣的事情确实是你的爱好之一。告诉我你正在做什么,你如何做以及它在ML、AI中是什么样的。我知道它是A/B测试,对吧?但还有什么其他事情正在发生?这不仅仅是A/B测试。

但诀窍是估计因果影响。这很难。这不像普通的机器学习,因为在普通的机器学习中,例如,如果你想预测客户下个月会购买多少,那么一个月后你就可以看到他们购买了多少。所以你有一个观察到的真实值,然后你可以评估你的预测或多个预测方差,你可以评估哪个最接近。

当你选择向客户发送电子邮件A而不是电子邮件B时,你实际上无法直接衡量这种影响,因为你无法只向同一个客户发送电子邮件A和电子邮件B并进行比较。所以这很难。然后不出所料,人们为此专门构建了模型,即因果推断模型。例如,微软的经济学库很棒。

但同样,他们有六种不同的模型,每种模型都有自己的超参数宇宙,而且绝对没有关于使用哪一种的指导。所以在我指导下,我们做了两次,找到了对这些模型进行评分的方法。因此,即使你无法直接观察到个体影响,但如果你有一个整体人群,比如A/B测试,你就可以对这些模型进行样本外评分。

一旦你可以进行样本外评分,你就可以进行模型选择、超参数调整,所有这些很棒的AutoML事情。因此,现在你实际上有了,即使你无法直接观察到它们,你也有每个客户的影响的已验证和选择的估计值。

然后,所以现在你可以做有趣的事情了,对吧?首先,你可以进行定位。因此,你可以向客户发送最有可能让他们执行你希望他们执行的操作的电子邮件。例如,点击该链接。你还可以进行细分。一旦你有了客户级别的影响,你就可以更清晰地进行细分。

因为人们现在如何进行A/B测试细分?他们将整个A/B测试样本分成小块,并试图查看是否存在显著性。但这非常嘈杂。这行不通。通过这种方式,你可以。你需要在列表中拥有多少客户或人员才能使这具有统计相关性?所以当然,与常规A/B测试一样多的客户就足够了。我通常期望它甚至更小。

因为现在你不是将A/B测试中的整个客户变异性视为噪声,对吧?你对其进行平均。你想要的只是一个平均值。而对于所有这些模型,你首先根据客户特征(你了解的关于他们的信息)对客户的自然变异性进行建模。因为在此之后,你只能对顶部的影响进行建模。所以现在你实际上是在处理客户行为信号中的客户变异性。

所以这也是,所以我们还没有广泛测试过,但我预计你实际上需要的样本量比常规A/B测试要小。这就是你在Wise Pizza上所做的吗?还是Wise Pizza有点不同?Wise Pizza是相关的。所以Wise Pizza用于查找有趣的细分。它始于增长分析。假设你拥有这个包含客户细分的数据集。

地区、他们使用的设备、他们所在的地区、客户从一种货币到另一种货币的转换、他们使用的产品,你可能希望为你的客户拥有的任何数量的维度。然后,所以你有一百万个微型细分。现在你想找出我的整体,比如说,每个客户的收入从一个季度到下一个季度下降了2%,或者上升了10%。你想找出哪些简单易懂的细分推动了这一点。

哦。这就是Wise Pizza的作用。我的增长率从一个季度到下一个季度下降了1%。主要的客户细分是什么?用像迭戈这样的维度简单地解释一下推动了它。你也可以将其应用于因果调整结果。所以你也可以将其应用于因果推断结果,但你不必这样做。你总是能找到......

匹配的细分,并且你理解,哦,是这些具有不同特征的人推动了问题的答案,无论是收入的增加还是减少,还是有时它只是有点分散,比如,或者,或者非常偏向于没有共同点的一两个人,我想,呃,

好吧,为什么我们很幸运,从这个意义上说,很幸运成为一家B2C公司?所以我们拥有庞大的客户群。因此样本量不是问题。这件事总是会找到一些东西,对吧?因为这就是机器学习。这就是机器学习模型的构建目的。你告诉它们找到一些东西,它们就会找到。

然后你可以始终将你的样本分成两半,在一半上进行拟合,然后查看另一半上的统计显著性。如果它在那里,那么它就是真正的东西。这太酷了。你如何做到这一点?因为假设你正在回答其中一些问题,并且你正在找到推动原因的不同细分,对吧?

你已经将其分成两半,然后你意识到,好吧,这似乎是真的,对吧?然后你用这些信息做什么?好吧,这正是人类介入的地方。在我们这里,我们有,所以世界其他地方称之为数据科学家,Wise称之为分析师。Wise称之为数据科学家的东西在世界其他地方更像是ML研究工程师。

所以我们有这些很棒的分析师,他们会深入研究这些细分。现在他们不必在透视表中四处游荡寻找异常的东西。他们可以清楚地看到这些是驱动因素。好的,现在让我们看看,比如说,亚洲的iPhone用户,那里发生了什么。或者说是大额交易推动了变化。所以让我们看看大额交易,那里发生了什么。

但我认为这也是一个更大的哲学观点。我完全不害怕被算法取代。事实上,机器学习能够完成数据科学家目前正在进行的手工劳动的事情越多,数据科学家就能越充分地利用它们,从而创造更大的价值。

因此,KGPD之类的替代劳动力的工作越多,数据科学家的工作岗位就越多,而不是相反。引人入胜。所以你正在挖掘这些数据,试图寻找见解,然后将其呈现给领导层,希望你正在,无论如何,创建一个新的活动来尝试定位该特定细分,或者你正在进行折扣,或者你正在做一些事情,采取某种行动来帮助解决这个问题。

没错。当然,如果我没有目前正在进行这项工作的扩展议程讨论,那就不算2024年了。你运行此分析,得出这些细分,然后查看你是否可以从维基、聊天、Slack频道或你拥有的任何类型的内部信息中获取更多数据,这些数据可以帮助解释它,或者可能相关。你仍然永远不会完全自动化它。

但你可以走很远的路,但你将拥有一个交互式工具,在与机器对话的过程中,人类可以更好地讲述整个故事,而不仅仅是数字。所以如果我理解正确的话,你的分析师正在挖掘驱动你提出的问题的非常具体的用户细分。让我们用这个例子来说明,上个季度的收入下降了

1%。所以让我们找出造成这种情况的主要原因。你发现是亚洲的iPhone用户之类的东西。分析师正在挖掘这些数据,然后他们可以将这些结构化数据补充为,哦,你知道发生了什么吗?我们提高了亚洲XYZ转账的价格,或者我们做了什么。而且

除非他们有代理为他们提供额外的上下文,否则这些分析师不会知道这一点。绝对的。这并不是,好吧,所以我不希望夸大其词。这还不是我们目前拥有的东西。这是我现在正在积极从事的工作。所以希望我们能在年底之前拿出一些粗略的东西。

但我并没有真正看到现在有人占据这个利基市场。因为,比如,让我们摄取你所有的公司数据并在其上添加一个聊天机器人,这种初创公司比比皆是。是的。这是一个非常自然的想法。但是将它与定性分析相结合来进行与数据告诉你的内容相关的讲故事,这并不是我见过的东西。

因此,从某种程度上说,它只是连接到您所有的内部文档、内部消息系统,并试图找到与数据段相关的资料。或者您是如何与代理交互的?是通过聊天机器人吗?是的,我认为是这样。这只是一个聊天对话。

所以,再说一次,这现在很大程度上仍然处于设计阶段,但这非常像一个对话。因此,您会得到该事物生成的包含图表和文本的报告。然后,旁边还有一个聊天面板,您可以说:“哦,不,让我们放大这个细分市场,或者这里发生了什么?”或者他们以这种方式更改报告。因为我认为它必须是一个对话,因为最终人类知道他们想讲述什么故事。

这必须是一个由数据支持的故事,但潜在的有很多故事可以由数据支持。最终,人类会从这些故事中选择一个,也就是你这次真正想要关注的那个。是的,我也喜欢用户体验,有时当我玩不同的代理聊天机器人时,它会猜测。

我想问什么问题,这样我就不用费那么大的劲去思考了。对我来说,更容易地说:“哦,是的,让我们看看那里发生了什么。”几乎就像你点击一个 YouTube 视频一样,因为标题吸引了你。所以代理会提出四个你可能想知道的问题。我见过这种情况,你问一个初始问题,然后会有后续问题。这是一个相当常见的主题。

如今代理或一般聊天机器人中的主题,感觉如果在数据中移动并提出问题,然后代理可以建议一些事情,例如“也许你想了解 xyz”,那就非常酷了。所以......

我喜欢你这样做的方式。而且增强分析师或数据科学家触手可及的功能和工具,能够讲述他们想讲述的故事,正如你所说,这也很不错。当你构建代理时,有哪些困难的事情?恐怕是通常的,对吧?先决条件、数据质量等。

然后是说服,然后是与工程方面的交付时间合作,以便将事情投入生产。这些都是,因为聊天机器人本身就是一个玩具。但例如,如果您想让聊天机器人回答客户查询,您需要有一个严格的、老式的潜在客户问题的分类法。

您必须提炼该分类法,然后构建它并将其公开给代理。然后,实际的代理部分很容易。事实上,我认为这是围绕代理的整个炒作的普遍主题。这很有趣,但我认为代理,就像使用代理本身一样,很快就会像使用数据库一样。

就像,是的,它们有用,它们增加了价值,但这并不是什么大不了的事。就像,“哦,我们有一个数据库,我们有一个多数据库应用程序。太棒了。”这只是一个模式。它不是一个很难的模式。让你运作起来的所有东西都很难。代理也很容易。

对于大多数人来说,数据库并不是最性感的技术。它有点老了。也许过去是这样,但现在就像你说的那样,它只是一个数据库。这实际上是最终的成功。是的。是的。所以这就是它的成熟度。所以我对代理感到好奇的是,

您如何确保正确的数据不会发送给错误的人,或者错误的数据不会发送给错误的人?我想,例如,对于 Google Docs,您有一个非常清晰的共享策略。

协议。我不担心有人能够看到我所有的 Google Docs。但是对于代理,我认为很容易没有基于角色的访问权限。因此,代理现在可以访问它想要的任何数据,即使是在私人的 Slack 频道中等等。然后你就会呈现出分析师可能无权访问的信息。

嗯,这实际上是一个很好的观点。而且,一方面,我们还没有真正遇到这个问题,因为我们肯定没有直接输出大型语言模型的客户服务代理。所有这些事情都是人为参与的。而且内部工具,大多数这些东西,它们提供的都是人类可以编辑的草稿。

但从长远来看,你提到的问题其实并不难解决,因为你存储东西的方式,你考虑这些东西是如何工作的。你从各个地方提取片段,然后是这些片段,然后通过某种 RAG,我可以整天谈论 RAG。我可能很快就会就此发表一些演讲。但是你检索了一些看起来可能相关或看起来可能相关的片段。

然后你将这些片段放在提示中,它们会与你的问题一起排列。现在,没有什么比附加这些片段的元数据更容易的了,我们可以在其中显示它们的来源,然后按此进行过滤。这实际上不是一个很难的问题,但它是一个重要的问题。所以你是在不同的块的元数据中进行操作,而不是在数据库本身中进行操作。

我不确定你还能怎么做,因为有太多不同的系统,权限是细粒度的并且是纠缠在一起的。所以你所能做的最好的事情就是标记,“好的,这个块来自这里。这个人有权访问此来源吗?是或否?”是的。

是的。这个人在这个频道里吗?如果是私人频道,如果不是,那就确保不要包含它。没错。他们可以阅读谁?他们是否被允许阅读此维基页面等等?是的。好的。现在告诉我关于 Motley Crue 的事情。Motley Crue 很有趣。

基本上,这是通常的书呆子行为。我和我的合作伙伴对代理框架应该是什么样子有了一个设想。我首先开始寻找,因为我认为会有一些东西。那里会有一些东西。

我查看了一堆,LandChain、Alamainix 当时没有太多内容,Crew.ai,当时周围的一些更原型化的东西。我没有找到任何一个完全按照我想要的方式工作的。特别是 Crew.ai 最接近。但他们真的想要自己的封闭花园。

所以我提交给他们一个 PR,允许自由地与任何类型的 Land Channel、Lama Index 代理或任何其他代理互操作,他们忽略了这个 PR。哦,哇。那时我说,不,这是一个乐高积木,对吧?这是我对整个游戏的最喜欢的隐喻。我想混合搭配。所以这就是起点。所以现在 Motley Crue 的核心前提是你想能够混合搭配任何框架。

来自 Autogen、Lama Index、Langchain、Kurei,它们都有各自的优点和缺点。因此,您应该能够使用最合适的工具来完成工作,而无需尝试将人们拉入日志花园。然后,当我们尝试将其用于某些事情时,这是使其变得良好的唯一方法,我们还开始添加其他我从未在任何地方见过的模式。例如,我最喜欢的一个是强制验证。

那么,当您将代理与工具一起使用时,通常会发生什么?例如,您有一个生成 Python 代码的代理。然后,您确实想确保 Python 代码有效。然后代理调用一个工具,该工具尝试例如运行代码,如果出现任何错误,则将其返回给代理。希望您在提示中告诉代理,代理将继续尝试,直到代码有效,直到工具说您很好。

但是,这并不能保证这样做。LLs 因有时会做奇怪的事情而闻名。所以基本上,你把意图放在提示中并寄希望于此。而对于强制验证,您所说的意思是代理只能通过工具返回结果。因此,代理尝试使用例如 Python 代码调用工具。如果代码没问题,工具会返回代码。

如果代码有问题,它会将原因返回给代理,代理会再次尝试。如果代理试图直接返回给用户,代理会得到提示,“不,你必须通过调用工具再次尝试来返回。”这样你就有保证了,因为如果你从代理那里得到任何东西,你就知道它已经过验证了。

你会看到这种模式,人们用 Clamor index 工作流程和线图等等重新发明这种模式。但奇怪的是,我并没有真正听到过其他地方将其描述为一种模式。所以我喜欢强制验证的描述,因为它非常清楚地说明了代理不是提供它的那个。是工具。通过工具,如果你得到了它,

那么你就知道它已经能够通过工具并通过它需要通过的内容。没错。好的。所以,Motley Crue 上的另一个想法,这真的很酷,而且它的名字也很有意义,

你正在使用任何你想要的框架。那么这看起来是什么样的呢?它是在 lane 图和 Lama 指数和 autogen 之上的抽象吗?所以现在,首先,我们所有的,好吧,我们为所有常见的代理类型都有包装器,因为每个框架都有自己的代理父类,我们可以包装它们,这对于例如使它们都支持强制验证模式是必要的。

我们可以。好吧,当然 Lama Index 和 Langchain 代理我们可以支持,我们也支持错误验证模式。它们都支持可运行接口,因此您也可以将它们插入 Langraph,因为 Langraph 实际上很酷。所以这是主要的两个部分。您有包装器,这些包装器也继承自 Langchain 的可运行程序。

因为你可以对 Landshade 说很多话,其中包含“插旗”和类似的不太好的词。但它的一些东西真的很酷。Langraph 当然就是其中之一。是的。是的。优秀。好吧,这很有趣。而且它是完全开源的。所以任何人都可以立即去玩它。

没错。承诺是使其真正开源,因此它永远不会被用来试图将人们推销到某些东西,或者永远不会故意削弱它以使人们为付费版本支付更多费用。它旨在最大化,这也是它与所有内容最大化的原因。就像我们现在必须关注的下一个有趣的事情是 Anthropix 模型上下文协议。哦,是的。它看起来真的很酷。所以我们真的必须支持它。非常酷。还没到那里,但很快就会到来。

现在什么是 causal tune?首先,我们可以花点时间注意到你一直在那里创造很多东西吗?我们已经讨论了 Wise Pizza。我们讨论了 Motley Crue。现在我们将讨论 causal tune,以及您正在做的一切。向 Wise ML 和 AI 网站上的所有人致敬。

该公司的部分......好吧,首先,我很幸运......能够在 Wise 工作,这非常酷,与人们在工作时间之外并行做其他事情......所以现在我已经......我已经能够正式放下我的人员领导职责,在 Wise 兼职,并将我的其余时间用于创办一家初创公司

而 causal tune 正是我一直在告诉你的东西,因果推断细分。其想法是在营销中,您可以从 A/B 测试中提取比平均值更多的价值。事实上,您可以观察对每个客户的影响,并将其用于按影响细分、按影响定位以及所有那些精彩的事情,直到您看到它们完成,您甚至不会相信这是可能的。

因此,causal tune 是因果推断与营销,但它也是细分部分,因为我知道我们讨论过其中的几个不同部分。好吧,causal tune 是 WISE 开源的一个库。顺便说一句,我们实际上在 WISE 成功地使用它,并取得了成效。因此,我们确实看到了点击率等的明显上升。

因此,causal tune 只是一个用于因果推断的库。它做了两件很酷的事情。很酷的事情第一,它允许您估计客户层面的影响。很酷的事情第二,它允许您估计假设治疗的结果。假设您使用 causal tune 定向或甚至随机测试进行某种分配。

然后突然你的营销主管进来说:“哦,不,你应该使用这些规则。”然后,与其等待一个月来运行另一个测试来测试这些规则,实际上您可以拥有,例如,一个随机试验结果,以非常高的精度计算任何规则对该样本的结果。

因此,如果您想测试简单的定位规则的想法,您不必为每个规则运行新的测试。您只需先运行一个随机测试,然后使用该数据集并获得您可以尝试的任何其他分配的置信区间结果。你实际上甚至不需要发送电子邮件。你只是在旧数据上运行测试吗?好吧,你需要进行一次测试。

你进行一次测试,完全随机的测试就足够了。然后,使用此方法,您可以根据原始测试中拥有的相同客户特征来估计,您可以获得任何其他分配的平均结果,而无需运行更多测试。那么,例如,人们在定位时为什么设置随机样本?当您可以通过数学方法公开展示时,这只是浪费样本量。是的。好的。是的。

所以现在你提到了,你有点暗示了。你正在用这个建立一家初创公司。那是什么样的?还处于非常早期的阶段。我们希望在几周内就能推出一些东西,因为它不仅仅是产品本身。因此,这项技术本身已经在 Wise 进行了测试。它有效。它也已被 Wise 开源。因此,任何人都可以使用它来启动一家初创公司,包括我自己,没有任何障碍。

但是现在有一个完整的 SaaS 初创公司的机制,托管和用户身份验证以及构成功能系统的所有位。一旦我们启动这些,我们真的希望让 Wise 之外的人尝试一下并看到好处。因为任何类型的定位,只要你知道你定位的用户的一些信息,

这就是您可以从中提取尽可能多信息的这项技术。我们可以进行定位,以及在您拥有的功能允许的情况下可以进行的定位。我实际上认为它非常接近最佳状态。

你如何使用它?如果你是运行促销活动或运行更好的费率,或者你还能给我举个例子说明你实际上做了什么吗?因为我不确定我是否完全理解了如何通过我从 WISE 收到的电子邮件来完成这项工作。

在这种特定情况下,我们刚刚获得的测试刚刚结束,我们已经看到不错的数字出现,WISE 不仅仅提供转账服务。它提供了很多很多好东西。您有资产、余额、卡,您可以以不同的方式使用卡。因此,我们有六到十封电子邮件鼓励用户使用我们提供的特定方面。

我们内部称之为产品。然后成功的衡量标准是那些实际上继续前进的人,而不仅仅是点击电子邮件,而是在收到电子邮件后的特定时间窗口内注册并开始使用该特定方面的产品。然后问题是,既然您有八到十种不同的鼓励措施可供选择,用于产品的不同方面,您将向该用户发送哪一个?

这是一种您可以尝试天真的规则的事情,但是如果您使用这种技术,您将获得更好的影响。好的。好的。是的,这说得通。所以就像,“嘿,这个人通常......”我会使用我的用例,因为我觉得我可能以前见过这些电子邮件。正如我提到的,我使用 Wwise。你在看着我,你说......

通常从美元转账到欧元。我现在正在使用储蓄功能或支票功能。你知道他可能喜欢的是信用卡或卡,因为我已经考虑过了。所以我绝对有。如果一封电子邮件在合适的时机到达我,我可能会。是的。

最终得到它。没错。这正是那种情况。好消息是,这些事情现在可以考虑很多其他事情。例如,不同的地区可能会有不同的效果,或者平均交易规模不同的用户可能会有不同的行为。您可以考虑任何类型的功能。只需训练您的模型,它就会告诉您最有可能产生积极结果的事情。非常酷。好吧,

我们能否谈谈组织结构以及您对此的想法?哦,当然可以。我很乐意。事实上,当我来到 WISE 时,最大的启示是不仅一个人,而且一个团队可以拥有的自主程度。

当我第一次加入 Wise Treasury 时,在一个组织中工作,在那里我周围看到的每个人都没有告诉别人该做什么,甚至你的领导,这听起来很奇怪,但它实际上有效,这真是一个启示。因此,自那以后,自主组织的想法就非常贴近我的心。

因为它不仅仅是关于人们的行为,不仅仅是关于意图。它还与组织的结构有关。例如,如果您有一个垂直的 IT 组织,每个人都必须为此竞争,那么您可以忘记自主性。或者如果您有一个组织,如果您有一个团队,只被视为成本中心,那么这个团队将为了组织的其余部分而吝啬,因为有一些中心。因此,它有一个个人和结构方面的组成部分。

我实际上一直在写一本书。让我们看看我做得怎么样。

关于这个。所以相当先进。希望明年初能出版,但我们会拭目以待。关于这方面及时性的有趣之处在于,我认为,当然,我不只是这么认为,这种人工智能的方式将改变组织的结构方式。

是的。如果您仔细想想,一家典型的公司,就像一家大公司一样,其结构围绕着它的信息流。它的信息流是分层的,因为直到最近,这才是人类知道如何处理文本数据的唯一方式。您有中层管理人员为他们的管理人员制作报告,而他们的管理人员又为他们的管理人员制作报告。然后经过多次耳语之后,首席执行官认为他们知道发生了什么。是的。

但是现在,如果您能够缩短整个中国式耳语金字塔,让 AI 直接查看组织中的所有原始数据,并在必要时通过聊天提出问题(当它不知道足够的信息时),然后给出答案,规律性。也许你不需要等级制度。

所以这是一个非常非常令人兴奋的想法,也是一个我将在未来几年努力参与的特定领域。你确实说了一些话,在我们几周前举行的“生产中的 AI 代理”会议上一次又一次出现的问题是,你如何......

创建一个能够理解它没有足够信息的代理。我认为这是一个非常棘手的问题,就像你刚才说的那样,因为人工智能,你之前也提到过,如果你给人工智能和机器学习一项查找某些东西的任务,它总是会找到某些东西。无论它是否真的是你在寻找的东西,它总是会找到某些东西。所以很难

让代理理解它没有足够的信息来回答任何问题或它正在编写的任何报告。很多时候,这就是它默认幻觉的时候。这是真的。但与此同时,我认为对此有一些解决方案。你必须从一开始就为此而构建。我的意思是,最简单的方法是共识。

如果你运行几次,它会给出相同的答案还是不同的答案?如果它确实给出了不同的答案,那么它可能不知道。

我百分之百确定,但坦率地说,就这种技术而言,我很乐意成为快速追随者。我百分之百确信,谷歌、OpenAI 等公司的聪明且薪水丰厚的团队甚至现在正在研究更智能的解码方法来处理这个问题。

因为它在 LMS 中是一个如此明显的盲点。我宁愿再等一两个季度,然后用它来构建产品。是的。这与我想要进行的实际组织结构对话有点偏离主题,但你说了,我的思绪就那样走了,就像一只追逐球的小狗一样。然而,组织结构对我来说很有趣,因为

A,我可以想象很多听众,包括我自己,他们会想,好吧,事情是怎么完成的?如果没有人在告诉别人该做什么,那么真正的计划是谁在制定高级愿景或目标?好吧,我认为仍然存在等级制度。只是等级制度不是强制性的。

只是领导者的重点不是告诉人们该做什么。相反,它是以下几点。首先,是讲述故事。为什么团队在这里?它存在的重大意义是什么?它如何与组织的其余部分相适应?这是任务一。任务二是,这对聪明人来说足够了,他们可以弄清楚最重要的是什么。

另一半是清除团队可以自己处理的障碍。因此,如果组织的其他地方存在组织问题,某些愚蠢的流程卡住了,或者事情发生了,那么只需进入那里,清除这些问题即可。我认为这是两件最重要的事情。如果每个级别的领导都这样做,尤其是讲故事的部分,那么你

由此释放出的自由程度,创造力是惊人的。它甚至具有经济效应。当我为 Wise 数据科学团队招聘时,人们拒绝其他地方的高薪工作的情况并不少见,因为他们来这里是为了获得自主权。而实践中的自主权意味着,如果我在你的团队中,我可以说,你知道吗,这是

项目,考虑到我们的故事以及我们为什么在这个团队中,我觉得帮助我们在该项目或该团队上推动发展的最佳方法是做这个项目。我提出一个建议,然后它得到批准,还是仅仅是

我继续进行,我说,“嘿,我已经快速搭建了一点,现在我需要来自 XYZ 团队的更多资源。”我想这就是自主团队中资历的工作方式,因为资历是通过你能带动多少人参与你的想法来衡量的。

因此,如果您真的是一个初级人员,并且您真的不知道什么是重要的,那么您通常很乐意接受指导。然后,随着你的进步,首先,所以你必须说服你周围的人,你提出的建议是有道理的。至少,它对你来说足够有意义,可以继续进行。但是你如何成长为更资深的人员,当你开始说服人们,这是一件对整个团队来说都足够重要的事情时。

你能吸引并带动多少人参与你的故事讲述,你就越资深。然后最终头衔会调整。那么这种情况呢?我对参与 Wise Pizza 这样的项目非常兴奋。在 Wise Pizza 出现之前,我四处奔走,试图团结军队,

而它失败了。人们不明白。人们并没有真正有兴趣加入这个事业。我必须尝试多久才能为之奋斗,然后它才会彻底失败,我放弃并转向新的事物?是几天、几周、几个月的问题,还是我把它放在一边,并且从未真正让梦想消亡?

好吧,首先,当然,我所说的所有内容,不用说,都是我对自主组织、自主性围栏的运作方式的看法。在任何特定的组织中,包括 WISE,许多人都会不同意。这就是组织和人类的工作方式。所以我会说,既然没有客观的真理标准,

对大多数人来说有用,例如营销人员,他们会增加收入,但我们组织中的大多数人对他们自己没有直接的可衡量的影响。然后你必须带来,你必须提供足够的价值,让周围的人觉得有意义。

但是你必须有一些空间来追求对他们来说可能没有意义的事情。但是你必须拥有,你交付那些以对他人有意义的方式明显增加价值的事情的记录越多,你逐渐获得的空间就越多,去做那些可能一时之间没有意义的事情。但这很大程度上是一种关系,是一件人的事情。我想这就是自主性的问题,无论它是否不是

你可以考虑,就像我最喜欢的隐喻是机器与森林的隐喻,对吧?很多建议,关于扩展组织的很多建议都围绕着使其像机器一样。每个角色都被精确地描述,人们是可以替代的,然后你可以扩展。而以自主为中心的组织更像是花园。

在那里,事物按照它们的方式生长,并且它们相互调整,但这确实是,哦,没有两株植物是一样的,没有两个人是一样的。然后你必须向你周围的人讲述故事,你正在做的事情必须对他们有意义。这是主要标准。你熟悉永久农业和整个园艺运动吗?

哪个?永续农业。我不是。哦,它讲的是什么?所以它讲的是如何,我绝不是专家,但据我所知,不仅仅是,如果你看看传统的农业和传统的园艺,你会把所有的西红柿排成一行,或者你可能有一整片玉米地,

但这更像是,你知道什么东西和西红柿很搭,那就是罗勒,因为它能赶走果蝇。所以你种一棵西红柿,然后种一棵罗勒,再种一棵西红柿。所以你是在变化种植方式,你把不同的植物放在一起,因为它们之间有一个很好的生态系统或体内平衡。感觉这就是你所说的。

它不仅仅是园艺,让每株植物都以自己的方式生长,而是如果你能把两种植物放在一起,它们能很好地一起生长,你就会得到这种组合效应,两种植物都能更好地生长。哦,谢谢你用这么好的比喻。事实上,这很完美,因为就自主性而言,

职能垂直部门是致命的。因此,凌驾于产品中心汇报线的中央IT汇报线是对任何自主性的致命打击。正是这样。你必须混合不同的专业和比例,才能让他们做他们必须做的事情,而不会有任何垂直优先级妨碍到这一点。太棒了。♪

Machine Learning, AI Agents, and Autonomy // Egor Kraev // #282 01:05:20 Share

MLOps.community

Deep Dive

Shownotes Transcript

Machine Learning, AI Agents, and Autonomy // Egor Kraev // #282