We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Hard Learned Lessons from Over a Decade in AI

Hard Learned Lessons from Over a Decade in AI

2025/6/6
logo of podcast MLOps.community

MLOps.community

AI Deep Dive AI Chapters Transcript
People
M
Mike Del Balso
Topics
Mike Del Balso: 我认为目前机器决策带来的大部分价值并非来自大型语言模型,而是来自传统的预测性机器学习。我在 Uber 领导 Michelangelo 团队时,深刻体会到数据管道是机器学习项目中的主要瓶颈。因此,我们构建了特征商店,实现了数据管道的集中化和自动化,极大地促进了 Uber 人工智能应用的普及。现在,企业需要能够可靠、快速、准确地做出高质量的决策。欺诈检测、风险评估和推荐是机器学习可以带来显著业务影响的领域。公司需要根据用例的成熟度和对业务的贡献程度来提供不同级别的支持。Tecton 的目标是帮助每个机器学习工程师和数据科学家构建最佳模型,并使主题专家能够直接影响生产系统。

Deep Dive

Chapters
This chapter discusses the challenges of deploying machine learning models at scale, focusing on data pipelines and the creation of a feature store to address these challenges. It highlights the transition from descriptive and diagnostic analytics to predictive and prescriptive analytics.
  • Data pipelines were a major blocker in getting ML models to production.
  • The feature store was created to centralize and automate data pipelines.
  • The feature store became an inflection point in AI adoption, enabling self-service for data scientists.

Shownotes Transcript

感觉就像进行了五分钟的对话,而我们已经回放了一个小时。老兄,这次对话很棒,对吧?行动。我们做到了。我们在这里。酷。

有时候感觉我们沉迷于这个新的生成式AI世界,而忘记了互联网的一半仍然依赖于它,并且ML仍然为人们创造了大部分的财富。我想说,人们从机器做出的决策中获得的大部分价值,目前并非来自大型语言模型。至少现在还不是。而且它是否会永远如此,还有待商榷。当然。你可以看到……

从你一直与客户交谈的这个角度来看,他们确实从这些东西中获得了价值。是的。他们必须跨越几乎像这样的鸿沟。所以现在考虑一下所有大型语言模型的东西,它在……

采用曲线或复杂性方面的位置,很有趣,你知道,所有这些,就像你看到的,钟形图或钟形曲线。对。还有技术采用曲线。而且,你知道,我们在Tecton已经存在一段时间了,我们,嗯,我们不得不考虑很多关于采用曲线的因素。所以,呃,

先介绍一些背景,也许我先介绍一下我自己的背景。我是Mike。我是Tekton的联合创始人之一。我是我们的CEO。在Tekton工作之前,我领导了Uber的Michelangelo团队,该团队是为Uber所有AI、机器学习和决策提供支持的基础设施。所以这包括实时决策、缓慢决策,以及

但更重要的是,在生产环境中的东西。在此之前,我在谷歌负责广告决策系统。例如,当你输入搜索内容时,你会看到哪些广告,对吧?而且非常像,

面向生产。就像,如果你没有真正把它放在用户面前,什么都不重要。这就是他们赚钱的方式。是的。这就像一个很好的例子,说明这些东西对某些企业来说真的很重要。有些企业的整个商业模式都涉及或需要自动做出非常明智的决策,其精神是,嘿,让我们真正弄清楚如何尽可能多地投入生产。因为那是你解锁价值的地方。

在Uber,是什么阻碍了生产?起初有很多事情。我们没有办法训练模型。我们没有办法服务模型,诸如此类的事情。但是,你知道,我在那里的第一个月左右,我创建了一个电子表格,试图记录所有的地方,你知道,有数百名数据科学家,所有的地方,人们想以某种方式使用机器学习,对吧?这是

在十年代后期,二十年代初期。我们发现有很多项目非常非常有价值。很多项目只是随机的实验,就像,我不知道我们是否应该花时间在这方面。然后我们开始学习一些我们认为非常重要的维度,以便对它们进行分类和归类,以便我们能够弄清楚如何对它们进行优先排序。例如,这个团队是否井井有条?他们首先是否知道自己在做什么?

那是官方头衔吗?那是Colin Petterick说的,对吧?老兄,他们井井有条。

但同样,例如,他们是否有足够的人,你知道,如果我们帮助他们构建这个东西,他们是否有足够的人来接手并承担后续的所有权?因为我们是核心平台团队,对吧?所以我们发现的一件事是,你知道,我们有这个关于所有这些项目的大列表。所以我们经历了这样一个过程,比如帮助他们。我们会从,你知道,从激增定价开始,然后与ETA团队和欺诈检测团队合作,诸如此类的事情。

那很好。我们正在解决问题,将事情推向生产。当我们发现问题时,我们会填补空白,将其添加到平台中,诸如此类的事情。在此过程中,我们看到了……

我们构建了显而易见的东西,模型服务、模型训练。这是你一直听到的东西。令人惊讶的是……我们真的不知道。当时人们并没有太多谈论这个问题,但这是一个主要的障碍,我们在每个项目中都花费了大量时间,这仅仅是数据管道。这是一个数据工程问题。那时,他们……

行业正处于这样一个阶段:我们刚刚花费了所有这些时间,这些投资。我们正在弄清楚。弄清楚如何将所有数据整合在一起并记录从大数据中获取的所有数据,这是一件非常重要的事情。如何将所有数据整合在一起以便你可以使用它?对吧?

现在就像,嘿,让我们用它做点什么。所以当时人们的做法是,让我们做一个仪表板。让我们,你知道,让我们做一些描述性的事情,诊断性的事情。有一个问题。让我们弄清楚发生了什么。但是现在人们说,让我们获得更多价值。让我们转向更具预测性和规范性的东西,对吧?这更像是面向未来的。

所以这样做需要一套全新的技术,但也需要与数据的强大联系。所以我们一次又一次地构建这些数据管道。我们意识到,嘿,我们在每个项目中都在做同样的事情。让我们集中精力。让我们自动化它。只需将其引入中央ML平台。这就是我们所说的特征存储。所以这有点像Tecton的起源,因为我们构建了这个特征存储,然后,你

当时这还不是一个术语,但这成为Uber AI采用中的一个拐点,它是一种寒武纪大爆发。它是否使其更自助?

超级自助,因为你不需要我们为你构建数据管道。我们会给你一种方法来配置你想要的数据,以哪种方式转换它,它将实时提供给你的模型。你可以构建高质量的训练集,以便你可以构建你的模型。老兄,你知道吗?我最近读了几篇关于Uber ML和数据工程博客的文章。这真是令人耳目一新,因为它完全是关于这些预测性ML用例的。它展示了……

当你将它融入你的文化中时,你可以获得多么疯狂的结果。首先,我认为对于Uber来说,它就在那里,人们正在学习它。即使你不是数据团队的成员,如果你愿意,也可以学习大量关于数据、ML、AI以及所有这些东西的知识。在那里,一切都是关于民主化的。这是我们在团队中的使命。这有点奇怪,因为在我工作的第一个星期,他们说,好吧,你将向CEO介绍

公司的机器学习战略。没有压力。我甚至不了解这家公司。我就像,所以这是一个,就像一个,一个有趣的会议,呃,你知道,进展顺利,但这就像,你们并没有真正让我在这个问题上取得成功,但是,

但是是的,之所以要提到所有这些,是因为就像,你知道,那时的情况是,我们如何做ML?Uber绝对处于领先地位,我们试图弄清楚的不仅仅是如何去做,而是我们实际上希望这项业务能够以某种方式由它驱动。这不像是一件随机的附带事情。这就像我们想用这个东西来控制定价。我们想用这个东西来控制欺诈检测。有很多欺诈检测。这些感觉像是大的——

像岩石。然后你有沙子,当我阅读这些博客文章时,看到这一点让我耳目一新,

即使现在有人注册Uber,他们也会根据你的身份获得不同的流程。所以它在你入职或打开应用程序时,你的流程非常定制化,你看到的是不同的东西。对我来说,感觉这只有在你对ML、AI个性化部分进行民主化的情况下才有可能。

百分之百。所以这种民主化完全是关于,让我们让很多人能够做到这一点,对吧?让我们试着让它变得容易一些。这并不意味着它微不足道,而且,你知道,任何人都可以在大约20分钟内构建出世界上最好的东西。但这就像,如果我们有一种获得价值的方法,我们让一些人参与其中,我们让聪明的人加入团队,他们就能弄清楚并构建出相当不错的东西,对吧?你确实还说了另一件事……

你认识到,我认为我在他们的另一篇博客文章中读到过,就像他们发表的《从预测到生成》博客文章一样,他们谈论到

不同的模型和不同的用例具有不同的SLA。如果这是一个实验性的AI项目,那么如果凌晨3点出现问题,你将不会从团队那里得到同样的关注,就像激增定价模型一样,你知道它创造了如此多的价值。绝对的。我们今天在我们的客户身上也看到了这一点。他们有……

所以,所以在经历了这段旅程之后,为了完成这件事,我将完成这个想法,呃,你知道,我们认识到所有这些数据的价值,就像,

弥合你拥有的数据与你如何以某种方式使用它进行自动化决策之间的差距?当时我在旧金山这里举办了一个ML平台聚会,像Facebook和Twitter这样的公司,以及那些明显的公司,所有平台团队都会聚在一起展示他们正在做的事情,每个人都在做一些与众不同的事情,很明显,这是很多人都会需要的东西,所以我们开始使用Tecton来构建该东西的最佳版本,并将其提供给所有人

所以我们感觉我们已经创建了特征存储这一类别。它已经演变成一个特征平台。我们今天是它的领导者,这就是我们所做的。我可以说,没有人像我一样多地考虑特征问题、特征、ML的数据管道。你已经做了多久了,七八年?是的,差不多。好吧,我从2013年开始在谷歌做这些事情。十年多了。是的。

是的,已经很久了。所以这就是为什么我们可以谈论这些采用曲线,对吧?就像过去很多ML项目一样,它们非常实验性。它们在过去。我说的是,即使在2018年、2019年,人们也说,我们很想找到一种方法来弄清楚如何在我们的业务中使用机器学习,但我们真的不知道该怎么做。你能帮我们吗?

今天,情况是,我们知道这是可能的,我们只需要将这些东西投入生产。这就是我们确切需要的。所以这意味着这些类型的项目对投入生产的期望要高得多。所以对这些东西的认知和投资回报率计算是相当不同的。这就像……

风险较低。这就像我们相信我们可以做到这一点,而且我们知道价值将会是多少。我们知道我们可以减少欺诈。如果我们将欺诈减少1%,每年将为我们带来1000万美元,或者……

或者等价物。我们的网站点击率提高了X%,等等。然后在大型语言模型的世界里,情况就有点不同了。这就像,我们真的不知道我们是否可以做到这一点。这有点像一个秘密研发项目。我们甚至不知道这项技术是否能够做到我们渴望它做到的事情。以及我们需要的可靠性。甚至忘记它的企业就绪部分。这就像,我们甚至不知道我们想做的事情是否可行。所以有很多这样的项目,因为人们并不真正了解什么是完全可能的。好吧,感觉我们已经

现在非常清楚地了解了预测性ML可以在哪里增加大量价值,现在有一些用例,而在2018年,这些用例并不那么清晰,例如,当我们开始使用Tecton时,我记得在我们的投资者对话中,他们说,嘿,你擅长哪些用例?然后我说

我甚至不知道人们使用机器学习的所有事情。所以我甚至无法告诉你哪些将成为最重要的。我可以告诉你我们在Uber做了什么。但是今天,人们非常清楚……

呃,像自动化高质量自动化决策的价值来自哪里。而且,你知道,我只是想表达机器学习更广泛的概念,因为有时这也包括基于规则的决策,每一个用例都会经历,呃,

就像它自己成熟旅程的一小部分一样,如果你只是想开始,最基本的事情是从if语句开始。你知道,如果这个人在这个国家,就向他们展示这个。如果这个人在这个国家,就向他们展示这个,对吧?然后你可以像

让它更复杂一些。好吧,但如果现在是晚上,那就这样做。你随着时间的推移逐渐发展这种业务逻辑。有时你会采用规则引擎。这就是很多特定类型的用例,例如在金融领域,他们非常依赖规则引擎。这基本上就像超级花哨的if语句和case语句等等。然后在某个时候他们会说。

好吧,有些东西就像一团非常脆弱的烂摊子,还有更好的方法。让我们像训练模型一样训练一个模型,然后放进去一个模型。所以,你知道,规则引擎基本上是一个你正在构建的模型,但它在某种意义上是一个手工编码的模型。所以有这种成熟的旅程,但是价值或价值累积的用例是,呃,有一些,对吧?有,

所以我们特别关注这个实时或快速决策的世界,但你可以想到,你知道,很多公司,基本上是他们的核心。你可以看看,你知道,你可以从不同的,呃,不同的角度来看,但是很多,尤其是在金融领域,他们基本上只是决策业务。如果你去任何金融科技公司,呃,

与该公司相关的一切都只是关于你如何才能很好地做出四种决策。我们需要弄清楚如何才能很好地获取客户。所以让我们擅长做营销,自动化营销。我们需要评估客户的风险。所以,鉴于这个人想要贷款,我们应该给他多少信用?我们应该给他多少信用卡?或者我们应该为他们的保险承保多少?或者我们正在评估风险的任何金融产品。

第三类可能是欺诈检测。这个人是不是他们自称的那个人?对吧?所以这是一个非常大的领域。我听说过欺诈用例。我只是像漫画中那样,美元符号进入我的眼睛。是的。我的意思是,这是一个非常大的美元符号。任何接触金钱的人都必须处理这个问题。

但这不仅仅是在我为此分配多少资源方面,而且这个决策对我的实际业务绩效的影响有多大?例如,如果你是Coinbase的CEO,你会非常关心你的欺诈检测系统。这不像是一件随机的事情,对吧?所以你有收购,你有风险因素,

客户的风险评估、承保,你有欺诈检测,然后你有一些每个公司都会处理的事情,但他们并不总是将其视为自动化决策,这只是运营方面的事情。我们如何让我们的客户支持团队更好地发挥作用?我们如何帮助他们

更快地支持我们的客户。还有一个5B或可能是5类,那就是个性化,但这有点像收购方面的事情。我们如何使我们的产品成为客户喜欢并想要使用的东西?所以很多公司

真正需要擅长的是构建这些决策系统。如果你是一家新兴银行的CEO,你真正考虑的是我需要——

让我的业务和我的团队真正擅长可靠、快速地做出高质量的决策,如果这是必需的,对吧?就像产品表面所要求的那样。你想准确地做到这一点,这样你就能,你知道,获得价值。准确并不总是意味着像

例如,在欺诈检测中,让我们尽可能多地抓住欺诈者并拒绝他们。但由于其背后的决策科学,欺诈的理想比率并非0%。因为如果你拒绝每个欺诈者,你就会拒绝太多好人。对吧?所以有一个不同的阈值,在那里你让更多的人进来,多几个欺诈者,但你让更多的好客户进来,实际上可以对

你的业务产生非常大的影响。这是我们经常从客户那里听到的事情。这再次回到了成熟度的问题,因为我们一直在做欺诈。好吧,这并不是说我们突然醒来就说,我们现在正在做欺诈。这始终是一场猫捉老鼠的游戏。当然。但随着时间的推移,它也变得越来越复杂。用ML来做。用ML来做,但欺诈者也在使用ML。所以我们的客户

确信他们的对手,欺诈者,实际上正在训练ML模型来估计或模仿他们的反欺诈模型,以便他们可以绕过它。所以这是一场持续的猫捉老鼠的游戏,但这就是当你谈论用例成熟度时,人们正在使用机器学习解决哪些问题,而没有使用机器学习解决哪些问题,有一些问题的类别,其中

它变得非常复杂,欺诈就是其中之一。当然,用例的复杂程度与它可以节省或获得的美元数量相关。你知道,它如何影响业务?所以我认为欺诈属于这个类别,风险方面的事情,呃,从信用决策、贷款决策到,呃,保险承保,这都是一些事情。嗯,

你知道,推荐是一个更广泛的话题。我相信你与许多从事推荐工作的人交谈过。你看到了,嗯,

有很多很好的博客文章概述了推荐,如何构建推荐器。我认为Eugene写了一篇关于这个的不错的博客文章。但这非常广泛。有很多不同的方法可以做到这一点。但是如果你去欺诈方面,这就像我们一次又一次地尝试做同样的事情。我们只需要做得非常好,这样你就可以深入了解。是的,因为你可以通过推荐系统获得很多不同的东西。而推荐的真实情况是……

我想,因为我们不知道如果我们没有向他们展示这个,他们是否仍然会购买它,或者推荐可能是什么,而欺诈。这可能没有那么值得争议。你可以告诉你可以找出这个欺诈。是的。你会发现,你并不总是立即发现,因为你会发现,后来是否有信用卡拒绝或退款,但你可以,你可以获得数据,因为你知道,当你损失金钱时。是的。嗯,所以这就是,这就是一个真实的事情,但是人们到了这一点,呃,你知道,好吧,

因为每家公司也必须做出决定,我们需要内部拥有哪些决策?我们需要为此构建一个系统吗?我们需要有一个团队知道如何构建这些模型等等?或者我们应该购买一些API并简单地……

将这个决策外包给其他人。所以有不同的路径。有些公司说我们永远不会,永远不会依赖任何人。他们只是慢慢地让他们的方式变得更复杂。这样做的人是那些他们的专有数据特别有价值的人。

它对欺诈的预测性特别强。然后有些人说,看,我基本上和下一个人做同样的事情。还有另一家公司提供欺诈检测即服务。我将把它用作我的API。如果

我将,你知道,它会让我达到80%的好,但它不会让我达到100%的好。而我们现在看到的复杂性是,当你进入钟形曲线的更远位置时,人们正在混合使用两者。我们正在内部构建,但我们正在使用API或外部服务作为额外的信号。就像一个直觉检查。

好吧,有点像直觉,但只是模型的输入。就像那个外包模型的东西是什么?酷。这会让我感觉像,呃,把它想象成一个信用检查模型,信用价值模型,有人根据,你知道,所有美国人的数据训练出来的。对。这很好。但是,嗯,你知道,如果你是金融科技公司,也许你服务,也许你服务于非常具体的,呃,社会经济,嗯,

人口统计。所以国家层面的模型对你来说甚至不相关。它是一个输入,但它不是。你有一堆特定于这些人的数据。所以你会想,嘿,我不能真正使用这些

这些其他的东西并没有它们可能的那样具有预测性,因为它们没有我的,它们没有,它们没有针对我的人口,我的客户进行调整。我从我的客户那里收集了所有这些专有数据,我应该能够使用它们。对。所以人们正在结合两全其美的方法。这就是当你沿着成熟度曲线走得更远时发生的事情。对。所以回到这一切,你知道,回到这个的开始,嗯,

这就是我们在预测性ML中看到的,人们仍在前进,而且这是一场猫捉老鼠的游戏,所以你不能只是放松什么都不做,没有哪个欺诈团队只是拥有他们的欺诈模型,然后他们就像,酷,完成了,让我们继续下一个,是的,我们将弄清楚其中的一些,是的,它就像一个,它就像一个事情,CEO在收益电话会议上报告的事情,这是一件很多人被雇用来处理的事情,因为它非常有价值,对吧?并且有一整类这样的决策,但在另一方面

成熟度曲线。它是这些较少的问题和立即的美元符号驱动的项目。这并不意味着那里没有价值,但这意味着投资回报率可能并不那么明显或一开始就很好理解。影响可能不会立即被观察到。有时项目是

就像我们将要,我们想运行这个,我们认为它会很好,但我们无法立即看到影响,是的,有时,然后项目的可行性可能是问号,是的,这,你知道,这只是对许多像新型大型语言模型项目进行分类或描述,这是一项新的酷炫技术,它甚至不再是超级超级新的了,人们正在将这些东西投入生产,但它并没有达到像

你是一家银行的欺诈团队的复杂程度。所以你需要为成熟度旅程的不同阶段提供不同的东西。以及它为业务提供了多少动力。回到我们之前与Uber的谈话,并说我们几乎支持不同类别的模型,因为我们知道它们的价值。我们可以非常清楚地说,这个模型得到了

所有可能的关爱,因为这是业务的基础。百分之百。这个模型。是的。我们必须非常擅长学习不同的用例属于哪个类别,并能够与我们的客户交谈,帮助他们弄清楚这一点,因为他们不知道,像Uber一样,你知道,他们,

在成熟度曲线上遥遥领先。所以他们拥有所有这些经验,比如,好吧,这些不同的类别是什么?我们应该如何运作不同级别的支持等等?但是如果你是一家银行,你是一家电子商务公司,你只有三个模型,对吧?

你真的不知道。也许一切都是关键任务。你认为它是关键任务。所以我们在Tecton做的一件事是,人们带着这些问题来找我们,他们说,看,我们只是试图弄清楚。我们帮助他们弄清楚你真正需要什么?你正在构建一个推荐系统。这对你的业务有多重要?以及如何……

关键的是你作为企业想要承担哪些SLA?如果问题是其中一个问题,

好吧,你知道,如果这个东西失败了,我们只需要按“重试”按钮,这实际上并不重要。谁在乎呢?我们会按“重试”的。反正我们下周也要用这些预测结果,或者这些预测结果只是会放到幻灯片里,展示一些预测之类的东西。那么你就不需要这样对待它。你们不想构建所有这些系统,也不想承担与将其视为业务中一项关键任务相关的成本和开销。这就像,只要能按“重试”按钮就行了,

我们花了大量时间研究的、旨在与价值真正相关的用例集是,当人们以……的速度自动化决策时,

人类无法参与的速度。所以像欺诈就是一个很好的例子,还有推荐、实时定价,以及在实时客户流程中发生的许多实时决策,你实际上不可能让人在那里做这件事。是的,检查一下。这就是它所说的那样吗?是的,或者我们应该向这个人提供这个服务吗?是的,很多这样的用例

正如我们之前所讨论的,它们对业务至关重要。我们的一位客户是美国最大的保险公司之一,他们使用我们的系统来处理所有逻辑,所有

当有人注册保险时。他们非常非常注重可靠性。他们是美国最受欢迎的公司之一。他们不能毁掉自己的品牌。他们不能倒闭,对吧?这就像一件超级值得信赖的事情。因此,当你观察这些团队是如何运作时,你会发现他们的速度比其他……慢。

像那些很酷的技术湾区公司,但他们故意这样做。这并不是因为他们不擅长技术,而是因为他们会检查沿途的每一个环节,以确保完全的可靠性、灾难恢复、弹性等等。因此,他们最大限度地减少了发生坏事的可能性,因为他们必须为客户提供服务,而且这更有价值。这是一个企业用例。是的。我还想问你的是,你如何看待最佳团队在

将他们在数据和机器学习团队上所做的价值转化为业务价值?这是一个好问题,你的意思是……你是指他们如何在公司内部向上汇报吗?是的,你总是可以说:“嘿,我们赚了或节省了1000万美元”,这很好,但我认为很多时候情况比这要微妙得多,对吧?是的,有时你

无法做到这一点,或者如果你做到了,你就是在篡改数字。不过,我认为,往往是那些价值更清晰的用例才能获得资金,因为在你找到一个可以帮助你做某事的优秀供应商之前,你必须知道,这是否在公司内部被优先考虑,回到欺诈的例子,这始终是一个优先事项,而且永远不会像“我们不确定我们是否应该处理这个问题”一样。

这类事情。对。是的。但是有很多项目是这样的:“好吧,我们认为我们可以做到这一点,但我们真的不知道它的价值。”它们是如何变得可怕的?那些实际上是可怕的,因为你距离一次重组只有一步之遥,那样项目就不存在了。是的。对。或者裁员一次,或者其他什么。对。而且,嗯,

所以我们有一些方法可以帮助我们的客户。顺便说一句,我们所做的一件事是,我们有一个价值框架,我们会与他们一起使用。所以就像我们进来帮助你提出正确的问题一样,我们可以和你一起写下商业案例,这样你就可以向楼上的任何人展示正确的价值。并且说:“嘿,这就是为什么我们应该花这笔钱。这就是为什么我们应该首先开展这个项目的原因。”对吧?但是有一些……

这一切都归结于我们将赚更多的钱,我们将损失更少的钱,成本将降低,或者我们将降低风险。事情将变得不那么冒险。Tecton 通常可以帮助解决的地方是,我们帮助你的团队更快地行动。许多这些用例也确实取决于,或者能够对新的黑客或新的欺诈手段做出反应对它们非常重要,但要从想法到

投入生产的速度要快得多。这种速度。是的。这有助于市场反应能力,但我刚才提到的,还有就是,你知道,我们试图将需要六个月才能完成的事情在六小时内完成。那么,作为团队,你一年能做多少事情呢?我认为,如果你只是在花钱,这就像数据领导者应该考虑的逻辑一样,我拥有,我正在花费

原始的或虚假的数字,这个人10万美元。他们今年可以做两次循环,或者他们可以每天做一次循环。我将从这个人身上获得多少价值?对。所以这就是速度维度。第二个维度是准确性。你的模型会变得更好,对吧?我们所做的一件事是帮助你构建各种类型的特征,将不同的信号输入到你的模型中,而你以前无法构建这些信号。因此,你

你从数据中获得更多有用的信息进入你的模型,你的模型变得更准确。所以这是新的信号,但也有很多公司认为,看,我们拥有所有这些数据,所有这些不同地方的酷炫信号,但是我们构建这个东西的方式,我们只能真正使用,我们必须选择。我们必须使用,它将是一个批处理。它只会使用实时数据。所有这些数据都没有整合在一起。那么我们如何将所有这些数据在一个东西中一起使用呢?所以我们帮助人们在每个决策中使用所有数据。

这就是准确性维度。然后第三个是可靠性和规模等等。当人们经历这个曲线,这些用例变得越来越重要时,你就会从对使用拼凑起来的、用胶带粘起来的东西感到满意或可以接受,转变为一个你实际上需要这种弹性的世界。我们有很多客户,他们

他们的现有系统出现过重大中断,这直接导致他们损失了数千万美元。所以这里有一个成本因素。或者他们系统持续的成本。它的实现方式非常低效。例如,他们每次进行预测时都会重新计算每一件事。你不需要这样做。像,你应该……

正确的方法是使用增量计算,并且有一些很好的方法可以做到这一点。我们可以帮助你。事实上,一两个月前我们邀请了Rohit来这里,他谈到了这一点。你只需稍微调整一下数据偏好,并认识到我们是否需要检查点这个数据,我们希望这个数据有多新鲜,就可以节省很多钱。如果你可以接受它从一小时变为一天,这可能会为你节省大量现金。是的,百分之百。

所以我们,所以这些都是一些价值维度,但是你知道,如果你正在收听这个节目,并且你正在从事一些,你知道,数据科学或机器学习项目,

它对你来说的动机是你可能听说过其中的一些事情。例如,我们这样做是因为我们必须提高模型的准确性。因此,往往存在一个主要的瓶颈。但根本原因实际上是我们关心所有这些事情。但是,你知道,有一件事首先更痛苦。好吧,提高模型的准确性只是一方面。但随后你会想,比如……

这将带来什么?如果模型更准确,这意味着什么?当然。这取决于用例,对吧?平台团队很难大规模地做到这一点。所以,如果你是一个,你知道,ML Ops人员或你公司平台上的ML工程师,你的公司平台,你知道,

实际上没有,我没有,我没有找到它。我很想听听其他人是否拥有它,但我从未见过一个平台团队。我在优步时也为此苦苦挣扎。谁有一个真正的好方法来收集,嗯,

自动收集和跟踪他们对所有内部客户的帮助的影响。他们为那些数据科学家或任何使用该平台的人带来的价值。这是一个很好的说法。而且很难,对吧?你想要做到的方式是说,好吧,所有这些的共同货币是什么?是美元。那么为什么我们不问问我们所有的客户,那些依赖我们东西的团队,

你节省了多少钱?你赚了多少钱?速度提升对你来说值多少钱?酷。让我们为所有这些都获得一个美元价值,然后像把它们放在一起。而且,呃,

你知道,这是你能做的最好的事情,但这仍然是一个糟糕的答案,对吧?之所以是一个糟糕的答案,是因为你知道,事情会发生变化,你正在与之交谈的人通常甚至不擅长给出这些答案。因此,你有一堆像半答案一样的东西,然后你必须进行汇总,然后它们也过时了,你必须……

并围绕它们进行汇总,将它们汇总在一起。因此,你无法向你的老板展示一个非常高质量的信号。此外,你可能拥有一个伟大的产品,它为数据科学家带来了巨大的价值,但是如果数据科学家正在从事错误的项目,并且他们没有赚钱……是的,但这实际上取决于……

你知道,那个,那个,业务领导者。有,所以有一个风险主管。有一个收购主管,他必须确保他的团队正在处理正确的问题。而且,而且没关系。你知道,有时你会从事实验,然后它们失败了,或者其他什么,但你希望你能做到,失败是可以的,但你希望平均来说你能做对。所以你净增加了价值,但是你需要这些领导者来理解,这样他们才能对投资正确的数量有正确的想法,不是无限的,而是

但是要对这些东西进行正确的投资,以使团队能够取得成功。我喜欢迭代速度和能够缩短迭代速度的想法,因为这感觉是你总是可以用作锚点的东西,并说,看,这个人,无论我们付给他多少钱,都像是我们现在因为这个平台而拥有两个人。是的。是的。我们沿途了解到关于客户的一些事情,我们帮助他们尝试弄清楚。我们尝试,我们有一个非常像,“嘿,我们是你的合作伙伴。我们在这里帮助你”的方法。而且,

就像今天有多少人在做这件事一样?如果你不必做这些事情,那么需要多少人来做这件事?他们还能做什么?让我们谈谈之前和之后是什么。这将带来什么?是的,完全正确。我们喜欢把它写下来。让我们对此非常清晰。但它归结为,这是我们现在看到人们越来越多地考虑的事情,因为我们已经经历了这个过程,就像Tecton一样,我们已经经历了这个旅程,在早期,

所有这些事情基本上都是不可能的。你永远无法使用流数据或实时数据。这就像最初的事情。让我们帮助人们在他们的决策中使用他们的快速数据。所以我认为Tecton经历了这三个阶段,第一阶段是让我们让人们做到这一点。因此,我们的第一批客户是那些说:“嘿,我们真的只想使用这些实时数据。我们拥有所有流事件,我们必须改进我们的模型。我们真的不知道该如何去做。我们现在不可能做到。我们可以使用你的东西,然后让它成为可能吗?”的人。

这很棒。我们可以投入工作,平台很棒。我们将帮助你们做一些以前不可能的事情,你们将释放出很多价值。第二阶段是酷。我知道这在技术上是可能的,但是我工作在一个团队中,我在一家财富100强公司工作,对吧?我在一家有很多特殊规则的公司工作,规则,

我们有合规性,我们有奇怪的政治利益相关者,很多利益相关者,我们需要……这需要为我们的组织工作,我们需要能够跨组织共享这些东西,我们需要……我需要能够向我的老板汇报我们在这件事上花了多少钱,拥有可见性控制等等,这对许多大型公司和需要协作的团队来说都是一个真正的瓶颈。

它阻止他们使用现代ML工具技术。所以这就是我们作为一家公司所做的第二类事情。我认为我们只是……肯定已经摆脱了这个区域,我们对顶部感觉很好,

如果你是财富100强公司,那么你没有理由不为你的流式和实时决策使用Tecton。现在第三件事非常有趣,如果你考虑一下,好吧,现在如果你是在任何大公司处理这些问题的人,你应该在技术上没有障碍。你应该不会受到组织繁文缛节的阻碍。那么你今天正在做的事情和你能够做的事情之间有什么差距呢?

做得好,只要想想,你可能不是世界上最好的机器学习工程师,会有人比你更优秀的机器学习工程师,那个人能够完成你无法完成的事情,对吧?也许他们速度更快,也许他们更聪明,他们想出了更好的,你知道,设计、更好的功能,他们可以用不同的方式做这件事,对吧?我们的目标是帮助这些人中的每一个人

成为最好的ML工程师。哦,现在有意义了,因为我看到了你们发布的关于帮助功能的内容。所以这个功能创建,几乎能够咨询AI,这在某种程度上是元级别的。是的,是的,它确实很酷。所以我们推出了AI副驾驶,这是为那些构建AI的人准备的。是的,是的。

所以你听到的是如何使用AI来帮助我编写代码?如何使用AI来帮助我写论文等等?但是很多这些决定并不是……

组织中的许多决策并不是由LLM驱动的。无论出于何种原因,有很多原因都很有道理,但它们是由预测模型驱动的结构化决策。但这很好,这是一个预测性ML模型,但这是否意味着它需要手工调整、手工构建等等?是的。

什么,比如你为什么期望你是最好的家伙,你会构建最好的模型,对吧?所以我们正在构建一个系统,一个副驾驶,来帮助每个ML工程师和每个数据科学家为他们独特的环境构建最好的模型,这可以像“嘿,现在你模型中使用的功能是……”一样简单。

比如,你是如何想出这些功能的?你们只需要考虑一下。你们只需要发明它们。好吧,我记得你以前告诉我,你认识的一些最好的数据科学家总是对数据有深入的了解。他们必须花很多时间处理数据才能做到这一点,这几乎是他们的第二天性。而现在……

这是一个完美的AI用例,因为它可以吸收所有这些数据,并给你这些类型的,嗯,你考虑过这个吗?所以这里有两个角色,对吧?有两个,比如角色,我的意思是,如果你去银行,或者你去,你知道,大公司,你会看到两个人。第一个人,坐在椅子上,第二个人坐在他们旁边,他们有不同的技能。第一个人,

非常擅长ML方面的事情。并不真正了解问题是什么。他不是说:“嘿,我已经处理信用卡违约或信用卡拒付10年了。”对吧?第二个人就像:“看,我已经处理信用卡拒付10年了。嗯,

非常擅长SQL,但我不是机器学习专家。”有些公司拥有能够同时做到这两点的人,但这真的很难建立一个完整的团队。他们并非完全找不到,但找到他们确实很难。即使那样,他们也不是世界上在这两方面最好的。我们试图帮助人们做的是,如果你拥有主题专业知识,允许该主题专家

直接影响你的生产系统。对吧?他们可以将他们的直觉传达给系统。所以你知道吗?像,新用户,他们

从这个渠道注册,他们身上总有一些可疑之处,我从来不知道如何准确地抓住它,但这就是你应该去寻找和弄清楚的地方,系统应该帮助你弄清楚正确的信号,对吧?可疑的渠道,这太搞笑了,他们知道哪些小巷是可疑的,哪些不是,对吧?这是真的,而且这完全在他们的脑海里,他们可以随意记录,但没有人阅读这些文档,对吧?然后你还有其他人,他们就像

你知道,继续这个比喻,就像他们非常擅长开车,但他们不了解这座城市一样,对吧?他们对小巷一无所知,所以每条小巷都像是“我不知道,我会走下去”,对吧?这也是一种浪费时间,所以像AI副驾驶可以自动理解你的数据中发生了什么,这样我们就可以引导这个人朝着正确的方向前进,所以这加起来就是我们将帮助

自动提出功能创意,自动编写,实际上是构建这些功能。在Tecton中,当你编写一小段功能代码,一小段转换代码时,它从一开始就成为一个完全生产化的功能。所以这一切都是关于重要决策系统的生产管道。所以这些东西已经,所有困难的部分都解决了。现在让我们让AI来帮助人们编写这些东西,编写正确的东西,并快速编写。你拥有,

能够说:“是的,很酷,我想用它创建一些生产化的功能。”但是你如何确保它们实际上按照它们所说的那样做,以及你希望它们做的事情呢?那里有一些反馈循环,你正在评估它。我们让人们自己进行评估。许多用例都有非常复杂的……

评估系统,他们已经构建了多年等等。所以我们可以允许你,我们将把功能数据返回给你。这就像,我们是制作很棒的、快速的、正确的训练数据的最佳人选。所以你可以弄清楚这一切。然后你可以说:“嘿,实际上这个功能很糟糕。让我们删除它吧。”因为你知道我忘了你连接到一个预测性ML系统。所以所有这些评估都是,

非常成熟,而不是,“哦,你连接到某个聊天机器人,你必须弄清楚那个评估。”对,完全正确。你必须得到新的。完全正确。评估系统往往非常成熟,你已经拥有它了。但是我们开始做的一件事是允许你将你的标签报告回Tecton,以便我们可以将其提供给AI。对。

然后AI就可以,它不会是完美的,因为它可能没有你的专业评估系统。但是如果它知道,“嘿,这些费用是欺诈行为,而这些不是”,那么它可以做的至少是让我,你知道,指导我寻找更好的功能。然后我可以找到那些至少从我拥有的数据来看非常具有预测性的功能。对。然后我可以建议,作为AI的我,我可以建议你,说:“嘿,看,我找到了这些大约10个功能创意。”对。

检查一下。它们与我们系统中其他功能非常不同。告诉我你是否认为它们很酷。也许你可以说:“嘿,我们不喜欢那样,因为我们永远不想使用那个信号作为……作为功能。”或者也许说:“酷,让我尝试所有这10个,然后我会为其中一些部署到生产环境。”这回到了专家的说法,“不,我已经走过那些小巷了。把那个拿走。”或者,“啊。”

我实际上没有考虑过这一点。让我试试。而且感觉这会使迭代周期非常快,因为它会建议很多功能。现在你可能会遇到另一种情况,那就是,“好吧,我们有很多噪音,因为所有这些功能都在建议。你多快才能运行并查看功能是否有价值?”

是的,这取决于你的评估系统,因为你可以在自己的评估系统中运行任何你想要的东西。但是你提出了一个很好的观点。像,我们很多客户,其中一件事,我们在……第二阶段中解决的一个问题,我说的是,像,让它为团队工作,对吧,是……

我有这些不同的团队正在处理相同的事情,我相信他们只是在做很多重复的工作。所有这些用例都非常依赖数据,这意味着成本。

对。所以像,我担心我在这个团队上运行相同的管道。这个人重建了这个管道,现在我付出的成本是原来的两倍。是的。像我们有一些客户,他们的单个管道每月可能花费数万美元,这取决于你的规模等等。首席财务官现在正在皱眉。是的。所以你想要,你必须小心这一点。这对他们来说是一件重要的事情。所以我们有一些东西可以帮助他们,你知道,找到重复项,比如,“嘿,注意一下。这些东西看起来基本上是在做同样的事情。你想杀死它吗?”哇。

这类事情。是的。我们将在这里推出更多内容。我的意思是,现在也是一个很好的时机来宣传一下。我们肯定正在招聘工程人员,我们喜欢一些在处理这些问题方面非常优秀的人。好吧,基本上,如果你是一个努力工作的人,你是一个谦逊的人,你很好奇……

我们想和你谈谈。在美国?在美国,我们在拉丁美洲也有一些人。但在美国,一般来说,我们在旧金山和纽约设有办事处。所以如果你想在办公室环境中工作,请联系我们。但是是的,我们正在从事这些非常酷的项目。而且这些事情我们不会与……

那些不太了解的人一起度过。如果你在应用程序层工作,你的客户是那些……像……

那些不使用技术的人,你只是直接解决他们的问题,他们甚至不会欣赏你所做的事情。我们所做的是,我们与基础设施团队合作。我们与平台团队合作。旧金山许多最酷的公司,他们的顶级AI团队,都是我们的客户。所以我们每天都与他们合作,我们与他们共享Slack频道。所以我们有很多想法。我们会向他们汇报。所以我们学到了很多东西。从这个角度来看,这是一个非常酷的环境,因为我们有

很多朋友,而且你知道其他不同公司在他们的ML和AI基础设施中都在做什么。是的,我喜欢它,因为你将这两个世界结合在一起。而且你把它看作一条生产线,或者你认为,我们在这里在数据方面所做的事情,不仅仅是因为它是预测性ML,我们正在为公司的关键任务产品提供动力,这并不意味着我们必须完全

转移自己或与你可以从生成式AI中获得的提升脱节。绝对地。我们认为生成式AI对我们来说有两种方式非常有帮助。一种是整个事情,就像我们帮助我们的客户更好地构建他们的机器学习一样,对吧?所以这就像Tecton的Gen AI一样,对吧?但是,你知道,人们也使用Tecton来进行许多Gen AI应用程序,对吧?所以一个非常重要的模式,我们看到很多人都在这样做,尤其是在营销方面,就是……

像使用混合应用程序一样,他们使用这个决策系统,我们有很多预测模型,它们会馈送到Gen AI应用程序中进行一些生成,比如一些个性化文本,我们有很多模型正在预测,比如

这个人的性别是什么?这个人的这个东西是什么?他们都必须在一个连贯的数据系统中工作,该系统一次进行推理,对吧?所以这就像一个混合体。所以如果你认为是预测性ML,那么就有一个混合体,就像你在同一个应用程序中同时使用两者一样。然后,你知道,我们在Tecton中所做的是,我们在任何决策中都在交付,这就像……

上下文将进入某个决策系统,某个模型来做某事。您可以构建嵌入式语法来处理非结构化数据,或使用所有这些信号来驱动进入生成式AI模型的提示。因此,我们的许多客户也在这样做。这样做的好处是,您可以将所有进入任何决策系统的数据都通过一个中心位置进行管理。并且您可以跨其重用计算资源。因此,您实际上只有一个平台可以集成所有底层数据系统。

您有一个中心枢纽,数据在到达之前会先经过该枢纽,然后它会分散到各个决策系统。如果您有合规性要求之类的,这将非常有帮助。