卢卡·菲亚斯卡。我是IMC Labs的合伙人。我喝咖啡,我只喝浓缩咖啡。我是一个意大利硬核。浓缩咖啡是我的选择。字母构成单词,单词构成句子,句子构成段落。欢迎回到MLOps社区播客。今天我们将深入探讨如何……
GenAI如何帮助Luca的传统ML世界。我们还在最后深入探讨了领导数据团队。希望您喜欢。还要特别感谢加入MLOps社区的朋友们,因为自从我设置了
一个请求音乐推荐的触发器后,我就收到了你们所有人的最佳音乐推荐。看到我收到的这些建议真是太酷了,我今天要播放一首给你们听。我今天要播放的这首推荐歌曲是由Boards of Canada乐队演奏的。所以这就像打电话求助朋友一样。我可以打电话给朋友,伙计,你职业生涯中做了很多很酷的事情。
在你的职业生涯中,我们可能应该回顾一下你在HelloFresh、HelloFresh、HelloFresh和Stitch Fix的经历,除非你像我今天一样,否则这些词并不难说。所以
哪个先来?HelloFresh先来,甚至在那之前,我曾在欧洲一家大型风险投资公司Rocket Internet工作。
它真的让我从学术轨道转向了创业世界。Rocket非常有趣。我在美国以外地区创建了一些世界上最大的电子商务公司。它实际上是授权像我这样的年轻人来解决重大问题。
在他们和大胆的想法背后投入大量资金。在那里,我与Zalando、Delivery Hero等公司合作,你知道,像……欧洲的巨头一样。是的。当他们还比较小的时候,我与他们合作,就像房间里只有20个人一样。当他们成为今天这样的巨头时,我也与他们合作。所以HelloFresh是Rick Rocket Internet集团的一家公司。那时,
创始人让我搬到美国,为该业务的美国部分组建一个数据团队。它也是少数在美国运营的Rocket公司之一。当我到达美国时,只有四个人从事数据工作。当我离开时,有35个人。所以在那里工作的四年里,这是一段非凡的旅程。这也是大流行的几年。所以生意兴隆。
我们通过实施强大的数据平台、强大的分析流程、推荐引擎、预测模型等等,做了很多疯狂而有趣的事情。是的。有趣的是,ML……
业务方面对于业务的成功或失败至关重要,因为当你拥有新鲜农产品并且需要知道我明天需要多少、下周需要多少时,这是一件非常难做的事情,如果你做错了,那会严重损害业务,如果你总是做错,你就没有业务了。你
是的,我可以告诉你一些预测失误的故事,以及人们不得不拿着公司的信用卡在该地区四处奔波的故事。
哇。尽量购买尽可能多的酸橙来满足客户的需求。你的预测中很小的错误会对公司的底线产生很大的影响,这真的很有趣。Alufresh的预测方面绝对非常有趣且复杂,因为它需要解决。因为产品有很多,你在盒子里装运了很多配料。所以把亚马逊想象成一个复杂的商业模式。
但你运送的大多是非易腐物品,数量也相当明确。在HelloFresh中,我记得每个盒子平均包含三个食谱,每个食谱大约有七、八种易腐物品需要精确包装并运送给用户。然后你将推荐系统添加到其中……
所以我认为你从那里获得的推荐系统技巧很好地转化到了Stitch Fix,因为这是另一件类似的事情。我想你不用太担心易腐品,因为衣服只会过时,不会坏。对。有些衣服永远不会过时。所以如果你很幸运,或者像我一样对时尚一无所知,那么你就没事了。
没错。我认为Stitch Fix是一组有趣的不同问题。实际上,Stitch Fix有一个非常有趣的商业模式,当你问你的库存在哪里时?你的库存有50%的时间都在联邦快递。它总是在最终客户和履行中心之间运输。
你想保持这种状态,因为你想成为一个,
尽可能高效地利用履行空间。因此,Stitchworks拥有这种非常有趣的商业模式,你同样需要非常准确地预测,才能始终拥有可用的库存和相关的库存来向你的客户展示。否则,你可以做出最好的推荐,但如果库存不足,你就无法完成。所以这里有这个
两者之间非常紧密而良好的相互关系。有时预测或推荐引擎可能非常准确,但问题是检索到的商品缺货。因此,两者之间的相互作用极其有趣且复杂。你已经深入研究了这个问题,我知道你已经谈了很多关于贝叶斯理论和使用贝叶斯算法的事情。你能多告诉我一些关于这方面的信息吗?
是的,贝叶斯算法是我从侧面接触到的东西,这意味着
我有ML工程的背景,我有传统ML和深度学习等方面的背景。但是,我试图解决的许多问题实际上是让利益相关者相信我们可以为他们提出的预测的可靠性。这非常复杂,因为利益相关者会问你,模型的逻辑是什么?
模型的预测区间是多少?
你基于哪些特征?你可以用传统的ML做到这一点,并且有一些技术可以进行这些探索性变量等等,但它们本质上很难解释,你有时得到的置信区间并没有很好地校准。因此,贝叶斯模型是对此的解决方案,因为它开箱即用地提供了两件事,即可解释性,
和置信区间,即能够轻松地为你的预测添加约束。例如,如果你知道输出必须为正,你可以在贝叶斯模型中非常轻松地约束它。因此,对于需要进行高风险场景的事情,例如投资,HelloFresh在欧洲的营销预算已花费8亿美元
每年40到50个媒体渠道,或者至少在我工作的时候是这样。所以这是一个高风险的场景。因此,你真的需要了解模型的工作原理,变量之间的因果关系,而不仅仅是变量之间的统计关系。贝叶斯模型非常适合做这样的事情。当你与财务利益相关者交谈并看到它时,CMO和CFO,你可以真正说明你为什么提出
某个预测。是的,因此我们用这些工具解决了这些问题,因为它们是解决特定问题的正确工具。你已经接受了这一点并付诸实践,因为你现在仍在使用它,对吗?
对。这实际上解决了我现在想要解决的问题。因此,通过多年来我们构建的模型,非常复杂的营销分配模型,你知道,它们已经被发表,然后公司使用PyMC Labs作为开发的公司
开源库或支持PyMC库,这是一个在行业中广泛使用的统计库,非常适合构建此类模型。现在的关键思想是,在我的职业生涯中,总是面临着招聘人员非常非常少的问题。
另一个问题是,尤其是在运营分析团队时,真正让你感到痛苦的不是洞察力的交付,而是来自利益相关者的所有后续工作。那么你如何解决这个特定问题,使用AI增强你的数据分析工作流程和数据科学家工作流程呢?所以我们的想法是你可以与这些模型交谈。
使用LLM与它们聊天。基本上,你可以做两件事。一是通过拥有S-BORM代理来简化构建这些模型的过程。有些是建模者,他们实际上将你需要的变量之间的关系组合在一起,并编写你需要的代码。其他的是
质量控制代理,控制传入数据的质量。这些加快了这些模型的生产和推出。另一个是,一旦模型构建完成,你可以提出问题或进行情景分析。因此,如果你做出这个具体的预测,
你可能没有考虑过某种情况,请立即回答问题A,如果我第二天在谷歌上减少1亿美元的营销预算会发生什么?
区域流程范围内的CMO并没有真正考虑这个问题。你事后才想到这一点。没问题。我可以立即给你答案,而无需让我的分析师参与其中,因为我知道如何与模型交谈,并且我不需要专门的专业知识来再次运行该代码。所以我认为对我来说,这是一种……
解决我在职业生涯中一直遇到的这个非常棘手的问题的方法,那就是有效地扩展数据团队并使用这些敏捷和衰减技术真正增强数据科学家和分析师的工作流程是如此复杂。
是的,我喜欢这个,因为你将新世界的Gen AI功能与传统的ML功能相结合。每一个都有其目的和价值。因此,有时你需要使用传统的ML。因此,能够增强功能并增强你对工作原理的理解以及你的理解
从中受益是一种令人难以置信的超能力。所以如果我理解正确的话,你的意思是说,在前端,当你构建模型时,你会从LLM获得帮助。正确。和
你是否也获得了建议使用的功能?你提到要确保数据干净或传入的数据是好数据。你是怎么做到的?因为这似乎是一项不可能完成的任务。这些都是非常困难的工作,但这些LLM却出奇地好。也许我还应该加上这个前缀。所以贝叶斯模型特别适合的地方
针对这个问题量身定制,因为你使用贝叶斯模型首先要做的事情是,你不会在一个拥有数百万个特征的非常大的数据集的场景中工作。因此,贝叶斯模型在拥有相对较小的数据集时非常非常出色。你有一些特征,但可能在30、40个特征的范围内。这是一个小型数据应用程序,非常量身定制的问题。
在一个高风险的场景中,但依赖于相对较小的数据集。原因是,当你有少量数据集时,这些贝叶斯模型的先验有助于你弥补你没有足够数据来进行充分推断的缺失部分。因此,它们特别适合这种情况。因此,这允许你提供
这些数据在LLM的上下文中经常出现。因此,在LLM中,通过访问LLM上下文中的这些数据,我们意识到,例如,这里缺少值。嘿,数据中存在一些奇怪的趋势。然后,当你通过告诉LLM适当提示LLM时,嘿,你可能需要进行此类分析才能实际
进行质量控制等等,它通常会对数据提出一些有趣的见解,这使你能够及早发现特定问题。当然,它并不完美,技术仍在发展中,但你可以对LLM进行一系列质量控制检查,它们甚至会提出后续检查和进一步检查,并且它们可以对这种类型的数据集快速执行这些检查。
并将下一个LLM传递给下一个代理,以进行分析的后续步骤。是的,你如何操作这个?它是你拥有LLM作为DAG步骤之一来清理数据的DAG吗?是的,现在我们将其设置为长图应用程序,并且有一个完整的图应用程序
其背后有一个步骤是一个质量控制代理,另一个步骤是一个洞察代理,它可以获取数据并实际绘制一些有趣的图表,只是为了解释数据中包含的内容,主要趋势和主要见解,变量之间的关系。然后是下游的建模代理,它实际上在其之上构建模型
它,并且有一个预测代理,允许你根据模型对未来进行推断,以及允许你创建情景计划、变量预测的优化配置等等的场景规划代理。甚至还有一些对于分析团队来说是一个很大的问题并且非常耗时的事情,那就是根据模型分析的见解创建PDF和DAX。
甚至,他们现在还在构建一个PowerPoint代理,它实际上会为利益相关者创建一个包含文件推荐的演示文稿,以便他们可以随时使用它。你如何确信
经过所有这些不同步骤后获得的数据是高质量的数据。当然,在这个阶段,你可以进行一些自动检查。例如,你可以检查空值。你可以检查超出范围的事情。例如,如果你看到你在营销渠道中花费,在MMM示例中,如果你在一个营销渠道中花费,你知道,
在一周内花费1亿到2亿美元可能有点太多了。所以肯定有一些超出范围的事情,LLM会记录下来。
否则,你仍然依赖于人类参与的工作流程。它不需要具备在编码方面具有专门技术专长的专业人员,因为LLM会为你编写代码,但它需要具备足够好的业务背景的专业人员
这样才能理解数据是否正确,并且整个工作流程的输出是明智的,你可以可靠地做出决定。这真是令人着迷的想法。在这个循环中最重要的参与者更像是一个不太懂数据科学的人,而更像是一个
了解业务背景的人,这样他们就可以在某些事情看起来有点不对劲时提出标记。对。事实上,这种应用程序的目标客户是谁?它就像忙碌的分析和数据科学团队,他们希望增强分析师和数据科学家的工作流程,而无需让他们从头开始编写这些模型中的一些代码或提出半自动分析。
另一个是真正懂技术足以理解什么是对什么是错的业务利益相关者,但他们也有深入的业务背景,可以帮助他们指导分析和指导模型的结果。是的,它让我想起了……
Process最近投入生产的SQL分析代理。他们谈到他们如何以一种方式拥有这种钟形曲线,你必须提出非常高级的SQL查询,并且你需要花费大量时间挖掘数据。然后在另一端,你有自己动手
所有内容都将由LLM编写。所以关于你使用多少LLM有一个范围。一方面是
只有LLM,自助服务,另一方面是没有LLM,因为它太复杂了。他们提到的内容是大部分工作都在中间,就像你说的那样,它增强了那些已经足够了解或有足够经验能够从中获得价值的人,但他们并没有
在这个范围的两端,它非常复杂,你不能使用LLM,或者你对它一无所知,并且你完全依赖于LLM。完全正确。这是一个很好的例子,因为这个想法有点源于此。它是SQL代理理念的发展,因为当我看到这个理念时,我想,哇,这太棒了。但
它停留在描述性统计上,这是分析的101。如果不仅仅是进行描述性统计并获得SQL和漂亮的图表,你还可以进行预测分析并弥合这些高级统计模型与你需要以非常快速的方式交付给业务之间的差距呢?
Databricks等公司的工作给我带来了启发,例如Genie这样的代理,它完全集成在Databricks生态系统和数据湖中,并执行X2SQL。但是,我们的想法是,你不应该停在那里。你实际上应该走完最后一英里。帮助自动化或支持和增强整个分析和数据科学流程。
所以现在有很多代理在工作,你也可以让人类参与其中来监督这些代理。你是否在进行评估,如果有的话?感觉这可能会很快变得……
非常棘手,或者如果所有这些代理都在工作,并且你试图确保它们正在生成高质量的数据,那么这可能会成为大量工作,是的,他们仍在学习什么是进行评估的适当方法,我们有一些参考工作流程,所以我们有一些参考数据和工作流程,我们知道……
代理应用程序需要得出某些结论。我们有一种方法可以验证代理应用程序,你知道,不会卡住或获得模型的参数,这些参数与模型的参考参数一致,因为你可以验证即使是生成合成数据,例如。所以我们有一套这样的方法。我们有
以及其他遥测数据,使我们能够检查用户的查询是什么,并查看用户是否卡住了。但是,找到评估此类应用程序的精确方法和更系统的方法,我认为我们还没有解决这个问题。我不知道业界是否完全解决了这个问题。这仍然是一个公开的争论。是的,100%。你之前也提到过……
你正在利用它进行产品开发,并且几乎完成了用户研究。你能谈谈这个用例吗?是的,这与我之前考虑的用例不同,但它有点类似,只是方式略有不同。所以这里的想法是,你有一个实体,比如贝叶斯模型、机器学习模型,你想
像对待你的朋友一样对待它,并询问你如何构建,为我构建一个预测等等。现在,公司经常遇到的另一个问题是,他们对自己的客户了解不多,产品经理、业务利益相关者、营销人员、设计师,他们希望每天都能与客户和用户交谈,以了解并获得更多关于他们正在做什么、如何使用产品或为什么使用产品的见解。
因此,我们正在构建的另一个应用程序是你的消费者的某种虚拟表示,我们称之为合成消费者,你可以向他们提出任何类型的问题。典型的应用程序将是,嘿,你是一个,我不知道,例如,一家消费品公司,你正在开发一种新型的,我不知道,比如,一种新型的牙膏。
你想知道这是否与用户群和消费者群产生共鸣。好吧,你现在唯一能做到这一点的方法是,你需要对大量人员进行非常昂贵的专家小组访谈。
消费者研究,这非常耗时且昂贵,而你可以拥有一群其他土地,它们经过精心准备并被提示表现得像真人一样,你只需向他们展示图片并询问他们是否会以某个价格购买此产品,他们喜欢此产品的哪些功能,并且有研究表明,
通过插入和约束,这实际上可以代表真实人口。因此,尤其是在你以正确的方式构建这个合成消费者时,使用正确类型的数据等等。我们仍在为一家财富500强客户构建此应用程序的早期阶段。但这就是下一种类型的事情。我认为从长远来看……
这可能成为一项非常有趣的技术。想象一下,你是一个产品经理,你正在构建一个新的网站。好吧,你可能想要一个操作员,一个合成消费者,浏览你的网站,尝试执行特定操作,然后你想问问题。哦,你觉得上面的按钮怎么样?或者你是否觉得这个用户工作流程令人困惑?为什么?和
我认为这对于真正弥合差距并设计更好的用户体验,以及弥合产品开发和真实用户之间的差距,可能非常强大。是的,你也可以更进一步。任何开发软件工具或基础设施工具的人,
你可以获得合成数据,或者让LLM使用你的软件工具并告诉你他们对API的看法以及你的规范,哪些地方令人困惑。所以这是一个巨大的承诺。我想知道它与真实人类的契合程度如何,以及最终有多少见解,
即使它与人类并不完全一致,就像真实人类的行为一样。如果你可以收集见解,那就是你需要的。你至少可以在将某些东西推向市场或在隐身状态下推出之前进行几次迭代。所以这是一种引人入胜的方法。现在,我主要的问题是如何确保LLM被正确使用?
设置这些消费者档案,你是提示它们还是对某个人进行微调,这看起来像什么,以及你使用的是哪种模型,是的,这是一个非常好的问题,我想先回答你的第一个问题,这可能很有趣,所以
这个想法来自于一次非常个人的经历。我有点害羞。我有点喜欢,我希望我能自由地与许多不同的人交谈并与他们建立联系。有时我对LLM的应用程序和讨论非常深入。这就是为什么我希望我能与任何东西交谈。我可以与,你知道,
一位科学家或像理查德·费曼这样的著名科学家交谈,或者我可以与我的最终应用程序的用户交谈。我没有问题向他们提出深入的问题。这就是为什么我对构建这样的东西如此兴奋的原因。现在,你问题的第二部分是如何实际构建它并确保它们与你想要表示的实体一致。
意思是此应用程序的用户。目前,我们正在探索提示的各种变化,这会让你或像
比如说70 60,典型的方法是……通过真正提示lambo,例如,嘿,你是一个……住在布鲁克林的黑人女性……你有一份技术工作,你对这件事很有信心,你最近购买了此特定产品类别的商品,你……
这会让你达到一定的水平。
你还可以做的事情,我们正在尝试这样做,就是你可以利用这些公司过去进行的消费者研究和调查来监督微调。基本上,他们过去已经拥有大量关于他们向消费者研究用户展示的产品的数据集,但他们收集了这些用户的统计数据和特定的行为特征。
你可以使用这些数据进行监督微调,然后,你知道,像创建其他专门用于此的LLM一样。当然,你基于开源模型来进行监督微调,例如LLAMA模型。现在,这真的很复杂,有很多细微之处。例如,你知道……
大多数这些LLM都有特定的政治偏见。例如,已经证明美国LLM总体上有点左倾。和
你可以做的事情,我们也在探索,就是去除这些偏见的技术,以确保你开始使用的LLM的基础实际上是公正的。你也可以使用消融技术来做到这一点,例如,这是一种通过去除和杀死网络中的特定神经元来去除LLM中特定偏见的技术。所以我们还在开始阶段。
基本的应用程序会让你达到60%到70%,尤其是在你进入用户细分市场时。它可以正确地获得美国人口的平均值和大部分,但是当你查看并细分用户的数据子集时,它可能会非常糟糕。因此,我们正在研究这些技术,例如监督微调、消融,以改进模型输出,尤其是在子集上。
好吧,让某人浏览你的网站并查看热图等等的想法。当我还在一家让我有更多自由来玩弄产品的创业公司工作时,我做的第一件事之一就是我们在我们的产品上安装了一个名为Full Story的工具。这将记录产品中每个人的会话。
我会坐在那里。我被人们如何使用该产品迷住了,因为你真的可以看到人们在哪里被卡住以及他们的障碍在哪里。我记得Full Story有这个……
我不知道它是不是一个功能。当有人进行他们所谓的“愤怒点击”时,它会发出警报。那就是如果有人在第一次点击时没有得到他们想要的东西,然后他们会再点击四五次,因为他们想要它。但由于某种原因,按钮不起作用或页面没有加载,无论是什么。所以这太不可思议了……
在你做任何事情之前或在你实际拥有真实用户之前就拥有它,你不需要让真实用户经历痛苦和愤怒,你收集见解,然后你可以与LLM交谈以收集这些见解,并说我在这里缺少哪些关键内容,这是我的报告,或者这是我看到的一些内容,我错过了什么
没错。如果你只是从数据中收集这些信息,你需要做很多猜测。这就是用户体验研究和定性调查存在的原因。因为定量数据可能会让你达到80%的目标。
但你仍然想从定性的角度来理解人类行为。我希望从长远来看,这些技术将成为将用户体验研究提升到一个新水平的方法。
那么,您是想将此进行操作,还是针对您与公司遇到的每个用例进行更多的手工制作?是的。目前,我们基本上是一家咨询公司。因此,我们有客户有兴趣构建特定应用程序,用于产品创新和
在 CPG 领域,因此我们正着眼于此角度进行开发。我认为,与其他咨询公司不同,BIMEC Labs 有点不同,因为我们坚信创新和开源,这就是我们称之为实验室的原因,因为我们在内部被认为是一个想要解决有趣问题的研究人员群体。
每个人都有非常出色的背景,无论是在学术界还是在业界。因此,我们认为我们正在开发的一些应用程序
现在正在使用来自我们行业客户的具体问题,从长远来看,这对于我们来说具有战略意义,并且它们将作为开源发布,当然,我们知道它们将构成一项对每个人都有益的工作成果
现在,当您查看其他用例以及合并贝叶斯世界与 LLM 或只是语言模型世界的方法时,您是否看到了您想要解决的其他内容?也许您已经投入时间尝试使其发挥作用。也许这是一个在您脑海中浮现的想法。是的,我认为概率深度学习和概率神经网络这个领域
非常有趣,也是另一个你想谈论的领域。
因此,我们讨论了通过镜头下增强贝叶斯工作的方法。我们讨论了运行代理模拟的想法,这些代理的行为类似于用户。然后你可以做的是,我稍后会提到,在这些模拟中添加一些贝叶斯先验。但从本质上讲,还有一个角度,那就是你的基本深度学习模型,如果你添加
例如权重的概率分布,并从神经网络中进行采样,则可以成为概率模型。
这就是为什么你在贝叶斯建模中使用的技术,例如构建计算图,从 GPU 中采样,它们实际上是你在深度学习中使用的相同技术,从根本上说是相同的计算技术。甚至像 TensorFlow Probability 这样的库,它也是 TensorFlow 对构建贝叶斯模型问题的适应。
概率深度学习极其有趣。它在计算上很难解决,并且关于从这些深度学习模型中获得的概率分布是否真正经过校准以及你可以依赖的正确概率分布,还有很多研究要做。
所以还有很多研究要做。几周前,苏黎世联邦理工学院发表了一篇非常好的总结论文,其中包含一些研究成果。所以我认为这就是我接下来想去的地方。因为它实际上解决了非常关键的问题,业务问题,尤其是在……
高风险预测领域,例如自动驾驶汽车,例如,你需要知道你的预测的置信度,例如那里是否有行人,或者像金融预测一样,用于高风险情景,例如对冲基金交易或医疗预测,例如知道一个人是否患有
癌症,例如。因此,这些都是非常有趣的话题,我们将来可能会从我们这边得到一些工作。我错过了这到底是如何对应的。或者您是说这只是您想要开始关注的某个地方?是的,我认为这是当今研究的前沿。
我会将世界划分为几类。研究的前沿尚未准备好用于工业应用。然后是那些成熟的可以构建应用程序的东西。然后是每个人都在使用并不断构建的最新技术。
我将概率深度学习归类为研究的前沿,这当然只是我的观点,几乎处于即将成为可以在工业应用中实现的东西的边缘。当然,你会射击我,你会说,哦,已经有一些基于概率深度学习的应用程序了。我在这方面是专家,但这正是我目前对该领域的总体评估。
太酷了,伙计。你对这些东西如此深入,并且一直在思考它,然后又思考它如何与你正在合作的公司联系起来,以及我们如何用它来创造商业价值,这真的很好,对吧?所以有一件事我……说到征求用户的反馈,你提到这一点真有趣,因为就在我们开始这个播客之前,今天早上我……
我可能花了一个半小时给注册了 ML Ops 社区并给我写信的人发邮件,因为我要求的一件事是为了找出他们是否是人类,那就是你最喜欢的歌是什么?
因此,在第一封电子邮件中,当您加入 MLOps 社区时,它会说,嘿,这是 MLOps 社区。我是 Demetrius。为了让我知道,你最喜欢的歌是什么?所以人们会回复我喜欢的艺术家等等。顺便说一句,这是一种发现新音乐的绝佳方式。我现在有如此酷的播放列表,我以前从未听说过。但我今天花了一个半小时做的事情是写信给每个人说,嘿,
很棒的建议,发现新音乐。这太棒了。还要询问这个社区能为您提供什么最有价值的东西。因为我一直想知道我们还能在这个社区中做些什么才能使其对人们更有价值?所以那种东西我需要,我需要 LLM。我还想和 LLM 谈谈。然后还有,嗯,
我之所以提出这一点的原因是,在去年年底,我向密友发送了许多电子邮件和消息,询问他们在 2025 年社区中可以做些什么对您更有价值,对吧?而且
有一点让我印象深刻,我不记得是谁告诉我的,但有人说,当您谈到将 ML 和 AI 领域带入业务方面并将其与业务指标联系起来时,我真的很感激。我认为我是在转述,显然,但将其与业务指标联系起来。所以我觉得你是一个处于独特地位的人,因为……
你现在所在的领域,能够与许多这些财富 500 强公司合作,以及你过去与这些超大规模公司所做的一切。您是否有方法可以嗅出高价值用例或高价值,或者基本上弥合机器学习和 AI 方面与业务指标之间的差距,并将其与之联系起来?这不仅仅是 LLM 为您创建 PowerPoint。
这是一个非常非常好的问题。我认为我没有这个问题的万能答案,但我使用了两项原则,这些原则确实指导了我的职业生涯。因此,第一个原则是尝试非常深入地了解商业模式以及哪些因素会按百分比影响业务。意思是……
在这些特定的商业模式中,你总是可以建模为一个图。然后,如果你改变这个变量 X%,例如营销支出,公司的收入盈利能力会按百分比变化多少?如果你找到那些
高弹性变量,这意味着这里的一小部分变化会极大地改变你的顶线和底线,那么你就找到了一个你想深入挖掘的领域。当我加入一家新公司时,我经常做的是分析他们的商业模式。我试图找到那些高弹性领域,真正地分解他们的商业模式,就像一个变量图一样。
第二个是,这更像是一个领导力原则,你不需要总是作为领导者提出所有答案。你可以依靠你的团队。如果你将你的团队组合视为数据主管,你就有数据平台团队、分析团队、机器学习团队等等。你的分析团队,是金块
寻找者团队。因此,他们与利益相关者密切合作。他们经常发现数据平台团队和数据科学家、机器学习工程师无法看到的需求、见解和机会。你可以利用它们来宣传你的团队所采用的方法,并发现新的有趣问题。所以经常,或者实际上,
我学习并在我所有团队中使用的一个技巧是,数据团队应该进行业务电话会议。我经常给我的分析团队一个 KPI,那就是在本季度结束时,你需要找到 1000 万到 2000 万美元的新机会。所以我把问题交还给他们,并要求他们以这种方式解决问题。这是一个他们必须遵守的核心 KPI。他们必须吃掉它。
这实际上并不重要,是 1000 万还是 2000 万,如果他们只实现了 X% 的目标。但这促使他们主动与利益相关者接触。而不是仅仅从他们那里获得问题,帮助他们思考他们的问题并找到新的机会。所以……
这让我以一种与我通常看待问题不同的方式思考。但是,如果您几乎是在查看用例或潜在用例的管道,那么您就有分析师像福尔摩斯一样试图发现新的用例,然后弄清楚这将为业务带来多少
或为业务节省多少。一旦正确地确定了范围并且有了一个想法,他们就可以将其交给相应的团队,或者他们可以为此而奋斗。然后,领导者需要决定是否值得追求。然后你继续说,好吧,这实际上……
将由机器学习团队实施,或者数据平台或机器学习平台团队必须去实施,因为我们看到如果我们可以
并将机器学习模型投产的速度提高 2% 或 10%,那么这将为我们节省或为我们带来 X 数量的资金。或者如果我们可以将欺诈行为降低 0.3%,那么这将为我们节省 X 数量的资金,无论是什么。这是一种非常酷的思考方式,就像分析师们正在寻找业务一样,就像,
掀起地毯并试图找到污垢。
或者他们从利益相关者那里得到它。例如,这是我们从未想过的新问题。例如,我现在回想起来,在 HelloFresh,你总是存在获得令人惊叹的食物图片和食物创意的问题。而且,你知道,有一个专门负责此事的摄影团队。好吧,我的意思是,分析师可能会注意到特定的角度,特定的图片类型获得了更多的参与度。现在,
使用您的 MML 团队。您如何才能再生地扩展该流程?所以这里有新的业务问题。它是由分析师发现的。一个很好的观察。这并不是我经常与之合作的数据主管团队。像食物摄影这样的团队。因此,该见解被带回给我。
来自我的分析师,我说,等等,这里有一些东西需要进一步挖掘,这可能会让我与我的数据科学团队建立联系,让我们尝试自动化该流程并从中获得价值。这就是它的实际运作方式。分析团队的价值在于分散在您的数据组合中,并真正获得来自业务中每个人的内部金矿。
是的,然后弄清楚,我想一定有一些艰难的决定需要做出,就像你说的那样,技术还没有到位。我知道几周前我与一位嵌入金融团队的人交谈过,这个金融团队有 42 多人。而这个金融团队花费大量时间做的大部分事情以及他们不断被淹没的事情
是来自银行的 PDF。他们非常努力地试图弄清楚如何摄取这些 PDF,以便 LLM 可以完成大部分工作。但这已经是一个漫长的过程,他们无法通过技术来摄取 PDF 并允许 LLM 为他们填写 PDF。所以几乎就像……
值得花费更多的时间吗?我想如果这是一个巨大的业务问题,就像你之前回答的第一部分所说的那样,这有多重要,如果我们花一年时间去做,我们可以节省 1%,如果这是一家百万美元的公司,那可能不好。但如果这是一家十亿美元的公司,那将非常值得。
完全正确。您可以根据公司的阶段应用一些原则。例如,如果您处于成长阶段的公司,将您的团队重点放在成本节约机会和自动化机会上很少是正确的选择。
为什么?因为你的业务发展非常非常快。通常,当它发展得非常非常快时,解决增长问题的机会成本,例如我如何获得下一个 1000 万美元的收入,与解决相对较小的规模自动化问题相比如何?这非常值得。
但是,如果您已经是一家规模较大的企业,增长非常困难,那么专注于成本节约机会非常重要。例如,如果您在 Amex 工作,并且有成千上万的代理商进行电话呼叫,而这是您的大部分成本,那么当然,致力于客户成功流程的自动化非常重要。所以你需要明智地思考。
你的公司处于什么阶段,公司的战略处于什么阶段。当然,你的团队确定的这些金块需要在更广泛的背景下进行情境化。现在,您在之前的回答中提到过,您将非常熟悉商业模式。
你在那里做的一些事情是什么?如果您是一家上市公司,您只是阅读他们的 S1 或 10K 吗?如果不是,你会去找首席财务官说,嘿,这个东西是怎么运作的?或者您是否有其他策略来确保您能够发现看起来像鹅卵石但实际上是巨石的石头?
哇。我不知道我是否有一个很好的方法来做到这一点。我肯定与人交谈非常重要。我的意思是,如果你只是作为数据主管坐在公司里,副总裁或首席执行官级别,你,
当然,你需要与你的同事密切合作以了解商业模式或首席执行官以了解商业模式以及公司如何运作。作为数据主管,你也有能力非常仔细地查看数据。我通常做的是查看诸如 LTV 之类的概念,这在历史上是一个非常重要的概念,
但它已经被构建和研究过,但了解价值在您的商业模式中是如何创造的以及这些价值是如何累积到收入中的是第一步,如果您真的理解这一点,那么您甚至可以使用贝叶斯模型对其进行建模,然后我和您一起了解了您的商业模式,然后我查看了消费者研究,例如我查看了例如我们对用户进行的
NPS 调查以及他们在我们的产品中提出的问题,以确定其他机会领域。与您的首席产品官交谈通常非常有见地。首席产品官痴迷于自己使用产品,他们经常发现非常有趣的想法和问题。
所以这就是我用来真正熟悉和了解商业模式的技巧。最近,
我还大量使用 OpenAI 的深度研究。我认为我是一个高级用户。如果我正在与一家我从未想过或从未合作过的公司合作,我经常会提示深度研究让我了解行业、趋势以及这家公司与竞争对手的区别。这是他们的策略。
这实际上是从外部角度熟悉新商业模式和新公司的良好方法。我甚至与使用深度研究来思考投资领域和机会的风投公司交谈过。实际上,既然你这么说,考虑一下如何使用深度研究来了解竞争对手也在做什么以及他们最有价值的想法是多么酷
他们可能正在销售的产品或服务,然后它可能会以不同的方式激励你,或者它可以向你展示,哦,也许有一个产品线或产品,我们可以将其整合到我们的业务中。
公司也是。所以我一直在使用深度研究,我使用的是 Gemini 版本,但我一直在用它来研究我想买的东西。我没有想过要研究那种事情。你是……
比我领先得多。我很感激这个小技巧。所以现在每当我与一家公司交谈时,我都会在与他们交谈之前使用深度研究并获得一份完整的报告。没错。非常非常重要。就像,是的,如果你曾经比较过……
你想买什么鞋子,或者,你知道,我喜欢从观看大量的 YouTube 视频到现在问它,嘿,我想买一辆新车。什么是最好的混合动力车,或者得分最高的是什么?人们最喜欢哪些车?你知道,那种更大规模的事情,这样我才能知道,信号在哪里?噪音在哪里?
而且它做得相当不错。或者,是的,我认为我为鞋子、汽车做过,我的朋友告诉我这件事。他告诉我他正在为他的手表做这件事,例如运动,你知道,像服装一样。因为任何地方都像有数百万种不同的型号,每个型号都有它自己的小东西。但是,我已经尝试过 GPU 了。
而且它不起作用。我想知道。是的,就像 GPU 保留一样。基本上,如果我想购买一些 GPU,我想知道多少,定价模型是什么?每个 GPU 提供商的不同价值主张是什么?并且有托管 GPU 服务,也有非托管服务。那么哪些服务可以做到这一点或那一点呢?无法真正获得……
一个好的处理方法。我想要做到这一点的全部原因是因为我们正在创建这个 GPU 买家指南。因此,我们试图将人们在尝试购买 GPU 或只是租赁 GPU 时想知道的所有内容都放在一起。你想知道什么?你正在市场上寻找一些 GPU。你想知道什么?所以我们把所有这些都放在一起。我尝试用 Gemini 来做,但我无法得到一个好的……因为我……
你认为是什么原因,他们没有得到正确的答案?我认为这非常令人困惑。所以,我不知道,也许 LLM,我不应该低估 LLM。但首先要能够找到的是,我认为深度研究失败的地方是
它无法找到所有不同的提供商,你会认为,像 Google 那样,它应该能够做到。但是那里有数百万个 GPU 提供商,我知道很多,在进行这项研究之后,我现在知道的更多了。它编写的报告中没有一半。它还有一些我并不真正想要的东西。所以它是……
我不想说它像诈骗页面,但它不是高质量的页面。然后是价值主张和定价,他们不知道。他们真的没有做好。所以我不知道它是幻觉还是仅仅是,尤其是在定价方面,你知道,我想深入到当有人在市场上寻找 GPU 时,他们可能在市场上,或者他们可能会相信,
使用 TPU 或亚马逊 AWS 的 Inferentia 或 Tranium。所以我也想把这些都包含进去。但是当你对深度研究说 GPU 时,它只关注 GPU。它现在没有关注,哦,TPU 和 Inferentia 等等。当然,我可以通过说,现在也看看 Inferentia 来更好地提示它。但这可能是我的提示。这可能只是,你知道,像,
但我们真的,我可以邀请你到 Notion 空间,我们正在尝试在那里做所有事情,以防你对……有任何反馈。你曾经在市场上寻找 GPU 吗?我觉得你有。不,我没有。哦,好吧。那么也许不是最好的。是的。现成的云资源也是如此。我们没有自己购买 GPU。但这太迷人了。实际上,我从未想过将其用于购物,这在回顾中是一个明显的应用。我想,是的。
其次,对于这样一个专业的产品,他们无法真正找到一个好的总结,这很有趣。是的,这很奇怪,因为可能提供商太多了。所以上下文,或者我不知道他们在深度研究代理的幕后做了什么,但至少在我这样做的时候,
一个月前它不起作用,所以它可能从那时起就发生了变化,而且我又一次使用了 Gemini 的深度研究,所以也许像 OpenAI 的深度研究比 Gemini 的要好得多,是吗?哦,真的要好得多,所以就像 Gemini 对于快速总结来说很好一样,是的
OpenAI 的看起来像是经过深思熟虑的。它有一个很好的思维结构过程。这就像,你知道,一个只是汇编来源的高级分析师和一个实际上会思考故事情节的咨询项目经理或合伙人之间的区别。这就是我们关注的重点。事后报告?是的。
您可以要求不同的格式。他们会给你一份完整的报告。你甚至可以告诉他,嘿,我想要一个播客风格的演示文稿。实际上,这是你想消化信息的格式。
这很有趣,因为这是,如果你想询问 OpenAI 方面的深度研究并向我发送它给你的报告,我会很高兴,因为我不支付每月 200 美元。发送我的提示。您可以向我发送您对 Gemini 和 Triton AI 使用的提示。您可以发送结果链接,以便您可以查看链接。好的。