Nexus Cognitive is a composable and agnostic organization that modernizes data and AI infrastructure, enabling enterprises to achieve AI-powered outcomes at speed, value, and scale. It uses a modular approach with its Nexus One control plane and managed service offerings to simplify integrations and deliver outcomes within days or weeks.
Acceldata is a data observability platform that ensures enterprises provide trusted, high-quality data to AI models, whether structured or unstructured. It monitors data quality and characteristics throughout the pipeline, proactively preventing issues like model drift and ensuring data accuracy for AI predictions.
Small data errors can lead to significant financial losses for enterprises, as they impact the accuracy of AI models used for critical decisions like loan approvals. Enterprises can prevent these errors by using data observability platforms that detect issues early in the data pipeline, ensuring high-quality data feeds into AI models.
Infrastructure agnosticism allows enterprises to avoid being locked into a single cloud vendor or super scaler, enabling flexibility in choosing compute and storage solutions. This is crucial as the cost driver in data management is shifting from storage to compute, and enterprises need the optionality to use multiple vendors for better outcomes.
Data governance involves managing how data is used within an enterprise, ensuring security, privacy, and compliance with regulations. It is evolving from a centralized, committee-driven process to a more decentralized approach where governance is integrated with data observability, allowing rules and policies to be applied dynamically wherever data is being used.
<context>846: 让企业数据为人工智能做好准备,嘉宾:Anu Jain 和 Mahesh Kumar 在这期五分钟的周五节目中,Jon Krohn 与 Nexus Cognitive 的首席执行官 Anu Jain 和 Acceldata 的首席营销官 Mahesh Kumar 进行了对话。他们讨论了更新数据的重要性,特别是对于那些为公司做出关键财务决策的预测模型,以及当前数据治理的状态以及为什么它已经过时。附加材料:www.superdatascience.com/846 有兴趣赞助 SuperDataScience 播客的一集吗?请发送电子邮件至 [email protected] 获取赞助信息。</context> <raw_text>0 这是第846集,嘉宾是 Anuj Jain 和 Mahesh Kumar。
欢迎回到 Super Data Science 播客。我是你的主持人 Jon Krohn。今天的节目将重点介绍我主持的一场关于管理数据以拥抱企业 AI 优先思维的会议的亮点。这场会议有两位来自快速增长的风险投资支持初创公司的 C-suite 嘉宾。也就是说,这两位嘉宾是 Nexus Cognitive 的首席执行官 Anuj Jain 和 Acceldata 的首席营销官 Mahesh Kumar。
他是一位有趣的首席营销官,因为他有工程背景,并且仍然在编写代码。今天的短节目应该对那些希望在拥有大量数据的大型组织中有效实施人工智能的人们感兴趣。在今天的节目中,Anu 和 Mahesh 详细说明了一个微小的数据错误如何导致企业损失数百万美元。他们有一个具体的例子。他们还讨论了为什么数据存储不再是主要的成本驱动因素,以及是什么。
他们还告诉我数据治理到底是什么,以及它为什么重要。
准备好了吗?让我们直接进入我们的对话,这段对话是在几周前纽约的 ScaleUp AI 会议上录制的。该会议由 Insight Partners 主办,因此你将在今天的节目中听到这个巨大的风险投资公司。你还可能会听到一个名字,安德鲁,这指的是我在会议当天早些时候采访的 Andrew Ng。如果你想听那个采访,请去
收听与那位超级明星 Andrew Ng 的采访录音。那在第841集。好吧,这就是一切。让我们开始吧。
欢迎回到第二阶段。我们在这里进行一场关于管理数据以拥抱企业 AI 优先思维的会议。我这次激动人心的会议的尊贵嘉宾是 Anuj Jain,就在我右边。他是 Nexus Cognitive 的首席执行官。在他右边的是 Mahesh Kumar,他是 Excel Data 的首席营销官。
让我们先谈谈 Nexus Cognitive,Anu。绝对可以。它是 InsightPartner 投资组合中的第一家服务自动化企业。它现代化数据和 AI 基础设施,使结果在几天或几周内实现。
通过简化你上周与我交谈时所描述的集成的复杂性,提供价值的速度。告诉我们更多关于 Nexus Cognitive 的信息。首先,你是一位出色的发言人。你被雇佣了。不,归根结底,我们是一个可组合和无关的组织。
数据、架构和生态系统,集成和自动化工作流程,真正帮助我们推动数据驱动的结果,或者说是以速度、价值和规模驱动的 AI 结果。我们是如何做到的?我们通过我们的 Nexus One 控制平面和我们的托管服务提供来实现。真正帮助我们实现灵活的选项,以满足客户的需求。
所以当你描述服务自动化时,你是在处理传统上某种过程的服务。我们早些时候在 Andrew Ng 的演讲中,我不知道你是否看过他的主题演讲。他谈到了人工智能并不会取代工作,而是取代任务。
因此,如果你正在寻找机会来简化某个角色的操作,请查看构成该角色的不同任务,并尝试识别哪些任务最容易自动化。因此,你正在自动化人类历史上可能完成的单个服务。没错。整合基础设施的所有部分的艰苦工作,贯穿数据、集成,一直到结果。
很好。那么现在让我们转到 Mahesh,了解 Excel 数据的介绍。科技感十足。
实际上,Excel 数据在 Nexus 平台内使用。因此这里有一点桥梁。但 Excel 数据也作为企业的数据可观察性平台独立存在。告诉我们更多关于 Excel 数据和数据可观察性在 AI 成功中的作用,例如主动防止模型漂移等。好的。很高兴和你们俩在一起。
如果你看看今天的讨论,很多内容都是关于应用程序和构建良好 AI 应用程序的重要性。是什么推动了这一切?是数据,对吧?而 Excel 数据所做的就是允许你为所有 AI 模型提供非常可信、高质量的数据,无论是结构化数据还是非结构化数据,我们都能管理这两者。
让我举个例子。我们的一个客户是一家数据提供商,向其他公司提供商业数据,他们从超过130个国家获取数据,超过100个数据点。所有这些数据必须汇聚在一起,经过大约30到40个不同的转换和步骤。最终,它被数十万、数百万其他企业甚至政府实体所消费。
因此,他们提供可信数据的能力,包括提供商业风险、财务风险和其他关于其业务的信息的 AI 模型变得至关重要。在 AccelData 之前,如果他们遇到问题,通常需要几周才能找出根本原因。而与我们合作后,只需几个小时。因此,你可以想象他们的业务是如何与我们完全转变的。我们观察数据的质量,
以及数据在整个管道中的其他各种特征,从着陆区到消费点,并允许你以非常主动的方式管理这些数据,从而为所有 AI 项目提供信任。很好,这非常有道理。也很容易理解为什么数据可观察性在 Nexus Cognitive 解决方案中会成为如此关键的组成部分。
你上周跟我谈到 Nexus 具有这种模块化特性,如何采用构建块的方法,你可以说,好的,像 Excel 数据这样的解决方案,平台中的其他模块,更像是与 Nexus Cognitive 合作,
就像买一辆车,而不是购买单个汽车零件并尝试自己将它们集成在一起。告诉我们更多关于这种模块化、乐高构建块的内容。是的,绝对可以。因此,我们使用“我们是可组合的数据架构”这个词。可组合是什么意思?太棒的问题了。
我们基本上是通过乐高积木构建整个数据网格。因此,这包括任何开源工具,甚至一些封闭源的工具。但我们依靠开放标准的轨道将这些部分组合在一起,并将其集成为一个平台。
结果。因此,回到关于汽车零件与整车购买的问题。我们在两个极端都有客户。今天我们有那些管理大量技术债务的客户。他们有旧的基础设施,他们喜欢其中的一部分,并希望升级和现代化其中的一部分。对于这些人,我们将介入,真正提供更新的汽车零件,但然后将其完全集成到具有可观察性平面的系统中。
其他客户,这是我们看到巨大优势的地方,我们有全新的工作负载。我们希望以规模和速度推动 AI 结果。我们不想等待六个月来建立基础设施。我们不想等待九个月来招聘和组建团队以实现真正的结果。因此,在这里,汽车会送到你面前。所有零件都已构建。它在几天内搭建完成,你在几周内获得结果。
非常酷。我喜欢这种方法。Mahesh,接下来我有一个关于小数据错误的问题。即使有像 Excel 数据这样的数据可观察性平台,显然你也在监控数据问题。
对每个人来说,可能并不明显的是,即使是非常小的数据错误也会影响那些数据所输入的 AI 模型。那么企业如何采用策略来防止这些错误演变成大规模的商业问题呢?当然。我认为 AI 模型有两个方面。一个是模型本身的构建,另一个是运行预测。在这两种情况下,你都需要非常高质量的数据输入模型。
例如,如果你的数据存在偏差,某个特定来源的数据缺失。那么显然模型的预测能力会受到影响。让我再给你一个例子。世界上最大的银行之一基本上使用 AI 来预测现金贷款优惠、信用卡优惠等。
在他们的案例中,他们发现用于提供信用评分的管道没有得到正确更新。因此,你可以想象,当你试图预测是否应该给这个人贷款时,而信用评分又没有更新,这将产生巨大的影响。你谈论的是每年数千万美元的损失。而且这些问题有时可能会被忽视,因为如果你想象一下
成百上千的管道,来自许多不同数据源的数据,从许多不同地方输入。- 在这种情况下,数据可能看起来是正确的。- 没错。- 你获得的信用评分格式是正确的,因此没有任何故障。- 是的。- 没有明显的故障。- 是的。因此,我认为可观察性在这里发挥了重要作用,因为我们能够在源头捕捉到这些问题,提前发现并修复它们,因此你能很早就理解它。
然后你能够防止它演变成更大的问题。我还想提到的是,我们讨论了一些代理技术工作流等内容。因此,如果你能想象一系列代理执行更大的任务,由于糟糕的数据等原因,每个代理中的任何错误,主要是输入数据不佳。你可以想象这种累积效应
坏决策与坏决策之间的差异,很快在四五个代理之后,你就会与理想场景相去甚远。在 AI 时代,随着越来越多的 AI 代理被构建用于许多不同的任务,掌握数据并能够提供非常可信的数据变得更加重要。
以构建你的模型,并且还要提供可信的数据来进行预测。你的客户360数据库必须尽可能完美,因为这会影响模型,然后你会在另一端得到预测。因此,这是一个持续的过程,这就是为什么你需要像可观察性工具这样的东西来实际管理这一切。我们同时在本地数据和云数据上运行。
我们对所有数据平台都是无关的,Snowflake、Databricks、AWS、Azure、Google,列出任何超大规模平台,甚至是较小的数据平台,我们都与他们合作。因此,你能够跨多个平台并且同时拥有不同的本地和云可观察性变得非常关键,这正是我们擅长的地方。
这完美引出了我的下一个问题,Anu,即基础设施无关性的重要性。那么你能给我们一些关于避免被锁定在特定云供应商或超大规模供应商的看法吗?这为什么重要?是的,伟大的问题和很好的例子。当你刚才说话时,我想起了 Andrew 刚才大约一个小时前谈到的...
你知道,数据重力对我们今天的许多客户来说确实存在,但这正在减少。我们看到的真正成本不是数据存储,而是数据计算。因此,我们谈论被锁定的供应商。因此,Nexus 所做的是消除被锁定的可能性。我们将计算与存储分开。因此,我们现在能够说,嘿,
你今天在 Databricks 上,明天在 Snowflake 上,后天在开源计算层上。能够解耦所有这些引擎的部分,真正实现结果。我们的观点是,这是一个开放计算的世界,这是一个开放的世界,开放标准,你应该能够将你的计算带到你想去的地方。说得很好。还有什么想补充的吗,Mahesh?我认为世界显然正在朝着你所说的开放环境发展。我认为
这些模型和计算的成本也在迅速变化。企业比以往任何时候都更希望拥有这种选择。
多个不同的供应商,而不是被锁定在一个供应商中。因此,基础设施的可移植性以及你分析数据的能力和选择合适的放置地点变得非常重要。我完全理解你所说的。- 说得很好。好吧,接下来你们两位的主题是数据治理。这是我们承诺在本次会议中讨论的内容。
是的,我甚至真的,我在数据科学领域工作了大半辈子。我在神经科学领域获得了博士学位。我在数据科学领域工作了十多年。我仍然不太理解数据治理是什么。你们中的任何一个想给我解释一下吗?
我来试试。我认为你在某种程度上不理解的原因是,直到现在,这一直是一个非常象牙塔式的情况,有一个委员会决定数据在企业中如何使用,当然是出于良好的理由,因为你希望有良好的标准、良好的控制、安全性、隐私等所有这些。
在许多情况下,规则和法规必须遵守。然后,这些内容会逐渐渗透到数据组织中,他们在日常工作中使用这些内容。从 Excel 数据的角度来看,我们所说的是,向前看,
治理不会是整个方程式的集中部分。治理必须以隐喻的方式与数据一起移动。你必须在数据所在的地方进行治理,而不是以非常集中化的方式。
我认为今天 Ali 指出了三件事:人、过程和产品,你知道,随着人们、组织或部门越来越多地负责 AI 项目,能够生成代码和类似的事情。在这种情况下,如果你考虑构建这些数据产品的过程是去中心化的,对吧?
现在,你不能有集中治理来试图管理这个如此分散的事物。因此,你必须有一个架构,使数据管理平台能够理解数据的状态,无论它出于何种目的被使用。然后,它能够应用正确的规则和政策,以确保使用数据的任何人都以适当的方式使用它,从公司角度以及法律和道德角度。
因此,我认为数据治理在不久的将来将经历巨大的变革,人们不会再从委员会的象牙塔中看待它。当然,会有一些输入,但很多行动实际上会非常接近数据及其使用的地方。补充一下,我认为当我们与客户交谈时,数据治理,我想说每个人都在谈论它,但今天没有人真正做到这一点。而
我们发现,他们有太多的技术债务,太多不同的工具,以至于他们几乎不可能考虑如何从源头到数字双胞胎到网格、仓库、应用程序等跟踪他们的数据。而我们发现,随着我们采用可组合架构和开放标准,利用可观察性,我们能够开始自动化许多治理功能,从而使这项治理工作中繁重的数据
处理和人力密集的部分得以消除。获取这些元信息的可见性创造了巨大的价值。非常感谢你们俩。Anuj Jain,Nexus Cognitive 首席执行官。Mahesh Kumar,Acceldata 首席营销官。非常感谢你们在管理数据以拥抱企业 AI 优先思维方面的精彩会议。希望不久后能再次与你们见面。听起来不错。谢谢。这很有趣。
好吧,我希望你喜欢今天与 Anuj Jain 和 Mahesh Kumar 关于让企业数据为人工智能做好准备的对话。确保不要错过我们即将推出的任何激动人心的节目。如果你还没有订阅这个播客,请订阅。但最重要的是,我希望你能继续收听。下次见,继续在外面发光发热。我期待着与你一起享受另一轮 Super Data Science 播客。