We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP 475: AI Without Mistakes: How Good Data Makes It Happen

EP 475: AI Without Mistakes: How Good Data Makes It Happen

2025/3/5
logo of podcast Everyday AI Podcast – An AI and ChatGPT Podcast

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript
People
B
Barr Moses
J
Jordan Wilson
一位经验丰富的数字策略专家和《Everyday AI》播客的主持人,专注于帮助普通人通过 AI 提升职业生涯。
Topics
Jordan Wilson: 我认为,在生成式AI领域,我们有时会忽略一些最重要的事情,那就是数据的可靠性。我们需要关注数据来源的可靠性、准确性以及数据出错后的应对措施。 Barr Moses: Monte Carlo的使命是通过减少数据停机时间(数据错误或不准确的时间段)来加速数据和AI的采用。数据产品(包括生成式AI应用、报告等)经常基于错误数据,数据团队常常是最后知道问题的人。数据可观察性不仅在于知道问题的存在,更在于理解问题的原因、重要性以及解决方法。小型和中型企业常常没有充分理解其数据如何运作,这会影响生成式AI的应用效果。数据准确性在数据使用量增加和生成式AI时代变得越来越重要,因为错误数据会导致用户流失和品牌声誉受损。大多数企业对用于生成式AI模型的数据缺乏信心,数据可靠性与品牌声誉和收入息息相关。企业数据是构建个性化生成式AI产品的竞争优势,数据质量和可靠性至关重要。即使是小型企业,数据质量也至关重要,不应该降低标准;小型企业在数据处理方面具有速度优势。高质量数据与生成式AI的结合可以产生有价值的应用,例如通过数据质量监控器推荐来提高数据质量。生成式AI可以用于分析体育数据,例如识别棒球投球类型和速度中的异常情况,从而提高数据质量监控的效率。Credit Karma利用其用户数据构建个性化金融产品,生成式AI与可靠数据的结合提高了用户体验和产品质量。许多组织利用生成式AI提高内部效率,例如编码助手、合规报告生成等。生成式AI还可以用于处理非结构化数据,例如客户支持聊天记录,将其结构化并进行分析。虽然合成数据在训练LLM和提高性能方面有潜力,但它无法替代企业所需的真实世界数据;数据治理在当前环境下变得越来越重要。生成式AI产品的质量取决于数据的质量,确保数据可靠性是至关重要的第一步。

Deep Dive

Chapters
This chapter explores the critical role of reliable data in generative AI. It emphasizes the importance of data trustworthiness and highlights the challenges of identifying and resolving data issues. The discussion also touches on the field of data observability and its importance in ensuring data reliability.
  • Data reliability is paramount for generative AI success.
  • Data downtime, periods of inaccurate data, significantly impacts AI applications.
  • Data observability helps identify and resolve data issues promptly.
  • Understanding the root cause of data problems is crucial for effective solutions.

Shownotes Transcript

这是 Everyday AI 节目,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听实用建议,以提升您的职业、业务和日常生活。谈到生成式 AI,我认为有时我们只是忽略了一些最重要的事情,对吧?我们只想按下那个大大的红色易按按钮,让它吐出数小时的工作。我们就像,耶,好,我们完成了。但是

还有一个最重要部分。那就是数据。您信任数据的来源吗?它可靠吗?如果数据错误会发生什么?好吧,您为什么应该关心呢?

我们今天将在 Everyday AI 上讨论这个问题,并希望能回答很多这些问题。大家好!我的名字是 Jordan Wilson。我是 Everyday AI 的主持人。这件事,是为你的。这是您的每日直播播客和免费每日新闻通讯,帮助普通人不仅学习

并跟上潮流,而且还能利用它,成为公司里最了解 AI 的人。所以,如果这听起来像您和您想做的事情,那么这就是您的新家。如果这是第一次,呃,请确保如果您在播客上收听,请查看您在那里的节目说明,您将看到一个网站,呃,

youreverydayai.com。但在我们开始之前,必须首先向我们在微软的合作伙伴致敬。那么,您为什么要收听微软的 Work Lab 播客呢?因为它是寻找基于研究的

见解的地方,可以指导您组织的 AI 转型。立即收听,了解如何转变思维方式可以帮助您充分发挥 AI 的潜力。那就是 W-O-R-K-L-A-B,没有空格,可在您获取播客的任何地方使用。好的,感谢我们在微软的合作伙伴。还要提醒您,如果您还没有,请务必在我们的网站上注册我们的免费每日新闻通讯。我们将回顾今天的谈话,并回顾 AI 新闻。是的,

技术上是预先录制的一个,我们正在现场首播,但 AI 世界正在发生很多事情。CES 上发生的一切。我们有一些关于 OpenAI 的传闻在流传。所以我们今天会在新闻通讯中包含所有这些内容。好的,但是够了。

闲聊。让我们构建更值得信赖的 AI。您不必再听我唠叨了。我今天为你们安排了一位很棒的嘉宾。所以请帮我欢迎来到节目。就是这样。Bar Moses,Monte Carlo 的联合创始人兼首席执行官 Bar。非常感谢您加入 Everyday AI 节目。感谢您的邀请,Jordan。很荣幸。好的,让我们开始吧。首先,人们不知道,什么是 Monte Carlo?

什么是 Monte Carlo?好问题。Monte Carlo 的使命是通过减少我们所说的数据停机时间来帮助加速数据和 AI 的采用,数据停机时间基本上是指数据错误或不准确的时间段。你不能相信它。我不知道这是否曾经发生在你身上,但你星期一早上醒来,你会看到你的一个数据产品是错误的。就像你盯着一个报告,数字不对,有什么不对劲。你就像,哇,它为什么不对?

而且通常情况下,不仅很难发现问题,而且也很难理解根本原因并解决它。所以 Monocle 有助于解决所有这些问题。我们很幸运能与世界上一些最好的数据团队合作,包括 Fox、Roche、Cred、Karma 等许多公司。这可能是我工作中最喜欢的一部分,能够与优秀的客户一起解决他们最棘手的问题。

简而言之,一家公司在您之前来,之后会发生什么,对吧?如果一切顺利,他们只是更好地理解他们的数据以及它如何与 AI 一起工作。最终结果是什么?好问题。我会说,你知道,今天有很多像数据分析师、数据科学家、数据工程师、机器学习工程师这样的人在构建我们所说的数据产品。

数据产品可以是生成式 AI 应用程序,也可以是您的首席营销官每天查看的报告,或者可以是定价推荐算法。它实际上可以是各种数据产品。而这些数据产品往往是错误的。最大的问题是基于错误的数据。最大的问题是,数据团队往往是最后知道这一点的。

因此,你知道,我们所做或帮助组织做的最基本的、最基本的事情是首先知道数据问题。所以,数据团队不再会被数据问题所惊讶,也不再是从其他人那里听到的。就像,那是最糟糕的事情,你没有抓住它。

从未发生在我身上。你知道,我是在为朋友求情,如果你愿意的话。我开玩笑的。但是,你知道,这有点像最基本的事情。这就是 Monte Carlo 五年前成立公司时真正想要解决的事情。这可以说是,你知道,我想说的是第一线。我认为从那时起,变得更加明显的是,这只是上半场,从某种意义上说,甚至可能是更容易的一半。

的工作。实际上,真正的巨大挑战,我认为 AI 可靠性和行业正在走向的方向,不仅仅是知道问题的存在,还要回答为什么。我应该关心吗?我应该如何处理这些信息?

因为数据团队经常被这样的警报淹没:这个坏了,这个不对,这个数据晚了,这个数据从未到达,这个字段看起来有点不对劲,这个数字缺失了。但在这些情况下,困难的事情实际上是回答,

我有所有这些系统一起工作,但根本原因是什么?是数据出了问题吗?是工作没有完成吗?是代码发生了变化吗?这些答案真的很难回答。所以 Monte Carlo 做的很多事情,不仅仅是 Monte Carlo,更广泛地说就是可观察性。所以

如果你愿意的话,数据可观察性领域是关于回答或帮助数据团队回答这个问题:出了问题。我应该关心吗?如果是这样,为什么以及如何解决?老实说,这实际上是可观察性最初开始的内容。所以可观察性,我们并没有在数据中发明它。我们实际上是从数据中借鉴了这个概念。

从软件工程团队那里借鉴了这个概念。在像 Datadog 这样的组织中,软件工程中的可观察性非常容易理解,显然。今天谁没有 Datadog 或类似 Datadog 的东西?每个工程团队都有类似 Datadog 的东西,并依赖于像 Datadog 这样的解决方案来确保他们正在构建的软件是

可靠且可信赖的,并且可以运行,如果你愿意的话。在我看来,数据团队应该这样做。可观察性是一个有点新的领域,如果你愿意的话。我认为 Gartner 预测,在未来五年内,超过 60% 的组织将以某种形式拥有数据可观察性,但这是一个新领域。所以,你知道,它只是最近才被定义。

我的意思是,就在前三分钟,我认为你回答了我前五个问题。我想倒带一下,关于为什么我们应该关心,对吧?我认为至少在我看来,这可能是针对中小型企业,但他们往往甚至没有真正花时间去充分了解他们的数据是如何工作的。

所以他们就像,好吧,我们知道我们需要 RAG,对吧?我们知道我们需要引入我们自己的数据,你知道,与后端 API 一起工作,对吧?但是,如果他们使用不同的 Claude、Anthropic、Gemini 等,为什么最终数据正确与否很重要呢?

这是一个好问题。让我带我们回到 10 年、15 年前,老实说,也许这并不重要。就像它没有,你知道,我们并没有真正使用那么多数据。肯定没有任何 AI 的旅程。所以我们可以摆脱大部分时间数据错误的情况。最糟糕的情况是有人告诉你,你必须去修复它。没什么大不了的。你继续你的生活。对吧。但我认为自那时以来发生了很多变化,这些变化有各种各样的,你

如果你愿意的话,时代。我认为第一个时代是越来越多的人开始使用数据。所以你不能再只在一个季度查看一次数据了。现在你有数百万用户,你知道,按下按钮,订购 Uber。所以你不能让你的车到达的时间是错误的,或者你不能让价格是错误的。例如,如果我看到 Uber 汽车将在 30 分钟内到达,我不会等待 30 分钟。

我会注销并转到另一个平台,对吧?所以,是的,Uber 到达的时间很重要,数据需要准确,否则你会失去用户。所以这是人们开始使用更多数据的第一波浪潮,数据产品变得越来越重要。然后是第二波生成式 AI,现在正在发生更多

事实上,有趣的是,我们最近对大约 200 名数据领导者进行了一项调查。我们基本上问,有多少人在生产中部署生成式 AI 或构建生成式 AI?你能猜到答案吗?今天有多少人这样做?我猜数量很少。

实际上,有趣的是,他们中的 100% 都说。哦,好吧。确实,我也很惊讶。调查中的每个人,这些都是来自可靠公司的,你知道,数据领导者,100% 的数据领导者目前正在构建某种联合 AI 的东西。现在,第二个问题是,有多少人真正信任他们将要使用的数据?

你还在四处奔波,试图弄清楚如何利用 AI 发展你的业务吗?也许你的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力来找到生成式 AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。

像 Adobe、微软和英伟达这样的公司与我们合作,因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。一些美国最具创新性的公司聘请我们来帮助他们制定 AI 战略,并培训他们数百名员工如何使用生成式 AI。因此,无论您是为数千人寻找 ChatGPT 培训,

还是只需要帮助构建您的前端 AI 战略,您也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子里奔波,并帮助您的团队领先,并为生成式 AI 建立一条通往投资回报率的直线路径。

是的。这很有趣。这是一个很好的观点。我对此感到震惊,对吧?因为我阅读的许多研究表明,即使是在企业公司中,你知道,我认为最新的研究表明,只有 5% 的公司拥有从上到下的生成式 AI 解决方案。

对吧?完全实施,对吧?但我猜它必须首先从数据开始,然后渗透到其他地方。这也许也是,对吧?呃,说到生成式 AI 的转变,我个人总是对这种从注意力经济到意图经济的转变感到兴奋,呃,

对吧?就像能够更好地理解互联网上的用户在他们甚至不知道自己要做出决定之前会做什么。这始于数据,对吧?我认为我们已经听到 5 年、10 年、15 年了,哦,数据是新的黄金,但它是否越来越重要,因为生成式 AI?

是的,100%。回到那项调查,只有三分之一的领导者对为他们的生成式 AI 模型提供的数据充满信心。所以像我们大多数人一样,我们三分之二的人对我们使用的数据没有信心。因此,你知道,根据你的问题,为什么在新的世界或生成式 AI 中它更重要?

我将通过一个例子和一个更理论的例子来解释这一点。但是第一个,你知道,现实生活中的例子,如果你愿意的话,这是几个月前的事,有人在某个地方传播了这个消息。有人在谷歌上搜索,你知道,如果奶酪从我的披萨上滑下来我该怎么办?对吧。

谷歌说,哦,没问题。只需使用有机超级胶水,我不知道你是否看到过,把它放回披萨上。这在网上疯传了。你会说,好吧,如果你是谷歌,也许你可以摆脱这种答案,对吧?就像,当然,我明天会继续使用谷歌,对吧?但我们大多数人……

负担不起,我们没有奢侈地吐出如此虚假或,你知道,嗯……你知道,显然……错误的信息答案,所以对于大多数企业来说,你提供的数据的可靠性实际上与你的品牌和声誉以及对顶线和你产生的收入的影响交织在一起,所以这就是,你知道……一个例子……

为了让它更生动。更广泛地说,如果你考虑一下公司现在需要做什么,我们会看到,你知道,每个数据领导者现在都需要做一些生成式 AI 的事情。他们是怎么做的?因为今天,我们每个人都可以访问最新最好的 LLM 模型,对吧?就像,我们都可以切换它们,我们都可以使用它们。所以从某种意义上说,我们都可以访问由,你知道,

数千名优秀的博士构建的模型,对吧?我们都可以做到这一点。那么我的竞争优势是什么呢?我将如何构建比我的竞争对手更好的数据产品,或者我的长期护城河是什么?

我相信,我从客户那里听到的是,护城河实际上是你拥有的数据,因为它不再仅仅是连接到 API 并实际构建生成式 AI 产品。构建高度个性化生成式 AI 产品的力量是基于使用第一方企业数据的能力。

所以如果我知道关于你的一些事情,Jordan。如果我知道你的背景,我知道你的习惯,我可以为你构建一些个性化的东西。而我拥有的数据是可以说其他人所没有的。

所以我认为对于那些正在考虑要构建什么或如何使用生成式 AI 的领导者来说,你拥有的数据就是护城河。这实际上是你获得竞争优势和构建数据产品的方式。所以如果你相信这是真的,那么你使用的数据的质量和可靠性至关重要。因为如果你拥有的数据不准确,那么你拥有的护城河还有什么意义呢?是的。

我认为这对在大型企业工作的人更有意义,并且与他们产生共鸣,对吧?他们已经拥有数据仓库或数据湖。他们正在使用 Amazon S3。我不知道,对吧?但对于那些数据游戏不强劲的中小型公司来说,对吧?但他们的数据在很多不同的平台上。

地方,对吧?也许他们有一些,你知道,在谷歌的不同地方或他们的 CRM 等地方四处漂浮。这些中小型组织如何利用这一点?因为你刚才说的很对,数据就是护城河,但这些中小型组织如何开始真正将所有这些数据汇集在一起,以便他们能够利用生成式 AI?

是的,我的意思是,我会从说没有数据比坏数据好开始。所以如果你有糟糕的数据,我实际上并不相信你应该使用它。我实际上认为最好确保你拥有可靠且值得信赖的数据。你知道,我想举一个关于 Monte Carlo 的例子,Monte Carlo 作为一家公司,我们大约有 200 名员工。我们构建生成式 AI 产品,并且我们拥有的数据准确至关重要。

所以我认为即使你是一个小型组织,标准也不会降低。事实上,我认为它更高。事实上,我发现企业,你知道,大型企业在整合数据方面确实很挣扎,在拥有真相来源方面确实很挣扎。如果我有数据的多个副本,

例如,我的意思是,即使回答诸如我们有多少客户或大型组织需要尝试计算销售补偿等问题。这真的非常复杂,因为

我从财务团队那里得到的答案与我的销售团队所说的不同,与我的营销团队所说的不同。所以每个不同的团队都在查看不同的数据集。因此,获得答案非常非常困难。所以我实际上认为中小型组织具有优势。你有,你知道,你实际上,事实上,你知道,我认为是,我实际上认为较小的团队行动更快。像我,

可能有一些证据证明这一点。所以作为一个较小的团队,你知道,你可能很小但很强大。因此,利用你拥有的数据,你具有能够更快地行动并更快地创新的优势,因为大型组织现在行动非常非常缓慢,而且显然更规避风险。

所以我认为小型组织可以尝试很多事情,进行实验,快速行动,并加倍努力进行一些有效的实验。顺便说一句,这就是我们看到公司所做的大部分事情,无论大小。

基本上都有这样的任务,即在组织中进行实验,并让许多团队尝试不同的东西,并构建不同的应用程序。而且,你知道,公司明白他们只会稍后制定一个集中的战略。

好的。所以我想谈谈其中一些用例,但我们将短暂休息 20 秒,并再次向我们在微软的合作伙伴致敬。那么,您为什么要收听微软的 Work Lab 播客呢?因为它解决了你的工作。

谢谢。

work lab,那就是 w-o-r-k-l-a-b,没有空格,可在您获取播客的任何地方使用。好的,Bart,我想稍微深入一点,因为我们一直在讨论一些问题,呃,获得好的数据,拥有你可以信任的可靠数据,那么当它真正整合在一起时会发生什么?也许你可以带我们浏览一两个用例,只是为了那些可能刚刚开始接触数据的人,以便他们可以看到

嘿,当好的数据和好的生成式 AI 结合在一起时,这里有一些好的用例。是的,绝对的。听到各种用例和创新真的很有趣。我真的很兴奋。老实说,围绕它的炒作如此之大,但我认为即使它只实现了 10%,也足以对我们产生如此大的颠覆性影响。

以及对后代的影响。我真的很兴奋。我将举一个具体的例子,实际上是我们 Monte Carlo 使用的一个例子。我们面临的挑战之一是,这有点像元数据,但当我们与数据团队合作时,他们实际上并不知道他们数据的状况,他们当然也不知道他们的数据为什么会出错以及可能出现什么问题。所以如果你需要数据

来设置数据质量监控的覆盖范围,你并不总是知道如何开始。特别是如果你是一个技术水平较低的用户,这可能会更难。所以我们所做的是实际上构建数据质量监控建议,我们实际上分析特定客户的数据。我们使用 Anthropix Cloud 3.5 Sonnet。

与 LLM 合作的优势之一是它们具有非常强大的语义理解能力。因此,我们可以结合数据和元数据的分析,以及我们整合的大量其他上下文信息,我们可以使用它来实际帮助定义您应该设置哪些监控器。

所以我会举一个非常容易理解的例子,希望如此。你知道,例如,我们与体育组织合作。所以如果你拿一个,你知道,像棒球组织,例如,并且你考虑像投球类型,你知道,实际上像棒球和体育运动通常会收集大量关于不同运动员、不同球员的数据,以及关于比赛本身的大量统计数据和分析。

对于任何看过《点球成金》和其他电影的人来说,其中一件事,一种数据类型,你可能会收集的是投球类型以及投球速度。因此,例如,使用分析,你实际上可以学习,你实际上可以确定,如果你有一个快速球,它应该总是超过 80 英里每小时。

如果它低于 80 英里每小时,那么可能存在问题。它并不是真正的快速球,对吧?所以这就是我们可以使用生成式 AI 或 LLM 做出的建议,说,嘿,你应该设置这个数据质量监控器。我们可以做更多的事情来帮助用户真正理解他们的数据,以便驱动他们需要什么样的数据质量监控器。

这是一个很好的例子。我认为它真正说明了一个观点。所以,你知道,因为我们都可以理解,哦,对投球进行分类,对吧?而且,你知道,你永远不知道它是什么,直到,你知道,你看到它或者,你知道,你在电视上观看。但也许你可以再举一个例子,你知道,人们如何

好的数据,并且知道你可以依赖它,以及这如何真正发挥作用。是的。

是的,当然。所以另一个例子是,你知道,我认为生成式 AI 的用例真的很酷,这是 Intuit 的 Credit Karma 所做的。所以,你知道,对于那些不知道的人来说,Credit Karma 是一种基于 AI 的财务助手,所以它可以为你提供如何最好地管理你的财务的建议。所以,就像我之前提到的那样,你知道,任何组织都可以访问最新最好的服务。

你知道,OpenAI API 或其他。Credit Karma 拥有其他组织所没有的信息,即关于他们用户的具体信息。而且,你知道,他们服务于数亿用户,他们可以告诉你,你知道,你有这个具体的信用评分,你过去 10 年一直拥有这辆本田车,你将在此时出售它,并且你有这种历史,并且

所有这些信息都可以用来帮助为你提供关于你具体财务状况的具体建议。现在,缺点是,你知道,我们想确保我们不会向你展示错误的信用评分。所以你,Jordan,应该只能访问你的信用评分,而不是我的信用评分,例如。而且为你做出的财务建议也应该基于你的数据和你自己的数据。

所以我认为力量,你知道,嗯,

Credit Karma 实际上构建了 RAG 管道。因此,他们使用 LLM 并实际使用他们关于用户的数据来丰富它们,以便构建这些高度个性化的助手,如果你愿意的话。所以,你知道,我认为能够实际构建这样一个个性化的产品,它也基于可靠、准确的数据,这将为客户带来非常非常好的结果。

这是金融领域的一个例子。还有很多例子表明公司如何很好地利用 LLM 和生成式 AI 来提高内部效率,我已经看到了。所以,你知道,Credit Karma Intuit 更像是一个外部数据产品,它使你能够真正有效地影响你的外部客户。

如果你考虑一下内部也能看到价值,许多组织最基本的例子是组织看到工程生产力的提高。所以如果你有一个编码助手,我认为这是最基本的,大多数组织今天都在看到。我认为这通常有助于

更多初级和经验丰富的工程师,以及高级工程师。所以如果你有一个很大程度上是初级或新的组织,你会发现更多的好处。但我认为,你知道,一些数字,例如,你可以显著提高代码数量与使用 LLM 审查的代码数量的比率。另一个例子是,你知道,在,

制药或医疗领域,以及保险业,有很多合规报告需要共享。这些报告的生成通常需要6到12甚至18个月的时间。这些报告包括许多内部数据,以及状态和协议等信息。而且,你知道,很多都是书面形式的手动报告,

报告编写,生成式AI可以显著减少基于此的时间。因此,如果您使用现成的现有数据并对其进行过去报告的训练,它实际上可以生成非常好的示例或至少是初步草稿。

这些是如何利用内部效率的一些例子。还有一些巧妙的方法,特别是围绕结构化和非结构化数据。通常情况下,人们发现,总的来说,

非结构化数据堆栈非常新,并且正在兴起。我认为非结构化数据还处于非常早期的阶段。其中一个难题是如何监控和观察非结构化数据以确保其可靠性?这真的是,我想说的是,这方面还处于非常非常早期的阶段。蒙特卡洛显然对此思考很多,

我们的客户也对此思考很多,关于如何使用LLM更好地观察非结构化数据的一个很好的例子是,我们与一家拥有客户支持聊天的保险公司合作。如果您考虑客户支持,客户支持,

客户支持对话,这主要是非结构化数据。您可以使用LLM来实际构建该特定的支持聊天,并根据语气、对话和解决方案的解读以及理解支持对话是否顺利进行来对其进行评分。基本上,根据其进行情况,为其分配0到10之间的分数。

其中一个用例是,您可以观察这些结构化数据。例如,假设LLM给它打了12分。那么,在0到10分之间,12分是什么意思呢?因此,在这些情况下,您可以确保

数据是可靠的。因此,人们有很多巧妙的方法来使用LLM构建非结构化数据,如果可以这么说的话。是的。是的,我喜欢这个。而且,你知道,我非常支持这一点,特别是对于中小型企业来说。就像,是的,使用LLM将非结构化数据转换为您可以实际使用的结构化数据。所以,如果我不问你这个问题,我会感到很遗憾,因为,你知道,这至少是2024年一个越来越明显的趋势,那就是使用合成

数据。你对此有什么看法?我喜欢你所说的。没有数据比有坏数据好。使用合成数据比使用坏数据好吗?你对此有何看法?这在未来会是一个重要的方向吗?

是的,我认为,我认为,我不记得是谁说的了,但我认为是OpenAI的前科学家说的,就像,我们现在正处于数据高峰期。就像,我们,你知道,我们已经对现有数据达到了饱和。而且,你知道,我们现在需要转向合成数据,以便取得进步。所以我认为对于合成数据来说,这绝对是一个有趣的时期。我认为在如何训练LLM以及如何方面,它将会兴起,

如果可以这么说的话,达到更好的性能。但我确实认为,企业需要使用现实世界的数据,显然没有替代品。我看到大部分注意力和时间都花在了这上面。所以这很有趣。这是一种回归到一些可能不太性感的事情,比如数据治理现在又开始抬头了。我还没听说过。

几年没听到这个词了。现在好像又出现了数据治理。所以我认为很多,你知道,什么是旧的现在又是什么新的,如果可以这么说的话。也许合成数据也在这个行列中。

好的。巴尔,我们在今天的谈话中涵盖了很多内容。我们从数据的可靠性和可观察性如何工作开始,我们给出了一些例子,并讨论了数据的未来。但在我们结束之前,您认为我们的听众最需要知道的一件事是什么,特别是那些正在制定关于他们的公司如何在人工智能领域发挥作用的中长期决策的人?

关于他们数据的可靠性,他们最需要知道的一件事是什么?我想说的是,你的生成式AI产品和你数据一样好。所以……

请原谅我的语言,但如果你的数据很糟糕,那么你的生成式AI也会很糟糕。所以,首先要解决这个问题。实际上,这是一个非常艰巨的任务。做到这一点实际上非常困难。但我认为没有其他办法。我确实认为,我们看到越来越多的组织正在从他们的生成式AI产品中获得投资回报。所以,任何组织都应该开始,如果你还没有投资,那么你已经太晚了。

很高兴听到这个。是的,这是一个很好的警告,给所有那些在2025年仍然坐在围栏上的人。我不明白,但是你们很多人都在那里。巴尔,非常感谢你加入Everyday AI节目,并抽出时间帮助我们更好地理解数据。我们非常感谢。

很有趣。谢谢你的写作。祝我们大家都好运。好的。嘿,各位,这有很多内容需要吸收。是的,太多了。大量关于信息的洪流。如果你错过了什么,也许你在椭圆机上,然后走开了。别担心。我们将对所有这些进行回顾。

在我们的网站youreverydayai.com上。注册免费的每日新闻通讯,在那里你会发现更多见解和补充信息,以配合今天的谈话,以及你需要知道的一切,以便成为你公司人工智能方面最聪明的人。感谢您的加入。请明天和每天加入我们,了解更多Everyday AI的内容。谢谢大家。

这就是今天Everyday AI节目的结束。感谢您的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多人工智能魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。