We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode How Sama is Improving ML Models to Make AVs Safer // Duncan Curtis // #307

How Sama is Improving ML Models to Make AVs Safer // Duncan Curtis // #307

2025/4/18
logo of podcast MLOps.community

MLOps.community

AI Deep Dive AI Chapters Transcript
People
D
Duncan Curtis
Topics
Duncan Curtis: 我专注于为全球大型企业赋能AI,无论是在自动驾驶还是生成式AI领域。我们致力于改进机器学习模型的准确性、速度和成本效益,降低模型故障风险,并降低汽车制造商的总拥有成本。我们拥有全职员工和平台,不断思考如何预测未来趋势,并充分利用人工参与。在自动驾驶领域,我们处理来自激光雷达、摄像头、雷达和超声波传感器的大量数据,需要人工标注和解读这些数据,这需要高度的智能和对场景的理解。我们利用AI辅助标注,提高效率,并专注于捕捉对AI模型最重要的信息。我们还关注数据选择和数据价值最大化,通过数据筛选和优化,提高数据利用率。我们也关注数据偏差问题,通过数据收集和标注过程中的多样性和代表性,减少偏差并提高模型鲁棒性。我们处理各种异常情况,例如罕见的交通场景,并及时更新模型以适应新的情况。我们也关注不同地区和国家的驾驶习惯和交通法规差异,并将其纳入模型训练中。在技术发展迅速的背景下,我们也关注技术的前向兼容性,避免因技术更新而导致前期投入的资源浪费。生成式AI的兴起也为我们的业务带来了新的机遇,我们发现我们的现有英语为主的劳动力和训练流程与市场需求非常契合。对于需要专业知识才能标注的数据,我们关注如何利用现有技术和资源来解决问题,并预测未来发展趋势,我们相信未来AI数据标注的需求将转向对更通用的智能和更复杂的AI系统(例如具身AI)的反馈和评估。现有的AI技术已经能够降低AI产品开发的门槛,但产品的差异化将主要体现在产品设计和用户体验上。成功的AI产品不仅仅依赖于底层技术,更依赖于优秀的产品设计和用户体验。数据是当前AI发展的瓶颈,其原因在于数据量巨大、数据质量参差不齐以及数据处理的复杂性。Sama公司为客户提供全面的AI数据服务,从咨询到数据标注和模型训练,帮助客户解决各种AI相关的业务问题。我们参与过利用AI技术进行大象保护的项目,通过识别大象臀部特征来追踪大象。在AI模型验证阶段,需要找到一种平衡的方法,在保证验证质量的同时,降低成本。评估AI项目的ROI至关重要,可以通过MVP和POC等方式快速验证AI项目的价值,并根据业务目标选择合适的评估指标。 Demetrios: 作为主持人,我主要负责引导访谈,并就数据标注、AI模型改进、自动驾驶安全等话题与Duncan Curtis进行讨论。我关注数据作为AI发展瓶颈的问题,以及如何评估AI项目的ROI。我与Duncan Curtis探讨了数据标注中人工参与的重要性,以及如何平衡人工和自动化,以提高效率和降低成本。我们还讨论了AI模型的鲁棒性和前向兼容性,以及如何应对技术快速发展带来的挑战。此外,我还与Duncan Curtis探讨了AI项目价值评估的重要性,以及如何将AI项目与业务目标相结合。

Deep Dive

Shownotes Transcript

Sama产品和技术高级副总裁Duncan Curtis。我喜欢的咖啡是三倍浓缩咖啡加三份焦糖。好,我们又回到了MLOps社区播客。我是主持人Demetrios,我们再次讨论数据。你猜怎么着?现在是2025年,我们还在讨论数据。

当涉及到人工智能和机器学习时,我们不得不谈论它。Duncan正深入参与数据世界。他经常与我们讨论如何思考你的数据、数据收集,这究竟是什么样子,以及在你的数据和数据策略方面可能遇到的问题。

以及稳健性。天哪,我说了一堆流行语。让我们直接进入这次对话吧。

你最近在忙些什么?因为你做了很多很酷的事情。给我详细介绍一下你每天的工作。是的,我们非常专注于为世界上一些最大的企业赋能人工智能,无论是自动驾驶,还是生成式人工智能,最新的模型发布,我们一直在努力。所以……

我一直在思考的是,我们有自己的员工队伍,一个全职的员工队伍和平台。所以我一直在思考,我该如何预测接下来会发生什么,以及我们如何才能真正获得人为参与的好处?所以我这样说是因为

我看到了人工智能数据标注的演变,人工智能的核心就是你输入什么,它就学习什么。这就像一个孩子,如果你只教他们科幻小说,他们就只知道科幻主题。如果你从不谈论经济学之类的东西,他们就永远不会知道。

很久以前,它就开始了,比如,“我们想知道图片里是否有狗或猫”。所以你会浏览10000张图片,那是狗,那是猫,那实际上是水牛。这不是你想要的,也不是你感兴趣的。有趣的是,随着标注越来越复杂,情况就变得更有趣了。如果我想想我们现在在自动驾驶汽车领域做的一些事情,你会发现

激光雷达每秒或每一帧都会捕捉数百万个点。你有多个摄像头、雷达和超声波传感器,你让某人绘制并捕捉其中的信息,并真正将其编码以便人工智能理解。

关键是,人为参与的智能,以及人为参与,但我喜欢让“I”也代表智能。这不仅仅是如何画得好。

即使这是一项技能,你所捕捉到的实际智能是,“哦,我认识到场景的这一点。”“哦,我意识到那是一辆车。”那辆车,即使它开到卡车后面,也是同一辆车。我知道这一点,因为我可以看到保险杠上小小的独角兽贴纸,或者我可以,你知道,有很多领域我都在尝试研究如何

将与人员相关的工具和技术方面结合起来,以捕捉对人工智能至关重要的内容,并尽量减少其他容易被包含在其中的工作。所以,你知道,即使是像,“嘿,我们是否允许人工智能或我们如何让AI,比如说,先进行一次尝试?”

进行标注和猜测,你知道在大多数情况下它是正确的,但你知道肯定不是100%正确。你听到,“哦,那辆有独角兽保险杠贴纸的车”,它并没有考虑独角兽保险杠贴纸,它说,“嘿,那是车1,现在是车2,因为它开到卡车后面,我有一段时间没看到它了”,但是如果那辆车已经被画出来了,那就快多了,你可以说,“哦,嘿,你搞错了,那实际上仍然是车1,是同一辆车”,并且

所以,这是一种方法,我们可以以极少的时间捕捉到这种智能。是的。现在……

在何处插入人工始终让我着迷。我相信你对此进行了深入思考,因为你不能随意地在流程中添加人工步骤,因为这可能会非常昂贵。这可能是流程中最昂贵的部分,对吧?

是的。对于绝大多数行业来说,这是最昂贵的事情。一些专业行业的数据收集成本更高,例如,如果涉及非常昂贵的机器或其他东西。但你是对的。总的来说,这确实是成本最高的部分。现在,

当你谈到大型语言模型时,最昂贵的部分是云训练,因为它们使用的数据量巨大。但他们也没有让人类去看。这就是为什么我们仍然会在ChatGPT和Gemini等产品中看到问题,因为你使用的是没有人工过滤的互联网,它过度拟合了Reddit。没错。

没错。哦,是的。是的,绝对的。是的,我们已经看到了一些关于这方面发生的事情的公开报道。但是,是的,当我们考虑人工介入的位置时,有几个地方。你是对的。

我该如何以最小的方式获得对AI模型的最大益处,我们如何捕捉最多的智能?所以,甚至在标注之前还有步骤,例如,我们如何选择正确的数据?因为如果我长时间开车,比如说几个小时,或者想想你上下班的通勤,如果你,你知道,在大流行之前,每个人每天都开车上下班,

在那次驾驶中,可能只有10秒钟是真正相关的。大部分时间你都在车道上,前面有一辆车,旁边有一辆车,什么也没发生。但是当有人超车时,

也许会发生一些意想不到的事情。那实际上是,那是真正有趣的部分。那么,你如何在数据中找到这些片段呢?这样,你就可以不用标注一个小时来获得五秒钟的用途,而实际上只抓取这五秒钟,也许我们称之为10秒钟,也许周围还有一点。然后你可以一次又一次地这样做,以获得最大的数据使用价值。

用于人工智能。因此,你不仅可以在标注部分使用它,还可以用于我们所说的策划,你获取一个更大的数据集并想要查看它。你想看看像,“我如何找到有趣的东西?”“我如何找到良好的类别分布?”因为,这不仅仅是类别,还有事件。例如,我们已经看到,不仅在自动驾驶领域,而且在整个领域,

在人工智能技术领域多年来,数据中存在许多偏差。你知道,在我从事电子游戏职业的早期,当我们构建时,我们正在将Fruit Ninja从手机移植到其中一台游戏机上。他们有一个传感器,你可以在它前面进行你的小水果切片动作。它无法识别办公室里一些有色人种。

哦,哇。为什么?因为事实证明,构建它的小组是一群白人,他们用自己作为数据来训练它。因此,它在儿童和有色人种身上的表现都很差。所以就是这样。我只是想说,它可以在许多不同的用例中被加剧。显然,很多人喜欢谈论当前的自动驾驶用例,但这并不是一个新问题。因此,我们可以在策划中提供帮助,你可以查看,你知道,你是否有

让我们谈谈自动驾驶汽车或自动驾驶车辆。你是否有足够的公共汽车和汽车?自行车呢?滑板车呢?但是,只要你添加元数据或有生成元数据的方法,你也可以深入研究。我们在不同的属性、身高方面是否有足够的代表性?

肤色,许多不同的因素可以确保你会看到这一点。它不仅涉及这些,还涉及诸如天气状况等因素,例如阳光明媚的日子、阳光直射、下雪、夜晚、下雨。有很多不同的属性可以真正确保你想要获得良好的分布,以便最大限度地提高你发现边缘情况的几率,然后再在生产中看到它。是的,找到所有……

异常值总是很有趣的部分,我想。但是,这个稳健的数据集才是工作的重点,并且试图考虑所有不同的部分。是的。而且它也是一种混合,因为你不仅仅是原始数据。

收集到的数据、真实世界的数据,你还有合成数据作为混合的一部分,我知道,例如,例如,Waymo已经存在13或14年了,并且虽然他们已经部署了,而且我认为他们刚刚表示他们已经完成了超过5000万英里的无人驾驶里程或仅乘客里程,这是一个惊人的里程碑,

他们并没有停止,而且他们并没有在所有地方部署,因为你想做的边缘情况和模拟的数量是巨大的,因为,是的,我的意思是……是的,我记得看到一些……你总是会捕捉到那些在互联网上出现并传播的视频。其中一个视频是关于一辆马车和……

它不清楚,因为训练数据中从来没有马车。所以,同样,这就像你会看到这些异常值出现,模型不知道该如何对其进行分类。

我,这是一个很好的例子。呃,是的,你会说,你知道,你可以回顾你的训练数据,就像,“我们有多少这些类别的表示?”“这实际上是像,我们见过四匹马吗?”也许,也许我们见过一千匹马,但是我们见过多少辆马车或马车和马一起?我喜欢的一个相对简单的例子,但它可以,它可以显示,你知道,在另一个方面,另一个方面是,嗯,

回到几年前,即使你拥有良好的分布式类别,例如,让我们以滑板车为例。

好的,我们有滑板车的概念。这是一个人类。他们的脚下有一个小而平的东西。他们可以达到,我们称之为每小时15英里,也许。在大多数情况下,在城市里。我会把你当成一个每小时公里的人。我是,但你转换了。确保我现在说两种语言。我会说公制和英制两种语言。但是如果你达到每小时大约15英里,

然后这个奇怪的事情发生了。有一些东西看起来很像滑板,但它们可以达到40或50。因此,如果你正在对某种类型的行为进行训练,并且你认为,“太好了,这是一个直立站在平坦木板上的普通人。”也许是手柄之类的东西,但你不会太注意它。也就是说,在人行道上或十字路口行驶,你认为,“好吧,它可能只能达到大约15。所以我现在不需要减速。”突然间,你看到一个以40或50的速度飞驰而过,并且

我的意思是,这是一个灾难的秘诀。因此,能够识别这些,然后快速加强模型,说,“嘿,这是一个新的类别类型。这实际上是滑板车,完全不同的东西。”它非常不同,模型可以学习区别,但它需要知道学习区别的对象。没错。你必须重新训练它。感觉就像。

你只需要去印度开车收集一堆数据。哦,伙计。有一个原因,没有人尝试在那里部署,伙计。这就像你在寻找困难的挑战。我说,“哦,像交通规则。什么是交通规则?”不,但它不知何故有效。我记得我曾在印度待过一段时间,我给自己买了一辆滑板车,并且

一开始,这是我能做到的最令人肾上腺素飙升的事情,独自外出。出于某种原因,我决定和另外两个朋友一起坐在滑板车的后面出去,因为这是印度,我们身在罗马。我记得在我在那里待的时间结束时……

我正在超越骆驼和大象以及其他任何东西,人力车,甚至不要谈论那些会随机出现奶牛。对我来说,这没什么大不了的。我自己的内部模型已经

我模拟了一切,我意识到,好吧,酷。骆驼。是的。只是又一天。是的。但现在你知道骆驼是如何移动的了。现在你知道骆驼,就像你第一次经过骆驼或大象时,它可能会压碎你,你只是,你就像,“啊,会发生什么?”而现在你已经见过一千头大象,你就像,“哦,它不会转身压碎我。它只是,它会忽略我,因为我是这一分钟内将要经过它的500人之一。它会忽略它。是的。

但我真的很喜欢你的思维模型必须改变这一事实。这是一个很好的比喻,说明这些驾驶模型需要如何适应和改变。顺便说一句,即使是驾驶风格在地区之间也有差异。哦,是的。美国各州之间也有不同的法律,例如,欧洲、亚洲。有很多不同的……

许多不同的法律变化你需要尊重内置到模型中,但人们的驾驶方式也不同。你知道,你想想,纽约的司机有多么咄咄逼人,或者你得到,你知道,像,“嘿,确保你开车很快。如果你在这里在加利福尼亚州,我知道如果你在最左边,你最好至少比限速高出10或15,否则你就像在阻塞交通。

所以,你知道,所有这些区域差异也是如此。没错。这些都与文化有关。我想触及的一件事是你之前略微提到的内容,以及你如何思考接下来会发生什么。我相信你有一些这样的故事,就像我所说的前向兼容性故障,对吧?

所以我最近从一个朋友那里听到的一个故事,我会先开始,然后看看你的百宝箱里有什么,是一个朋友告诉我,他花了大量时间拼凑出所有这些方法来扩大上下文窗口,当时ChatGPT刚问世。仅仅在六个月内,所有这些工作都付诸东流,因为更大的上下文窗口成为常态。

是的,这是一个很好的例子。我只是想考虑一些肯定有过几次这种经历,你就像,“嘿,让我为我认为的下一个技术或当前的技术挑战做好准备。”然后,“哦,我的上帝,现在我不需要了。”我认为一个好的……

一个很好的例子是,Sama适合NLP,即基于文本的工作。所以我们做几种语言,但我们主要在东非,英语是我们的主要语言。是的,我们也有一些当地语言。

但是NLP或文本领域的大多数公司,自然语言处理领域,都在寻找120种语言,一种真正分布广泛的语言。我们一直关注的模型是,我们相信人才分布均匀,但机会并非如此。这意味着我们在内罗毕和肯尼亚以及附近的古伦坎帕拉都有非常强大的影响力。

但这意味着我们拥有更多以英语为基础的员工队伍。所以,我一直在挠头,想,“嘿,制定计划,我们想去哪里——如果我们想继续扩展到这个市场,我们是否——因为我们相信这非常适合那些摆脱贫困的人。这是可以训练的。他们拥有良好的英语技能或良好的教育水平技能,但找不到工作。是的。

我们如何将它与人工智能经济和那里可用的工作相适应?这是否是我们想要扩展的领域?因此,关于我们在世界各地需要在哪里开设新的中心以利用与我们在东非所做的事情类似的新群体,制定了计划又计划,以真正确保我们坚持我们的使命,而不仅仅是随机行事,而是真正有目的地去做。

然后生成式人工智能出现了,我们就像,“哦,不,哦,这是所有技术领域。”除了世界上85%、90%的核心模型都是英语。

因此,对于我们现有的员工队伍以及我们的所有培训流程、采购流程来说,这是一个惊人的契合。我们就像,“好吧,所有这些计划,完全浪费了我们的时间。”好的。完全,完全不需要在这个阶段。所以,是的,这是一个有趣的例子。你如何看待真正专业的团队?

需要由非常专业或专家来标注的工作或数据?你如何考虑整个事情,“嘿,这是一个非常高的

需要能够理解这一点的技能。这不仅仅是我可以标注这些数据。我必须经过多年的培训才能标注它。那么,你在这个领域做了一些什么?是的。我认为这是一个非常有趣的领域。我认为我们已经看到了

大趋势,你知道,在大型语言模型中,随着它们的发展,你知道,随着,我们称之为,大型语言模型的“教育水平”不断提高,我们现在看到许多请求都在,我们称之为超专业领域,所以,我,我最喜欢讲的一个轶事是,我一个,呃,

我最棒的产品经理之一。帕特里克,他最初其实是数据科学家。所以他做过数据科学家,拥有高级数学学位,并且正在查看其中一些任务,他说,“伙计,我做不了这些。我达不到做这些的水平。”所以你谈论的是真正开始进入深奥的

所以我们看到我们在这个领域的一些竞争对手和一些其他参与者实际上建立了专业的高领域专业知识网络来做到这一点。这并不是我们选择与Sama合作的原因,仅仅是因为我们的使命,我们更关注的是我们如何抓住更普遍的人类智能和一些领域专业知识。但是,这种专业知识水平

深奥的知识,虽然我认为对于将这些知识捕捉到大型语言模型中以用于这些特定用例非常有价值。

我看到它正在迅速加速并继续发展。正如我过去所看到的,你看到像MetaSAM这样的东西,它可以分割任何东西,因为所有为此付出的努力。我认为,从我的角度来看,这是一个趋势,数据将被收集,然后这项工作将消失。所以我们正在研究的是下一个领域是什么,

我们将仍然需要捕捉人类智能,但这将不会是那种领域特异性水平,因为我不相信规模将是,虽然目前对于每个单独的领域来说规模很大,但它相当小,即使它是一个报酬丰厚的工作,例如。

所以对我们来说,这回到了你的问题,随着技术的改变,对你来说有什么改变?我更多地关注的是,比如说,代理人工智能体验,我们现在试图为正在创建计划并尝试通过以下方式执行计划步骤的模型提供反馈循环,“好的,所以如果我想为你预订假期,你已经给了我一些日期和地点。好的,我的计划是,好的,让我们弄清楚

在哪里。让我们弄清楚你喜欢什么。也许是我们在夏天想去阿鲁巴。好的,我知道你喜欢远足。所以让我们看看是否有好的远足小径。我将,所以我将访问这些不同的网站并将这些信息带回来并创建一个日历,生成附近的一些酒店,哦,也许你是素食主义者。所以我想确保我去的网站可以指定这一点。所以它正在经历许多复杂的步骤来达到结果,那就是

这是一个非常惊人的能力。但是,代理人工智能的一个缺点是,当它执行一系列连续的步骤时,它会一个接一个地执行它们。如果它偏离轨道,它会发现很难,A,知道它偏离了轨道,或者B,从轨道上恢复过来。现在,我并不是说这在未来不会

得到修复,但这具有更大的广度,以及更多我们之前在自动驾驶中讨论过的边缘情况类型,想想我们作为人类使用每次不同的工具时所管理的边缘情况,我的意思是每次他们更新时,你知道,嗯,你的社交媒体上的UI,无论你使用什么社交媒体

这是一种新的学习体验,你就像,“好吧,我过去常常到这里来做这件事,现在我必须看看屏幕,然后弄清楚,哦,我现在该怎么做?”所以你甚至一开始就必须认识到,“哦,不,UI已经改变了。”所以我们相信,随着世界和大型语言模型使用的工具不断发展,这将是一个在很长一段时间内非常丰富的领域。所以,分割任何东西是一个很好的例子,说明

我们已经完成了一个领域。我们已经获得了一种能力,而且它非常可靠。因此,除非它非常专业,否则该领域的其他研究或额外工作可以通过分割任何东西来解决。因此,你可以使用任何模型,然后说,“嘿,我是一家初创公司。

我将使用它,而不是尝试标记数百万张图像来开始。现在,如果你的初创公司正在做一些非常专业的事情,这可能行不通,但是你将能够使用分割任何东西模型作为基础。你可以从那里微调它。啊,

啊,我明白了。所以这并不是说分割任何东西版本五将变得如此出色,因为我们只是会看到它越来越好。不,我的意思是它已经取代了一组像人工标注工作和人工智能能力,这些曾经是人们非常感兴趣的东西。所以它就像,

“嘿,你能帮我建立一个可以分割这个摄像头视频的模型吗?这样我就可以弄清楚里面有什么。”例如,对于安全用例,或者像你想做安全摄像头并能够检测到人们何时像,有点像响铃门铃,你就像,“哦,我想知道是否有人正在沿着小路走来。”

好吧,你可以使用分割任何东西作为基础模型,并且,你知道,像YOLO这样的东西,并将它们放在一起,你实际上可以很快地获得开箱即用的东西。在这些功能出现并可用之前,

你必须从头开始,安装一些摄像头,尝试收集大量数据,然后尝试进行大量标注才能到达一个可能比SAM开始时好一点的地方,但成本要高得多。因此,我想说的是,在那些专业的LLM领域,我认为情况也是如此……

我们正在捕捉这些信息,它将被编码到这些大型语言模型中。然后这将成为你可以从中工作的基础。因此,该领域将不会以目前相同的规模存在很长一段时间。是的,我能理解。而且我确实喜欢这个想法

技术不是获得运行的障碍,你现在真的可以用我们现在拥有的东西走得很远,所以你可以去创建一个产品,并且可能能够在你的产品中使用分割任何东西,例如,例如这个

响铃摄像头。是的。但这里有一个有趣的事情,我喜欢它为初创公司创造了如此多的增长潜力,你就像,“我可以把一些东西放在一起。”我的意思是,我可以想想我大学和学院的日子。我可以说,“哦,伙计,一个为期48小时的黑客马拉松,和几个朋友一起。我们可以一起组建一个响铃门铃套件,这不成问题。这将是惊人的。

但是另一方面是,它会与众不同吗?所以你所说的意思是,这些技术将使新产品成为可能,你将它们放入产品的方式将是差异化因素。但技术不会成为你的竞争优势,因为其他人也可以看到你的产品并在48小时内做到这一点。

是的,产品、UI和用户体验,所有这些都是我们一直在看到的。回到这些使用代理的例子,我认为每个人都开始意识到,这不仅仅是……技术。是的。

代理,就像我们如何与代理互动?究竟哪种方法是最好的方法?所以我想给你一个高度相关的例子,我认为这是过去几年设计绝对胜出的最佳例子之一。你知道生成式人工智能已经存在多久了吗?大型语言模型,基本上?是的。

很多年了。是的,没错。Transformer是什么时候出现的?2017年?是的,2017年。所以它们已经存在很长时间了。唯一改变的是

当时,你知道,Sam 和 OpenAI 在上面添加了一个新的风格界面,并将其变成了类似聊天的体验。然后,整个事情就成功了。但是,在我们当时使用的 ChatGPT 模型与他们六个月前拥有的模型以及其他人当时拥有的模型之间的技术变化,

它并不是核心技术是差异化因素。我看到很多这样的,你知道,模型比较,你正在查看不同技能集的基准等等。虽然我实际上会说,是的,我们已经为自己发现了,这不仅仅是在我的技术团队内部,而且在我的不同团队和与我共事的人员中,例如我的营销部门喜欢 Claude。

它就像绝对最好的,当你想要写作或做 LinkedIn 帖子时,你会想,嘿,我知道我想写什么,但我想让它更好,我想花更少的时间去做。从 Chord 获得的结果与 ChatGPT 相比实际上要好得多。

但在许多领域,差异非常小,更多的是它如何融入你的生活。你可以用 ChatGPT 进行语音交互,这简直太棒了。我喜欢它。那是很久以前的事了,当时它第一次出现。我的一个 PM,Ed,谈到他的通勤,他

他使用语音交互完成了额外一小时的工作。所以他会去办公室,他会说,无论是专业工作还是他自己的私事,他都会进行积极的对话并完成它,然后只做一个转储

就像当他到达目的地时,他会说,好吧,我已经,我已经排好了。我已经准备好我正在研究的新产品领域的研究,或者我已经整理好了我的日历,用于,你知道,我周末的孩子的事情,无论是什么。是的。几周前,我们这里有一个名叫肯尼的人,他一直在谈论数据作为。

我们现在在 AIML 世界中面临的瓶颈。我假设你是

你也有同感。你正在解决类似的问题,对吧?为什么你认为数据现在如此成为瓶颈?感觉探索和使用数据仍然很困难,对吧?这不是一个新想法。不是。数据很久以来都很难处理。我认为为什么我们现在将其视为比过去更大的瓶颈,是因为全球数据的数量。

需要消耗的数据正在呈指数级增长。所以如果我想想,

LLM 模型正在接受训练的 PB 级数据,这太惊人了。所以当你,这就是我们开始看到的地方,我也会说像 OpenAI 这样的东西的经济影响,你看到了,Reddit 实际上将其数据集授权给了 Google,他们改变了他们的条款,因为过去,人们只是,过去,人们一直在抓取 Reddit 并,你

对不起,据称抓取 Reddit 并将其用于训练他们的模型。但他们的条款非常明确。现在他们说,哦,但这实际上是一项非常宝贵的资产。那是在他们 IPO 之前。所以这是一种让他们意识到他们是一个数据,就像他们生成的数据或他们的用户生成的数据是如此惊人的产品,可以转售。我们只是在接触,

我知道我们已经讨论过开放互联网基本上已经被抓取了。我想说的是,像 Reddit 这样的许多子领域正在变得更聪明地处理他们的数据并将其授权出去。

但是你也有庞大的数据存储在私营公司中,可能是与他们的应用程序的交互,与他们的服务的交互。这些数据从未以打算再次使用的方式收集。因此,你最终面临着惊人的数据工程挑战,更不用说数据规模和大小了。

而且就像,哦,我的上帝,它是如何收集的?你用它做了什么?我甚至如何让机器读取它,或者让人类查看它,或者做任何事情?我认为有很多线索使得这成为一个巨大的挑战。是的,我记得以前听过一个顾问的恐怖故事,他进来说,好的,我们需要这些数据。他们说,是的,是的,我们有。它在这个数据库中。

她说,但它不在这个数据库中。我从 2011 年起就没有看到任何东西了。

他们说,嗯,这很奇怪。所以有人去检查了一下。显然,一个连接器坏了。没有人知道。是的。没有人检查它。所以从 2011 年起他们就没有这些数据了。是的。好吧,我的意思是,你也会想到公共部门或非常庞大、缓慢、受到严格监管的行业,例如医疗保健等,其中

前几天一个朋友联系了我,他谈到了他们正在进行的转型项目。他们正在将一个系统从 Cobalt 迁移到一个更现代的系统。他们说,我们正在努力寻找 Cobalt 工程师来帮助我们了解如何与系统交互才能进行更改或至少迁移出去。这是……的财富……

很有趣,就像,在我们前进的过程中会发生一些愚蠢的事情。随着世界的现代化,这确实很难。是的。Cobalt 工程师的需求量很大。字面意思,我敢肯定。我喜欢看到……

那些要么退休,要么决定因为高需求而学习这项技能、这项利基技能的人。在我 25 年前获得学位时,这些东西是一种旧技术。你会说,哦,你们不用 C++,甚至不用 C,你们用 Copo?哇。我的意思是……

等待那些汇编系统重新出现,我们将进行一些,你知道,原始的机器命令。我说,哇,这太不可思议了。所以跟我谈谈 SAMA 和产品本身,因为我觉得这是一个很好的……我想知道它到底是什么,以及你在哪里发挥作用。酷。我们真正从事的是让客户获得真正有价值的数据集来训练他们的 AI。我们做的事情我们不做,我们有一个内部使用的平台。它是可用的,但它不是,我们不做的是拿我们的平台去,你知道,去培训员工或使用你的,你的其他东西。我们真正要做的是,我们在公司寻找 AI 问题时与他们进行咨询,我们说,嘿,

让我们帮助你了解 AI。我的意思是,我们与许多高科技公司合作,这很好,但也有一大批人正在经历我所说的 AI 数字化转型。所以过去云是最后一个。现在你正在进入 AI,你有很多行业的人说,嘿,我从董事会那里承受着很大的压力。我现在需要使用 AI。

我真诚地认为它可能对我有用。我可以大致了解它如何使用,但我不知道如何从这里到那里,或者我应该按什么顺序去做?所以,你知道,我们与人们交谈并说,嘿,你的哪些是你的主要痛点?你试图实现的业务目标是什么?你的一些想法是什么?与他们一起做研讨会。你的前 10 名、前 50 名,等等?

然后让我们和你谈谈,顺便说一下,你有什么数据?就像你说的那样,检查一下系统。它在 2011 年停止记录了吗?就像,哦,那将是一次尴尬的谈话。

然后真正理解,帮助他们理解 ROI 基础。就像,你的公司的经验现在有什么问题?你的公司是否全力以赴地投入 AI,每个人都像,嘿,让我们走那条路。所以你可以从也许最大、最好的项目开始,然后走那条路。或者你是,你是可能是一位 AI 主管,他可能是,他可能是一位全新的 AI 主管吗?

在一间可能更古老、更墨守成规的公司里。你真正需要的是,我需要一些快速的成功,伙计们。给我一些我可以在几个月内完成的事情,这将让我们取得成功并展示一些商业价值。然后我们可以继续进行那些大型

更大的项目。或者我们选择公司所有部门都在一个部门下的项目,因为很容易让每个人都去做。所以我们与那里的人一起工作。我们还与他们一起制定数据收集策略,嘿,如果你没有数据,你将如何获得数据?你如何利用你最终获得的数据,找到其中的正确数据?我之前提到的那种策划。是的,我们进行标记和注释,并且有一些

一些客户,这就是我们为他们做的全部工作。作为我们传统业务的一部分,这是我们做的很大一部分。甚至低至,嘿,你需要我们帮助微调模型或为你构建和部署模型吗?我们做所有这些。我喜欢这样思考我们所做的事情:我们真的是你 AI 之旅中的合作伙伴。

取决于你的需求。如果你更高级,只需要数据标记,并且需要一个在你的行业中见过这种情况的人来帮助你构建我们所说的质量标准,例如你如何考虑什么是好的注释以及什么是糟糕的注释?或者你需要进一步扩展吗?你已经有了你的数据,你知道你正在解决的问题,但是你有很多数据,而且你没有足够的钱去做。我们如何通过混合使用

自动化、策划和标记策略来帮助你获得最大价值,并确保你拥有良好的类别分布并避免偏差,例如制定偏差计划,以便你有一个有条理的方法来处理这个问题。或者我们一直做到,嘿,看,我有一个业务问题,我知道我想使用 AI。

你能帮我吗?也许我们不会做你沿途需要做的所有事情,但由于我们在该行业工作了这么久,超过 15 年,我们一直在做这件事,所以我们可以帮助你。我们有可以帮助的合作伙伴。如果你有一些不适合我们能力范围的事情,你最近解决了一些什么很酷的业务问题?哦,那,那是一个好问题。嗯,我将提供一个稍微旧一点的,只是因为我,我发现它绝对令人着迷。嗯,

大象屁股。我们不久前做过的项目之一是在东非,我们正在帮助追踪大象以帮助打击偷猎。事实证明,大象的背部是反偷猎的。

大象的指纹。所以它们都是独一无二的。所以我们正在解决一个问题,即如何,例如,我们想使用 AI 来追踪大象。事实证明,最好的方法是使用摄像机镜头,无论是使用无人机还是使用固定摄像机,都有一种机制可以检测大象的屁股,然后进行比较。所以鉴于你关于印度和以前开车经过大象的评论,我认为那将是一个

一个适合你的有趣的事情。然而,在一个更大的规模上,我认为一些有趣的问题是满足,我只是在试图考虑,一个具体的例子,我们的一个客户

有,我只是在试图考虑,正在达到其模型的验证阶段。所以他们现在有了很好的能力,但他们突然意识到验证的范围和规模,以及他们一直在做的手动注释如何无法满足他们需要达到的规模,并试图找到

正确的平衡,不仅是平衡,而且是正确的方法和方法,以便在具有适当人类参与的点上对大量数据进行验证。对于大多数情况下的人类参与,而不是像仅仅进行基本的数学计算那样,如果他们继续进行,比如说单帧,从头开始进行完整注释的验证用例,那将只是

它非常昂贵,而且在财政上毫无意义。因此,与该合作伙伴一起管理并讨论策略,例如,好的,如果我们不查看单个帧,我们可以查看更大的序列,我们可以查看中等长度到长长度序列,以便可以使用许多技术,你可以说只注释帧。

帧 1 和帧 20 或帧 1 和帧 50,你让 AI 为你进行插值或进一步推断,有很多技术可以帮助减少这种

每次注释的成本,同时保持人类智能在其中发挥重要作用。因此,正如我提到的关于策略一样,例如选择哪些数据进行验证?你如何选择正确的事物?你如何拥有良好的分布?这样你不仅仅是注释所有内容然后希望或至少观察你注释的内容,而是要积极主动。有一些工具可以让你更准确地预测数据中的内容,这样你就可以说这是

对我们来说统计上更好的数据。是的,我们之后会进行检查以确保我们是正确的,或者查看最终结果。但这是一个比说大规模然后事后查看好得多的方法。是的。你知道,我听到很多人谈论的一件事,这是一个很好的思考话题,那就是不同项目的投资回报率。因为

对于这些用例中的许多,我相信你处理的,你必须为你的工作以及你为什么这样做提出强有力的理由。即使……

董事会说我们需要 AI,我们必须成为 AI 优先,所有这些。你仍然不想仅仅创建一个某种 HR 聊天机器人,六个月后或一年后,你意识到它对公司毫无价值,对吧?所以有没有你考虑过的方法,也许像你说的那样有标准,或者也许只是你引导某人经历的不同场景,这将帮助你

说明你可以找到不同方法来将你的 AI 和 ML

旅程与业务指标联系起来?我认为这是一个很棒的话题。绝对喜欢它。我认为我一直都在思考这个问题,尤其是在与客户互动时。很多都实际上可以追溯到我在 Google 的许多培训,在那里我做了,那是我在担任 CEO 和执行制片人之前的第一个角色。这是我真正了解硅谷产品管理的介绍,并看到了像,哦,酷。很多都归结为 MVP 和概念验证。你如何

以最小的方式展示我获得的最小可行产品,该产品显示出价值,就像你提到的那样,我们想要移动哪些业务指标,以及我们如何展示我们可以移动它,我将举一个例子,我们与一位客户合作,他们想要生产一个 AI,我将改变行业,只是因为客户,但他们想要有一个面向外部的

LLM 可以处理,比如说,比如说保险索赔。他们有一个内部团队,通常你会,嗯,跳到网上使用聊天机器人来做,或者你会,嗯,或者你会,嗯,或者你会打电话,他们想让它成为自助服务并全部完成,全部在外部。而且,嗯,

他们很害怕,对不起,害怕不是正确的词。他们已经看到很多例子,其中存在公开的失败,并导致公司的声誉受损。这价值如此之高。这是,对你的公司估值的成本可能非常巨大。所以我们与他们讨论的一种方法是,我们说,好吧,如果,

我们一起工作,你构建这个,我们可以帮助你。为什么不先将其部署给你的当前内部利益相关者?所以你构建它,你部署它,你可以看到它如何加速他们的工作。所以你将推动一些业务,你的最终目标是降低成本,并可能改善客户体验。也许这两个都是你的两个业务目标。所以

虽然你拥有这个拥有丰富经验的惊人团队,但为什么我们不将其部署给他们或他们中的一部分人,并能够比较这个团队与不使用此工具的团队的表现如何?他们更快吗?他们能够处理更多工单吗?他们能够提供更好的客户体验吗?或者它实际上是在降低客户体验吗?因为你的业务真正关心的是什么?

而你是在内部进行的,这意味着他们在屏幕上看到它,可以复制粘贴它并将其放入,他们可以在工具中使用它,但他们必须在

在它到达最终用户之前。这对他们来说是一个很好的方法,让他们对它感到非常满意。它还表明,到达他们需要该模型在外部的位置的旅程,它仍然没有在外部发布。他们已经推动业务价值超过六个月,现在可能接近一年了。但这向他们展示了,哦,我认为很容易变得很好,走出去,但事实并非如此。

这可能真的很可怕,但他们已经从一个更快的概念验证中获得了业务价值,因为顺便说一句,当它第一次出现时,它有很多问题,这很好,因为人类能够抓住它并获得反馈循环,但它能够快速展示价值,这很重要