AI公司表示,他们正在耗尽用于训练模型的高质量数据。但他们可能有一个解决方案:由人工智能系统本身生成的数据。合成数据的利弊。</context> <raw_text>0 本期节目由亚马逊的Blink视频门铃赞助。通过易于安装的Blink视频门铃,获得更多的门口体验。获得更多的连接。嘿,我在这里等我们的第一次约会。更多的快递。嗨,我有两个的玉米饼。哦,谢谢。我们马上就下去。还有更多的回忆。艾伦,我有个惊喜。全新的Blink视频门铃,配备两年电池,全面高清视图和简单设置。现在就以69.99美元的价格在Amazon.com/bink上购买。
本播客的支持来自《商业是否破碎?》,这是BU Questrom商学院的一档播客。什么是短期主义?它是一个流行词,还是确实影响商业和经济的东西?请在本播客结束时继续收听,以预览最近的一集。WBUR播客,波士顿。这是On Point。我是梅格娜·查克拉巴尔蒂。
关于人工智能模型如何训练的普遍理解是,它们从现实世界中获取大量数据,并学习如何创建与这些现实世界数据匹配的响应。这里有一个例子。大型语言模型(LLM),这是Siri或Alexa用来回答你的问题的工具。在开发过程中,这些LLM从互联网上、书籍、网站等地方读取了数十亿个文本样本。
模型会寻找单词如何一起工作的模式,或者说人类如何使用这些单词。在训练过程中,它会试图猜测句子中下一个可能是什么单词。如果它猜错了,它会修正错误。它从这个错误中学习。然后,它会重复这个过程数十亿次,每次迭代都在不断提高猜测正确单词的能力。
这基本上就是LLM学习理解和写作像人类一样的方式。那么,当AI模型耗尽用于训练的现实世界数据时,会发生什么呢?
好吧,近年来发布的几篇研究论文表明,开发者实际上将在几年内耗尽现实世界的数据。但开发者们也表示,可能会有解决方案。我确实认为,在未来,似乎有可能我们所称的这些大型模型的训练更多的是生成合成数据,然后将其输入模型。
当然,这是马克·扎克伯格,在去年的4月与AI播客主持人Dwarkesh Patel交谈。他所建议的是,基于现实世界数据构建的AI模型,这些模型生成新的人工数据,即所谓的合成数据,正如他说的那样,以训练未来的模型。
这是OpenAI的山姆·阿尔特曼在2023年5月的Sohn投资会议上所说的。只要你能够克服合成数据事件视界,即模型足够聪明以生成良好的合成数据,我认为应该没问题。
但什么是事件视界?我也很喜欢这个类比,因为事件视界也在黑洞上。那么,我们真的能沉入AI合成数据的黑洞吗?或许更重要的是,如果AI的目的是最终为我们的世界、我们的真实人类世界服务并带来好处,那么我们怎么可能耗尽数据呢?难道我们人类不是一直在生成数据吗?
那么合成数据能否成为现实的足够或甚至可以接受的替代品?今天我们就从阿里·莫尔科斯开始。他是Datology AI的联合创始人兼首席执行官,曾在Meta的基础AI研究团队和谷歌DeepMind担任研究科学家。阿里,欢迎来到On Point。
非常感谢你邀请我。此外,我看到你是从加州圣荷西加入我们的。实际上,不久前,我沿着101号公路行驶,几乎每一个广告牌都是AI广告牌。好的,首先,你听到了我对合成数据的流行定义。你会如何实际或更精确地定义它?
我认为你实际上给出了一个很好的定义。但简而言之,合成数据点只是一种由模型生成的数据点,而不是由人类生成或从现实世界中创建的。只要该合成数据点实际上反映了潜在现实,它就非常有用。反映潜在现实。好的,所以我们要谈谈这些数据是如何生成的,以及如何达到这一点。
确保它满足你所提到的重要警告。但让我们直接进入这个问题,因为这让我困惑。我们怎么会耗尽现实世界的数据?是的,或许开始时让我稍微退后一步,简单地谈谈我们是如何走到现在的,我们可能会耗尽数据的情况。在2010年代,训练机器学习模型的方式是你会有一些数据。你会去让一些人来标记它。想象一下你有一个包含大量图片的数据集。其中一些是猫的图片,一些是狗的图片。你去让一群人说,这是猫。这是狗。这是猫。这是狗。
你可以想象这是一项非常昂贵且耗时的过程。因此,结果是,我们用于训练模型的最大数据集大约是一百万个数据点。还有一个非常著名的学术基准叫做ImageNet,在过去十年中用于很多进展,大约有一百万张图像。这被称为监督学习,因为它是由一个人监督的,说这是猫,这是狗。
但在2010年代末,我们取得了一个令人难以置信的突破,称为自监督学习,这意味着我们找到了如何在没有经过人工手动标注过程的数据上训练模型的方法。而我们拥有的绝大多数数据并没有被标记,对吧?一个人从来没有看过它并给它贴标签。因此,这极大地解锁了
我们能够训练模型的数据量,从2018年左右的百万数据点变为现在的数万亿个令牌,整个互联网。因此,当你把这放在视角中时,这大约是我们今天输入到这些模型中的数据规模的百万倍增长。
在三到五年的时间里。这真是令人惊讶。当你考虑到这一点时。这也是计算支出大幅上升的原因,因为你看到的数据越多,你需要的GPU小时就越多,这就是为什么NVIDIA在这一切中表现如此出色。这也是我们看到这种大规模爆炸的原因。但这现在字面上意味着,对于许多这些模型,我们正将整个公共互联网的总数据输入到这些模型中。
而公共互联网并不是一个固定的事物,对吧?我的意思是,我们每天都在不断地向其中倾注数据,包括现在所有的AI垃圾。
是的,这也是另一个大问题,对吧?如果我们真的在合成数据上进行训练,我们想确保它是高质量的合成数据,且是经过深思熟虑的。我们不想在偶然的合成数据上进行训练,这些数据只是通过你所称的AI垃圾进入互联网。因此,是的,互联网绝对在增长,但从某种意义上说,这些模型的需求在以更快的速度增长。好的,让我稍微解析一下你说的内容。因此,首先,我们真的在耗尽现实世界的数据吗?是或否?
所以我想反驳这个问题。我认为我会稍微探讨一下这个问题,因为我认为,嗯,是的,在公共领域,我们正在耗尽目前可用的东西。当然,随着时间的推移,总会有新的数据增长,进入互联网的数据量每天都在增加。所以总会有新数据在那里。但我们已经耗尽了大部分数据。
然而,这个问题假设了一个观点,即所有数据都是平等的,且我们改善模型的唯一方法是获取更多的数据,而不是更好地利用我们已经拥有的数据。
我认为,通过更好地利用我们已有的数据,仍然有数量级的、百倍的改善空间,而不是需要收集更多的数据。互联网上绝大多数数据出于各种原因并不特别有用。一个原因是它的很多内容非常冗余。例如,想想互联网上有多少不同的《哈姆雷特》摘要。模型不需要所有这些。
其中一部分就足够让模型理解《哈姆雷特》的情节。因此,有很多数据并不有用,还有很多数据仅在某些时候有用。例如,想象你在教初中生数学课。
如果你给他们展示一堆算数题,那对学生来说会太简单。他们知道如何进行加法和减法,基本的乘法和除法。这不会教给他们任何东西。同样,如果你给他们展示微积分,对学生来说也不会有很大帮助。微积分对于普通初中生来说太难了。你需要给他们展示几何和代数。这是他们学习的领域。
那么,当我们训练这些模型时,我们只是将所有这些混合在一起,并在训练的所有时候都展示给它,而不是实际思考什么数据将根据模型当前的理解最能教会模型。然后利用这些数据进行有针对性的教学,以某种方式在最佳的方式中教会模型。这可以实现巨大的成功。
巨大的数据效率提升。好的,所以有针对性的训练,这将是我对此的一个小总结。有针对性的训练。但你还提到了你早些时候使用的另一个短语,高质量数据,对吧?所以这就是你所谈论的?我的意思是,你会如何定义什么是高质量数据?
是的,这正是我所谈论的。至于如何定义高质量,在许多方面,我认为这是一个价值十亿或也许是万亿的问题。在许多方面,这正是我的公司Datology成立的原因,旨在尝试解决这个问题,如何理解什么是高质量数据,并利用这些数据使模型变得更好,解决这些问题。
关于质量的第一件也是最重要的事情是,要理解没有一个单一的灵丹妙药,因为质量在很大程度上依赖于模型的使用场景。
例如,如果我想训练一个在法律问题上表现出色并能作为法律助手的模型,显然我会更重视法律数据,而不是一些关于电影或历史的数据。相反,如果我训练一个将帮助医生的模型,某种医疗保健系统,显然我会更重视医疗保健数据。因此,首先要注意的是,这取决于你将要做什么。
至于你如何实际做到这一点,这确实是一个前沿的研究问题。这些研究当然主要是在这些大型前沿实验室中进行的,如OpenAI、Anthropic、DeepMind等。这实际上是区分这些不同模型和实验室之间的秘密武器。好吧,阿里,这背后潜伏着很多事情,我认为你之前稍微提到过的就是钱。钱。
对吧?听起来像是,我只是推断,但听起来似乎使用我们现有数据的障碍之一是,这可能会让公司付出更多的成本。实际上,我认为情况有点相反。如果你能做得更好,它实际上可以节省大量资金。那么,为什么更多公司不这样做呢?我们为什么会听到山姆·阿尔特曼说我们需要合成数据?我认为有两个原因。我认为第一是因为这真的很难。是的。
我认为合成数据绝对是这里的一个重要部分。不要误解我的意思。我认为这些并不是互斥的。例如,在Datology,我们也使用了相当多的合成数据。现在,我认为这并不是它经常被描绘的万灵药。我认为我们所看到的是,实际上,一些主要依赖合成数据训练的模型确实存在很多问题。
特别是它们变得非常脆弱和有些奇怪。它们在训练时使用的确切数据上表现得非常好,但对新格式或稍微不同的东西并不能很好地推广。好的,阿里,我要请你稍微停一下,因为我们需要休息一下,但这是一个完美的暂停时机,因为当我们回来时,
我将邀请另一位嘉宾加入讨论,我们将就合成数据在训练AI系统中的使用前景进行深入探讨。所以我们马上回来。这是On Point。On Point的支持来自Indeed。你刚意识到你的业务昨天需要雇佣某人。你如何快速找到优秀的候选人?很简单。只需使用Indeed。无需等待。你可以通过Indeed加快招聘速度。
而On Point的听众将获得75美元的赞助职位信用,以便在Indeed.com/On Point上获得更高的职位可见度。现在就去Indeed.com/On Point,并通过在本播客中提到Indeed来支持该节目。Indeed.com/On Point。条款和条件适用。招聘?Indeed就是你所需要的。
本播客的支持来自《商业是否破碎?》,这是BU Questrom商学院的一档播客。最近的一集探讨了短期主义的潜在危险,当公司追求快速收益并失去长期目标的视角时。我认为这是一个巨大的问题,因为我认为这是一个行为问题,而不是系统性问题。当我看到这些改变资本主义的系统性想法时,我感到害怕。
在你获取播客的地方关注《商业是否破碎?》,并在本播客结束时继续收听以获取预告片。
我想把卡连·维拉马查内尼纳入讨论。他是DataCibo的联合创始人兼首席执行官,也是麻省理工学院施瓦茨计算机学院的首席研究科学家。卡连,欢迎来到On Point。谢谢。谢谢你邀请我。好的,我认为阿里在谈论合成数据时做得非常好,但我想从你那里获取一个确认。我是说,你怎么看待他的主张,即合成数据将成为未来的一部分,但我们并没有真正耗尽现实世界的数据。我们只需更好地利用我们在现实世界中的数据。
在某种程度上,我同意这一点,但我想给出另一个视角。我认为...
我们今天拥有的AI在很大程度上仍然很小。我并不是说它的规模,而是指它可以完成的任务。随着时间的推移,我们对它的要求越来越高。最初只是说,让我们和它聊天。让我们看看它能为我们找到什么。让我们做搜索。现在我们在问法律问题。我们在问,你对这个问题怎么看?所以我们在要求它推理。我们在要求它思考。
因此,这要求我们提供更多的数据来训练那些在推理方面更高效并能解决我们尚未考虑过的问题的模型。因此,在AI中,我总是说,任何值得预测的事情都很少发生。这通常是正确的,大多数AI模型依赖于预测下一个单词、句子的标签或句子的情感等等。
因此,结果是,为了使这些模型能够预测如此罕见的情况,我们必须创造合成数据,因为这些情况实在是太少见了。它们在世界上并不会经常发生。好的,所以让我有点困惑,因为你说任何值得预测的事情并不经常发生。是的。因为这就像,这可能就是我们想要能够预测的原因。但是我们现在要求模型做的事情,比如LLM,难道不是...
值得预测下一个单词吗?我的意思是,下一个单词的出现是非常频繁的。所以我不太确定你在说什么。对。LLM的下一个单词预测确实是频繁发生的,我们可以预测单词。但我们现在要求的则是特定任务,即,嘿,我有这组文本。这是否意味着欺诈?好的。
因此,我们在以元层面询问,我们在问,这组单词是否意味着某种东西,比如欺诈或某种仇恨言论或其他东西?所以我们在问这样的问题。那么,为什么AI不能使用我们现有的现实世界数据进行训练?为什么我们现在拥有的是什么不令人满意的,以使AI模型能够胜任那种工作?
好问题。所以我认为,如果你以欺诈为例,我的意思是,幸好在银行等地方,欺诈发生得很少。因此,你有大约1000万笔交易不是欺诈的,而有大约1万笔交易是欺诈的,并且你有这些欺诈交易的报告。因此,当银行训练一个模型,以能够根据某个报告判断是否真的欺诈时,你只有1万笔。
而你有1000万或1000万的报告根本不是报告,你有的数据根本不是欺诈。所以当你试图训练一个模型时,它只会依附于非欺诈示例,并没有足够的学习欺诈示例。
所以这只是一个例子,其中我们想要预测或推理的事件很少发生。好的。为了充分披露,我的本科专业是土木和环境工程,所以我绝对是一个非常实践的具体人。如果我不必戴安全帽,那么理解这些事情对我来说就有点挑战。
因此,随着我们进行讨论,我希望你们两位能尽可能多地带入现实世界的例子,以帮助我们理解这一点。所以阿里,你对...
卡连关于欺诈的说法有什么看法?这是一个非常好的例子,对吧?因为这是一个我们希望尽可能多地获得AI帮助的重要领域。卡连说,我们现在拥有的数据是否不足以预测新的欺诈类型。
是的,我认为这是一个很好的例子,有几个原因。首先,我认为这揭示了人们没有讨论的一个关于我们耗尽数据的问题,即世界上绝大多数数据并不是公开的。世界上绝大多数数据是私有的,存放在大型公司中。例如,关于欺诈信用交易的数据在公共互联网中几乎没有,但在美国运通、维萨、摩根大通和大型金融机构中有大量数据。
这些数据对于各种问题都是有用的,但目前大型基础实验室无法访问这些数据。有几家公司可能会对数据进行许可,但在大多数情况下,这些公司实际上拥有非常有价值的护城河,使它们能够构建自己的强大应用程序。
但我想触及卡连刚才提到的边缘案例或异常示例的概念,或者有时称为长尾,因为这绝对是正确的。我认为一个非常突出的问题是自动驾驶汽车。想象一下,所有特斯拉在行驶时都在不断录制视频数据。如果你想想这个数据集所收集的数据,绝大多数数据都将是在高速公路上。
而高速公路实际上对自动驾驶汽车来说相对简单。它们在高速公路上已经相当出色,已经有一段时间了,对吧?自动驾驶在高速公路上工作得很好,已经有很长一段时间了。它们相对可预测。你不必担心一个可能会从街道上跳出来的推车上的女人,或者施工区域等问题。
这些是你真正需要关注的边缘案例,以确保你的自动驾驶汽车不会发生可怕的事故。卡连说得对。这些情况在实际数据集中很少代表。然而,我们可以做的一件事是识别这些例子,然后对它们进行上采样,重复它们或以某种方式加权,使模型更频繁地看到它们。
另一个地方也是如此。阿里,我要让你停在这里,因为你已经抢了我们的风头,因为我们专门与某人讨论了自动驾驶车辆。我是说,驾驶是一个完美的例子。我曾经在湾区,阿里,我坐在一辆自动驾驶出租车里。
它驶入我所住的酒店,而不知道为什么,有人把一个垃圾箱放在酒店大堂前的进出口半遮住了。出租车被难住了:它不知道该怎么做。它就坐在那里,我们不得不打电话给公司让人来接我们。我真的很困惑,为什么它甚至没有想到后退。
就像人类会自动想到,“我们只需后退并换个方向。”但当时的出租车并不能这样做。这是几年前的事情了。但好吧,接下来是一个正在从事自动驾驶车辆工作的开发者,他是普林斯顿大学计算机科学教授兼Torque Robotics的AI负责人。菲利克斯·海德:此时,我们能够为自动驾驶车辆生成几乎照片级真实的新轨迹。
因此,我们可以在观察到的现有驾驶序列上模拟我们的自我驾驶车辆在相同的路线行驶,但在相反的方向或以曲折的路线行驶,或者驶出可驾驶区域,甚至与前方行驶的另一辆车相撞。他告诉我们,这些模拟可以创造出非常逼真的环境,包含其他车辆、行人、树木、建筑物,甚至细节如停车计和
垃圾桶,值得一提。菲利克斯教授表示,结合摄像头、激光雷达和其他传感器技术,AI模型可以以自我游戏的方式学习。
我可以将它们放入一个合成环境中,在一个闭环环境中,我一次又一次地为它们提供新的情境,挑战模型。因此,通过自我游戏,我们可以以非常令人信服、令人兴奋的方式解锁强化学习的原始思想,直到它看到所有需要看到的碰撞,以了解如何反应。
而海德教授表示,这些环境帮助提供了在现实世界中罕见或尚未发生的情况的数据点,正如我们所讨论的那样。
他说,这是确保技术安全的关键一步。如果你看一下Waymo的部署,例如,它们是相对缓慢的逐城市、限制区域的部署,每个城市大约100辆车辆。因此,这令人兴奋,展示了技术的潜力,我对此非常兴奋。但要真正大规模推出,这是允许我们将这些车辆推向数十万辆并以安全的方式做到这一点的关键技术之一。
所以这是普林斯顿大学计算机科学教授和Torque Robotics的AI负责人菲利克斯·海德。卡连,让我们在这个例子上停留一会儿,因为再次强调,我能理解这一点。但我也觉得,这其中有一个信任但要验证的方面,因为这些自动驾驶车辆在使用合成数据进行训练时可能表现得非常完美。但在将其释放到
现实世界时,我们难道不希望有一个非常严格的监管机制,以确保它们在现实世界中表现良好吗?绝对是的。绝对如此。尤其是自动驾驶车辆在投入现实世界之前有更严格的测试要求。并且看看,合成数据的创建,回过头来说,甚至在20年前就已经存在了。2005年,我在GE。当时,他们使用基于计算流体动力学的模拟器为GE90发动机生成合成数据。
因此,他们会创建数据。假装飞行正在进行。这是通过软件框架进行的,并注入一些故障并创建数据。
因此,重要的是,当你获取合成数据时,你需要将其与真实数据混合在一起,以便在实际模型开发中进行训练。因此,你不只是用合成数据进行训练。你混合真实数据,训练模型,然后进行严格测试。因此在这种情况下,我认为他们会尝试在某些地点测试那辆自动驾驶汽车,看看它是否能够在新模型下行驶。波士顿市中心。波士顿市中心。或者可能在垃圾箱后面。是的。
并且,实际上所有你之前提到的情况也成为测试套件的一部分。因此,我们现在测试汽车是否能够处理它之前无法处理的新情况。
因此,在将它们投入现实世界之前,需要进行这样的严格压力测试。阿里,我想卡连刚才说的正是你之前告诉我们的,即新的AI模型应该在合成数据和高质量数据的混合中进行训练。
人工智能公司表示,他们在训练模型时高质量数据即将耗尽。但他们可能找到了一个解决方案:由人工智能系统自己生成的数据。合成数据的利与弊。</context> <raw_text>0 是的,我认为这正是正确的。你需要找到高质量的真实数据,这可能涉及到找到许多异常值。这可能涉及到找到最困难的例子。然后你需要将其与适当的合成数据混合在一起。当你考虑什么会使合成数据有效时,通常有两个非常重要的因素。首先,当然,合成数据必须反映现实世界,对吧?想象一下,我有一个模拟器,其中的物理定律是不同的。
显然,一个模型不会从那里推广到我们的世界,如果重力只有现在的一半。因此,模拟必须与现实相匹配,以使这一切能够运作,第一点。第二点是你必须确保生成多样化的数据。在许多方面,多样性是高质量数据策划和使这些模型学习的最重要的事情。你必须确保它涵盖了大量的场景,以每种可能的方式呈现某事。
等一下,但当部分问题是我们实际上无法预测每天即使是作为人类也可能面临的无限场景时,你怎么能做到这一点?我认为答案是你无法做到完美。
你可以做得很好。然后你所做的就是形成一个良性循环,你从一些合成数据开始,利用它使模型更好。这个模型可以更好地生成更多数据,使用这些数据,依此类推,直到最终你得到一个越来越好的模型。人们通常是这样考虑的。但它不必是完美的。它只需要比模型当前理解的更具信息性。只要它教会模型一些新东西,你就可以达到某种程度。
现在,话虽如此,这确实意味着如果合成数据的质量有上限,最终你会达到一个上限。现在,许多人所做的赌注是我们可以通过合成数据突破这个上限,我认为有一些合理的证据表明我们可能能够做到这一点。但我们还没有达到那个点,我们将不得不看看我们何时能到达那里。Kalyan,你在这里倾听。请继续。
所以我认为为了能够生成合成数据,有时我们找到的那些稀有示例,我们会用它来在邻近区域创建更多的示例。然后一旦我们创建了更多的示例,有时我们会进行验证或工程处理。比如有时我们会回到人类那里验证这些示例,以查看它们是否有意义并生成这些示例。因此,我们能够工程化合成示例,以便给我们带来这些
新情况。此外,我还想补充一下,你提到的自动驾驶汽车和垃圾箱的例子,当这种情况发生时,会有数据记录反馈回来。然后我们可以利用这些数据来创造更多的情况。所以我们只需移动垃圾箱,或者在那个邻域中创造更多的合成数据示例。因此,在某种程度上,我们能够创造出更多新颖的场景,尽管...
我们一开始可能没有那么多。是的。我想回到你之前提到的关于金融世界欺诈检测的例子,因为我认为这真的很重要,当你说,看看,使用模拟的想法本质上是技术开发中长期存在的实践。我的意思是,已经有几十年了。但为什么?
就你的观点而言,我们要求或想要AI做的事情与,比如说,在模拟器中训练战斗机飞行员的事情实际上是非常不同的,对吧?因为我们最终,我们正在要求这些机器,甚至现在,这些机器为我们做出决定,在许多方面去除人类元素,好吗?我之所以这么说,是因为也许训练AI在真实世界数据上的一个可能好的方法
金融欺诈是说,嗯,任何与这些已知的非欺诈行为不匹配的东西,应该被标记。也就是说,就像编程AI让它产生许多假阳性,而不是试图预测可能出现的新类型欺诈。这样理解吗?是的。是的。我认为我们可以编程AI,让它标记许多非欺诈的示例,我们仍然认为这些示例与欺诈的模式非常接近。所以这些示例,我们实际上是这样做的。我们实际上找到与欺诈非常接近的示例,但我们知道它们是非欺诈性的。因此,结果是我们发现了人们如何绕过我们的检查和平衡,对吧?因为欺诈的示例与非欺诈的示例非常接近。
并利用这些来创造某种合成数据。好的,我们稍后会有更多内容。这是On Point。对On Point中人工智能报道的支持来自MathWorks,MATLAB和Simulink软件的创建者,旨在进行技术计算和基于模型的设计。MathWorks,加速工程和科学发现的步伐。了解更多信息请访问mathworks.com。
以及来自Olin工程学院,致力于通过AI与社会等课程向学生介绍人工智能在工程中的伦理影响,olin.edu。
Lowe's的工匠日来了,您需要的工具大幅优惠。节省100美元,购买Craftsman V26工具电动工具组合套件,现价199美元。无论项目是什么,Craftsman的高质量、高性能产品都能帮助您继续建设。请到您最近的Lowe's商店查看完整的Craftsman工具系列。有效期至618,数量有限。选择因地点而异。
经营企业伴随着很多“如果”。但幸运的是,有一个简单的答案。Shopify。它是数百万企业背后的商业平台,包括Thrive Cosmetics和Momofuku。它将帮助您完成一切。从网站设计和营销到提高销售和扩展业务,Shopify可以完成工作,让您的梦想成真。将这些“如果”变为现实……在shopify.com/specialoffer注册您的每月1美元试用。
在我们回到关于合成数据在训练AI模型中可能需要的对话之前,我想提醒您我们正在为本周晚些时候制作的另一个与AI相关的节目,这与人工智能分析有关。
以及工作申请和求职或公司在筛选求职者时如何使用AI。然后还有反过来,一些求职者如何使用AI来引起招聘人员的注意。因此,如果您最近在找工作,您是否遇到过AI?
在您的求职中,或者也许认为您可能遇到过?也许那个拒绝来得非常非常快。您是否因认为简历中缺少某些关键词而收到了拒绝?您是否为了通过那个AI的门槛而调整了简历?还有另一件事。您是否可能接受过AI系统的面试?如果您在招聘人员方面,您是否使用人工智能来帮助您找到合适的解决方案?
我们非常想知道AI对求职世界的影响。因此,请拿起您的手机,下载On Point VoxPop应用程序,无论您在哪里获取应用程序,这样您就可以给我们发送非常高质量的消息,或者给我们打电话617-353-0683。所以我们希望听到您关于AI和求职的故事,今天的主题是AI和求职。
今天,我与Ari Morkos一起,他是Datology AI的联合创始人兼首席执行官。他在加利福尼亚州圣荷西。这里和我在On Point工作室的是Kalyan Viramachaneni,他是DataCibo的联合创始人兼首席执行官。现在我想,先生们,我想深入探讨潜在的缺点,因为我
对于合成数据的必要性在这一小时内持高度怀疑态度,但我正在放松这种怀疑。然而,Ari,你之前提到了一些词,比如广泛的。
因此,就这一点而言,让我们听听Rich Berenik的意见,他是德克萨斯州休斯顿莱斯大学电气与计算机工程的教授。他和他的团队一直在进行实验,看看当你使用真实世界数据和其他生成AI模型生成的合成数据的组合来训练新的AI模型时会发生什么。例如,他正在要求模型生成现实的人脸图像。
他说,结果有时字面上并不好看。
如果你的生成模型在输出中产生了微不可察的伪影,可能图片中有一点失真。那么,在你继续这个过程的后续代中,这些伪影将会被越来越放大。好的,所以他发现训练在合成数据上的模型最开始产生的现实人脸。但是随着训练在这些图像上的继续...
后续输出的脸上会出现非常奇怪的图案。那么Ari,我这样理解就是使用合成数据存在高风险,坦率地说,就是错误放大。是这样吗?
是的,我认为是这样。我的意思是,在机器学习中,错误的合成数据方式远比正确的方式多得多。搞错它要容易得多,而不是正确地做到这一点。我认为如果你只是天真地让一个模型生成合成数据,把它输入到一个新模型中,让那个模型生成合成数据,然后不断重复输入到新模型中,你绝对会得到Rich所描述的那种可怕的伪影。
我认为解决这个问题的方法是每次生成合成数据时,你都要非常积极地过滤它。然后你说,模型产生的合成数据中哪些实际上是现实的?我们保留那些。模型产生的合成数据中哪些有点奇怪?我们去掉那些。我认为这也与Callie之前所说的某些内容相吻合。我认为你可以在哲学层面上以两种方式处理合成数据。一种是,让我生成我从未见过的全新数据。
那真的很难,你可能会犯一些会传播的错误。另一种方式是说,让我拿一个例子,比如说我已经见过的欺诈例子,或者我已经见过的异常自动驾驶汽车案例,然后让我稍微调整一下。让我让它看起来有点不同,就像它是同一类错误的另一种表现。
这样做要容易得多,风险也要小得多。所以我认为我们首先会看到那种合成数据。这就是我们在Datology经常做的。我们会拿一些文档,例如,将它们重新表述成不同的格式,以便模型能够理解它们,以不同的方式呈现。
这种形式的合成数据,我认为更容易做到正确,也更容易搞砸。当你开始想要构建一个完全新的场景,可能会出错,那就是你更容易开始出现这些错误的地方。好的,Colleen,然而,我想在这方面再进一步探讨一下,因为我认为另一个我在这里听到的术语是模型崩溃。
对。如果这些微小的错误或伪影确实会以我认为不可避免的方式被放大。对吧?因为我们谈论的是数十亿次迭代或模型训练中的训练。是的。
我并不完全相信我们应该将此视为一个问题。是的。是的,我们不应该将其视为一个问题。这是一个重要的问题。正如Ari所指出的,虽然合成数据是由AI生成的,但在将其包含在下一个模型训练中时,我们作为工程师在这个过程中是参与其中的,对吧?因此,我们观察这些训练示例是否存在一些伪影,或者它们是如何输入到模型中的。模型是否崩溃?我们有检查的措施。
所以,将这些合成数据放入训练模型背后有很多工程工作,并检查训练的进展。第二点我还想反驳的是,我的意思是,在模型训练完成后,在模型部署之前有很多检查和保障措施。因此,Data Cibo,我们一直这样做。我们在现实世界中部署的任何软件或模型都有很多自动检查和保障措施。因此,您知道,针对Richard的观点,来自莱斯大学的教授,我的意思是,有一个
检查是他用来检测伪影的。如果你能想象,我们不会部署这样的模型。我的意思是,他有一个检查,无论是视觉的还是自动的。我们面临的挑战之一是,我们现在实施了很多自动检查,因为我们不想依赖人类。因此,在模型训练完成后,我们会进行很多检查,以确保模型的性能。
并且没有产生那样奇怪的伪影。好吧,让我们再听听Berenik教授说的更多内容,因为他确实在合成数据使用方面提供了一些警告,因为他说,现在仍然有一个重要的问题没有解决。我们面临的一个大问题是对这一现象的理解非常有限。我们仍然在早期阶段,试图提供权威指导,关于多少合成数据是可以的,多少是不可以的。因此,这是我们需要推进的一个领域。
你怎么看,Kalyan?多少是可以的?多少是不可以的?我的意思是,这是否依赖于具体情况?这确实依赖于具体情况。它非常依赖于具体情况和用例。是的。所以我们,再次,比例是我们在使用合成数据时作为工程师和开发人员进行微调的一个参数。好的。用例依赖。Ari,我想转向你这个问题,因为,我也想听听你们两个对此的看法。
从公众的角度来看,AI是一个非常强大和令人敬畏的工具,但它已经存在问题。我的意思是,我们已经在On Point中做过节目,关注医疗保健法律和AI。在这些方面,取决于你问AI做什么或者你要求AI寻找什么,比如说,批准或拒绝保险索赔,
你知道,草率地拒绝那些实际上应该得到索赔的人。而且在实时中捕捉这些错误是非常非常困难的。好的,所以,我的意思是,Ari,使用合成数据是否可能使这个问题更糟?是的。
我认为它可能有两种结果。我认为这取决于你如何使用它。同样,如果你使用得当,它可以使问题变得更好。如果使用不当,它绝对可以使问题变得更糟,这就是为什么你需要对这些系统进行验证审计,以及为什么你必须非常小心地输入的数据实际上会呈现得很好。我认为这也与Rich的观点有关
这仍然是一个前沿研究问题,不仅是合成数据,数据研究一般也是如此。关于数据研究相对于架构或其他AI研究领域,存在许多文化原因,导致它在机器学习社区中被忽视。
我们在这里还有很多需要理解的。这实际上也是我们创建Datology的原因之一,就是进行这项研究,然后确保当我们与希望训练模型的人合作时,他们能够很好地利用合成数据和真实数据,而不会导致这些错误。例如,我们发现超过一半的数据是合成的很快会导致问题。因此,我们通常会将合成数据限制在50%以内。
嗯。Kalyan,请继续。是的,我想补充你的例子。我手里拿着一篇名为《单词变化就是你所需要的一切》的论文。这是我们写的一篇关于分类器的论文,分类器判断是否给出贷款。例如,您只需在句子中更改一个单词,就会拒绝任何内容。
而且没有改变含义。句子结构没有改变,什么都没有。只是一个单词使得那个分类器非常脆弱。而且那个分类器根本没有在合成数据上训练。它是基于真实数据训练的。因此,我们现在在学术研究界以及商业中做的事情之一是,我们尝试创建示例来打破分类器。
这是在决定是否给贷款时。人们称之为对抗示例。因此,基本上,你创建一个应该通过分类器的示例,对吧?并且应该得到一个积极的结果。
但是仅仅因为你更改了一个单词,或者甚至在错误的位置放了一个逗号,它就拒绝了。因此,现在当我们创建这样的示例时,我们会重新训练分类器或模型以使其更好。结果,在这样做的过程中,我们实际上是使用合成训练示例来使模型变得更好,对吧?因为我们拿到了应该通过的示例,稍微调整它们,看看模型有多脆弱,然后再次使用这些数据来重新训练分类器,使其变得更强大,对吧?
所以这是一个非常持续的、非常流行的研究领域,叫做模型的稳健性,如何通过调整参数和创建合成示例来使它们变得更稳健。因此,你可以用它来解决你所看到的确切问题,其中一个单词改变了一切。
这真的很有趣。但我也害怕我从你的例子中得到了错误的教训,Kalyan,那就是在我脑海中大声喊出的教训是,哇,这一切看起来都很任意。你
明白我的意思吗?不,我是认真的,因为,再次,从普通人的角度来看,如果我们现在处于一个这些AI工具的世界中,在某些例子中,你给出的,在错误的位置放一个逗号,我们必须对此进行测试,并在将工具投入现实世界之前检查结果,再次,仅仅是从我们已经知道的关于企业如何运作的角度来看,我们能否信任那些正在开发的行业或行业?我的意思是,你们两个愿意和我交谈。许多人并不愿意在开发之前进行如此严格的测试。嗯,
我的意思是,他们会看到这对商业指标的结果,至少我们希望如此。例如,如果这是一个欺诈检测的事情,而你只是产生了假阳性,拒绝了很多交易,他们会在客户满意度中看到这一点。他们会在最终看到的结果中看到很多。
当你的结果在很长一段时间内没有立即可观察到时,事情就变得棘手。因此,医疗保健是一个棘手的领域,因为如果你开始部署它们,你必须非常小心,因为你不会立即看到它的效果。
有一些事情有立即的测量可用,而企业已经有了古老的方法来衡量结果,客户满意度,假阳性的数量,你知道,一些黑白分明的事情,你可以测量它们。测试很简单,部署也很简单。因此,我同意你的看法。我认为在我们不知道的领域很重要。
而且我们不能迅速衡量结果。并且需要时间。好的,所以,Ari,我想实际上回到我们开始的地方。因为有一种完全不同的思维方式,对吧?如果你从我们拥有的庞大数据集中解析出高质量数据,对吧?在其上训练模型。
看看模型做对了什么,做错了什么,调整模型,然后再在同样的真实数据上训练,为什么这不够好?
我的意思是,我认为这会让我们走得很远。但挑战在于,在某个时刻,找到足够的高质量数据将会很困难。尽管我认为,再次,如果我们能够获得可用的私人数据,并将其用于特定用例,这可以做很多事情。但最终,数据对模型至关重要。我最喜欢的口号之一是模型就是它们所吃的。
如果你给它们提供高质量的数据,它们就会高质量。如果你给它们低质量的数据,它们就会低质量。为了我们解决这个问题,将需要将我们所有的解决方案和所有工具结合起来。我们将不得不在真实数据的策划上做很多工作,以丰富这些数据并提高其质量。然后利用这些高质量的真实数据作为指导,生成更多高质量的合成数据。然后将两者结合起来
大幅提高我们模型的数据效率。因此,他们的训练速度,性能以及模型的可靠性。这是现实世界中AI模型的头号问题,即它们的可靠性不足。而且,实际部署这些模型的成本也是另一个巨大的因素,您知道,运行这些模型是相当昂贵的。随着这些AI产品用户的日益增加,我们将会花费更多的数据中心计算成本。
用于运行这些模型。当你使用更好的数据时,你可以获得更小的模型,而其性能与大模型一样好,这意味着你可以同时节省计算成本,这不仅节省了财务成本,还节省了训练这些模型的环境成本。因此,我们必须把我们工具包中的所有这些工具结合起来,以解决这些问题。但我非常乐观。我不认为我们会完全...我认为当我们说我们快要用完数据时,我们有点夸大其词。
我们可以用现有的数据做更多事情。好的,所以我们还有不到30秒的时间。我想问你一个与我问Kalia类似的问题,因为最终我感兴趣的是尝试进行对话,让我们了解在技术开发过程中,我们可以做些什么来最小化可能发生的伤害,对吧?以便人们不会以我们已经描述的方式遭受伤害。因此,关于合成数据,Ari,
你认为行业应该做些什么?监管机构应该做些什么,以尝试最小化负面结果?可以这样说。我认为最终我们必须进行测试和测量。你必须有一个可靠的测试框架。当我们部署一个模型时,我们制定明确的评估套件,以确保我们理解它们的性能和它们所造成的伤害。然后还要确保我们关注真正的伤害,比如偏见、索赔拒绝和那些实际上会影响到人们的事情。
好的,Ari Morkos,加利福尼亚州圣荷西的Datology AI的联合创始人兼首席执行官,非常感谢您今天加入我们。谢谢你邀请我。Kalyan Veeramachaneni,感谢您在On Point工作室与我们在一起,Data Cibo的联合创始人兼首席执行官。非常感谢您与我们同在。谢谢。感谢您邀请我。我是Meghna Chakrabarty。这是On Point。On Point。
对这个播客的支持来自《商业破碎了吗?》这是BU Questrom商学院的一档播客。公司应该如何平衡短期压力与长期利益?在对当下利润的无情追求中,我们是否在牺牲未来?这些是BU Questrom商学院最近举办的一个小组讨论中提出的问题。完整的对话在《商业破碎了吗?》播客中可用。收听预览。
在你心中,什么是短期主义?如果字典中有一张图片,那是什么?我先说一个丑陋的例子。当我仍然担任全球激进主义和辩护的负责人时,作为为公司辩护的银行家,我与日本的东芝合作。这些家伙有五个不同的激进分子,每个激进分子都有非常不同的想法,认为他们现在应该做什么,比如短期。
非常不同的观点。不幸的是,在股东的压力下,公司不得不经历两轮不同的分拆,出售自己并进行股东投票。我的意思是,该公司实际上是破裂的,因为领导层不得不屈服于股东的压力,而股东甚至无法达成一致,关于短期内需要什么。因此,对我来说,当这种行为问题出现时,你在压力下而无法考虑长期时,就会成为一个真正的问题。
真正的灾难。托尼,你没有这样的董事会。我的意思是,显而易见的例子,我的意思是,你会看到有季度收益。我们都知道你有企业会竭尽所能地实现季度收益,对吧?然后我们会进入分析师和导致这种情况的原因。我甚至不想去那里。但还有,企业面临很大的压力,如果你有一个企业组合,出售该组合的某个元素。作为一个经理,你会说,等等,这是一个非常好的企业。可能今年表现不佳,但它是一个很好的企业。
另一个是研发支出。如果你愿意,你可以削减研发支出,并在一两年内实现数字,但我们都知道这将导致公司走向何方。你可以每天看到这些决策,并且你可以看到那些不做出这种牺牲的企业。我认为从长远来看,他们会胜出。
AI 公司表示,他們正在耗盡用於訓練模型的高質量數據。但他們可能有一個解決方案:由人工智能系統本身生成的數據。合成數據的優缺點。</context> <raw_text>0 安迪,我要轉向你。也許你想舉一個人們抱怨短期主義的例子,而我認為這並不存在。我的意思是,你知道,同樣,我甚至不明白它到底是什麼。但我聽到的是,我們收集一些故事,然後強加給它們這樣一個想法:如果它們的行為不同,考慮到長期利益,它們的行為就會不同。這不是真正的科學。
通過搜索您獲取播客的任何地方的“商業是否崩潰”來查找完整劇集,並了解有關 Mehrotra 商業、市場和社會研究所的更多信息,網址為 ibms.bu.edu。