开源创新是AI的未来。在本期IBM Smart Talks节目中,Malcolm Gladwell和Tim Harford与Hugging Face产品和增长主管Jeff Boudier讨论了开源AI社区。他们聊到了开源AI的历史和未来,它对AI进步的关键重要性,IBM watsonx与Hugging Face的合作,以及企业如何利用开源AI满足其特定需求。访问我们的网站:https://www.ibm.com/smarttalks/ 了解有关Hugging Face合作关系的更多信息:https://newsroom.ibm.com/2023-08-24-IBM-to-Participate-in-235M-Series-D-Funding-Round-of-Hugging-Face 了解本集中提到的Google DeepMind论文的更多信息: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf 这是IBM的付费广告。请访问omnystudio.com/listener了解隐私信息。</context> <raw_text>0 哈喽,哈喽。欢迎收听IBM Smart Talks播客,这是Pushkin Industries、iHeartRadio和IBM联合制作的播客。我是Malcolm Gladwell。
本季,我们将继续与新的创造者、有远见的创新者进行对话,他们正在创造性地将技术应用于商业以推动变革,但重点关注人工智能的变革力量及其作为改变游戏规则的倍增器为您的业务带来的意义。
我们今天的嘉宾是Jeff Boudier,他是Hugging Face的产品和增长主管,Hugging Face是领先的开源和开放科学人工智能平台。他拥有工程师背景,自称痴迷于科技业务。
最近,IBM和Hugging Face宣布合作,将Hugging Face的开源AI模型库与IBM的Watson X平台结合起来。此举使企业能够更轻松地访问AI,同时忠于IBM长期以来支持开源技术的理念。
借助开源,企业可以使用自己的专有数据构建更适合其特定需求的AI模型,同时浏览现成的预训练模型目录。在本期节目中,您将了解为什么开源对AI的进步如此重要,IBM的Watson X如何与开源AI交互,以及Jeff对为什么单一、万能的AI模型是一个神话的看法。
Jeff与Pushkin播客《警示故事》的主持人Tim Harford进行了交谈。Tim是《金融时报》的长期专栏作家,在那里他撰写了《卧底经济学家》专栏,他也是BBC广播公司节目的主持人,主持节目《或多或少》。好的,让我们开始采访吧。嗨,我是Jeff Boudier,我是Hugging Face的产品总监。所以我很感兴趣。Hugging Face。这是对《异形》电影的引用还是其他什么?
不是的。听众可能不太清楚,Hugging Face指的是那个可爱的emoji表情。你知道,那个面带微笑,双手张开,好像要给你一个大大的拥抱的表情。那就是Hugging Face。所以基本上,我们是以一个emoji表情的名字来命名公司的。
是的,我看到了你们的网站,它是一个非常友好的emoji表情。这很好。那么,请告诉我们一些关于Hugging Face以及你们在那里做什么的信息。当然,Hugging Face是领先的AI构建者开放平台。
它是所有AI研究人员用来分享他们的工作、他们的新AI模型并在其周围进行协作的地方。数据科学家可以在那里找到这些预训练模型,访问它们,使用它们并与它们一起工作的地方。
而且越来越多的开发者正在将所有这些AI模型和数据集转化为他们自己的应用程序、他们自己的功能。所以它就像一个Facebook群组、Reddit或Twitter,专门面向对生成式语言AI或各种人工智能感兴趣的人?
各种AI。当然,生成式AI是席卷全球的新浪潮。但在HagenFace上,您可以找到任何类型的模型。新型Transformer模型可以做任何事情,从翻译到将我所说的话转录成文本,
那么您将使用Transformer模型。如果您想将该文本进行总结,那将是另一个Transformer模型。如果您想通过键入句子为本播客创建一个漂亮的缩略图,那将是另一种类型的模型。
所以您可以找到所有这些模型,实际上有30万个模型是免费且公开可访问的。您可以在我们的网站HagenFace.co上找到它们,并使用我们的开源库来使用它们。
这太迷人了。所以有30万个模型。当你说模型时,我在脑子里想,哦,这有点像计算机程序。有30万个计算机程序。这大致正确吗,还是不太对?这是一个大致的概念。模型是一组巨大的数字。
它们协同工作以筛选您将要提供的某些输入。把它想象成一个装满数字的大黑盒子。您可能会提供一些文本作为输入,也可能是一个提示。所以你正在向模型发出指令。或者您可能提供图像作为输入。
然后,它将借助所有这些数字(我们称之为领域的参数)筛选这些信息。它将产生一个输出。当我告诉你,嘿,我们可以将这段对话转录成文本时,输入将是音频文件中的对话。然后输出将是转录的文本。
如果您想为本播客剧集创建一个缩略图,那么输入将是我们所说的提示,它实际上是一个文本描述。就像一个在旧金山谈论机器学习的法国人。输出将是完全原创的图像。
这就是我认为AI模型是什么。我认为我们开始意识到,这正在成为世界上构建技术的新方法。在处理、理解、生成文本的领域已经如此相当长一段时间了。但现在它正在向各个技术领域发展。我们有模型用于……
创建图像,正如我所说,还可以生成新的蛋白质,对数值数据进行预测。因此,机器学习的每个领域现在都使用这种新型模型。但有趣的是,如果您是科技公司的产品经理,并且您说,嘿,我想构建一个具有此功能的功能,
几年前,方法是要求软件开发人员编写一千行代码才能构建原型。而今天做事的新方法是寻找现成的预训练模型
它在解决这个问题方面做得相当好,因此您可以快速创建该功能的原型。这是一种构建技术的新方法。我不是程序员,但我意识到存在这种开源代码的概念,现在我们有了开源模型。那么,对于某些东西来说,开源意味着什么?
开源AI实际上意味着许多不同的具体含义。它是模型的开源实现。因此,如果您使用Hugging Face Transformers库,
来使用模型,您正在使用开源代码库来使用该模型。只是为了打断一下关于转换器的内容,这些是将狗的图片转换成文本输出的方法,例如:“嘿,这是一张狗的图片”,或者“这是一个法语文本,转换器正在帮助您将其转换成英语文本”,或者它正在执行您一直在描述的所有这些事情。转换器是其核心引擎。
是的,完全正确。我们称它们为转换器,因为它们对应于这种构建机器学习模型的新方法,实际上是由谷歌通过一篇非常重要的论文《注意力就是你所需要的一切》引入的。该论文于2017年由谷歌DeepMind的研究人员发表。哇。那才六年。这太新了。
它非常新,从那时起,新型模型架构的创新速度确实大大加快了。但它确实始于这篇论文及其在现在所谓的Transformer模型中的实现带来的拐点。
自那以后,Transformer征服了机器学习的各个领域。好的,对不起,打断一下。所以你有了这个Transformer模型库,它们是开源的,这意味着什么?任何人都可以免费使用它们,或者任何人都可以免费实现它们?这是什么意思?
所以,再次强调,其中有很多内容,但最重要的事情是模型本身可用,以便数据科学家或工程师可以下载并使用它们。此外,还有一些关于质量的考虑。
如何使它们易于访问。一个非常重要的因素是您是否允许访问训练数据,所有用于训练该模型并教它执行其训练任务的信息。所以我可能已经向语言转换器输入了数百万个单词,或者我可能已经向图片转换器输入了数百万张照片。是的,现在是数万亿了。训练数据的可访问性非常非常重要。Hugging Face库与GitHub之间是什么关系?如果我理解正确的话,GitHub是开源库的存储库。
大量代码、例程和程序被共享、更新和跟踪,它们都可以在GitHub上找到,这听起来与您在Hugging Face中为AI所做的工作类似。那么,它们之间的相互作用或关系是什么?
是的,我认为你抓住了重点。所以Hugging Phase对于AI来说就像GitHub对于代码一样,对吧?这是一个中心平台,AI构建者可以在那里找到AI工件(模型和数据集)并在其周围进行协作。所以它与软件大不相同。但我们在社区中扮演着中心角色,以共享和协作。
并访问所有这些AI工件,就像GitHub为代码提供的那样。这个社区一定非常重要。我的意思是,如果你没有一个致力于它的社区,开源就什么都不是。那么,你们是如何培养和培育这个社区的呢?
好吧,我认为这与Transformer模型的起源以及Hugging Face参与其中有关。所以当第一个开源模型出现时,它被称为BERT,它来自谷歌。访问它的唯一方法是使用名为TensorFlow的工具。但碰巧的是,大多数AI社区都在使用不同的工具。
称为PyTorch。Hugging Face所做的一件事是使新的模型BERT可供所有PyTorch用户使用。他们以开源的方式做到了这一点。这是一个名为BERT的预训练PyTorch或BERT PyTorch预训练的项目。
这就像能够在我的Xbox或PlayStation上玩我的塞尔达游戏一样,对吧?或者我是不是真的没理解发生了什么?不,这正是它。问题是,每个人都在使用Game Boy。因此它变得非常流行。从那时起,社区开始聚集在一起,使随后由……
AI研究人员发布的所有其他模型都可通过该库访问,该库很快从BERT预训练PyTorch重命名为Transformers,以欢迎所有这些不同的新模型。今天,所有AI构建者在想要访问这些模型、查看它们的工作方式并在其基础上进行构建时,都会使用这个开源库Transformers。
这个领域引人注目的一点是它变化如此之快,改进如此之快。开源模型如何跟上这一步伐?它们是如何迭代和改进的?实际上,并不是开源在赶上它。实际上,是开源在推动这种变化速度。这是因为有了开源和开放研究,
数据科学家、研究人员可以利用彼此的工作。他们可以重现彼此的工作。他们可以使用我们的开源库等访问彼此的工作。所以从某种意义上说,开源AI并不是一个新想法。恰恰相反。有一段时间,闭源AI似乎是主导方式,但这只是一段时间。
事实上,我们今天惊叹不已的所有令人难以置信的进步都离不开开源。我们站在50年研究和开源软件的肩膀上。所以我认为这非常重要。如果没有它,我们可能还需要50年才能获得像ChatGPT或稳定扩散等令人惊叹的体验,
所以真正推动这种变化速度的是开源,所有这些新模型,所有这些新功能。
举个例子,Meta几个月前发布了大型语言模型LAMA。从那时起,围绕原始模型的变体和改进就出现了寒武纪大爆发。今天,我们托管、跟踪和评估的模型超过数千个。所以是的,开源确实是推动这一进程的动力和引擎。
Jeff刚刚明确表示,是开源而不是闭源,它为AI创新设定了步伐。如果这是真的,那么具有前瞻性的企业不应回避利用开源AI来解决他们自己的专有挑战。但是怎样做呢?企业在尝试采用开源技术时可能会面临严重的障碍,例如遵守政府法规或确保客户数据的安全。
在他们对话的下一部分,Jeff和Tim讨论了IBM与Hugging Face的合作如何使企业能够利用开源AI社区,以及WatsonX平台如何使他们能够根据自己的需求定制这些AI模型。Jeff想问一下Hugging Face和IBM之间的合作关系。这是如何产生的?这是通过一次对话产生的。
IBM的CEO Clément Delangue和Bill Higgins之间的一次对话,他非常了解IBM正在进行的所有令人惊叹的研究工作和开源工作。
这次对话激发了我们一起做些什么的证据。我们在开源的重要性方面有很多共同的价值观,这对我们来说是根本性的,在以道德为首要原则的方式做事方面,使社区能够将道德考虑纳入他们构建AI的方式。
我们一开始的受众有所不同,所有AI构建者今天都使用Hugging Phase来访问我们讨论过的所有模型,使用我们的开源模型。
并与他们一起构建。IBM拥有与企业公司合作并使他们能够以符合企业所需的一切方式利用该技术的令人难以置信的历史。因此,能够将这两件事结合起来是一个令人惊叹的机会。现在,我们可以让拥有大型公司的
部署机器学习系统方面有复杂的要求,并为他们提供轻松的体验,让他们能够通过我们的平台利用AI提供的最新和最强大的功能。让我们谈谈单一模型或多种模型的概念,因为我一直在听你说,你一直在说,哦,有很多模型。Hugging Face平台上有数十万个模型可用。
在Hugging Face平台上可用,但你也说过有一件事,Transformer,它们都是Transformer。所以如果它们基本上都是同一件事,为什么你不能只构建一个超级聪明的模型来完成所有事情呢?这是一个非常有趣的想法,也是一个非常新的想法。
我们在Hugging Face平台上有超过一百万个存储库、30万个免费且可访问的模型的原因是,模型通常经过训练来做一件事。它们通常经过训练来使用特定类型的数据做一件事。在过去几年中发布的研究中,新出现且明显的一点是,如果您训练一个足够大的模型,
有了足够的数据,那么这些模型就开始具备某种通用能力。你可以要求他们做不同的事情。你甚至可以训练他们对指令做出反应。因此,使用相同的模型,您可以说,嘿,总结这段话,将其翻译成英语,开始用法语进行对话,然后转向德语。所以这些是一般性的语言能力。
我认为当ChatGPT上线并且世界开始发现这些新功能时,至少在短时间内,存在这种想法,这种神话,即所有这一切的最终目标可能是一个或少数几个模型,它们比其他任何现有模型都要好得多,它们可以做任何我们要求它们做的事情。
那是我们唯一需要的模型。我个人认为这是一个神话。我认为它由于各种原因并不实用。假设您正在撰写电子邮件,并且您有很好的文本建议来完成您的句子。
好吧,那是AI。那是大型语言模型。这是一个执行此操作的Transformer模型。所以有很多这样的现有用例。这些用例由经过训练可以做好一件事并快速完成的特定模型提供支持。如果您想应用这些无所不知、功能强大的Oracle类型的模型,
您将无法通过搜索引擎为数百万客户提供服务。您将无法完成人们的句子,因为您需要的资金数量、运行此类服务所需的计算机数量,都超过了地球上可用的数量。所以一个
它不是一个实用方案的原因是运行这些非常非常大的模型非常昂贵。我听到的是,看,如果你想拧入螺丝,你需要一把螺丝刀。如果你要做的任务是拧入螺丝刀,你不需要一个装满工具的工具箱。当然,你可以带上工具箱。
那里有所有工具,那里有一把螺丝刀,但没有必要。它非常昂贵。它非常麻烦。即使作为只在提示框中键入的用户,用户可能看不到这种成本,但这仍然非常真实。
没错。然后是性能。以螺丝刀为例。顺便说一句,我们现在还没有达到拥有这种无所不知、功能强大的Oracle的地步,这仍然是一种科幻场景。但是我们有螺丝刀,但我们也有Leatherman,多功能工具模型。
瑞士军刀。这就是我们今天所处的时刻。但是现在,如果我试图打开我的电脑,结果它需要一种特殊的螺丝,比如这些非常小的Torx螺丝。而且
使用扭矩螺丝刀会比使用我的Leatherman更有帮助,也许我会用刀片,它会弄坏螺丝,也许最终我会得到我需要的东西。但我的意思是,如果你使用一个经过专门训练的机器,
针对特定问题的模型,它会工作得更好。它会比一个非常通用的大型模型提供更好的结果,而这个大型模型可以做很多事情。因此,对于搜索引擎或翻译等非常具体的事情,公司最好使用更小、更高效的模型来产生更好的结果。这真的很有趣。然后大概,
能够知道使用哪个模型或能够知道向谁询问使用哪个模型成为一项非常重要的能力。是的,这就是我们试图通过我们的平台简化的工作。那么,这与IBM的Watson X平台是如何运作的呢?您如何看待Hugging Face的客户从中受益?
最终目标是让Watson X客户能够轻松使用我们讨论过的所有优秀的模型和库。今天,所有30万个模型都在Hugging Face上。
为此,我们需要与构建Watson X平台的IBM团队进行深入合作,以便我们的库、我们的开源、我们的模型能够很好地集成到平台中。
如果您是单个用户,如果您是数据科学专业的学生并且想要使用模型,我们会让它变得非常容易,对吧?我们有我们的开源库。您可以将模型下载到您的计算机上并运行它。但在企业中,围绕人们可以做什么以及如何访问数据的基础设施和规则非常复杂。
所有这些复杂性都由Watson X平台解决。本季Smart Talks播客的主题是我们所说的新创造者。您认为自己是一个有创造力的人吗?
我认为这是工作的要求。我的意思是,我们身处一个如此新兴且快速发展的行业,我们必须有创造力才能发明明天的商业模式、用例等。
我在公司中的角色实际上是围绕我们科学、开源和产品团队的所有伟大工作来创建业务。总的来说,整个生态系统中AI的商业模式仍然是公司试图弄清楚的事情。
因此,创造力对于与公司进行对话、了解他们试图做什么以及然后构建正确的解决方案非常重要。这就是创造力发挥作用的地方。你一直在谈论的一件事是不断增长的模型数量、不断增长的功能数量、不断增长的用例数量,这非常令人兴奋。但我也认为,
对于大多数试图在不断增长的可能性迷宫中找到自己方向的人来说,这完全令人困惑,其增长速度甚至超过了他们学习的速度。那么,你们是如何帮助人们在这个环境中进行导航和做出选择的呢?IBM的合作如何帮助实现这一目标?好吧,正如我所说,我们的愿景是AI机器学习正在成为创建技术的默认方式。
这意味着您将要使用的每个产品应用程序服务都将使用AI来做得更好、更快。我想,由此产生的世界观有两种相互竞争的观点。有一种观点是关于无所不能的Oracle模型,它可以做任何事情。
而我们的愿景不同。我们的愿景是每个公司都能够创建他们自己拥有的、可以使用、可以控制的模型。
这就是我们试图通过我们的开源工具实现的愿景,这些工具使这项工作变得容易,通过我们的平台,您可以在其中找到社区共享的所有预训练模型。因此,我们真的希望让公司能够构建他们自己的东西,而不是将所有情报外包给第三方。
IBM的WatsonX平台为这些企业公司提供了这些工具,以便您可以使用Hugging Face提供的开源模型。然后,您可以使用自己的数据改进它们,而无需将这些数据共享给第三方。
然后,您可以遵守公司对您的一切治理要求来完成所有这些工作。也许您的金融服务公司有一套特定的规则。也许您的医疗保健公司对患者数据的隐私要求非常严格。也许您的科技公司和您的……
您拥有客户、用户的个人信息。因此,您需要能够在尊重所有这些方面完成这项工作。Jeff Boudier,非常感谢您。非常感谢,Tim。这很有趣。为了创建未来的AI模型,我们将需要开源。这意味着企业可以在开源社区中发挥作用,以利用AI创新的改变游戏规则的潜力。
正如Jeff所说,企业需要解决大规模的独特挑战。如果没有适当的支持系统,在企业层面利用开源AI是令人望而生畏的。为工作找到合适的模型大小,微调其用途,同时解决围绕数据、隐私和道德的治理要求。
因此,对于企业而言,IBM与Hugging Face的合作标志着进步,因为它表明企业可以在保持企业级完整性的同时利用开源AI。企业应该像Hugging Face及其emoji表情一样,拥抱开源社区和AI的未来。我是Malcolm Gladwell。这是IBM的付费广告。
IBM Smart Talks由Matt Romano、David Jha、Nisha Venkat和Royston Besserve与Jacob Goldstein制作。我们的编辑是Lydia Jean Cott。我们的工程师是Jason Gambrell、Sarah Bruguere和Ben Talladay。主题曲由Gramascope创作。特别感谢Carly Migliore、Andy Kelly、Kathy Callahan以及8Bar和IBM团队,以及Pushkin营销团队。
IBM Smart Talks是Pushkin Industries和iHeart Media的Ruby Studio制作的。要查找更多Pushkin播客,请在iHeart Radio应用程序、Apple Podcasts或您收听播客的任何地方收听。