We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode scikit-learn & data science you own

scikit-learn & data science you own

2024/11/19
logo of podcast Practical AI: Machine Learning, Data Science, LLM

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript
People
G
Guillaume Lemaitre
Y
Yann Lechelle
Topics
Yann Lechelle作为Probabl公司的CEO,介绍了公司的起源、使命以及对scikit-learn的未来规划。Probabl公司源于法国研究中心Inria,致力于构建包括scikit-learn在内的一系列开源数据科学工具。公司以维护开源数据科学为使命,并将其写入公司章程。Yann Lechelle强调,Probabl的目标是成为一家类似Red Hat的开源公司,并最终通过IPO实现可持续发展,从而更好地服务于全球数据科学家,并促进数据科学领域的多样化发展。 Guillaume Lemaitre作为Probabl的开源工程师,详细阐述了scikit-learn的技术特点、应用场景以及社区贡献方式。scikit-learn是一个机器学习库,专注于预测建模,相比深度学习,它更加简单、成本更低,并适用于多种数据类型。Guillaume Lemaitre还介绍了Probabl正在开发的其他库,例如Scrub和Scribes,旨在改进数据持久化、数据库集成、可视化和模型评估等方面。他鼓励开发者积极参与scikit-learn社区,并提供了具体的参与途径和指导。

Deep Dive

Chapters
Yann Lechelle explains the origins of Probabl, a company spun off from a French research center, and its mission to steward open-source technologies like scikit-learn.
  • Probabl is a spin-off from a French research center called INRIA.
  • The company's mission is to build a suite of open-source technologies for data science, with scikit-learn at its core.
  • Scikit-learn is used by nearly every data scientist globally and has been downloaded over 1.5 billion times.

Shownotes Transcript

我们正处于生成式AI饱和的时代,所以让我们来谈谈scikit-learn,长期以来,它一直是数据科学家构建分类器、时间序列分析器、降维器等的首选工具!Scikit-learn已广泛应用于各个行业,并推动了大量实际投入生产的“AI”发展。:probabl是一家新型公司,它与各种其他开源项目一起管理着这个项目。Yann Lechelle和Guillaume Lemaitre分享了公司背后的愿景,并讨论了scikit-learn的未来! 加入讨论Changelog++会员在本集节省了9分钟,因为他们去除了广告。立即加入!赞助商:Timescale – 为AI量身定制的性能 在云端和使用PostgreSQL及为AI量身定制的扩展(pgvector、pgvectorscale和pgai)上构建RAG、搜索和AI代理。

:probabl。 TechCrunch:Probabl是一家围绕流行库scikit-learn构建的新型AI公司 scikit-learn

<raw_text>0 欢迎收听Practical AI播客,本播客旨在使人工智能变得实用、高效且易于访问,就像您喜爱的这个节目一样,节目内容包括访谈、每日更新以及周五和周末的精彩脱口秀节目。您可以在任何收听播客的平台上搜索“changelog”找到我们,感谢我们的合作伙伴Fly.io,您可以在五分钟或更短的时间内启动您的AI应用程序。在fly.io上了解详情。

好的,朋友们,我是Timescale的Atha,一位新朋友。所以,Atha,请帮我理解一下Timescale究竟是什么?

Timescale是一家PostgreSQL公司。我们在云端和开源系统中构建工具,使开发人员能够更好地利用PostgreSQL。因此,可以使用它来处理时间序列数据,以及最近的AI应用程序,例如RAG和AI代理。

好的,如果我们的听众想要开始使用PostgreSQL和Timescale进行AI应用程序开发,您能告诉他们一个好的起点吗?

如果您对AI感兴趣,那是因为您要么正在构建AI应用程序,要么对AI领域正在发生的创新感到好奇并想参与其中。好消息是,今天的任何开发人员都可以使用他们已经熟悉和喜爱的工具成为AI工程师。

因此,我们与Timescale在PG-AI项目上所做的工作,使开发人员能够使用他们已经熟悉的工具和数据库来构建AI应用程序。而这个数据库就是PostgreSQL。这意味着您实际上可以提升您的职业生涯,构建新的有趣项目,并学习更多技能,而无需学习一整套新的技术。

最棒的是,它是完全开源的。PG-AI、pgvector、pgvectorscale都是开源的,您可以使用Docker在本地机器上运行它们,按照Timescale博客上的教程操作,构建最先进的应用程序,例如RAG,而无需学习十种不同的新技术,只需使用您可能已经熟悉的PostgreSQL和SQL语言即可。是的,就是这样开始的。访问PG-AI项目,只需访问Timescale的任何一个页面,无论是PG-AI还是PG-vectorscale页面,然后按照教程操作,即可开始使用PostgreSQL成为AI工程师。

好的,只需使用PostgreSQL即可开始AI开发,构建RAG、搜索和AI代理,所有这些都是开源的,访问timescale.com/ai,试用PG-AI,试用PG-vectorscale,所有这些都可以在本地桌面上开源使用,再次强调,timescale.com/ai。

欢迎收听Practical AI的另一期节目。我是Daniel Whitenack,Prediction Guard的首席执行官,一如既往地,我的搭档Chris Benson也加入了我们,他是洛克希德·马丁公司的一名首席AI研究工程师。你好吗,Chris?

我今天很好。

Daniel:我也很好。我非常高兴能谈论一些我非常关心的事情,因为今天我们请到了Yann,Probabl的首席执行官,以及Guillaume,Probabl的开源工程师。

欢迎,感谢你们的到来。

Yann和Guillaume致力于数据科学,包括scikit-learn等项目,当然,这对我和世界各地的其他数据科学家来说都非常重要。Yann,如果你可以的话,对于那些听说过scikit-learn或你参与的其他项目,但没听说过Probabl的人,请你解释一下Probabl是什么。正如你在谈话开始时提到的,这是一家与众不同的公司,它的成立方式与其他初创公司有所不同。所以,如果你能提供一些背景信息,那就太好了。

很高兴今天能和你们一起参加节目。Probabl通常被称为法国一个名为INRIA的研究中心的衍生公司。INRIA是scikit-learn这项技术在过去十年、十五年中开发的地方。

许多人并不知道这一点。该项目在研究中心内部得到了某种程度的保护和孵化。正如你所知,scikit-learn在创建数据科学领域方面发挥了作用,因为它应用了数学方法,并为我们的数据科学方法创造了一种“天堂”。

数据科学通常通过两个函数来实现:拟合和预测。法国政府,像许多国家一样,也制定了国家AI战略。政府决定大力支持scikit-learn,并为此拨款。

他们用这笔预算资助了研究中心,但他们也要求在某个时候将该项目商业化。团队表示,商业化是可以的,但我们不会在研究中心这样做。所以我们要何时请创业者来帮助我们解决这个问题呢?他们找到了我。我拥有25年软件工程师和企业家的经验,但我不是数据科学家。所以我做了尽职调查,深入研究了这个项目,了解它的内部运作情况,以及它的社区是否良好。当然,scikit-learn……

是一个非常了不起的技术瑰宝,全球每个数据科学家都在使用它。我发现它累计下载量超过15亿次,每月下载量达8000万次,仅在美国就占22%,法国仅占3%。

所以这是一个全球都在使用的项目。Probabl本质上是一个衍生公司,它将包括Guillaume在内的所有团队成员从研究中心带出来,并将其转变为一家开源公司,继承了最初赋予研究中心的使命。其使命是构建一套开源技术,包括scikit-learn,以及其他超越scikit-learn的数据科学技术。

所以,范围很大,使命也很新颖,这就是我们正在构建的东西。Probabl是一家成立一年的公司,已经开始做了很多事情。Guillaume是这里scikit-learn这项技术的代表,这项技术再次被全球每个数据科学家使用。

这引发了我很多有趣的问题。我非常喜欢你在你的网站和在线资料中提出的“你拥有的数据科学”这一论点,尤其是在开源方面,我从经验中知道,在为开源软件技术寻找真正有效的商业模式方面,可能会有一些有趣的挑战。

我们看到过一些技术,公司最初对开源持积极态度,但随着时间的推移逐渐变得封闭。所以我想从领导层的角度来看,即使在公司成立的方式上,也有一种对管理scikit-learn和这些项目的姿态。但从你的角度来看,你对管理这些开源项目的姿态是什么?你如何看待让它在长期内保持可持续性的商业因素?

这是一个很难回答的问题,但它也是最重要的问题。scikit-learn是一种应用数学技术,它不是火箭科学,但它是一种复杂的应用数学。

关键在于,科学界每天都在使用它,每个人都依赖于它。所以,当我发现这个项目以及赋予研究中心的使命时,我意识到,第一,这个项目比我更大;第二,这个使命实际上是创造更多开源技术。

换句话说,在2024年,这一点更为明显。大型科技公司往往会积累大量的集中资源,我们可以说它们的分散程度不足。这不是一个判断,

而是一个事实。scikit-learn正在做相反的事情。它实际上使许多公司能够进行数据科学。考虑到这一点,在我们创建公司之前,我们决定为公司制定一种架构,以尊重这一点。因此,在我们创建公司之前,在我加入作为创始人之前,甚至在注册公司之前,我们就已经制定了一个模板,它实际上涵盖了治理、股权结构,并利用了法国的一项新法律,使我们能够成为B型企业。因此,这是一家拥有使命的公司,其使命明确载于公司章程中,而这个使命就是促进科学发展。

所以我们创造了一种受限的环境,这与许多公司不同,因为它是经过设计的。这家公司是经过设计来设置护栏的,以便治理不会使公司偏离方向,例如,将财产或技术私有化,甚至更改许可证,这些都是不可能的。我们创建了一种机制,如果我们没有遵守使命,那么我们实际上可能会失去一些资产,例如品牌。我们是官方的品牌运营商,但品牌仍然属于研究机构。因此,有很多机制,触发机制,包括股东,我们将其引入,以长期地约束我们的使命。

Guillaume,你引发了我很多问题,我想问几个问题。我实际上想花一点时间回顾一下,因为在谈到这个问题时,我想到,对于一些从未使用过scikit-learn的听众来说,他们可能听说过这个名字,你提到它是应用数学。你能为那些从未实际使用过它的人解释一下它在做什么吗?然后我还有几个问题要问,因为你引发了我很多兴趣,你触及了很多话题。

好的,我可以提供一些背景信息。scikit-learn基本上是一个机器学习库。它追溯到统计方法。

简单的答案是,我们试图进行相当精确的预测建模。我们试图利用数学从现有数据中推断未来,以回答特定问题或进行特定预测。与一般的深度学习相比,最大的区别在于,你拥有的都是简单的步骤。

有一些基础知识,深度学习建立在这些基础知识之上,但深度学习的训练成本更高,在初始阶段也更昂贵。它也没有相同的适用范围,当你想要处理大型数据集时,这是一个缺点。scikit-learn擅长处理大型数据集进行训练,以便能够处理这些数据并给出一些分类或回归结果。而图像、NLP或其他类似任务则属于深度学习和转换器的范畴。所以我们更像是回到了几年前机器学习的样子,但它有很多、很多应用。

鉴于scikit-learn在数据科学领域非常流行且基础,你能否从宏观的角度谈谈它?我不确定你们两个谁更适合回答这个问题,所以你们可以选择。谈谈它如何融入数据科学和AI领域,让听众了解它在众多组织和工具中的位置。你如何看待这个问题?这可以让我们回到几分钟前你谈到的组织方面。

也许我可以部分地回答这个问题,通过提供一些用例,来说明scikit-learn在哪里被使用,以及我们多年来与合作伙伴合作的成果。scikit-learn可以用于任何你想知道药物是否有效的地方,如果你想进行欺诈检测,它也可以用于银行和保险公司,以及预测意图等等,这些是我们多年来一直拥有的各种应用。

所以,用例非常广泛。scikit-learn的优势在于,它不是针对一个用例的。我的意思是,它足够通用,可以应用于所有这些用例,并返回一些分类和回归结果,或者无监督学习,但它可以应用于任何地方。所以也许你可以补充一些内容。

从微观层面来说,scikit-learn支持很多东西,包括深度学习。但坦白地说,如果你想做深度学习,通常你会转向PyTorch或TensorFlow。但对于其他所有任务,scikit-learn在AI领域中,机器学习是一个很大的分支。

在机器学习中,你还有其他分类,例如基于转换器的模型,它们会导致LLM。所以它基本上是一个套娃结构。scikit-learn是机器学习领域最大的算法提供者。

事实上,如果你看看下载量,通常 scikit-learn 的下载量与 PyTorch 和 TensorFlow 的下载量加起来一样多,这太疯狂了,因为现在每个人都在谈论,你知道,LLMs,当然还有深度学习,因为深度学习目前正处于一个春天状态,还没有完全进入冬天。所以当然,深度学习和生成式 AI 是一次伟大的突破。

话虽如此,你知道,我喜欢有时简化 80/20 原则。所以我有一种直觉,认为 80% 的用例在使用 scikit-learn 进行机器学习时。人们实际上告诉我,“不,你错了。”

“更像是 90% 或 95%,对吧?”因为就健壮、久经考验且用于实际盈利或投资回报的技术而言,银行和保险公司,对吧?我会提到欺诈检测,欺诈检测类型的用途,这实际上意味着金钱,实际上,你知道,银行如果没有它就会损失金钱。

所以它实际上非常重要。但同样,这是一个很大的市场,对吧?所以这就像深度学习只是一种快速方法来解决这类问题。

我们的朋友,我在这里,我的一个朋友,我的好朋友迈克尔·格林,WorkOS 的首席执行官兼创始人。WorkOS 是一个一体化的企业身份解决方案。

SSO 和身份管理解决方案,适用于从小型初创公司到大型企业以及介于两者之间的所有 AI 应用程序。所以迈克尔,什么时候太早或太晚开始考虑企业就绪?

这不仅仅是一个人们进行这种转变的单一时间点。它发生在业务旅程的许多步骤中,例如单点登录。例如,你通常不需要它,除非你已经有用户了。在你刚开始的时候你不需要它,我们称之为“企业就绪”。

但我认为你会发现,当你的公司像一个 50 人的公司那样销售时,他们实际上可能想要这个,特别是如果他们关心安全的话,他们可能想要这个功能。即使他们技术领先,在 WorkOS,我们也提供大量其他免费赠送给处于生命周期早期的人的东西。你只是不为此付费。

所以那些附加功能,我提到的身份服务,我们免费赠送给多达一百万用户,一百万用户。这与 Auth0 和其他平台竞争,这些平台的免费计划要低得多。我说的是一万、五万,就像我们给你一百万免费用户一样,因为我们真的想为开发者提供最好的工具和功能,以便更快地构建产品,更快地进入市场。

而我们向人们收取服务费的地方在于这些高级功能。如果你最终成功并发展壮大,进入高端市场,那就是我们获利的地方。这也是我们作为一家企业赚钱的方式。

所以我们非常喜欢将我们的激励措施整合起来。所以我们有一些使用附加功能的用户,他们只是刚开始使用全新的应用程序。公司和个人兼职项目、黑客马拉松等等,这些不一定是商业重点,但有一天可能成为商业重点,他们正在通过使用 WorkOS 来证明他们的技术能力。

另一方面,我们有规模大得多的公司,他们通常不喜欢我们谈论他们。你知道,没有标志,因为他们是规模非常大的客户。但他们说,“嘿,我们尝试构建这些东西,我们有一些现有的技术。”

但对构建它的开发人员有点不满意,也许开发人员已经离开了。我上周与一家每年收入超过十亿美元的公司交谈,他们的 SCIM 连接,用户配置是由去年夏天实习生编写的,该实习生不再在公司工作,而且该东西根本不起作用。所以他们正在寻找解决方案。

所以非常广泛的范围,服务于那些你知道,他们的办公室在咖啡馆里的公司。他们正在通过这种方式生活。他们拥有自己位于旧金山或纽约市中心的建筑物。

并且在两边使用相同的平台、相同的技术、相同的工具。数量显然是不同的。有时我们从客户支持的角度支持他们的方式略有不同。

他们的需求不同,但技术平台相同,就像 AWS 一样,对吧?你可以使用 AWS 并每月支付 10 美元。你也可以每月支付 1000 万美元,相同的产品。

无论你在企业就绪之旅中处于哪个阶段,WorkOS 都有适合你的解决方案,无需担心复杂性。复制 AI 的效率。

确实,还有更多,你可以了解更多信息,并在 WorkOS.com 上查看它们,网址是 WORKOS.com。再次,WorkOS.com。

所以,你正在努力,我喜欢你正在朝着这个方向前进,但我认为也许我可以在这里给你一个软球。我个人对这个问题的答案充满热情,你可能对此有更好的看法。但是,那些可能正在收听这个播客的人。

我们正在思考,“好吧,现在我们有了生成式 AI,我们有了大型语言模型。我可以向这些模型中的一个发出提示来进行欺诈检测,或者在文本中查找实体,或者对分类进行一些预测。你知道,有时这有效。所以也许有些人认为,“好吧,这些通用的大型模型存在。”

这如何改变像 scikit-learn 这样的东西在行业中的作用?我个人会争辩并认为,这实际上使 scikit-learn 更有价值,如果有的化,而不是在它可以与生成式 AI 模型结合使用的方式方面价值较低。但我很好奇你从业务方面的观点,也许 Guillaume 对技术方面有一些想法。

是的。所以,嗯,scikit-learn 通常是一种非常实用的技术,换句话说,它对每个人来说都是通用的。事实上,当你查看你知道公开的数字时,还有一个统计数据,即依赖项的数量。

所以 scikit-learn 实际上被近九十万个项目在 GitHub 上使用。所以有近一百万个项目依赖于 scikit-learn。嗯,我最近发现了一条新的定律,有人提到了这个效果,这意味着长期使用的东西会长期保持重要性。

所以,这并不是说 scikit-learn 会像 COBOL 一样消失,scikit-learn 将继续存在,我们与社区一起维护它。所以我们将确保 scikit-learn 将永远存在于需要稳定版本的公司中。当然,Guillaume 和团队正在不断添加新功能,对吧?所以这是一项专门的工作,我应该说我们已经组建了一个近十人的团队,他们只做这件事,为 scikit-learn 和其他相关的库做出贡献。

现在,Daniel,你的问题是,你知道,scikit-learn 是否会因为通用目的技术的出现而变得无关紧要,嗯,首先,scikit-learn 非常节俭。它实际上可以在 CPU 上运行。而且它得到了很好的控制,得到了很好的理解。

嗯,它在某些方面实际上是相当可预测的,而深度学习通常被称为黑盒,在那里很难进行内省。所以 scikit-learn 确实为某些类别的问题产生了今天实际上运行得相当好的东西,肯定比语言模型好,而且比我们今天理解的任何基于深度学习的技术都好。现在,有可能通过额外的数据、额外的训练和技术,甚至转换器基础模型的演变,我们可以改进并可能使 scikit-learn 过时。

但对我们来说,我们谈论过这个。与团队一起,我们也在进行实验。我们也在尝试弄清楚如何使用这些新技术来帮助第一方,即数据科学家。

所以我们是一家技术提供商,旨在帮助数据科学家,并且越来越关注企业中的数据科学家,因为我们将创建有价值的服务和解决方案,以便我们能够产生收入来维持我们的使命。所以我们的目标是实际上提升自己,同时为开源做出贡献,但也创造一种类似于红帽的商业价值主张,因为这是我们认同的最接近的公司类型。然后是精神。

说到这一点,我想回到你之前说过的话,感觉你无论如何都在回到这一点。那就是你谈到了,你知道,创建更多开源的使命,以及你正在努力创建的你所说的设计环境,那就是 scikit-learn 将长期存在,它将是不会很快消失的东西。它解决了如此重要的实际问题。你能描述一下你对进一步发展这个特定项目及其周围的生态系统的一些想法吗?这样我们就能在未来许多年都从中受益?你是如何……

处理这个问题的?所以这家公司是由多个业务部门组成的,如果你愿意的话。这是一个大词,但我们有多个收入来源和多个行动,即使在开源团队内部,他们也做了很多工作,也许 Guillaume 可以详细说明我们支持的其他补充 scikit-learn 的库。

嗯,这是一种回答这个问题的方法。但我们还在构建一个新产品,我称之为“可逆感知”。所以我们正在构建一个产品,它将为数据科学家提供额外的价值。

目标是创造一种我不希望使用“协同导航”这个词,因为它太接近“奥运会”了,但它就是这种精神。我们正在构建一个伴侣来增强数据科学家的工作,所有这些都是为了团队。这是一个基于 scikit-learn 之上的附加产品,因为 scikit-learn 只是有效。

所以我们不想改变它。与一家将使用专有方法构建 SaaS 解决方案的公司相反,我们想说,“好吧,你们使用什么都可以。我们需要找到一种方法来增加新的价值,其中一些将是开源的,某些模块化的。但对于那些钱比时间多的公司,那些比自己拥有更多服务需求的公司,我们将为您提供解决方案,我们将让您的生活更轻松。你知道,数据科学家是一个新兴的群体,是一种新兴的工作类型,存在时间并不长。

在某种程度上,当我与人们交谈时,你知道,我一直从事编码工作,我们知道,当开发人员被雇用时,他们在某些方面是现成的,对吧?他们得到了环境,他们知道如何进行代码审查,所有这些都是相当标准的。但是当你谈论数据科学家时,这更像是一种技艺,它同时是一种艺术和科学。而且你在操作两个对象,实际的代码,但他们是科学家,而不是程序员。

而且你在操作实际数据,而不是代码,是模式。所以数据科学家有一项艰巨的任务,那就是将这两件事结合起来,为企业创造价值。然后他们与业务部门交谈。

然后,“我用这个模型做什么?我如何将其投入生产?”对吧?所以有一个巨大的共同需求需要解决,这就是我们将要做的。此外,我们还在构建开源模块,人们可以使用这些模块。也许你可以详细说明一些关键的库,这些库实际上有助于……

是的。所以我们有,我们有开源团队,所以我们在 scikit-learn 上工作了很多年,但我们看到了它的重要性,作为一个社区,它对将模型投入生产以及更接近数据源的重要性。所以我们就像,正在研究应该让这些结合在一起的库。

对我们来说,我们有一个库,它位于上游,它处理范围,我们希望能够以某种方式使其持久化。但我们也在研究如何将像 Scikit-learn 这样的数据库更紧密地与机器学习模型联系起来。所以,你如何信任跨不同表的一些数据,以及如何在 Scikit-learn 中处理我们非常关心的数据,例如标记数据,以及如何将这些引入 scikit-learn 中。

我们希望改进许多方面,例如模型的可视化、评估和检查,这与训练算法一样重要。因为这是如此重要,所以我们希望在这些方面以及 scikit-learn 内部或外部进行增强。这是一个与 scikit-learn 相关的库。

顺便说一句,之前的那个叫做“scrub”。所以,清理数据,所以它是 scrub。scrub 和 scribe 是我们关注的两个库。

所以,你知道,我们现在正在谈论这些库。

你知道,你有一个强大的开源贡献者社区围绕着 scikit-learn 和其中的各种项目建立起来,嗯,Probabl 是如何与他们合作的?你们是如何建立这种关系的?与这个社区的治理情况如何?因为你们既有你之前提到的内部团队,嗯,在 Probabl 工作,但你们也有更大的开源社区。这一切是如何运作的?你能告诉我们这方面的情况吗?我想现在应该已经相当成熟了。

这就是重点。成熟意味着我们有意决定不影响 scikit-learn 的许可证。我们不会将其分支出去。

我们并不关心 IT。因此,周期性的治理以及这么说就已经意味着,如果你没有破坏它,就不要碰它,不要修复它。所以治理保持不变。

所以重心在印度,研究中心,但也涉及世界各地的人。我不知道。告诉我有多少贡献者?也许两百。

哦,甚至更多。我认为,你知道,你……你拥有的不止这些,是的,也许像你……也许摆脱了这些。呃,核心团队可以说是其中的一半,可能是在巴黎周围的朋友,在 Probabl 周围,但然后就像另外一半,十个来自世界各地的人,几乎每天都在贡献,可以说是……通过社区,与社区一起,作为一个年轻的团队,我们不想改变这一点。

在这方面没有任何改变。因此,我们实际上做得更多的是,我们……我们……我们做得更多的是……带来透明度。所以向人们解释。所以现在我们可以……我们觉得,因为当我们成为私营实体时,我们需要沟通,我们在做什么,我们的路线是什么,我们将要处理哪些委员会项目,只是为了……带来更多信任,也就是说,我的意思是,我们不喜欢在黑暗中行事,没有人知道我们在做什么。所以我们试图定期,每六个月提到哪些项目是由社区定义的。它们不是由……由权力定义的,而是从这些项目中,我们有能力处理哪些,我们手头的人力资源,比方说。所以我们真的想……想……想展示这一点。

并且,按照设计,全职的开源团队。在其他开源库中的模式意味着它是公司的成本中心。所以这个成本中心是按照设计来的,我们知道我们必须承担的成本。

所以我们……我们会通过不同类型的活动来弥补它,例如。过去曾经做过的事情,品牌……会赞助。所以他们要么雇用某人成为核心开发人员,他们自然而然地赞助某人来构建这项技术,要么他们以捐款的形式向研究中心捐款。但是现在团队和我们在一起,我们将此转化为合同赞助的家庭作业。所以你知道,想要为 scikit-learn 贡献力量并帮助我们支付薪水的品牌,我们会得到一些回报。

呃,曝光度,以及……以及……你实际上投入了更多资金,那么我们会围绕路线图进行讨论,找到一种方法让它以双赢的方式融合,因为例如,Guillaume 可以说,你知道,这个品牌希望我们做一些事情,但这对社区来说毫无意义,那么我们不会为了赞助类型的业务而收取他们的钱,对吧?但是,如果公司想花钱让我们做某种付费软件,我们会看看它,但那是公司的另一个分支。所以我们已经非常清楚地分开了。

并且,按照设计,我们知道它是有成本的。而这个成本实际上是,如果我们做得很好,它会被我们为品牌带来的好处所抵消。换句话说,希望社区能够真正认同我们正在做的事情。

所以他们会通过真正欣赏我们正在做的事情来回报我们,这将把信息传播得更远。所以我们认为,如果我们真正地不断为整个计划增加价值,而不是减少价值,那么就会有一个自我实现的预言。我不会提及某些项目,我选择了不同的方式。

但另一方面,回到公司的治理,当公司发生转变并成为风险投资公司资助或仅由风险投资公司资助时,风险投资公司需要某种投资回报,这太激进了。所以这迫使与社区以及许可方案的姿态发生变化。在我们这里,我们实际上创建了一个在股东群体方面得到平衡的结构。

所以我们最终会……这是结构的目标。架构的目标是从公共支持获得的资金与从私人支持获得的资金一样多。所以它再次达到了某种平衡。

当我们在 2009 年开始播客和在线商店时,这完全超出了我们的预想,现在我们有了很多变化。你现在可以去那里买一些 T 恤,它完全是由 Shopify 提供支持的,我们在 Shopify 之前做了什么?我会告诉你,我们什么也没做。

我们卖不出去。当然还有其他方法。当然,它们非常艰难,非常困难。Shopify 让我们构建了整个前端,显然是像 Changelog 一样的品牌,这太棒了。合并 Changelog.com。

我们最喜欢的功能是,我们使用他们的 API 为每个成为我们播客的嘉宾生成一个新的优惠券代码。他们会从我们的商店获得一件免费的 T 恤。这太酷了。他们选择他们想要的衬衫,他们使用优惠券代码,它会寄到他们那里,我们已经向他们收取了费用,生活太棒了。但你也可以现在就去 Changelog.com 购买一些周边产品,就是这样,你也可以获得我们使用的相同的结账方式,每月 1 美元试用期,Shopify.com/practicalai,所有小写,去 Shopify.com/practicalai 升级销售。

所以当我们休息回来时,我想……我想问你一个有趣的问题。我希望你们每个人都能尝试一下,因为它并不具体,是担任 CEO 还是从事技术本身。如果你们每个人都能描述一个很酷的用例,一些有趣或令人感兴趣的事情,或者真正激发了你们对 scikit-learn 的想象力,并与听众分享,就一些真正打动你们的事情而言,我很想听听,我希望从你们每个人不同的角色中听到一些不同的东西。但我真的很想听听你们是如何看待这个问题的,以及什么事情让你们印象深刻。

让我开始思考吧。不。

所以这是一个非常技术性的问题,比如说,在我的论文中,我正在进行分类。所以……我试图找到拥有特定类型同意或过程同意的人,以及没有它的人。

呃,在这个空间里,你有一百三十个具体的……以及不平衡的数据,这就是让我对 scikit-learn 感兴趣的关键,因为我必须祈祷……我正在使用特定分割来解决特定问题以及如何解决这些问题。呃,真正有趣的是,所以这就是我对 scikit-learn 感兴趣的原因,例如,与开发人员交谈。我开发了一个库,它可以平衡 scikit-learn,这也是一个合并。

scikit-learn 在某些方面是具有竞争力的。多年来,我一直维护着这个包,即使在我十几岁的时候,在 scikit-learn 之后,我们基本上通过这个库做了一切。我们实现了我们不确定的参数,一切都很顺利,直到它成为 Probabl 的一部分。

现在在 Probabl,我们也有时间来教育我们的用户。二,尝试……也带来 scikit-learn 的良好文档,向一些概念性的人解释。通过这样做,我们发现大多数研究都没有关注主要属性。

通过沟通,我们总的来说,David,我们只是发现很多事情都是错误的,你应该从另一个角度看待这个问题。然后这很有趣,因为我们发现了一些无用的东西,这是一个不平衡。但是现在我们有了更好的内容。我们参加会议来解释这些问题,人们开始告诉我们,哦,是的,我同意,这是对的。并且……并且你来了,说你五年前、十年前所做的事情实际上是……很糟糕。或者我的意思是,我们……我们然后期望从那里……这是一种我发现非常有趣的事情,当你做开源的时候,因为你可以……你在这里呼吁某事,只是为了把你的最佳成果带给所有人,每个人都会为此表示感谢,即使我的意思是,你并没有捍卫你自己的……比如说实体论文或类似的东西。所有的一切都是真实的,对我来说,这就像一种经验,从我的博士学位开始,大约八九年前,直到我现在,然后……我看到了……一种演变,我与非常非常优秀的人在一起,你可以……纠正你所做的最好的领域,我同意这将使每个人之后受益,因为这会体现在 scikit-learn 的文档中,甚至体现在库的大小中,然后……每个人都会说,哦,实际上这很好,这是一种我本可以一直保持,例如,免费的,这不会发生,因为你不会有……时间或足够快,因为你不会在……在书中。压力大的书籍和好主意,但这就是其中之一。

并且 Yann 是个好人。我可能是 CEO,但我确实有冒名顶替综合症,因为 scikit-learn 如此令人印象深刻。它日复一日,团队成员在一起,并且 Guillaume 非常谦逊,你知道,非常谨慎,但是库内部蕴含的知识量和技术量在不断增长,你还没有遇到团队的其他成员,在 CPU 周期方面竞争起来非常非常困难。所以 scikit-learn 是一种不断给予的礼物。

团队真是太棒了,而且相处融洽,与我们的团队一起工作一直是一件非常愉快的事情。现在我发现的越多,我就越觉得它令人惊叹,因为品牌对人们意味着什么。所以上周末和今天,事实上,如果允许我们把链接放在笔记中。

当然,绝对可以。

我们发布了第一个官方的 scikit-learn 认证计划。令人惊叹的是,我们……这是第一次,所以我们正在逐步进行,系统有效,人们可以注册,可以通过或不及格,但没有做广告。几天之内,我们就收到了来自世界各地的六百多份注册。

但最后一次,印度,我应该提一下。因为印度人,他们也为世界各地的其他客户远程工作。所以他们确实需要一个认可印章来展示他们提供服务的能力。所以很有趣的是,这个品牌几乎立即就推广了这种有价值的服务。所以这就是其中一件事情。

但在更技术层面,呃……我非常喜欢 scikit-learn 1.5 中的一个新功能,由另一位联合创始人开发,呃……并且 Guillaume 告诉我,那就是回调功能。为什么?因为 scikit-learn 事实上是一个平台。

它是一个平台,回调功能允许我们提供扩展,如果你愿意的话,人们可以在构建新模型时连接到 scikit-learn 的内部工作原理。事实上,我认为这至关重要,因为我们正在进入一个关于人工智能责任的时代。公司需要能够进行内省。

他们需要真正找出模型为什么会产生这样的结果。所以内省至关重要。正如我之前所说,深度学习是一种黑盒方法,顺便说一句,我很喜欢,再说一次,在 2012 年,在人工智能寒冬期间构建决策树模型,scikit-learn 实际上非常具有内省性,非常透明,正如我所说的。

所以回调是另一个提供对我们如何构建模型的实际内省的功能。因为谈论保险公司、洪水检测,你最终会有算法控制的人。所以这至关重要。

我认为我们都觉得这些功能非常重要。所以再次感谢。它是一种不断给予的礼物,我每天都被它所震撼,有点冒名顶替综合症,因为这个团队如此强大,这个工具如此强大。

说到这个,呃,团队游戏,我想问你一个问题。那些一直在听的人,他们会很好奇,好吧,我想……我想深入研究一下。

所以你将获得一些新的开发人员,呃,他们将到来,他们应该如何参与?他们应该如何找到并开始参与项目开发?对于这些开发人员来说,一个好的入门路径是什么?

最好的入门路径是,如果你有机会在你的本地社区中,有一些人做我们所说的第一次贡献,比如编码冲刺,去和这些人交谈,因为我的意思是,我们会帮助你入门。但是,如果你对计算机一无所知,那么你就不知道从哪里开始,这就是我们有文档来描述我们所说的贡献的地方。

因为贡献不仅仅是编码,你可以演讲、乞讨、评论、组织冲刺等等。所以……我们有我们所谓的贡献指南,说明你如何提供帮助,以及你可以在哪里提供帮助。所以当然,自然的事情是来贡献,然后我们会向你解释如何开始。

所以这就像是文档,呃,中国,呃,作为文档修复,呃,之后,一切都在线上并且是公开的,所以没有什么值得骄傲的。所以我们有不同的沟通渠道。最主要的是GitHub,通过问题排名或拉取请求,具体取决于你处于哪个阶段,修复将会,我会说,二十四小时内,因为我们在世界各地。所以如果我在城市里,有人可能在澳大利亚或美国。我们可以像这样回答你,然后我们会给你反馈,然后你加入后,你应该不要害羞,也不应该害怕犯错,因为我们不会评判,我们都是从说“我不知道我在做什么,我需要问别人我该怎么做”开始的,这是一个正常的步骤,之后你就会和社区一起成长,然后委员会会带你走过这一切。但最困难的事情是第一步,比如参与并说,呃,我也有这种“冒名顶替综合症”,但人们会说我不想,我的意思是像这些非常优秀的人,他们永远不会想和我说话,但事实并非如此,所以只要来,尽力而为,人们肯定会和你沟通。

在我们结束时,这里有很好的指导。我想知道你们对Probabl和scikit-learn的未来有什么看法。我会让你们定义未来的时间,无论是几个月还是几年。但我真的很想结束时给我们描绘一个画面,当一天的工作结束后,你正在放松,思考未来的可能性,你认为会是什么样子。

关于使命呢?使命比我更大,开始比我们更大。呃,所以这就是为什么治理创建自我维持模型。当然,呃,你知道这并不简单。

还有其他工作来实现长期使命,但这个使命最终以IPO结束,其他的公司并不是为了被出售或结束。目标是进行IPO,以便这家公司能够继续执行使命,并允许人们投资,成为这个故事的一部分。

这就是为什么早些时候丹尼尔问了一个关于呃,你知道的,投资者和所有这些的问题。所以我们确实有七十位个人投资者,包括那些贡献者,或者说你们转身的贡献者,他们还没有机会成为公司的全职员工。所以目标是创建这种动态的载体。

如果我们看看北方黑暗,今天没有这样的公司,它是提供开源机器学习技术的。这样的公司并不存在。我们旨在成为那样的公司,因为我们需要在一个集中度过高的时代,呃,只有少数几个参与者。

这不行。对于全球南方来说不行,对于落后的欧洲来说也不行,甚至对于美国来说也不行。

美国可能有大型科技公司,但这作为单一模式是不行的。我们需要人们拥有他们的数据科学。这就是我们的时间线。

我在这里很好。你有什么想法?

是的,所以也许更多的是。所以我可能真的在想,我们有使命,旨在帮助更多的数据科学家,但我会更多地谈论心理学和生态系统。所以对我来说,使命是我们应该专注于正在发生的事情,确保第二件事仍然是事件。

所以我们有最终模型。这很好,但我们也需要理解这个模型在哪里部署,以及如何使用,因为我们可以取得这样的进展,使其更容易,将数据库引入循环,将循环模型投入生产,减少摩擦,等等,同时也带来对理解的价值。越多,我的意思是,我们现在在欧洲也在谈论AI X。

所以我,我确信像这样,很多IT说,你们在哪里,我们无法读取影响,然后还有技术快速移动,例如,在我们知道pandas之前,现在已经发布了。所以我们需要在序列的分数中移动。我们如何向用户提供价值,使他们能够轻松切换?而且你们仍然可以使用psych lean吗?我能否接受这些事情。

然后我们必须对正在发生的事情进行审计。所以很难说我们在五年后会在哪里,因为在五年后,我们有所有这些事情,我可以说,我们有一整套机器学习的链条,祈祷会在这里。所以我们应该保持警觉,但我们也应该意识到,无论IT如何快速变化。

所有这些都说得很好,先生们,你们做得非常出色,教会了我们其他人关于这一点的知识。非常感谢你们今天来参加节目。