We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 863: TabPFN: Deep Learning for Tabular Data (That Actually Works!), with Prof. Frank Hutter

863: TabPFN: Deep Learning for Tabular Data (That Actually Works!), with Prof. Frank Hutter

2025/2/18
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive Transcript
People
F
Frank Hutter
J
Jon Krohn
Topics
Jon Krohn: 深度学习在图像、音频和自然语言处理方面取得了显著进展,但在处理表格数据方面却进展缓慢。TabPFN 的出现为解决这一问题提供了新的途径。 Frank Hutter: 表格数据与其他类型的数据不同,它通常数据量较小且多样化,特征通常已预先定义。深度学习擅长特征提取,但表格数据并不需要这种特征提取。TabPFN 使用类似 GPT 的 Transformer 架构,能够进行上下文学习,将整个训练集和测试集作为输入,直接预测测试集的输出,无需显式地学习特征。TabPFN 使用合成数据进行训练,通过生成一个关于数据集可能外观的先验分布来实现。Prior Data-Fitted Networks (PFNs) 利用贝叶斯推理,通过从先验分布中采样数据并进行监督学习,直接逼近后验预测分布,避免了复杂的贝叶斯推断计算。TabPFN v2 相比 v1,在处理数据类型、缺失值、异常值以及数据规模方面有了显著改进,使其适用范围更广。TabPFN v2 在无需针对时间序列数据进行专门训练的情况下,在时间序列预测任务中取得了最先进的性能。Prior Labs 公司旨在将 TabPFN 技术商业化,并开发更易于大众使用的产品。

Deep Dive

Shownotes Transcript

<context>863: TabPFN:用于表格数据的深度学习(真正有效的!),与 Frank Hutter 教授对话 Jon Krohn 与德国弗莱堡大学人工智能教授 Frank Hutter 讨论表格数据。尽管深度学习在分析图像、音频和自然语言方面取得了巨大进步,但表格数据仍然是其难以逾越的障碍。在本集中,Frank Hutter 详细介绍了他如何通过使用突破性的 Transformer 架构,即使在数据有限的情况下也能克服这一障碍。这种名为 TabPFN 的方法远远优于其他架构,正如一篇关于 TabPFN 功能的 Nature 论文所证明的那样。Frank 谈到了他在 TabPFN 版本 2 上的工作、该架构的跨行业适用性以及 TabPFN 如何能够使用合成数据返回准确的结果。本集由 ODSC(开放数据科学会议)赞助。有兴趣赞助 SuperDataScience 播客节目吗?请发送电子邮件至 [email protected] 获取赞助信息。在本集中,您将了解: (05:57) 关于 TabPFN 架构的一切 (21:27) 贝叶斯推理的用例 (35:07) 关于在 Nature 上发表论文 (44:03) TabPFN 如何处理时间序列数据 (51:52) 关于 Prior Labs 的一切 附加资料:www.superdatascience.com/863</context> <raw_text>0 这是第 863 集,与 Prior Labs 的联合创始人兼首席执行官 Frank Hutter 教授对话。本集由 ODSC(开放数据科学会议)赞助。

欢迎收听 Super Data Science Podcast,这是数据科学行业收听率最高的播客。每周,我们都会为您带来有趣且鼓舞人心的人物和理念,探索机器学习、人工智能和相关技术的尖端领域,这些技术正在使我们的世界变得更好。我是您的主持人 John Krohn。感谢您今天加入我。现在,让我们化繁为简。

欢迎回到 Super Data Science Podcast。今天的节目非常精彩,我们邀请到了著名的机器学习教授 Frank Hutter 博士。Frank 是弗莱堡大学机器学习的终身教授和机器学习实验室主任。尽管自 5 月以来他一直休假,

专注于他在德国图宾根 Ellis 研究所的 AutoML 和表格基础模型研究员工作,并成为 Prior Labs 的联合创始人兼首席执行官,这是一家德国初创公司,为其表格深度学习模型研究和开源项目提供商业化产品。该公司刚刚宣布获得 900 万欧元(约合 900 万美元)的种子轮融资。

哇。除此之外,他还拥有不列颠哥伦比亚大学计算机科学博士学位,他的研究成果影响深远,已被引用超过 87,000 次。今天的节目侧重于技术方面,主要面向数据科学家、AI 或 ML 工程师、软件开发人员或统计学家(尤其是贝叶斯统计学家)等实践者。为了更好地理解今天节目的主题,几乎每个人

都会使用表格数据,无论是主要还是偶尔使用。表格数据,我相信一旦我描述它们,您就会很熟悉,它们是以表格格式存储的数据。因此,它们被组织成行和列,就像在电子表格中一样,列可能是不同的数据类型。例如,有些列是数字的,有些是分类的,有些是文本的。

十年来,深度学习通过在各种数据(来自摄像机的像素、来自麦克风的音频以及自然语言)方面取得巨大进步,开启了人工智能时代。但在整个 AI 革命中,深度学习一直难以对无处不在的表格数据产生影响,直到现在。

在本集中,Frank Hutter 教授详细介绍了他的革命性 Transformer 架构 TabPFN 如何最终破解了使用深度学习处理表格数据的密码,并且在表格数据集上优于传统的领先方法,如梯度提升树。在本集中,他谈到了上个月发布的 TabPFN 版本 2 如何取得了巨大的进步,这要归功于其在著名期刊《Nature》上发表的论文,它能够处理数量级更多的训练数据。

他还谈到了拥抱贝叶斯原理如何使 TabPFN 版本 2 能够在未经训练的数据(如时间序列数据)上开箱即用,击败专用模型,并在关键时间序列分析基准测试中创造了新的技术水平。

他还谈到了 TabPFN 已应用的各种垂直领域,以及您如何能够立即开始在您的表格数据上使用这个方便的开源项目。好了,您准备好迎接这个扩展视野的节目了吗?让我们开始吧。Frank,欢迎来到 Super Data Science Podcast。很高兴您能来到节目中。您今天从哪里打电话来的?

非常感谢您邀请我。我在弗莱堡。这是一个美丽的德国南部城市,靠近法国和瑞士。这是一个美丽的大学城,现在实际上已经成为德国新的基础模型中心。这里有 Black Forest Labs。我们在这里构建 TabPFN。是的,我非常兴奋。

能参加这个节目,也为弗莱堡的崛起感到兴奋。——很好,这令人兴奋。您最终会进行很多面对面的互动吗?您的实验室,您的公司是否会进行面对面的会议,以及来自 Black Forest Labs 的所有这些人员,您实际上会与他们进行面对面的交流吗?——我们偶尔会一起喝咖啡,但我们都很忙。但也有聚会等等。——很好,拥有这种社区真是太好了。

是的,让我们谈谈 TabPFN。您刚才提到了它。TabPFN 对我来说已经令人兴奋了好几年了。因此,当版本一发布时,我注意到它是我注意到的唯一一个表格数据深度学习框架。因此,它确实引起了轰动。

所以我想谈谈几件事。首先,我们将讨论名称的含义。我们将讨论……每个人都发音错误。FPN?是的,它代表表格先验数据拟合网络。

这是什么意思?为我们分解一下。告诉我们,将先验数据拟合到网络中意味着什么。我想我可以很容易地解释的是,我的意思是,您可以进一步扩展,但这个表格的概念是,大多数深度学习模型都针对处理具有大量空间模式的数据进行了优化。例如机器视觉、自然语言处理,

但我已经教授深度学习近十年了。而且我经常会遇到一些金融专业的学生,他们有一些表格数据。他们会想,我很想在这个上面训练一个深度学习模型。他们总是会发现,相对于诸如提升树或有时只是普通的回归模型之类的结果令人失望。所以,是的,告诉我们是什么让这个 TabPFN 架构与众不同,

为什么它在几年前版本一发布时引起了如此大的轰动。然后,现在有了这个全新的版本二的发布,有什么区别。好吧。是的,有很多问题需要解答。问题确实很多。我可能都记不住了。也许让我们从表格数据开始吧。什么是表格数据?为什么它与视觉数据、语音数据或文本数据等如此不同?所以……

表格数据在企业中非常常见。就像表格一样,想想 Excel 表格、关系数据库。这些表格中存储了如此多的信息。您可以在各种领域中找到应用程序,例如医疗保健、金融、商业分析、保险、零售等等。

还有您在机器学习 101 中学习的典型分类和回归问题,您会将随机森林等拟合到这些问题中。还有时间序列数据、推荐系统,所有这些都与表格数据一起工作。表格数据的一个特性是,通常情况下,实际上大多数数据集都相对较小。并且有很多这样的相对较小的数据集。每个数据集都非常不同。因此,如果您有一个来自医疗保健的数据集,假设您想根据一些组学、验血结果来预测患者是否患有早期阿尔茨海默病。

然后您收集一些数据,例如,您可能在过去几年中收集了大约 5,000 名患者的数据。您知道他们是否患有早期阿尔茨海默病。然后您得到一个新的,您想预测他们是否患有这种疾病。您可以等待几年,然后您就知道他们是否患有这种疾病,但这对于治疗来说为时已晚。所以您想预测它。因此,您的特征是这些组学血液值。

而预测变量是他们是否患有早期阿尔茨海默病。然后从,我不知道,银行欺诈检测中获取另一个数据集。或者说欺诈检测。然后您将所有类型的不同交易作为该人在之前的特征。然后可能是交易中的金额、交易对象是谁等等。

就特征而言,这与组学血液值毫无关系。那么,您将如何学习一个模型,该模型能够从所有这些不同的表格数据集中学习,这实际上非常棘手。

特别是如果您将其与例如视觉进行比较,那么您将拥有这些空间模式,无论您查看的是图像中的什么内容,都存在一些空间规律性,这使得它成为一个图像,而不是一些嘈杂的东西。并且

因此,从这一点出发,我们实际上可以,是的,我们有了卷积神经网络等等,它们可以捕捉空间结构并从数据中学习特征。这就是深度学习非常擅长的方面,学习数据越来越抽象的表示。然后您将获得这种高级表示,您可以在最终层中拟合某种非常简单的线性模型。

另一方面,表格数据是人们实际上通常会对这些特征进行思考的东西。例如,这个血液标志物是什么?例如,这笔支出是多少?这实际上是一个特征,它并没有比这更高级。因此,您不需要发现这些特征。您已经拥有它们了。因此——

深度学习的强大功能并没有真正达到表格数据,因为它在那里并不需要,就像您不需要学习这些特征一样,您实际上一开始就拥有这些特征,然后

与其说是深度学习中获得的更低级的特征工程方法或特征生成方法,不如说是更高级的特征工程,就像数据科学家擅长的那样。您查看特定应用程序,然后您会说,啊,我们在医学领域。我们有

患者的身高和体重,我们想对某种疾病进行分类,也许知道他们是否肥胖是有用的。因此,让我们使用身高和体重计算 BMI,并且

嗯,所以您有,它是什么,体重除以身高的平方,这是一个新的特征,对于网络来说,一开始很难学习,当然它可以学习,但是,它不知道这实际上是一个特别好的

此特定应用程序的特征,因为它不知道上下文等等,因为通常在表格数据中,实际上馈送到随机森林等模型中的所有内容实际上都是特征和目标变量。所以是 X 和 Y,并且

这些典型的机器学习方法(如随机森林、XGBoost 等)甚至不会查看列标题。例如,语言模型擅长查看上下文并理解正在发生的事情,然后理解,啊,那是这一列。因此,我实际上可以生成类似 BMI 的东西。但这并不是标准表格数据的一部分

表格机器学习的问题描述,并且

因此,如果我们能够实际构建一种深度学习方法,该方法能够很好地处理表格数据核心,那么这将非常令人兴奋,因为一旦我们拥有了它,我们就可以将其与语言模型等深度学习的所有强大功能相结合,并构建出更强大的东西。但我们采取的第一步确实是进行苹果与苹果的比较,比较

传统方法使用的问题,不使用任何列标题等,并且仍然在其自己的领域中击败 XGBoost、随机森林等。因此,这不仅仅是因为我们使用了其他信息而更好,而是在一开始就已经非常强大。然后,我们可以在此基础上包含所有这些其他信息。好吧。这是一个冗长的关于表格数据的答案。

我很高兴地宣布,我的朋友们,第 10 届年度 ODSC East(开放数据科学会议 East),您在 2025 年不容错过的唯一会议,将于 5 月 13 日至 15 日返回波士顿。我将在那里主持一个关于代理人工智能的实践研讨会。

ODSC East 为期三天,内容丰富,包括实践课程和对尖端 AI 主题的深入探讨,所有课程均由世界一流的 AI 专家讲授。此外,还将有很多绝佳的社交机会。无论您的技能水平如何,ODSC East 都将帮助您获得 AI 专业知识,从而将您的职业生涯提升到一个新的水平。不要错过。早鸟折扣即将结束。您可以在 odsc.com/boston 了解更多信息。网址是 odsc.com/boston。

但这是一个非常棒的答案。这是一个极好的——您对这个问题以及深度学习如何通常关注从数据中提取特征提供了很好的范围。对于表格数据,我们通常不需要从原始像素、原始音频文件或原始自然语言中提取这些特征。相反,我们通常已经拥有一些精心策划的特征。但是,在这些精心策划的特征中存在巨大的机会

可以引用“深思熟虑地考虑如何重新组合这些特征”。因此,听起来您所说的意思是,这也许是您即将要讨论的先验数据部分的答案,但听起来先验数据部分、该模型的 Transformer 架构部分是,

它能够,不像梯度提升树或线性回归那样,能够考虑列标题以理解其含义,并自动计算出类似于,哦,让我们,你知道,模型然后引用“知道”高度是什么,“知道”重量是什么,它可以自动计算 BMI。这真的,真的太酷了。我差点就骂人了。我差点说这真是太酷了。是的。

是的,实际上非常酷的是,我们甚至还没有做到这一点。一旦我们做到了,它就会变得更好得多。但到目前为止,我们实际上只使用了与 XGBoost 等相同的信息,即 X、Y、原始数值、原始类别标签等。并且……

我们可以将其与语言模型等的所有强大功能结合起来。当然,我们正在研究这个问题,并有一些初步的结果。但是,是的,我提到深度学习实际上并不需要用于表格数据来生成这些特征,因为我们已经拥有了这些特征,但是,

我们实际上在这里提出了一种深度神经网络。那么有什么不同呢?不同之处在于,我们实际上使用了一个 Transformer,从某种意义上说,它与 GPT、标准语言模型非常相似。

从某种意义上说,我们实际上可以在上下文中进行学习。上下文学习是在 GPT-2 论文中引入的一个术语。它是一种现象,您可以通过提示告诉 GPT 一些内容,并且您可以通过提示告诉它应该做什么。例如,您可以说,

基本上提示它执行翻译任务,而无需告诉它应该翻译,只需说两种语言,例如狗是 Hund,猫是 Katze,母亲是 Mutter,然后是德语 Mutter。然后它基本上,仅仅从这两种或三种不同的例子中,它就明白了,啊,我应该翻译,让我们这样做。因此,它基本上……

GPT 已经学会了编码一种算法,该算法首先找出问题是什么,然后解决问题。就像那样,实际上,我们已经学习了一种可以进行表格学习的算法。因此,我们在我们的架构中所做的是,我们将整个 X 训练集、Y 训练集和 X 测试集作为提示的一部分馈送进去。输出将是 Y 测试集。

因此,一个数据集基本上是训练我们模型的一个数据点。因此,我们获取 x 训练集、y 训练集、x 测试集,将其馈送进去。网络输出一些内容。无论它输出什么,它与真实的 y 测试集有多相似?我们获取梯度,例如这些之间的损失,获取简单的交叉熵损失,

并优化这个网络的输出,使其尽可能与真实的 y 测试集相似。这说得通吗?好的。当然。因此,这——我提到一个数据集是一个数据点。因此,如果我们有数万亿个数据集,就像 GPT 从互联网上训练数万亿个标记一样,

然后我们可以说,好吧,我们有来自现实世界的数万亿个数据集。我们只需拟合一个基础模型,该模型可以精确地执行此机器学习任务,例如分类,在所有这些数据集上。并且

我们完成了。因此,一旦我们学会了在数万亿个数据集上执行此操作,那么我们就可以在下一个数据集上执行此操作。这很有道理。它非常类似于标准语言模型。您可以预测下一个单词。您只是学会了预测下一个单词。但我们没有数万亿个数据集。与语言模型相比,互联网上真正高质量的数据集非常少,

在互联网上。所以有一些表格。例如,如果您访问维基百科,就会有这样的表格,这位篮球运动员的球衣号码是多少。这不是机器学习任务。它可能是一个检索任务。但您无法从中学习任何东西。您无法通过分类或回归来学习。

但您真正需要的是这些格式正确的数据集,以便实际在这些数据集上训练您的算法。当存在大量噪声、缺失值和垃圾数据时,那么,是的,实际在这些数据上进行学习非常困难。而我们所做的是——

实际上以合成方式生成我们所有的训练数据。这是一个趋势,在语言模型中也正在发生,部分地使用合成数据进行训练。但我相信我们的论文是第一个真正成功地只使用合成数据并提出最先进模型的论文。关键是,我们确实需要生成一个先验

关于我们认为数据集可能是什么样子以及我们想要在哪些类型的数据集上取得良好效果。因此,这就是我们所说的先验数据拟合网络。现在我们将退一步,首先解释这些先验数据拟合网络是什么,然后再次回到 TabPFN,它是在表格数据上的先验数据拟合网络。

因此,基本上,首先解释 PFN(先验数据拟合网络)的理论。然后到 TabPFN 的步骤只是实际创建一个生成表格数据的先验。是的,PFN(先验数据拟合网络),实际上已经有 2022 年的一篇论文。它被称为“Transformer 可以进行贝叶斯推理”。

在那里,我们基本上表明,如果您有一个可以从中采样的先验,那么

您可以从此先验中绘制许多数据集,并从每个数据集中绘制许多数据点,然后像我们刚才使用 TabPFN 解释的那样进行拟合。生成的模型实际上将学习封装先验,以便当它实际馈送真实数据时,它将为您提供该数据下先验的后验预测分布的近似值。现在,然后

当您使用任意大的 Transformer 进行这种训练时,使用任意好的——因此交叉熵损失实际上尽可能低,那么您实际上是精确的。您的后验预测正是真实后验预测应该是什么。因此,如果您例如采用高斯过程先验或线性回归,那么

您将获得真实的基线线性回归或真实的后验高斯过程。也许我应该在这里暂停一下……是的,所以我将快速插入几个希望简短的问题和说明。因此,根据我最初的研究,我并没有意识到,也许并非所有 PFN、所有先验拟合网络、所有先验数据拟合网络都是这种情况,但听起来

先验数据拟合网络的基础是贝叶斯推理。这总是这样吗?好的,好的。是的。是的,它们确实计算贝叶斯后验预测分布。基本上,这就是优化目标。很好。因此,在这个例子中,在 Transformer 架构项目中发生了一个贝叶斯过程,一个贝叶斯学习过程。

这非常酷。因为我们,你知道,我们有时会听到贝叶斯推理将对深度学习架构(如 Transformer 架构)有用。但这听起来是一个非常具体的用例。是的,听起来这是一个强大的应用程序。是的,它非常强大,因为,你知道,

我的意思是,像贝叶斯线性回归这样的东西,您可以用封闭形式来计算。也许我应该解释一下以设定场景。因此,在那里,先验只是数据只是一条线。线有一些轴,一条线和一些斜率。因此,您基本上只需要一个关于这两个参数的后验。是的,如果您这样做,

进行数学计算,您可以用封闭形式计算这个贝叶斯后验预测分布。对于直线来说,这很好。例如,对于高斯过程来说,这也很好。但是,一旦您更进一步,例如,您不知道超参数的高斯过程,

那么您必须进行马尔可夫链蒙特卡罗或变分推理。或者,一旦您拥有一个神经网络,并且您想对神经网络的权重进行贝叶斯分析,那么它就会变得极其复杂,您可以进行各种近似或 SGLD 或哈密顿蒙特卡罗等等。数学计算非常复杂。

马尔可夫链蒙特卡罗通常需要很长时间才能收敛。有一句谚语,我的链条正在平滑采样,需要一周左右的时间才能开始运行。而另一种机会——另一种可能性是变分推理,这在数学上也经常非常复杂,并且也存在近似误差。

通常情况下,与之相比,先验网络非常简单,您所做的只是从您的先验中采样,您会得到一堆线

然后您将这些线作为来自一条线的数

这可能是一个高度信息化的先验分布,也可能是一个相对无信息化的先验分布。然后,我们使用我们拥有的训练数据来收敛到一些后验分布,这些后验分布给我们,是的,它们结合了先验信息以及我们训练的数据。你刚才举了很多很酷的例子,说明我们可以使用后验分布来寻找深度学习网络的权重,例如。

我做得怎么样?是的,实际上,非常好。我想说的一件事是,我们确实有一个限制。实际上,我们并没有得到神经网络权重的后验分布。这是使用标准方法(如MCMC和变分推理)所获得的结果。

我们绕过了这一步。我们直接转向后验预测分布。所以是给定X的Y。我们没有关于W(权重)的后验分布。使用MCMC和变分推理,你实际上会对所有权重进行积分以获得你的预测分布。但是

我们绕过了这一点。我们无法告诉你哪种架构是正确的。我们只告诉你所有可能解释数据的架构的贝叶斯积分。人工智能正在改变我们的业务方式。然而,我们需要的人工智能解决方案不仅要雄心勃勃,而且要实用和适应性强。这就是Domo的人工智能和数据产品平台的用武之地。借助Domo,你和你的团队可以将人工智能和数据转化为创新的用途,从而产生可衡量的影响。

虽然许多公司专注于狭窄的应用或单一模型解决方案,但Domo的一体化平台更加强大,具有值得信赖的人工智能结果,安全的AI代理可以连接、准备和自动化你的工作流程,帮助你和你的团队轻松地获得洞察力、接收警报并采取行动,并通过针对你角色量身定制的引导式应用程序。该平台还提供灵活选择使用哪种AI模型的灵活性。

Domo超越了生产力。它改变了你的流程,帮助你做出更明智、更快速的决策,并推动真正的增长。世界上最好的公司都依赖Domo做出更明智的决策。了解如何利用Domo释放数据的全部潜力。要了解更多信息,请访问ai.domo.com。网址是ai.domo.com。

很好。好的,我认为我们现在已经涵盖了什么是先验拟合网络,什么是PFN。所以我想我们现在可能可以转向TabPFN了。所以一个专门为表格数据设计的PFN。是的,没错。这就是TabPFN。我们谈到了PFN。你需要一个先验来……

是的,解释你对数据的不同假设。因此,我们将有一个先验来创建表格数据集,以表达我们对可能面临的数据集的假设。论文的第一作者诺亚·霍尔曼(Noah Holman)想出了一个非常巧妙的方法来

采样结构因果模型

结构因果模型基本上是一个采样图的模型,特征是图中的节点,目标变量也是图中的节点。然后你对这个图中的连接进行采样。你不太清楚,目标变量是否导致了一些特征?特征是否导致目标?一些特征是否共同导致目标?一个特征是否导致目标,而目标又导致另一个特征?

有一组庞大的可能的结构因果模型可以解释数据。

如果你能识别出适合你手中数据的正确结构因果模型,那么你将得到更好的预测。但是你做不到,你只得到数据,你实际上并没有得到结构因果模型。所以我们最终在TapiaFN中所做的实际上是构建所有可能解释数据的结构因果模型的贝叶斯后验。

因此,你可能有一个结构因果模型完全不适合数据,其概率非常低。因此,该模型的预测权重将非常低。然后,你可以有一个与这些数据非常匹配的模型,它具有更高的概率并且权重更高。这就是真正的贝叶斯后验所做的。

但是当然,TAP-EFN不会存储我们用来生成它的所有1.3亿个结构因果模型,它只获取原始数据。它已经学会了对所有这些可能的模型进行插值,并且

已经学会了实际逼近这个贝叶斯后验,这是一个很大的优势,使用生成的数据,听起来你好像说过超过1亿个生成的数据集,因为我们不像自然语言数据那样,当你训练像GPT这样的架构时,你有

数万亿个标记可以用来训练你的模型,但我们没有那种规模,在高质量、结构良好的表格数据集方面,规模远不及此。所以你已经模拟了超过1亿个这样的数据集。是的,没错。所以我们实际上可以真正控制输入的内容。所以我们没有数据泄漏,因为我们实际上没有放入任何真实数据。

因此,我们不可能记住测试数据集或其他什么东西。实际上,一个有趣的事实,我应该提到这一点。我们第一次提交TAP-KFN v1时,它被拒绝了,因为审稿人说,好吧,A,这只是性能太好了。你一定做错了什么。

他们认为我们做错了什么,你一定是在测试集上进行调整。因为我们实际上在那里有一些复杂的东西,实际上正在进行一些基于梯度的更新,查看一些真实的数据集。我们只是删除了所有这些。它变差了ε。我们只是在训练期间从未接触过任何真实数据。这使得它在下次提交给颜色分类器时更容易辩护。是的。

所以现在,所以你提到了第一版。所以现在,除非我,除非我操之过急。所以几年前,第一版问世了,这就是我在节目开始时谈到的内容。那是我第一次注意到快乐事件的时候。直到今天,它仍然是我关注的唯一一种表格深度学习方法。嗯,

但在1月份,你们发表了一篇论文。你之前提到了诺亚·霍尔曼(Noah Holman)。他是你发表的这篇《自然》论文的第一作者,论文名为《使用表格基础模型对小型数据进行准确预测》。当然,我会在节目说明中提供该论文的链接。我们现在将花相当多的时间来讨论这个第二版发布和相关的论文。为了快速回答可能在开始时就提出的问题,当你在

想出一个发表像TabPFN这样的东西的场所时,你是怎么想到《自然》杂志的呢?它是世界上最受欢迎的期刊之一,它很通用,旨在对所有学科进行广泛的概述,所以这很有趣,因为虽然我

所以我想,是什么让你想到,我不知道,所以你可以让我知道你为什么选择《自然》,但首先,能够在《自然》杂志上发表文章是一件令人惊奇的事情。所以想到甚至有胆量向《自然》杂志投稿,这真是太令人惊奇了。然后我猜你选择《自然》杂志的原因是表格数据,

在如此多的不同科学领域中如此普遍。我的意思是,你的摘要中的第一句话就是从生物医学到粒子物理学再到经济学和气候科学,表格数据(即以行和列组织的电子表格)在科学领域中无处不在。所以我想我明白了。好吧,我已经说得太多了。你可以告诉我,告诉我这篇《自然》论文的内容以及导致它的原因。是的,当然。呃,

是的,表格数据非常普遍。所以我们确实想接触更广泛的受众。当然,这是我们从《自然》杂志获得的好处之一。但实际上是

在我们提交第一版,即TapiaFN v1时,我们将其提交给了iClear,该期刊的论文直接在线。而且如果你撤回它们,它们也会保留在线。字面意思是在我们提交后的第二天,我想,

这是一个真正的突破。这改变了一切。我们现在实际上可以拥有一个能够进行上下文学习并在表格数据集之间学习的深度学习模型,这其中蕴含着巨大的潜力。我想,

如果我是DeepMind,我会把它送到《自然》杂志,因为DeepMind实际上,它确实在那里发表了很多论文,DeepMind是我们阅读很多论文的地方,每当他们有一篇新论文时,我们都会说哇,这太棒了,每个人都在谈论它们,而且……每个人都阅读这些论文,我阅读这些论文,它们真的很好……我想,嘿,这都是同一水平的,而且

但是我们已经提交给了iClear,所以如果你撤回,它仍然在线。这将是一个问题。所以我们想,好吧,没关系。我们不能在《自然》杂志上发表。但让我们做一个下一个版本。让我们让它变得非常非常强大。因为第一版,它所做的所有事情都是——它非常有限。它只适用于数值数据。它没有处理缺失值。它没有处理异常值。它没有处理不平衡数据。

甚至没有分类值的处理问题,当然,像表格数据一样,它都是分类的,它也没有进行回归,它只进行了分类,它对我来说真正做的事情是,它让我大开眼界,这表明这是可能的,我们引用并非仅仅需要

扩展规模,只需要让它更通用等等。当然,我们在架构上进行了一系列扩展和改进等等。但是从根本上说,从WFN v1到v2,它在很大程度上是相同的上下文学习,只是让它真正发挥作用。所以

实际上,它更适合《自然》杂志,因为nv1类型的是,是的,很棒,你可以在最多一千个数据点的数据集上做到这一点,我们有什么?只有100个特征,只有数值数据,没有数据科学中的任何东西,没有这些问题,所以没有很多人使用它,因为这个原因,我们有大约……

我们有一个包含一些应用程序的存储库,大约有15篇论文使用了它,并表明它在不同的领域中非常出色。但是是的,15篇,而不是数千篇。所以这是社区对TAPI-FNv1的正确批评。我说,嘿,这太棒了。然后他们说,好吧,为什么没有人把它用于Kaggle?为什么不……这不是……

就影响而言,这并不是真正的突破。但这确实是WF-NV2发生变化的原因,因为它现在变得非常通用。它可以做任何事情。它可以解决任何类型的机器学习问题

表格机器学习问题,就像XGBoost一样,但也有一些限制。我在这里绝对需要非常清楚。它仍然有大小限制。所以很小——这在《自然》论文的标题中——小型表格数据集。所以,我们特别评估的是最多10,000个数据点和最多500个特征。

所以我们已经从之前的1000个数据点大幅扩展了。是的,我很确信,通过结合不同的方法,我们也可以扩展到10万个、100万个或类似的数据点。一旦你拥有数十亿个数据点,你就不需要对数据进行贝叶斯分析,那么你就有足够的数据让数据来说话。但是当你只有100个数据点,并且你拟合

一个神经网络或你拟合一个XGBoost或其他什么东西时,它通常会过度拟合数据。但是如果你有一个强先验,它强调平滑度等等,那么你过度拟合的程度就会小得多。所以它特别地,它学习使用样本数据集的测试部分上的交叉熵损失,它已经学会了不过度拟合。所以它不像标准方法那样过度拟合。

是的,这是一个突破,但并不是在方法改进方面。是的,我们有一个新的架构,这很好。这本身就可以成为一篇论文。我们可以写单独的论文,例如,让我们为缺失变量或缺失变量做这个。我们可以写一篇关于不平衡的论文。我们可以写一篇关于仅仅是——

回归等等等等的论文。所以我们可以写关于所有这些的论文,但是

我们没有这样做,因为我们将不得不进行消融研究,与各种不同的方法进行比较,特别是为此。我们只想要一个包罗万象的框架,它适用于各种数据。而《自然》杂志是这类论文的绝佳场所,其中最终结果才是最重要的。它不是为了达到目的而进行的个体方法论贡献,而是

你现在拥有什么,例如AlphaFold。是的,那里也有一些方法论上的贡献,但它们并不令人难以置信。只是把所有这些东西放在一起真的起作用了。所以我们也属于这一类,这就是为什么我们有胆量尝试《自然》杂志,而且它确实成功了。

你知道招聘经理最关注的是你完成的项目吗?这就是为什么在机器学习和人工智能领域建立强大的投资组合对你的成功至关重要。

在Super Data Science,你将学习如何在Hugging Face和GitHub等平台上启动你的投资组合,并用各种项目填充它。在专家领导的现场实验室中,你每周都会完成一个令人兴奋的新项目。此外,通过社区驱动的项目,你将与团队合作,处理现实世界中的多周任务。获得动手实践经验,项目包括零售需求预测、从头开始构建AI模型、在云中部署你自己的LLM等等。立即开始你的14天免费试用,并使用superdatascience.com构建你的投资组合。

是的,非常酷。所以这个第二版,相对于第一版,为了总结一些关键属性,你现在可以处理,好吧,它在最多10,000个数据点、500个特征上进行了良好的测试,这相当多的特征。

它可以处理不同类型的数据,而不仅仅是数值数据。它甚至可以处理文本数据,对吗?它现在可以在API中使用,但实际上不在论文中。是的,它处理缺失值。它处理异常值。这非常酷。

我想我已经说过“非常酷”不止一次了,但我并不介意重复,因为这将是一项改变游戏规则的事情,特别是正如你所说,在表格数据的情况下,我们没有大量数据,我们没有数十亿行数据,我们有

数百、数千、数万,也许数十万个数据点。拥有这些贝叶斯方法允许先验更好地拟合数据,而不是其他方法。在我们讨论TabPFN的具体现实世界示例之前,据我了解,除了处理表格数据之外,你最近还在时间序列数据方面取得了突破。是的,所以这真的是……

这真是令人难以置信。它与我们在《自然》论文中使用的模型相同。我们也尝试了时间序列数据。时间序列可以认为是一元时间序列,只是随时间变化的信号,例如可能是一种趋势。基本上,你有一个时间信号,然后是信号的大小。

我们所做的就是获取时间索引,基本上说,好吧,这是一天中的时间。这是星期几。这是几月几日。对它进行一些正弦和余弦特征,并将其转换为表格问题。所以基本上,每个时间戳都会获得这六个特征,包括未来的时间戳。

然后对于每个已知的时间步长,你都有你的x训练。对于未来的时间步长,你拥有x测试。所以这适用于下一个时间步长或未来17,000个时间步长。你可以将每个时间步长编码为一个新的数据点。因此,你可以像这样直接在一个前向传递中预测你想要的任何时间范围,而不是自回归地预测。

令人难以置信的是,我们在《自然》杂志上发表的这个模型只在合成数据上进行训练,并且从未见过时间序列,并且从未在第一时间见过真实数据集,实际上

在时间序列的公共基准测试中是最好的。它优于所有专门针对时间序列进行训练的、在合成生成的时间序列、真实时间序列等上进行训练的基础模型。使用这个模型,我们甚至没有尝试。它开箱即用。所以截至今天,有一个基准测试GIFT EVAL,它在欧洲的DBT论文中。

就在几个月前。是的,所以这是时间序列的标准基准测试。它是排名第一的,优于Kronos。Kronos来自亚马逊。这是一篇非常酷的论文。这只是为了表明这里有多少东西可以获得。有

一旦我们针对时间序列进行微调,并且我们对此进行迭代,或者我们有一个时间序列先验,那么一切皆有可能。所以我对此非常兴奋,并且非常期待在那里做更多的事情。最先进的,开箱即用。这是一个不错的结果。哇。

太棒了。是的,从第一版到第二版,所有这些重大更新。正如你提到的,第一版TabPFN的适用性相对有限,但尽管如此,它仍然产生了一些很好的用例。

其中一个是科学论文。所以除了《自然》杂志之外,你发表论文的另一个大型通用科学期刊是《科学》杂志。所以有这篇论文。我甚至不会试图解释这其中的生物学含义,但我们会将这篇论文包含在节目说明中。它被称为“大规模化学蛋白质组学加速配体发现并预测细胞中的配体行为”。呃,

所以我无法真正解释这是什么。它与确定蛋白质结构有关。但关键是TabPFN被用作他们在这篇论文中做出的推论的一部分。我还将在节目说明中提供一个链接,指向一个名为AwesomeTabPFN的GitHub存储库,该存储库列出了大约十几个现有的应用程序

TabPFN在健康保险、工厂故障分类方面的应用。它有金融应用。其中有一篇关于野火传播的论文,以及一些生物学论文。所以是的,显然有很多不同的应用程序,即使对于V1也是如此。我不知道你是否想详细讨论它们,弗兰克,但我了解

你当然希望更多人尝试TabioFN,尤其是在第二版可以处理更多数据类型、可以处理缺失数据、可以处理异常值以及可以处理更大数据集的情况下。所以

所以听众们,如果你有表格数据,你可以访问我们也在节目说明中提供链接的TabPFN GitHub存储库,你可以立即开始使用。是的,太棒了。非常感谢你提到这个很棒的TabPFN存储库。我今天才创建它。所以我希望在节目播出时,那里会有超过十几个应用程序。是的,

请随时,无论何时你有一个应用程序或用例,只需给我们发送一个便条,或者实际上这是一个你可以进行拉取请求的存储库,其中包含你自己的应用程序,放入你自己的论文,我们将对其进行宣传。此外,如果有一些很酷的应用程序,我们很乐意撰写博客文章或转发你的内容等等。我认为我们真的想建立这个

热爱TabioFN并在此基础上进行构建的人们的社区。开源社区已经接受了这一点。在《自然》论文发表后的几天内,ShappIQ上就有一个关于可解释性的存储库,直接将TabioFN放在其中。所以是的,看到开源社区的速度如此之快,这真是太令人惊奇了

我非常期待人们将用它来构建什么。我想提到的一个很酷的事情是《科学》论文,是的,我对化学蛋白质组学也不了解,但这正是巧妙之处。我仍然可以在此工作,因为,好吧,我们有这种非常通用的方法,如果那里有来自化学蛋白质组学的数据,那么我们就可以对其进行微调,并获得对该用例更有效的东西。所以这些是,

我非常期待为各种用例做的事情。也已经有预测……藻华的东西!是的,藻类!是的,藻类,我知道,藻华会处理这个问题。对环境有益的事情等等。我认为我对这些类型的应用程序非常兴奋。医学方面有很多应用

金融方面的已发表论文并不多,因为,好吧,人们通常不会发表这些类型的应用程序。但是医学方面有很多。是的,我真的很希望很多人使用它来为世界做一些好事。是的,太棒了。非常酷。所以是的,你很快就可以访问TabPFN存储库。

立即访问这个Python库。嗯,在录制时,它已被下载了近一百万次,这非常酷。嗯,然后我们当然还会有一个链接到这个很棒的Tab BFN存储库,其中包含所有应用程序。嗯,说到应用程序,你正在推出一个初创公司来帮助,嗯,

传播福音,并推测TabPFN和相关技术的应用,鉴于我们已经谈论了贝叶斯推理、先验和后验,这很合适。你作为联合创始人兼首席执行官的新公司名为Prior Labs。所以请告诉我们一些关于Prior Labs的信息以及

它如何补充或与你在图宾根和弗赖堡的研究有何不同。是的,我对这家初创公司非常兴奋。多年来我一直想建立一些东西。但是

实际上,在过去的10到12年中,我共同创立并共同领导了AutoML社区,这是一个关于自动化机器学习的社区。这完全是为了使机器学习民主化,使每个人都能轻松获得最先进的机器学习,而无需担心选择正确的超参数、选择正确的方法等等。

我们有很多……

伟大的研究和许多非常好的论文。我们也有一些工具,特别是AutoSQL Learn是我们使用最广泛和最知名的工具,它围绕scikit-learn进行包装,并允许你找出scikit-learn中的正确方法、正确的预处理、正确的算法、正确的分类器、正确的超参数等等,并使之变得更容易。但是

它总是,来自大学并在大学工作,只有少数研究工程师碰巧想在大学环境中工作,我们从未真正处于为大众构建东西的地位。我们总是构建一些对我们的研究朋友和我们自己进行研究有益的东西。而且

是的,如果你想接触更广泛的人群,当然,我们需要一个商业实体来做到这一点。而且TabioFN确实是一个突破,它将允许做很多很酷的新东西,是的,我们只需要更多劳动力。我们需要非常强大的工程师来构建令人惊叹的产品。所以这就是我们将在初创公司中做的事情。在大学里,我会保持……

一个学术合作关系,在大学里,我将非常关注表格数据,以及关于表格数据的研究,例如

诸如可解释性之类的事情,例如这个网络做了什么?它是学习到的最佳算法,但这个算法是如何精确工作的?当你改变先验时,它如何精确地改变?故障模式是什么?它在哪些方面特别好?我们如何进一步改进它?有很多途径可以进行研究。当然,对于初创公司,我们也希望突破能力的界限。

戴着大学的帽子,我们将能够更多地关注一些登月计划,一些可能成功也可能失败的事情。拥有这种开放式的研究是很好的,而你只能在学术环境中拥有这种开放性。

所以我非常兴奋能够将两者结合起来,并为博士生提供一个机会,让他们拥有优秀的工程师来实际构建博士生发表成果的产品。所以我对这些协同效应和FireLab的未来感到非常兴奋。太棒了。我知道你至少正在招聘博士生,因为你最近在LinkedIn上发布了关于此的信息。所以我会包含一个链接到该链接。

在节目说明中。我还想知道,我的意思是,听起来你也在Prior Labs招聘工程师。是的,我们实际上正在Prior Labs招聘很多人。我还没有在LinkedIn上发布关于此的信息,因为我们将在启动后两天发布我们的融资公告

录制节目,但到节目播出时,它早就已经发生了。是的,我们正在全力招聘人工智能科学家、机器学习工程师、后端工程师、社区人员,将来某个时候还会招聘销售人员,但我们现在实际上并没有真正关注这一点。我们专注于建立社区和构建令人惊叹的技术。

很好。所以鉴于,我通常会让我的最后一个问题是如何关注你,但我实际上现在就要跳到这个问题了,因为我们一直在谈论你将如何发布这个大型融资公告,到本集发布时,它将上线,你将在LinkedIn上宣布更多招聘信息等等。那么人们应该如何关注你以获取TabPFN的最新信息,但也可能有机会参与开源社区甚至作为付费员工?是的,所以我是,

我在Twitter/X和LinkedIn上,在LinkedIn上更多。如果我有时间的话,我也想在某个时候开始使用Blue Sky。但是,是的,然后当然,我们有这个,你提到的GitHub仓库。所以有一个TapioFN仓库。有一个TapioFN API仓库。还有一个TapioFN扩展仓库。特别是这些TapioFN扩展,这是一个仓库……

我们强烈鼓励社区推送扩展,推送人们使用TapioFN所做的很酷的事情,例如可解释性方面的工作,进行更好的超参数优化方面的工作,博士后组装之类的工作。Auto TapioFN已经在其中了。因此,我们强烈鼓励

是的,如果您有兴趣将TPFN应用于您的特定领域(例如微调等),请与我们互动。

实际上也联系我们,尤其是在我们的Discord频道上,我们有一个Discord频道,特别是针对Tapio,我们已经有200多人加入了,我开始建立这个社区,所以我很兴奋,它正在运作,我上周在那里做了一个AMA,并且……是的,很棒的问题,而且我……

是的,看起来它将成为一个非常酷的社区。很好。是的,毫无疑问。这很有趣。我以前没有注意到这一点,但是我可以在TapioFN的GitHub仓库上看到现在有多少人在Discord频道在线。有55人在线,这是一个有趣的包含在其中的小部件。很好。是的,太棒了。我相信你会从这期播客节目中获得很多兴趣,以及这个项目本身有多么令人惊叹。它确实具有变革意义。它

能邀请你参加节目让我非常兴奋,因为我长期以来对TapioFN很感兴趣。在我让你走之前,我需要你推荐一本书。推荐书?让我看看。我真的很喜欢阿西莫夫。机器人系列,基地系列。如果你还没有读过,我强烈推荐。这是一个很好的推荐,尤其是在这个时候。

非常感谢你,弗兰克,抽出时间,你知道,在创业和大学责任之间忙碌。你能够抽出时间参加这样的节目真是太棒了。所以我们真的非常感谢。是的,祝你一切顺利。是的,这超级令人兴奋。我喜欢你的节目。是的。

我真的很荣幸能来到这里。所以我很兴奋。谢谢。是的,是相互的。也谢谢你。好的。是的,也许我们几年后可以再次联系,看看TAB PFN之旅和Prior Labs之旅进展如何。绝对的。喜欢。

今天与弗兰克·胡特教授进行了一次引人入胜且实用的访谈。在访谈中,他介绍了TabPFN是如何专门为表格数据设计的深度学习模型,它使用Transformer架构结合贝叶斯原理,即使数据有限也能做出准确的预测。他谈到了TabPFN的第二版如何显著扩展了其功能,现在可以处理多达10,000个数据点、多达500个特征、缺失值和异常值、数值和分类数据,以及通过他们的API(目前仅限于此)文本数据。

该模型完全使用合成数据进行训练,超过1亿个生成的dataset,消除了任何潜在的数据泄漏,同时确保了强大的性能。他谈到了TabPFN第二版如何在没有任何特定时间序列训练的情况下意外地实现了时间序列预测方面的最先进性能,超过了亚马逊的Kronos和其他专门的时间序列模型。他还谈到了他的新创业公司Prior Labs是如何创建来商业化TabPFN技术并构建产品的

让TabPFN的突破能够为更广泛的受众所用,同时继续进行学术研究。与往常一样,您可以在superdatascience.com/863上获得所有节目笔记,包括本集的文字记录、视频录制、节目中提到的任何材料、弗兰克的社交媒体资料的URL以及我自己的资料。

如果您想亲自见面而不是在线见面,我将于3月19日在弗吉尼亚州里士满的RVA Tech数据和人工智能峰会上发表开幕主题演讲。门票非常便宜,坦率地说。因此,如果您尤其在里士满地区,请于3月19日来这里见我。在那里见到你将非常棒。

当然,感谢Super Data Science播客团队的每一个人,我们的播客经理Sonia Brayovic,我们的媒体编辑Mario Pombo,合作伙伴关系经理Natalie Zheisky,我们的研究员Serge Massis,撰稿人Zahra Karchei博士和Sylvia Ogwang,以及我们的创始人Kirill Aramenko。感谢他们为我们制作了另一集视野扩展的节目。为了让超级团队为您创建这个免费播客,我们当然非常感谢我们的赞助商。您可以通过查看节目说明中的赞助商链接来支持该节目。

如果您有兴趣自己赞助一集节目,您可以通过访问johnkrone.com/podcast了解如何做到这一点。否则,

与那些希望将深度学习应用于表格数据的人分享这集节目,在您最喜欢的播客应用程序或YouTube上评价这集节目,如果您还不是订阅者,请订阅,随意将我们的视频编辑成您喜欢的短视频,但最重要的是,继续收听,我很感激您的收听,我希望我能继续制作您多年来喜爱的节目,直到下次,继续摇滚吧,我期待着很快与您一起享受下一轮Super Data Science播客