The AI winter was more of an 'AI autumn,' where expectations fell but important foundational work continued. Researchers like Hinton, LeCun, and Schmidhuber made gradual progress, laying the groundwork for later breakthroughs in deep learning.
GPUs, originally designed for gaming, became crucial for accelerating the matrix math required by neural networks. This enabled the training of deeper and more complex models, which was a key factor in the deep learning revolution.
The democratization of AI allows independent researchers and small teams to apply powerful models to novel domains, leading to diverse and innovative applications. This approach bypasses the incentive structures of traditional academia and large labs, fostering creativity.
AlexNet demonstrated the power of deep learning on GPUs, significantly outperforming previous methods like SVMs. It marked a tipping point in computer vision and showed that deep neural networks could be effectively trained on large datasets, sparking widespread interest in neural networks.
The awards signal AI's growing impact across scientific disciplines, marking a 'crossing the chasm' moment where AI moves from niche technology to mainstream scientific tooling. It validates AI's role as a meta-discipline that benefits other fields.
Boltzmann machines are a type of neural network developed in the 1980s that use probabilistic rules inspired by statistical physics. They were crucial for learning complex probability distributions and finding hidden patterns in data, paving the way for modern deep learning techniques.
In the 1990s, AI research was often seen as stagnant, with limited practical success in neural networks. However, in hindsight, this period was marked by foundational work that set the stage for the deep learning breakthroughs of the 2010s.
The 'bitter lesson' suggests that general-purpose techniques like search and learning tend to outperform domain-specific, hand-engineered methods. This principle is reflected in the increasing reliance on computation and data scaling in modern AI research.
Transformers introduced the attention mechanism, allowing models to focus on relevant parts of input data and capture long-range dependencies. This was a significant leap from earlier models like Boltzmann machines, which were more limited in their ability to process complex data.
Universities often lack access to the compute resources and data engineering expertise needed for large-scale AI research. Bridging this gap requires better collaboration between academia and industry, as well as open-source tools that allow researchers to focus on domain-specific applications.
我认为,从20世纪80年代神经网络最初的热潮到2012年深度学习的突破之间,这段时期涌现了许多真正重要的基础性贡献,当然包括辛顿,还有扬·勒丘恩和施米德胡伯,因为他们在这一时期持续致力于神经网络方法的研究,取得了逐步的进展。我认为,在我看来,一些重要的里程碑包括:首先,当然,是CNN时刻,扬·勒丘恩和其他人在上世纪90年代
提出了这些卷积神经网络,它们被证明对图像识别任务非常有效。之后不久,施米德胡伯和霍赫赖特做了一项非常重要的工作,关于长短期记忆网络,LSTM。在此基础上,辛顿和其他人开发了逐层预训练深度网络的技术,这是无监督预训练的基础。这些技术的最大好处是帮助克服了
训练非常深层网络的困难。当然,最引人注目的就是GPU,它可以加速这些神经网络计算所需的所有矩阵运算。因此,虽然我认为在那个“AI寒冬”,或者我更愿意称之为“AI秋季”期间,没有任何一项单独的技术能够立即导致神经网络的广泛应用,但它们为我们现在正处于其中的深度学习革命奠定了基础。
再次欢迎收听A16Z AI播客。我是德里克·哈里斯,再次与A16Z普通合伙人安杰尼·米达一起深入探讨一个有趣的人工智能话题。在这种情况下,它是关于诺贝尔奖的,确切地说,是五个诺贝尔奖,分别授予物理学和化学领域的AI研究人员。
因为它是一个很好的出发点,可以解释我们是如何到达我们目前的状态的,所以我们更多地关注物理学奖,该奖项授予约翰·霍普菲尔德和杰夫·辛顿,以表彰他们40多年前在人工神经网络方面的早期工作。尽管辛顿尤其是在2010年代初的深度学习运动中也是一个重要人物,这为当今的基础模型和AI工具的大规模采用提供了直接的联系。
我们讨论了神经网络、计算机科学和物理学之间的联系,为什么最后的AI寒冬更像是一个AI秋季,它实际上为一些巨大的进步奠定了基础,以及我们如何才能看到其他领域和科学学科采用类似工厂的方法来构建AI模型,这种方法已被证明对AI实验室非常有效。
最后,我们讨论了如何重振大学内部领先的AI研究,以及独立的建设者、团队和开源创造者在推动AI和一般软件方面的重要系统级进步中日益重要的作用。请享用。
提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且不针对A16Z基金的任何投资者或潜在投资者。更多详情,请访问a16z.com/disclosures。
所以杰夫·辛顿和约翰·霍普菲尔德获得了诺贝尔物理学奖,同样,来自谷歌DeepMind的德米斯·哈萨比斯和约翰·贾姆珀获得了今年的诺贝尔化学奖,这是他们部分关于AlphaFold的工作成果。总的来说,安杰,对于AI领域来说,看到五位研究人员在一年内获得诺贝尔奖意味着什么?冒着使用当地俗语的风险,这是否证实了AI和计算机科学总体上正在吞噬其他科学领域?
一种观点认为,这代表着AI的一个分水岭时刻。它极大地肯定了AI在不同科学学科中的重要性,它标志着AI日益增长的影响力和与许多其他基础研究领域的融合。我认为,与之相反的观点或相反的观点是,这些奖项令人惊讶。
因为它们在某种程度上淡化了特定领域奖项的意义,可能更多地反映了炒作而不是科学价值。也许诺贝尔委员会正在追逐AI的浪潮,实际上,他们可能会掩盖传统物理学和化学中更重要的工作。我更同情前一种观点,即我认为这确实代表了AI的一个“跨越鸿沟”时刻。
它表明AI正在从利基技术转变为主流科学工具。我发现探索与开发框架在这里是相关的,我认为基本上我们正在看到AI几十年探索的成果。
现在正在多个科学领域得到开发。所以我认为,这对于科学和AI来说都是一个巨大的胜利,从以下意义上说,人工智能和计算机科学在许多方面是一门元学科。它是对通用计算方法的研究,这些方法有利于特定领域和应用。我认为非常令人兴奋的是
我们正在认识到像计算机科学和人工智能这样的元科学对其他许多学科的价值。所以我希望它能激发更多人在这些基础科学领域采用这些工具。我认为,如果它导致科学方法的效率大大提高,我们都会受益。对于每一个对此的回应,我认为诺贝尔新闻也是回顾过去40年左右AI历史的一个很好的催化剂。因为如果我们从辛顿和霍普菲尔德开始,
他们因在人工神经网络方面的早期工作而获奖,这些工作可以追溯到80年代初。那么,你能向不熟悉玻尔兹曼机的听众解释一下它是什么,以及这项工作为什么如此重要吗?
当然。正如你所说,玻尔兹曼机是由杰弗里·辛顿和他在80年代的一些同事开发的。它是一种人工神经网络,其基础很大程度上来自统计物理学中的概念,即玻尔兹曼分布。它既有用于输入和输出处理的可见节点,也有用于网络内部表示的隐藏节点的概念。其次,它是一个生成模型。因此,它可以学习并产生与其训练数据类似的新模式。
第三,它使用概率规则来更新网络的节点状态,这受到了统计物理学中粒子行为的启发。我认为玻尔兹曼机核心重要性在于它能够学习复杂的概率分布,并在没有显式编程的情况下找到数据中的隐藏模式。
这对更强大、更灵活的机器学习模型来说是一个相当重要的步骤。辛顿和他的同事为玻尔兹曼机开发了这种学习算法,虽然它很优雅,但计算量非常大。因此,后来他们用更有效的版本跟进了,比如
像受限玻尔兹曼机,RBM,它后来成为现代深度学习的重要组成部分。我认为,对玻尔兹曼机的价值也有两种观点,对吧?一种观点认为,它们是神经网络发展中的一个关键步骤,它们允许无监督学习,因为它们可以处理比以前模型更复杂的模式。
而另一方面的观点则会说,你看,这些玻尔兹曼机在很大程度上已被其他技术所取代,它们直接的影响被夸大了。对辛顿的奖励可能更多的是因为他整体的贡献,而不是这项具体的工作。我更同情前者,因为我认为玻尔兹曼机确实代表了AI历史上站在巨人肩膀上的关键时刻。它们今天肯定没有被广泛使用,
但它们仍在被研究,因为它们是该领域发展中的一个关键垫脚石。我认为它们帮助研究人员真正理解了神经网络在学习和生成数据方面的强大功能。它们为深度学习后来的进步铺平了道路。我绝对认为这项工作是现代AI技术发展的基础,这些技术现在被用于各种应用,对吧?比如图像识别、自然语言处理和药物发现。
我认为我们应该将它们视为一个非常有意义的历史发展,但它们今天肯定没有被广泛使用。我认为现代AI有一个几乎平行的发展轨迹,我认为用应有的尊重来对待它们并不具有争议性。
在对“苦涩教训”的理解的历史发展中。但是,将玻尔兹曼机和辛顿最近的工作混为一谈,我认为这可能是夸大了它们的重要性。你提到了辛顿后来的作品,因为,你知道,在玻尔兹曼机和2012年的AlexNet之间可能间隔了近30年,AlexNet也来自杰夫·辛顿在多伦多大学的实验室。你能大致介绍一下这段时间里,也就是辛顿的诺贝尔奖工作和深度学习之间发生的工作吗?
我认为这是一个很有趣的问题,因为这个时期肯定存在现状观点。例如,如果你查看那个时代的文献,它经常将自己称为从20世纪90年代到2000年代持续的“AI寒冬”。这种观点认为,该领域看到了持续的研究
但神经网络的实际成功非常有限。研究重点转向了其他AI技术,如支持向量机和决策树。事实上,当我上研究生院并学习机器学习课程时,我认为这在很大程度上仍然是这种观点。但是我认为,现在回想起来,如果我今天要更新这些先验知识,我会说那个AI寒冬被夸大了。实际上,大量重要的基础性工作
在这个时期仍在继续。因此,关于寒冬和春天的说法过于简化了所取得的进展。我倾向于将这段时期更多地描述为“AI秋季”,因为我认为它代表了一种绝望的低谷,期望值下降了,但重要的工作仍在继续。因此,从20世纪80年代神经网络最初的热潮到2012年深度学习的突破之间,在我看来,这段时期涌现了许多真正重要的基础性贡献,当然包括辛顿,还有扬·勒丘恩和施米德胡伯,因为他们在这一时期持续致力于神经网络方法的研究,取得了逐步的进展。我认为,在我看来,一些重要的里程碑包括:首先,当然,是CNN时刻,对吧,扬·勒丘恩和其他人在上世纪90年代提出了这些卷积神经网络,它们被证明对图像识别任务非常有效。之后不久,施米德胡伯和我
正在篡改他的名字,但它是霍克赖特,做了一项非常重要的工作,关于长短期记忆网络,LSTM。这些在某种程度上解决了循环神经网络中的梯度消失问题,使网络更适合于顺序数据处理,而不是离散数据处理。然后我认为,在此基础上,辛顿和其他人开发了逐层预训练深度网络的技术,这是无监督预训练的基础。
这些技术的最大好处是帮助克服了训练非常深层网络的困难,对吧?这些网络有几层,而不是更原始的单神经元网络或单层网络。这在某种程度上构成了基础网络架构方面的工作,然后在2000年代左右,许多人进行了优化算法工作和正则化技术,使神经网络的训练更加可靠,更加稳定。
最引人注目的就是GPU,它可以加速这些神经网络计算所需的所有矩阵运算,从2007年、2008年左右的英伟达GPU开始,这些GPU最初是游戏卡。
但事实证明,它们在帮助许多Matmul运算速度大大加快方面非常出色。在那个“AI寒冬”,或者我更愿意称之为“AI秋季”期间,没有任何一项单独的技术能够立即导致神经网络的广泛应用。它们为我们现在正处于其中的深度学习革命奠定了基础。
AlexNet有什么特别之处?它真的是像你说的那样,几十年工作的顶峰,然后意识到,哦,是的,GPU实际上帮助我们,像你说的那样,加快了速度,并使其成为一件可行的事情?你知道,我认为普遍的观点是,AlexNet证明了深度学习在GPU上的强大功能。
这些技术远远超过了之前的技术,比如我们刚才谈到的SVM。它标志着当前AI热潮的开始,尤其是在计算机视觉领域,因为在此之前,对神经网络最流行的反对意见是它们非常低效。
我认为他们可以利用摩尔定律。我认为这证明了“苦涩教训”的思想,即我们在一个领域的早期往往会过高地评价效率而不是泛化能力。实际上,能够利用像矩阵运算这样的通用技术。
通常是一个相当不错的选择。效率,如果有的話,是在特定时间点的规范性判断。如果我们要批评一组计算技术效率低下,你必须始终用时间范围来加以限定,并说,现在太低效了。“相反的观点是,AlexNet的重要性被夸大了。它主要是在现有技术上的增量改进。当时还有许多其他近似的近邻神经网络。对这篇单一论文的关注掩盖了其他重要的并发工作
当时正在发生的事情。我认为这是有点不公平的。我认为这是一个转折点。我认为有一些开创性的研究工作导致了该领域方向的质变改进。我认为AlexNet确实帮助实现了这一点。从性能的角度来看,AlexNet在ImageNet分类任务基准测试中显著优于其他方法。我认为它将错误率降低了
两位数,超过20%。从规模的角度来看,它表明这些具有许多层级的深度神经网络,我认为最初的实现有八层和数百万个参数,可以在相当大的数据集上有效地进行训练。我认为它表明,你可以利用GPU加速来训练比以前更大型的网络,这表明硬件的进步可以使更强大的AI模型成为可能,从一般应用的角度来看
AlexNet在一个相当具有挑战性的现实世界任务(如图像分类)上的成功意味着,类似的方法也可以用于其他复杂的问题,如自动驾驶汽车等等。从特征学习的算法角度来看,AlexNet直接从数据中学习这些分层特征,减少了对以前计算机视觉技术中更常见的、人工设计的特征的需求。所以我认为它确实帮助激发了人们对神经网络的兴趣,并启动了当前的深度学习革命。
当然,就我个人而言,是的,当时作为一名机器学习研究人员做我的研究生工作,这非常令人兴奋。感觉我们正处于一个新的文艺复兴时期,对吧?而就在几年前,这是一个相当沉闷、愤世嫉俗的AI研究领域。所以,关注该领域并身处该领域的人可能会追踪AI在过去十年左右的持续进展。但是,像ChatGPT一样,在2022年末似乎是另一个重要的拐点。而且,生成式AI的概念,特别是对于文本来说,似乎对某些人来说是
突然出现的,或者达到了那个水平。如果你关注深度学习,有很多计算机视觉。有很多物体识别。硅谷的“热狗还是非热狗”是一个有趣的时刻,被抛了进去。如果你知道它,如果你明白了,你就明白了。但这与像今天的Ideogram、Black Forest Labs和Flux,甚至Siri和
Alexa的早期迭代之间存在巨大差异。是什么样的飞跃让我们从早期的深度学习时代(你可以对数据库中的物体进行分类,比如说)发展到今天,我们正在生成的东西,没有超级形容词。它们只是你可以生成的一些令人惊叹的东西。不,这是一个好问题,因为你看,我认为今天很常见的一种观点是,哦,
生成式AI的飞跃需要某种根本性的新方法,而不仅仅是增量改进,并且早期分类与现代生成式AI之间的联系被夸大了。我认为这是一个相当短视的观点。我认为,如果你放大来看,就会变得清晰起来,实际上,模型大小、数据和技术的持续改进导致了越来越复杂的人工智能能力。而且,你知道,生成模型
很明显地从判别模型演变而来,这是一个自然的过程。我会说,2019年、2020年,在transformer论文发表之后发生的最大转变实际上根本不是思维转变或研究中基本学习技术或架构的转变。这实际上是一种对研究工程的态度转变。
它指的是在训练运行中投入多少计算资源才有意义,以经验证明缩放定律是否成立。我认为风险承受能力越来越高,我认为行业中一些人的活力、信念和想象力让他们说,让我们投入一千倍的计算资源,看看会发生什么。嘿,我们可能会发现,实际上模型、损失曲线实际上并没有收敛,我们不得不把所有这些都扔掉。
如果你从架构的角度、研究的角度来看,从图像分类到今天的生成式AI模型,你知道,从“热狗还是非热狗”到ChatGPT和GPT 4.0,你可以在中间的点之间画一条非常直的线。一个显然是
迁移学习。在AlexNet之后,研究人员发现,像AlexNet这样的模型学习到的特征可以重新用于其他任务,这使得将深度学习应用于新的问题(如自动驾驶汽车)变得容易得多。在那之后,围绕GAN或生成对抗网络的这一明显的进展时刻,第一波GAN大约在2014年被提出。GAN提供了一个相当简洁的框架,用于生成新的逼真图像。
然后,当然,你还有2017年的注意力机制和transformer论文,它受到了很多关注,爱或关注,双关语,用于将许多这些技术应用于自然语言处理。对。我们允许模型不仅关注计算机视觉中的特征,而且关注输入的相关部分,并捕获NLP和大量文本语料库中的长期依赖关系。
这让我们在2020年看到了缩放定律,表明如果你可以增加模型大小、数据和计算量,
你可以非常可预测地提高模型性能。然后我认为,我们几乎在一个诗意的回到未来的时刻,我们现在正处于这个计算机视觉优先的多模态时代,最初为语言处理开发的模型现在被证明在多种类型的数据(如文本、图像、音频和视频)上都相当出色。
对我来说,这些大约是四五个重要的时刻,对吧?迁移学习,然后是GAN,然后是注意力机制和transformer。然后是缩放定律。现在我们正处于多模态时代。然后我认为这是对科学领域通常需要的迭代的一种致敬,而不是可以构建的关于瞬间革命与20年成功故事或迭代演变的常见叙述,这最终导致了突破。你认为产品化或
否则将其发布到世界上会有多大帮助?因为如果我认为GPT-2,它在2017年、2018年左右的时间框架内引起了一些波澜。但是GPT-3,有一个API。那是2020年?人们开始使用它。
我认为这是一个非常重要的时刻,从以下意义上说:如果你回顾并阅读像OpenAI这样的实验室的使命宣言或愿景宣言,它会说我们是研究和部署实验室。但实际上,在最初的七年里,它们看起来更像是一个研究实验室,而部署是默默无闻的部分。我认为这是因为你可以争辩说,
这项研究没有充分产品化,以至于有用。你是对的,GPT-3 API在ChatGPT出现之前已经存在很长时间了。我认为ChatGPT所做的是做了一点有趣的事情,RLHF,你知道,进行指令微调,以转换一个基本的API。你知道,GPT-3 API是一个句子补全API
API,它将表单因子重新打包成这种助手表单因子。实际上并没有什么其他的东西。他们并没有训练一个新的模型或其他什么东西。但有时,表单因子对于世界意识到通用技术(如语言序列预测模型或下一个标记预测模型)的有用性至关重要。我实际上认为还有另外两件事在这些系统的部署中几乎更重要。第一件事是,当他们推出ChatGPT时,他们免费赠送了推理。
我们不是在谈论数百万美元的推理。我认为我听到的最后一次估计是超过5000万美元的免费推理赠送给世界。这对这些系统的部署至关重要,因为虽然还有其他人正在基于GPT-3构建AI伴侣或聊天机器人,但对于大多数人来说,尝试它还是太贵了。而早期发现产品市场契合度或发现这些系统非常有用的人是学生,高中生用它来做作业。
而学生们并没有很多钱来尝试新的AI工具,直到它被证明是有用的,对吧?所以我认为一方面是他们用免费推理部署它,这给了世界很多机会来尝试这个模型。我认为这样做的第二个价值是它促使许多其他组织尝试增加他们在训练运行中投入的计算量。这增加了对训练模型的投资额。我认为这实际上非常重要。
因为在此之前,这是一种“先有鸡还是先有蛋”的问题,对吧?GPT-2在一些故事任务中足够好,但它在帮助人们的实际用例中是否足够好?你会说,除非我们尝试将其扩展,否则你真的不知道。
那么,如果你投入一千倍的计算资源,但它不起作用会发生什么?你只是浪费了所有这些资本。所以我认为JATGPD的价值在于说,让我们经验证明扩展这些网络。因为记住,与摩尔定律不同,缩放定律是经验性的。它们不是预测性的。所以你不知道它们是否成立,除非你尝试一下。所以你提到了GAN,是的,我认为那是大约十年前,那篇论文第一次发表的时候。大约八年后,我们才开始看到DALI和稳定扩散等。
上市。似乎在Transformer和ChatGPT之间的时间可能更短,至少,你知道,五年,或多或少。我只是好奇这是否是一个正常的时间线。如果是的话,我们应该期待看到什么?我们应该如何期待未来几年的进展?是的,关于进展的基础问题是一个有趣的问题。所以我认为,同样,一个普遍存在的观点,或者我经常听到的一个观点是,哦,AI研究到生产的周期正在由于增加的资金和计算能力而加速。我们可能预计新的AI技术的持续快速发展和部署。我经常看到这种指数曲线,它说:“你站在这里,两年后,我们将继续看到这个指数。”相反的观点是,实际上所有容易取得的成果都已经取得了,未来的突破可能需要更多的时间和根本性的见解,低垂的果实已经被耗尽,目前的进展可能会遇到收益递减,导致放缓。我喜欢相信以下几点,那就是有时指数可以用一系列堆叠的S型曲线来近似。
我认为我们今天所处的位置就是一个很好的例子,其中GPT-3和GPT-4之间的阶跃函数差异是巨大的。显然,这感觉我们正处于曲线的指数部分,而GPT-4O则更像S型曲线。它不像GPT-4那样有用得多。
我认为这没关系,因为通常你需要一段S型稳定期,让人们意识到并在曲线的指数部分学习什么有效,什么无效。然后你看到一个高原,然后你看到另一个堆叠的S型曲线。我们现在正处于生成模型中的美好之处,即使我们可能处于语言模型曲线的S型部分,
我们显然正处于曲线的指数部分,正如你所说,在图像生成、视频模型或音频方面。但我确实认为我们很快就会达到该曲线的S型部分。但我认为重要的是,如果你足够放大,很明显,进展的速度,尤其是在技术方面,
将深度学习应用于新的科学发现的速度,比十年前快了好几个数量级,这是由于加速的增加或对这些技术的投资的增加。我认为
诺贝尔奖实际上也表明了这一点。你认为这会如何改变现状?事实上,现在有如此多的资金投入到这个领域,我们用如此多的GPU来刺激了这个生态系统,对吧?计算是其中一个如此重要的组成部分。我的意思是,这是否会人为地稍微提升一些东西,从某种意义上说,如果你有一个想法,你可能可以找到资金来资助它。我有点回到“苦涩教训”,对吧?那就是在70多年计算机科学史中,我们学到的是,通用技术优于某种
更具体的、特定领域的、人工设计的技术。因此,随着计算而扩展的方法,如搜索和学习,是在进展速度在很大程度上受到瓶颈的领域中采取的相当不错的选择
关于搜索和学习等通用方法的应用,我认为这是一个相当安全的赌注。我不认为这是一个人为的助推器,这么说吧。我认为说,在蛋白质设计或蛋白质折叠中,我们的一个基本限制是计算,这是一个相当合理的赌注。因此,在那里应用深度学习是一个相当合理的思路。我认为在其他领域,如果进展速度没有受到阻碍,
或者关于像搜索或学习这样的通用技术。一个很好的例子是在生物学中,对吧?尤其是在湿实验室生物学中,根本的速率限制器实际上就像运行实验并在实验室中证明,比如,在物理实验室中证明你的机器学习模型所说的应该有效的假设。最终,你的模型可以告诉你,这里有一种新的蛋白质,我认为它将是
或者一种新的分子结构,它在解决特定疾病或疾病方面会非常有效。但是你实际上必须在实验室里进行实验,并通过实验证明它。我认为在这些地方,深度学习可能被过度应用了,而实际上根本的速率限制器只是在湿实验室里做科学研究。
也许你能解释一下区别。我的理解是,DeepMind构建的蛋白质建模模型AlphaFold,而且,正如人们可能意识到的那样,今年在化学领域获得诺贝尔奖的人也参与了这项工作。它与你可能看到的为LLM或其他东西提供动力的转换器相比或形成对比如何?因为我的理解是它是一个基于转换器的模型。所以我很想知道,从架构的角度来看,
或者从训练的角度来看,这可能会有何不同。是的,对于研究领域来说,这是一个非常热门的话题。根据你问谁,如果你有三个不同的人,你会得到三个不同的答案。一部分人会告诉你,哦,这些是完全不同的技术,你知道,将像GPT-4这样的自回归语言模型与像AlphaFold这样的3D结构预测模型混为一谈,就像说苹果和橘子都是水果一样。这是一个过于高级的概括,无法进行有用的辩论。另一方面,如果你问,
问一些研究人员,他们会告诉你,扩散实际上只是自回归的一种形式。我认为,事实上,DeepMind的Sandra Dielman最近发表的一篇非常好的博客文章说,扩散是频谱自回归,这基本上意味着,如果你对这些模型进行一些信号处理,它就会揭示扩散模型和自回归模型实际上并没有那么大的区别。图像的扩散模型是
基本上是在频域中执行近似自回归,只是不同的域。因此,我认为,长话短说,我认为这是一个不断发展的问题,我们并不真正知道答案,但它们都在神经网络架构中共享足够的根源
以及尝试策划关于世界的有用多样化数据的痛苦教训,然后将模型应用于它以理解该领域的显式和间隙表示,以便你可以在另一端获得更有用的预测。所以坦率地说,我认为这些技术比它们的不同之处更相似。
我认为,虽然过去几年人们倾向于以特定于模态的方式讨论人工智能,即图像模型、文本模型、语言模型,但这些障碍现在正在被打破。很明显,我们正处于一个多模态的世界中,通常更重要的是你收集了哪些数据以及如何将这些数据处理到潜在空间中
而不是你用来学习这些模式的特定架构。你认为这是否预示着未来会有更多的人尝试解决这些问题,因为模型变得越来越通用?也许随着其他领域开始进行数据标准化或收集,或者优先考虑积累高质量数据,你认为这是否会打开领域系统,让越来越多的人进行这种研究?我的意思是,这显然很重要。我认为这显然很有价值。
任何人都想在解决医学问题或
或生物学问题上留下自己的名字。我有点偏见,因为我们花了这么多时间与那些已经意识到计算只是进行基础科学的一种基本方法的人交谈。如果你试图在不利用摩尔定律、不利用痛苦教训、不利用高级专家级计算系统的情况下进行科学研究,
你可能比那些这样做的人取得的进展要少。我们已经看到,一段时间以来,经济学中绝大多数有用的发现并非来自米尔顿·弗里德曼式的对市场运作方式的书斋式理论化,尽管这在当时非常有用。它的性质越来越定量化。它是定量经济学,对吧?我喜欢观察学科如何演变的历史类比。在物理学中,你可以争辩说
最初,绝大多数物理学突破都是关于对大型物体研究,对吧?这就是天体物理学和牛顿物理学等等。然后我们在20世纪经历了一个时期,这主要是小粒子动力学和电子的物理学。现在我们正处于多体物理学、统计力学和凝聚态物理学的时代,它们试图解释复杂的涌现系统如何相互作用。
我认为现代人工智能的许多突破,例如缩放定律,来自具有物理学背景的人,这并非巧合。因为神经网络和这些计算技术在帮助人们研究多体物理学方面非常出色。我认为许多前沿工作,基础科学中的许多空白领域,都是为了理解这些复杂系统如何相互作用。
我们正在看到,我希望我们将继续看到越来越多的研究人员利用这些现代计算进步来推动他们自己的领域向前发展,因为它们可以帮助你比过去更有效地研究涌现系统。我认为坦率地说,这方面的速率限制器不是计算,正如许多人喜欢谈论的那样。这是因为
获得工具,特别是软件工程工具,在学术界,尤其是在基础科学领域,是相当有限的。因此,我们需要看到计算机科学与其他基础学科之间进行更多合作。这就是我被生物信息学吸引的原因,因为很明显,对大型非结构化数据集(如医生笔记和纵向电子健康记录)使用无监督学习,比
对于诸如终末期疾病之类的疾病,比让医生(即人类)在没有这些工具的情况下试图推理要精确得多。我认为,那些理解这一点并已投资于这些资源以构建大规模人工智能系统的组织与那些没有这些资源的组织之间存在越来越大的差距。而且许多今天的学术实验室,尤其是在基础科学领域,都没有这些资源。所以这是一个真正的问题。但我认为,说,好吧,那么斯坦福的物理实验室基本上应该变成一个计算机科学实验室,这有点过头了。
或数据工程实验室,对吧?我认为,算法和架构的基础研究对于这些领域的长期进步仍然至关重要。我认为大学和非商业实体的作用非常重要。我认为更多的是如何补充这些技能,这些基础研究技能与我们正在讨论的工程专业知识,以便能够理解足够规模的数据。这就是问题所在。你认为我们如何帮助大学和其他非商业实体真正加强
他们的贡献。我的意思是,这可能更广泛地涵盖人工智能领域,但我使用的是非常广泛的术语,但所有计算、所有数据、大部分人才都位于资金雄厚、资金充足的大型商业实验室中。我们如何让这些大学恢复到能够做出有意义贡献的状态?
是的,你看,我认为这是一个很好的问题。我认为这也是一个超级未解决的问题。这是一个正在积极讨论的话题,但有一些有希望的线索。首先是允许大学实验室和学生访问目前仅限于工业实验室内部的计算和数据资源的计划。我认为法国的CIFR计划就是一个很好的成功案例,我认为其他国家应该立即采用,这是一个秘密武器。
那就是法国有一个政府资助的计划,允许学术博士候选人实际上在工业实验室完成他们的许多课程工作。显然,一个与我们家很近的例子是Mistral的Guillaume Lampel,他既在法国的一所大学注册攻读博士学位,
同时在Meta担任研究员,从事Lama的工作,完成了大量的研究课程工作。这使得许多优秀的法国新兴年轻研究人员不必在进行有趣的基础研究和获得进行这些贡献所需的资源之间做出妥协。
我认为我非常遗憾的是,在美国,对于领先的研究机构,如果你是一名斯坦福大学的研究人员等等,我们没有这种能力,既可以在工业实验室完成他们的工作,同时继续攻读博士学位。我认为这是一场巨大的悲剧。所以这是一个。我认为我们可以通过良好和深思熟虑的政策制定来解决这种紧张关系。我认为第二个是许多这些实验室能够利用开源。
我很高兴的是,与一年前相比,现在有许多非常强大的基础模型开源选项供任何科学领域的研究人员使用,他们可以专注于微调和调整这些模型以适应他们的领域,而不是必须从头开始预训练这些模型。我认为这太棒了。然后我认为第三个,这有点不清楚,是数据工程问题,那就是,如果你是一位非常优秀的物理学家或经济学家,并且你想
你想在你的领域利用人工智能,即使你可以访问Lama 4并且你有Autonic Compute,许多挑战实际上是围绕数据工程、数据处理、数据采集、数据整理的软件工程挑战。我认为这是一个不清楚的问题。我正在与该领域的许多人积极讨论如何弥合这一差距,以及
我认为第一步可能是借鉴过去行之有效的方法,你经常会有这种调动或休假的想法,贝尔实验室等地方的领先人才可以与学术实验室进行一种巡回任务。
几乎就像他们被借调一样。我认为这是一种非常有趣的方法,但它还处于早期阶段,可能会很混乱。它通常需要许多因素的协调,才能让一个真正有才华的人,称之为数据基础设施工程师,将自己从工业实验室行动的中心撤出来,去学术实验室工作。但我认为这很有希望。我认为这很有影响力。如果你非常擅长进行大规模数据处理,
在Databricks,你可以帮助一些生物学家获得下一个诺贝尔奖,我认为这至少是一个有吸引力的机会。因此,我认为在某种意义上,这主要是关于为这样的人制定正确的计划。我想在结束时快速讨论的另一件事是,
随着计算机和知识的可及性越来越高,我们似乎看到了一种转变,即一些创新是如何产生的,包括人工智能,例如个人黑客、小型团队和开源项目,就像你提到的那样,发挥着越来越重要的作用。我很好奇,你认为这些类型的团队和这些类型的个人在未来能发挥多大的作用?然后,考虑到目前围绕人工智能的所有炒作和所有戏剧性事件,我们如何保持他们的兴奋?是的。
并保持这种基层或草根创新研究的发生?是的,是的。我认为这是一个很好的问题,因为人们很容易得出结论,认为最具影响力的人工智能研究仍然需要大多数个人或小型团队无法获得的资源,对吧?并且开源贡献虽然有价值,但……
不太可能与资金雄厚的实验室取得的突破相匹配。我甚至听到一些轻蔑的人称之为可爱,并贬低了这些贡献的价值。但另一方面,我认为你可以争辩说,开源和个人贡献正在变得
在人工智能发展中越来越重要。我认为人工智能的民主化可能会导致更多样化和创新的应用。我认为,特别是,我们应该期待家庭科学家数量激增的原因是,那些不一定隶属于顶级学术机构或行业实验室的人,是因为随着
工具越来越完善,随着开源模型越来越容易获得,速率限制器实际上取决于愿意将该模型的计算能力应用于新领域的某人的创造力。
并且有大量的领域和不同学科的组合交叉点,传统上是传统学术界的盲点。因为,你知道,如果你试图成为一名在生物学领域发表论文的学者,那么试图偏离发表或消亡的道路并不是特别有益的。
会议巡回赛。如果你在一个大型工业实验室工作,并且没有直接为下一个模型的发布做出贡献,那么你如何获得奖励并不清楚,对吧?因此,我认为,独立实际上让你摆脱了某些大型实验室的激励机制错误结构。如果你能够利用LAMA团队在预训练上花费的数百万美元,将其应用于其他人从未仔细研究过的数据集,那么就会产生相当大的突破。让我们回到诺贝尔奖,我想,你知道,图灵奥林匹克奖项将是人工智能或计算机科学的等价物。你是否看到未来某个时候,再次考虑到目前有多少工作来自大型实验室和大型公司,你是否看到未来某个时候,也许我们会看到来自Noose Research或某个起飞的开源项目的地方获得图灵奖或诺贝尔奖?我的意思是,如果我考虑过去几十年来的开源项目,有一些项目似乎应该在某种程度上得到奖励和认可。所以
是的,你说得对。因此,普遍的观点是,主要的奖项当然会继续颁发给来自知名机构或大型科技公司研究人员。顺便说一句,我将大型科技公司作为现状,普遍观点有点疯狂,但我们就是这样。并且突破性工作所需的资源超出了大多数开源项目的能力。而且,我认为,反驳的观点是,实际上,随着人工智能变得越来越民主化,特别是如果我们继续
开源的基础继续下去,我们将看到非传统来源出现突破性工作,这些开源合作可以产生类似于Linux和操作系统的诺贝尔奖级别的进步。在我看来,Linux是一项诺贝尔奖级别的成就。对。对。所以我倾向于相反的观点。虽然短期内可能不太可能,但我认为创新的长尾和开源很可能会产生这些获奖的突破。我认为这反映了群体智慧原则,对吧?应用于
科学研究。如果你将这些工具应用于足够多的组合新领域,那么我们看到诺贝尔奖或图灵奖级别的进步只是时间问题。我认为在任何两个学科的交叉领域,如果你有一位独立的研究人员,他基本上可以拥有将开源模型应用于新数据集的创造力,我们将看到许多突破。
本期节目到此结束。如果你喜欢它,如果你学到了什么,或者它以其他方式引起了你的共鸣,请在收听的任何地方对播客进行评分。直到下次,感谢收听。