We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从贝叶斯优化到大模型推理

AI前沿:从贝叶斯优化到大模型推理

2025/1/1
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
Topics
小爱/小T:本期节目深入探讨五篇AI前沿论文,涵盖贝叶斯优化、函数风险最小化、扩散模型、忆阻器神经计算以及大型语言模型推理等多个领域。针对贝叶斯优化在高维数据上的效率问题,论文《通过焦点化稀疏高斯过程进行可扩展贝叶斯优化》提出FocalizeGP方法,通过聚焦局部区域提高效率。 针对传统机器学习中经验风险最小化的局限性,函数风险最小化(FRM)被提出,它最小化函数空间的损失而非输出空间的损失,更好地处理数据噪声和结构化差异,在强化学习、无监督学习和线性回归等方面具有广泛应用前景。 关于扩散模型的创造力来源,论文指出其局部性和等变性是关键,通过混合不同图像位置的局部图像块生成新图像,而非简单的记忆训练数据。 忆阻器神经计算方面,论文探索利用忆阻器进行神经计算,提出Mosaic架构实现高效脉冲路由,以提高神经网络效率,打破冯诺依曼架构瓶颈,在节能AI芯片和神经形态计算系统方面具有应用前景。 最后,针对大型语言模型的推理能力,论文受人类认知双过程理论启发,提出LLM2框架,通过引入验证器评估LLM生成的候选答案,提高推理准确性,在聊天机器人、自动翻译系统等方面具有应用前景。

Deep Dive

Chapters
贝叶斯优化在高维数据和大数据集上表现不佳,计算量大。FocalizeGP 方法通过专注于最有希望的区域,并使用分层策略逐步缩小范围,显著提高了效率和准确性,在机器人形态设计和控制人类肌肉骨骼系统等领域取得了良好结果。
  • FocalizeGP 方法提高了贝叶斯优化在高维数据上的效率和准确性
  • 该方法应用前景广阔,可用于自动优化新药、材料设计和 AI 模型训练等

Shownotes Transcript

大家好 欢迎收听新一期的太快报 我是小爱大家好 我是小 T 很高兴又和大家见面了最近 AI 领域真是太热闹了 每天都有新突破今天我们挑了几篇特别有意思的论文 要好好跟听众朋友们聊聊是的

这几篇论文涵盖了机器学习、计算机视觉、自然语言处理等多个领域而且都很有新意相信能给大家带来不少启发那我们先从第一篇开始吧这篇论文的名字有点长叫《通过焦点化稀疏高斯过程进行可扩展,BS 优化》

听起来就很高深确实有点绕口简单来说这篇论文主要解决的是贝叶斯优化这个算法在高维数据和大数据集上表现不佳的问题贝叶斯优化就像一个寻宝猎人他试图找到一个函数的最大值或最小值这个函数就像一个藏宝图我们只能通过尝试不同的地点及输入来找到宝藏及最优值听起来很有意思但是为什么在处理高维数据和大数据集时会遇到问题呢

这就像你在一个巨大的迷宫里寻宝如果迷宫只有几个房间低维数据那还好办但如果迷宫有成千上万个房间高维数据那就太难了而且如果每个房间都很大需要很多时间去搜索大数据集那就更慢了

DSU 化在处理高位和大数据时计算量非常大因为它需要构建一个高斯过程模型这个模型的计算复杂度是输入数据量的三次方效率很低这就像要花很长时间才能画好藏宝图太麻烦了

那这篇论文是怎么解决这个问题的呢?这篇论文提出了一个叫焦点化高斯过程 FocalizeGP 的新方法他们没有像传统的做法那样试图构建一个精确的全局地图而是把精力集中在藏宝图中最有希望的几个区域这就好比寻宝猎人先大概扫一眼地图找出几个最有可能藏宝的区域然后重点研究这些区域的细节就像把放大镜对准重点区域而不是看整个地图

很有意思的比喻那具体是怎么做到的呢他们通过一种新的加权变分损失方法让模型更关注局部区域的预测而不是全局的拟合他们还设计了一个叫 Focalboard 的新算法使用一种分层的策略先在全局搜索然后逐步缩小范围重点关注最有希望的区域听起来很聪明那效果怎么样呢效果非常显著

实验表明 Focalball 在机器人形态设计和控制人类肌肉骨骼系统等高维问题上都取得了非常好的结果比以前的算法快很多而且更准确太棒了这就像寻宝效率大大提升了那这个方法未来有什么应用前景吗应用前景非常广阔

例如可以用于自动优化新药的分子结构设计更好的材料或者提高 AI 模型的训练效率总之在任何需要寻找最优解的场景这个算法都有用武之地明白了那我们接下来聊聊第二篇论文函数风险最小化最优是什么概念这篇论文挑战了机器学习领域一个很基础的概念经验风险最小化传统的机器学习我们通常会最小化训练数据上的损失

认为在训练数据上表现好的模型在未见过的数据上也会表现好但是这个假设在现代复杂模型和数据集上可能不成立为什么会不成立呢这就像我们训练一个学生做题只让他做练习册上的题而不让他做真正的考试题这样训练出来的学生在做练习册上的题时可能会表现很好

但真正考试时就不一定能考好因为现实世界的数据和训练数据可能存在很大差异而且数据本身可能包含复杂的噪声

确实是这样那函数风险最小化又是怎么解决这个问题的呢函数风险最小化 FRM 不是去最小化输出空间的损失而是去最小化函数空间的损失简单来说传统的 ERM 认为所有数据点都来自同一个函数只是被一些输出噪声污染了

而 FLM 认为每个数据点都有它自己独特的函数生成定存在函数造生这就好比不是所有学生的学习方式都一样每个学生都应该有适合自己的学习方法而不是强求使用同一种方法那这个函数造生又是什么呢

你可以理解为数据集中的结构化差异比如说在识别不同品种的狗时每一种狗的特征可能都不一样不能用简单的噪声来描述 FRM 正是通过这种函数噪声来捕捉数据集中复杂的内在差异明白了那 FRM 怎么具体操作呢?特待的目标是找到一个最优的模型参数使得它在函数空间中的风险最小

为了解决计算复杂度的问题,论文作者提出了一些近似方法,他们还发现 F2M 在很多情况下都比 ERM 表现更好,尤其是在数据噪声复杂或一方差的时候,也就是说他更擅长处理真实世界中复杂的数据。

那这个方法的应用前景如何?应用前景非常广阔,例如在强化学习中可以更准确地估计价值函数,在无监督学习中可以学到更好的数据,表示在线性回归中可以更好的处理噪声数据。总之,FRM 为我们提供了一个新的视角,让我们能够更好地理解机器学习的本质。听起来很有意思,接下来我们聊第三篇,这个名字很有意思,

卷积扩散模型中的创造力分析理论是的这篇论文揭示了扩散模型的一个秘密为什么它能生成如此有创造力的图像扩散模型是现在非常热门的图像生成模型可以生成各种逼真的图像有时候甚至会超越训练数据级但这就很奇怪按理说扩散模型应该只能记忆训练级里的图像怎么能创作新的图像呢确实这就像学生只是背书但却能写出新的文章

太反直觉了对的这篇论文指出扩散模型之所以能有创造力是因为它存在两种归纳偏置局部性和等变性整机神经网络具有局部性即感受也有限只能看到图像的一小部分并且具有等变性即平移不变性参数共享在不同位置做同样的操作那这两个偏置是如何帮助模型生成新图像的呢这就像我们玩拼图吧

不同的局部图像块拼接起来形成新的图像论文中提出的等变局部的分机 ELSA 就是基于这个原理它可以混合来自不同图像位置的局部图像块从而生成训练集中不存在的新图像这太神奇了这就像一个神奇的拼图机可以创造出全新的图像那这套理论的预测效果怎么样呢

实验表明 L 字机可以准确地预测训练好的卷积扩散模型的输出并且预测结果和实际生成的图像非常相似这表明扩散模型的创造力并非来源于某种神秘的力量而是由它的局部性和等变性这两个简单的特性决定的这就反驳了之前认为扩散模型只是在记忆训练数据的观点那这个理论有什么价值呢这篇论文不仅揭示了扩散模型创造力的来源

还为我们理解其他生成模型提供了新的思路它表明归纳偏执在模型创造力中扮演着非常重要的角色此外它还能帮助我们更好的控制扩散模型的生成过程从而生成更符合我们需求的图像明白了

那我们再看看第四篇模拟炼金术基于内存推理学习和路由的神经计算这又是什么概念这篇论文主要关注如何用一种叫做一组器的新型电子器件来提高神经网络的效率传统的计算机使用冯诺依曼架构计算单元和存储单元是分开的数据需要在两者之间来回传输这会消耗大量能量成为性能瓶颈而一组器可以同时存储和计算有望打破这个瓶颈

就像把计算单元和存储单元合二为一这样数据传输就不再是问题了那具体是怎么实现的呢易组器是一种具有可变电阻的器件通过改变其电阻状态来存储信息同时也可以利用其电阻进行计算这篇论文探索了如何利用易组器进行神经计算包括推理学习和路由他们还提出了一种叫 Mosaic 的架构用易组器来实现高效的脉冲路由

麦冲路由有什么意思你可以想象成用电麦冲模拟神经元之间的信号传递传统的计算机用二进制数表示信息而麦冲神经网络使用麦冲的时序和频率表示信息更接近人脑的工作方式听起来很复杂但又很有趣

那这篇论文有什么突破性的发现呢?这篇论文有几个重要的发现,他们提出了一种新的 REM 编程技术,提高了器件的精度。他们发现梯度累积对于一组器件的在线学习是必要的。他们还发现一种可以动态重构的一组材料,可以同时表现出意识性和非意识性行为。

此外他们提出的 Mosaic 架构可以实现更节能的脉冲路这就像一种炼金术把普通的材料变成了可以进行智能计算的工具那这项技术未来的应用前景如何呢应用前景非常广阔例如可以用于开发更节能的 AI 芯片用于边缘计算物联网设备或者用于构建更接近人脑的神经形态计算系统听起来太酷了最后我们来聊聊最后一篇 LLM

让大型语言模型驾驭系统 2 推理这篇论文很有意思它受到人类认知的双过程理论的启发提出了一种新框架来提高大型语言模型 LLM 的推理能力双过程理论认为我们的大脑有两种思考方式一种是快速直觉的系统 1 另一种是慢速逻辑的系统 2

那 LLM2 是如何利用这个理论的呢?LLM2 将 LM 看作是系统 1 负责快速生成候选答案他们又引入了一个新的验证器作为系统 2 负责评估这些候选答案验证器会对 LLM 生成的每个 token 进行评估看它是否会导致错误的结果

这就像我们在做题时先凭直觉给出一个答案然后再仔细检查这个答案是否正确非常形象这个验证器是通过一种新的 Token 质量探索策略训练的可以识别出哪些 Token 可能导致错误实验表明 LL

LLM2 在数学推理任务上取得了非常好的结果比直接使用 LLM 的效果好很多也就是说让 LLM 像人类一样进行自我审视和纠错可以提高它的推理能力这个方法未来有什么应用前景呢?应用前景很广阔例如可以用于开发更可靠的聊天机器人更准确的自动翻译系统或者更好的理解自然语言文本

他还启发我们要深入理解人类的认知机制并将其应用到 AI 模型的设计中好的听完小 T 的讲解感觉这五篇论文真是太精彩了每篇都有独特的创新和见解是的这些研究都代表了 AI 领域的最新进展也为我们未来的研究提供了新的方向

非常感谢小 T 今天的精彩分享听众朋友们如果你对今天的节目感兴趣欢迎分享给你的朋友我们下期再见下期见拜拜