We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从神经网络的秘密到AI场景生成

AI前沿:从神经网络的秘密到AI场景生成

2025/5/11
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小T
Topics
小爱: 我负责引导话题,并就小T的讲解进行一些补充和提问,确保讨论的流畅性和深入性。 小T: 我主要负责对五篇AI前沿论文进行详细解读,包括论文的核心思想、方法、应用场景以及存在的不足。我会用通俗易懂的语言解释复杂的专业术语,并结合具体的例子帮助大家理解。首先,第一篇论文Towards Quantifying the Hessian Structure of Neural Networks研究了神经网络海森矩阵的结构,发现类别数量而非交叉熵损失是决定其“块对角”结构的主要因素。这对于设计更高效的优化算法具有重要意义,尤其是在处理大型语言模型等类别数量巨大的场景下。然而,该研究的理论分析主要集中在简单模型上,其对复杂多层Transformer模型的适用性仍需进一步验证。 接下来,第二篇论文Discrete Spatial Diffusion: Intensity-Preserving Diffusion Modeling提出了一种离散空间扩散框架,通过模拟颗粒随机游走来实现质量守恒,这使得扩散模型能够更好地应用于科学领域,例如生成具有严格约束的图像,比如材料结构或电池电极的微观结构。但该方法的计算成本与颗粒总数成正比,在处理高强度图像时计算量较大,需要进一步优化。 第三篇论文Steerable Scene Generation with Post-Training and Inference-Time Search提出了一种可控的3D场景生成方法,该方法结合强化学习、文本提示和蒙特卡洛树搜索,能够生成满足机器人训练特定需求的场景,例如杂乱的桌子或特定物体组合的房间。这对于机器人训练具有重要意义,因为它能够自动生成大量多样化的场景,降低人工设计成本。然而,该方法生成的场景依赖于程序化数据,真实性可能不够高,且搜索方法的计算成本也比较高。 第四篇论文Practical Efficiency of Muon for Pretraining证明了Muon优化器在语言模型预训练中比AdamW更省资源,并提出了一种“伸缩式”调参算法,提升了训练效率。这对于训练大型语言模型具有重要意义,因为它能够降低训练成本,提高训练速度。但Muon优化器的实现相对简单,未来可以进行更精细化的改进,例如利用低精度计算进一步提速。 最后,第五篇论文What do Language Model Probabilities Represent?澄清了语言模型概率的三种含义:文本分布、真实事件概率和最佳回复。这提醒我们在使用和评估语言模型时,要明确目标,避免误解。该论文主要进行理论分析,缺乏大规模实验验证,未来需要开发方法从模型中明确提取不同类型的概率。

Deep Dive

Shownotes Transcript

大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,咱们这就开始吧。第一篇论文是 Towards Quantifying the Hessian Structure of Neural Networks,听起来像数学迷宫。能不能先给我们讲讲这个海森矩阵式的啥,为什么它对 AI 这么重要?

好想象一下神经网络就像一个超级复杂的登山机器人,它的任务是找到一座山的最高点,也就是最优的模型参数。而海森矩阵就像一张地图告诉你山坡的陡峭程度、区域、帮助机器人决定怎么走更有效率。简单来说,海森矩阵是神经网络损失函数的二阶档数,它描述了参数变化如何影响损失的变化。

研究它的结构能让我们更好地理解网络的优化过程,甚至设计更高效的训练算法。听起来像个导航仪,这篇论文发现了什么新东西?这篇论文挑战了一个 20 年的老观点。以前大家认为神经网络的海森矩阵之所以呈现块对角结构,就像把地图分成一块块独立的区域,主要是因为使用了交叉伤损失。

但作者发现,真正驱动这种结构的其实是类别数量比如分类任务里有多少个类别,像猫狗分类是两类语言模型、词汇表可能有几万类,会直接影响地图的形状类别越多,地图越像一块块独立的区域这种结构从网络初始化时就存在,甚至对军方误差损失也成立

我这有点颠覆类别数量怎么会这么重要你可以把神经网络想象成一个超级大的分类器类别数量多的时候每个类别的权重就像一个独立的小团队互相干扰很少这种独立性让海森矩阵自然形成块状结构论文用随机矩阵理论数学上证明了当类别数量去向无穷大师这种结构会越来越明显他们还发现网络架构本身会提供一种静态力量

从一开始就塑造这种结构而训练过程中的动态力量会进一步调整它尤其是在交叉伤损失下来

这听起来对实际应用有啥帮助比如训练大模型的时候能用上吗绝对有帮助像大型语言模型词汇表动辄几万甚至几十万类别理解海森矩阵的结构能帮我们设计更高效的优化算法比如一些算法会利用海森矩阵的近似来加速梯度下降这篇论文的发现特别适合这类超大类别数的场景可能让训练更快更省资源那有没有什么不足的地方

毕竟没有完美的研究确实 论文的理论分析主要集中在简单模型像线性模型 单影层网络对于现代复杂的多层 transformer 直接适用性还需进一步验证另外 他们假设数据和权重是特定分布的现实世界的数据可能更复杂这些都是未来可以深挖的方向好 感觉像打开了神经网络的一个数学黑匣子

接下来是什么?第二篇是 Discrete Spatial Diffusion: Intensity-preserving Diffusion Modeling 扩散模型我听说过生成图片特别厉害但这个离散空间扩散听起来很特别给我们讲讲扩散模型确实是生成图像的明星原理就像把一张画慢慢涂乱再学会怎么还原但传统扩散模型有个问题他们假设像素强度是连续的独立处理每个像素这在生成普通照片时没问题

如果你要生成一些有严格约束的图像比如科学领域的材料结构传统方法就力不从心了因为这些场景需要遵守守恒定律比如总质量不能变所以这篇论文解决了什么问题他们提出了一个叫离散空间扩散 DSD 的全新框架

想象一下图像不再是连续的像素值,而是一堆小颗粒在网格上跳来跳去,这些颗粒的数量是固定的,只能换位置,不能凭空消失或增加。这样无论是图乱,还是还原总质量都保持不变。这就像在玩一个严格的拼图游戏,拼图块的数量永远不变,只是位置在变。这听起来很适合科学场景。

具体是怎么做到的 DSD 用了一种数学模型叫连续时间离散状态的马尔可夫跳跃过程简单说就是让这些颗粒在网格上随机跳舞每次跳到旁边的格子但总数不变他们还训练一个神经网络来预测怎么逆向跳舞把乱七八糟的颗粒重新排列成有意义的图像关键是这个过程天生就能保证质量守恒不需要额外调整这能用来干啥

应用可多了,比如他们用 DSD 生成了地下岩石的孔隙结构,精确控制孔隙度,还能生成锂离子电池,电极的微观结构,确保材料比例正确。这些在科学计算中超级重要,因为一点偏差可能导致实验结果完全不同。

他们还在普通图像任务上试了试比如修复图片生成手写数字效果也不错听起来很厉害有什么挑战吗有 DSD 的计算成本跟颗粒总数成正比如果图像强度很高比如很亮的图片计算量会很大

相比传统扩散模型它的实现也更复杂可能需要更多工程优化未来如果能降低成本应用范围会更广这让我想到 AI 不仅能画画还能帮科学家做实验太酷了第三篇是 Steerable Scene Generation with Post-training and Inference Time Search 听起来跟机器人有关对 这篇研究是给机器人打造虚拟训练场

想象一下,你要教机器人收拾乱糟糟的桌子,现实中不可能每次都摆一堆杂物让它炼,所以需要在电脑里生成逼真的 3D 场景。这篇论文提出了一种方法,能生成各种符合任务需求的场景,比如特别杂乱的桌子,或者特定物体组合的房间还能保证物理上合理,比如物体不会穿透掉下来。

听起来像在玩模拟人生他们怎么做到的他们先用程序化方法生成了 4400 万个 3D 场景包含各种物体和它们的位置方向作为基础数据集然后训练了一个扩散模型作为场景的蓝图但光有蓝图不够

他们还开发了三种引导方法让生成的场景更符合特定需求第一种是用强化学习微调模型比如让场景更杂乱第二种是用文本提示比如生成一个堆满树的桌子第三种是用蒙特卡洛树搜索在生成时不断优化确保场景达到目标比如放最多物体

但不倒塌这三种方法听起来各有特色哪个最酷我特别喜欢蒙特卡洛数搜索这个它就像下棋一样每次生成一小部分场景然后评估这一步好不好不断试探和优化最后拼出一个完美的场景而且他们还加了两步后处理用数学方法解决物体碰撞再用物理模拟确保桌子不会塌这些场景直接就能用来训练机器人超级使用那这对机器人领域有啥影响

意義重大機器人訓練需要大量多樣化的場景但人工設計成本太高這套方法能自動生成符合任務需求的場景比如讓機器人學會在雜亂環境中抓取物體未來自動駕駛工業機器人甚至家用機器人都可能用上這種技術有沒有什麼不足

有他们的场景依赖程序化数据可能不够真实搜索方法的计算成本也比较高尤其是复杂场景而且目前只处理钢体未来如果能生成带铰链的物体比如抽屉应用会更广好感觉像给机器人开了个虚拟游乐场

第四篇是 practical efficiency of mutefor pre-training 又是优化器听起来有点抽象能不能用简单的话解释一下没问题优化器就像教模型学习的教练现在最流行的教练是 Adam W 但这篇论文说一个叫 Mule 的二阶优化器能让大模型训练更省时间算力想象一下训练一个 40 亿参数的语言模型就像造一艘宇宙飞船资源消耗巨大 Mule 嗯

就像一个更聪明的导航员能用更少的燃料更短的时间到达目的地听起来很厉害对 MIL 具体强在哪 MIL 的强项是在大批量训练时依然能高效利用数据传统上批量越大 AdMob 的效率会下降但 MIL 能保持低损失而且 MIL 内存占用小计算开销随批量增加而减少他们还提出了一种伸缩式算法帮 MIL

快速找到最佳超参数省去了很多试错成本这对实际应用有啥好处好处太大了训练大模型动辄需要成千上万的 GPU 小时成本高的下人能让你用更少的机器更短的时间达到同样的效果省钱又环保实验中他们在 41 参数模型上验证了 MIL 的优越性效果比 Adam 都好还跟理论预测一致有没有什么需要改进的地方

有的 MU 的实现还比较简单,未来可以更精细化,比如用低精度计算进一步提速。实验主要在特定模型和数据集上,普世性还需更多验证。超参数调整虽然有了伸缩式算法,但在非常大的模型上可能还需更多优化。感觉像给 AI 训练找了个更省油的引擎。最后一篇是 What do language model probabilities represent?

这个问题好有意思,语言模型的概率听起来像在猜下一句话,但具体代表什么?给我们揭秘。这个问题确实很核心,语言模型每次输出一个词都会给每个可能的词分配一个概率,但这些概率到底意味着什么?论文说,取决于模型的训练和使用方式,概率可能代表三种东西。

第一 文本的分布比如柜子的钥匙后面多半是第二 真实事件的概率比如硬币正面朝上的可能性第三 最佳回复比如直接输出正面作为预测结果这三种听起来完全不同为什么会混淆因为研究者和用户常常想当然地认为这些概率应该是一回事比如你问模型硬币

这三种目标冲突导致

概率的含义不同这对我们用 AI 有啥启发很重要的一点是用语言模型时要清楚你想要的概率类型比如如果你想知道真实事件的概率可能需要专门的数据和训练方式否则模型可能只是给你一个最受欢迎的答案这也提醒我们评估模型时要明确任务目标别把概率当万能指标

有没有什么不足论文主要是理论分析缺乏大规模实验验证他们把戴率分为三种类型可能有点简化现实中可能有更多细微情况未来如果能开发方法从模型中明确提取不同类型的概率会更实用

明白感觉像给语言模型的概率加了个说明书今天的五天论文就介绍完了希望大家听完这期播客对 AI 的最新进展有了更多了解也对这些研究背后的意义有了新思考我们下期再见下期见拜拜