We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：LLM免训练能看会听、让AI对话更自然

2025/2/1

AI可可AI生活

AI Deep Dive Transcript

People

小

小T

小

小爱

Topics

小爱:我参与了对多篇AI论文的解读,其中Meta AI提出的MILS框架最令人印象深刻。它能够赋予大型语言模型(LLM)多模态能力,无需任何训练,即可处理图像、视频和音频等多种信息。这颠覆了传统多模态模型需要海量数据训练的模式,充分展现了LLM强大的推理能力和涌现能力。MILS通过生成器和评分器的迭代机制,让LLM在无需额外训练的情况下,就能在图像视频音频字幕生成甚至图像编辑等各种任务上展现出惊人的零样本能力,甚至在某些任务上超越了之前那些需要大量训练的零样本方法。这表明我们可能低估了大型语言模型的潜力,它们不仅仅是语言大师,更是通用的问题解决者。MILS的无需训练特性也大大降低了多模态AI技术的门槛,让更多人可以轻松地利用大语言模型的多模态能力。此外,我们还讨论了如何改进人机对话的自然性。研究表明,在人机文本交互中引入文本重叠机制,模仿自然人际对话中的插话、抢话等行为,可以显著提升沟通性、沉浸感和互动速度。这提示我们,在设计人机交互系统时,应该更多地从人的角度出发,理解人类的沟通习惯和需求。小T:我参与了对多篇AI论文的解读,其中关于能量模型(EBM)的研究成果令人瞩目。传统的EBM训练困难,因为需要计算难以处理的配分函数。而新研究提出的联合学习方法,巧妙地将计算配分函数的问题转化为学习配分函数的问题,并设计了双重随机梯度下降算法来高效训练模型。这大大提升了EBM的可应用性,使其能够在多标签分类、标签排序等任务中发挥更大作用。此外,我们还探讨了如何提高大型语言模型生成内容的多样性和推理效率。研究发现,在大型语言模型的后训练阶段,例如强化学习和偏好优化,生成内容可能会变得千篇一律,缺乏多样性。为此,提出的多样化偏好优化(DivPO)方法,通过选择高质量但不太常见的回复作为优选样本,有效提升了生成内容的多样性,同时保持了生成质量。而在推理效率方面,提出的推理预算约束策略优化(IBPO)算法,通过让模型感知问题的难度并自适应调整推理长度,在有限的资源下最大化解题效用,显著提升了大语言模型在受控推理预算下的性能。这为我们解决大语言模型的效率问题提供了新的思路,未来可能会出现更多更聪明、更高效的大语言模型。

Deep Dive

Shownotes Transcript

本期播客精华汇总：

[CV] LLMs can see and hear without any training (大语言模型无需任何训练就能看会听): Meta AI 提出 Multimodal Iterative LLM Solver (MILS) 框架，无需训练即可赋予 LLM 多模态能力，利用 LLM 的推理能力和现成的多模态模型，实现零样本多模态学习，并在多种任务上取得 SOTA 结果。核心创新在于无需训练和利用 LLM 涌现能力。
[CL] Beyond Turn-taking：Introducing Text-based Overlap into Human-LLM Interactions (超越轮流发言：在人与大模型交互中引入文本重叠): Sungkyunkwan University & Google DeepMind 研究人员提出在人机文本交互中引入文本重叠机制，模仿自然人际对话。开发 OverlapBot 原型，用户研究表明重叠机制提升了沟通性、沉浸感和互动速度。核心创新在于突破传统轮流模式，提升人机对话自然性。
[LG] Joint Learning of Energy-based Models and their Partition Function (基于能量的模型及其配分函数的联合学习): Google DeepMind 提出联合学习能量模型及其配分函数的新框架，解决 EBMs 配分函数难以计算的问题。提出 Min-Min 优化公式和双重随机梯度下降算法，无需 MCMC 即可训练，并在多标签分类和标签排序任务上验证有效性。核心创新在于联合学习配分函数和无需 MCMC。
[LG] Diverse Preference Optimization (多样化偏好优化): Meta 提出 Diverse Preference Optimization (DivPO) 方法，解决 LLM 后训练阶段多样性坍缩问题。DivPO 在偏好优化中引入多样性考量，选择高质量但不太常见的回复作为优选样本，显著提升生成内容多样性，同时保持质量。核心创新在于偏好优化中引入多样性考量。
[LG] Think Smarter not Harder：Adaptive Reasoning with Inference Aware Optimization (更聪明而不是更努力地思考：基于推算感知优化的自适应推理): MetaAI 提出 Inference Budget-Constrained Policy Optimization (IBPO) 算法，让 LLM 具备推理预算意识，根据问题难度自适应调整推理长度。IBPO 在 MATH500 数据集上显著提升了受控推理预算下的性能，核心创新在于推理预算约束和自适应推理长度。

完整推介：https://mp.weixin.qq.com/s/1JVAk0_nICg6QOhjvQGPJA

AI前沿：LLM免训练能看会听、让AI对话更自然 15:10 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：LLM免训练能看会听、让AI对话更自然