[CV] LLMs can see and hear without any training (大语言模型无需任何训练就能看会听): Meta AI 提出 Multimodal Iterative LLM Solver (MILS) 框架,无需训练即可赋予 LLM 多模态能力,利用 LLM 的推理能力和现成的多模态模型,实现零样本多模态学习,并在多种任务上取得 SOTA 结果。核心创新在于无需训练和利用 LLM 涌现能力。
[CL] Beyond Turn-taking:Introducing Text-based Overlap into Human-LLM Interactions (超越轮流发言:在人与大模型交互中引入文本重叠): Sungkyunkwan University & Google DeepMind 研究人员提出在人机文本交互中引入文本重叠机制,模仿自然人际对话。开发 OverlapBot 原型,用户研究表明重叠机制提升了沟通性、沉浸感和互动速度。核心创新在于突破传统轮流模式,提升人机对话自然性。
[LG] Joint Learning of Energy-based Models and their Partition Function (基于能量的模型及其配分函数的联合学习): Google DeepMind 提出联合学习能量模型及其配分函数的新框架,解决 EBMs 配分函数难以计算的问题。提出 Min-Min 优化公式和双重随机梯度下降算法,无需 MCMC 即可训练,并在多标签分类和标签排序任务上验证有效性。核心创新在于联合学习配分函数和无需 MCMC。
[LG] Diverse Preference Optimization (多样化偏好优化): Meta 提出 Diverse Preference Optimization (DivPO) 方法,解决 LLM 后训练阶段多样性坍缩问题。DivPO 在偏好优化中引入多样性考量,选择高质量但不太常见的回复作为优选样本,显著提升生成内容多样性,同时保持质量。核心创新在于偏好优化中引入多样性考量。