We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025.05.21 | 多模态预训练提升复杂任务能力；注意力机制优化推理与训练效率。

2025/5/21

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

本期的 15 篇论文如下：

[00:22] 💡 Emerging Properties in Unified Multimodal Pretraining（统一多模态预训练中的涌现属性）

[01:03] 🚀 SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training（SageAttention3：用于推理的微缩FP4注意力机制与8位训练的探索）

[01:42] 🖼 VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank（VisualQuality-R1：基于强化学习排序的推理引导图像质量评估）

[02:23] 🤖 Visual Agentic Reinforcement Fine-Tuning（视觉Agent强化微调）

[03:01] 🧪 The Aloe Family Recipe for Open and Specialized Healthcare LLMs（开源与专用医疗保健大型语言模型的芦荟家族秘方）

[03:40] 🧮 Optimizing Anytime Reasoning via Budget Relative Policy Optimization（通过预算相对策略优化实现随时推理优化）

[04:25] 🧠 Neurosymbolic Diffusion Models（神经符号扩散模型）

[05:02] 🌊 Latent Flow Transformer（潜在流Transformer）

[05:40] 🧑 Exploring Federated Pruning for Large Language Models（探索用于大型语言模型的联邦剪枝）

[06:23] 👁 Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning（Visionary-R1：利用强化学习缓解视觉推理中的捷径问题）

[07:05] 🧠 General-Reasoner: Advancing LLM Reasoning Across All Domains（通用推理器：提升大型语言模型在所有领域的推理能力）

[07:45] 🤔 Reasoning Models Better Express Their Confidence（推理模型更善于表达其置信度）

[08:20] 🚀 Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning（推理路径压缩：压缩生成轨迹以实现高效的LLM推理）

[09:07] 🖼 Training-Free Watermarking for Autoregressive Image Generation（自回归图像生成模型的免训练水印方法）

[09:48] 🤔 VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation（VideoEval-Pro：稳健且真实的长视频理解评估）【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

2025.05.21 | 多模态预训练提升复杂任务能力；注意力机制优化推理与训练效率。

HuggingFace 每日AI论文速递

统一多模态预训练中的涌现属性？

SageAttention3：用于推理的微缩FP4注意力机制与8位训练的探索？

基于强化学习排序的推理引导图像质量评估？

视觉Agent强化微调？

开源与专用医疗保健大型语言模型的芦荟家族秘方？

通过预算相对策略优化实现随时推理优化？

神经符号扩散模型？

潜在流Transformer？

探索用于大型语言模型的联邦剪枝？

利用强化学习缓解视觉推理中的捷径问题？

通用推理器：提升大型语言模型在所有领域的推理能力？

推理模型更善于表达其置信度？

推理路径压缩：压缩生成轨迹以实现高效的LLM推理？

自回归图像生成模型的免训练水印方法？

稳健且真实的长视频理解评估？

Shownotes Transcript

2025.05.21 | 多模态预训练提升复杂任务能力；注意力机制优化推理与训练效率。 10:50 Share

HuggingFace 每日AI论文速递

统一多模态预训练中的涌现属性？

SageAttention3：用于推理的微缩FP4注意力机制与8位训练的探索？

基于强化学习排序的推理引导图像质量评估？

视觉Agent强化微调？

开源与专用医疗保健大型语言模型的芦荟家族秘方？

通过预算相对策略优化实现随时推理优化？

神经符号扩散模型？

潜在流Transformer？

探索用于大型语言模型的联邦剪枝？

利用强化学习缓解视觉推理中的捷径问题？

通用推理器：提升大型语言模型在所有领域的推理能力？

推理模型更善于表达其置信度？

推理路径压缩：压缩生成轨迹以实现高效的LLM推理？

自回归图像生成模型的免训练水印方法？

稳健且真实的长视频理解评估？

Shownotes Transcript

2025.05.21 | 多模态预训练提升复杂任务能力；注意力机制优化推理与训练效率。