We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025.03.04 | 强化视觉推理，提升3D重建质量。

2025/3/4

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

No transcript made for this episode yet, you may request it for free.

2025.03.04 | 强化视觉推理，提升3D重建质量。

HuggingFace 每日AI论文速递

视觉强化微调如何改进模型性能？

Difix3D+如何通过单步扩散模型提升3D重建质量？

Phi-4-Mini技术报告：多模态语言模型的紧凑与强大

OneRec：如何统一生成推荐与迭代偏好对齐？

LLM何时对其答案感到不安？不确定性何时合理？

DiffRhythm：基于潜在扩散的超快速且极度简单的端到端全长歌曲生成

Liger：将大型语言模型线性化为门控递归结构

Qilin：包含应用级用户会话的多模态信息检索数据集

实现自我改进推理者的认知行为，或，高效STaRs的四个习惯

投机性即席查询与双解码：硬件感知的异构推测解码

Kiss3DGen：如何将图像扩散模型用于3D资产生成？

词形重要：LLM在字谜现象下的语义重构

从小时到分钟：超长序列生成的高效加速

大规模数据选择如何用于指令微调？

SampleMix：样本级预训练数据混合策略

CodeArena：面向LLM代码生成的大规模评估平台

视频UFO：用于文本到视频生成的大规模用户聚焦数据集

PodAgent：播客生成的综合框架

无姿态稀疏视角房间布局重建在预训练模型时代的应用

Shownotes Transcript

2025.03.04 | 强化视觉推理，提升3D重建质量。 14:17 Share

HuggingFace 每日AI论文速递

视觉强化微调如何改进模型性能？

Difix3D+如何通过单步扩散模型提升3D重建质量？

Phi-4-Mini技术报告：多模态语言模型的紧凑与强大

OneRec：如何统一生成推荐与迭代偏好对齐？

LLM何时对其答案感到不安？不确定性何时合理？

DiffRhythm：基于潜在扩散的超快速且极度简单的端到端全长歌曲生成

Liger：将大型语言模型线性化为门控递归结构

Qilin：包含应用级用户会话的多模态信息检索数据集

实现自我改进推理者的认知行为，或，高效STaRs的四个习惯

投机性即席查询与双解码：硬件感知的异构推测解码

Kiss3DGen：如何将图像扩散模型用于3D资产生成？

词形重要：LLM在字谜现象下的语义重构

从小时到分钟：超长序列生成的高效加速

大规模数据选择如何用于指令微调？

SampleMix：样本级预训练数据混合策略

CodeArena：面向LLM代码生成的大规模评估平台

视频UFO：用于文本到视频生成的大规模用户聚焦数据集

PodAgent：播客生成的综合框架

无姿态稀疏视角房间布局重建在预训练模型时代的应用

Shownotes Transcript

2025.03.04 | 强化视觉推理，提升3D重建质量。