We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
2025.03.27 | Dita跨模态策略优异,Qwen2.5-Omni多模态实时响应。
11:01
Share
2025/3/27
HuggingFace 每日AI论文速递
AI Chapters
Transcribe
Chapters
Dita:扩展扩散Transformer以实现通用视觉-语言-动作策略?
Qwen2.5-Omni技术报告
乐高拼图:多模态大型语言模型在多步空间推理方面的表现如何?
万:开放且先进的大规模视频生成模型
无条件先验至关重要!改进微调扩散模型的条件生成
开放深度搜索:通过开源推理Agent实现搜索的民主化?
GenHancer:不完美的生成模型是隐藏的强大视觉中心增强器?
BizGen:推进信息图生成中的文章级可视化文本渲染
Gemini Robotics:将人工智能带入物理世界?
MCTS-RAG:利用蒙特卡洛树搜索增强检索增强生成
AccVideo:利用合成数据集加速视频扩散模型
ViLBench:一个用于视觉-语言过程奖励建模的套件
LogQuant:通过卓越精度保持实现KV缓存的对数分布2比特量化
ADS-Edit:面向自动驾驶系统的多模态知识编辑数据集?
超越文字:通过多模态自回归模型推进长文本图像生成
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.