We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
2025.04.11 | Kimi-VL模型表现优异;VCR-Bench评估推理瓶颈。
10:32
Share
2025/4/11
HuggingFace 每日AI论文速递
AI Chapters
Transcribe
Chapters
Kimi-VL技术报告
VCR-Bench:一个用于视频链式思考推理的综合评估框架
MM-IFEngine: 面向多模态指令跟随
VisualCloze:一个基于视觉情境学习的通用图像生成框架
DeepSeek-R1 思维学:让我们来<思考>关于LLM的推理
HoloPart:生成式3D部件非模态分割
C3PO:面向测试时专家重混合的关键层、核心专家、协同路径优化
MOSAIC:用于多智能体模拟中内容传播和监管的社会人工智能建模
原生多模态模型的扩展法则
更少数据,更强性能:MCTS引导的样本选择用于数据高效的视觉推理自提升
面向多模态大语言模型的视觉文本定位
MonoPlace3D:学习用于单目3D检测的3D感知物体放置
罗盘控制:用于文本到图像生成的多对象方向控制
TAPNext:将追踪任意点(TAP)视为下一个令牌预测
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.