We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
2025.01.03 每日AI论文 | 多模态教科书提升视觉语言模型性能,VideoAnydoor实现高保真视频对象插入
11:27
Share
2025/1/3
HuggingFace 每日AI论文速递
AI Chapters
Transcribe
Chapters
多模态教科书如何提升视觉语言模型性能?
VideoAnydoor:高保真视频对象插入与精确运动控制
VideoRefer套件如何推进时空对象理解?
CodeElo:大语言模型竞赛级代码生成基准测试
重建与生成:潜在扩散模型中的优化困境驯服
ProgCo:程序如何助力大语言模型自我修正?
MapEval:基于地图的基础模型地理空间推理能力评估
A3:移动GUI代理的安卓代理竞技场
代码奖励建模中单元测试的动态扩展
无需人工标注的图像安全MLLM-as-a-Judge方法
LTX-视频:实时视频潜在扩散模型
MapQaTor:高效地图查询数据集标注系统
通过近期性和过度平滑的视角理解并缓解状态空间模型的瓶颈
SeedVR:在扩散Transformer中播种无限,实现通用视频修复
SeFAR:基于时间扰动和学习稳定的半监督细粒度动作识别
重新思考语言模型中的寻址机制:基于上下文等变位置编码
面向时间序列生成的群体感知扩散模型
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.