We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
2025.02.21 | AI代理评估新框架,LLM学科表现差异显著。
18:02
Share
2025/2/21
HuggingFace 每日AI论文速递
AI Chapters
Transcribe
Chapters
MLGym:推进AI研究代理的新框架与基准?
SuperGPQA:扩展LLM评估至285个研究生学科?
SigLIP 2:多语言视觉-语言编码器的语义理解、定位与密集特征改进?
在不损害大型语言模型的情况下,LoRA适配器能容纳多少知识?
S*:代码生成中的测试时间缩放?
时间是否有其位置?时间头:语言模型如何回忆时间特定信息?
LongWriter-V:在视觉-语言模型中实现超长和高保真生成?
逻辑-RL:通过基于规则的强化学习释放LLM推理能力?
PC-Agent:一种用于复杂任务自动化在PC上的分层多智能体协作框架?
S²R:通过强化学习教导大语言模型自我验证与自我修正?
利用强化学习发现高效低权重量子纠错码?
单视频动态概念个性化?
通过代码引导的合成多模态数据生成扩展文本丰富的图像理解?
NAVIG:基于自然语言引导的视觉语言模型用于图像地理定位分析?
AlphaMaze:通过GRPO提升大型语言模型的空间智能?
LLMs在多语言环境下的幻觉现象研究:在野外场景中的多语言幻觉估计?
基于真实人类游戏数据的 geolocation:大规模数据集与人类推理框架?
RelaCtrl:引导相关性的高效控制扩散变换器?
增强多模态基础模型的认知与可解释性通过自合成数据?
基于大语言模型的推荐系统用户画像管理?
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.