We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025.02.21 | AI代理评估新框架，LLM学科表现差异显著。

2025/2/21

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

No transcript made for this episode yet, you may request it for free.

2025.02.21 | AI代理评估新框架，LLM学科表现差异显著。

HuggingFace 每日AI论文速递

MLGym：推进AI研究代理的新框架与基准？

SuperGPQA：扩展LLM评估至285个研究生学科？

SigLIP 2：多语言视觉-语言编码器的语义理解、定位与密集特征改进？

在不损害大型语言模型的情况下，LoRA适配器能容纳多少知识？

S*：代码生成中的测试时间缩放？

时间是否有其位置？时间头：语言模型如何回忆时间特定信息？

LongWriter-V：在视觉-语言模型中实现超长和高保真生成？

逻辑-RL：通过基于规则的强化学习释放LLM推理能力？

PC-Agent：一种用于复杂任务自动化在PC上的分层多智能体协作框架？

S²R：通过强化学习教导大语言模型自我验证与自我修正？

利用强化学习发现高效低权重量子纠错码？

单视频动态概念个性化？

通过代码引导的合成多模态数据生成扩展文本丰富的图像理解？

NAVIG：基于自然语言引导的视觉语言模型用于图像地理定位分析？

AlphaMaze：通过GRPO提升大型语言模型的空间智能？

LLMs在多语言环境下的幻觉现象研究：在野外场景中的多语言幻觉估计？

基于真实人类游戏数据的 geolocation：大规模数据集与人类推理框架？

RelaCtrl：引导相关性的高效控制扩散变换器？

增强多模态基础模型的认知与可解释性通过自合成数据？

基于大语言模型的推荐系统用户画像管理？

Shownotes Transcript

2025.02.21 | AI代理评估新框架，LLM学科表现差异显著。 18:02 Share

HuggingFace 每日AI论文速递

MLGym：推进AI研究代理的新框架与基准？

SuperGPQA：扩展LLM评估至285个研究生学科？

SigLIP 2：多语言视觉-语言编码器的语义理解、定位与密集特征改进？

在不损害大型语言模型的情况下，LoRA适配器能容纳多少知识？

S*：代码生成中的测试时间缩放？

时间是否有其位置？时间头：语言模型如何回忆时间特定信息？

LongWriter-V：在视觉-语言模型中实现超长和高保真生成？

逻辑-RL：通过基于规则的强化学习释放LLM推理能力？

PC-Agent：一种用于复杂任务自动化在PC上的分层多智能体协作框架？

S²R：通过强化学习教导大语言模型自我验证与自我修正？

利用强化学习发现高效低权重量子纠错码？

单视频动态概念个性化？

通过代码引导的合成多模态数据生成扩展文本丰富的图像理解？

NAVIG：基于自然语言引导的视觉语言模型用于图像地理定位分析？

AlphaMaze：通过GRPO提升大型语言模型的空间智能？

LLMs在多语言环境下的幻觉现象研究：在野外场景中的多语言幻觉估计？

基于真实人类游戏数据的 geolocation：大规模数据集与人类推理框架？

RelaCtrl：引导相关性的高效控制扩散变换器？

增强多模态基础模型的认知与可解释性通过自合成数据？

基于大语言模型的推荐系统用户画像管理？

Shownotes Transcript

2025.02.21 | AI代理评估新框架，LLM学科表现差异显著。