We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
2025.06.18 | MultiFinBen揭示金融模型局限;测试时计算提升LLM Agent性能。
10:52
Share
2025/6/18
HuggingFace 每日AI论文速递
AI Chapters
Transcribe
Chapters
MultiFinBen揭示金融模型局限?
测试时计算提升LLM Agent性能?
CMI-Bench: 一个评估音乐指令跟随的综合性基准
LongLLaDA: 解锁扩散语言模型中的长文本能力?
基于可验证奖励的强化学习如何激励基础大语言模型中的正确推理?
Xolver: 像奥林匹克团队一样利用整体经验进行多智能体推理?
Stream-Omni: 与大型语言-视觉-语音模型的同时多模态交互?
基于强化学习的高效医学视觉信息抽取?
基于探索的推理:一个熵的视角?
QFFT:用于自适应推理的无问题微调?
对齐你的流:扩展连续时间流映射蒸馏?
大语言模型能否为算法问题生成高质量测试用例?
有保证的猜测:一种基于语言建模的CISC到RISC代码转换方法,并提供测试保证?
CRITICTOOL:评估大型语言模型在工具调用错误场景中的自我批判能力?
xbench:通过与职业对齐的真实世界评估追踪Agent的生产力提升?
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.