We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
2025.06.03 | 高熵Token提升LLM推理;推理健身房优化强化学习环境。
10:52
Share
2025/6/3
HuggingFace 每日AI论文速递
AI Chapters
Transcribe
Chapters
超越80/20法则:高熵少数Token如何驱动LLM推理的有效强化学习?
推理健身房:基于可验证奖励的强化学习推理环境?
SmolVLA:一种用于经济高效型机器人的视觉-语言-动作模型?
通过梯度分组调整学习率以驯服大型语言模型?
拼图-R1:基于规则的视觉强化学习与拼图游戏研究?
用于视频扩散模型多功能控制的时序上下文微调?
ARIA:基于意图驱动的奖励聚合训练语言智能体?
LoHoVLA:用于长时程具身任务的统一视觉-语言-动作模型?
ShapeLLM-Omni:用于3D生成与理解的原生多模态LLM?
基于协作轨迹控制的机器人操作视频生成学习?
AReaL:用于语言推理的大规模异步强化学习系统?
地球之 Mind:面向多粒度和多传感器地球观测的大型多模态模型?
SRPO:通过反思感知强化学习增强多模态LLM的推理能力?
MiCRo:用于个性化偏好学习的混合建模和上下文感知路由?
激励推理以提升大型语言模型的高级指令跟随能力?
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.