We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025.06.13 | 医学推理模型新范式；自动化构建软件工程数据集

2025/6/14

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

本期的 15 篇论文如下：

[00:22] 🩺 ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning（ReasonMed：一个用于推进医学推理的37万多智能体生成数据集）

[01:12] 🏭 SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks（SWE-Factory：你的问题解决训练数据和评估基准自动化工厂）

[01:55] 🖼 Text-Aware Image Restoration with Diffusion Models（基于扩散模型的文本感知图像修复）

[02:36] 🎬 VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos（VRBench：长篇叙事视频中多步骤推理的基准测试）

[03:22] 🎬 AniMaker: Automated Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation（AniMaker：基于MCTS驱动的片段生成实现自动化多智能体动画故事叙述）

[04:09] 🧮 Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training（Domain2Vec：向量化数据集以在无训练情况下找到最优数据混合）

[04:52] 🎮 Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts（Optimus-3: 面向具有可扩展任务专家的通用多模态Minecraft智能体）

[05:27] 🧠 Magistral（Magistral：Mistral 的首个推理模型）

[06:07] 🤖 AutoMind: Adaptive Knowledgeable Agent for Automated Data Science（AutoMind：面向自动化数据科学的自适应知识型智能体）

[06:53] 🎨 PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework（PosterCraft：重新思考统一框架下的高质量美学海报生成）

[07:43] 🎬 VideoDeepResearch: Long Video Understanding With Agentic Tool Using（VideoDeepResearch：使用Agentic工具的长视频理解）

[08:22] 🚫 ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark（ChineseHarm-Bench：一个中文有害内容检测的基准）

[09:01] 🎨 CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation（CreatiPoster：面向可编辑和可控的多层图形设计生成）

[09:48] 💡 Resa: Transparent Reasoning Models via SAEs（Resa：基于稀疏自编码器的透明推理模型）

[10:30] 🤖 Ming-Omni: A Unified Multimodal Model for Perception and Generation（Ming-Omni：一个用于感知和生成的统一多模态模型）【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

2025.06.13 | 医学推理模型新范式；自动化构建软件工程数据集

HuggingFace 每日AI论文速递

ReasonMed：一个用于推进医学推理的37万多智能体生成数据集？

SWE-Factory：你的问题解决训练数据和评估基准自动化工厂？

基于扩散模型的文本感知图像修复？

VRBench：长篇叙事视频中多步骤推理的基准测试？

AniMaker：基于MCTS驱动的片段生成实现自动化多智能体动画故事叙述？

Domain2Vec：向量化数据集以在无训练情况下找到最优数据混合？

Optimus-3: 面向具有可扩展任务专家的通用多模态Minecraft智能体？

Magistral：Mistral 的首个推理模型？

AutoMind：面向自动化数据科学的自适应知识型智能体？

PosterCraft：重新思考统一框架下的高质量美学海报生成？

VideoDeepResearch：使用Agentic工具的长视频理解？

ChineseHarm-Bench：一个中文有害内容检测的基准？

CreatiPoster：面向可编辑和可控的多层图形设计生成？

Resa：基于稀疏自编码器的透明推理模型？

Ming-Omni：一个用于感知和生成的统一多模态模型？

Shownotes Transcript

2025.06.13 | 医学推理模型新范式；自动化构建软件工程数据集 11:36 Share

HuggingFace 每日AI论文速递

ReasonMed：一个用于推进医学推理的37万多智能体生成数据集？

SWE-Factory：你的问题解决训练数据和评估基准自动化工厂？

基于扩散模型的文本感知图像修复？

VRBench：长篇叙事视频中多步骤推理的基准测试？

AniMaker：基于MCTS驱动的片段生成实现自动化多智能体动画故事叙述？

Domain2Vec：向量化数据集以在无训练情况下找到最优数据混合？

Optimus-3: 面向具有可扩展任务专家的通用多模态Minecraft智能体？

Magistral：Mistral 的首个推理模型？

AutoMind：面向自动化数据科学的自适应知识型智能体？

PosterCraft：重新思考统一框架下的高质量美学海报生成？

VideoDeepResearch：使用Agentic工具的长视频理解？

ChineseHarm-Bench：一个中文有害内容检测的基准？

CreatiPoster：面向可编辑和可控的多层图形设计生成？

Resa：基于稀疏自编码器的透明推理模型？

Ming-Omni：一个用于感知和生成的统一多模态模型？

Shownotes Transcript

2025.06.13 | 医学推理模型新范式；自动化构建软件工程数据集