We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2024.12.11 每日AI论文 | 代码模型评估改进，视频生成技术突破

2024/12/11

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

No transcript made for this episode yet, you may request it for free.

2024.12.11 每日AI论文 | 代码模型评估改进，视频生成技术突破

HuggingFace 每日AI论文速递

评估与对齐代码大语言模型的人类偏好？

STIV：可扩展的文本与图像条件视频生成？

DiffSensei：连接多模态大语言模型与扩散模型以实现定制化漫画生成？

隐藏在噪声中：图像的两阶段鲁棒水印技术？

UniReal：通过学习真实世界动态实现通用图像生成与编辑？

全向文档基准：多样PDF文档解析的综合评估？

FiVA：用于文本到图像扩散模型的细粒度视觉属性数据集？

3D轨迹大师：掌握视频生成中的多实体三维运动？

框架表示假设：多标记语言模型的可解释性与概念引导文本生成？

感知令牌增强多模态语言模型的视觉推理能力？

基于扩散变换器的视频运动迁移？

EMOv2：推动5M规模视觉模型前沿？

花岗岩守护者

ILLUME：让您的LLMs看见、绘制并自我增强？

ObjCtrl-2.5D：无需训练的对象控制与相机姿态？

LoRA.rar：通过超网络学习合并LoRA以实现主题-风格条件图像生成？

MoViE：移动设备上的扩散模型视频编辑？

奇美拉：通过特定领域专家提升通用模型？

全开源Moxin-7B技术报告？

移动视频扩散？

情境化反驳言论：适应、个性化与评估策略？

最大化对齐与最小化反馈：高效学习视觉运动机器人策略对齐的奖励？

一种对抗梯度反演攻击的新型联邦学习框架？

Shownotes Transcript

2024.12.11 每日AI论文 | 代码模型评估改进，视频生成技术突破 17:23 Share

HuggingFace 每日AI论文速递

评估与对齐代码大语言模型的人类偏好？

STIV：可扩展的文本与图像条件视频生成？

DiffSensei：连接多模态大语言模型与扩散模型以实现定制化漫画生成？

隐藏在噪声中：图像的两阶段鲁棒水印技术？

UniReal：通过学习真实世界动态实现通用图像生成与编辑？

全向文档基准：多样PDF文档解析的综合评估？

FiVA：用于文本到图像扩散模型的细粒度视觉属性数据集？

3D轨迹大师：掌握视频生成中的多实体三维运动？

框架表示假设：多标记语言模型的可解释性与概念引导文本生成？

感知令牌增强多模态语言模型的视觉推理能力？

基于扩散变换器的视频运动迁移？

EMOv2：推动5M规模视觉模型前沿？

花岗岩守护者

ILLUME：让您的LLMs看见、绘制并自我增强？

ObjCtrl-2.5D：无需训练的对象控制与相机姿态？

LoRA.rar：通过超网络学习合并LoRA以实现主题-风格条件图像生成？

MoViE：移动设备上的扩散模型视频编辑？

奇美拉：通过特定领域专家提升通用模型？

全开源Moxin-7B技术报告？

移动视频扩散？

情境化反驳言论：适应、个性化与评估策略？

最大化对齐与最小化反馈：高效学习视觉运动机器人策略对齐的奖励？

一种对抗梯度反演攻击的新型联邦学习框架？

Shownotes Transcript

2024.12.11 每日AI论文 | 代码模型评估改进，视频生成技术突破