We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2024.12.13 每日AI论文 | 多模态系统提升长期交互，phi-4优化STEM问答表现。

2024/12/13

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

No transcript made for this episode yet, you may request it for free.

2024.12.13 每日AI论文 | 多模态系统提升长期交互，phi-4优化STEM问答表现。

HuggingFace 每日AI论文速递

InternLM-XComposer2.5-OmniLive：一个用于长期流式视频和音频交互的综合多模态系统

Phi-4 技术报告

欧几里得：通过合成高保真视觉描述提升多模态大语言模型

多模态潜在语言建模与下一词扩散

基于多模态大语言模型的扩散模型通用化图像参考

通过网络教程引导回放的代理轨迹合成

神经光装置：利用多光源扩散解锁精确物体法线和材质估计

通过高效架构和训练驯服高分辨率文本到图像模型以适应移动设备

物理信息高斯函数作为自适应参数化网格表示

压缩学习中的学习压缩

一个高效且以语音为中心的全认知框架

在现实场景中评估LLMs规则引导推理能力的基准

通过大规模学习编码器进行注视目标估计

基准测试用于系统排名的LLM评判器

通过辅助嵌入蒸馏提升多模态大语言模型的视觉感知能力

版权材料对大型语言模型的影响：挪威视角

词义链接：超越沙盒的消歧

无姿态高斯喷射用于稀疏视图三维重建

解耦姿态引导的可控人体图像动画

对比适应用于扩散模型的定制化

学习基于状态自适应混合专家的通用语言引导视觉导航

基于扩散反演的任意步图像超分辨率

Shiksha：面向印度语言的技术领域翻译数据集与模型

Shownotes Transcript

2024.12.13 每日AI论文 | 多模态系统提升长期交互，phi-4优化STEM问答表现。 18:02 Share

HuggingFace 每日AI论文速递

InternLM-XComposer2.5-OmniLive：一个用于长期流式视频和音频交互的综合多模态系统

Phi-4 技术报告

欧几里得：通过合成高保真视觉描述提升多模态大语言模型

多模态潜在语言建模与下一词扩散

基于多模态大语言模型的扩散模型通用化图像参考

通过网络教程引导回放的代理轨迹合成

神经光装置：利用多光源扩散解锁精确物体法线和材质估计

通过高效架构和训练驯服高分辨率文本到图像模型以适应移动设备

物理信息高斯函数作为自适应参数化网格表示

压缩学习中的学习压缩

一个高效且以语音为中心的全认知框架

在现实场景中评估LLMs规则引导推理能力的基准

通过大规模学习编码器进行注视目标估计

基准测试用于系统排名的LLM评判器

通过辅助嵌入蒸馏提升多模态大语言模型的视觉感知能力

版权材料对大型语言模型的影响：挪威视角

词义链接：超越沙盒的消歧

无姿态高斯喷射用于稀疏视图三维重建

解耦姿态引导的可控人体图像动画

对比适应用于扩散模型的定制化

学习基于状态自适应混合专家的通用语言引导视觉导航

基于扩散反演的任意步图像超分辨率

Shiksha：面向印度语言的技术领域翻译数据集与模型

Shownotes Transcript

2024.12.13 每日AI论文 | 多模态系统提升长期交互，phi-4优化STEM问答表现。