We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025.02.14 | GPU扩展至300万tokens，文本编码器内存高效策略。

2025/2/14

HuggingFace 每日AI论文速递

AI Chapters

Chapters

Shownotes Transcript

No transcript made for this episode yet, you may request it for free.

2025.02.14 | GPU扩展至300万tokens，文本编码器内存高效策略。

HuggingFace 每日AI论文速递

InfiniteHiP：在单个GPU上扩展语言模型上下文至300万 tokens

Skrr：跳过并重用文本编码器层以实现内存高效文本到图像生成

一个开放的方案：通过模型合并在一日内将语言特定LLM适应为推理模型

SelfCite：大语言模型中上下文归属的自监督对齐方法

该模型也能识别狗吗？基于权重的零样本模型搜索

探索无编码器架构在三维大尺度多模态模型中的潜力

协同角色模拟：基于大语言模型的角色扮演语言代理

TripoSG：使用大规模校正流模型生成高保真3D形状

EmbodiedBench：全面评估视觉驱动具身智能体多模态大语言模型

台风T1：一个开放的泰语推理模型

大型语言模型中的逻辑推理：综述

MME-CoT：评估大型多模态模型中链式思维推理质量、鲁棒性和效率

长度可压缩的链式思维调优

SQuARE：增强大型语言模型链式思考的顺序问答推理引擎

mmE5：通过高质量合成数据改进多模态多语言嵌入

随机鹦鹉在大语言模型肩上：物理概念理解的总结性评估

DexTrack：面向人类参考的灵巧操作通用神经跟踪控制

3CAD：一个大规模真实3C产品数据集用于无监督异常检测

Shownotes Transcript

2025.02.14 | GPU扩展至300万tokens，文本编码器内存高效策略。 14:13 Share

HuggingFace 每日AI论文速递

InfiniteHiP：在单个GPU上扩展语言模型上下文至300万 tokens

Skrr：跳过并重用文本编码器层以实现内存高效文本到图像生成

一个开放的方案：通过模型合并在一日内将语言特定LLM适应为推理模型

SelfCite：大语言模型中上下文归属的自监督对齐方法

该模型也能识别狗吗？基于权重的零样本模型搜索

探索无编码器架构在三维大尺度多模态模型中的潜力

协同角色模拟：基于大语言模型的角色扮演语言代理

TripoSG：使用大规模校正流模型生成高保真3D形状

EmbodiedBench：全面评估视觉驱动具身智能体多模态大语言模型

台风T1：一个开放的泰语推理模型

大型语言模型中的逻辑推理：综述

MME-CoT：评估大型多模态模型中链式思维推理质量、鲁棒性和效率

长度可压缩的链式思维调优

SQuARE：增强大型语言模型链式思考的顺序问答推理引擎

mmE5：通过高质量合成数据改进多模态多语言嵌入

随机鹦鹉在大语言模型肩上：物理概念理解的总结性评估

DexTrack：面向人类参考的灵巧操作通用神经跟踪控制

3CAD：一个大规模真实3C产品数据集用于无监督异常检测

Shownotes Transcript

2025.02.14 | GPU扩展至300万tokens，文本编码器内存高效策略。