小爱/小T:本期节目介绍了四篇AI前沿论文,涵盖了大型语言模型文本生成、模型训练内存优化、多语言模型训练和通用时间序列分析四个方面。首先,针对大型语言模型文本生成中温度参数与文本连贯性之间的矛盾,论文提出了Min-p采样方法,该方法通过动态调整采样阈值,平衡文本质量和多样性,在高温度下也能生成高质量文本。其次,针对大型语言模型训练中内存消耗过大的问题,论文提出了切分交叉熵(CCE)方法,通过只计算当前正确词的逻辑值并利用softnext函数的稀疏性,显著降低内存消耗并提高计算效率。再次,针对多语言模型和联邦学习中不同类型数据训练的干扰问题,论文提出了解耦嵌入(DP)框架,通过将词嵌入和Transformer主体解耦,让每个数据源使用自己的词汇表和嵌入矩阵,只共享Transformer主体的权重,从而减少参数量,提高训练效率和模型泛化能力,并保护数据隐私。最后,针对时间序列分析,论文提出了TimeMixer++模型,该模型通过多尺度和多分辨率的分析方法,同时在时域和频域提取数据特征,并通过双轴注意力和分层混合技术整合信息,实现了在多种时间序列任务上的最先进性能。
Deep Dive