介绍了五项研究,主题涵盖大语言模型的跨语言知识表示、Transformer 学习随机化算法、推测式解码加速长文本生成、语言模型训练曲线新公式以及代码数据对预训练的积极影响。
完整推介:https://mp.weixin.qq.com/s/nzg0iyi-OyhNr9WrMaSgtw