摘要知识蒸馏(Knowledge Distillation, KD)是一种广泛使用的方法,用于压缩教师模型,从而降低其推理成本和内存占用,通过训练一个更小的学生模型来实现。然而,目前针对自回归序列模型的知识蒸馏方法存在一个问题,即在训练期间所看到的输出序列与学生在推理时所生成的输出序列之间存在分布不匹配。为了解决这一问题,我们提出了一种广义知识蒸馏(Generalized Knowledge Distillation, GKD)方法。GKD 不仅依赖于一组固定的输出序列,还通过利用教师对学生自生成序列的反馈,对这些序列进行训练。与传统的监督式知识蒸馏方法不同,GKD 提供了在学生与教师之间使用替代损失函数的灵活性,这在学生模型缺乏足够表达能力以模拟教师分布时尤其有用。此外,GKD 还支持与语言模型的强化学习微调无缝结合。我们在多个任务中验证了 GKD的有效性,包括针对特定任务的蒸馏(如摘要生成、翻译和推理任务)以及任务无关的蒸馏(如指令微调)。1. 引言自回归序列模型(如语言模型,LM)在众多任务中展现出了令人印象深刻的能力,这些成功的关键往往在于训练数据规模和模型参数数量的扩展(Kaplan 等,2020)。然而,参数数量的扩展是有代价的,此类模型的部署常常受到推理成本或内存占用的限制。因此,在实际应用中,一个关键目标是通过减少参数数量来压缩这些大型高性能模型,同时尽可能保留其性能。