腾讯开源 | 蒸馏结合可学习缓存：腾讯混元视频生成加速新探索

张

张建站

2026/6/18 10:50:39

10分钟阅读

来自腾讯混元的全新AIGC视频生成加速方案--(Distillation-CompatibleLearnableFeatureCaching)DisCa正式开源作为学界和业界首次对基于可学习的特征缓存技术进一步加速蒸馏后少步模型的这一方向的尝试该工作现已被CVPR2026接收。TL;DR速览:DisCa主要聚焦于两大方向的讨论1.DisCa首次提出在蒸馏后的少步模型上通过引入可学习的轻量神经网络预测器进一步利用特征缓存高度压缩推理成本在保证质量前提下将加速边界拓展至11.8倍。2.MeanFlow蒸馏方案简单实用的进一步改进。这一点上与麻省理工(MIT)[1]谷歌(Google)[2]等团队同期工作的探索不谋而合互相印证相较之下我们的工作在更复杂的高质量视频生成任务上开展更具实践指导意义。DisCa现已正式开源其代码和模型权重公开可用欢迎大家使用和进一步探索。Githubhttps://github.com/Tencent-Hunyuan/DisCaHugging Facehttps://huggingface.co/tencent/DisCaArXiv论文https://arxiv.org/abs/2602.05449DisCa:蒸馏兼容的可学习缓存在扩散模型进行多步生成的过程左中传统的特征缓存方案直接将以往特征缓存然后在接下来推理步中直接复用或简单地进行预测就能达到不错的加速效果。但在已经进行少步蒸馏的模型右中直接地运用特征缓存方案会导致过大的缓存误差进而导致严重崩坏。DisCa首次提出通过引入轻量神经网络预测器通过神经网络以更好地捕获高维特征的演化轨迹从利用以往推理步中的特征更精准地预测后续特征演化实现推理加速。基于生成-判别对抗的预测器训练对于轻量级神经网络预测器Predictor(P)我们将上图所示的对抗学习方案引入其训练过程。简单来说在这个过程中神经网络预测器P的目标是使其生成结果尽量接近同输入下大模型M的输出而判别器D的目标则是精准分别出预测器P和大模型M的输出。通过神经网络预测器P和判别器D的交替学习进化的博弈过程轻量神经网络预测器P能很好地习得如何基于缓存来预测接下来的特征。引入预测器后的推理模式完成预测器训练后主模型M和预测器P组装起来按所示模式进行推理R-MeanFlow: 剪除激进场景的MeanFlow训练来自麻省理工的何恺明团队提出的MeanFlow引入“预测平均速度场”的观点在ImageNet图像生成任务的加速上取得了显著成功。我们的研究中注意到在更复杂多样要求更高的视频生成任务上这样“一步生成”的目标过于激进而以“一步生成”为目标的激进训练样本甚至会对模型训练产生明显的负面影响。其相应的改进方案简单而实用既然暂时不打算做“一步生成”就剪除这些激进的训练场景使得左图中本来模型每一步步长可能在0到1之间任取的训练被约束为右图中步长受限在0到rr1)的RestrictedMeanFlow(R-MeanFlow)模式。这与麻省理工团队和谷歌团队的同期研究结论相互印证并作为更复杂任务更大规模的实践证据。相关研究成果也被用于当前最佳开源视频生成模型 HunyuanVideo-1.5的步数蒸馏实践中。实验结果展示R-MeanFlow在多项指标上显著优于简单MeanFlow方案可视化结果MeanFlow出现明显畸形和抖动R-MeanFlow方案则能显著解决此问题在HunyuanVideo-1.0文生视频上开展的量化指标对比实验对比方法在超高加速比下出现明显乏力而DisCa和R-MeanFlow仍能保证优秀性能在HunyuanVideo-1.5图生视频上我们加速比进一步提升并开展用户偏好调研4步生成上DisCa明显优于其它参评方案R-MeanFlow8步蒸馏模型性能可与50步无加速模型相比。可视化结果蒸馏缓存结合的方案DisCa在避免畸形和高分辨率细节等能力上展现出明显优势。同期工作[1] Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models. arXiv preprint arXiv:2512.02012.[2] Kim, J. Y., et al. (2025). Understanding, Accelerating, and Improving MeanFlow Training. arXiv preprint arXiv:2511.19065.关注腾讯开源公众号获取更多最新腾讯官方开源信息