AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

张

张建站

2026/4/25 16:00:03

10分钟阅读

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法原文作者Takashi Isobe, He Cui, Mengmeng Ge, Dong Zhou, Dong Li, KuanTing Lin, Chandra Yang, Wickey Wang, Emad Barsoum.引言随着近些年扩散模型的出现与快速发展[1]视频生成算法在分辨率、生成质量以及创作范式等方面均取得了令人瞩目的进展并辐射性地重塑了整个视频创作流程用户只需提供文本或图像输入视频扩散模型便可自动生成符合指令的视频内容。然而这种高度便捷的生成能力背后往往依赖于极为庞大的算力与显存开销作为支撑。受此限制当前主流的基于 Transformer 的扩散模型DiT大多部署于高算力的云端服务环境中用户需通过特定网站或软件以请求式的方式调用模型完成视频生成[2,3]。这种以算力堆叠为核心的发展路径也逐渐显现出其局限性高延迟、高成本以及对云端基础设施的强依赖使得视频生成难以真正融入广泛创作者的日常使用。在此背景下面向消费级硬件的视频生成算法开始受到广泛关注其目标是在受限的算力与显存条件下实现可实时、可本地运行的视频生成能力。为解决上述痛点本篇博客将重点介绍 Hummingbird-XT并探讨其如何对现有 DiT 视频架构进行系统性加速以主流的 Wan-2.2-5B TI2V [3]为例从而推动视频生成模型在消费端的实际落地。此外针对长视频生成场景本博客还介绍了 Hummingbird-XTX一款基于 Wan-2.1-1.3B T2V 架构的高效 DiT 模型转为长视频设计。在单卡推理条件下其理论上可生成无限长视频序列视频分辨率为 832× 480并保持线性随帧数增长的推理复杂度为流式和实时视频生成提供了可行路径。Hummingbird 系列模型的相关训练代码与数据集已向社区开源进一步丰富并完善了 AMD 的视频生成生态系统。3步去噪便可生成高质量视频扩散模型的一种加速思路是让学生扩散模型用最少的步数模拟基模型老师多在步数下的去噪轨迹。为此我们采用了一种基于分布匹配蒸馏DMD的Self-forcing变体 [4,5,6]。该方法通过让学生 DiT 模型直接模仿教师模型的去噪行为并且无需依赖真实的文本和视频对进行监督。蒸馏过程可概括为三个核心步骤1生成目标潜在表示学生模型首先通过后向模拟采样器在多个较大的扩散时间步上生成一条潜在视频轨迹其最终去噪结果被视为“纯净”的潜在目标。2构造噪声输入随机采样一个扩散时间步并向潜在表示中注入高斯噪声得到噪声潜在表示。3教师–学生分数对齐对噪声潜在表示分别应用冻结的教师分数网络和可训练的学生分数网络两者均采用无分类器引导。教师分数提供目标去噪方向而二者之间的差异构成一个 KL 风格的约束驱动学生模型逼近教师模型的更新行为。蒸馏过程中输入图像和文本提示词的质量对学生模型的生成效果起着关键作用。如图 1 所示实际数据中常见的提示词问题主要包括三类1过短提示词仅描述动作缺乏背景与外观信息容易导致运动重影2过长描述性提示词对物体与场景的细节描述冗余容易引发物体幻觉3动作与镜头描述过强过度强调动作或镜头运动导致生成不稳定和运动幅度失真。为缓解上述问题我们设计了一套系统化的数据筛选与重写流程收集约数十万对视频首帧和文本的配对样本并使用使用 Qwen-2.5-14B Instruct [7]对提示词过长的样本进行了修正。随后利用 Qwen-2.5-72B [7] 对重写后的提示词进行质量评估并过滤异常样本最终筛选得到约 7 万对高质量文本–图像数据用于步数蒸馏训练。图1蒸馏过程中使用噪声数据所引发的问题示例。第一行仅包含动作信息的短提示词导致明显的运动重影第二行过于冗长的描述性提示词引发物体幻觉第三行过度强调动作与镜头运动的提示词导致运动幅度异常及生成不稳定。为了解决这个问题我们设计了一条精心构建的 data curation数据筛选与清洗流水线。首先我们通过合并 MagicMotion [5]、OpenVid-HD [6] 和 HumanVid [7] 这三个数据集收集了约 14 万对文本–图像样本。这些数据集都提供了从视频中抽取的高质量首帧图像。然而OpenVid-HD 和 HumanVid 中的原始文本描述往往过于冗长倾向于完整描写背景和物体外观这样的风格并不适合 student-teacher generation师生式生成场景。为了提升文本描述的质量我们使用 Qwen-2.5-14B Instruct [8] 对每个样本进行重写重写时遵循以下规则直接从主要主体或场景开始描述只描述原始 caption 中明确提到的内容并聚焦在主要主体上避免使用影视摄影相关术语不引入任何新的物体、人物、动作或细节不输出分析、推理、说明性文字或操作指引不使用第一人称语言。在此基础上我们进一步使用 Qwen-2.5-72B 对重写后的 caption 进行质量评估并过滤掉异常样本最终得到约 7 万对高质量文本–图像样本用于训练。迈向高效且轻量级的视频 VAEVAE 解码器是视频扩散模型中的另一主要计算瓶颈。现有视频 VAE 往往依赖计算开销较大的 3D 卷积或注意力模块来提升重建质量[3]。为此Hummingbird-XT 引入了一种高效且轻量级的 VAE 解码器在保持与目标视频模型 VAE 相同压缩率和潜在通道数的前提下实现了与其 DiT 模型的无缝兼容。该解码器可直接替换基视频模型中的原始 VAE如 Wan-2.2-5B在保持视觉质量的同时显著降低了解码计算开销。图 2 所提出的高效轻量级 VAE 解码器架构。架构优化包含了3个核心改动1针对计算开销较大的标准 3D 卷积引入 3D 深度可分离卷积进行替换以显著降低参数量与 FLOPs2基于对解码器冗余性的观察高分辨率解码模块对重建质量更为关键而低分辨率模块存在明显计算冗余。因此仅在前三个解码器模块中采用 3D 深度可分离卷积而在最后两个模块中保留标准 3D 卷积以平衡效率与重建质量3进一步移除了注意力层并减少了各模块中的卷积层数量与潜在通道规模。在训练策略方面采用了以下两点关键设计1冻结原始 Wan-2.2 VAE 的编码器仅对压缩后的解码器进行训练使其在固定潜在空间中学习稳定的像素重建映射从而避免潜在空间坍塌问题。训练完成后该解码器可无缝集成至原始 DiT 模型中无需额外微调2引入师生蒸馏策略以进一步提升重建质量[8]利用原始 VAE 解码器前若干模块的中间特征作为教师信号引导轻量解码器学习一致的特征表示。整体训练目标由重建损失、感知损失LPIPS、KL 散度以及特征蒸馏损失共同组成。实验结果表明所提出的轻量级 VAE 解码器在显著降低计算成本的同时保持了优良的重建与生成质量并在视觉效果上优于近期的轻量级 VAE 方法如 Taehv [12]。Hummingbird-XTX高效可扩展的长视频生成图 3 Frame Sink 通过在 KV 缓存中永久保留初始帧特征作为全局锚点防止长序列生成中的色彩退化。长视频生成是视频生成领域中的一个重要子方向其目标是在更低的计算成本下生成包含更丰富时序与语义信息的视频内容。基于 Wan-2.1-1.3B [3] 的 Hummingbird-XTX 正是为应对这一需求而设计的模型为流式和实时视频生成提供了可行路径。现有的长视频生成方法大多依赖双向注意力机制在生成每一帧时都需要处理完整的视频序列导致计算复杂度随帧数呈二次增长从而难以适用于实时或流式生成场景。相比之下自回归模型[9]通过逐帧生成并结合 KV 缓存在理论上能够将推理复杂度降低至线性是实现长视频生成的理想参考。然而直接采用自回归范式会引入严重的暴露偏差模型在训练阶段依赖真实帧作为条件而在推理阶段却必须基于自身预测结果展开生成误差随时间不断累积进而迅速导致生成质量退化甚至崩溃仅对现有模型进行简单微调难以从根本上缓解这一问题。为此Hummingbird-XTX 从初始化方式与训练范式两个层面进行了系统性重设计首先引入基于常微分方程ODE[10]的初始化策略在蒸馏前利用预训练教师模型生成少量逆向扩散轨迹对学生模型进行预热使其在潜在分布层面逼近教师模型为后续自回归训练提供稳定的起点其次采用 Self-Forcing 训练范式[6]在训练阶段执行完整的自回归展开并结合训练期 KV 缓存与少步生成条件下的梯度截断使模型能够在可控的计算与显存开销下学习修正自身预测误差从而实现整体的分布匹配优化。进一步地引入 Frame Sink 机制以保留初始帧的全局信息使模型在使用短窗口注意力实现线性时间复杂度时避免长视频生成中的语义和风格漂移,实现长视频下的色彩主体一致性。长视频解码的高效分帧策略在高分辨率长视频解码过程中若直接对完整的时序特征空间应用 3D 卷积会带来过高的显存占用和计算开销。我们通过将长视频的特征空间沿时间维度拆分为多个短片段进行加速解码并提出了两种对应的分帧解码策略因果 VAE 解码器仅利用历史帧信息和非因果 VAE 解码器同时利用过去与未来帧信息。图 4长视频的两种解码策略这两类解码器均在短视频片段上完成训练在扩展至长视频解码时分别采用了不同的推理策略对于因果 VAE采用因果缓存机制将潜在序列划分为不重叠的时间片段并顺序解码同时复用前一片段的中间特征作为上下文对于非因果 VAE则采用 Tiling 分块策略将潜在序列划分为相互重叠的时间片段并对重叠区域进行线性融合以保证时间连续性。实验结果表明将非因果 VAE 解码器与 Tiling 策略相结合在显著降低显存与计算开销的同时不仅提升了重建质量还进一步加速了 Hummingbird-XT 与 Hummingbird-XTX 的推理过程。实验结果1.Hummingbird-XT 相比基模型 Wan-2.2-5B在消费级显卡上实现 33× 加速可高效生成 704×1280 分辨率、121 帧视频。已关注关注重播分享赞关闭观看更多更多退出全屏切换到竖屏全屏退出全屏AMD开发者中心已关注分享视频时长00:130/000:00/00:13切换到横屏模式继续播放进度条百分之0播放00:00/00:1300:13全屏倍速播放中0.5倍 0.75倍 1.0倍 1.5倍 2.0倍超清流畅继续观看AMD Hummingbird-XT: 面向消费端的高性能视频生成算法观看更多转载,AMD Hummingbird-XT: 面向消费端的高性能视频生成算法AMD开发者中心已关注分享点赞在看已同步到看一看写下你的评论视频详情2.在 VBench-T2V 与 VBench-I2V 测试集上Hummingbird-XT 在生成质量与语义一致性以及主体与背景一致性方面均达到与基模型 Wan-2.2-5B 具有竞争力的性能。3.所提出的轻量级 VAE 在显著降低解码时间与显存占用的同时仍保持接近原始 Wan-2.2 VAE 的重建质量。4.在长视频生成任务中Hummingbird-XTX 以显著更高的 FPS 完成 300 帧视频生成并保持稳定的时序一致性。已关注关注重播分享赞关闭观看更多更多退出全屏切换到竖屏全屏退出全屏AMD开发者中心已关注分享视频时长00:280/000:00/00:28切换到横屏模式继续播放进度条百分之0播放00:00/00:2800:28全屏倍速播放中0.5倍 0.75倍 1.0倍 1.5倍 2.0倍超清流畅继续观看AMD Hummingbird-XT: 面向消费端的高性能视频生成算法观看更多转载,AMD Hummingbird-XT: 面向消费端的高性能视频生成算法AMD开发者中心已关注分享点赞在看已同步到看一看写下你的评论视频详情参考工作1.Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.2.Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2023: 4195-4205.3.Wan T, Wang A, Ai B, et al. Wan: Open and advanced large-scale video generative models[J]. arXiv preprint arXiv:2503.20314, 2025.4.Zhang, Peiyuan, et al. “Fast video generation with sliding tile attention.” arXiv preprint arXiv:2502.04507 (2025).5.Li Q, Xing Z, Wang R, et al. Magicmotion: Controllable video generation with dense-to-sparse trajectory guidance[J]. arXiv preprint arXiv:2503.16421, 2025.6.Huang X, Li Z, He G, et al. Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion[J]. arXiv preprint arXiv:2506.08009, 2025.7.Hui B, Yang J, Cui Z, et al. Qwen2. 5-coder technical report[J]. arXiv preprint arXiv:2409.12186, 2024.8.Yao J, Yang B, Wang X. Reconstruction vs. generation: Taming optimization dilemma in latent diffusion models[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 15703-15712.9.Chen B, Martí Monsó D, Du Y, et al. Diffusion forcing: Next-token prediction meets full-sequence diffusion[J]. Advances in Neural Information Processing Systems, 2024, 37: 24081-24125.10.Song J, Meng C, Ermon S. Denoising diffusion implicit models[J]. arXiv preprint arXiv:2010.02502, 2020.11.Huang, Ziqi, et al. Vbench: Comprehensive benchmark suite for video generative models.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.12.Bohan O B. Taehv: Tiny autoencoder for hunyuan video[EB/OL].(2025)13.Yin T, Zhang Q, Zhang R, et al. From slow bidirectional to fast autoregressive video diffusion models[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 22963-22974.14.Yang S, Huang W, Chu R, et al. Longlive: Real-time interactive long video generation[J]. arXiv preprint arXiv:2509.22622, 2025.15.Liu K, Hu W, Xu J, et al. Rolling forcing: Autoregressive long video diffusion in real time[J]. arXiv preprint arXiv:2509.25161, 2025.