论文作者单位:华南理工大学、 西湖大学、约翰斯·霍普金斯大学
研究背景
- 领域现状
预训练扩散模型大幅提升了视频生成质量,但难以用于实时流式场景;自回归模型天然适配逐帧/逐片段序列合成,但高保真生成需巨大计算量;扩散蒸馏可将多步模型压缩为高效少步变体,现有视频蒸馏方法多直接迁移图像蒸馏技术,忽略时序依赖。 - 关键问题
现有方法存在运动连贯性差、长序列误差累积、延迟-质量权衡不佳的缺陷;核心诱因是降噪步压缩时时序上下文利用不足,以及片段预测中隐式噪声级预测带来的曝光偏差。 - 研究缺口
缺少同时兼顾时序信息、降噪步维度、长视频稳定性与实时推理效率的自回归视频蒸馏框架,无法在少步约束下保持运动质量与视觉保真度。
研究目的
- 解决自回归视频蒸馏中时序上下文利用不足与曝光偏差导致的长序列误差累积、运动失真、过饱和问题。
- 设计高效的对角蒸馏框架,实现实时流式视频生成,在大幅降低推理延迟的同时保持高质量视觉与运动连贯性。
- 突破传统固定降噪步分配的局限,在自回归范式下平衡生成质量、时序一致性与计算效率。
本文核心贡献
- 提出对角蒸馏(Diagonal Distillation)框架
采用非对称生成策略,为视频前期片段分配更多降噪步、后期片段逐步减少,充分利用早期片段的外观结构先验,在少步约束下保持质量并提升效率。 - 提出对角强制(Diagonal Forcing)训练范式
训练中通过可控噪声注入显式模拟对角降噪轨迹,用前序片段的部分降噪状态作为条件输入,缓解训练与推理的分布不匹配,抑制长视频误差累积。 - 提出光流分布匹配(Flow Distribution Matching)
将显式时序建模融入蒸馏损失,对齐师生模型的运动分布,解决少步降噪导致的运动幅度衰减问题,保障动态一致性。 - 实现SOTA实时流式生成性能
单卡H100生成5秒视频仅需2.61秒,帧率达31FPS,相对未蒸馏模型提速277.3倍,长视频生成无明显质量衰减。
研究方法

- 基础框架
基于分布匹配蒸馏(DMD) 扩展,以Wan2.1-T2V-1.3B为教师模型,采用Flow Matching架构,在 latent 空间进行蒸馏与生成。 - 核心方法
- 对角降噪:逐片段渐进减少降噪步,前3个片段分别用5/4/3步,后续片段固定2步;复用前序片段最终噪声帧的KV缓存,降低冗余计算。
- 对角强制:对前序干净片段注入可控噪声,作为当前片段的条件输入,显式建模跨时序与降噪步的轨迹,对齐训练与推理条件。
- 流分布匹配:设计轻量级可学习运动特征提取模块,直接在 latent 空间计算帧间差分与卷积特征,构建流损失对齐师生运动分布,加入总损失联合优化。
- 实验设置
- 数据集:使用VidProM并经LLM扩展过滤的文本提示;
- 评估指标:VBench(时序质量、帧质量、文本对齐度)、帧率、首帧延迟、加速比;
- 对比模型:Wan2.1、SkyReels-V2、MAGI-1、Causvid、Self-Forcing;
- 消融实验:验证对角降噪、对角强制、流损失、降噪步配置、KV缓存窗口的影响。
研究结果
- 性能对比
帧率达31FPS,首帧延迟0.37s,相对Wan2.1提速277.3×,总分84.48、帧质量85.26、语义一致性81.73,全面优于Causvid、Self-Forcing等SOTA方法。 - 消融验证
移除对角强制、流损失会显著降低时序/帧/文本指标;降噪步配置4322222在质量与效率间最优;KV缓存窗口设为4块(12帧)平衡内存与性能。 - 长视频生成
45秒长视频无过饱和、无质量衰减,用户偏好率显著高于基线,对Causvid偏好率66.1%,对Self-Forcing为59.3%。 - 效率优化
更少降噪函数评估(NFEs)、高效KV缓存、更小注意力窗口、Tiny VAE解码,共同实现低延迟高吞吐。
总结与展望
- 研究价值
本文提出的对角蒸馏框架首次同时建模时序与降噪步维度,解决了自回归视频蒸馏的曝光偏差与运动失真问题,实现了高质量、低延迟、长稳定的实时流式视频生成,为游戏仿真、机器人学习、实时内容创作提供可行方案。 - 局限性
原文未明确提及核心局限性,仅在伦理声明中指出技术存在深度伪造滥用风险。 - 未来方向
- 进一步优化动态降噪步分配策略;
- 扩展至更高分辨率、更长时长视频生成;
- 结合数字水印、内容认证技术实现安全部署;
- 轻量化适配边缘设备实时推理。