在视频生成领域,大家是不是常常遇到这样的痛点:主流模型虽然生成的画质越来越高,但生成5到10秒的短视频往往就需要耗费几十分钟。而市面上那些宣称能做到“实时无限生成”的模型,往往只有1.3B左右的较小参数量。这些小容量模型很难准确表示复杂的运动,还常常会导致高频细节模糊。
今天,由北京大学联合字节跳动带来的破局之作——Helios,正式登场!
这是首个能在单张NVIDIA H100 GPU上以 19.5 FPS 的超高帧率运行的14B参数视频生成模型。它不仅速度达到了真正的实时,还支持分钟级的高质量生成,画面质量与14B的模型相媲美!
开源地址:
模型权重:
https://modelscope.cn/collections/BestWishYSH/Helios
GitHub:
https://github.com/PKU-YuanGroup/Helios
项目主页:
https://pku-yuangroup.github.io/Helios-Page
技术论文:
https://arxiv.org/abs/2603.04379
01核心突破
· 硬核单卡极速推理: 无需依赖 KV-cache、量化或 TinyVAE 等常规手段,单张 H100 即可实现 19.5 FPS 的端到端推理,比1.3B的蒸馏模型速度还快;
· 底层攻克长视频“崩坏: 彻底摒弃传统的“打补丁”策略(如self-forcing)。通过创新机制,在训练阶段直接模拟并消除画面漂移与动作重复,让分钟级长视频原生具备超强连贯与极高画质;
· 全场景 14B 开源模型矩阵: 基于统一架构,原生打通 T2V(文生视频)、I2V(图生视频)与 V2V(视频生视频),按需提供三款梯度模型;
· 完整的开源基建: Day-0支持NPU、Diffusers、vLLM、SGLang多个推理后端。
02技术亮点
Helios 是一个14B自回归扩散模型,它采用了统一的输入表示,原生支持文生视频(T2V)、图生视频(I2V)和视频生视频(V2V)任务。它的成功密码隐藏在以下创新中:
1. Easy Anti-Drifting对抗长视频退化
长视频生成最怕的就是画面随时间崩坏。Helios团队总结了长视频漂移的三种典型模式:位置偏移、色彩偏移和修复偏移。为此,他们提出了一套简单的训练策略,在训练时显式模拟漂移,从源头上扼杀重复运动。
- Relative ROPE:通过相对索引,模型在任意长度下都能稳定生成,同时缓解了RoPE周期性与多头注意力之间的冲突,从根本上减少了鬼畜般的重复动作。
- First-Frame Anchor:在训练和推理期间,始终在历史上下文中保留第一帧作为全局视觉锚点。这能有效控制后期片段的分布漂移,大幅减轻自回归外推时的颜色偏移。
- Frame-Aware Corrupt:为了让模型适应推理时不完美的历史画面,团队在训练时会对历史帧独立进行曝光调整、加噪、下采样等扰动模拟。这极大地增强了模型对长时间残缺历史的鲁棒性。
2. 深度压缩流Deep Compression Flow挑战算力极限
为了达成实时生成,Helios在历史上下文和噪声上下文上都进行了极高比例的压缩,计算成本甚至低于某些1.3B的模型。
- Multi-Term Memory Patchification:将历史上下文划分为短、中、长三个部分,随着时间距离增加而提高压缩率。这使得模型在固定的Token预算下保留极长的历史,显著降低了计算和显存占用。
- Pyramid Unified Predictor Corrector:采用从粗到细的策略,早期阶段在低分辨率潜空间中采样生成全局结构,随后逐步过渡到全分辨率优化细节。
- Adversarial Hierarchical Distillation:一种纯教师强制(teacher-forced)蒸馏方法,仅使用自回归模型作为教师,成功将采样步数从50步锐减至3步。
3. 基础设施级优化与架构统一
- 团队引入了包括 Flash Normalization 和 Flash RoPE 在内的底层算子优化,加速了训练与推理并降低了显存消耗。
- Unified History Injection和Representation Control,只要改变历史上下文的全零或单帧状态,模型就能在 T2V、I2V 和 V2V 任务间自动切换,彻底打通了视频生成的各个环节。
03模型评测效果
来看单张 H100 上各类视频生成模型的端到端吞吐量(FPS)对比!为了保证公平,所有测试均在相同分辨率下进行,并且拉满了所有官方加速 buff(包括 FlashAttention、torch.compile 和 KV-cache)。结果非常亮眼:Helios 的速度不仅远超同等规模的其他模型,甚至直接比肩那些更小尺寸的蒸馏模型!
再来看看 Helios 与其他同类模型的基准测试(Benchmark)以及人工测评大比拼!无论是生成短视频还是长视频,Helios 的表现都全面碾压了现有的蒸馏模型,并且成功达到了与基础模型(Base models)相媲美的出色画质与性能!
04模型规格
项目 |
参数 |
架构 |
交叉注意力Transformer(Cross DiT) |
参数量 |
14B |
最长生成时长 |
无限 |
帧率 |
30fps / 24fps / 16fps |
文本编码器 |
UMT5 |
支持任务 |
文生视频、图生视频、视频生视频 |
05开源模型权重
名称 |
说明 |
Helios-Base |
最佳质量:采用 v-prediction、标准 CFG 以及自定义的 HeliosScheduler,采样50步即可获得高质量视频。 |
Helios-Mid |
中间 Ckpt:采用 v-prediction、CFG-Zero* 以及自定义的 HeliosScheduler,采样50步即可获得高质量视频。 |
Helios-Distilled |
最高效率:采用 x0-prediction 以及自定义的 HeliosDMDScheduler,仅需采样3步即可获得高质量视频。 |
06模型实战
官方github推理
环境安装
# 0. Clone the repo git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git cd Helios # 1. Create conda environment conda create -n helios python=3.11.2 conda activate helios # 2. Install PyTorch (adjust for your CUDA version) # CUDA 12.6 pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu126 # CUDA 12.8 pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu128 # CUDA 13.0 pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu130 # 3. Install dependencies bash install.sh |
推理脚本
cd scripts/inference # For Helios-Base bash helios-base_t2v.sh bash helios-base_i2v.sh bash helios-base_v2v.sh # For Helios-Mid bash helios-mid_t2v.sh bash helios-mid_i2v.sh bash helios-mid_v2v.sh # For Helios-Distilled bash helios-distilled_t2v.sh bash helios-distilled_i2v.sh bash helios-distilled_v2v.sh # For Interactive # ⚠️ This feature is still under development — results may not always meet expectations cd scripts/inference/experiment_interactive |
推理过程展示
06研究意义与展望
Helios 的发布,打破了百亿参数级长视频模型必须依赖复杂的底层加速机制(如 KV-cache、稀疏注意力、量化)与高昂的抗漂移策略(如 Self-Forcing)的惯性思维 。它证明了通过系统级的上下文压缩与极简的架构创新,单卡不仅能彻底摆脱长视频生成的时长崩溃问题,更具备实现低成本“实时无限流”生成的巨大潜力 。通过以 14B 的庞大参数量跑出单卡 19.5 FPS 的惊人推理帧率,甚至在速度与画质上全面反超 1.3B 级别的轻量化模型,Helios 为未来通用世界模型(World Models)的构建、实时交互式视频生成以及下一代游戏引擎的演进,提供了一条极具颠覆性和落地价值的破局新路径 。