北大重磅开源Helios!首个14B单卡实时长视频生成模型

简介: 北大与字节联合发布Helios:首个单卡H100上达19.5 FPS的14B参数视频生成模型,支持分钟级高质量T2V/I2V/V2V生成,突破长视频漂移与速度瓶颈,开源可商用。(239字)

在视频生成领域,大家是不是常常遇到这样的痛点:主流模型虽然生成的画质越来越高,但生成5到10秒的短视频往往就需要耗费几十分钟。而市面上那些宣称能做到“实时无限生成”的模型,往往只有1.3B左右的较小参数量。这些小容量模型很难准确表示复杂的运动,还常常会导致高频细节模糊。

今天,由北京大学联合字节跳动带来的破局之作——Helios,正式登场!

这是首个能在单张NVIDIA H100 GPU上以 19.5 FPS 的超高帧率运行的14B参数视频生成模型。它不仅速度达到了真正的实时,还支持分钟级的高质量生成,画面质量与14B的模型相媲美!

📎helios_features.mp4

开源地址:

模型权重:

https://modelscope.cn/collections/BestWishYSH/Helios

GitHub:

https://github.com/PKU-YuanGroup/Helios

项目主页:

https://pku-yuangroup.github.io/Helios-Page

技术论文:

https://arxiv.org/abs/2603.04379

01核心突破

· 硬核单卡极速推理: 无需依赖 KV-cache、量化或 TinyVAE 等常规手段,单张 H100 即可实现 19.5 FPS 的端到端推理,比1.3B的蒸馏模型速度还快;

· 底层攻克长视频“崩坏: 彻底摒弃传统的“打补丁”策略(如self-forcing)。通过创新机制,在训练阶段直接模拟并消除画面漂移与动作重复,让分钟级长视频原生具备超强连贯与极高画质;

· 全场景 14B 开源模型矩阵: 基于统一架构,原生打通 T2V(文生视频)、I2V(图生视频)与 V2V(视频生视频),按需提供三款梯度模型;

· 完整的开源基建: Day-0支持NPU、Diffusers、vLLM、SGLang多个推理后端。

02技术亮点

Helios 是一个14B自回归扩散模型,它采用了统一的输入表示,原生支持文生视频(T2V)、图生视频(I2V)和视频生视频(V2V)任务。它的成功密码隐藏在以下创新中:

1. Easy Anti-Drifting对抗长视频退化

长视频生成最怕的就是画面随时间崩坏。Helios团队总结了长视频漂移的三种典型模式:位置偏移、色彩偏移和修复偏移。为此,他们提出了一套简单的训练策略,在训练时显式模拟漂移,从源头上扼杀重复运动。

  • Relative ROPE:通过相对索引,模型在任意长度下都能稳定生成,同时缓解了RoPE周期性与多头注意力之间的冲突,从根本上减少了鬼畜般的重复动作。
  • First-Frame Anchor:在训练和推理期间,始终在历史上下文中保留第一帧作为全局视觉锚点。这能有效控制后期片段的分布漂移,大幅减轻自回归外推时的颜色偏移。
  • Frame-Aware Corrupt:为了让模型适应推理时不完美的历史画面,团队在训练时会对历史帧独立进行曝光调整、加噪、下采样等扰动模拟。这极大地增强了模型对长时间残缺历史的鲁棒性。

2. 深度压缩流Deep Compression Flow挑战算力极限

为了达成实时生成,Helios在历史上下文和噪声上下文上都进行了极高比例的压缩,计算成本甚至低于某些1.3B的模型。

  • Multi-Term Memory Patchification:将历史上下文划分为短、中、长三个部分,随着时间距离增加而提高压缩率。这使得模型在固定的Token预算下保留极长的历史,显著降低了计算和显存占用。
  • Pyramid Unified Predictor Corrector:采用从粗到细的策略,早期阶段在低分辨率潜空间中采样生成全局结构,随后逐步过渡到全分辨率优化细节。
  • Adversarial Hierarchical Distillation:一种纯教师强制(teacher-forced)蒸馏方法,仅使用自回归模型作为教师,成功将采样步数从50步锐减至3步。

3. 基础设施级优化与架构统一

  • 团队引入了包括 Flash Normalization 和 Flash RoPE 在内的底层算子优化,加速了训练与推理并降低了显存消耗。
  • Unified History Injection和Representation Control,只要改变历史上下文的全零或单帧状态,模型就能在 T2V、I2V 和 V2V 任务间自动切换,彻底打通了视频生成的各个环节。

03模型评测效果

来看单张 H100 上各类视频生成模型的端到端吞吐量(FPS)对比!为了保证公平,所有测试均在相同分辨率下进行,并且拉满了所有官方加速 buff(包括 FlashAttention、torch.compile 和 KV-cache)。结果非常亮眼:Helios 的速度不仅远超同等规模的其他模型,甚至直接比肩那些更小尺寸的蒸馏模型!

再来看看 Helios 与其他同类模型的基准测试(Benchmark)以及人工测评大比拼!无论是生成短视频还是长视频,Helios 的表现都全面碾压了现有的蒸馏模型,并且成功达到了与基础模型(Base models)相媲美的出色画质与性能!

04模型规格

项目

参数

架构

交叉注意力Transformer(Cross DiT)

参数量

14B

最长生成时长

无限

帧率

30fps / 24fps / 16fps

文本编码器

UMT5

支持任务

文生视频、图生视频、视频生视频

05开源模型权重

名称

说明

Helios-Base

最佳质量:采用 v-prediction、标准 CFG 以及自定义的 HeliosScheduler,采样50步即可获得高质量视频。

Helios-Mid

中间 Ckpt:采用 v-prediction、CFG-Zero* 以及自定义的 HeliosScheduler,采样50步即可获得高质量视频。

Helios-Distilled

最高效率:采用 x0-prediction 以及自定义的 HeliosDMDScheduler,仅需采样3步即可获得高质量视频。

06模型实战

官方github推理

环境安装

# 0. Clone the repo

git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git

cd Helios

# 1. Create conda environment

conda create -n helios python=3.11.2

conda activate helios

# 2. Install PyTorch (adjust for your CUDA version)

# CUDA 12.6

pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu126

# CUDA 12.8

pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu128

# CUDA 13.0

pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu130

# 3. Install dependencies

bash install.sh

推理脚本

cd scripts/inference

# For Helios-Base

bash helios-base_t2v.sh

bash helios-base_i2v.sh

bash helios-base_v2v.sh

# For Helios-Mid

bash helios-mid_t2v.sh

bash helios-mid_i2v.sh

bash helios-mid_v2v.sh

# For Helios-Distilled

bash helios-distilled_t2v.sh

bash helios-distilled_i2v.sh

bash helios-distilled_v2v.sh

# For Interactive

# ⚠️ This feature is still under development — results may not always meet expectations

cd scripts/inference/experiment_interactive

推理过程展示

06研究意义与展望

Helios 的发布,打破了百亿参数级长视频模型必须依赖复杂的底层加速机制(如 KV-cache、稀疏注意力、量化)与高昂的抗漂移策略(如 Self-Forcing)的惯性思维 。它证明了通过系统级的上下文压缩与极简的架构创新,单卡不仅能彻底摆脱长视频生成的时长崩溃问题,更具备实现低成本“实时无限流”生成的巨大潜力 。通过以 14B 的庞大参数量跑出单卡 19.5 FPS 的惊人推理帧率,甚至在速度与画质上全面反超 1.3B 级别的轻量化模型,Helios 为未来通用世界模型(World Models)的构建、实时交互式视频生成以及下一代游戏引擎的演进,提供了一条极具颠覆性和落地价值的破局新路径 。


https://modelscope.cn/collections/BestWishYSH/Helios

目录
相关文章
|
5天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10731 63
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
3111 126
|
1天前
|
人工智能 自然语言处理 供应链
【最新】阿里云ClawHub Skill扫描:3万个AI Agent技能中的安全度量
阿里云扫描3万+AI Skill,发现AI检测引擎可识别80%+威胁,远高于传统引擎。
1199 1
|
11天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2563 6
|
25天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
24388 122

热门文章

最新文章