美团LongCat-Video统一架构与长视频生成技术解析-开发者社区-阿里云

美团 LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

2025-10-29 914

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 美团LongCat团队发布LongCat-Video，基于DiT架构的统一视频生成模型，支持文生、图生及视频续写，实现5分钟级长视频连贯生成，具跨帧一致性与物理合理性，开源SOTA性能，助力世界模型与智能交互发展。

要让人工智能真正理解、预测甚至重构真实世界，“世界模型”（World Model）已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统，世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识，AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

基于这一关键目标，美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平，更依托原生视频续写任务预训练，实现分钟级长视频连贯生成，从根源上保障跨帧时序一致性与物理运动合理性，尤其在长视频生成领域具备显著优势。

作为一款视频生成模型，LongCat-Video 凭借其精准重构真实世界运行状态的能力，正在成为美团探索世界模型的第一步，也是关键的一步。同时，这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景，夯实了技术基础。

统一模型架构：多任务一体化视频基座

作为基于 Diffusion Transformer（DiT）架构的多功能统一视频生成基座，LongCat-Video 创新通过 “条件帧数量” 实现任务区分 —— 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容，原生支持三大核心任务且无需额外模型适配，形成 “文生 / 图生 / 视频续写” 完整任务闭环。

文生视频：可生成 720p、30fps 高清视频，能精准解析文本中物体、人物、场景、风格等细节指令，语义理解与视觉呈现能力达开源 SOTA 级别。

图生视频：严格保留参考图像的主体属性、背景关系与整体风格，动态过程符合物理规律，支持详细指令、简洁描述、空指令等多类型输入，内容一致性与动态自然度表现优异。

视频续写：视频续写是LongCat Video的核心差异化能力，可基于多帧条件帧续接视频内容，为长视频生成提供原生技术支撑。

长视频生成：原生支持5分钟级连贯输出

依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练，LongCat-Video 可稳定输出5分钟级别的长视频，且无质量损失，达到行业顶尖水平。同时，从根源规避色彩漂移、画质降解、动作断裂等行业痛点，保障跨帧时序一致性与物理运动合理性，完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。

同时，模型结合块稀疏注意力（BSA）与条件 token 缓存机制，大幅降低长视频推理冗余 —— 即便处理 93 帧及以上长序列，仍能兼顾效率与生成质量稳定，打破长视频生成 “时长与质量不可兼得” 的瓶颈。

高效推理：二阶段生成+稀疏注意力+模型蒸馏优化

针对高分辨率、高帧率视频生成的计算瓶颈，LongCat-Video 通过 “二阶段粗到精生成（C2F）+ 块稀疏注意力（BSA）+ 模型蒸馏” 三重优化，视频推理速度提升至10.1倍，实现效率与质量的最优平衡：

二阶段粗到精生成（C2F）：先生成 480p、15fps 低分辨率视频，再经 LoRA 精调模块超分至 720p、30fps，在降本提效的同时优化画面细节；
块稀疏注意力（BSA）：将 3D 视觉 token 分块后，仅选取 top-r 关键块计算注意力，使计算量降至标准密集注意力的 10% 以下；支持稀疏注意力适配并行训练，进一步提升大模型训练与推理效率；
模型蒸馏优化：结合 Classifier-Free Guidance（CFG）与一致性模型（CM）蒸馏，将采样步骤从 50 步减至 16 步。