美团 LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

简介: 美团LongCat团队发布LongCat-Video,基于DiT架构的统一视频生成模型,支持文生、图生及视频续写,实现5分钟级长视频连贯生成,具跨帧一致性与物理合理性,开源SOTA性能,助力世界模型与智能交互发展。

要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行

基于这一关键目标,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势

作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。


统一模型架构:多任务一体化视频基座

作为基于 Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video 创新通过 “条件帧数量” 实现任务区分 —— 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成 “文生 / 图生 / 视频续写” 完整任务闭环。

  • 文生视频:可生成 720p、30fps 高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉呈现能力达开源 SOTA 级别。



  • 图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、空指令等多类型输入,内容一致性与动态自然度表现优异。


  • 视频续写:视频续写是LongCat Video的核心差异化能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。


长视频生成:原生支持5分钟级连贯输出

依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练,LongCat-Video 可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。

同时,模型结合块稀疏注意力(BSA)与条件 token 缓存机制,大幅降低长视频推理冗余 —— 即便处理 93 帧及以上长序列,仍能兼顾效率与生成质量稳定,打破长视频生成 “时长与质量不可兼得” 的瓶颈。





高效推理:二阶段生成+稀疏注意力+模型蒸馏优化

针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video 通过 “二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏” 三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡:


  • 二阶段粗到精生成(C2F):先生成 480p、15fps 低分辨率视频,再经 LoRA 精调模块超分至 720p、30fps,在降本提效的同时优化画面细节;
  • 块稀疏注意力(BSA):将 3D 视觉 token 分块后,仅选取 top-r 关键块计算注意力,使计算量降至标准密集注意力的 10% 以下;支持稀疏注意力适配并行训练,进一步提升大模型训练与推理效率;
  • 模型蒸馏优化:结合 Classifier-Free Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从 50 步减至 16 步。


LongCat-Video 的模型评估围绕内部基准测试公开基准测试展开,覆盖 Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:



通过全面的评估显示,LongCat-Video 通用性能优秀,综合能力跻身开源 SOTA

  • 136 亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域 SOTA 级别;
  • 通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;
  • 在 VBench 等公开基准测试中,LongCat-Video 在参评模型中整体表现优异。


开启你的长视频创作之旅



🌟GitHub:

https://github.com/meituan-longcat/LongCat-Video


🌟ModelScope:

https://modelscope.cn/models/meituan-longcat/LongCat-Video


🌟Project Page:

https://meituan-longcat.github.io/LongCat-Video/

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 文字识别
全新框架 Glyph 开源:用视觉理解文本,3–4 倍上下文压缩,近 5 倍推理提速!
清华CoAI与智谱AI提出Glyph新范式,将长文本渲染为图像,通过视觉语言模型实现高效长上下文处理。3-4倍压缩比,性能媲美主流大模型,显存占用降2/3,低成本支持百万token任务,开源可商用。
969 26
|
7月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
1573 6
仅100多元,他给视障人群装上AI“眼睛”
|
7月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
550 1
|
5月前
|
负载均衡 Docker Python
vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend 是 vLLM 项目专为华为昇腾 NPU 设计的硬件插件,支持主流大模型与多模态架构,提供高性能推理能力。项目结构清晰,涵盖核心算子、工具脚本与容器化部署方案,兼容单/多节点环境,助力高效构建昇腾上的 AI 推理服务。
2621 1
|
2月前
|
人工智能 JSON 自然语言处理
阿里云百炼产品月刊【2026年2月】
阿里云百炼本月重磅升级:Coding Plan迎新优惠,首购低至2折,月包最低只需7.9元起;上架21款新模型(含Qwen3.5-Plus、MiniMax-M2.5等);新增MemOS记忆管理MCP及73个应用模板(智能诊股、流程图生成、VOC分析等);推出AI实训营新春活动,赢定制礼品与限量行李箱。
906 2
|
7月前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
511 0
|
7月前
|
人工智能 监控 并行计算
厨房食品卫生与安全检测14类数据集(18万张图片,已划分、已标注)——AI智能检测的行业实践基石
本数据集包含18万张标注图像,覆盖蟑螂、老鼠、口罩佩戴等14类厨房安全目标,专为YOLO等目标检测模型设计,助力AI实现厨房卫生智能监控,推动食品安全数字化升级。
厨房食品卫生与安全检测14类数据集(18万张图片,已划分、已标注)——AI智能检测的行业实践基石
|
7月前
|
人工智能 自然语言处理 数据可视化
2025 数字人短视频工具全景指南:从场景落地到高效选型
在内容创作工业化的 2025 年,数字人短视频工具已突破技术瓶颈,成为营销、教育、跨境电商等领域的 “生产力核心”。从个人创作者的轻量化需求,到企业级的合规化部署,不同场景对工具的功能、成本、技术适配性提出了差异化要求。本文梳理 10 款主流工具的核心价值,并提供可落地的选型方案,助力用户抢占短视频流量红利。

热门文章

最新文章