视频编辑的新成果!港科大&蚂蚁集团提出Ditto框架刷新SOTA!

简介: 香港科大、蚂蚁等联合发布Ditto框架,提出自动化视频编辑数据生成方案,构建百万级高质量数据集Ditto-1M,并训练出新SOTA模型Editto。结合模态课程学习,实现从合成数据到真实场景的高效迁移,推动指令驱动视频编辑发展。

论文标题:Scaling Instruction-Based VideoEditing with a High-Quality Synthetic Dataset

作者团队:香港科大、蚂蚁集团、浙江大学、东北大学

发布时间:2025年10月17日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和翻译等工具,辅助您的论文阅读。

✨本文核心贡献

(1)提出Ditto数据生成框架

突破现有方法的“成本-质量-多样性”权衡:融合先进图像编辑器的视觉先验与上下文视频生成器(VACE),结合模型蒸馏与量化技术,将计算成本降至原始高保真方法的20%,同时保证时间一致性与编辑质量。
自动化流程:通过视觉语言模型(VLM)实现指令生成与质量筛选,无需人工干预,支撑大规模数据生产。

(2)构建Ditto-1M数据集

规模与质量:包含100万“源视频-指令-编辑后视频”三元组,分辨率1280×720(超现有数据集),每段101帧、20FPS,覆盖70%全局编辑(风格、场景)与30%局部编辑(物体操作)。
数据筛选严格:源视频来自专业平台(Pexels),经去重、运动筛选、VLM质量控制,确保高美学价值与自然运动特性。

(3)提出Editto模型与模态课程学习

  • Editto模型:基于上下文视频生成器VACE改进,在Ditto-1M上训练后,在指令跟随、时间一致性、视觉质量上超越现有基线,成为指令驱动视频编辑的新SOTA。
  • 模态课程学习(MCL):通过“逐步移除视觉引导”的训练策略,解决从“视觉+文本引导”到“纯文本指令引导”的模态鸿沟,提升模型对抽象指令的理解能力。

(4)验证框架有效性

实验证明Ditto框架生成的数据可支撑模型泛化至真实场景(sim2real能力),且Editto模型性能随数据规模增长而稳定提升,验证了大规模高质量数据的核心价值。

相关文章
|
4月前
|
自然语言处理 物联网 Shell
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
LightX2V 是一款轻量级视频生成框架,通过4步蒸馏技术,将传统需50步的扩散模型压缩至仅4步,推理速度提升20倍,生成质量依旧保持影院级水准。支持文生视频与图生视频,兼容LoRA、量化等部署方案,助力AIGC高效落地。
547 0
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
|
消息中间件 存储 负载均衡
【Kafka】Kafka 分区
【4月更文挑战第5天】【Kafka】Kafka 分区
|
5月前
|
JSON 监控 API
阿里妈妈 item_get 接口对接全攻略:从入门到精通
阿里妈妈item_get接口是淘宝客推广核心工具,支持获取商品详情、佣金、优惠券及销量等数据,广泛应用于选品、自动推广与佣金监控。本文详解接口对接流程、认证机制、Python代码实现及最佳实践,助力开发者高效构建合规推广系统。(239字)
|
3月前
|
数据挖掘 C++ 计算机视觉
Python:ImportError:DLL loadfailed while importing onnxruntime_pybind11_state: 动态链接库(DLL)初始化例程失败 报错解决
在进行文件夹内人脸识别与对比聚类时,遇到onnxruntime库报错,通常因版本不兼容或环境冲突导致。本文整理了五种解决方案:降级onnxruntime至1.14.1、重装库、区分GPU/CPU版本、安装Visual C++运行库、创建Python虚拟环境。通过版本匹配与环境隔离,有效解决DLL初始化失败等问题,提升项目稳定性。
1362 8
|
4月前
|
人工智能 JSON 机器人
10分钟!用飞书卡片+n8n零代码搞定自动化
手把手教你用飞书卡片+n8n搭建零代码自动化应用。
|
API
[已解决]openai.error.APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host=‘api
[已解决]openai.error.APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host=‘api
2999 0
|
SQL HIVE UED
【Hive SQL 每日一题】分析电商平台的用户行为和订单数据
作为一名数据分析师,你需要分析电商平台的用户行为和订单数据。你有三张表:`users`(用户信息),`orders`(订单信息)和`order_items`(订单商品信息)。任务包括计算用户总订单金额和数量,按月统计订单,找出最常购买的商品,找到平均每月最高订单金额和数量的用户,以及分析高消费用户群体的年龄和性别分布。通过SQL查询,你可以实现这些分析,例如使用`GROUP BY`、`JOIN`和窗口函数来排序和排名。
1371 2
|
移动开发 前端开发 JavaScript
分享8个前端可以制作360度WebVr全景视图框架
分享8个前端可以制作360度WebVr全景视图框架
2609 0
分享8个前端可以制作360度WebVr全景视图框架
|
Python
Python 中的 __init__
【8月更文挑战第29天】
438 7

热门文章

最新文章