VBench 视频生成新榜首!Data-Juicer 沙盒实验室助力多模态数据与模型协同开发

简介: Data-Juicer 沙盒实验室的提出和其大规模的效果验证,是对多模态数据与模型协同开发这一方向高潜力的有力佐证。

图一:VBench排行榜(2024.7.16)

随着多模态人工智能技术的迅猛发展,大型多模态生成模型成为了推进领域革新的驱动引擎。面向多模态数据与模型协同开发,近日 Data-Juicer团队构建了开源沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在 VBench文生视频排行榜取得了新的榜首!

图二:Data-Juicer 沙盒实验室概览

多模态 AI 发展出了两条相对分离的路线:model-centric 和 data-centric,导致了协同开发的潜能未充分发挥,资源也未能高效利用。Data-Juicer 沙盒实验室应运而生,它是一个专为集成数据和模型协同开发所定制的中间层套件,为多模态模型与数据的科学开发“降本提效”。它提供了灵活的实验平台,内置大量先进的工具集,使得研发人员在工作流、开发行为和底层开发能力之间便捷组合,快速迭代小规模洞察,以便在更大规模场景下能“有的放矢”。

图三:“探测-分析-细化”工作流示意

我们提出的一种“探测-分析-细化”工作流,通过在最先进的 LLaVA-like 和 DiT-based 模型上的大量实践,显著提升了图文和视频文数据集的质量,并取得了更先进的模型性能。我们还通过在 Data-Juicer 算子上全方面的基准测试,分析并提供了丰富的数据质量、多样性与模型行为之间的深入洞察。

Data-Juicer 沙盒实验室的提出和其大规模的效果验证,是对多模态数据与模型协同开发这一方向高潜力的有力佐证。如今,我们将项目开源,以激励更多的创新者们一起加入。无论是数据科学家,还是 AI 模型工程师,都可以从这里获得基础支持,探索无限可能。立即上手体验,Data-Juicer 沙盒实验室助您塑造 AIGC 领域的明天!

Data-Model Co-Dev 沙盒论文链接:

http://arxiv.org/abs/2407.11784

Data-Model Co-Dev 综述论文链接:

https://arxiv.org/abs/2407.08583

项目链接:

https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md

模型链接:

https://modelscope.cn/models/Data-Juicer/Data-Juicer-T2V?from=alizishequ__text

https://huggingface.co/datajuicer/Data-Juicer-T2V

相关文章
|
29天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
333 109
|
4天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
51 1
|
4天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
259 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
380 2
|
2月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
357 23
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
216 99
|
2月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
195 6
|
3月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。

热门文章

最新文章