VBench 视频生成新榜首！Data-Juicer 沙盒实验室助力多模态数据与模型协同开发-阿里云开发者社区

VBench 视频生成新榜首！Data-Juicer 沙盒实验室助力多模态数据与模型协同开发

2024-07-23 277

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Data-Juicer 沙盒实验室的提出和其大规模的效果验证，是对多模态数据与模型协同开发这一方向高潜力的有力佐证。

图一：VBench排行榜（2024.7.16）

随着多模态人工智能技术的迅猛发展，大型多模态生成模型成为了推进领域革新的驱动引擎。面向多模态数据与模型协同开发，近日 Data-Juicer团队构建了开源沙盒实验室套件，通过数据与模型间的系统性研发工作流，调优数据和模型，在 VBench文生视频排行榜取得了新的榜首！

图二：Data-Juicer 沙盒实验室概览

多模态 AI 发展出了两条相对分离的路线：model-centric 和 data-centric，导致了协同开发的潜能未充分发挥，资源也未能高效利用。Data-Juicer 沙盒实验室应运而生，它是一个专为集成数据和模型协同开发所定制的中间层套件，为多模态模型与数据的科学开发“降本提效”。它提供了灵活的实验平台，内置大量先进的工具集，使得研发人员在工作流、开发行为和底层开发能力之间便捷组合，快速迭代小规模洞察，以便在更大规模场景下能“有的放矢”。

图三：“探测-分析-细化”工作流示意

我们提出的一种“探测-分析-细化”工作流，通过在最先进的 LLaVA-like 和 DiT-based 模型上的大量实践，显著提升了图文和视频文数据集的质量，并取得了更先进的模型性能。我们还通过在 Data-Juicer 算子上全方面的基准测试，分析并提供了丰富的数据质量、多样性与模型行为之间的深入洞察。

Data-Juicer 沙盒实验室的提出和其大规模的效果验证，是对多模态数据与模型协同开发这一方向高潜力的有力佐证。如今，我们将项目开源，以激励更多的创新者们一起加入。无论是数据科学家，还是 AI 模型工程师，都可以从这里获得基础支持，探索无限可能。立即上手体验，Data-Juicer 沙盒实验室助您塑造 AIGC 领域的明天！

Data-Model Co-Dev 沙盒论文链接：

http://arxiv.org/abs/2407.11784

Data-Model Co-Dev 综述论文链接：

https://arxiv.org/abs/2407.08583

项目链接：

https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md

模型链接：

https://modelscope.cn/models/Data-Juicer/Data-Juicer-T2V?from=alizishequ__text

https://huggingface.co/datajuicer/Data-Juicer-T2V