阿里云魔搭社区发起ModelScope-Sora开源计划

简介: 阿里云魔搭社区在2024全球开发者先锋大会上启动ModelScope-Sora开源计划,聚焦中国多模态大模型研究,推出一站式工具链和Data-Juicer多模态数据处理系统,提升处理效率与质量。该计划还包括基础类Sora模型开源及沙盒实验室,以支持开发者迭代与训练。面对数据质量、安全、商业平衡及算力挑战,魔搭社区致力于推动AI创新,已汇聚众多模型与开发者。

f233b97be9f3bc943cbd64c246d7bc33.jpg
在当今信息技术飞速发展的时代,人工智能(AI)已成为推动社会进步的重要力量。2024年全球开发者先锋大会上,阿里云魔搭社区宣布了一项具有里程碑意义的开源计划——ModelScope-Sora。这一计划旨在为中国类Sora模型的研究与创新提供全方位的支持,标志着中国在多模态大模型领域的进一步探索和进步。

ModelScope-Sora开源计划的核心在于提供一个一站式的工具链,包括数据处理工具、多模态数据集、基础模型以及训练推理工具等。这一计划的推出,不仅为开发者提供了丰富的资源和便利的工具,也为多模态数据处理和AI模型的发展开辟了新的道路。

在数据处理方面,阿里云魔搭社区发布了业界首个开源的多模态数据处理系统——Data-Juicer。这一系统包含100多种高效算子,能够显著提升视频数据处理的效率和质量。在多模态数据处理的挑战中,Data-Juicer通过去粗取精的方式,有效“榨出”更高质量、更丰富、更易于处理的数据,极大地提高了数据处理的精度和效率。

阿里通义实验室的资深算法专家李雅亮指出,数据质量直接决定了机器学习任务的成效。只有提供高质量、细颗粒度、大量多样的数据,模型训练才能避免“垃圾进,垃圾出”的困境。Data-Juicer的推出,正是为了解决这一问题,它能够自动剪辑视频片段、增强分辨率、调整宽高比、去除文本段,甚至通过计算光流判断视频动静,只保留精彩瞬间。此外,Data-Juicer还能自动打标,对光线变化、环境氛围进行精细捕捉并生成文字描述。

为了进一步支持开发者,魔搭社区还推出了基于Data-Juicer的沙盒实验室,使研发人员能够在迷你数据集和模型上快速迭代,找到最合适的配方。开发者可以在Data-Juicer的数据加工流水线上,利用阿里云PAI调用集群和GPU进行大规模数据处理,后续还可在PAI上一站式完成模型的训练和推理。

ModelScope-Sora计划还包括了基础类Sora模型的开源。华东师范大学博士生段忠杰联合魔搭社区,实现了DiT架构的视频生成扩散模型lite-Sora,并在小规模数据集上进行了初步训练。该模型目前正在进行深度训练,其最终目标是完成对Sora的复现。这一成果不仅展示了开源社区的力量,也为多模态大模型的研究提供了宝贵的实践经验。

魔搭社区还计划举办“ModelScope-Sora挑战赛”,鼓励更多开发者参与到类Sora模型的打造和开源中来,共同推动中国多模态大模型的发展。同时,魔搭也在助力构建开放的中文高质量多模态数据集,为AI研究提供更加坚实的基础。

作为国内规模最大、最活跃的AI开源模型社区,阿里云魔搭已经汇聚了3000多款优质模型及上千数据集,为超过400万开发者提供了模型及免费算力服务。ModelScope-Sora开源计划的推出,无疑将进一步丰富社区的资源,激发开发者的创新活力。

然而,尽管ModelScope-Sora开源计划带来了诸多积极影响,但在实际推进过程中也面临着一些挑战。例如,如何确保开源数据的质量和安全性,如何平衡开源与商业利益的关系,以及如何持续吸引和维持开发者社区的活跃度等问题。此外,多模态大模型的训练和应用需要巨大的算力支持,这也可能成为限制其广泛应用的瓶颈。

目录
相关文章
|
7月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
492 1
|
1月前
|
自然语言处理 监控 API
"阿里云ModelScope深度测评:从预训练模型到一键部署,揭秘高效模型开发背后的秘密,开发者必备利器!"
【10月更文挑战第23天】阿里云ModelScope是一款便捷的模型开发、训练、部署和应用平台。它提供丰富的预训练模型,涵盖自然语言处理、计算机视觉等领域,支持一键式模型训练和部署,具备模型版本管理和监控功能,显著降低开发门槛,提高模型应用效率。
54 0
|
4月前
|
人工智能 物联网 大数据
开源大赛 | 第七届CCF开源创新大赛ModelScope赛题解读
第七届CCF开源创新大赛由CCF主办,长沙理工大学和CCF开源发展委员会联合承办,以国家“十四五”开源生态发展战略布局为导向,重点关注人工智能、大数据、芯片设计、物联网等领域的开源软件,旨在创建一个展示、交流和合作的平台,激发开源创新精神,培养开源人才,并促进高质量的开源生态系统建设。
|
4月前
|
人工智能 开发框架 物联网
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
|
6月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
7月前
|
开发框架 API 决策智能
ModelScope-Agent框架再升级!新增一键配置多人聊天,配套开源多智能体数据集和训练
ModelScope-Agent是魔搭社区推出的适配开源大语言模型(LLM)的AI Agent(智能体)开发框架,借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用。在最新升级完Assistant API和Tool APIs之后,我们又迎来了多智能体聊天室的升级,通过几分钟快速配置即可搭建一个全新的聊天室。
|
7月前
|
机器学习/深度学习 数据采集 编解码
阿里云魔搭发起“ModelScope-Sora开源计划”
阿里云魔搭发起“ModelScope-Sora开源计划”
139 0
阿里云魔搭发起“ModelScope-Sora开源计划”
|
7月前
|
PyTorch 测试技术 TensorFlow
Modelscope-FunASR是一个开源的语音识别框架
【2月更文挑战第9天】Modelscope-FunASR是一个开源的语音识别框架
749 2
|
7月前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
170 1
|
7月前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
219 2

热门文章

最新文章