ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发

简介: 魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。

引言

OpenDataLab浦数 人工智能开放数据平台,是上海人工智能实验室在WAIC 2022科学前沿全体会议上发布“OpenXLab浦源”人工智能开源开放体系的核心项目之一。

OpenDataLab作为人工智能数据领域的探路者和开源数据社区的倡导者,围绕大模型数据开展多项前沿技术探索,构建面向大模型研发全流程的数据平台及大模型时代数据管理体系。

全新的OpenDataLab浦数人工智能开放数据平台汇聚了海量的数据资源,包括覆盖800多种任务类型的7,000多个数据集,并提供便捷检索和快速下载服务。

魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。

  1. 一站式开发体验:魔搭社区作为领先的模型开源平台,汇聚了丰富的行业模型和大规模预训练。而OpenDatalab以其高质量、多样化的数据集闻名,此次合作将实现模型与数据的无缝对接,为开发者提供从数据获取、模型训练到部署应用的一站式解决方案,极大提升开发效率。
  2. 增强的创新能力:结合魔搭社区的领先的模型和OpenDatalab的广泛数据集,开发者可以轻松尝试更多的预训练,微调等模型算法,快速验证模型的效果,以及推动模型落地千行百业,降低创新门槛,加速从想法到产品的转化过程。

在魔搭社区使用OpenDataLab数据集

下载和加载OpenDataLab数据集

OpenDataLab和魔搭社区在底层数据存储和交换链路、数据集meta信息表征、数据展现、ToolKit等几个技术层面,实现了互联互通;用户可以在ModelScope魔搭社区使用git和sdk的方式来下载从OpenDataLab迁移过来的数据;同时,对于部分大型数据集,OpenDataLab提供了数据meta信息、数据下载接口,在魔搭平台上透出。

总的来说,用户可以通过以下三种方式来下载和使用OpenDataLab的数据集:

  1. 使用git来下载和管理数据集,我们以LAMM数据集为例,其数据卡片参考:https://modelscope.cn/datasets/Shanghai_AI_Laboratory/LAMM/summary,使用git命令:
GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/datasets/Shanghai_AI_Laboratory/LAMM.git
git lfs pull

image.gif

来实现数据文件的下载和版本管理。

  1. 使用sdk加载数据

对于符合魔搭数据集组织结构规范的OpenDataLab数据集,我们也可以使用ModelScope SDK的MsDataset模块来加载数据集,具体使用方式:

# Install modelscope
pip install modelscope
# Load & manage dataset
from modelscope.msdatasets import MsDataset
ds =  MsDataset.load('Shanghai_AI_Laboratory/LAMM')

image.gif

此时,数据集被下载到本地缓存,数据被组织为不同的subset、split(如train、test、validation),支持对ds对象(通常为DatasetDict或Dataset格式)的遍历、filter、map等操作。

  1. 使用OpenDataLab原生的数据集下载工具:在此种模式下,OpenDataLab数据集的元信息、数据卡片、数据标签等内容会托管在魔搭平台,而底层真实的数据扔存储在OpenDataLab上,此时可通过openxlab命令实现数据集的下载操作:
# Install openxlab
pip install openxlab
# Download dataset
openxlab dataset download --dataset-repo <dataset-repo>

image.gif

使用OpenDataLab数据集微调模型

与大多数魔搭数据一样,当OpenDataLab数据集可以使用ModelScope sdk加载时,即可以使用ModelScope SWIFT高效微调工具来训练你的模型。

  1. 环境准备
pip install modelscope -U
pip install ms-swift -U

image.gif

  1. OpenDataLab多模态数据集LAMM

image.gif

LAMM数据集是上海人工智能实验室开源的一个多模态数据集,包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。 该数据集从公开可用的数据集中收集图像和点云,并使用 GPT API 和自我指导方法根据这些数据集中的原始标签生成指令和响应。 该数据有以下特性:

  • 添加了更多视觉信息,例如视觉关系和细粒度类别作为 GPT API 的输入
  • 观察到现有的 MLLM 可能难以理解视觉任务指令。 为了解决这个问题,设计了一种将视觉任务注释转换为指令-响应对的方法,从而增强了 MLLM 对视觉任务指令的理解和泛化
  • LAMM-Dataset 还包括用于常识性知识问答的数据对,方法是结合来自 Bamboo 数据集的分层知识图标签系统和相应的维基百科描述。
  1. 训练GLM4v

这里我们使用LAMM多模态数据集来微调GLM4-V模型,即glm4v-9b-chat;微调框架为ModelScope SWIFT。以下是具体步骤:

获取代码

git clone git@github.com:modelscope/swift.git

 

数据准备

由于LAMM并未集成到SWIFT数据集中,这里我们走自定义形式。将LAMM数据配置加入到SWIFT dataset_info.json中:

编辑swift/llm/data/dataset_info.json

"opendatalab-LAMM": {
        "dataset_id": "Shanghai_AI_Laboratory/LAMM",
        "hf_dataset_id": "",
        "subsets": ["LAMM_instruct_98k"],
        "split": ["train"],
        "conversations": {
            "user_role": "human",
            "assistant_role": "gpt",
            "conversations_key": "conversations",
            "from_key": "from",
            "value_key": "value",
            "error_strategy": "delete",
            "media_type": "image",
            "media_key": "image"
        },
        "tags": ["multi-modal"]
    }

image.gif

  • 这里subset使用了LAMM_instruct_98k
  • conversations_key取LAMM数据集的subset LAMM_instruct_98k中的conversations字段

配置完成后,执行 pip install -e .

执行训练

# Experimental environment: A100
# 40GB GPU memory
# limit 10000
CUDA_VISIBLE_DEVICES=0 swift sft --model_type glm4v-9b-chat --dataset opendatalab-LAMM#10000

image.gif

train loss

image.gif

eval acc

image.gif

点击链接👇查看原文

https://modelscope.cn/datasets/Shanghai_AI_Laboratory/LAMM/summary?from=alizishequ__text

相关文章
|
3天前
|
人工智能 缓存 API
只管提需求,AI来帮你修图!ImagePulse:魔搭开源图像处理神器!原子级数据集让AI秒懂修图指令
ImagePulse是魔搭社区推出的开源项目,通过构建原子能力数据集支持下一代图像理解与生成模型,包含修改、缩放、风格迁移等专项数据集。
67 4
只管提需求,AI来帮你修图!ImagePulse:魔搭开源图像处理神器!原子级数据集让AI秒懂修图指令
|
16天前
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
117 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
23天前
|
人工智能 编解码 异构计算
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
VantAI推出的Neo-1是全球首个统一分子生成与原子级结构预测的AI模型,采用潜在空间扩散技术,结合大规模训练和定制数据集,显著提升药物研发效率。
79 15
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
|
27天前
|
人工智能 自然语言处理
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
谷歌推出专为药物研发设计的TxGemma大模型,具备药物特性预测、生物文献筛选、多步推理等核心能力,提供20亿至270亿参数版本,显著提升治疗开发效率。
93 7
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
|
29天前
|
消息中间件 人工智能 Java
通义灵码2.0深度评测:AI原生研发时代的开发者革命
作为一名五年开发经验的程序员,我深刻感受到从手动编码到AI辅助编程的变革。通义灵码2.0基于Qwen2.5-Coder大模型,通过代码生成、多文件协同、单元测试和跨语言支持等功能,显著提升开发效率。它能生成完整工程代码,自动处理复杂业务逻辑与依赖关系;在系统升级和微服务改造中表现出色;自动生成高质量单元测试用例;还具备跨语言转换能力。尽管存在一些改进空间,但其高频迭代和功能优化展现了巨大潜力。通义灵码2.0正推动软件开发从“体力活”向“架构创造力”转型,是开发者不可错过的生产力工具。
通义灵码2.0深度评测:AI原生研发时代的开发者革命
|
4天前
|
人工智能 搜索推荐 IDE
突破网页数据集获取难题:Web Unlocker API 助力 AI 训练与微调数据集全方位解决方案
本文介绍了Web Unlocker API、Web-Scraper和SERP API三大工具,助力解决AI训练与微调数据集获取难题。Web Unlocker API通过智能代理和CAPTCHA绕过技术,高效解锁高防护网站数据;Web-Scraper支持动态内容加载,精准抓取复杂网页信息;SERP API专注搜索引擎结果页数据抓取,适用于SEO分析与市场研究。这些工具大幅降低数据获取成本,提供合规保障,特别适合中小企业使用。粉丝专属体验入口提供2刀额度,助您轻松上手!
34 2
|
1月前
|
数据采集 存储 机器学习/深度学习
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
本文分享了两种构建高质量AI代码数据集的解决方案。第一种是传统方式,结合动态住宅代理与手动处理,通过分页读取和数据清洗生成结构化数据;第二种是利用Web Scraper API工具,实现自定义配置、自动化抓取及云端存储。两种方法各具优势,适合不同需求和技术水平的团队。同时,文章还提供了专属优惠福利,助力提升数据采集效率,为AI大模型训练提供支持。
70 5
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
|
1月前
|
机器学习/深度学习 人工智能 数据处理
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
84 1
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
|
1月前
|
数据采集 人工智能 文字识别
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
87 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
|
1月前
|
人工智能 自然语言处理 IDE
通义灵码 2.0 评测:AI 赋能编程,开启高效研发新旅程
通义灵码2.0通过AI赋能编程,显著提升开发效率与代码质量。安装便捷,支持自然语言描述需求自动生成高质量代码框架及注释,大幅简化新功能开发流程。其单元测试Agent能快速生成全面测试用例,覆盖更多边界情况。相比1.0版本,2.0在智能问答和代码生成速度上均有显著提升,为开发者带来高效研发新体验。
152 8
下一篇
oss创建bucket