ModelScope数据集支持多种格式,具体要求依据数据类型和标注方式而定。以下是关键要点:
文本数据集:
使用通用模板创建时,需要.manifest或.TXT文件,内容格式为:{"data":{"source":"文本内容"}},每行一个样本。
文件需上传至阿里云OSS,然后通过OSS路径创建数据集。
图像/视频/音频数据集:
图像、视频或音频文件需上传至阿里云OSS,系统通过扫描文件夹创建数据集时,会自动生成.manifest文件。
直接使用OSS存储路径URL来创建数据集。
自定义模板:
支持更灵活的标注场景,如同时标注图片、文本等,具体格式和创建步骤依据自定义需求。
其他通用要求:
数据集名称应简短且描述性强,限30字符内。
若通过界面上传ZIP文件,扩展名须为.zip,大小不超过2GB,图片数量建议不超过2000张,且图像命名仅支持字母、数字、下划线。
确保遵循这些格式和要求以便在ModelScope上高效管理和使用数据集。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352