ModelScope如果训练数据较大(上TB级别的),应该怎么加载训练数据集,有示例代码吗?

ModelScope如果训练数据较大(上TB级别的),应该怎么加载训练数据集,有示例代码吗?kwargs = dict( model='damo/nlp_gpt3_text-generation_chinese-large', train_dataset=train_dataset, eval_datase=eval_dataset, max_epochs=max_epochs, work_dir=tmp_dir, cfg_modify_fn=cfg_modify_fn) train_dataset 和 eval_dataset 只能一次加载吗?如果数据集合比较大,内存没那么大

展开
收起
鸡蛋灌饼儿 2023-02-19 15:21:26 304 分享 版权
1 条回答
写回答
取消 提交回答
  • 如果本地磁盘没有足够空间的话,可以在加载数据集的时候使用streaming模式,即 ds = MsDataset.load(..., use_streaming=True) ; 具体是modelscope上的哪个数据集呢? 如果是这种方式的话,在访问ds对象的时候直接 for item in ds, 然后得到的应该是单条数据内容(for 文本数据集)或者单个文件的本地缓存路径(for 其它类型数据集);——该回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2023-02-19 20:03:27
    赞同 展开评论

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

收录在圈子:
+ 订阅

热门讨论

热门文章

还有其他疑问?
咨询AI助理