ModelScope如果训练数据较大(上TB级别的),应该怎么加载训练数据集,有示例代码吗?kwargs = dict( model='damo/nlp_gpt3_text-generation_chinese-large', train_dataset=train_dataset, eval_datase=eval_dataset, max_epochs=max_epochs, work_dir=tmp_dir, cfg_modify_fn=cfg_modify_fn) train_dataset 和 eval_dataset 只能一次加载吗?如果数据集合比较大,内存没那么大
如果本地磁盘没有足够空间的话,可以在加载数据集的时候使用streaming模式,即 ds = MsDataset.load(..., use_streaming=True) ; 具体是modelscope上的哪个数据集呢? 如果是这种方式的话,在访问ds对象的时候直接 for item in ds, 然后得到的应该是单条数据内容(for 文本数据集)或者单个文件的本地缓存路径(for 其它类型数据集);——该回答整理自钉群“魔搭ModelScope开发者联盟群 ①”