ModelScope中tmp_am 以及pretrain_work_dir/data/se数据没有生成应该怎么处理?
在ModelScope中,如果遇到tmp_am或pretrain_work_dir/data/se数据未生成的问题,可能是由于数据预处理步骤未正确执行或相关路径配置有误。以下是详细的排查和解决方法:
根据知识库中的描述,数据预处理是生成训练所需数据的关键步骤。例如,在使用PAI-Megatron-Patch工具时,需要将原始数据转换为MMAP格式。如果tmp_am或pretrain_work_dir/data/se数据未生成,请检查以下内容:
是否已正确设置数据集路径
确保环境变量dataset_dir和WORK_DIR已正确配置。例如:
export dataset_dir=/mnt/workspace/mixtral-datasets
export WORK_DIR=/mnt/workspace
如果路径错误,可能导致数据无法正确生成。
是否已执行数据转换脚本
检查是否运行了run_make_pretraining_dataset.sh脚本,并确保输入参数正确。例如:
bash run_make_pretraining_dataset.sh \
${WORK_DIR}/Pai-Megatron-Patch/ \
${dataset_dir}/cleaned_zst/ \
mistralbpe \
${dataset_dir}/wudao/ \
${WORK_DIR}/mixtral-ckpts/Mixtral-8x7B-v0.1
注意:脚本的六个启动参数必须准确无误,包括分词器类型(如mistralbpe或llamabpe)和输入输出路径。
检查数据源文件夹是否存在
确认cleaned_zst文件夹及其子文件是否存在。如果该文件夹为空或缺失,说明数据清洗步骤可能未完成。请参考知识库中关于数据清洗的说明。
如果数据预处理脚本运行失败,通常会在终端输出错误信息。请仔细查看日志,定位问题原因。常见问题包括:
依赖未安装
确保已安装所有必要的依赖项。例如,运行以下命令安装依赖:
pip install -r requirements.txt
磁盘空间不足
数据预处理可能会生成大量中间文件,确保工作目录所在的磁盘有足够的存储空间。
权限问题
确保当前用户对dataset_dir和WORK_DIR具有读写权限。
在完成数据预处理后,检查目标目录下是否生成了.bin和.idx文件。例如:
ls /mnt/workspace/mixtral-datasets/wudao/
预期输出应包含类似以下文件:
wudao_mixtralbpe_content_document.bin
wudao_mixtralbpe_content_document.idx
如果这些文件缺失,说明数据生成步骤未成功完成。
如果上述步骤均未发现问题,建议重新执行数据预处理流程。具体操作如下:
清理旧数据
删除cleaned_zst文件夹及其内容,避免残留数据干扰:
rm -rf ${dataset_dir}/cleaned_zst
重新运行数据转换脚本
再次运行run_make_pretraining_dataset.sh脚本,确保所有参数正确。
如果经过以上步骤仍无法解决问题,建议联系阿里云技术支持团队,提供以下信息以便快速定位问题: - 完整的日志输出。 - 当前使用的模型名称和版本。 - 数据集路径和脚本参数配置。
通过以上步骤,您可以系统性地排查并解决tmp_am或pretrain_work_dir/data/se数据未生成的问题。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352