ModelScope中数据没有生成应该怎么处理?

ModelScope中tmp_am 以及pretrain_work_dir/data/se数据没有生成应该怎么处理?

展开
收起
小小爱吃香菜 2024-03-12 17:59:05 106 分享 版权
阿里云 AI 助理回答

在ModelScope中,如果遇到tmp_ampretrain_work_dir/data/se数据未生成的问题,可能是由于数据预处理步骤未正确执行或相关路径配置有误。以下是详细的排查和解决方法:


1. 确认数据预处理流程是否完整

根据知识库中的描述,数据预处理是生成训练所需数据的关键步骤。例如,在使用PAI-Megatron-Patch工具时,需要将原始数据转换为MMAP格式。如果tmp_ampretrain_work_dir/data/se数据未生成,请检查以下内容:

  • 是否已正确设置数据集路径
    确保环境变量dataset_dirWORK_DIR已正确配置。例如:

    export dataset_dir=/mnt/workspace/mixtral-datasets
    export WORK_DIR=/mnt/workspace
    

    如果路径错误,可能导致数据无法正确生成。

  • 是否已执行数据转换脚本
    检查是否运行了run_make_pretraining_dataset.sh脚本,并确保输入参数正确。例如:

    bash run_make_pretraining_dataset.sh \
    ${WORK_DIR}/Pai-Megatron-Patch/ \
    ${dataset_dir}/cleaned_zst/ \
    mistralbpe \
    ${dataset_dir}/wudao/ \
    ${WORK_DIR}/mixtral-ckpts/Mixtral-8x7B-v0.1
    

    注意:脚本的六个启动参数必须准确无误,包括分词器类型(如mistralbpellamabpe)和输入输出路径。

  • 检查数据源文件夹是否存在
    确认cleaned_zst文件夹及其子文件是否存在。如果该文件夹为空或缺失,说明数据清洗步骤可能未完成。请参考知识库中关于数据清洗的说明。


2. 检查日志和错误信息

如果数据预处理脚本运行失败,通常会在终端输出错误信息。请仔细查看日志,定位问题原因。常见问题包括:

  • 依赖未安装
    确保已安装所有必要的依赖项。例如,运行以下命令安装依赖:

    pip install -r requirements.txt
    
  • 磁盘空间不足
    数据预处理可能会生成大量中间文件,确保工作目录所在的磁盘有足够的存储空间。

  • 权限问题
    确保当前用户对dataset_dirWORK_DIR具有读写权限。


3. 手动验证数据生成结果

在完成数据预处理后,检查目标目录下是否生成了.bin.idx文件。例如:

ls /mnt/workspace/mixtral-datasets/wudao/

预期输出应包含类似以下文件:

wudao_mixtralbpe_content_document.bin
wudao_mixtralbpe_content_document.idx

如果这些文件缺失,说明数据生成步骤未成功完成。


4. 重新执行数据预处理

如果上述步骤均未发现问题,建议重新执行数据预处理流程。具体操作如下:

  1. 清理旧数据
    删除cleaned_zst文件夹及其内容,避免残留数据干扰:

    rm -rf ${dataset_dir}/cleaned_zst
    
  2. 重新运行数据转换脚本
    再次运行run_make_pretraining_dataset.sh脚本,确保所有参数正确。


5. 联系技术支持

如果经过以上步骤仍无法解决问题,建议联系阿里云技术支持团队,提供以下信息以便快速定位问题: - 完整的日志输出。 - 当前使用的模型名称和版本。 - 数据集路径和脚本参数配置。


通过以上步骤,您可以系统性地排查并解决tmp_ampretrain_work_dir/data/se数据未生成的问题。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理