开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

qwen下用finetune/finetune_lora_single_gpu.sh脚本执行微调失败

qwen下用finetune/finetune_lora_single_gpu.sh脚本执行微调,程序bus error single 7,core dump了。

展开
收起
7q53djewhjqbu 2023-11-08 10:27:32 369 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    出现 bus error 单元错误,通常是由于内存溢出造成的,也就是您的 GPU 内存不足以完成当前任务。您可以尝试减少 batch size 或者降低模型复杂度以解决这个问题。另外,您也可以检查您的机器的硬件状况,并确保有足够的 GPU 资源可用。

    2023-11-11 14:22:11
    赞同 展开评论 打赏
  • 在你的问题中,程序出现了"bus error single 7"的错误,这是一个很常见的硬件错误。这种错误通常是由于内存访问问题或者硬件故障引起的。

    首先,我建议你检查以下几个方面:

    1. 内存条是否安装正确或是否有损坏的内存条。你可以尝试重新插拔内存条,或者更换内存条进行测试。
    2. 是否有硬件故障,如显卡、硬盘等。如果有条件,你可以尝试更换硬件设备进行测试。
    3. 你的程序是否有内存泄漏的情况。你可以使用一些工具如Valgrind等来检测内存泄漏。

    此外,这个错误也可能是由于运行脚本的权限问题,或者脚本本身的代码问题导致的。你可以尝试以root权限运行脚本,或者检查脚本的代码是否有错误。

    如果以上建议都不能解决问题,你可能需要进一步查看核心转储文件(core dump),分析出错时的程序状态,以便找出具体的原因。

    2023-11-09 16:42:05
    赞同 展开评论 打赏
  • 针对这个问题,可以尝试以下几种解决方案:

    1. 检查模型文件是否完整并且合适。
    2. 检查显卡驱动和CUDA版本是否匹配。
    3. 确保有足够的GPU内存来支撑微调模型的计算需求。
    4. 确保没有占用过多的显存。
    5. 修改配置文件中的显存大小,例如减少 batch_size 或者调整 batch_accumulate 值。
    6. 关闭其他不必要的进程以释放 GPU 资源。
    2023-11-08 15:32:31
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

相关电子书

更多
DeepStream: GPU加速海量视频数据智能处理 立即下载
阿里巴巴高性能GPU架构与应用 立即下载
GPU在超大规模深度学习中的发展和应用 立即下载