文档备案控制台

开发者社区大数据与机器学习人工智能平台PAI 文章正文

人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错，是什么原因

2024-07-29 405

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台，旨在降低AI开发门槛，加速创新，助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务，共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述，涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一：机器学习PAI flink运行一段时间后jobManager里经常会报这个错是什么原因？

机器学习PAI flink运行一段时间后jobManager里经常会报Connection reset by peer这个错是什么原因？

参考答案：

可能是cpu或者内存超了

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/586588

问题二：机器学习PAI本地执行web ui的时候报这个错，能帮忙看看是什么原因吗？还是我配置有问题

机器学习PAI本地执行web ui的时候报这个错，能帮忙看看是什么原因吗？还是我配置有问题

参考答案：

根据您提供的错误信息，问题可能出在以下几个方面：

网络连接问题：请确保您的本地计算机可以访问PAI的Web UI。检查您的网络设置和防火墙配置，确保没有阻止您访问8080端口。
权限问题：请确保您具有足够的权限来执行机器学习任务。如果您没有足够的权限，请联系您的系统管理员或PAI管理员以获取帮助。
资源限制：请检查您的计算机是否有足够的资源（如内存、CPU等）来执行机器学习任务。如果资源不足，您可能需要升级您的硬件或优化您的代码以减少资源使用。
代码错误：请检查您的代码是否存在错误。您可以查看PAI Web UI中的日志以获取更多关于错误的详细信息。
PAI版本问题：请确保您使用的PAI版本与您的代码兼容。如果您使用的是较旧的版本，您可能需要升级到最新版本。

建议您尝试以上方法解决问题，如果问题仍然存在，请查阅PAI官方文档或联系PAI技术支持以获取更多帮助。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/586587

问题三：机器学习PAI的EasyRec在使用DLC做分布式训练时得到如下错误怎么解决？

机器学习PAI的EasyRec在使用DLC做分布式训练时得到如下错误怎么解决？

参考答案：

oss挂载写events文件有问题，只能close的时候才会创建这个文件，可以先尝试用nas走通看看吗？我们再看怎么解决DLC挂载oss跑EasyRec的问题，主要是oss本身不支持标准的POSIX文件接口

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/586363

问题四：安装了最新版本机器学习PAI的easy_rec，为啥调用的时候，就会这样啊？

安装了最新版本机器学习PAI的easy_rec，为啥调用的时候，就会这样啊？>>> import easy_rec as ec

Traceback (most recent call last):

File "", line 1, in

File "/Users/caonannan/miniforge3/envs/tf/lib/python3.9/site-packages/easy_rec-0.7.4-py3.9.egg/easy_rec/init.py", line 37, in

from easy_rec.python.inference.predictor import Predictor # isort:skip # noqa: E402

File "/Users/caonannan/miniforge3/envs/tf/lib/python3.9/site-packages/easy_rec-0.7.4-py3.9.egg/easy_rec/python/inference/predictor.py", line 23, in

from easy_rec.python.protos.dataset_pb2 import DatasetConfig

ModuleNotFoundError: No module named 'easy_rec.python.protos.dataset_pb2'

参考答案：

原因是没有运行初始化脚本。请执行sh scripts/init.sh来解决该问题。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/586356

问题五：PAI报这个错是为什么？Error info is "log_vml_cpu" not implem

PAI报这个错是为什么？Error info is "log_vml_cpu" not implemented for 'Half'

参考答案：

重启一下webui 再做推理哈

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/585734

问题六：PAI有资源却报错，无法提交怎么解决?

PAI有资源却报错，无法提交怎么解决?

参考答案：

因为资源库存实时更新的，所以可能创建时候会失败，麻烦您换一下region或者刷新尝试一下呢

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/585733

文章标签：

人工智能平台 PAI

机器学习/深度学习

人工智能

对象存储

流计算

Shell

关键词：

人工智能平台 PAI训练

分布式训练

分布式平台

人工智能平台

人工智能平台 PAI人工智能

相关实践学习

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

使用PAI和LLaMA Factory框架，基于全参方法微调 Qwen2-VL模型，使其能够进行文旅领域知识问答，同时通过人工测试验证了微调的效果。

机器学习概览及常见算法

机器学习(Machine Learning, ML)是人工智能的核心，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，它是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。本课程将带你入门机器学习，掌握机器学习的概念和常用的算法。

三分钟热度的鱼

目录

相关文章

灵杰开发者

|

消息中间件运维 Kafka

直播预告｜Kafka+Flink双引擎实战：手把手带你搭建分布式实时分析平台！

在数字化转型中，企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00，阿里云三位技术专家将讲解Kafka与Flink的强强联合方案，帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景，具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师，参与还有机会领取定制好礼！扫描海报二维码或点击链接预约直播：[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)

灵杰开发者

768 35 35

直播预告｜Kafka+Flink双引擎实战：手把手带你搭建分布式实时分析平台！

阿里云云原生

|

消息中间件运维 Kafka

直播预告｜Kafka+Flink 双引擎实战：手把手带你搭建分布式实时分析平台！

直播预告｜Kafka+Flink 双引擎实战：手把手带你搭建分布式实时分析平台！

阿里云云原生

377 11 11

蚂蚁数据智能技术

|

机器学习/深度学习人工智能自然语言处理

ICLR 2025 | EDiT：一种基于 Local SGD 策略的大模型高效分布式训练方法

蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新，实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法，即为其中一项工作。

蚂蚁数据智能技术

823 3 3

安全风信子

|

9月前

|

存储监控算法

117_LLM训练的高效分布式策略：从数据并行到ZeRO优化

在2025年，大型语言模型（LLM）的规模已经达到了数千亿甚至数万亿参数，训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略，从基础的数据并行到最先进的ZeRO优化技术，为读者提供全面且实用的技术指南。

安全风信子

906 2 2

JJLIN距离

|

10月前

|

消息中间件监控 Java

Apache Kafka 分布式流处理平台技术详解与实践指南

本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统，Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制，帮助开发者构建可靠、可扩展的实时数据流处理系统。

JJLIN距离

870 4 4

安全风信子

|

9月前

|

机器学习/深度学习监控 PyTorch

68_分布式训练技术：DDP与Horovod

随着大型语言模型（LLM）规模的不断扩大，从早期的BERT（数亿参数）到如今的GPT-4（万亿级参数），单卡训练已经成为不可能完成的任务。分布式训练技术应运而生，成为大模型开发的核心基础设施。2025年，分布式训练技术已经发展到相当成熟的阶段，各种优化策略和框架不断涌现，为大模型训练提供了强大的支持。

安全风信子

1102 0 0

汀丶人工智能

|

机器学习/深度学习人工智能 API

AI-Compass LLM训练框架生态：整合ms-swift、Unsloth、Megatron-LM等核心框架，涵盖全参数/PEFT训练与分布式优化

AI-Compass LLM训练框架生态：整合ms-swift、Unsloth、Megatron-LM等核心框架，涵盖全参数/PEFT训练与分布式优化

汀丶人工智能

905 9 9

大熊计算机

|

存储机器学习/深度学习自然语言处理

避坑指南：PAI-DLC分布式训练BERT模型的3大性能优化策略

本文基于电商搜索场景下的BERT-Large模型训练优化实践，针对数据供给、通信效率与计算资源利用率三大瓶颈，提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍，GPU利用率提升至89.3%，训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。

大熊计算机

626 3 3

HoraceDH

|

SQL 监控 Go

新一代 Cron-Job分布式调度平台，v1.0.8版本发布，支持Go执行器SDK！

现代化的Cron-Job分布式任务调度平台，支持Go语言执行器SDK，多项核心优势优于其他调度平台。

HoraceDH

364 8 9

叮叮当当就是我

|

运维监控 Linux

WGCLOUD运维平台的分布式计划任务功能介绍

WGCLOUD是一款免费开源的运维监控平台，支持主机与服务器性能监控，具备实时告警和自愈功能。本文重点介绍其计划任务功能模块，可统一管理Linux和Windows主机的定时任务。相比手动配置crontab或Windows任务计划，WGCLOUD提供直观界面，通过添加cron表达式、执行指令或脚本并选择主机，即可轻松完成任务设置，大幅提升多主机任务管理效率。

叮叮当当就是我

405 0 0

大数据与机器学习

人工智能平台PAI

热门文章

最新文章

【玩转数据系列十五】机器学习PAI为你自动写歌词，妈妈再也不用担心我的freestyle了（提供数据、代码）

【玩转数据系列一】人口普查统计案例

基于对象特征的推荐

【玩转数据系列三】利用图算法实现金融行业风控

【玩转数据系列五】农业贷款发放预测

基于协同过滤算法的推荐

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

PAI实现的深度学习网络可视化编辑功能-FastNeuralNetwork

基于深度学习模型Wide&Deep的推荐

【文本分析】新闻分类

AI大模型工具深度运用实践：如何搭建自己的AI助手_AI Agent工作流构建与智能体来了案例解析

2026深度实测：多外部Agent协同下的项目上下文全链路管理指南

我们缺少一个词，来描述 Agent 开始替人操作业务系统这件事

当Agent和机器开始代表人类行动，我们需要一份怎样的公共契约？

2026企业AI如何真正落地？深度拆解60+全球案例

阿里云PAI-EAS共享GPU，一卡部署多个模型（EasyRec/TorchEasyRec Processor）

阿里云 PAI-DLC PyTorchJob 任务提交参数的介绍

从零构建车载语音对话系统：NLU → DST → Policy → NLG → TTS 全链路工程实践

提示词工程不是写长说明书，而是做语义压缩

kuairand-27k的Parquet 数据导出与上传到 MaxCompute 完整流程（hstu格式）

相关产品

人工智能平台 PAI

文档详情产品详情

相关课程

更多

人工智能安全

高校精品课-华东师范大学-人工智能基础

Spring Boot+Vue.js+FastDFS实现分布式图片服务器

基于Zookeeper、Dubbo构建互联网分布式基础架构

分布式文件存储系统技术及实现

分布式协调系统 Zookeeper 快速入门

相关电子书

更多

高并发分布式缓存Redis6.0

基于社区的分布式风险感知模型

如何利用Redisson分布式化传统Web项目

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！