机器学习PAI报错问题之EAS服务器报错如何解决

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。

问题一:机器学习PAI交互式建模报错OOM

机器学习PAI交互式建模报错OOM



参考答案:

若出现此报错,建议增加实例内存,或者降低树的数量。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/476301?spm=a2c6h.13066369.question.8.4d7868a2Mk6aoh&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@476301._.ID_476301-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_5



问题二:机器学习PAI EAS 服务器报错,GPU一直跑满是什么原因?

机器学习PAI EAS 服务器报错,GPU一直跑满是什么原因?requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))



参考答案:

当您在机器学习PAI EAS服务器上使用GPU时,如果GPU一直处于满载状态并且出现了连接错误,可以有几种可能的原因:

资源竞争:如果在服务器上同时有其他用户或进程正在使用GPU资源,可能会导致GPU被持续占用,从而导致其他请求无法获得GPU资源。这可能会导致连接错误。您可以尝试等待一段时间,以便其他进程释放GPU资源,或者联系系统管理员以获取更多关于资源使用情况的信息。

连接问题:连接错误可能是由于网络连接不稳定或中断导致的。这可能是临时的问题,您可以尝试重新发送请求,或检查网络连接是否正常。

服务器问题:连接错误也可能是由于服务器端出现问题导致的,例如服务器负载过高、服务崩溃或其他故障。这种情况下,您可以联系系统管理员或技术支持团队,报告问题并获取进一步的帮助。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/538326?spm=a2c6h.13066369.question.7.4d7868a2fA1IgN&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@538326._.ID_538326-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_6



问题三:大佬,机器学习PAI报这个错误,怎么解决?

大佬,机器学习PAI报这个错误,怎么解决?

IndexError Traceback (most recent call last)

in

227 model_dir)

228 print('Exporting user part model...')

--> 229 export(

230 model_dir,

231 meta_graph_def,

in export(model_dir, meta_graph_def, variable_protos, input_tensor_names, output_tensor_names, part_dir)

180 variable = graph.get_tensor_by_name(name)

181 graph.add_to_collection(ops.GraphKeys.SAVEABLE_OBJECTS, variable)

--> 182 saver = tf_saver.Saver()

183 saver.restore(sess, get_variables_path(model_dir))

184

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in init(self, var_list, reshape, sharded, max_to_keep, keep_checkpoint_every_n_hours, name, restore_sequentially, saver_def, builder, defer_build, allow_empty, write_version, pad_step_number, save_relative_paths, filename)

834 time.time() + self._keep_checkpoint_every_n_hours * 3600)

835 elif not defer_build:

--> 836 self.build()

837 if self.saver_def:

838 self._check_saver_def()

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in build(self)

846 if context.executing_eagerly():

847 raise RuntimeError("Use save/restore instead of build in eager mode.")

--> 848 self._build(self._filename, build_save=True, build_restore=True)

849

850 def _build_eager(self, checkpoint_path, build_save, build_restore):

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in _build(self, checkpoint_path, build_save, build_restore)

874 self._is_empty = False

875

--> 876 self.saver_def = self._builder._build_internal( # pylint: disable=protected-access

877 self._var_list,

878 reshape=self._reshape,

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in _build_internal(self, names_to_saveables, reshape, sharded, max_to_keep, keep_checkpoint_every_n_hours, name, restore_sequentially, filename, build_save, build_restore)

487 " when eager execution is not enabled.")

488

--> 489 saveables = saveable_object_util.validate_and_slice_inputs(

490 names_to_saveables)

491 if max_to_keep is None:

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saving/saveable_object_util.py in validate_and_slice_inputs(names_to_saveables)

358 # Avoid comparing ops, sort only by name.

359 key=lambda x: x[0]):

--> 360 for converted_saveable_object in saveable_objects_for_op(op, name):

361 _add_saveable(saveables, seen_ops, converted_saveable_object)

362 return saveables

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saving/saveable_object_util.py in saveable_objects_for_op(op, name)

218 yield ReferenceVariableSaveable(variable, "", name)

219 else:

--> 220 yield ResourceVariableSaveable(

221 variable, "", name)

222

/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saving/saveable_object_util.py in init(self, var, slice_spec, name)

93 self._var_shape = var.shape

94 if isinstance(var, ops.Tensor):

---> 95 self.handle_op = var.op.inputs[0]

96 tensor = var

97 elif resource_variable_ops.is_resource_variable(var):

IndexError: tuple index out of range

saver = tf_saver.Saver() <---- 在这一行就报错了

saver.restore(sess, get_variables_path(model_dir))



参考答案:

可能是tf1/tf2的版本兼容性问题;可以试下tf1.x 版本 或者 在开头if tf.version >= '2.0':

tf = tf.compat.v1



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/532229?spm=a2c6h.13066369.question.8.4d7868a2d75Q16&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@532229._.ID_532229-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_7



问题四:机器学习PAI中epl运行官方示例报错是什么原因?

机器学习PAI中epl运行官方示例报错是什么原因,单机单卡可以,但是多卡就报错了,运行命令是epl-launch --num_workers 2 --gpu_per_worker 1 scripts/train_dp.sh?



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/558435?spm=a2c6h.13066369.question.9.4d7868a2EAbrBF&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@558435._.ID_558435-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_8



问题五:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错!

问题1:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错

问题2:这种问题怎么进一步定位是哪个数据有问题



参考答案:

回答1:一般是tfrecord数据有问题

回答2:一般不是格式问题,就是tfrecord文件写的时候程序不正常,写一半异常终止了,或者文件系统的错误,导致无法解析,



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/537514?spm=a2c6h.13066369.question.10.4d7868a2bfrT8X&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@537514._.ID_537514-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_9

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错,该如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 网络协议
人工智能平台PAI操作报错合集之报错 "curl: (35) TCP connection reset by peer" 表示什么
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 Apache
人工智能平台PAI操作报错合集之alink任务可以在本地运行,上传到flink web运行就报错,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之遇到报错:PANGU_FILE_NOT_FOUND?如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
机器学习/深度学习 人工智能 并行计算
人工智能平台PAI操作报错合集之version选了0.7.5并在使用learn_loss_weight时遇到报错,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI操作报错合集之带有all reduce 的算子是trace不出来的,结果会错,怎么才可以绕过去
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

相关产品

  • 人工智能平台 PAI