问题一:机器学习PAI交互式建模报错OOM
机器学习PAI交互式建模报错OOM
参考答案:
若出现此报错,建议增加实例内存,或者降低树的数量。
关于本问题的更多回答可点击进行查看:
问题二:机器学习PAI EAS 服务器报错,GPU一直跑满是什么原因?
机器学习PAI EAS 服务器报错,GPU一直跑满是什么原因?requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))
参考答案:
当您在机器学习PAI EAS服务器上使用GPU时,如果GPU一直处于满载状态并且出现了连接错误,可以有几种可能的原因:
资源竞争:如果在服务器上同时有其他用户或进程正在使用GPU资源,可能会导致GPU被持续占用,从而导致其他请求无法获得GPU资源。这可能会导致连接错误。您可以尝试等待一段时间,以便其他进程释放GPU资源,或者联系系统管理员以获取更多关于资源使用情况的信息。
连接问题:连接错误可能是由于网络连接不稳定或中断导致的。这可能是临时的问题,您可以尝试重新发送请求,或检查网络连接是否正常。
服务器问题:连接错误也可能是由于服务器端出现问题导致的,例如服务器负载过高、服务崩溃或其他故障。这种情况下,您可以联系系统管理员或技术支持团队,报告问题并获取进一步的帮助。
关于本问题的更多回答可点击进行查看:
问题三:大佬,机器学习PAI报这个错误,怎么解决?
大佬,机器学习PAI报这个错误,怎么解决?
IndexError Traceback (most recent call last)
in
227 model_dir)
228 print('Exporting user part model...')
--> 229 export(
230 model_dir,
231 meta_graph_def,
in export(model_dir, meta_graph_def, variable_protos, input_tensor_names, output_tensor_names, part_dir)
180 variable = graph.get_tensor_by_name(name)
181 graph.add_to_collection(ops.GraphKeys.SAVEABLE_OBJECTS, variable)
--> 182 saver = tf_saver.Saver()
183 saver.restore(sess, get_variables_path(model_dir))
184
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in init(self, var_list, reshape, sharded, max_to_keep, keep_checkpoint_every_n_hours, name, restore_sequentially, saver_def, builder, defer_build, allow_empty, write_version, pad_step_number, save_relative_paths, filename)
834 time.time() + self._keep_checkpoint_every_n_hours * 3600)
835 elif not defer_build:
--> 836 self.build()
837 if self.saver_def:
838 self._check_saver_def()
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in build(self)
846 if context.executing_eagerly():
847 raise RuntimeError("Use save/restore instead of build in eager mode.")
--> 848 self._build(self._filename, build_save=True, build_restore=True)
849
850 def _build_eager(self, checkpoint_path, build_save, build_restore):
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in _build(self, checkpoint_path, build_save, build_restore)
874 self._is_empty = False
875
--> 876 self.saver_def = self._builder._build_internal( # pylint: disable=protected-access
877 self._var_list,
878 reshape=self._reshape,
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saver.py in _build_internal(self, names_to_saveables, reshape, sharded, max_to_keep, keep_checkpoint_every_n_hours, name, restore_sequentially, filename, build_save, build_restore)
487 " when eager execution is not enabled.")
488
--> 489 saveables = saveable_object_util.validate_and_slice_inputs(
490 names_to_saveables)
491 if max_to_keep is None:
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saving/saveable_object_util.py in validate_and_slice_inputs(names_to_saveables)
358 # Avoid comparing ops, sort only by name.
359 key=lambda x: x[0]):
--> 360 for converted_saveable_object in saveable_objects_for_op(op, name):
361 _add_saveable(saveables, seen_ops, converted_saveable_object)
362 return saveables
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saving/saveable_object_util.py in saveable_objects_for_op(op, name)
218 yield ReferenceVariableSaveable(variable, "", name)
219 else:
--> 220 yield ResourceVariableSaveable(
221 variable, "", name)
222
/usr/local/lib/python3.8/site-packages/tensorflow/python/training/saving/saveable_object_util.py in init(self, var, slice_spec, name)
93 self._var_shape = var.shape
94 if isinstance(var, ops.Tensor):
---> 95 self.handle_op = var.op.inputs[0]
96 tensor = var
97 elif resource_variable_ops.is_resource_variable(var):
IndexError: tuple index out of range
saver = tf_saver.Saver() <---- 在这一行就报错了
saver.restore(sess, get_variables_path(model_dir))
参考答案:
可能是tf1/tf2的版本兼容性问题;可以试下tf1.x 版本 或者 在开头if tf.version >= '2.0':
tf = tf.compat.v1
关于本问题的更多回答可点击进行查看:
问题四:机器学习PAI中epl运行官方示例报错是什么原因?
机器学习PAI中epl运行官方示例报错是什么原因,单机单卡可以,但是多卡就报错了,运行命令是epl-launch --num_workers 2 --gpu_per_worker 1 scripts/train_dp.sh?
关于本问题的更多回答可点击进行查看:
问题五:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错!
问题1:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错
问题2:这种问题怎么进一步定位是哪个数据有问题
参考答案:
回答1:一般是tfrecord数据有问题
回答2:一般不是格式问题,就是tfrecord文件写的时候程序不正常,写一半异常终止了,或者文件系统的错误,导致无法解析,
关于本问题的更多回答可点击进行查看: