人工智能平台PAI 操作报错合集之机器学习PAI，用Triton Inference Server 22.05 部署模型，遇到SaveV3这个op的问题，如何解决-阿里云开发者社区

人工智能平台PAI 操作报错合集之机器学习PAI，用Triton Inference Server 22.05 部署模型，遇到SaveV3这个op的问题，如何解决

2024-04-28 1224

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台，旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时，可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

问题一：如下请问机器学习PAI的这些问题怎么解决？

请问在使用批组件的时候，我在代码开始指定了批处理组件的并行数量为8，在对OneHotTrainBatchOp()实例化时numThreads的默认值为1，我没有修改组件的numThreads值，那么在OneHotTrainBatchOp()处理数据的时候的线程数是多少呢？parallelism参数的设置和numThreads都是指的线程数嘛？

参考答案：

parallelism是线程数，训练的Op一般没有numThreads

parallelism是并发度，numThreads是每个mapper里的并发

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/567631

问题二：机器学习PAI-EAS 部署Pytorch模型失败怎么办?

机器学习PAI-EAS 部署Pytorch模型失败怎么办?

参考答案：

如果您的机器学习PAI-EAS部署Pytorch模型失败了，可以尝试以下几种方法：

检查模型文件：确保只上传了一个模型文件，没有重复或冗余的文件；删除任何重复或冗余的模型文件；确保文件命名唯一。
检查服务配置：确保您的服务资源配置（如内存、CPU、GPU等）足够满足模型的需求；检查网络设置，确保服务所在的VPC和其他服务可以互相通信。
查看日志：在EAS的服务详情页中查看日志，查看日志中是否有异常信息；尝试使用调试模式，以便更好地定位问题。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/566863

问题三：想问下机器学习PAI，遇到SaveV3这个op的问题，该怎么解决呢？

想问下机器学习PAI，用Triton Inference Server 22.05 部署模型，遇到SaveV3这个op的问题，该怎么解决呢？

参考答案：

你部署Triton的时候的tensorflow.so 需要换成DeepRec的so

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/566710

问题四：机器学习PAI 在用onednn option 来编译deeprec 的时候, 这是怎么一回事呢？

机器学习PAI 在用onednn option 来编译deeprec 的时候, 遇到了 mkl_threadpool 未在任何.rc 文件定义，这是怎么一回事呢？如何解决呢？configure的时候需要加什么 option 吗?

参考答案：

你试试 grep mkl_threadpool .bazelrc，你试试重新运行一下 ./configure，正常情况是会配置好这类bazel的config选项的

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/566708

问题五：机器学习PAI这个是什么问题，能帮忙分析下吗？

机器学习PAI这个是什么问题，能帮忙分析下吗？

参考答案：

你修改过 config，模型 model_dir 没有清空，加载了之前的 config 的模型就报错了。需要把 model_dir 清空一下。不清空，配置一个新的路径，也可以，就是注意生成的这个路径都是关联的，包括训练，导出，以及最后的模型部署任务。如果要修改路径的话，记得后面的这些任务都要修改一下。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/566664

人工智能平台PAI 操作报错合集之机器学习PAI，用Triton Inference Server 22.05 部署模型，遇到SaveV3这个op的问题，如何解决

问题一：如下请问机器学习PAI的这些问题怎么解决？

问题二：机器学习PAI-EAS 部署Pytorch模型失败怎么办?

问题三：想问下机器学习PAI，遇到SaveV3这个op的问题，该怎么解决呢？

问题四：机器学习PAI 在用onednn option 来编译deeprec 的时候, 这是怎么一回事呢？

问题五：机器学习PAI这个是什么问题，能帮忙分析下吗？