问题一:如下 请问机器学习PAI的这些问题怎么解决?
请问在使用批组件的时候,我在代码开始指定了批处理组件的并行数量为8,在对OneHotTrainBatchOp()实例化时numThreads的默认值为1,我没有修改组件的numThreads值,那么在OneHotTrainBatchOp()处理数据的时候的线程数是多少呢?parallelism参数的设置和numThreads都是指的线程数嘛?
参考答案:
parallelism是线程数,训练的Op一般没有numThreads
parallelism是并发度,numThreads是每个mapper里的并发
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/567631
问题二:机器学习PAI-EAS 部署Pytorch模型失败怎么办?
机器学习PAI-EAS 部署Pytorch模型失败怎么办?
参考答案:
如果您的机器学习PAI-EAS部署Pytorch模型失败了,可以尝试以下几种方法:
- 检查模型文件:确保只上传了一个模型文件,没有重复或冗余的文件;删除任何重复或冗余的模型文件;确保文件命名唯一。
- 检查服务配置:确保您的服务资源配置(如内存、CPU、GPU等)足够满足模型的需求;检查网络设置,确保服务所在的VPC和其他服务可以互相通信。
- 查看日志:在EAS的服务详情页中查看日志,查看日志中是否有异常信息;尝试使用调试模式,以便更好地定位问题。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566863
问题三:想问下机器学习PAI,遇到SaveV3这个op的问题,该怎么解决呢?
想问下机器学习PAI,用Triton Inference Server 22.05 部署模型,遇到SaveV3这个op的问题,该怎么解决呢?
参考答案:
你部署Triton的时候的tensorflow.so 需要换成DeepRec的so
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566710
问题四:机器学习PAI 在用onednn option 来编译deeprec 的时候, 这是怎么一回事呢?
机器学习PAI 在用onednn option 来编译deeprec 的时候, 遇到了 mkl_threadpool 未在任何.rc 文件定义,这是怎么一回事呢?如何解决呢?configure的时候需要加什么 option 吗?
参考答案:
你试试 grep mkl_threadpool .bazelrc,你试试重新运行一下 ./configure, 正常情况是会配置好这类bazel的config选项的
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566708
问题五:机器学习PAI这个是什么问题,能帮忙分析下吗?
机器学习PAI这个是什么问题,能帮忙分析下吗?
参考答案:
你修改过 config,模型 model_dir 没有清空,加载了之前的 config 的模型就报错了。需要把 model_dir 清空一下。不清空,配置一个新的路径,也可以,就是注意生成的这个路径都是关联的,包括训练,导出,以及最后的模型部署任务。如果要修改 路径的话,记得后面的这些任务都要修改一下。
关于本问题的更多回答可点击进行查看: