问题一:机器学习PAI中会重新call model和重新调起GPU这个正常吗?
机器学习PAI中我设置的save_checkpoints_steps: 100,训练的时候每100个step保存一次之后,会重新call model和重新调起GPU这个正常吗?
参考回答:
你好,重新调用模型和重新调用GPU是正常的行为。这是因为在训练过程中,模型参数会不断地被更新,需要在每个checkpoint时保存模型参数,以便在需要时可以重新加载这些参数。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/506105?spm=5176.8068049.0.0.77566d1989YhJO
问题二:机器学习PAI参数是直接从easy rec文档里黏贴过去的,日志报了这个错误,请问是什么原因呢
机器学习PAI参数是直接从easy rec文档里黏贴过去的,但是fine tune的时候日志报了这个错误,请问是什么原因呢?执行的cmd:
跑的命令:
参考回答:
没看出来啥问题,你要不试试把所有等号后面的参数都包在单引号里或bizdate减一天不能这么写,要再dataworks 页面右侧配置变量里面设置减一天,写在代码里面不行
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/506104?spm=5176.8068049.0.0.77566d1989YhJO
问题三:机器学习PAI这个本地机器gpu调用起来了,但是没有计算是为啥呢
机器学习PAI这个本地机器gpu调用起来了,但是没有计算是为啥呢?
参考回答:
看一下log呢,可能还在初始化,或者保存模型
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/506103?spm=5176.8068049.0.0.77566d1989YhJO
问题四:请问机器学习PAI在local模式下如何使用GPU训练,可以使用多个GPU吗?
请问机器学习PAI在local模式下如何使用GPU训练,可以使用多个GPU吗?
参考回答:
可以参考scripts/train_ngpu.sh
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/506102?spm=5176.8068049.0.0.77566d1989YhJO
问题五:机器学习PAI单独一个特征里面的特征值需要等长吗?
机器学习PAI单独一个特征里面的特征值需要等长吗?
参考回答:
不需要
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/506101?spm=5176.8068049.0.0.77566d1989YhJO