问题一:机器学习PAI分布式训练同步模式时num_steps的设置方法?
机器学习PAI分布式训练同步模式时num_steps的设置方法?
参考答案:
在分布式训练同步模式下,num_steps的设置方法是根据总样本数、训练轮数、批次大小和工作节点数来计算的。具体计算公式为:num_steps = total_sample_num * num_epochs / batch_size / num_workers。其中,total_sample_num表示总样本数,num_epochs表示训练轮数,batch_size表示批次大小,num_workers表示工作节点数。通过这个计算公式,可以得到在分布式训练同步模式下设置num_steps的值。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568786
问题二:机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),麻烦帮忙看下?
机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),用PAI-TF进行训练,时间上看分布式训练和单机训练是一样的(甚至还慢一些)。麻烦帮忙看下?
参考答案:
是的,同步模式下,4 worker的设置num_steps / 4就可以了,batch_size设置的是单worker的batch_size,如果设置一样,那数据过了4倍。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568785
问题三:机器学习PAIEasyRec在CPU服务器上分布式训练怎么配,知道吗?
机器学习PAIEasyRec在CPU服务器上分布式训练怎么配,有大佬知道吗?环境变量导入TF_CONFIG就行哈?
参考答案:
https://easyrec.readthedocs.io/en/latest/quick_start/local_tutorial.html
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568784
问题四:请教一下机器学习PAI,我们申请法兰克福时区的机器 说没有库存了,现在该如何解决吗?
请教一下机器学习PAI,我们申请法兰克福时区的机器 ml.gu7i.c32m188.1-gu30 说没有库存了 现在该如何解决吗?
参考答案:
目前的库存确实已经售罄了 我看你们提了工单是吧 也找到我了 建议在早9点之前和晚8点之后多看看 别人释放后可以抢到一些 另外有两个方案
1、新加坡地域会一些卡可以买到,是否能切换到这个region
2、T4有少量的卡还可以在法兰克福买到,
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568783
问题五:有个机器学习PAI问题想请教一下,1e-12在tf 中默认float32 ?
有个机器学习PAI问题想请教一下,
tf.log(hit_prob + 1e-12) * tf.squeeze(self._sample_weight))
1e-12在tf 中默认float32 ?
然后sw double,那self._sample_weight就要转float32了
参考答案:
在TensorFlow中,1e-12是一个很小的数值,通常用于防止除法运算中的数值溢出。这个数值的类型取决于你使用的数据类型。如果你使用的是float32,那么这个数值就是float32类型的。如果你使用的是double,那么这个数值就是double类型的。
在你的代码中,self._sample_weight是double类型的,所以不需要转换为float32。但是,如果你的self._sample_weight是float32类型的,那么在执行乘法运算之前,你可能需要将其转换为double类型,以避免精度损失。
关于本问题的更多回答可点击进行查看: