问题一:机器学习PAI有最佳实践能够参考吗?
机器学习PAI如果想要使用ParquetDataset并且尽量达到更多样本的shuffle,有最佳实践能够参考吗?
参考答案:
目前还没有,可以考虑先将parquet文件中的数据预先shuffle好,再用ParquetDataset去读。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568791
问题二:请问下机器学习PAI ParquetDataset做shuffle应该如何构建最佳实践呢?
请问下机器学习PAI ParquetDataset做shuffle应该如何构建最佳实践呢?我理解的是ParquetDataset出的dataset已经是batch过的,再设置shuffle_buffer=k应该是缓存了k*batch_size条样本,出来的结果也是batch 之间的shuffle,不同的batch内部并不会有样本的shuffle对吗?
参考答案:
对的,是batch级别的shuffle,每个batch内部的样本不做shuffle。Parquet是列存,样本级别shuffle的内存拷贝开销会比较大
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568790
问题三:机器学习PAI目前我们的click里没有包含jump。这样的特征可以用吗 ?
机器学习PAI目前我们的click里没有包含jump。这样用jar包生成的应该是“xx对xx的转换数” 和 “xx对xx的点击未转换数”吧。这样的特征可以用吗 ?
参考答案:
click是否包含jump,该怎么理解,应该用户发生点击就生成一条click日志,发生转换就生成一条转换日志,怎么是包含关系。jar目前不支持比率关系,不过可以写个udf在这个数据上在包一层,衍生出比率特征
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568789
问题四:请问一下机器学习PAI,用这个jar包,离线模拟实时统计特征时,还是不包括?
请问一下机器学习PAI,用这个jar包,离线模拟实时统计特征时,点击click和转换jump两个目标,这里的click样本应该包括jump样本,还是不包括?
参考答案:
和样本没关系,这个是根据上游得wide表来统计特征。click得样本主要看你们得业务逻辑,转换按道理是应该先发生了点击。那应该是2种事件类型,包含曝光,点击,和转换共3种行为类型
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/568788
问题五:机器学习PAI分布式训练有最佳实践吗,如同步/异步模式,optimizer怎么选择等 ?
机器学习PAI分布式训练有最佳实践吗,如同步/异步模式,optimizer怎么选择等 ?
参考答案:
ps-worker数多的时候建议用异步,同步的话可能那个会被慢机拖慢比较严重。少的时候具体看实验效果,理论上同步更好,但也不一定哪种方式效果好。optimizer异步的时候再pai上可以优先尝试adam_async_optimizer。
关于本问题的更多回答可点击进行查看: