问题一:机器学习PAI把gender 和 age 配置一个combo特征,不知道能否区分开?
机器学习PAI把gender 和 age 配置一个combo特征,不知道能否区分开?
参考答案:
在机器学习PAI(Platform for Artificial Intelligence)中,您可以创建组合特征(combo feature),以探索不同特征之间的相互作用。对于您提到的性别(gender)和年龄(age)特征,它们可以被合并为一个组合特征来尝试捕捉这两个变量之间可能存在的关联。
然而,能否成功区分开这些特征取决于您的数据集以及您正在解决的问题的具体情况。以下是一些关于如何创建组合特征并评估其区分能力的建议:
- 定义组合特征:
- 将性别和年龄信息合并成一个新的特征。这可以通过拼接字符串、使用编码技术(如独热编码或数字编码)或者通过其他方式来实现。
- 训练模型:
- 使用包含原始特征和新组合特征的数据集来训练机器学习模型。
- 选择合适的算法,并根据问题类型(例如分类、回归等)调整超参数。
- 评估性能:
- 使用交叉验证或其他评估方法来比较包含组合特征的模型与只包含原始特征的模型的性能。
- 比较指标可能包括准确率、AUC-ROC、F1分数等,具体取决于任务类型。
- 可视化分析:
- 可视化组合特征的效果,例如绘制学习曲线、决策边界图等,以便更好地理解这个特征对模型预测的影响。
- 特征重要性分析:
- 如果你的模型支持,可以计算每个特征的重要性得分,看看组合特征是否比单独的性别或年龄特征更重要。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573262
问题二:机器学习PAI在我们的场景假设gender出现了冲突,有什么方式可以提前检测这样的冲突?
机器学习PAI在我们的场景假设gender出现了冲突(bucket超配以后仍然发生了冲突);我们分布上可能20%是M,15%是F,65%的是unknown,如果出现冲突将unknown哈希到M上,unknown和M具有相同的embedding。这个带来的问题是会给unknown中是F的去推M的榜单;但是实际上F和M的消费行为有很大的差异,造成整体指标的下降。所以作为用户还是希望实现知道这块有可能即使参数超配了仍然可能存在冲突,并且是调用的tf哪个方法造成的冲突,有什么方式可以提前检测这样的冲突。
参考答案:
不要用hash了,配置一个vacab_list吧
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573261
问题三:机器学习PAI环境有点问题,只能用cpu训练,如果重装cuda,easy_rec会有影响吗?
机器学习PAI环境有点问题,只能用cpu训练,如果重装cuda,easy_rec会有影响吗?需要也重装吗?
参考答案:
如果只能使用CPU训练机器学习PAI,并且需要重装CUDA来解决问题,那么重装CUDA不会影响EasyRec的运行,但是EasyRec需要在GPU环境下进行训练。因此,如果想要在GPU环境下训练EasyRec,需要重新安装CUDA并重新配置环境。
在GPU环境下训练EasyRec,先确认您的云服务器是否已经安装了CUDA,先安装CUDA并配置好环境。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573259?spm=5176.8068049.0.0.4ba36d19KKIDGy
问题四:机器学习PAI特征重要性的原理,是用那个指标算的特征重要性?
机器学习PAI特征重要性的原理,是用那个指标算的特征重要性?
大概这么做的么?训练时根据效果学习各个特征丢弃的概率,丢弃概率低的就是重要的。
top 重要特征的结果稳定不
参考答案:
是参考这篇论文实现的:https://arxiv.org/pdf/1712.08645.pdf ,具体可以看一下论文。应该是让损失函数最小的方式计算的。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573254
问题五:机器学习PAI每次训练都要新建一个目录吗?
机器学习PAI每次训练都要新建一个目录吗?我看之前的checkpoint在的话,模型会加载起来继续train。有没有办法restart?没找到相关的参数。
参考答案:
试一下这个参数:https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L174
写在 Dextra_params= 后面
关于本问题的更多回答可点击进行查看: