机器学习PAI特征重要性的原理，是用那个指标算的特征重要性？

机器学习PAI特征重要性的原理，是用那个指标算的特征重要性?
大概这么做的么？训练时根据效果学习各个特征丢弃的概率，丢弃概率低的就是重要的。
top 重要特征的结果稳定不

展开

收起

真的很搞笑 2023-11-30 11:13:40 309 版权

3 条回答

写回答

取消提交回答

芯在这

是参考这篇论文实现的：https://arxiv.org/pdf/1712.08645.pdf ，具体可以看一下论文。应该是让损失函数最小的方式计算的。，此回答整理自钉群“【EasyRec】推荐算法交流群”

2023-11-30 20:58:56

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在机器学习 PAI 中，特征重要性一般是通过基于树模型的方法计算得出的。这些模型可以是决策树、随机森林、梯度提升树（Gradient Boosting Tree）等。

树模型的特征重要性指标是通过以下原理来计算的：
1. 分裂准则：树模型使用某种分裂准则（如信息增益、基尼系数等）来判断每个节点的特征重要性。这些准则衡量了每个特征在数据集中对目标变量的影响力或预测能力。
2. 分裂点选择：树模型在每个节点上选择最优的分裂点，根据特征的值将样本划分为不同的子节点。在选择分裂点时，模型会考虑特征的重要性作为一个关键因素。
3. 特征重要性度量：基于树模型的训练过程会记录每个特征参与每次分裂的次数以及其带来的平均分裂准则改善情况。这些统计量被用来度量特征的重要性。
常见的特征重要性指标包括：
- Gini Importance（基尼重要性）：衡量特征在分裂过程中基尼系数的改善情况。
- Information Gain（信息增益）：衡量特征在分裂过程中熵或信息熵的减少量。
- Gain Ratio（增益比）：信息增益除以用于分裂的特征的熵，以消除特征本身可能带来的偏好。
2023-11-30 14:15:59

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

机器学习PAI中特征重要性的原理是通过使用不同的算法，如随机森林、GBDT等，对训练数据进行分类和回归，从而得到各个特征的重要性。特征重要性可以用各种指标来计算，例如F1分数、精确率、召回率、ROC曲线下面积等。这些指标可以通过交叉验证等方法来得到。
训练时，根据效果学习各个特征丢弃的概率，丢弃概率低的就是重要的。如果特征的重要性较低，可以将其从特征列表中删除，或者将其权重降低，以提高模型的准确性和效率。

对于top重要特征的结果，其稳定性可能会受到多种因素的影响，如特征选择的算法、数据集的质量、模型的复杂度等。因此，在使用top重要特征时，需要根据具体情况进行评估和调整，以确保结果的稳定性和可靠性。
---来自人工智能平台 PAI随机森林特征重要性

2023-11-30 13:44:19

赞同展开评论

机器学习PAI特征重要性的原理，是用那个指标算的特征重要性？

人工智能平台PAI

相关文章

热门讨论

热门文章