机器学习PAI在我们的场景假设gender出现了冲突，有什么方式可以提前检测这样的冲突？

机器学习PAI在我们的场景假设gender出现了冲突（bucket超配以后仍然发生了冲突）；我们分布上可能20%是M，15%是F，65%的是unknown，如果出现冲突将unknown哈希到M上，unknown和M具有相同的embedding。这个带来的问题是会给unknown中是F的去推M的榜单；但是实际上F和M的消费行为有很大的差异，造成整体指标的下降。所以作为用户还是希望实现知道这块有可能即使参数超配了仍然可能存在冲突，并且是调用的tf哪个方法造成的冲突，有什么方式可以提前检测这样的冲突。

展开

收起

真的很搞笑 2023-11-30 11:14:24 230 版权

3 条回答

写回答

取消提交回答

芯在这

不要用hash了，配置一个vacab_list吧
，此回答整理自钉群“【EasyRec】推荐算法交流群”

2023-11-30 20:59:51

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在机器学习中，特征冲突是指某个或多个特征在数据集中具有高度相关性或对目标变量产生相似影响的情况。如果在您的场景中发现了gender特征出现了冲突，可以考虑以下方式提前检测和解决这样的冲突：
1. 数据探索和可视化：通过对数据进行探索性分析和可视化，查看gender特征与其他特征之间的相关性。使用统计方法（如相关系数）或绘制散点图、箱线图等图表来观察特征之间的关联程度。
2. 特征重要性分析：使用特征重要性分析技术（如基于树模型的特征重要性评估），确定gender特征对模型的贡献程度。如果发现gender特征对预测结果影响较小，可能存在冗余或冲突的问题。
3. 特征选择和特征组合：考虑根据业务需求和模型性能，选择最具有代表性和区分度的特征子集。可以使用特征选择算法（如递归特征消除、Lasso回归等）来排除冗余或冲突的特征。另外，可以尝试将gender与其他特征进行组合，以创建更有区分度的特征。
4. 专家知识和领域经验：咨询领域专家或具有相关经验的人员，获取关于gender特征冲突的洞察和建议。他们可能能够提供宝贵的见解，并帮助您理解和解决冲突问题。
5. 数据清洗和预处理：如果发现gender特征中存在错误、缺失或不一致的数据，可以考虑进行数据清洗和预处理操作。这可能包括修复或删除异常值、填补缺失值、标准化数据等。
2023-11-30 14:15:57

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

可以使用BERT分类模型来解决文本分类问题，或使用BERT匹配模型来解决通用文本匹配问题。这些模型可以对输入的文本进行分类或匹配，从而帮助解决冲突问题。

还可以使用PAI提供的工具来检测冲突，例如使用PAI提供的文本分类、匹配等工具，或者使用PAI提供的消费行为分析工具来分析不同性别的消费行为差异。这些工具可以帮助提前检测冲突，并根据具体情况进行调整，以避免造成整体指标的下降。

---来自自然语言处理（NLP）类模型学习文档

2023-11-30 11:41:04

赞同展开评论

机器学习PAI在我们的场景假设gender出现了冲突，有什么方式可以提前检测这样的冲突？

人工智能平台PAI

相关文章

热门讨论

热门文章