机器学习PAI负采样的时候，有必要加上用户明确dislike的item吗？

机器学习PAI负采样的时候，有必要加上用户明确dislike的item吗？
我看现在四种负采样方式貌似只能加到hard_neg_edge_input_path里面

展开

收起

真的很搞笑 2023-10-29 20:13:32 290 版权

3 条回答

写回答

取消提交回答

Zzzz

在机器学习PAI进行负采样时，是否需要添加用户明确dislike的item，取决于具体任务的需求和数据分布。

在负采样过程中，主要的目标是选择那些对于模型训练具有重要信息的样本，即那些离分离边界较远的负样本。如果用户明确dislike的item恰好满足这个条件，那么它们可以被加入到负采样表中。

另外，对于一些样本选择的方法，如随机负采样，可能并不需要用户明确dislike的item。但根据实际需求，如果这些样本对于模型训练有帮助，也可以考虑将其加入到负采样表中。

具体来说，如果数据分布波动较大、样本噪声较高，负采样可能难以处理，需要更加谨慎地选择负样本。正常正负样本对参数影响的原理在这里仍然适用。

因此，是否需要添加用户明确dislike的item进行负采样，需要依具体的情况而定。在处理实际问题时，建议根据数据分布、样本噪声等因素进行综合考虑，并验证不同选择对模型效果的影响。

2023-10-31 16:34:02

赞同展开评论
sunrr

在机器学习的推荐系统中，负采样是一种常用的训练策略，它可以提高模型的泛化能力。负采样通常包括两种类型：简单负采样和困难负采样。简单负采样是从全体物品中随机选择一部分物品作为负样本，而困难负采样则是从用户明确不喜欢（如点击、购买等行为的逆过程）的物品中选择一部分物品作为负样本。

在你的问题中，你提到的hard neg edge input path应该是用于存储用户明确不喜欢物品的列表的路径。如果这个路径中的物品数量足够多，那么从这些物品中随机抽取负样本应该可以得到很好的效果。

至于是否需要加上用户明确不喜欢的东西，这取决于你的具体需求。如果你的目标是预测用户是否会点击某个物品，那么仅仅使用简单负采样可能就足够了。但是如果你的目标是预测用户是否会购买某个物品，那么使用困难负采样可能会有更好的效果，因为它更能反映用户的实际行为。

2023-10-30 11:38:53

赞同展开评论
1941623231718325
机器学习 PAI 的负采样是指在训练推荐系统模型时，从用户未交互过的商品中随机或有策略地选择一些作为负例，与用户交互过的商品（正例）一起输入模型，以提高模型的泛化能力和区分能力。

机器学习 PAI 提供了四种负采样方式，分别是：
- 随机负采样：从所有未交互过的商品中随机选择一些作为负例，不考虑商品的流行度或用户的偏好。
- 流行度负采样：从流行度较低的未交互过的商品中选择一些作为负例，避免选择流行度较高的商品，因为它们可能是用户潜在感兴趣的商品。
- 用户偏好负采样：从与用户偏好相反的未交互过的商品中选择一些作为负例，利用用户的历史行为或特征来判断用户不喜欢的商品。
- 硬负采样：从用户明确表示不喜欢的商品中选择一些作为负例，利用用户的反馈或评价来判断用户讨厌的商品。
我认为这取决于具体的数据和场景。如果有足够多和准确的用户 dislike 的数据，那么加上这些数据可以提高负采样的质量和效果，因为这些数据包含了更多的信息量和区分度。如果没有或很少有用户 dislike 的数据，那么加上这些数据可能会造成数据不平衡和噪声，影响模型的训练和评估。

现在四种负采样方式貌似只能加到 hard_neg_edge_input_path 里面。这是不正确的。机器学习 PAI 提供了两个参数来控制负采样方式，分别是：
- neg_sampling_type：指定使用哪种负采样方式，可选值有 random、popularity、user_preference 和 hard_neg 四种。
- hard_neg_edge_input_path：指定硬负采样时使用的数据路径，该参数只在 neg_sampling_type 为 hard_neg 时有效。
因此，可以根据需求和数据情况，选择合适的负采样方式和参数。
2023-10-30 10:13:43

赞同 1 展开评论

机器学习PAI负采样的时候，有必要加上用户明确dislike的item吗？

人工智能平台PAI

相关文章

热门讨论

热门文章