开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI负采样的时候,有必要加上用户明确dislike的item吗?

机器学习PAI负采样的时候,有必要加上用户明确dislike的item吗?
我看现在四种负采样方式貌似只能加到hard_neg_edge_input_path里面

展开
收起
真的很搞笑 2023-10-29 20:13:32 72 0
3 条回答
写回答
取消 提交回答
  • 在机器学习PAI进行负采样时,是否需要添加用户明确dislike的item,取决于具体任务的需求和数据分布。

    在负采样过程中,主要的目标是选择那些对于模型训练具有重要信息的样本,即那些离分离边界较远的负样本。如果用户明确dislike的item恰好满足这个条件,那么它们可以被加入到负采样表中。

    另外,对于一些样本选择的方法,如随机负采样,可能并不需要用户明确dislike的item。但根据实际需求,如果这些样本对于模型训练有帮助,也可以考虑将其加入到负采样表中。

    具体来说,如果数据分布波动较大、样本噪声较高,负采样可能难以处理,需要更加谨慎地选择负样本。正常正负样本对参数影响的原理在这里仍然适用。

    因此,是否需要添加用户明确dislike的item进行负采样,需要依具体的情况而定。在处理实际问题时,建议根据数据分布、样本噪声等因素进行综合考虑,并验证不同选择对模型效果的影响。

    2023-10-31 16:34:02
    赞同 展开评论 打赏
  • 在机器学习的推荐系统中,负采样是一种常用的训练策略,它可以提高模型的泛化能力。负采样通常包括两种类型:简单负采样和困难负采样。简单负采样是从全体物品中随机选择一部分物品作为负样本,而困难负采样则是从用户明确不喜欢(如点击、购买等行为的逆过程)的物品中选择一部分物品作为负样本。

    在你的问题中,你提到的hard neg edge input path应该是用于存储用户明确不喜欢物品的列表的路径。如果这个路径中的物品数量足够多,那么从这些物品中随机抽取负样本应该可以得到很好的效果。

    至于是否需要加上用户明确不喜欢的东西,这取决于你的具体需求。如果你的目标是预测用户是否会点击某个物品,那么仅仅使用简单负采样可能就足够了。但是如果你的目标是预测用户是否会购买某个物品,那么使用困难负采样可能会有更好的效果,因为它更能反映用户的实际行为。

    2023-10-30 11:38:53
    赞同 展开评论 打赏
  • 机器学习 PAI 的负采样是指在训练推荐系统模型时,从用户未交互过的商品中随机或有策略地选择一些作为负例,与用户交互过的商品(正例)一起输入模型,以提高模型的泛化能力和区分能力。

    机器学习 PAI 提供了四种负采样方式,分别是:

    • 随机负采样:从所有未交互过的商品中随机选择一些作为负例,不考虑商品的流行度或用户的偏好。
    • 流行度负采样:从流行度较低的未交互过的商品中选择一些作为负例,避免选择流行度较高的商品,因为它们可能是用户潜在感兴趣的商品。
    • 用户偏好负采样:从与用户偏好相反的未交互过的商品中选择一些作为负例,利用用户的历史行为或特征来判断用户不喜欢的商品。
    • 硬负采样:从用户明确表示不喜欢的商品中选择一些作为负例,利用用户的反馈或评价来判断用户讨厌的商品。

    我认为这取决于具体的数据和场景。如果有足够多和准确的用户 dislike 的数据,那么加上这些数据可以提高负采样的质量和效果,因为这些数据包含了更多的信息量和区分度。如果没有或很少有用户 dislike 的数据,那么加上这些数据可能会造成数据不平衡和噪声,影响模型的训练和评估。

    现在四种负采样方式貌似只能加到 hard_neg_edge_input_path 里面。这是不正确的。机器学习 PAI 提供了两个参数来控制负采样方式,分别是:

    • neg_sampling_type:指定使用哪种负采样方式,可选值有 random、popularity、user_preference 和 hard_neg 四种。
    • hard_neg_edge_input_path:指定硬负采样时使用的数据路径,该参数只在 neg_sampling_type 为 hard_neg 时有效。

    因此,可以根据需求和数据情况,选择合适的负采样方式和参数。

    2023-10-30 10:13:43
    赞同 1 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    基于Spark的面向十亿级别特征的 大规模机器学习 立即下载
    基于Spark的大规模机器学习在微博的应用 立即下载