开发者社区> 问答> 正文

关于测试集的问题

1.测试集里存储的用户行为类型的明确

     介绍里面说是用户在下个月的“ 购买”行为,我想问,是不是就 只有真的购买了,才会在测试集里有数据。换句话说,下个月如果用户真实的情况是只有点击或收藏,没有购买,那么该用户的测试集就是空的。


2.数据抽样的问题
precision 和 recall 里面分别给了两个指标叫   参赛队预测的用户数N,  和 实际产生成交用户数M, 这两个东西应该不是一回事吧,有没有可能这个用户在下个月 一点行为都没有(也就是收藏,点击,购买行为都没有,和问题1不一样), 那么我们对这类用户在下个月做预测是徒劳的(从评估算法效果的角度来看哈,不考虑推荐的本意)。

展开
收起
stupidjoey~ 2014-03-11 13:01:52 7140 0
5 条回答
写回答
取消 提交回答
  • 回4楼樱木瞎折腾的帖子
    请问,抽样数据的时候是先抽取一部分用户,然后对每个用户抽取一定数量品牌,再把他针对这些品牌的所有行为内容抽取出来形成的数据集吗?
    2014-03-13 15:24:49
    赞同 展开评论 打赏
  • 回 3楼(xq) 的帖子
    是你说的第一种情况
    2014-03-12 17:41:46
    赞同 展开评论 打赏
  • xq
    Re关于测试集的问题

    关于 数据集来源 抽样的疑问:  一部分用户, 一部分品牌 ~  from FAQ 2

    是否可能存在的这样情况?   user A买了某个品牌Z,但是这个品牌Z未被选取,如此,这个行为数据就被过滤掉了(即提供的数据集中的没有这个行为数据)
    -.- 如果真的是这样的话,那说明提供的数据集 for each user,并不完全,不能完全体现这个用户的所有方面。

    还是说,在对品牌抽样的时候,  品牌至少 包括 这些user涉及到的所有品牌…… or 数据集中的品牌集合 恰好 就是所有抽样user中行为数据的品牌汇总??

    Which one?  Thanks.
    2014-03-12 16:54:05
    赞同 展开评论 打赏
  • Re关于测试集的问题
    第一个问题:用户在训练集中有行为,但是在测试集里没有购买行为,这种情况下测试集了不会有这个用户的信息。但是如果你对这个用户做了预测,precision 指标里,还是会将这次预测计入分母。结论就是,如果你能减少预测的用户数,也许可以帮助你提高precision 指标。

    第二个问题:和第一个问题一样,对这类测试集里没行为的用户做预测是会降低precision的。
    2014-03-12 13:15:06
    赞同 展开评论 打赏
  • Re关于测试集的问题
    同问
    2014-03-12 06:22:09
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载

相关实验场景

更多