关于测试集的问题

1.测试集里存储的用户行为类型的明确

介绍里面说是用户在下个月的“ 购买”行为，我想问，是不是就 只有真的购买了，才会在测试集里有数据。换句话说，下个月如果用户真实的情况是只有点击或收藏，没有购买，那么该用户的测试集就是空的。

2.数据抽样的问题
precision 和 recall 里面分别给了两个指标叫 参赛队预测的用户数N，和 实际产生成交用户数M， 这两个东西应该不是一回事吧，有没有可能这个用户在下个月 一点行为都没有（也就是收藏，点击，购买行为都没有，和问题1不一样）， 那么我们对这类用户在下个月做预测是徒劳的（从评估算法效果的角度来看哈，不考虑推荐的本意）。

展开

收起

stupidjoey~ 2014-03-11 13:01:52 7173 版权

5 条回答

写回答

取消提交回答

踏雪ac

回4楼樱木瞎折腾的帖子
请问，抽样数据的时候是先抽取一部分用户，然后对每个用户抽取一定数量品牌，再把他针对这些品牌的所有行为内容抽取出来形成的数据集吗？

2014-03-13 15:24:49

赞同展开评论
樱木瞎折腾

回 3楼(xq) 的帖子
是你说的第一种情况

2014-03-12 17:41:46

赞同展开评论
xq

Re关于测试集的问题

关于数据集来源抽样的疑问:  一部分用户, 一部分品牌 ~  from FAQ 2

是否可能存在的这样情况?   user A买了某个品牌Z，但是这个品牌Z未被选取，如此，这个行为数据就被过滤掉了（即提供的数据集中的没有这个行为数据)
-.- 如果真的是这样的话，那说明提供的数据集 for each user，并不完全，不能完全体现这个用户的所有方面。

还是说，在对品牌抽样的时候，  品牌至少包括这些user涉及到的所有品牌…… or 数据集中的品牌集合恰好就是所有抽样user中行为数据的品牌汇总??

Which one?  Thanks.

2014-03-12 16:54:05

赞同展开评论
天猫_得福

Re关于测试集的问题
第一个问题：用户在训练集中有行为，但是在测试集里没有购买行为，这种情况下测试集了不会有这个用户的信息。但是如果你对这个用户做了预测，precision 指标里，还是会将这次预测计入分母。结论就是，如果你能减少预测的用户数，也许可以帮助你提高precision 指标。

第二个问题：和第一个问题一样，对这类测试集里没行为的用户做预测是会降低precision的。

2014-03-12 13:15:06

赞同展开评论
pigcanfly

Re关于测试集的问题
同问

2014-03-12 06:22:09

赞同展开评论

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

关于测试集的问题

相关文章