测试数据集问题是否出现训练集没有的uid或bid（附样例）

在处理test数据集时，能保证所有的uid和bid都是在train中出现过吗？

我怕数据集是先选出一堆用户和商标，然后把他们之间的交互信息按照时间前面选出一部分作为train，后面选一部分作test，如果选的时间点不好，可能有的uid和bid只在test中才有。

数据集能保证test中没出现train没有的uid和bid吗？

回复下面询问的：

比如如果test和train的uid，bid完全一致
一个算法a能得到80%的pre，100%的recall，
另一个算法b能得到100%pre，80%recall，
那么两个算法的f1值应该是一样的，都是88.9%

但如果test多了很多uid和bid没出现过，导致用train推荐recall最大值只能到80%，那就变成了
a有80%的pre，80%的recall，
b有100%pre，64%recall，

这样就变成f1值a是80%，b是78%，也就是本来应该排名一样的算法结果a比b好了。

而且即使test中只多了一个uid或者bid，那么a和b算法的排名都是受到影响的

展开

收起

zjueaglelab 2014-03-15 15:01:38 10561 0

6 条回答

写回答

取消提交回答

cxyan

Re测试数据集问题是否出现训练集没有的uid或bid（附样例）
我看zjueaglelab其中一个账号提交的结果里面有个很高的recall(41%). 是不是让每一个用户购买了所有的品牌？如果官方的ground truth是没有新品牌和用户，这时的recall应该是100%才对。
-------------------------

Re测试数据集问题是否出现训练集没有的uid或bid（附样例）
这样子，谢谢EagleEye提供的线索
-------------------------

回14楼test010的帖子
“预测提交所有的浏览记录均购买，那么召回率肯定有100%”对于这个判断我觉得不是正确的。你可以试一试。因为没有考虑已有用户与品牌之间的全部关系，还有就是新品牌，这样是不可能在线上有1000%的recall的。
全部组合输出确实有50M。下载下来的文件没有全部输出的情况多。
-------------------------

回2楼穿林越海的帖子
我觉得EagleEye的问题的出发点是说，这个新的uid和bid会对我们本地的模型选择产生影响。要是不存在新的用户以及品牌，这样子的话还是很有信息量的。

2014-03-16 10:48:06

赞同展开评论打赏
test010

Re测试数据集问题是否出现训练集没有的uid或bid（附样例）
我也有楼主同样的问题，提交了的大大们说说看
-------------------------

回11楼cxyan的帖子
没有看到EagleEye的回复，能告诉我答案吗？

我感觉如果把之前从来没有浏览过，但是在这个月购买了的记录也算在内，召回率根本不可能达到20%。
-------------------------

回11楼cxyan的帖子
而如果不算在内，感觉预测提交所有的浏览记录均购买，那么召回率肯定有100%，准确率也能有1.x%左右，算起来也有3%左右，这样是不是才是对的。
-------------------------

回10楼zjueaglelab的帖子
全部输出哪有50M，下载下来的文件也才4M不到。全部输出也没那么多行。
-------------------------

回15楼cxyan的帖子
我明白你的意思了，你的意思是还考虑本用户没浏览过，但别的用户浏览过的商品，在season1，数据量这么小，应该很难预测到。

2014-03-16 10:42:25

赞同展开评论打赏
心比天高

Re询问关于测试数据集问题，是否出现训练集没有的uid或bid
这个问题在现实中是肯定存在的，肯定会动态的新加入一些用户。不过在推荐中应该不考虑这些新加入的用户

2014-03-15 18:34:44

赞同展开评论打赏
亚娟

最终评测时，是训练集中出现过的用户，对训练集中出现过的品牌的购买预测，即recall的分母为训练集中uid对bid的真实购买量，所以你说的这个问题是不存在的

2014-03-15 16:32:37

赞同展开评论打赏
穿林越海

这个是否有，对大家的影响是一样的，都无法预测之前不存在的uid或者bid。

2014-03-15 15:29:19

赞同展开评论打赏
zjueaglelab

Re询问关于测试数据集问题，是否出现训练集没有的uid或bid
而且之前说有1000多个用户，后面改成的1000左右用户，因为train中远不到1000人，不会是多出来那些用户只在test中才有吧？
-------------------------

回2楼穿林越海的帖子
当然有影响啊，比如如果test和train的uid，bid完全一致
一个算法a能得到80%的pre，100%的recall，
另一个算法b能得到100%pre，80%recall，
那么两个算法的f1值应该是一样的，都是88.9%

但如果test多了很多uid和bid没出现过，导致用train推荐recall最大值只能到80%，那就变成了
a有80%的pre，80%的recall，
b用100%pre，64%recall，

这样就变成f1值a是80%，b是78%，也就是本来应该排名一样的算法结果a比b好了。
-------------------------

回3楼亚娟的帖子
官网给出的召回率每个变量解释：

M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数

这里根本没提bBrandsi一定只有train出现过的brandid，完全没有您说的那个解释

-------------------------

Re测试数据集问题是否出现训练集没有的uid或bid（附样例）
看现在的结果真的让人怀疑是否真有没在训练集出现的uid和bid，比赛支持赛后rejudge吗？让我们检查数据是否有错误
-------------------------

Re测试数据集问题是否出现训练集没有的uid或bid（附样例）
我也想这么尝试的，但这个网站限制提交文件大小为4.9兆，全部输出要近50兆，所以我上传的也是个子集

2014-03-15 15:03:18

赞同展开评论打赏