比赛_快速入门_4_19_update_仅供参考,思维不要受局限
Re比赛快速入门0327关于《入门》有不明白的请留言,尽量及时回复
有两个问题想问
1. 一个user购买某个以前,必须要浏览它吗?
如果是的话,那对一个特定的user和item 的组合, 必须要先有 行为1,然后再有 行为4. 但是我整理数据的时候发现不是这样,有个别 user,item 的组合只有 行为4, 也就是说,这个人没浏览这个产品直接就买了。
前面有类似的问题,给出答案说可能是数据丢失。 我猜测出现这种情况可能是因为,给的只有一个月的数据,可能是这个人在11月18号以前看的,但是我们是从11月18开始记录,所以就没有对他浏览商品的记录。无论是什么原因,对于这样的数据我们需要进行特殊处理吗?需要自己补充一个 行为1 2 3吗?
2. 对于12月18号以前购买的商品,我们要怎么处理?
《入门》里面说, “训练集数据来源将限定在11-18—12-17这29天内,且会用12-18整天的购买情况用于对11-18—12-17之内的样本进行类别标记(即确定这些样本在12-18时,哪些是购买、哪些是未购买)”。 那对于18号以前购买的商品,我们应该怎么使用?
a.假设用户不会在购买,或者购买的概率很低,以此作为 预测18号的购买情况 的一个特征?
b. 假设用户在 12-14号买了商品,那把11-18 - 12-13 当做一个sub-dataset 来预测 12-14?
感觉 a和b都不是很合理。。请求指导。。。
赞0
踩0