Re第二阶段的数据抽样方式和第一阶段的数据抽样方式一样吗?
因为我在第一阶中,发现一个很大的问题就是阿里的抽样数据方式不是均匀抽的,是按某规则抽的,但阿里又没有具体说自己是怎么抽样的。
所以大家或多或少都从提交结果中进行了抽样方式(分布)的猜测并设计了针对这种分布不一致的对策,如果你不进行这种猜测和尝试(提交测试并看成绩),我觉得不可能取得好成绩(除非是阿里公布了抽样方式)
试想如果测试数据分布和训练数据一样,我觉得绝大多数人的模型的分数都会发生巨大变化? 说白了,就是你用了一份正常的数据训练,去测试一份异常的数据 (这种异常就好比是在正常情况下(5~8月)极小概率发生购买的事件,在测试中(9月)变成很大概率了。。。。)
这其实是对咱们研究此问题的人的一种误导,比如你如何解释9月份为啥购买量如此之大,让人去瞎猜什么开学季有啥意思,没准就是阿里故意把9月份购买量抽成那么大的
我觉得阿里最好公布抽样细节或者就保持均匀抽样,省去大家猜来猜去被误导的时间,因为非均匀又非公开的刻意抽样方式这不合常理
希望有官方的人给予回答
-------------------------
Re第二阶段的数据抽样方式和第一阶段的数据抽样方式一样吗?
其实我就是想知道你们是不是所有的抽样都是均匀抽样
如果不是, 可不可以告诉一下你们的抽样方式?例如只抽9月份有购买行为的用户,这就不是均匀的用户采样(并且我认为这是不合理的抽样),知不知道采样方式将极大影响算法的设计,所以如果不是均匀抽样的话希望能告知抽样细节而不是让参赛者去猜抽样细节。
均匀抽样的定义为:
1. 从所有用户中均匀采样x个用户
2. 从所有品牌中均匀采样y个品牌
3. 从中去除在4月15~8月15完全没有任何交互的用户(没有和任何y中品牌交互的用户)和品牌(没有和任何x中用户交互的品牌)
请问你们是这样均匀抽样(或等价)的吗?如果不是,还望告知抽样细节
-------------------------
Re回2楼jxu的帖子
s1测试数据8月16~9月15购买量3500左右,而训练数据(4月15~8月15)每月只有不到1500
s2测试数据8月16~9月15购买量280万左右,而训练数据(4月15~8月15)每月也有250万左右。
请问你们所谓的天猫购买量在s1数据中的这种自然的”爆发式“增长为何在s2数据中没有啦? 抽样方式一致吗?