开发者社区> 问答> 正文

我感觉,无论进没进S2,都需要S1的真实结果

除了让淘汰的人“死的明白”之外,最大的意义在于避免出现选手只有在线上评测时才知道算法是不是改进了。。。正如之前的帖子所说,9月份的分布和之前的月份差别很大,所以逻辑上可行的数据组织(包括在天猫系统里真正做预测的时候)应该是这样:给定去年4,5,6,7,8,9的数据,和今年4,5,6,7,8的数据,预测今年9月的数据。


在现行的设置下,9月份的分布和4-8月份差别很大,从各方面反馈来看,大部分团队本地验证和线上测试差的不是一点,导致在本地提高的结果未必在线上提高,结果引导大家纷纷去注册很多小号去overfit线上的测试集,想必这是阿里不愿意看到的。


S1结束后,这800个用户的真实结果完全可以公开出来,当做测试分布的一个“采样”提供给选手,同时将这800多个用户从S2的数据集中删掉,完全不影响S2的正常比赛。


大家怎么看?

展开
收起
点点滴滴 2014-04-21 19:09:31 5900 0
0 条回答
写回答
取消 提交回答
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
机器学习在恶意样本检测方面 的实践之路 立即下载
机器学习在恶意样本检测方面的实践之路 立即下载
低代码开发师(初级)实战教程 立即下载