除了让淘汰的人“死的明白”之外,最大的意义在于避免出现选手只有在线上评测时才知道算法是不是改进了。。。正如之前的帖子所说,9月份的分布和之前的月份差别很大,所以逻辑上可行的数据组织(包括在天猫系统里真正做预测的时候)应该是这样:给定去年4,5,6,7,8,9的数据,和今年4,5,6,7,8的数据,预测今年9月的数据。
在现行的设置下,9月份的分布和4-8月份差别很大,从各方面反馈来看,大部分团队本地验证和线上测试差的不是一点,导致在本地提高的结果未必在线上提高,结果引导大家纷纷去注册很多小号去overfit线上的测试集,想必这是阿里不愿意看到的。
S1结束后,这800个用户的真实结果完全可以公开出来,当做测试分布的一个“采样”提供给选手,同时将这800多个用户从S2的数据集中删掉,完全不影响S2的正常比赛。
大家怎么看?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。