想了下还是单独再发一贴。
原帖地址:
http://bbs.aliyun.com/read.php?tid=156595&displayMode=1&page=3&toread=1#481932
这里面楼主说出了大部分参赛者的心声。
作为一个比赛,最重要的就是公平,公平可以让参赛者感觉到自己的付出是有意义的,更专注于比赛的内容,而不是钻规则的漏洞。要保证公平的话,只能用严密的规则。想靠道德约束参赛队是不可能的。
S2最大的问题就是,最后六天换数据,这会
导致一些队伍“合(zuo)作(bi)”进行过拟合
。
这也不是什么秘密了,交流群里面,很多人有表示出想这样做的趋势,甚至有人鼓动大家这么干。
比赛发展到这样,我觉得阿里也该反省下自己举办这个比赛的初心了。
比赛目的的话,离不开以下两个点,一是为了招聘,另一个是为了寻找更好的推荐解决方案。
但S2很可能演变成队伍间联合的过拟合大赛,对于以上两点几乎都是无法达到。
个人认为楼主提出的Private Set 的评测方法比较可行,也在很多赛事上应用并取得较大的成功。
但最后再放出在Private Set的结果的话,可能不太好,有种瞎子摸象的感觉。
有一种比较折中的办法:
可以
两周或一个月左右更新一次在Private Set 上的成绩和排行(取这段时间内的最优结果)
,平时还是每天更新在正常测试集的排行。
最后排名以Private Set 中的最优结果为准。
用以上方法的话,参赛队除非每天都交一样的结果,否则无法确定自己哪一次的结果在Private Set最优。
这样想进行过拟合或者队伍间合作的话,就要牺牲较多的提交机会,就很少会有队伍这么做。
注意力就会放在专心得到一个泛化能力好的模型上。
以上是个人拙见,非常感谢阿里给我们提供这次的比赛机会,让我们可以接触到真实的工业界数据,也希望阿里能把这个比赛办好,再次感谢阿里!
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。