开发者社区> 问答> 正文

给Season2评测方式的建议

想了下还是单独再发一贴。


原帖地址:
http://bbs.aliyun.com/read.php?tid=156595&displayMode=1&page=3&toread=1#481932



这里面楼主说出了大部分参赛者的心声。


作为一个比赛,最重要的就是公平,公平可以让参赛者感觉到自己的付出是有意义的,更专注于比赛的内容,而不是钻规则的漏洞。要保证公平的话,只能用严密的规则。想靠道德约束参赛队是不可能的。


S2最大的问题就是,最后六天换数据,这会 导致一些队伍“合(zuo)作(bi)”进行过拟合
这也不是什么秘密了,交流群里面,很多人有表示出想这样做的趋势,甚至有人鼓动大家这么干。


比赛发展到这样,我觉得阿里也该反省下自己举办这个比赛的初心了。
比赛目的的话,离不开以下两个点,一是为了招聘,另一个是为了寻找更好的推荐解决方案。
但S2很可能演变成队伍间联合的过拟合大赛,对于以上两点几乎都是无法达到。


个人认为楼主提出的Private Set 的评测方法比较可行,也在很多赛事上应用并取得较大的成功。
但最后再放出在Private Set的结果的话,可能不太好,有种瞎子摸象的感觉。


有一种比较折中的办法:
可以 两周或一个月左右更新一次在Private Set 上的成绩和排行(取这段时间内的最优结果) ,平时还是每天更新在正常测试集的排行。
最后排名以Private Set 中的最优结果为准。


用以上方法的话,参赛队除非每天都交一样的结果,否则无法确定自己哪一次的结果在Private Set最优。
这样想进行过拟合或者队伍间合作的话,就要牺牲较多的提交机会,就很少会有队伍这么做。
注意力就会放在专心得到一个泛化能力好的模型上。


以上是个人拙见,非常感谢阿里给我们提供这次的比赛机会,让我们可以接触到真实的工业界数据,也希望阿里能把这个比赛办好,再次感谢阿里!


展开
收起
insulator 2014-04-22 15:43:26 6860 0
5 条回答
写回答
取消 提交回答
  • Re给Season2评测方式的建议
    我对你这个说法,有不同的意见
    " 但最后再放出在Private Set的结果的话,可能不太好,有种瞎子摸象的感觉。"


    public test 好比是平时实验的开发集,Private set是测试集。在严格标准的定义中,Private set就不应该让别人知道,只能在你系统完全成熟,不再做任何更改的情况,做测试给出最终的score。


    所以Private set只要是准备好了,最后时刻拿出来测试一下就可以了。
    2014-04-22 20:12:03
    赞同 展开评论 打赏
  • ^_^
    回1楼一婷的帖子
    为啥不参考参赛者的意见呢?
    理由是什么?
    2014-04-22 19:40:12
    赞同 展开评论 打赏
  • 回1楼一婷的帖子
    傲慢,无知,对组织者非常失望

    楼主的建议很好
    2014-04-22 19:30:52
    赞同 展开评论 打赏
  • 回1楼一婷的帖子
    “既定”是指无法改动了吗?
    2014-04-22 16:01:44
    赞同 展开评论 打赏
  • 既定的规则:
    Season 2    4月25日-7月30日    
    参赛者需登录阿里巴巴天池平台,访问海量天猫数据。利用天池平台的集成工具与算法,建模与提交结果。
    评审规则:每天提供1次算法提交机会,每天更新排行榜,按照F1分从高到低排序。(排行榜将选择选手在本阶段的历史最优成绩进行排名展示,选手每日的成绩请至个人中心查询)
    7.24将重新抽样一批相同量级的数据(保证抽样方式一致),7.30零点截止算法的提交,并取7.24-7.30最优成绩前Top10的参赛队进入最终评审。
    Top10的参赛队,需要准备评审材料,在8月20日来杭州参加答辩,根据参赛队的算法原理、season2的成绩,决出最终的冠亚季军。
    2014-04-22 16:00:08
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载