开发者社区> 问答> 正文

我对第一赛季的一个建议

第一赛季问题多多,从算法大赛演变为调参大赛,最近又出现了泄露代码的事件,我觉得阿里有必要对第一赛季进行一些变革。我的建议是,阿里应该把比赛弄成类似oj系统,规定好输入输出规则,由选手提交代码上去,然后在服务器端进行编译运行,并测试用例。我建议官方除了现在的这个数据集合,可以再抽取一些同时期的user和brand,做两个测试用例来验证选手的程序。 这样有两个好处,其一,可以减少许多人为了弄好比赛结果,而花费心思天天调参,因为如果是过拟合的调参,很难在两个不同数据集合上同时奏效取得很好的结果。其次,弄成oj的形式,一定程度上可以避免有些同学为了进前500,直接盗取他人结果并与自己结果进行融合。

展开
收起
tiancai-ye 2014-04-06 11:18:02 7900 0
10 条回答
写回答
取消 提交回答
  • Re我对第一赛季的一个建议
    不现实,大家的工具都各不相同。

    2014-04-09 15:29:40
    赞同 展开评论 打赏
  • 真正的高手要到第二赛季才会显山露水,在大数据量下才能看出模型的好坏:)
    2014-04-09 14:13:12
    赞同 展开评论 打赏
  • Re我对第一赛季的一个建议
    我感觉真正高级的算法,大神们是不会泄露的。.还是靠自己的能力。现在的F1最高都到7.57了。真正的高手是他们。
    2014-04-09 12:28:52
    赞同 展开评论 打赏
  • Re我对第一赛季的一个建议
    目测lz是用规则做的,或者算法模型是有解析解的哈

    为什么做oj是不实际的,有这样几个方面。

    首先对于竞赛和实际的项目可以说是很不一样的。
    就拿推荐而言,如果只优化f1,那么势必队伍会用不同假设的算法来做ensamble提高f1
    这个也算是竞赛中公认的trick了。你去批评队伍做ensamble是没意义的。
    对于那个400涵盖70的文件我也看到了,但我懒得ensamble那个文件,因为我并不知道那个算法的假设是什么,所以合并后就算提高了结果,对我改进算法也没意义。

    第二点,很多算法是没有解析解的。我们需要用sgd mcmc等跑很久。那么就算oj不设置时间限制。我们也需要在sgd等优化方法迭代出的若干组参数中结合一些东西(我有特别的调参数技巧么么大)挑出一组参数。如果lz离线用svd++等玩过netflix的数据,就知道oj几乎不可能实现。

    第三点,虽然我大部分操作都是写成了sh文件自动跑的,但交上去也是跑不动的。因为用的第三方的包太多。和oj不一样在于参赛者并不是只能用标准库。

    第四点,也算是我个人的一个意见吧。竞赛这种东西一般来说是一开始定好规则,选手们就算闹翻天,比赛规则也是不能变的。
    主办方开始一个游戏,一般只有两种选择,一个是按照最开始制定的游戏规则,只要选手不触犯最开始的规则,就不能增加新的规则。
    另外一种是承认自己规则的不完善,中止比赛进程。
    2014-04-07 11:15:17
    赞同 展开评论 打赏
  • akg
    Re我对第一赛季的一个建议
    在线OJ肯定不可取。。。

    但是拟合数据也确实很靠运气,以及,小号。
    对遵守规则的同学来说,还是不公平。

    2014-04-07 01:23:35
    赞同 展开评论 打赏
  • 回4楼marvel的帖子
    顶楼上!
    机器学习竞赛 和 ACM 还是有很大差别的,模式不可复制。

    -------------------------

    Re我对第一赛季的一个建议
       …………

    -------------------------

    回1楼雅蕾的帖子
    第一赛季还是不要换数据了。

    通过线上测试的结果 来推断 参数好坏,进而调整模型或参数。这本来就是 能力的一部分。

    既然规矩之前已经定好了,大家花了很大精力去 拟合结果,不能让已经努力过的同学 辛苦白费啊。
    2014-04-06 20:47:59
    赞同 展开评论 打赏
  • Re我对第一赛季的一个建议
    1. 觉得规定好输入输出规则,由选手提交代码上去,不靠谱,不现实。选手实现方式各异,代码使用语言各异,提取特征方式各异,机器学习方法各异,很多不是全自动可以一次执行完成的,需要人为干预程序执行过程。
    2.为什么调参数获得好结果就不能被承认?机器学习不也是获得一系列参数吗?我调的参数好,线上测试结果好为什么就不是我个人的能力体现呢?难道一定要很复杂的模型才能证明自己很NB吗?
    3.更换数据集倒是可以接受,虽然本人不建议更换,因为更换太折腾了。如果真更换,建议阿里提前通知,让我们有准备时间。
    4.个人觉得这些问题可以在第二季解决,虽然第一季存在这样或者那样的不足,但是阿里做的这个比赛还是很用心很好的,第一季选出的队伍一定程度上也代表了自己的实力,难道目前的前500名整体上不是6000多个队伍里面最优秀的吗?
    2014-04-06 20:33:32
    赞同 展开评论 打赏
  • Re我对第一赛季的一个建议
    同感觉不可取

    这个的工作量以及代码量,不是像OJ上上传一个函数能搞定的
    2014-04-06 18:09:01
    赞同 展开评论 打赏
  • Re我对第一赛季的一个建议
    感觉不可取

    大家用着各种语言写的 怎么规定统一
    2014-04-06 12:31:31
    赞同 展开评论 打赏
  • 感谢亲的建议,我会尽快反馈给大数据组,感谢您对阿里云及大数据竞赛的支持!
    2014-04-06 11:55:12
    赞同 展开评论 打赏
滑动查看更多
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
高德年刊2020 立即下载
当喜马拉雅遇淘富成真 立即下载
当“喜马拉雅”遇上“淘富成真” 立即下载