开发者社区> 问答> 正文

关于昨天群内有实验室多号测试融合数据事件(标题已改)

(据说此人是指导老师了,请忽略1)刚才看群里说的第一名香港科大的是老师,并鼓动队伍之间算法互通以便融合模型,google查了下该人是HKUST的Research Assistant Professor,而阿里的参赛规则明确说的是允许在校的本科,硕士,博士参加,这样是否有违公平?还是阿里为了研究成果允许任何有能力的人参加?
1. 希望大赛组委会严格核实身份,作为指导老师可以,但若其独立报名,当取消参赛资格
2. 希望就同一实验室模型共享彻查,严格核实其代码相似度。如果每支队伍三个成员分别开一个号,可以同时测试三个模型,但也意味着500强中真正独立的队伍只有1/3(图片已上传)
PS 本人发此贴只因为觉得这个队伍的做法不公平,但因对整个事件了解不是很清楚,仅凭聊天记录如果有断章取义之处,还请包涵。如果有人想说楼主装什么公正有本事也去刷前三去,那您的批评我心领了。请接受不同的声音。



展开
收起
战士11 2014-04-20 22:57:32 12388 0
18 条回答
写回答
取消 提交回答
  • 回5楼一婷的帖子
    港科的博士还需要这么做啊,怪不得科研也就如此了,真的不知道什么算法可以保证每天召回率不变,准确率增加,恶意刷正确率真的有意思吗
    2014-04-22 15:12:24
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
    各位赛友,我觉得每个比赛里肯定都有这种事情发生,不管大赛组委会用什么方法,都很难杜绝这种不公平的事情。咱们其实没必要太纠结这些。到了s2那竞争的激烈程度肯定不会亚于s1,对于大部分队伍来说,我们能多学一些知识才是真的。如果有一天我们也能达到大神级的水平,那无论那些人用什么样的手段,我们也就都不会在乎了。
    最后恭喜各位进入了s2的大神以及准大神们~
    2014-04-22 13:42:28
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
    如果规则允许这样的行为,那么队伍联盟将会是最好的方案了。希望官方给出明确答复是否允许这样的融合
    2014-04-22 10:49:32
    赞同 展开评论 打赏
  • 回14楼踏雪ac的帖子
    你怎么还没明白楼主的意思。就算换了数据,人家三个队一起拟合,能提交21次。而一个队伍只能提交7次,怎么比??
    2014-04-22 10:01:04
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
    不同意你的观点,你不在乎不代表没有人在乎,更不代表比赛的规则不需要追求更加安全和公平。在高手的较量中,往往在规则上有丝毫的变化,都会使得结果完全不同。参赛者诉求的是一场酣畅淋漓的算法比赛,跟你的态度也没有矛盾的地方。
    2014-04-22 00:51:29
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
    看了这么多帖子,我只想说,众口难调~~~
    @天猫_德福 同情一下

    我觉得主办方已经很尽力听取大家的意见和建议了,不可能满足每一个人的诉求。

    我是外行,像KDD Cup这种高大上的比赛没参加过,不过对于像我这个抱着学习、娱乐还有交朋友的态度来参加比赛的人来说,真心感觉无所谓。

    退一步说,我仅仅是参与者,我会尽量体会比赛的乐趣。。。

    无论采用什么规则,在竞争对手实力相差不大的情况下,最终的排名其实有很大的运气成分,大家应该有心理准备。
    2014-04-22 00:46:09
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
    如果是真的,港科大队伍的融合和别的比赛如Netflix中所用到的ensemble learning有本质区别。

    简单说就是有没有private set的问题,Netflix和KDD Cup这么多届的比赛办下来,使用private set的一个原因就是防止这种情况发生。内部赛的时候没有这种情况发生,我觉得是各个小组分布在公司工位上,比赛是在一个封闭的空间里进行的,加上阿里的员工比较自律,都是按照玩数据第一,比赛第二的精神来的,所以一直没有出事。

    如果第二赛季还是没有private set的话,大家都不考虑泛化能力(@天猫_德福把这个叫做运气,但我觉得运气也有科学,而非玄学),那么多个队伍之间的串通(或者叫伪小号?)根本无解。就算安全团队出动,反作弊手段全上也没有办法。查相似度?本来总有人用近似的算法,相似也很合理。。。查log,查IP?本来就是不同团队分散提交的,怎么可能相同。。。

    事到如今,无非两种做法,一是期待参赛团队的自律精神(如我前面所说,我觉得这种对于反作弊的期待实在是太高了);二是改成private set的评测机制。我比较倾向于后者,并非不相信大家,而是因为,法立于上则俗成于下。

    之前老师不推荐我参加这个比赛,他觉得比赛的评测漏洞太多,事到如今,我玩着玩着停不下来了,才有点明白老师的意思。愿主办方三思。
    2014-04-22 00:15:05
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
       其实我还是没看出你是在呼吁他们合并的,要真是呼吁合并的话那算我一个。我强调过我写这个不针对任何人,当然更不是来反驳你的,只是谈一下关于昨天群里边那些事自己眼见的东西加一点自己的理解,我没有一句话针对过你,你要非觉得我是针对你那我道歉。至于那人说过的话是什么意思我不多说,因为我自己也说了我不确定,所以你也无需纠正。
         希望向各位大牛学习是因为一季下来看到很多搞技术的牛人,不管是小号、合并还是扫雷等歪风邪气,他们都稳如泰山,安心的调试自己的算法和模型,从不吭声,我很佩服这些人,希望向他们学习。而有些人却花费大把的精力在那找小号,给别人挑毛病,浪费了提高自己的机会,这本来也没错,可我又看到其中的一些人在痛斥小号、扫雷的同时自己也不断尝试这些方法,这才让我反感,我鄙视这样的人(强调一遍,这些话跟楼主无关,勿对号入座)。
         所以我并不是不在乎名次,请不要妄下结论。“像你一样旨在提高技术”云云这些话请收回。
    2014-04-21 23:11:36
    赞同 展开评论 打赏
  • Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
    搞毛线啊,不就一个比赛么,至于这么多手段么~受不了
    2014-04-21 19:25:56
    赞同 展开评论 打赏
  • Re老师也能参加比赛?
    不同队伍之间互通,算是作弊吧?

    -------------------------

    回12楼战士11的帖子
    说到小号,我倒是开过,最后三天,实在没时间测特征子集了,开了4个,然后都申请注销了

    -------------------------

    Re老师也能参加比赛?
    从聊天记录来看,感觉那个指导老师是故意来挑事儿的
    2014-04-21 16:23:42
    赞同 展开评论 打赏
  • 回5楼一婷的帖子
    一婷姐您好,刚才看到楼上也传了照片了。按聊天记录所证,图中的谭浩宇在大数据竞赛讨论群中鼓动队伍互通,强强联合,并称港科三支队刷排名是队伍互通的结果。本人认为此举对后面的选手十分不公,虽然这是一种比赛策略,但只是有益于少数队伍。希望强行合并他们实验室的三支队伍。

    -------------------------

    回4楼李小三的帖子
    抱歉 我也是后来查看聊天记录才知道的这件事 难免有断章取义的部分 请包涵 如果你是第一名队伍的成员,请解释一下你们的做法是否有违公平

    -------------------------

    Re老师也能参加比赛?
    再说一下,一支队伍多个成员模型融合这是非常正确合理的做法,但这支队伍明显使用三个账号同时测试不同模型结果,分别发现更优的模型,然后融合。这种做法是名真言顺的“开小号”,就像利用法律漏洞光明正大的偷税漏税一样。当然这只是我的看法,如果你们都是排名前十的队伍想强强联合,那么口下留情

    -------------------------

    回11楼小斯never的帖子
    我认为开小号,队伍互通,这都算作弊,但很难排查。
    而一队占三号,为了更多的测试机会,就是更加很低劣的行为。
    大多500强的小号队伍合并之后都注销了,这只队却光明正大占三个位子,还告诉别人他们的队伍互通了。就算s2拼不过他们,也要有人站出来指责他们。

    -------------------------

    回17楼麦迪起航的帖子
    请看清文章主题,比赛中开小号或通数据是不可避免的,也没有翻任何s1的旧账,现在只是呼吁他在s2三队合并,保证公平竞争。当然楼主也有为自己考虑的成分,自认为可以争争奖的。
    如果你只是来学习的不在乎名次,你只是想提高自己的实力,那你当个看客好了。很多人并不是像你旨在提高技术,而是旨在拿奖。我在帖子最初也申明如果想说我有能力也去争前三,那好意我已心领,你又何必再发帖。
    关于当事人想说的到底是ensemble learning还是队伍互通,看聊天记录好了。
    言语不当处请海涵。
    2014-04-21 16:14:25
    赞同 展开评论 打赏
  • 回5楼一婷的帖子
    一婷姐,我们参赛选手没有资格去查证该人在群里宣称自己是第一名队伍的指导老师,以及港大数个队伍间互通模型和数据的情况是否真实。但这种公然藐视规则和宣扬互通的行为让人很气愤。
    希望官方能够查证一下这个情况,并明确阿里官方是否允许队伍间在线下互通数据和融合模型。


    以下是讨论群内该宣称为第一名队伍指导老师的“浩宇谭”用户的部分截图:







    2014-04-21 16:07:00
    赞同 展开评论 打赏
  • Re老师也能参加比赛?
    要出大事
    2014-04-21 14:41:46
    赞同 展开评论 打赏
  • 第一名的同学我们在香港的时候见过,是港科大的一位博士。不知道楼主的这个信息是从哪里来的
    2014-04-21 14:33:01
    赞同 展开评论 打赏
  • Re老师也能参加比赛?
    人家说了是第一名的指导老师,就是打个酱油,你非要说是老师参赛

    -------------------------

    回26楼freeoo的帖子
    请你弄清楚楼主之前的标题再来说好吗

    -------------------------

    回26楼freeoo的帖子
    我不分青红皂白?这句话是对你自己的最大讽刺。我说了只是提醒楼主标题的事,楼主有问题可以提出,并且我也是同意楼主观点的,只是提醒楼主把之前的标题给改了,因为原标题是楼主误解了
    2014-04-21 11:21:06
    赞同 展开评论 打赏
  • shi
    Re老师也能参加比赛?
    强烈支持更换训练集和测试集重测结果 ,这件事并不麻烦,而且有助于公平,不明白为什么官方不采取。希望能让我们输得心服口服。
    2014-04-21 00:30:22
    赞同 展开评论 打赏
  • Re老师也能参加比赛?
    一个学校的模型互通,一队占三个测试名额。。。让我们海外学校单干的怎么玩,准备随便打酱油了
    2014-04-21 00:03:15
    赞同 展开评论 打赏
  • Re老师也能参加比赛?
    对于第一点,只能建议严格核查身份。对于第二点,个人觉得,现在整体更换训练集和测试集重测结果是最好的选择。重测之后,1、没有时间可以互通结果进行合并,2、不会存在过拟,3、可以保证S2中队伍的数量和质量,对比赛最后得到的结果也是有益的,阿里也希望得到真正实用的算法吧。希望阿里本着负责的态度仔细考虑上述建议。

    -------------------------

    回5楼一婷的帖子
    直接更换数据重测多么简单有效的方法,所有人都没有机会去测试结果,融合结果的马上原形毕露。
    2014-04-20 23:47:27
    赞同 展开评论 打赏
滑动查看更多
问答排行榜
最热
最新

相关电子书

更多
移动互联网测试到质量的转变 立即下载
给ITer的技术实战进阶课-阿里CIO学院独家教材(四) 立即下载
F2etest — 多浏览器兼容性测试整体解决方案 立即下载