• 关于

    非线性反馈是什么

    的搜索结果

问题

【教程免费下载】Ceph分布式存储实战

前言 随着信息化浪潮的到来,全球各行各业逐步借助信息技术深入发展。据悉,企业及互联网数据以每年50%的速率在增长。据权威调查机构Gartner预测,到2020年,全球数据量将达到35...
知与谁同 2019-12-01 22:07:42 2859 浏览量 回答数 0

回答

Re【马甲问题】马甲账号清除公告 以前某社交公司查mj,就是用登陆浏览器比对。比对下登陆提交的浏览器地址,就全查出来了。 对于文本内容的比对感觉作用不大,我想过和别的组的尝试合并提交,只多出来200个提交。 ------------------------- Re【马甲问题】马甲账号清除公告 不过说句实在话,参加这么多竞赛过来,我还是第一次看到竞赛主办方用查mj的方式来抑制选手调参数过拟合训练数据集的。在最后一周更改测试集才是通用的做法吧。 我个人来说,同一策略线下验证集调好参数后,线上不会改参数超过两次,也是担心太过拟合,第二赛季就傻了。 ------------------------- Re【马甲问题】马甲账号清除公告 恩,看到规则了,话说第一季我觉得这样做可能比较好:训练集不变,然后测试集800个人随机抽样400个人作为平时的leadership排名,最后评测的时候用剩下400个人。这样刷小号也没意义了。 (突然想到回去后要跟我实验室的其他队伍说一声。。。以后LR调好W后别用我那个python脚本生成提交数据了。。。免得被当小号处理了omg ------------------------- 回22楼jiajiadidi的帖子 你不是改个参数几个队一起刷的话应该还好吧 我当初就觉得这样不好,后面多半要出乱子。浙大宣讲问主办方,现在这种情况,几条简单规则就能刷到6,我要是把这几条简单的规则告诉别人,那别人不都挤到前面,那赛季1不就没意义了?然后还有mj的问题。 宣讲的老师说,那你觉得现在极限是多少呢?是7么。mj这种问题都是小问题 后来算者说得好,规则确实能做得比较好,怎么结合规则做出更好的模型才是王道,模型不如规则只能说模型做的不够好。这个对我影响还蛮大的,也让我好好反思了一下。 我现在靠LR做到6.8,基本也没做规则了,而是想如何用以前淘宝有个做CTR预估的MLR的思路结合商品类目和用户定向做更好的结合规则的LR。 我把我python工程环境也发给同实验室的其他组了,在我基础上也有比我做的更高的,具体来说也没太问。 今天回贴,也是看到这种情况有所感想。 大家去刷规则,把推荐大赛做成overfitting大赛,这样对于自己的提高,或是解决这个实际问题,这样有意义么?我是觉得没有意义的。 跟我用同一体系方法的几个队,现在基本都做到6.9 6.8了,大家还是把精力更多放在了如何做更好的模型上。 想想最初学的PAC,一个模型如何叫好,train error低,并且train error近似于test error。这样我们才能声称自己的模型学习到了真正的target function f。而目前大家凭着test 来不断调整参数,就算把f1做到天上去,自己的模型只能说train error低了,大赛后也是毫无意义的。算法学到的那个function,也最多只能当作笑谈 看到有置顶,真是受宠若惊了。帖子里面说的MLR,是盖坤/靖世在阿里技术沙龙中分享的《海量数据下的非线性模型探索 》http://club.alibabatech.org/resource_detail.htm?topicId=106 。这个ppt非常好,我也学到不少。 顺便说说的是,在这个比赛中,我也确实学到不少。 以前我在做项目的时候,基本是对算法非常迷信的,关系好的豆瓣算法组的一个人批我机器学习理解不成熟,太喜欢炫技,我也左耳朵进右耳朵出。最近做某公司的推荐项目,我基本想都不想,就要上time SVD++做baseline,对数据也基本不做太多分析,对业务也是不屑一顾的,非常依赖feature selection算法以及高维非线性模型。 在以前kdd cup或者recsys等比赛中,也是直接上定制化的SVD,把所有数据建模在一个式子里跑SGD草草完事。 做阿里比赛最开始我也是没做太多数据分析,直接上的implicit feedback,sigmoid处理正负反馈,time SVD++以及各种复杂的处理方式。与其说是解决问题,不如是说炫技。当然结果也非常惨,只有4%。 后来才开始认真思考这个比赛的问题。品牌推荐和普通推荐到底有什么区别?打个比方,用户在一个月后会看自己以前有交互的电影的只有1%。而用户在一个月后会买自己以前有交互的品牌的却有20%。CF着力的是那没有交互行为的80%的品牌。除此外800用户,对用户的factor的估计,还是加入temporal dynamic稀释的,又能有多准呢? 所以除了算者说的那些点外,光就这一点基本就可以判定CF在赛季1的不适合了。 这样的问题,只要好好想想就能想通的,可笑的是我第一二周还在所谓的“巧妙模型”上花费了大量的力气。这个让我反思了很久。 用我室友说我的,便是我太迷信算法了,瞧不起用excel写统计的,也瞧不起做简单数据分析然后跑简单模型的人。 这便是我在比赛中获得的教训,也是我和我同实验室的朋友在回家路上所总结的。 说实在,这个比赛我也没有太多精力参加,赛季二估计也只能每周花1天来做,毕竟实验室项目太多。所以估计最后也拿不到特别好的名次。但我觉得,这次比赛前几周给我带来的教训,便已经让我非常有收获了,至少我现在对于机器学习算法以及业务关系的理解,和比赛前已经有了很大的不同。 我现在是单挑,考虑到赛季2最近也找了一个队友,他貌似有两个小号。我也给他发短信让他回学校后赶快发邮件把这些号注销了并入我的队,毕竟也算占着前500的坑,注销了也让更多的队能进入前500。也希望其他队的朋友也再接再厉,在比赛中真正得到一些领悟和经验。愿大家都能做出更好的推荐,进一步加深对机器学习的理解 ^_^ 顺便给大家讲个竞赛的小段子开心开心=w= “阿里的比赛,有个学弟找我合了下数据,做到38名。他觉得很开心,就跟他导师说了。他导师说,才38名啊,做不到前3名就别参加竞赛丢他脸。听到这事我当时就呵呵了,you can you up,no can no bb。我导师就好多了,他要是知道我在做竞赛而不干活,不管几名肯定把我剁了。”
懒惰啊我 2019-12-02 02:59:50 0 浏览量 回答数 0

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT