• 关于 抽样数据方式怎么买 的搜索结果

回答

Re第二阶段的数据抽样方式和第一阶段的数据抽样方式一样吗? 因为我在第一阶中,发现一个很大的问题就是阿里的抽样数据方式不是均匀抽的,是按某规则抽的,但阿里又没有具体说自己是怎么抽样的。 所以大家或多或少都从提交结果中进行了抽样方式(分布)的猜测并设计了针对这种分布不一致的对策,如果你不进行这种猜测和尝试(提交测试并看成绩),我觉得不可能取得好成绩(除非是阿里公布了抽样方式) 试想如果测试数据分布和训练数据一样,我觉得绝大多数人的模型的分数都会发生巨大变化? 说白了,就是你用了一份正常的数据训练,去测试一份异常的数据 (这种异常就好比是在正常情况下(5~8月)极小概率发生购买的事件,在测试中(9月)变成很大概率了。。。。) 这其实是对咱们研究此问题的人的一种误导,比如你如何解释9月份为啥购买量如此之大,让人去瞎猜什么开学季有啥意思,没准就是阿里故意把9月份购买量抽成那么大的 我觉得阿里最好公布抽样细节或者就保持均匀抽样,省去大家猜来猜去被误导的时间,因为非均匀又非公开的刻意抽样方式这不合常理 希望有官方的人给予回答 ------------------------- Re第二阶段的数据抽样方式和第一阶段的数据抽样方式一样吗? 其实我就是想知道你们是不是所有的抽样都是均匀抽样 如果不是, 可不可以告诉一下你们的抽样方式?例如只抽9月份有购买行为的用户,这就不是均匀的用户采样(并且我认为这是不合理的抽样),知不知道采样方式将极大影响算法的设计,所以如果不是均匀抽样的话希望能告知抽样细节而不是让参赛者去猜抽样细节。 均匀抽样的定义为: 1. 从所有用户中均匀采样x个用户 2. 从所有品牌中均匀采样y个品牌 3. 从中去除在4月15~8月15完全没有任何交互的用户(没有和任何y中品牌交互的用户)和品牌(没有和任何x中用户交互的品牌) 请问你们是这样均匀抽样(或等价)的吗?如果不是,还望告知抽样细节 ------------------------- Re回2楼jxu的帖子 s1测试数据8月16~9月15购买量3500左右,而训练数据(4月15~8月15)每月只有不到1500 s2测试数据8月16~9月15购买量280万左右,而训练数据(4月15~8月15)每月也有250万左右。 请问你们所谓的天猫购买量在s1数据中的这种自然的”爆发式“增长为何在s2数据中没有啦? 抽样方式一致吗?

kindlekiller 2019-12-02 03:04:38 0 浏览量 回答数 0

问题

【精品问答】python技术1000问(2)

问问小秘 2019-12-01 22:03:02 68 浏览量 回答数 0

回答

Re【马甲问题】马甲账号清除公告 以前某社交公司查mj,就是用登陆浏览器比对。比对下登陆提交的浏览器地址,就全查出来了。 对于文本内容的比对感觉作用不大,我想过和别的组的尝试合并提交,只多出来200个提交。 ------------------------- Re【马甲问题】马甲账号清除公告 不过说句实在话,参加这么多竞赛过来,我还是第一次看到竞赛主办方用查mj的方式来抑制选手调参数过拟合训练数据集的。在最后一周更改测试集才是通用的做法吧。 我个人来说,同一策略线下验证集调好参数后,线上不会改参数超过两次,也是担心太过拟合,第二赛季就傻了。 ------------------------- Re【马甲问题】马甲账号清除公告 恩,看到规则了,话说第一季我觉得这样做可能比较好:训练集不变,然后测试集800个人随机抽样400个人作为平时的leadership排名,最后评测的时候用剩下400个人。这样刷小号也没意义了。 (突然想到回去后要跟我实验室的其他队伍说一声。。。以后LR调好W后别用我那个python脚本生成提交数据了。。。免得被当小号处理了omg ------------------------- 回22楼jiajiadidi的帖子 你不是改个参数几个队一起刷的话应该还好吧 我当初就觉得这样不好,后面多半要出乱子。浙大宣讲问主办方,现在这种情况,几条简单规则就能刷到6,我要是把这几条简单的规则告诉别人,那别人不都挤到前面,那赛季1不就没意义了?然后还有mj的问题。 宣讲的老师说,那你觉得现在极限是多少呢?是7么。mj这种问题都是小问题 后来算者说得好,规则确实能做得比较好,怎么结合规则做出更好的模型才是王道,模型不如规则只能说模型做的不够好。这个对我影响还蛮大的,也让我好好反思了一下。 我现在靠LR做到6.8,基本也没做规则了,而是想如何用以前淘宝有个做CTR预估的MLR的思路结合商品类目和用户定向做更好的结合规则的LR。 我把我python工程环境也发给同实验室的其他组了,在我基础上也有比我做的更高的,具体来说也没太问。 今天回贴,也是看到这种情况有所感想。 大家去刷规则,把推荐大赛做成overfitting大赛,这样对于自己的提高,或是解决这个实际问题,这样有意义么?我是觉得没有意义的。 跟我用同一体系方法的几个队,现在基本都做到6.9 6.8了,大家还是把精力更多放在了如何做更好的模型上。 想想最初学的PAC,一个模型如何叫好,train error低,并且train error近似于test error。这样我们才能声称自己的模型学习到了真正的target function f。而目前大家凭着test 来不断调整参数,就算把f1做到天上去,自己的模型只能说train error低了,大赛后也是毫无意义的。算法学到的那个function,也最多只能当作笑谈 看到有置顶,真是受宠若惊了。帖子里面说的MLR,是盖坤/靖世在阿里技术沙龙中分享的《海量数据下的非线性模型探索 》http://club.alibabatech.org/resource_detail.htm?topicId=106 。这个ppt非常好,我也学到不少。 顺便说说的是,在这个比赛中,我也确实学到不少。 以前我在做项目的时候,基本是对算法非常迷信的,关系好的豆瓣算法组的一个人批我机器学习理解不成熟,太喜欢炫技,我也左耳朵进右耳朵出。最近做某公司的推荐项目,我基本想都不想,就要上time SVD++做baseline,对数据也基本不做太多分析,对业务也是不屑一顾的,非常依赖feature selection算法以及高维非线性模型。 在以前kdd cup或者recsys等比赛中,也是直接上定制化的SVD,把所有数据建模在一个式子里跑SGD草草完事。 做阿里比赛最开始我也是没做太多数据分析,直接上的implicit feedback,sigmoid处理正负反馈,time SVD++以及各种复杂的处理方式。与其说是解决问题,不如是说炫技。当然结果也非常惨,只有4%。 后来才开始认真思考这个比赛的问题。品牌推荐和普通推荐到底有什么区别?打个比方,用户在一个月后会看自己以前有交互的电影的只有1%。而用户在一个月后会买自己以前有交互的品牌的却有20%。CF着力的是那没有交互行为的80%的品牌。除此外800用户,对用户的factor的估计,还是加入temporal dynamic稀释的,又能有多准呢? 所以除了算者说的那些点外,光就这一点基本就可以判定CF在赛季1的不适合了。 这样的问题,只要好好想想就能想通的,可笑的是我第一二周还在所谓的“巧妙模型”上花费了大量的力气。这个让我反思了很久。 用我室友说我的,便是我太迷信算法了,瞧不起用excel写统计的,也瞧不起做简单数据分析然后跑简单模型的人。 这便是我在比赛中获得的教训,也是我和我同实验室的朋友在回家路上所总结的。 说实在,这个比赛我也没有太多精力参加,赛季二估计也只能每周花1天来做,毕竟实验室项目太多。所以估计最后也拿不到特别好的名次。但我觉得,这次比赛前几周给我带来的教训,便已经让我非常有收获了,至少我现在对于机器学习算法以及业务关系的理解,和比赛前已经有了很大的不同。 我现在是单挑,考虑到赛季2最近也找了一个队友,他貌似有两个小号。我也给他发短信让他回学校后赶快发邮件把这些号注销了并入我的队,毕竟也算占着前500的坑,注销了也让更多的队能进入前500。也希望其他队的朋友也再接再厉,在比赛中真正得到一些领悟和经验。愿大家都能做出更好的推荐,进一步加深对机器学习的理解 ^_^ 顺便给大家讲个竞赛的小段子开心开心=w= “阿里的比赛,有个学弟找我合了下数据,做到38名。他觉得很开心,就跟他导师说了。他导师说,才38名啊,做不到前3名就别参加竞赛丢他脸。听到这事我当时就呵呵了,you can you up,no can no bb。我导师就好多了,他要是知道我在做竞赛而不干活,不管几名肯定把我剁了。”

懒惰啊我 2019-12-02 02:59:50 0 浏览量 回答数 0

新用户福利专场,云服务器ECS低至102元/年

新用户专场,1核2G 102元/年起,2核4G 699.8元/年起
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 SQL审核 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站 人工智能 阿里云云栖号 云栖号案例 云栖号直播