懒惰啊我_个人页-阿里云开发者社区

回答了问题 2014-05-02

阿里大数据竞赛官方交流旺旺群（1205552263）

Re阿里大数据竞赛官方交流旺旺群（1205552263）赞。。不过貌似手机旺信是无法加群的？我找了很久。。。在添加里面只有按照帐号搜索，然后输入群号后显示（请输入完整的淘宝帐号）流泪 ------------------------- Re阿里大数据竞赛官方交流旺旺群（1205552263）但是里面是有群这个选项的。。。。于是我准备。。pc客户端加群后。。。再来手机上看

赞0 踩0 评论0

回答了问题 2014-04-28

ODPS大讲堂之概述篇

ReODPS大讲堂之概述篇我猜是因为用的类似于graphlab这种基于图结构的然后还有点bsp的实验有一些mpi的包是么

赞0 踩0 评论0

回答了问题 2014-04-27

ODPS学习资料提供下载了0428有更新

回6楼bazinga的帖子哈哈是谭老师的那句“婷母娘娘你们也敢放肆”的梗么

赞0 踩0 评论0

回答了问题 2014-04-25

淘汰制累感不爱

Re淘汰制累感不爱昨天在群里谭老师也说了，MR写好一个月不够，但是用用hive绝对够了。先对着odps的文档，写写hive，用用xlib提供的LR SVD等跑跑实验，感觉撑过第一月后，再自己写MR上传就好哈。现在下载了readme，只能通宵看了。5月又是论文又是公司项目，上课和写作业，不熟悉MR还不能被导师知道在竞赛，流泪，也愿与lz共勉。

赞0 踩0 评论0

回答了问题 2014-04-25

最有可能夺冠的一批人被排除在外了

Re最有可能夺冠的一批人被排除在外了确实哈，我们队队员都是做ml理论方向的就我知道的我们学校其他几个队也多多少少有论文的压力大家做比赛都是半夜偷偷摸摸做的不过时间总是靠挤的，也愿与lz共勉^_^

赞0 踩0 评论0

提交了问题 2014-04-24

淘汰赛制可能不妥的地方

提交了问题 2014-04-20

代码提交问题

回答了问题 2014-04-20

为什么没人讨论算法？

Re为什么没人讨论算法？因为还有赛季2.。。。说太多算法要被当成算法泄密处理的吧

赞0 踩0 评论0

回答了问题 2014-04-20

实名认证显示“待升级”，是否需要升级

Re实名认证显示“待升级”，是否需要升级我是升级了。。。不过审核挺快的，2个小时内就审核了

赞0 踩0 评论0

回答了问题 2014-04-20

代码提交问题

回1楼天猫得福的帖子谢谢解答，我去整理了 ^_^

赞0 踩0 评论0

回答了问题 2014-04-20

关于代码提交的问题，为何要限制5M

Re关于代码提交的问题，为何要限制5M 我的预处理->ctrl+F “月” 替换成“-”。。。。想想就有点搓。。。

赞0 踩0 评论0

回答了问题 2014-04-13

删除ing

Re看看第一名都再说什么吧赞lss第一名的队的心态和工作量两个多星期没做这个比赛了，只是偶尔看看排行榜，我现在是6.93。估计了下按现在这种速度估计几天后就要被踢出500了，立马吓尿。这次比赛确实训练集太小，我自己是设计了一个理论上比较巧妙的模型，但是离线实验表示20个自由参数就已经比较多了。所以现在还是只用了10个以下的自由参数的模型。 [del]其实我有特别的过拟合技巧么么大，看我利用6次提交的揣摩拟合个不科学的结果~[/del] ------------------------- 回4楼偶也的帖子不要抱怨。遵循规则安心玩这个游戏就算是6天想过拟合也可以拟合的飞起来 ------------------------- 回6楼偶也的帖子我不是这个意思。而是在现有的规则下，考虑怎么去玩这个游戏才是正道。抱怨别人过拟合，自己没有做太多拟合吃亏了。其实反过来想，自己好好利用剩下的6天做下拟合就好了。就算最后两天换个数据，前面的队用自己的算法和规则跑一下，排名会上下浮动，但是前300名的队还是会在前500的。因为本质上来说，这800个人是一个随机抽样，队伍拟合的是人群在9月这个特殊的月份下的行为，如果数据集换成用9到12月揣摩1月的购买，那排名会大变，但是只换人群，是不会大变的。

赞0 踩0 评论0

回答了问题 2014-04-11

调查：第二赛季希望有哪些机器学习的算法包

Re调查：第二赛季希望有哪些机器学习的算法包希望聚类能够提供层次聚类然后最关键的是希望逻辑回归能够提供损失函数正负例带权的接口。其实这个一点都不麻烦，在原来算法包的基础上稍微改一点点就好，但是感觉有没有结果差别挺大的

赞0 踩0 评论0

回答了问题 2014-04-07

我对第一赛季的一个建议

Re我对第一赛季的一个建议目测lz是用规则做的，或者算法模型是有解析解的哈为什么做oj是不实际的，有这样几个方面。首先对于竞赛和实际的项目可以说是很不一样的。就拿推荐而言，如果只优化f1，那么势必队伍会用不同假设的算法来做ensamble提高f1 这个也算是竞赛中公认的trick了。你去批评队伍做ensamble是没意义的。对于那个400涵盖70的文件我也看到了，但我懒得ensamble那个文件，因为我并不知道那个算法的假设是什么，所以合并后就算提高了结果，对我改进算法也没意义。第二点，很多算法是没有解析解的。我们需要用sgd mcmc等跑很久。那么就算oj不设置时间限制。我们也需要在sgd等优化方法迭代出的若干组参数中结合一些东西（我有特别的调参数技巧么么大）挑出一组参数。如果lz离线用svd++等玩过netflix的数据，就知道oj几乎不可能实现。第三点，虽然我大部分操作都是写成了sh文件自动跑的，但交上去也是跑不动的。因为用的第三方的包太多。和oj不一样在于参赛者并不是只能用标准库。第四点，也算是我个人的一个意见吧。竞赛这种东西一般来说是一开始定好规则，选手们就算闹翻天，比赛规则也是不能变的。主办方开始一个游戏，一般只有两种选择，一个是按照最开始制定的游戏规则，只要选手不触犯最开始的规则，就不能增加新的规则。另外一种是承认自己规则的不完善，中止比赛进程。

赞0 踩0 评论0

回答了问题 2014-04-03

LR训练集构造

ReLR训练集构造 lz可以谷歌一下 imbalance binary classification 就我个人经验，三种处理方式可以考虑 1.up sampling 和 down sampling 2.带权 3. 同时使用上面两种方法其中1和2我都尝试过，调出的参数都比不处理要好不是一点点^_^

赞0 踩0 评论0

回答了问题 2014-04-01

作弊队伍处罚公告

Re【马甲问题】马甲账号清除公告以前某社交公司查mj，就是用登陆浏览器比对。比对下登陆提交的浏览器地址，就全查出来了。对于文本内容的比对感觉作用不大，我想过和别的组的尝试合并提交，只多出来200个提交。 ------------------------- Re【马甲问题】马甲账号清除公告不过说句实在话，参加这么多竞赛过来，我还是第一次看到竞赛主办方用查mj的方式来抑制选手调参数过拟合训练数据集的。在最后一周更改测试集才是通用的做法吧。我个人来说，同一策略线下验证集调好参数后，线上不会改参数超过两次，也是担心太过拟合，第二赛季就傻了。 ------------------------- Re【马甲问题】马甲账号清除公告恩，看到规则了，话说第一季我觉得这样做可能比较好：训练集不变，然后测试集800个人随机抽样400个人作为平时的leadership排名，最后评测的时候用剩下400个人。这样刷小号也没意义了。（突然想到回去后要跟我实验室的其他队伍说一声。。。以后LR调好W后别用我那个python脚本生成提交数据了。。。免得被当小号处理了omg ------------------------- 回22楼jiajiadidi的帖子你不是改个参数几个队一起刷的话应该还好吧我当初就觉得这样不好，后面多半要出乱子。浙大宣讲问主办方，现在这种情况，几条简单规则就能刷到6，我要是把这几条简单的规则告诉别人，那别人不都挤到前面，那赛季1不就没意义了？然后还有mj的问题。宣讲的老师说，那你觉得现在极限是多少呢？是7么。mj这种问题都是小问题后来算者说得好，规则确实能做得比较好，怎么结合规则做出更好的模型才是王道，模型不如规则只能说模型做的不够好。这个对我影响还蛮大的，也让我好好反思了一下。我现在靠LR做到6.8，基本也没做规则了，而是想如何用以前淘宝有个做CTR预估的MLR的思路结合商品类目和用户定向做更好的结合规则的LR。我把我python工程环境也发给同实验室的其他组了，在我基础上也有比我做的更高的，具体来说也没太问。今天回贴，也是看到这种情况有所感想。大家去刷规则，把推荐大赛做成overfitting大赛，这样对于自己的提高，或是解决这个实际问题，这样有意义么？我是觉得没有意义的。跟我用同一体系方法的几个队，现在基本都做到6.9 6.8了，大家还是把精力更多放在了如何做更好的模型上。想想最初学的PAC，一个模型如何叫好，train error低，并且train error近似于test error。这样我们才能声称自己的模型学习到了真正的target function f。而目前大家凭着test 来不断调整参数，就算把f1做到天上去，自己的模型只能说train error低了，大赛后也是毫无意义的。算法学到的那个function，也最多只能当作笑谈看到有置顶，真是受宠若惊了。帖子里面说的MLR，是盖坤/靖世在阿里技术沙龙中分享的《海量数据下的非线性模型探索》http://club.alibabatech.org/resource_detail.htm?topicId=106 。这个ppt非常好，我也学到不少。顺便说说的是，在这个比赛中，我也确实学到不少。以前我在做项目的时候，基本是对算法非常迷信的，关系好的豆瓣算法组的一个人批我机器学习理解不成熟，太喜欢炫技，我也左耳朵进右耳朵出。最近做某公司的推荐项目，我基本想都不想，就要上time SVD++做baseline，对数据也基本不做太多分析，对业务也是不屑一顾的，非常依赖feature selection算法以及高维非线性模型。在以前kdd cup或者recsys等比赛中，也是直接上定制化的SVD，把所有数据建模在一个式子里跑SGD草草完事。做阿里比赛最开始我也是没做太多数据分析，直接上的implicit feedback，sigmoid处理正负反馈，time SVD++以及各种复杂的处理方式。与其说是解决问题，不如是说炫技。当然结果也非常惨，只有4%。后来才开始认真思考这个比赛的问题。品牌推荐和普通推荐到底有什么区别？打个比方，用户在一个月后会看自己以前有交互的电影的只有1%。而用户在一个月后会买自己以前有交互的品牌的却有20%。CF着力的是那没有交互行为的80%的品牌。除此外800用户，对用户的factor的估计，还是加入temporal dynamic稀释的，又能有多准呢？所以除了算者说的那些点外，光就这一点基本就可以判定CF在赛季1的不适合了。这样的问题，只要好好想想就能想通的，可笑的是我第一二周还在所谓的“巧妙模型”上花费了大量的力气。这个让我反思了很久。用我室友说我的，便是我太迷信算法了，瞧不起用excel写统计的，也瞧不起做简单数据分析然后跑简单模型的人。这便是我在比赛中获得的教训，也是我和我同实验室的朋友在回家路上所总结的。说实在，这个比赛我也没有太多精力参加，赛季二估计也只能每周花1天来做，毕竟实验室项目太多。所以估计最后也拿不到特别好的名次。但我觉得，这次比赛前几周给我带来的教训，便已经让我非常有收获了，至少我现在对于机器学习算法以及业务关系的理解，和比赛前已经有了很大的不同。我现在是单挑，考虑到赛季2最近也找了一个队友，他貌似有两个小号。我也给他发短信让他回学校后赶快发邮件把这些号注销了并入我的队，毕竟也算占着前500的坑，注销了也让更多的队能进入前500。也希望其他队的朋友也再接再厉，在比赛中真正得到一些领悟和经验。愿大家都能做出更好的推荐，进一步加深对机器学习的理解 ^_^ 顺便给大家讲个竞赛的小段子开心开心=w= “阿里的比赛，有个学弟找我合了下数据，做到38名。他觉得很开心，就跟他导师说了。他导师说，才38名啊，做不到前3名就别参加竞赛丢他脸。听到这事我当时就呵呵了，you can you up，no can no bb。我导师就好多了，他要是知道我在做竞赛而不干活，不管几名肯定把我剁了。”

赞0 踩0 评论0

回答了问题 2014-04-01

新的加入时间信息的数据什么时候更新

Re新的加入时间信息的数据什么时候更新其实很好奇怎么把精确到秒的数据用到算法中哈要对用户行为建模感觉这个粒度也太细了，是要做context based然后分成早中晚么^_^

赞0 踩0 评论0

懒惰啊我_个人页

个人介绍

擅长的技术

阿里大数据竞赛官方交流旺旺群（1205552263）

ODPS大讲堂之概述篇

ODPS学习资料提供下载了0428有更新

淘汰制累感不爱

最有可能夺冠的一批人被排除在外了

淘汰赛制可能不妥的地方

代码提交问题

为什么没人讨论算法？

实名认证显示“待升级”，是否需要升级

代码提交问题

关于代码提交的问题，为何要限制5M

删除ing

调查：第二赛季希望有哪些机器学习的算法包

我对第一赛季的一个建议

LR训练集构造

作弊队伍处罚公告

新的加入时间信息的数据什么时候更新

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

懒惰啊我_个人页

个人介绍

擅长的技术

阿里大数据竞赛官方交流旺旺群（1205552263）

ODPS大讲堂之概述篇

ODPS学习资料提供下载了0428有更新

淘汰制累感不爱

最有可能夺冠的一批人被排除在外了

淘汰赛制可能不妥的地方

代码提交问题

为什么没人讨论算法？

实名认证显示“待升级”，是否需要升级

代码提交问题

关于代码提交的问题，为何要限制5M

删除ing

调查：第二赛季希望有哪些机器学习的算法包

我对第一赛季的一个建议

LR训练集构造

作弊队伍处罚公告

新的加入时间信息的数据什么时候更新