开发者社区> 问答> 正文

天猫推荐算法大赛Top 1 团队Marvel 访谈

Marvel,取其英文含义,奇迹。Marvel团队目前有两名队员,分别来自北京航空航天大学和中国科学院大学,F1得分为6.21。


CSDN:请描述你的解题思路、算法亮点以及着重攻坚方向,并具体的谈一下特征抽取、训练模型的建立,以及模型的训练思想。


Marvel
解题思路:根据用户4个月在天猫的行为日志,预测用户u在将来一个月是否会购买某个品牌b。从而将问题转化为一个分类问题来解决。
算法亮点:在分类模型的选择上,我们除了使用阿里巴巴Xlab中提供的GBRT、RF、LR等模型外,还基于ODPS实现了神经网络算法。
特征提取:在特征提取过程中,我们是基于对业务的理解和对数据的分析来提取特征。特征分为四大类:行为特征、品牌特征、用户特征和交叉特征。
  • 行为特征主要描述一个用户u对某个品牌b的操作历史,如操作次数、操作间隔等。行为特征提取过程中会考虑时间衰减。
  • 品牌特征主要描述一个品牌的属性,如品牌的热度、销量、转化率。
  • 用户特征则描述了用户的属性,如用户的活跃程度、用户转化率等。
  • 交叉特征是基于前三类特征构造出来的新特征。例如用ub对的点击次数除以该用户u的点击次数,刻画了用户u对品牌b的偏爱程度。


训练集的构造:由于feature区间和label区间的分界点的选择对模型训练有影响,我们采用滑窗的方式构造训练集。滑动了4个小集合,这四个小集合merge起来构成训练集(见图片)。

模型的训练思想:
由于这个问题中正负样本比例悬殊,我们使用了级联的思想过滤掉大量的样本来提升训练速度,同时也提升了模型准确率。在第一级选用训练和预测速度都较快的逻辑回归模型,过滤掉>80%的样本。在第二级选用拟合能力更强的GBRT、RF、神经网络等非线性模型。最后选用神经网络将第二级的非线性模型融合起来。
CSDN:谈谈比赛感想。
Marvel通过这次比赛,我们接触到了真实的大数据,探索如何在分布式环境下做数据分析、特征提取和模型训练。每天起来查成绩、想着如何优化算法已经成为我们学习生活中的重要组成部分。期待第三赛季!
CSDN:ODPS使用感受,优点及建议。
MarvelODPS操作方法和Hadoop较为类似,同学们可以很快上手。从第二赛季前期排行榜的变化也可以看出,很多同学在一到两周的时间内就可以完成在ODPS上特征提取和模型训练。
ODPS的优点在于对离线的结构化数据提供了多种易用的操作接口。可以使用SQL语言操作数据,可以编写MapReduce程序来进行复杂的计算,也可以通过xlab提供的现成方法对数据进行各种统计和模型训练。

展开
收起
夜之魅 2014-08-29 17:29:02 23562 0
17 条回答
写回答
取消 提交回答
  • Re天猫推荐算法大赛Top1团队Marvel访谈
        
    2014-11-22 17:02:11
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    学习
    2014-10-28 11:03:14
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    牛逼,必须来膜拜一下
    2014-10-28 02:49:56
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈

    2014-10-27 20:02:31
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    充分表明大数据时代数据分析团队人不在多,在精!
    2014-09-19 11:29:29
    赞同 展开评论 打赏
  • 学习
    2014-09-15 18:33:51
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    能在学生时代就参加这种比赛,就已经跑在同龄人前面了
    我一直觉得在大学里能从参加的活动尽量都参加,不然四年就稀里糊涂过去了
    2014-09-15 16:40:18
    赞同 展开评论 打赏
  • 顶一个~
    2014-09-01 22:23:53
    赞同 展开评论 打赏
  • 学习一下
    2014-09-01 16:28:46
    赞同 展开评论 打赏
  • 很想知道这次比赛,天猫是拿自己的真实数据出来的吗?
    2014-09-01 12:35:24
    赞同 展开评论 打赏
  • 很牛逼的样子。。。。

    -------------------------

    顶一个~

    -------------------------

      

    2014-09-01 09:37:35
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    还没用过ODPS,看来要尝试一下了
    2014-08-31 17:20:09
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    必须来膜拜一下
    2014-08-30 16:27:38
    赞同 展开评论 打赏
  • Re天猫推荐算法大赛Top1团队Marvel访谈
    来膜拜一下
    2014-08-30 00:46:19
    赞同 展开评论 打赏
  • LT是个伪程序员
    顶一个~
    2014-08-29 22:53:06
    赞同 展开评论 打赏
  • 看不懂,默默飘过。
    2014-08-29 20:08:11
    赞同 展开评论 打赏
  • 牛逼,必须来膜拜一下
    2014-08-29 17:49:27
    赞同 展开评论 打赏
滑动查看更多
问答排行榜
最热
最新

相关电子书

更多
数据+算法定义新世界 立即下载
袋鼠云基于实时计算的反黄牛算法 立即下载
Alink:基于Apache Flink的算法平台 立即下载