开发者社区> 问答> 正文

天猫推荐算法大赛Top 9 Give 访谈


Give,来自浙江大学计算机学院数字媒体与企业智能计算实验室,浙大直博生。7月29号的F1成绩是6.10%,结合评委打分,最后排名第9。

CSDN:请描述你的解题思路、算法亮点以及着重攻坚方向,并具体的谈一下特征抽取、训练模型的建立,以及模型的训练思想。
Give:
解题思路:从用户的历史行为中提取特征,下一个月有购买分为类别1,未购买分为类别0。
1. 数据预处理:通过对数据进行仔细观察,发现原始数据中有两天的点击数据全部丢失,其他日期内也有部分点击数据的丢失,推测原因可能是点击的时候用户未登录,或者是在手机等设备中点击导致数据丢失。我们根据用户以往的行为记录和品牌以往的行为记录,推测用户在购买前的点击次数,对这部分的缺失数据进行填充。此外还对点击狂魔(疑似爬虫)数据进行了平滑。由于我们是在特征提取前对原始数据进行的数据预处理,因此在特征提取阶段保证了数据的一致性。

2. 特征提取:提取的方式采用map-reduce编写的代码一次提取完成,避免频繁的使用SQL进行表连接。特征包括用户特征、品牌特征、用户-品牌特征和综合类特征。用户特征反应了用户的购买力和一些行为偏向;品牌特征反应了品牌的热门程度、周期性、季节性、购买趋势以及品牌整体的行为偏向;用户-品牌特征反应了用户对这个品牌喜爱程度、购买意向;复合类特征考虑了很多心理学和业务上的特点,建立行为转移、周期、偏好等复杂的特征。
3. 正负样本采样:所有的用户-品牌特征组中,在下一个月产生了购买的比例极小(1:300+),样本分布严重不均衡,因此对负样本进行了随机采样。不同模型的最佳采样比例会有区别,RF采样比在1:8左右,GBRT采样比在1:11~1:14左右。
4. 模型:最终采用的是GBRT模型,模型思想是Boosting,Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。
着重攻坚方向


    在这次比赛中,花费时间最多的是特征的提取,考虑什么样的用户会购买,什么样的品牌会被购买,什么样的行为预示用户会购买一个品牌。
    算法亮点


      1. 数据预处理步骤填充了缺失的点击数据,并且填充的值是根据用户和品牌的历史行为进行填充,尽可能还原了真实的行为。
      2. 由于本人是资深的网购爱好者,因此从自身的经验和用户心理出发,思考了一批结合业务的特征,包括行为转移、周期、偏好等。
      CSDN:谈谈比赛感想。
      Give对研究数据挖掘、信息检索等领域的很多研究者来说,数据是非常珍贵的,但是对于还在高校的人,数据是很难获得的,现有的一些公开数据集,规模上一般也都比较小。阿里巴巴拥有海量商品、卖家、用户、交易、评价的数据,这些数据是很多从事数据挖掘方面研究者梦寐以求的。经历了几个月的比赛,不论是在学术研究水平上还是心理上都有了巨大的成长。天池平台给我们这些在校的学生提供了一个很好的机会去真正接触大数据,使得我们的研究思路能够在真实的数据中进行检验。这次比赛也让我懂得了在逆境中的坚持:当第一赛季眼看要进不了第二赛季的时候,我坚持了下来;在第二赛季成绩半个多月没有进展的时候,我也坚持了下来;在换数据集前还徘徊在10名之外,但是在最后7天,一个人熬夜奋战,又冲回到了前10。
      CSDN:ODPS使用感受,优点及建议。
      Give优点:ODPS提供了丰富的机器学习算法,还有强大的计算能力。建议:(1)ODPS平台资源调度优化:小任务能保证在一定时间内可以分配到资源;大任务可以运行慢一些,但是保证不会报错中途停止;以团队为单位限制资源使用量。(2)错误提示信息可以更人性化。

      展开
      收起
      夜之魅 2014-08-29 17:38:29 12630 0
      5 条回答
      写回答
      取消 提交回答
      • 看看~
        2014-09-01 22:21:01
        赞同 展开评论 打赏
      • 女生啊~~
        让男人们汗颜啊
        2014-08-31 13:57:33
        赞同 展开评论 打赏
      • 看看
        2014-08-30 18:19:59
        赞同 展开评论 打赏
      • 回2楼小猪猪的帖子
        嗯,今天购买了手机,接下来应该推荐手机配件   
        2014-08-30 09:50:59
        赞同 展开评论 打赏
      • 看不懂
        2014-08-29 17:53:07
        赞同 展开评论 打赏
      问答排行榜
      最热
      最新

      相关电子书

      更多
      数据+算法定义新世界 立即下载
      袋鼠云基于实时计算的反黄牛算法 立即下载
      Alink:基于Apache Flink的算法平台 立即下载