开发者社区> 问答> 正文

谁说这道题太难玩?看完师哥秘籍,你再试试?

《淘宝穿衣搭配算法》于上周正式启动评测,在与选手们的交流中,不少同学也提到本道颇有难度,于是,天池师哥整理了一些关于这道赛题的建议及以往的经验总结,希望能够给同学们一点启发。


淘宝作为国内最大的电商平台,其中所蕴含的业务逻辑往往也是十分复杂的。本次比赛的题目是由淘宝推荐算法团队在淘宝业务中抽象出来,选手在比赛中面对的场景也是淘宝算法同学所面对的场景。做data science,不必担心场景多复杂,门槛多高,只要有大规模的数据,计算资源,就有data science发挥的空间。穿衣搭配是很新颖的课题,部分同学看到比赛的数据和题目会感到新鲜又陌生,这也意味着比赛更好玩,更具有挑战,选手做比赛过程中的收获也更大。


以下为几点建议,仅针对于思路不清晰的同学:


1)注重数据分析,理解业务
在做比赛前可先对数据做一些简单的统计,加深对数据及所对应业务的理解,多实践,寻找一些可突破的点,这也是做特征工程前重要的工作。


2)优化代码,快速迭代
快速迭代可以加快算法优化的效率,选手可线下自己划分训练集,测试集,建立线下评测逻辑。FAQ中可知赛题在选取test_items时对商品类目进行了过滤,选手可按照逻辑在dim_fashion_matchsets中选取线下test_items,划分线下训练集测试集,通过搭配关系构造答案集。注意逻辑正确,否则容易造成线上线下效果相差很大,过拟合等情况。


3)合适模型,由简入繁
可从不同角度对问题进行分析,由简单入手,逐渐建立合适的模型,用好类目,行为,terms等文本信息,再进行图像信息的挖掘,或组内分工完成。例如常用的分类模型,LR,决策树,随机森林等,可将每个搭配pair当作正样本,选取负样本,提取特征,进行训练预测。同时看到用户行为数据可能会想到商品间的协同过滤,关联规则挖掘,看到terms可能会想到文本挖掘的方法,tf-idf,word2vec,主题模型等,看到图像数据可进行特征抽取,CNN等。希望同学们可以不局限于以上提到的模型和思路,多多实践,创新出优质的算法模型。


4)团队合作,多多交流
注重团队合作,组内合理分工,规划时间节点,组间相互交流,共同提升。


作为也曾经参加过比赛的师哥,还有一些心得:坚持做一次完整比赛,遇到问题不退缩,不断学习挑战克服困难,解决比赛中遇到的种种问题,一定会使自己的算法能力和工程能力都有很大的提升,同时也可以结识很多志同道合的朋友。做比赛,是一段非常难忘的经历,也是在学校了解业界的捷径。只要肯坚持努力,一定会收获很多!
最后预祝各位同学在比赛的过程中可以提升能力,结识同道中的朋友,取得好成绩。最重要的,玩的开心~




来自天池师哥
2015/9/29

展开
收起
凝岚 2015-09-29 16:25:24 12669 0
1 条回答
写回答
取消 提交回答
  • Re谁说这道题太难玩?看完师哥秘籍,你再试试?
    2015-09-29 21:46:16
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
超全算法笔试 模拟题精解合集 立即下载
超全算法笔试-模拟题精解合集 立即下载
图解算法小抄 立即下载