开发者学堂课程【天池大赛算法教程及获奖选手答辩:新手入门赛-O2O赛题理解与数据探索(二)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/389/detail/4996
新手入门赛-O2O赛题理解与数据探索(二)
四:认识数据
用户线下消费和优惠券领取行为
Field——Description
User_id——用户 ID
Merchant_id——商户 ID
Coupon_id——优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_receved 字段无意义
Discount_rate——优惠率:x \in [0,1]代表折扣率;x:y 表示满 X 减 y,单位是元
Distance——user 经常活动的地点离该 merchant 的最近门店距离是 x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null 表示无此信息,0表示低于500米,10表示大于5公里;
Date_received——领取优惠券日期
Date——消费日期:如果 Date=null & Coupon_id != null
,该记录表示领取优惠券但没有使用,
即负样本;如果Date!=nuill & Coupon_id = null
,则表示普通消费日期;如果 Date!=null & Coupon_id != null
,则表示用优惠券消日期,即正样本;
用户线上点击/消费和优惠券领取行为
Field——Description
User_id——用户 ID
Merchant_id——商户 ID
Action——0点击,1购买,2领取优惠券
Coupon_id——优惠券ID:null表示无优惠券消费,此时Discount_rate
和Date_received
字段无意义。“fixed”表示该交易是限时低价活动。
Discount_rate
——优惠率:x\in[0,1]代表折扣率;x:y表示满 x 减 y;“fixed”表示低价限时优惠;
Date_received——领取优惠券日期
Date 消费日期:如果Date=null & Coupon_id != null
,该记录表示领取优惠券但没有使用;如果Date!=null &Coupon_id = null
,则表示普通消费日期;如果Date!=null & Coupon_id !=null
,则表示用优惠券消费日期
用户 O2O 线下优惠券使用预测样本
Field——Description
User_id——用户 ID
Merchant_id——商户 ID
Coupon_id——优惠券 ID
Discount_rate——优惠率:x \in [0,1]代表折扣率;x:y 表示满 X 减 y。
Distance——user 经常活动的地点离该 merchant 的最近门店距离是 x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null
表示无此信息,0表示低于500米,10表示大于5公里;
Date_received——领取优惠券日期
选手提交表
Field——Description
User_id——用户 ID
Coupon_id——优惠券 ID
Date_received——领取优惠券日期
Probability——15天内用券概率,由参赛选手给出
对提供的数据做一些基本的统计,有助于对赛题理解,可以熟悉业务辽辑,也方便后面的特征工程。
对表1(off_train),回答以下问题:
多少条记录? 1754884
多少条领取优惠券的记录?1053282
多少种优惠券?9738
多少个用户?539438
多少个商户?8415
date_received区间?20160101-20160615
date区间?20160101-20160630
对表3(off_test),回答以下问题:
多少用户与表1有交集?76307/ 76309
多少用户与表2有交集?35965/76309
多少商户与表1有交集?1558/1559
多少优惠券与表1有交集?0/2050
五、数据划分
六、特征工程
(1)用户特征(描述用户的消费偏好)
线下特征
用户领取优惠券次数
用户核销率
用户核销优惠券的平均折扣
用户核销过优惠券的商家数量用户进行优惠券核销的平均时间
用户核销优惠券的最大用户-商家距离
线上特征
用户线上行为记录数用户线上点击率
用户线上购买率
用户线上领取率
用户线上核销率
线上-线下特征
用户线下记录占总的记录的比
用户线下核销次数占总的核销次数的比重
(2)商户特征(描述商户的受欢迎程度及其商品的被消费规律)
商户优惠券被领取次数
商户优惠券被核销率
商户优惠券核销的平均消费折率
核销商户优惠券的用户群大小
商家被核销的不同优惠券数量
商户优惠券被核销的平均时间
商户被核销优惠券中的最大用户-商家距离
(3)用户-商户特征(描述用户对特定商户的消费偏好)
用户领取特定商家的优惠券次数
用户对特定商家的核销率
用户对该商家的核销次数占用户所有核销次数的比重
(4)Lebel 窗特征
Leakage!
用户当天领取的所有优惠券数目
用户当天领取的特定优惠券的数目
是否第一次/最后一次领取特定优惠券
用户此次领取之后再领取特定优惠券的数目
用户领取了多少个不同商家的优惠券
用户领取优惠券的日期是一周/月的第几天
用户领取的上/下一张优惠券是否与当前优惠券同种商户被领取的优惠券数目
商户被多少不同的用户领取过优惠
(此类特征在实际业务中是无法获得的!)
如何发现leak?
预测集(表3)
user_id |
coupon_id |
date_received |
3644167 |
11463 |
20160706 |
3644167 |
11463 |
20160708 |
3644167 |
11463 |
20160710 |
3644167 |
11463 |
20160711 |
3644167 |
11463 |
20160713 |
训练集(表1)
user_id |
coupon_id |
date_received |
date |
994008 |
4773 |
20160124 |
20160126 |
994008 |
4773 |
20160126 |
20160129 |
994008 |
4773 |
20160129 |
20160202 |
994008 |
13056 |
20160202 |
null |
994008 |
12034 |
20160204 |
null |
最重要的三个特征:
用户当天领取的所有优惠券数目
用户当天领取的特定优惠券的数目
是否第一次/最后一次领取特定优惠券