新手入门赛-O2O赛题理解与数据探索(二)|学习笔记

简介: 快速学习新手入门赛-O2O赛题理解与数据探索(二)

开发者学堂课程【天池大赛算法教程及获奖选手答辩新手入门赛-O2O赛题理解与数据探索(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/4996


新手入门赛-O2O赛题理解与数据探索(二)


四:认识数据

用户线下消费和优惠券领取行为

Field——Description

User_id——用户 ID

Merchant_id——商户 ID

Coupon_id——优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_receved 字段无意义

Discount_rate——优惠率:x \in [0,1]代表折扣率;x:y 表示满 X 减 y,单位是元

Distance——user 经常活动的地点离该 merchant 的最近门店距离是 x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null 表示无此信息,0表示低于500米,10表示大于5公里;

Date_received——领取优惠券日期

Date——消费日期:如果 Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用,

即负样本;如果Date!=nuill & Coupon_id = null,则表示普通消费日期;如果 Date!=null & Coupon_id != null,则表示用优惠券消日期,即正样本;

用户线上点击/消费和优惠券领取行为

Field——Description

User_id——用户 ID

Merchant_id——商户 ID

Action——0点击,1购买,2领取优惠券

Coupon_id——优惠券ID:null表示无优惠券消费,此时Discount_rateDate_received字段无意义。“fixed”表示该交易是限时低价活动。

Discount_rate——优惠率:x\in[01]代表折扣率;x:y表示满 x 减 y;fixed”表示低价限时优惠;

Date_received——领取优惠券日期

Date 消费日期:如果Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用;如果Date!=null &Coupon_id = null,则表示普通消费日期;如果Date!=null & Coupon_id !=null,则表示用优惠券消费日期

用户 O2O 线下优惠券使用预测样本

Field——Description

User_id——用户 ID

Merchant_id——商户 ID

Coupon_id——优惠券 ID

Discount_rate——优惠率:x \in [0,1]代表折扣率;x:y 表示满 X 减 y

Distance——user 经常活动的地点离该 merchant 的最近门店距离是 x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null 表示无此信息,0表示低于500米,10表示大于5公里;

Date_received——领取优惠券日期

选手提交表

Field——Description

User_id——用户 ID

Coupon_id——优惠券 ID

Date_received——领取优惠券日期

Probability——15天内用券概率,由参赛选手给出

对提供的数据做一些基本的统计,有助于对赛题理解,可以熟悉业务辽辑,也方便后面的特征工程。
对表1(off_train),回答以下问题:
多少条记录? 1754884
多少条领取优惠券的记录?1053282
多少种优惠券?9738
多少个用户?539438
多少个商户?8415
date_received区间?20160101-20160615
date区间?20160101-20160630

对表3(off_test),回答以下问题:
多少用户与表1有交集?76307/ 76309
多少用户与表2有交集?35965/76309
多少商户与表1有交集?1558/1559
多少优惠券与表1有交集?0/2050

 

五、数据划分

image.png


六、特征工程

(1)用户特征(描述用户的消费偏好
线下特征
用户领取优惠券次数
用户核销率
用户核销优惠券的平均折扣
用户核销过优惠券的商家数量用户进行优惠券核销的平均时间

用户核销优惠券的最大用户-商家距离

线上特征
用户线上行为记录数用户线上点击率
用户线上购买率
用户线上领取率
用户线上核销率

线上-线下特征
用户线下记录占总的记录的比
用户线下核销次数占总的核销次数的比重

2商户特征(描述商户的受欢迎程度及其商品的被消费规律

商户优惠券被领取次数
商户优惠被核销率
商户优惠核销的平均消费折率
核销商户优惠券的用户群大小
商家被核销的不同优惠券数量
商户优惠被核销的平均时间
商户被核销优惠券中的最大用户-商家距离

(3)用户-商户特征(描述用户对特定商户的消费偏好

用户领取特定商家的优惠券次数
用户对特定商家的核销率
用户对该商家的核销次数占用户所有核销次数的比重

(4)Lebel 窗特征

Leakage!

用户当天领取的所有优惠券数目
用户当天领取的特定优惠券的数目
是否第一次/最后一次领取特定优惠券
用户此次领取之后再领取特定优惠券的数目
用户领取了多少个不同商家的优惠券
用户领取优惠券的日期是一周/月的第几天
用户领取的上/下一张优惠券是否与当前优惠券同种商户被领取的惠券数目
商户被多少不同的用户领取过优惠
此类特征在实际业务中是无法获得的!

如何发现leak?

预测集(表3)

user_id

coupon_id

date_received

3644167

11463

20160706

3644167

11463

20160708

3644167

11463

20160710

3644167

11463

20160711

3644167

11463

20160713

训练集(表1)

user_id

coupon_id

date_received

date

994008

4773

20160124

20160126

994008

4773

20160126

20160129

994008

4773

20160129

20160202

994008

13056

20160202

null

994008

12034

20160204

null

最重要的三个特征:

用户当天领取的所有优惠券数目
用户当天领取的特定优惠券的数目
是否第一次/最后一次领取特定优惠券

相关文章
|
机器学习/深度学习 人工智能 算法
|
算法 数据库 C语言
|
存储 SQL Cloud Native
阿里工程师讲座(二)|学习笔记
快速学习阿里工程师讲座(二)
115 0
阿里工程师讲座(二)|学习笔记
|
存储 缓存 Cloud Native
阿里工程师讲座(三)|学习笔记
快速学习阿里工程师讲座(三)
210 0
阿里工程师讲座(三)|学习笔记
|
存储 Cloud Native 固态存储
阿里工程师讲座(一)|学习笔记
快速学习阿里工程师讲座(一)
254 0
阿里工程师讲座(一)|学习笔记
|
存储 机器学习/深度学习 人工智能
第一课(三)|学习笔记
快速学习第一课(三)
150 0
第一课(三)|学习笔记
|
存储 SQL 算法
第一课(二)|学习笔记
快速学习第一课(二)
116 0
第一课(二)|学习笔记
下一篇
DataWorks