新手入门赛-O2O赛题理解与数据探索(二)|学习笔记

简介: 快速学习新手入门赛-O2O赛题理解与数据探索(二)

开发者学堂课程【天池大赛算法教程及获奖选手答辩新手入门赛-O2O赛题理解与数据探索(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/4996


新手入门赛-O2O赛题理解与数据探索(二)


四:认识数据

用户线下消费和优惠券领取行为

Field——Description

User_id——用户 ID

Merchant_id——商户 ID

Coupon_id——优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_receved 字段无意义

Discount_rate——优惠率:x \in [0,1]代表折扣率;x:y 表示满 X 减 y,单位是元

Distance——user 经常活动的地点离该 merchant 的最近门店距离是 x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null 表示无此信息,0表示低于500米,10表示大于5公里;

Date_received——领取优惠券日期

Date——消费日期:如果 Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用,

即负样本;如果Date!=nuill & Coupon_id = null,则表示普通消费日期;如果 Date!=null & Coupon_id != null,则表示用优惠券消日期,即正样本;

用户线上点击/消费和优惠券领取行为

Field——Description

User_id——用户 ID

Merchant_id——商户 ID

Action——0点击,1购买,2领取优惠券

Coupon_id——优惠券ID:null表示无优惠券消费,此时Discount_rateDate_received字段无意义。“fixed”表示该交易是限时低价活动。

Discount_rate——优惠率:x\in[01]代表折扣率;x:y表示满 x 减 y;fixed”表示低价限时优惠;

Date_received——领取优惠券日期

Date 消费日期:如果Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用;如果Date!=null &Coupon_id = null,则表示普通消费日期;如果Date!=null & Coupon_id !=null,则表示用优惠券消费日期

用户 O2O 线下优惠券使用预测样本

Field——Description

User_id——用户 ID

Merchant_id——商户 ID

Coupon_id——优惠券 ID

Discount_rate——优惠率:x \in [0,1]代表折扣率;x:y 表示满 X 减 y

Distance——user 经常活动的地点离该 merchant 的最近门店距离是 x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null 表示无此信息,0表示低于500米,10表示大于5公里;

Date_received——领取优惠券日期

选手提交表

Field——Description

User_id——用户 ID

Coupon_id——优惠券 ID

Date_received——领取优惠券日期

Probability——15天内用券概率,由参赛选手给出

对提供的数据做一些基本的统计,有助于对赛题理解,可以熟悉业务辽辑,也方便后面的特征工程。
对表1(off_train),回答以下问题:
多少条记录? 1754884
多少条领取优惠券的记录?1053282
多少种优惠券?9738
多少个用户?539438
多少个商户?8415
date_received区间?20160101-20160615
date区间?20160101-20160630

对表3(off_test),回答以下问题:
多少用户与表1有交集?76307/ 76309
多少用户与表2有交集?35965/76309
多少商户与表1有交集?1558/1559
多少优惠券与表1有交集?0/2050

 

五、数据划分

image.png


六、特征工程

(1)用户特征(描述用户的消费偏好
线下特征
用户领取优惠券次数
用户核销率
用户核销优惠券的平均折扣
用户核销过优惠券的商家数量用户进行优惠券核销的平均时间

用户核销优惠券的最大用户-商家距离

线上特征
用户线上行为记录数用户线上点击率
用户线上购买率
用户线上领取率
用户线上核销率

线上-线下特征
用户线下记录占总的记录的比
用户线下核销次数占总的核销次数的比重

2商户特征(描述商户的受欢迎程度及其商品的被消费规律

商户优惠券被领取次数
商户优惠被核销率
商户优惠核销的平均消费折率
核销商户优惠券的用户群大小
商家被核销的不同优惠券数量
商户优惠被核销的平均时间
商户被核销优惠券中的最大用户-商家距离

(3)用户-商户特征(描述用户对特定商户的消费偏好

用户领取特定商家的优惠券次数
用户对特定商家的核销率
用户对该商家的核销次数占用户所有核销次数的比重

(4)Lebel 窗特征

Leakage!

用户当天领取的所有优惠券数目
用户当天领取的特定优惠券的数目
是否第一次/最后一次领取特定优惠券
用户此次领取之后再领取特定优惠券的数目
用户领取了多少个不同商家的优惠券
用户领取优惠券的日期是一周/月的第几天
用户领取的上/下一张优惠券是否与当前优惠券同种商户被领取的惠券数目
商户被多少不同的用户领取过优惠
此类特征在实际业务中是无法获得的!

如何发现leak?

预测集(表3)

user_id

coupon_id

date_received

3644167

11463

20160706

3644167

11463

20160708

3644167

11463

20160710

3644167

11463

20160711

3644167

11463

20160713

训练集(表1)

user_id

coupon_id

date_received

date

994008

4773

20160124

20160126

994008

4773

20160126

20160129

994008

4773

20160129

20160202

994008

13056

20160202

null

994008

12034

20160204

null

最重要的三个特征:

用户当天领取的所有优惠券数目
用户当天领取的特定优惠券的数目
是否第一次/最后一次领取特定优惠券

相关文章
|
自动驾驶 物联网 5G
5G网络的演进:从理论到实践
【10月更文挑战第3天】5G网络作为新一代移动通信技术,不仅在理论上实现了重大突破,而且在实践中也展现出了强大的生命力。本文将围绕5G网络的演进,从理论基础到实际应用,探讨5G技术的发展和实践案例,同时提供代码示例以供参考。
536 6
|
大数据 关系型数据库 数据库
python 批量处理大数据写入数据库
python 批量处理大数据写入数据库
639 0
|
安全 前端开发 测试技术
安全开发-PHP应用&模版引用&Smarty渲染&MVC模型&数据联动&RCE安全&TP框架&路由访问&对象操作&内置过滤绕过&核心漏洞
安全开发-PHP应用&模版引用&Smarty渲染&MVC模型&数据联动&RCE安全&TP框架&路由访问&对象操作&内置过滤绕过&核心漏洞
137 0
|
网络安全 数据安全/隐私保护
银河麒麟v10系统SSH远程管理及切换root用户的操作方法
银河麒麟v10系统SSH远程管理及切换root用户的操作方法
6241 0
|
安全 关系型数据库 MySQL
国产麒麟服务器等保二级 配置规范(一)
国产麒麟服务器等保二级 配置规范(一)
919 0
|
域名解析 缓存 网络协议
关于错误ERR_NAME_NOT_RESOLVED
如果以上方法都未能解决问题,你可能需要联系你的网络管理员或互联网服务提供商以获取更多帮助,或者考虑尝试在不同的网络环境中访问网站。
5301 0
|
开发框架 .NET API
ASP.NET Core 部署到docker
ASP.NET Core 部署到docker
200 0
|
数据采集 算法 前端开发
【MATLAB】 稳健的经验模式分解REMD信号分解算法
【MATLAB】 稳健的经验模式分解REMD信号分解算法
428 0
|
搜索推荐 算法 前端开发
每日好店——淘宝店铺推荐系统实践
每日好店——淘宝店铺推荐系统实践
1288 0
|
资源调度 分布式计算 调度
Fink--3、Flink运行时架构(并行度、算子链、任务槽、作业提交流程)
Fink--3、Flink运行时架构(并行度、算子链、任务槽、作业提交流程)