分析背景及目的
这是一份淘宝平台的广告展示/点击数据,本次分析需要从这些数据中发现某些规律或者异常,进而给运营团队提出建议。
评价一个广告效果的指标就是广告的点击人数,可以反映一个广告有多少人愿意点击查看广告的内容,只有广告被点击,后续转化为购买行为才会发生。
把广告的点击人数指标拆分:
广告点击人数=广告展示数 x 点击率
而广告展示数又由广告商品的价格、类别影响;不同人群对不同类别商品有着不同的喜好,从而影响广告的点击率。
在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。
因此本次分析就针对【点击率】这一因素进行分析
分析思路
从“广告”和“用户”两个角度进行分析:
1.广告角度
- 分析不同广告的商品价格对点击率的影响
- 分析哪些类别的广告点击率更高,哪些类别的点击率低
2.用户角度
- 分析性别和广告点击率有什么关系
- 结合聚类分析与RFM模型分析用户群体对广告点击率有什么关系
分析过程
数据清洗
1、数据概览
原始的数据集中包括三类数据,具体数据对应属性如下:
为了方便分析,抽取其中的部分字段作为分析。
从raw_sample数据集中抽取:用户ID、广告ID、是否点击
从ad_feature数据集中抽取:广告ID、类目ID、广告商品价格
从user_profile数据集中抽取:用户ID、年龄层、性别、购物层次
2、数据组合
将三张数据表,组合到一张表中
a=raw_sample.merge(right=ad_feature,on='ad_id',how='left') b=a.merge(right=user_profile,on='user_id',how='left')
得到一张记录了用户-广告信息表
3、缺失值处理
3.1 源数据中还有许多的缺失值,将性别和年龄层字段中为空值的记录删去
3.2 异常值处理
查看广告商品价格字段的属性值范围:
发现最大值为100000000.0元,价格过大,属于异常值,删去
再次查看价格字段的属性值范围:
还是存在数据值过大的异常值,为了方便分析对价格字段进行切分,选取更贴近日常生活的价格在1000元以内的广告记录进行分析
切片之后仍保留了751570条记录
4、数据字段整合
对于广告商品价格字段,每个广告的商品都有各自的价格,根据价格字段不便于进行统计。新增一个字段“price_class”代表价格的区间。
(0-价格在0-100元、1-100-200元、2-200-300元...)
结合图表分析
1、分析不同广告商品价格对点击率的影响
①将广告商品价格分类
将广告按价格分为100元以下、200元以下、300元以下等10类,并计算不同价格区间中广告的点击率情况。
从图中发现,所有价格区间商品的点击率都在5%左右,其中广告商品价格在100元以下的广告点击率最高,为5.92%;
看到价格较低的广告商品点击率更高,我们一般认为是对价格敏感的浅层用户(免费用户)在这方面的点击率更高,而拥有一定消费行为和消费意识的中层、深层用户(付费用户)则更在意购物时的体验以及商品的质量。
为了验证以上说法,我们先假设100元以内的广告商品主要的点击对象是浅层用户,再通过数据验证。
② 分析100元以内广告商品点击率的用户组成
查看点击了100元以内的广告商品的用户的用户组成
从用户分布可以看出,在点击了100元以内广告商品的用户中,深度用户的比例更高,占比81.6%,而浅层用户的占比则相对少很多。这推翻了我们原来的假设。
小结:
- 17年5月6日至17年5月12日这8天里的广告点击率理想,但由于缺乏去年同期、今年上月的数据,不足以判断5%左右的广告点击率是否是一个正常水平,有待更多数据验证。
- 低价广告商品点击率更高,且点击用户中绝大多数是深度用户。建议:可以把这个数据反应给广告投放部门,在这个区域优先投放广告,既可以对浅层用户进行流量变现又能让广告让更多具有消费意愿的中、深层用户看见。