2018年阿里妈妈搜索广告转化预测

简介:

了解数据

提供了user,item,context,shop相关的数据
instance_id不作为特征,但是能看出来,实际上有重复instance_id的数据
item_id 全数据要比train多,说明有新品,这些新品的点击率要靠其他商品信息做参考
item_property_list 要分解之后,总共就三段应该不用分解了。
item_brand_id全数据依然多
item_city_id测试数据集中多两个
[查]item_price_level 测试集要比训练集要少,多的这部分可能是没用的。要不要看看有没有成交记录?这个不一定要删除,如果分桶的话,就无所谓了。
shop_id,全数据比训练数据高,说明有122家新店。
[查]shop_review_num_level 评价数量等级,这个也没有。
不同性别的成交率,男的成交率要高
755e25b655ca6e7675077b7444656c962fa9eb8f

比赛提供了七天数据,预测后一天的数据。

f0ad243adf63b1dbaac92bc7567eddb94db72fbe

看一下,数据分布的情况,其中instance_id按照定义是不应该有重复的情况的,从数据看来提供的样本中有instance_id重复的数据。下表观察其他特征,可以看出有部分特征的值数据在训练集中包含,但是在测试集中并没有对应的项目,考虑这部分数据处理掉。

a1db4705ab717d307b763a79473f6ff2744ccb16

价格区间在16,17的样本,只在训练集中出现,测试机没有出现,而且,量不大,考虑删掉。

7c9159a3800f1ed887f10db7e0ecf057c81509e3

可以看出:

 ●  成交量比较少的转化率会显得稍高,成交量比较高商品集中在6-8价格区间,转化率在1.5%左右。

 ●  价格区间在10以上的,没有成交记录。

d64b287d259197b5a83c7c4664dad8c8a4360b39

点击次数和成交的关系,日期的分布,得到日期的分组,初赛是平日转化率预估,复赛是特殊日期的转化率预估。

22fa030e5c3844f0d4facc9c18c8f2e2eae57dca
 ●  根据上面这个结果看的话,训练数据应该选[2,3,4,6,7]
 ●  假设,1是周一,2是周2,3是周3,周一,和周五有相对较多的点击次数,这样应该是。需要预测的那一天应该是周一,会是图1的趋势。
 ●  这个数据说明,点击率超过3次,基本不会买,正常会买的点击次数在三次以内。

2. 数据预处理

 ●  去除重复值,点击记录的重复值

 ●  数据拼接,训练和测试数据整合在一起,一起做特征。

 ●  连续值类型,标准化

 ●  price_level在测试集中出现了两个比较大的数据,16,17,删掉

 ●  price_level在10以上的没有成交数据

3. 特征工程

[天]同一个用户点击的数量
[天]同一个商品被点击的数量
[天,小时]历史转化率
[全] 性别的处理,按照成交比例添加在数据中
[天] collected level的成交率,按照每天的统计。这个参数应该和day没有关系,短时间内的平均水平决定了这个参数。
价格-成交率统计特征
时间特征,每个小时的成交率
相关系数,collected_level和sales_level两个特征差不多,age。star,occupation可以推出gender
缺失值分析:
tem_city_id, shop_review_positive_rate,如果存在缺失,没有成交记录
item_sales_level如果有缺失,成交几率很低
Item_id,shop_id前者包含了后者信息
一天内同一个user在一个店铺点击不会超过3次,超过3次不会购买。
做了数据星期假设,总共给了一周的数据,而这些数据应该是和星期有关系的。确定需要预测的趋势是周一。

原文发布时间为:2018-09-25
本文来自云栖社区合作伙伴“ 大数据挖掘DT机器学习”,了解相关信息可以关注“ 大数据挖掘DT机器学习”。
相关文章
|
27天前
|
机器学习/深度学习 人工智能 搜索推荐
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
71 1
|
数据采集 安全 搜索推荐
谷歌关键词无展现是什么原因?
答案是:因为你做的外链或内容都只是你觉得所谓的“优质”。 竞价过低 为了在Google广告中展示,你需要为关键词出价。 如果你的竞价过低,那么你的广告可能无法展示。 与竞争对手比较 查看竞争对手的出价,并考虑适当调整自己的出价以获得更好的展示机会。 考虑品质分数 Google不仅仅根据出价决定广告的展示,品质分数也是一个重要的因素。 提高品质分数可以在较低的出价下获得更多的展示机会。
97 0
谷歌关键词无展现是什么原因?
|
数据采集 安全 搜索推荐
谷歌长尾关键词分析怎么做?
答案是:谷歌关键词分析可以用Semrush工具来进行。 长尾关键词在谷歌SEO中具有关键作用,它们通常更具针对性,比竞争对手的关键词更容易排名。 了解如何正确地找到和利用这些关键词可以为您的网站带来显著的流量增长。 确定目标市场 首先,了解您的受众是关键。 通过市场调查和用户行为分析,确定他们的需求、疑问和痛点。 这样,您就可以找到与这些需求、疑问和痛点相关的长尾关键词。
108 0
谷歌长尾关键词分析怎么做?
|
搜索推荐 SEO
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
277 0
|
数据可视化 前端开发 Python
基于搜索指数可视化分析近十年的中秋热度
基于搜索指数可视化分析近十年的中秋热度
171 0
基于搜索指数可视化分析近十年的中秋热度
|
JSON 安全 搜索推荐
利用搜索指数窥探舆情
利用搜索指数窥探舆情
451 0
利用搜索指数窥探舆情
|
Kubernetes 搜索推荐 Java
电子商务搜索基准
电子商务搜索基准是第一个具有个性化推荐的电子商务搜索系统的端到端应用基准。这项工作与詹建峰教授合作(http://www.benchcouncil.org/zjf.html)'的团队,他也是国际开放基准委员会(BenchCouncil,http://www.benchcouncil.org/)的主席。
电子商务搜索基准
|
前端开发 JavaScript 搜索推荐
如何正确的使用百度精准搜索
如何正确的使用百度精准搜索
542 0
|
自然语言处理 算法 知识图谱
电商搜索如何“想用户所想,提高搜索结果质量”?
本文针对电商搜索中如何“想用户所想,提高搜索结果质量”的问题进行剖析,并通过阿里云开放搜索电商行业解决方案和大家聊一聊如何优化解决~
3907 0
电商搜索如何“想用户所想,提高搜索结果质量”?
|
自然语言处理 搜索推荐 算法
如何快速实现精准的个性化搜索服务
用户行为数据如何实时的应用在搜索服务中那? 怎样在1天内就可实现【精准的个性化搜索系统】搭建那? 今天小编将通过【阿里云开放搜索】中的三大“个性化搜索算法模型”给大家详细介绍,希望给予您更多解决思路~
16240 0
如何快速实现精准的个性化搜索服务