【甘道夫】使用HIVE SQL实现推荐系统数据补全

简介:
需求
在推荐系统场景中,假设基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果非常可能达不到要求的数量。
比方,希望针对每一个item或user推荐20个item,可是通过计算仅仅得到8个。剩下的12个就须要补全。

欢迎转载,请注明出处:
http://blog.csdn.net/u010967382/article/details/39674047

策略
数据补全的详细策略是:
  • 补全时机:在挖掘计算结束后,挖掘结果导入HBase(终于web系统从HBase取数据)前。进行数据补全,补全后的数据再导入HBase。(还有另外一个可选时机,在接到请求后再在程序中实现补全,但这种效率肯定没有直接从HBase中读数的高,所以空间换时间是更为合理的策略);
  • 实现技术:补全过程基于HIVE实现;
  • 补全数据:測试过程使用当前浏览item同分类下近一段时间的浏览量TopN;
  • 測试场景:本文仅针对“看了又看”进行数据补全实验。其他推荐需求类似。


实验过程

1.首先在Oracle下调试SQL
调试过程涉及两张表:
(1)TEST_TOPN:

该表中每行代表了一个item在某一天的訪问量。 

(2) TEST_X_AND_X:
 
该表中每行代表了针对每个item的看了又看的item及其訪问量。
我们的目的。就是将该表补全,针对每一个current_item都要有5个看了又看的item。

比方,针对10001号item,须要从it分类下取得top2填补到该表中来。


Oracle中通过下面SQL成功实现该目的:
select * from 
(select row_number() over(partition by current_item_category,current_item_id order by source,view_count desc) no,
current_item_id, current_item_category, andx_item_id, source, view_count  from
(select  current_item_id, current_item_category, andx_item_id, 1 source, view_count 
 from test_x_and_x
union 
select a.current_item_id,a.current_item_category,b.item_id,2,b.view_count
 from 
 (select current_item_id,current_item_category from test_x_and_x
  group by current_item_id,current_item_category) a, test_topn b
 where a.current_item_category = b.item_category
)) where no<=5 

注意:当中的source列用于标识数据来自原始表还是TOPN,全部TOPN的表数据都排在原始表数据之后。


2. 将Oracle中的SQL语句移植到HIVE中
成功移植的HIVE SQL:
select * from
(select rank() over(partition by c.current_item_category,c.current_item_id order by c.source,c.view_count desc) no,
c.current_item_id, c.current_item_category, c.andx_item_id, c.source, c.view_count
from
(select current_item_id,current_item_category,andx_item_id,1 source,view_count
 from test_x_and_x
union all
select a.current_item_id current_item_id,a.current_item_category current_item_category,b.item_id andx_item_id,2 source,b.view_count view_count
 from
 (select current_item_id,current_item_category from test_x_and_x
  group by current_item_id,current_item_category) a, test_topn b
 where a.current_item_category = b.item_category) c
) d where d.no <= 5;

运行结果和Oracle中全然一致:


移植过程中遇到一些坑。特此记录:
  1. HIVE仅仅支持union all,不支持union。
  2. union all的两张表。不仅要相应字段数据类型同样,字段名(可使用列别名)也必须全然同样;
  3. 每个嵌套子查询的结果集都必须使用表别名!




本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/5179383.html,如需转载请自行联系原作者
相关实践学习
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
19天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL隐式游标:数据的“自动导游”与“轻松之旅”
【4月更文挑战第19天】Oracle PL/SQL中的隐式游标是自动管理的数据导航工具,简化编程工作,尤其适用于简单查询和DML操作。它自动处理数据访问,提供高效、简洁的代码,但不适用于复杂场景。显式游标在需要精细控制时更有优势。了解并适时使用隐式游标,能提升数据处理效率,让开发更加轻松。
|
1天前
|
SQL API 数据库
在Python中获取筛选后的SQL数据行数
在Python中获取筛选后的SQL数据行数
10 1
|
2天前
|
SQL 分布式计算 数据可视化
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
|
2天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
15 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
8天前
|
SQL 机器学习/深度学习 数据采集
数据分享|SQL Server、Visual Studio、tableau对信贷风险数据ETL分析、数据立方体构建可视化
数据分享|SQL Server、Visual Studio、tableau对信贷风险数据ETL分析、数据立方体构建可视化
|
8天前
|
SQL Oracle 关系型数据库
利用 SQL 注入提取数据方法总结
利用 SQL 注入提取数据方法总结
|
8天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之在DataWorks的数据开发模式中,在presql和postsql中支持执行多条SQL语句如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
37 1
|
9天前
|
SQL 机器学习/深度学习 算法
SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据
SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据
|
10天前
|
SQL 机器学习/深度学习 数据挖掘
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
|
13天前
|
SQL Java 数据库
java代码中调用dao层查询接口,代码没有返回数据,打印出的sql查出了数据
java代码中调用dao层查询接口,代码没有返回数据,打印出的sql查出了数据
16 1

热门文章

最新文章