备案控制台

开发者社区云计算文章正文

set hive.map.aggr=true 时统计PV数据错误

2015-08-20 1560

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从一个表里group by 之后计算累加值、去重值: 为了效率设置并行：set hive.exec.parallel=true（可选：set hive.exec.parallel.thread.number=16）、set hive.

从一个表里group by 之后计算累加值、去重值:

为了效率设置并行：set hive.exec.parallel=true（可选：set hive.exec.parallel.thread.number=16）、set hive.groupby.skewindata=true、set hive.map.aggr=true

select plat, pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat, pagetype
union all
select plat, 'all' pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat
union all
select 'all' plat, pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by pagetype
union all
select 'all' plat, 'all' pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19'

坏就坏在：set hive.map.aggr=true，map端聚合的设置；

出来的pv数跟真实值对不上；

改成下边代码运行正确；

select plat, pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat, pagetype
union all
select plat, 'all' pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat
union all
select 'all' plat, pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by pagetype
union all
select 'all' plat, 'all' pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19'

关键词：

Hive数据

Set统计

Hive统计数据

安铭

目录

相关文章

诸葛子房

|

5月前

|

SQL 分布式计算 Hadoop

创建hive表并关联数据

创建hive表并关联数据

诸葛子房

38 0 0

javaedge

|

7月前

|

SQL Java 大数据

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

javaedge

243 1 1

我是廖志伟

|

7月前

|

SQL 存储分布式数据库

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

我是廖志伟

113 0 0

Byyyi

|

8天前

|

SQL 数据采集存储

Hive实战 —— 电商数据分析(全流程详解真实数据)

关于基于小型数据的Hive数仓构建实战，目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表，涉及多个维度的聚合和分析，如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境，然后通过Hive进行数据清洗、建表和分析。在建表过程中，涉及ODS、DWD、DWT、DWS和DM五层，每层都有其特定的任务和粒度。最后，通过Hive SQL进行各种业务指标的计算和分析。

Byyyi

28 1 1

Hive实战 —— 电商数据分析(全流程详解真实数据)

三分钟热度的鱼

|

3月前

|

SQL 消息中间件 Kafka

Flink部署问题之hive表没有数据如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

三分钟热度的鱼

47 1 1

Jast

|

5月前

|

SQL 消息中间件存储

案例:Flume消费Kafka数据保存Hive

案例:Flume消费Kafka数据保存Hive

Jast

76 0 0

sunrr

|

5月前

|

SQL 分布式计算 MaxCompute

Apache Flink目前不支持直接写入MaxCompute，但是可以通过Hive Catalog将Flink的数据写入Hive表

Apache Flink目前不支持直接写入MaxCompute，但是可以通过Hive Catalog将Flink的数据写入Hive表

sunrr

62 3 3

大数据流动

|

6月前

|

SQL 分布式计算数据管理

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

大数据流动

78 0 0

阿甘兄

|

6月前

|

SQL HIVE

58 Hive案例（访问时长统计）

58 Hive案例（访问时长统计）

阿甘兄

33 0 0

阿甘兄

|

6月前

|

SQL HIVE

57 Hive案例（数据ETL）

57 Hive案例（数据ETL）

阿甘兄

33 0 0

热门文章

最新文章

Hive架构优点及使用场景

Hive之数据倾斜的原因和解决方法

原来MaxCompute还能这么玩系列（2）—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

HIVE的安装配置、mysql的安装、hive创建表、创建分区、修改表等内容、hive beeline使用、HIVE的四种数据导入方式、使用Java代码执行hive的sql命令

17.4. HiveQL - Hive查询语言

Hadoop Hive概念学习系列之hive里的桶（十一）

hive0.13用户自建表无权限bug fix

hive导入nginx日志

hive升级至0.11 partition schemal问题

Hive partition prune的一个Bug

在使用`Vue.$set`方法时，需要注意哪些事项？

Java并发 - J.U.C并发容器类 list、set、queue

ES6之Set集合(通俗易懂，含实践)

常用集会算法set_intersection讲解

带用集合算法set union讲解

常用集会算法-set_dlifference讲解

set容器一自定义数据类型指定排序规则讲解

set容器-内置类型指定排序规则讲解

set容器-构造和赋值讲解

set容器-set和multiset区讲解

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

相关实验场景

更多

使用Count功能批量创建资源

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）