文档备案控制台

开发者社区大数据文章正文

Hive之count(distinct xxx)优化写法

2022-05-19 1402

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 笔记

先看一道某互联网公司的面试题：

题目描述

计算每个省份的买家数的sq代码如下:

select
    province 
    ,count(distinct buyer_id)
from orders
where dt = '20211012'
group by province

假设 orders表很大，每天有5千万订单，这个代码会有哪些问题，应该如何处理或者改写代码？

解答：这种写法逻辑上没问题，而它的底层引擎是mapreduce，是分布式计算的，但是在实际业务中如果数据量过大，相同重复的key过多的情况，所以自然会出现数据倾斜这种分布式计算的典型问题，这可能会导致某一个reduce处理的时间过长，如果换成这样的写法：

select
    count(distinct buyer_id)
from orders
where dt = '20211012'

那么只有1个reduce，那么处理的时间会更长。

Distinct的执行原理是：将需要去重的字段以及group by 字段联合作为 key 将数据分发到 Reduce 端。

解决方案：所以对于这种去重统计，如果在数据量够大，我会采用count加group by去进行统计：

select 
    province
    ,count(1)
from 
(
    select
        province 
        ,buyer_id
    from orders
    where dt = '20211012'
    group by province,buyer_id
)
group by province

先对数据进行去重减少数据量，再做count聚合，这一定程度上减少了数据量，从而减少了数据倾斜的可能性。

总结：在数据量很大的情况下，使用count+group by替换count(distinct)能使作业执行效率和速度得到很大的提升，一般来说数据量越大提升效果越明显。

文章标签：

分布式计算

SQL

HIVE

关键词：

Hive优化

游客wkxim4agoo6le

目录

相关文章

张飞的猪

|

SQL 资源调度数据库连接

Hive怎么调整优化Tez引擎的查询？在Tez上优化Hive查询的指南

在Tez上优化Hive查询，包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈（如mapper/reducer任务和连接操作），理解Tez如何动态调整mapper和reducer数量。例如，`tez.grouping.max-size` 影响mapper数量，`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`

张飞的猪

1895 0 0

kng32f3vbngrm

|

SQL 分布式计算资源调度

一文看懂 Hive 优化大全（参数配置、语法优化）

以下是对提供的内容的摘要，总长度为240个字符：在Hadoop集群中，服务器环境包括3台机器，分别运行不同的服务，如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化，如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数，以及Map-Side聚合优化、Map Join和Bucket Map Join。

kng32f3vbngrm

1480 0 0

Byyyi

|

SQL 存储大数据

Hive的查询、数据加载和交换、聚合、排序、优化

Hive的查询、数据加载和交换、聚合、排序、优化

Byyyi

862 2 2

Byyyi

|

SQL 分布式计算资源调度

Hive 优化总结

Hive优化主要涉及HDFS和MapReduce的使用。问题包括数据倾斜、操作过多和不当使用。识别倾斜可通过检查分区文件大小或执行聚合抽样。解决方案包括整体优化模型设计，如星型、雪花模型，合理分区和分桶，以及压缩。内存管理需调整mapred和yarn参数。倾斜数据处理通过选择均衡连接键、使用map join和combiner。控制Mapper和Reducer数量以避免小文件和资源浪费。减少数据规模可调整存储格式和压缩，动态或静态分区管理，以及优化CBO和执行引擎设置。其他策略包括JVM重用、本地化运算和LLAP缓存。

Byyyi

788 4 4

爱吃糖的范同学

|

SQL 存储分布式计算

【Hive】Hive优化有哪些？

【4月更文挑战第16天】【Hive】Hive优化有哪些？

爱吃糖的范同学

1234 7 8

夏天49597

|

SQL 存储分布式计算

Hive数据仓库设计与优化策略：面试经验与必备知识点解析

本文深入探讨了Hive数据仓库设计原则（分区、分桶、存储格式选择）与优化策略（SQL优化、内置优化器、统计信息、配置参数调整），并分享了面试经验及常见问题，如Hive与RDBMS的区别、实际项目应用和与其他组件的集成。通过代码样例，帮助读者掌握Hive核心技术，为面试做好充分准备。

夏天49597

1691 0 0

诸葛子房

|

SQL 分布式计算 Hadoop

Hive SQL 优化

Hive SQL 优化

诸葛子房

254 1 1

yuanzhengme

|

SQL 存储关系型数据库

Presto【实践 01】Presto查询性能优化（数据存储+SQL优化+无缝替换Hive表+注意事项）及9个实践问题分享

Presto【实践 01】Presto查询性能优化（数据存储+SQL优化+无缝替换Hive表+注意事项）及9个实践问题分享

yuanzhengme

2191 0 0

赵广陆

|

SQL 分布式计算监控

Hive性能优化之计算Job执行优化 2

Hive性能优化之计算Job执行优化

赵广陆

512 1 1

赵广陆

|

SQL 分布式计算资源调度

Hive性能优化之计算Job执行优化 1

Hive性能优化之计算Job执行优化

赵广陆

447 0 0

Hive性能优化之计算Job执行优化 1

热门文章

最新文章

hive中将单行拆分成多行总结

从Hive建表语句到MySQL的转换

Hive与传统关系型数据库有什么区别？请举例说明。

Atlas 2.1.0 实践（3）—— Atlas集成HIve

Hive SQL优化思路

Could not open client transport with JDBC Uri: jdbc:hive2://192.168.88.10:10000: java.net.ConnectExc

Hive电商数仓实战

DataGrip连接Hive执行DDL操作报错：「FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement」

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

hive：建库建表、表分区、内部表外部表、数据导入导出

网易云信 x Doris：降本70%、提速11倍，统一 ES/InfluxDB/Hive 多技术栈的落地实践

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

Hive的基础操作指南

分布式存储数据恢复—hbase和hive数据库数据恢复案例

【YashanDB知识库】DataX迁移Hive到崖山分布式

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

【YashanDB 知识库】Hive 命令工具 insert 崖山数据库报错

【YashanDB知识库】hive初始化崖山报错YAS-04209

【YashanDB知识库】hive初始化崖山报错YAS-04209

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！