文档备案控制台

开发者社区问答正文

Hive中把表（或者分区）组织成桶（Bucket）的理由有哪些？

Hive中把表（或者分区）组织成桶（Bucket）的理由有哪些？

展开

收起

游客k7rjnht6hbtk6 2021-12-06 19:46:47 406 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客daliwbfb2wo66

（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。

（2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

2021-12-06 19:50:49

赞同展开评论

问答分类：

SQL HIVE

问答标签：

Hive分区

问答地址：

开发者社区 > 数据库 > 问答

相关问答

大数据计算MaxCompute里面使用分区字段关联会和hive里面一样提升效率吗？

176

2

0

在Flink CDC中如下是这个参数控制保留hive 多久的分区吗？

122

0

0

在Flink CDC中这种配置，会自动删除超过30天前的hive分区吗？

105

0

0

在Dataphin中数据集成中，hive输出组件支持动态分区吗?

133

2

0

云数据仓库ADB_mysql的分区不能想hive那样使用吗？

134

0

0

DataWorks同步数据到hive 我想用业务字段做为分区键这个可以设置吗？

185

4

0

删除，和变动的数据，hive分区要怎么处理呢？

294

2

0

OceanBase数据库目前支持像hive那样的动态分区吗？

193

1

0

DataWorks中hive是分区表，是需要一个分区一个分区同步吗？

203

4

0

哈喽大家有遇到Flink一个问题么？我hive catalog单元测试用hive方言在hive建分区

139

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

通义灵码提示格式问题

API inference endpoint都变成待机态了

notebook启动安全验证一直失败

阿里云百炼和通义大模型有什么区别？

MacBook端Clion编辑器的通义灵码代码自动补全功能失效

相关文章

企业落地 AI 数据分析，如何做好敏感数据安全防护？

告别传统 Text-to-SQL：基于 Spring AI Alibaba 的数据分析智能体 DataAgent 深度解析

完美应对千亿级明细数据计算：Aloudata CAN 双引擎架构详解

盘点PostgreSQL C语言自定义函数返回数据集的各种方法

线程池：故障梳理总结

还有其他疑问?