文档备案控制台

开发者社区问答正文

在处理流维表JOIN时，面对Hive大维表导致的OOM问题，采取了哪些优化措施？

在处理流维表JOIN时，面对Hive大维表导致的OOM问题，采取了哪些优化措施？

展开

收起

真的很搞笑 2024-07-22 22:36:59 211 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

"为了处理Hive大维表导致的OOM问题，我们采取了以下优化措施：

Hive维表Hash分片：将Hive大维表按照Join Key进行Hash分片，通过Hash函数计算后分布到Flink作业的不同并行子任务的HashMap中。这样，每个HashMap只存放大维表的一部分数据，通过增加作业的并行度，可以将大维表的数据拆分成足够多份进行分片保存。
使用Rocksdb Map State：对于一些仍然太大的维表分片，我们使用Rocksdb Map State来保存分片数据，以进一步减少内存压力。

"

2024-07-23 09:50:47

赞同展开评论
算精通

北京阿里云ACE会长

增加内存分配：如果资源允许，可以增加Hive任务的内存分配，以处理更大的数据集。

使用压缩列存储：使用列存储格式（如Parquet或ORC）可以减少I/O操作，并且这些格式通常支持压缩，可以减少内存使用。

过滤数据：在JOIN之前，尽可能使用WHERE子句来过滤掉不需要的数据，减少JOIN操作的数据量。

2024-07-23 08:05:33

赞同 1 展开评论

问答分类：

SQL HIVE

问答标签：

Hive join Hive oom Hive采取 join Hive Hive表

问答地址：

开发者社区 > 数据库 > 问答

相关问答

在Flink CDC中这种方式必须是hive的用户创建的表，创建的hdfs文件才能挂载没有其他方法?

149

0

0

Hologres是否支持查询hive表

160

1

0

通过spark-sql往hive的一个表随便插入一条数据，然后在hive中查询这个表报错

286

0

0

在Flink中将流表数据与Hive维表进行JOIN时，数据是如何被分配到对应subtask的？

156

1

0

DataWorks离线同步hive插件向导模式报错“获取表列表失败...GET_TABLELI...

184

1

0

Flink这边有个问题 hive中的分桶表通过flink 能帮我们看看么？

128

1

0

机器学习PAI特征平台离线存储目前除了maxcompute外，支持其他类型的存储了吗？比如hive表

187

2

0

Flink CDC将hive作为source表，为啥总是一提交就结束呢，有人碰到过么？

209

2

0

dataworks 离线同步任务如何同步 hive表字段类型为 array struct 的数据?

206

1

0

flink sql用做hive维表关联，一共3张hive维表，这块儿有什么问题，应该怎么排查？

187

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

告别传统 Text-to-SQL：基于 Spring AI Alibaba 的数据分析智能体 DataAgent 深度解析

星型模型、雪花模型、星座模型：优缺点与选型

实战：用飞算JavaAI专业版写一个完整的博客系统

别再盲目上 Serverless 了：聊聊 Serverless 数据分析的真相、成本和适用场景

蓝易云：Mybatis的批处理工具：MybatisBatchUtils功能全解

还有其他疑问?