OushuDB 管理指南系统扩容均衡HDFS

简介: OushuDB 管理指南系统扩容均衡HDFS

image.png

sudo -u hdfs hdfs balancer -threshold 5

其中5为threshold_value,表示一个DataNode的磁盘使用可以和其他节点相比的偏移量。threshold_value越小,均衡时间越长。
如果你不指定threshold_value,默认值是20%。例如,如果这个集群的磁盘使用率是40%,threshold_value为20%会使得所有机器的磁盘使用率在 20%和60%之间。如果一个节点的使用率在20%和60%之间,它上面的块不会再被移动。
建议设置threshold_value为5
均衡时间也会受到网络带宽的影响。默认均衡可以使用的带宽为1MB/s,你可以使用下面的命令调整。建议设为64MB。

sudo -u hdfs hdfs dfsadmin -setBalancerBandwidth 67108864

清除OushuDB metadata缓存
使用如下命令清除OushuDB metadata缓存,可以加速缓存的更新。

postgres=# select gp_metadata_cache_clear();

(可选)针对HASH分布的表的处理
设置default_hash_table_bucket_number

default_hash_table_bucket_number为创建hash分布的表时默认使用的bucket数。建议按照下表进行配置。

image.png

重分布Hash分布的表
如果你想是的Hash分布的表可以使用到扩容后的计算能力,你可以使用ALTER TABLE或者CREATE TABLE AS来重新分布。

目录
相关文章
|
2月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
121 0
|
3月前
|
分布式计算 Hadoop
|
4月前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
153 0
|
5月前
|
存储 分布式计算 大数据
【云计算与大数据技术】分布式协同系统Chubby锁、ZooKeeper在HDFS中的使用讲解(图文解释 超详细)
【云计算与大数据技术】分布式协同系统Chubby锁、ZooKeeper在HDFS中的使用讲解(图文解释 超详细)
168 0
|
存储 分布式计算 负载均衡
Hadoop生态系统中的数据存储技术:HDFS的原理与应用
Hadoop生态系统中的数据存储技术:HDFS的原理与应用
|
存储 监控 中间件
【Flume中间件】(3)实时监听文件到HDFS系统
【Flume中间件】(3)实时监听文件到HDFS系统
130 3
【Flume中间件】(3)实时监听文件到HDFS系统
|
分布式计算 Hadoop 网络安全
OushuDB 安装与升级之安装 HDFS
OushuDB 安装与升级之安装 HDFS
66 0
|
分布式计算 Hadoop 大数据
大数据编程实验一:HDFS常用操作和Spark读取文件系统数据
大数据编程实验,利用本地搭建的伪分布式集群进行HDFS常用操作和Spark读取文件系统数据的操作。
1005 1
大数据编程实验一:HDFS常用操作和Spark读取文件系统数据
|
SQL 分布式计算 Hadoop
hive中删除操作及HDFS回收站管理腾出空间的实操
删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。
1204 0
|
13天前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
78 6

热门文章

最新文章