备案控制台

开发者社区云计算文章正文

OushuDB 管理指南系统扩容均衡HDFS

2021-12-22 137

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： OushuDB 管理指南系统扩容均衡HDFS

sudo -u hdfs hdfs balancer -threshold 5

其中5为threshold_value，表示一个DataNode的磁盘使用可以和其他节点相比的偏移量。threshold_value越小，均衡时间越长。
如果你不指定threshold_value，默认值是20%。例如，如果这个集群的磁盘使用率是40%，threshold_value为20%会使得所有机器的磁盘使用率在 20%和60%之间。如果一个节点的使用率在20%和60%之间，它上面的块不会再被移动。
建议设置threshold_value为5
均衡时间也会受到网络带宽的影响。默认均衡可以使用的带宽为1MB/s，你可以使用下面的命令调整。建议设为64MB。

sudo -u hdfs hdfs dfsadmin -setBalancerBandwidth 67108864

清除OushuDB metadata缓存
使用如下命令清除OushuDB metadata缓存，可以加速缓存的更新。

postgres=# select gp_metadata_cache_clear();

(可选)针对HASH分布的表的处理
设置default_hash_table_bucket_number

default_hash_table_bucket_number为创建hash分布的表时默认使用的bucket数。建议按照下表进行配置。

重分布Hash分布的表
如果你想是的Hash分布的表可以使用到扩容后的计算能力，你可以使用ALTER TABLE或者CREATE TABLE AS来重新分布。

文章标签：

缓存

关键词：

系统文件存储HDFS版

文件存储HDFS版系统

文件存储HDFS版oushudb

文件存储HDFS版管理

彦小哲

目录

相关文章

郑小健

|

5月前

|

存储分布式计算资源调度

Hadoop生态系统概览：从HDFS到Spark

【8月更文第28天】Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。它由多个组件构成，旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件，包括HDFS、MapReduce、YARN，并探讨它们如何与现代大数据处理工具如Spark集成。

郑小健

382 0 0

听风de歌

|

6月前

|

分布式计算 Hadoop

Hadoop中将数据从HDFS复制到本地文件系统

【7月更文挑战第24天】

听风de歌

1125 4 5

郑小健

|

7月前

|

存储分布式计算 Hadoop

Hadoop生态系统详解：HDFS与MapReduce编程

Apache Hadoop是大数据处理的关键，其核心包括HDFS（分布式文件系统）和MapReduce（并行计算框架）。HDFS为大数据存储提供高容错性和高吞吐量，采用主从结构，通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段，适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合，加上YARN的资源管理，构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】

郑小健

298 0 0

热烈的马

|

8月前

|

存储分布式计算大数据

【云计算与大数据技术】分布式协同系统Chubby锁、ZooKeeper在HDFS中的使用讲解（图文解释超详细）

【云计算与大数据技术】分布式协同系统Chubby锁、ZooKeeper在HDFS中的使用讲解（图文解释超详细）

热烈的马

210 0 0

壹佰、

|

存储监控中间件

【Flume中间件】（3）实时监听文件到HDFS系统

【Flume中间件】（3）实时监听文件到HDFS系统

壹佰、

142 6 22

【Flume中间件】（3）实时监听文件到HDFS系统

故事未完·

|

存储分布式计算负载均衡

Hadoop生态系统中的数据存储技术：HDFS的原理与应用

Hadoop生态系统中的数据存储技术：HDFS的原理与应用

故事未完·

208 0 0

北天

|

分布式计算 Hadoop 大数据

大数据编程实验一：HDFS常用操作和Spark读取文件系统数据

大数据编程实验，利用本地搭建的伪分布式集群进行HDFS常用操作和Spark读取文件系统数据的操作。

北天

1121 1 1

大数据编程实验一：HDFS常用操作和Spark读取文件系统数据

823414713q

|

分布式计算 Hadoop 网络安全

OushuDB 安装与升级之安装 HDFS

OushuDB 安装与升级之安装 HDFS

823414713q

73 0 0

橙子园

|

SQL 分布式计算 Hadoop

hive中删除操作及HDFS回收站管理腾出空间的实操

删除hive数据时，首先明确你使用删除数据还是连同表结构也要删除，如果只是要删除数据可以选择truncate来清空表中的数据，如果要对表进行删除，首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用，如果不需要使用了可以直接使用HDFS命令对目录进行删除。

橙子园

1264 0 0

武子康

|

3月前

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

202 6 6

热门文章

最新文章

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

ClickHouse如何整合数据源：MySQL、HDFS...

sqoop2:从mysql导出数据到hdfs

HDFS－Architecture剖析

基于Hadoop的云盘系统客户端技术难点之二 HDFS文件访问控制

HDFS的linux下开发环境准备

Hadoop大象之旅009-通过Shell操作hdfs

给 admin 新建的 hdfs 文件的权限

使用oracle的大数据工具ODCH访问HDFS数据文件

Hadoop HDFS概念学习系列之两个和HDFS读写操作最为密切的Hadoop包（二十）

Hadoop的HDFS问题

阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS

[AIGC 大数据基础]浅谈hdfs

[AIGC 大数据基础] 浅谈hdfs

Hive【基础知识 02-1】【Hive CLI 命令行工具使用】【准备阶段-建库、建表、导入数据、编写测试SQL脚本并上传HDFS】

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

面经：HDFS分布式文件系统原理与故障排查

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】（部分图片来源于网络）【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

相关课程

更多

Hadoop 分布式文件系统 HDFS

高性能集群负载

分布式文件存储系统技术及实现

Hadoop企业优化及扩展案例

如何对 PolarDB-X 集群做动态扩缩容

相关电子书

更多

海量数据分布式存储——Apache HDFS之最新进展

基于etcd的超大规模生产级弹性键值存储实践与优化

在多租户环境中提高HBase可用性

相关实验场景

更多

通过FastMR自动拉起大数据集群并运行TPCDS任务

下一篇

阿里云无影云电脑免费试用，最长可试用3个月