大数据-151 Apache Druid 集群模式配置启动【上篇】超详细！-阿里云开发者社区

大数据-151 Apache Druid 集群模式配置启动【上篇】超详细！

2024-10-14 143 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 大数据-151 Apache Druid 集群模式配置启动【上篇】超详细！

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）

HDFS（已更完）

MapReduce（已更完）

Hive（已更完）

Flume（已更完）

Sqoop（已更完）

Zookeeper（已更完）

HBase（已更完）

Redis （已更完）

Kafka（已更完）

Spark（已更完）

Flink（已更完）

ClickHouse（已更完）

Kudu（已更完）

Druid（正在更新…）

章节内容

上节我们完成了如下的内容：

Apache Druid 系统架构核心组件介绍

Druid 单机模式配置启动

整体介绍

Apache Druid 是一种高性能、分布式的列式存储数据库，专门用于实时分析和查询大规模数据集。它适用于 OLAP（在线分析处理）场景，尤其在处理大数据实时流时表现优异。Druid 的架构由多个组件组成，主要包括数据摄取、存储、查询和管理。

在集群配置方面，Druid 通常由以下节点构成：

数据摄取层：使用 MiddleManager 节点来处理数据的实时摄取，负责从不同数据源（如 Kafka、HDFS 等）读取数据并进行实时处理。

存储层：数据存储在 Historical 节点上，这些节点负责存储和管理较老的数据，支持高效的查询。数据被以列式格式存储，优化了查询性能。

查询层：Broker 节点充当查询路由器，接受用户的查询请求并将其分发到相应的 Historical 或 Real-time 节点，然后将结果汇总返回给用户。

协调层：Coordinator 节点负责集群的状态管理和数据分配，确保数据均匀分布并自动处理节点故障。

Druid 的配置文件允许用户自定义参数，如 JVM 设置、内存分配和数据分片策略，以便根据不同的工作负载和性能需求进行优化。此外，Druid 还支持多种查询语言，包括 SQL，便于用户进行灵活的数据分析。整体上，Druid 提供了一种高效、可扩展的解决方案，适合需要快速实时分析的大数据应用场景。

集群规划

集群部署采用的分配如下：

主节点部署 Coordinator 和 Overlord 进程

数据节点运行 Historical 和 MiddleManager 进程

查询节点部署Broker 和 Router 进程

我的实机部署情况：

h121.wzk.icu 2C4G ZooKeeper、Kafka、Druid
h122.wzk.icu 2C4G ZooKeeper、Kafka、Druid、MySQL(之前Hive时搭建)
h123.wzk.icu 2C2G ZooKeeper、Druid

环境变量

vim /etc/profile

写入的内容如下：

# druid
export DRUID_HOME=/opt/servers/apache-druid-30.0.0
export PATH=$PATH:$DRUID_HOME/bin

配置文件

将 Hadoop 配置文件：

core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml

上述文件链接到 conf/druid/cluster/_common 下

执行下面的Shell：

cd $DRUID_HOME/conf/druid/cluster/_common
ln -s $HADOOP_HOME/etc/hadoop/core-site.xml core-site.xml
ln -s $HADOOP_HOME/etc/hadoop/hdfs-site.xml hdfs-site.xml
ln -s $HADOOP_HOME/etc/hadoop/yarn-site.xml yarn-site.xml
ln -s $HADOOP_HOME/etc/hadoop/mapred-site.xml mapred-site.xml
ls

执行结果如下图所示：

MySQL

将MySQL驱动链接到：$DRUID_HOME/extensions/mysql-metadata-storage 中

cd $DRUID_HOME/extensions/mysql-metadata-storage
cp $HIVE_HOME/lib/mysql-connector-java-8.0.19.jar mysql-connector-java-8.0.19.jar
ls

执行结果如下图所示：

修改配置

vim $DRUID_HOME/conf/druid/cluster/_common/common.runtime.properties

我们要修改如下的内容：

# 增加"mysql-metadata-storage"
druid.extensions.loadList=["mysql-metadata-storage", "druid-hdfs-storage", "druid-kafka-indexing-service", "druid-datasketches", "druid-multi-stage-query"]

# 每台机器写自己的ip或hostname
# 我这里是h121节点
druid.host=h121.wzk.icu
# 填写zk地址
druid.zk.service.host=h121.wzk.icu:2181,h122.wzk.icu:2181,h123.wzk.icu:2181
druid.zk.paths.base=/druid

# 注释掉前面 derby 的配置
# 增加 mysql 的配置
druid.metadata.storage.type=mysql
druid.metadata.storage.connector.connectURI=jdbc:mysql://h122.wzk.icu:3306/druid
druid.metadata.storage.connector.user=hive
druid.metadata.storage.connector.password=hive@wzk.icu

# 注释掉local的配置
# 增加HDFS的配置，即使用HDFS作为深度存储
druid.storage.type=hdfs
druid.storage.storageDirectory=/druid/segments

# 注释掉 indexer.logs For local disk的配置
# 增加 indexer.logs For HDFS 的配置
druid.indexer.logs.type=hdfs
druid.indexer.logs.directory=/druid/indexing-logs

修改截图如下：

修改截图如下所示：

coordinator-overlord

参数大小根据实际情况调整

vim $DRUID_HOME/conf/druid/cluster/master/coordinator-overlord/jvm.config

原来的配置如下图所示：

-server
-Xms15g
-Xmx15g
-XX:+ExitOnOutOfMemoryError
-XX:+UseG1GC
-Duser.timezone=UTC
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager
-Dderby.stream.error.file=var/druid/derby.log

修改内容如下所示：

-server
-Xms512m
-Xmx512m
-XX:+ExitOnOutOfMemoryError
-XX:+UseG1GC
-Duser.timezone=UTC+8
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

对应的截图如下所示：

historical

参数大小根据实际情况调整

vim $DRUID_HOME/conf/druid/cluster/data/historical/jvm.config

原配置内容如下所示：

-server
-Xms8g
-Xmx8g
-XX:MaxDirectMemorySize=13g
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

修改内容如下：

-server
-Xms512m
-Xmx512m
-XX:MaxDirectMemorySize=1g
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC+8
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

修改结果如下图：

此外还有一个参数：

vim $DRUID_HOME/conf/druid/cluster/data/historical/runtime.properties

原配置内容如下：

druid.processing.buffer.sizeBytes=500MiB

修改为如下内容：

# 相当于 50MiB
druid.processing.buffer.sizeBytes=50000000

修改的截图如下：

备注：

druid.processing.buffer.sizeBytes 每个查询用于聚合的对外哈希表的大小

maxDirectMemory = druid.processing.buffer.sizeBytes * (durid.processing.numMergeBuffers + druid.processing.numThreads + 1)

如果 druid.processing.buffer.sizeBytes太大的话，需要加大 maxDirectMemory，否则 historical服务无法启动

middleManager

vim $DRUID_HOME/conf/druid/cluster/data/middleManager/jvm.config

原配置：

-server
-Xms128m
-Xmx128m
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

配置如下（没有修改）：

-server
-Xms128m
-Xmx128m
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC+8
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

修改的截图如下：

大数据-151 Apache Druid 集群模式配置启动【上篇】超详细！

环境变量

配置文件

MySQL

修改配置

coordinator-overlord

historical

middleManager

【续接下篇！】

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细！

环境变量

配置文件

MySQL

修改配置

coordinator-overlord

historical

middleManager

【续接下篇！】

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

大数据-151 Apache Druid 集群模式配置启动【上篇】超详细！