Druid 单机环境

2016-08-03 12664

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

云原生网关 MSE Higress，422元/月

注册配置 MSE Nacos/ZooKeeper，118元/月

简介：

druid 可以运行在单机环境下，也可以运行在集群环境下。简单起见，我们先从单机环境着手学习。

环境要求

java7 或者更高版本
linux， macOS或者其他unix系统(不支持windows系统)
8G内存
2核CPU

开始

下载并安装druid

curl -O http://static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gz
tar -xzf druid-0.9.1.1-bin.tar.gz
cd druid-0.9.1.1

文件夹中有如下几个目录：

LICENSE 许可证
bin/ 可执行脚本
conf/* 在集群环境下的配置文件
conf-quickstart/* quickstart的配置文件
extensions/* druid所有的扩展文件
hadoop-dependencies/* druid的hadoop扩展文件
lib/* druid 依赖的核心软件包
quickstart/* quickstart的数据文件

ZK安装

druid的分布式协同需要依赖zookeeper，所以我们需要安装zk

curl http://www.gtlib.gatech.edu/pub/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz -o zookeeper-3.4.6.tar.gz
tar -xzf zookeeper-3.4.6.tar.gz
cd zookeeper-3.4.6
cp conf/zoo_sample.cfg conf/zoo.cfg
./bin/zkServer.sh start

启动druid服务

启动zk后，我们就可以启动druid的服务了。首先进入到druid0.9.1.1的根目录，执行

bin/init

druid会自动创建一个var目录，内含俩个目录，一个是druid，用于存放本地环境下hadoop的临时文件，索引日志，segments文件及缓存和任务的临时文件。另一个是tmp用于存放其他临时文件。

接下来就可以在控制台启动druid服务了。在单机情况下，我们可以在一台机器上启动所有的druid服务进程，分终端进行。在分布式生产集群的环境下， druid的服务进程同样也可以在一起启动。

ava `cat conf-quickstart/druid/historical/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/historical:lib/*" io.druid.cli.Main server historical
java `cat conf-quickstart/druid/broker/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/broker:lib/*" io.druid.cli.Main server broker
java `cat conf-quickstart/druid/coordinator/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/coordinator:lib/*" io.druid.cli.Main server coordinator
java `cat conf-quickstart/druid/overlord/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/overlord:lib/*" io.druid.cli.Main server overlord
java `cat conf-quickstart/druid/middleManager/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/middleManager:lib/*" io.druid.cli.Main server middleManager

druid服务进程启动后，可以在控制台看到相应的日志信息。

我前一篇文章中提到过druid有几种节点，上面的启动命令，对应的就是druid的各种节点

historical 为Historical Nodes节点进程。主要用于查询时从deepstroage 加载segments。
broker 为Broker Nodes 节点进程。主要为接收客户端任务，任务分发，负载，以及结果合并等。
coordinator 为 Coordinator Nodes 节点进程。主要负责segments的管理和分发。
overlord 为 Overload Nodes 节点进程。 middleManager 为 MiddleManager Nodes 节点进程。 overload 和 middleManager是创建索引的主要服务进程，具体会在接下来的章节中详细介绍

如果想关闭服务，直接在控制台ctrl + c 就可以了。如果你彻底清理掉之前的内容，重新开始，需要在关闭服务后，删除目录下的var 文件，重新执行init脚本。

批量加载数据

服务启动之后，我们就可以将数据load到druid中进行查询了。在druid0.9.1.1的安装包中，自带了2015-09-12的wikiticker数据。我们可以用此数据来作为我们druid的学习实例。

首先我们看一下wikipedia的数据，除了时间之外，包含的维度(dimensions)有：

channel
cityName
comment
countryIsoCode
countryName
isAnonymous
isMinor
isNew
isRobot
isUnpatrolled
metroCode
namespace
page
regionIsoCode
regionName
user

度量(measures) 我们可以设置如下：

count
added
deleted
delta
user_unique

确定了度量，维度之后，接下来我们就可以导入数据了。首先，我们需要向druid提交一个注入数据的任务，并将目录指向我们需要加载的数据文件wikiticker-2015-09-12-sampled.json

Druid是通过post请求的方式提交任务的，上面我们也讲过，overload node 用于数据的加载，所以需要在overload节点上执行post请求，目前单机环境，无需考虑这个。

在druid根目录下执行

curl -X 'POST' -H 'Content-Type:application/json' -d @quickstart/wikiticker-index.json localhost:8090/druid/indexer/v1/task

其中

wikiticker-index.json 文件指明了数据文件的位置，类型，数据的schema(如度量，维度，时间，在druid中的数据源名称等)等信息， 之后我也会详细的介绍，大家也可以从官网上查

当控制台打印如下信息后，说明任务提交成功

{"task":"index_hadoop_wikipedia_2013-10-09T21:30:32.802Z"}

可以在overload控制台 http://localhost:8090/console.html来查看任务的运行情况，当状态为“SUCCESS”时，说明任务执行成功。

当数据注入成功后，historical node会加载这些已经注入到集群的数据，方便查询，这大概需要花费1-2分钟的时间。你可以在coordinator 控制台 http://localhost:8081/#/来查看数据的加载进度

当名为wikiticker的datasource 有个蓝色的小圈，并显示fully available时，说明数据已经可以了。可以执行查询操作了。

加载流数据

为了实现流数据的加载，我们可以通过一个简单http api来向druid推送数据，而tranquility就是一个不错的数据生产组件

下载并安装tranquility

curl -O http://static.druid.io/tranquility/releases/tranquility-distribution-0.8.0.tgz
tar -xzf tranquility-distribution-0.8.0.tgz
cd tranquility-distribution-0.8.0

druid目录中自带了一个配置文件 conf-quickstart/tranquility/server.json 启动tranquility服务进程，就可以向druid的 metrics datasource 推送实时数据。

bin/tranquility server -configFile <path_to_druid_distro>/conf-quickstart/tranquility/server.json

这一部分向大家介绍了如何通过tranquility服务来加载流数据，其实druid还可以支持多种广泛使用的流式框架，包括Kafka, Storm, Samza, and Spark Streaming等

流数据加载中，维度是可变的，所以在schema定义的时候无需特别指明维度，而是将数据中任何一个字段都当做维度。而该datasource的度量则包含

count
value_sum (derived from value in the input)
value_min (derived from value in the input)
value_max (derived from value in the input)

我们采用了一个脚本，来随机生成度量数据，导入到这个datasource中

bin/generate-example-metrics | curl -XPOST -H'Content-Type: application/json' --data-binary @- http://localhost:8200/v1/post/metrics

执行完成后会返回

{"result":{"received":25,"sent":25}}

这表明http server 从你这里接收到了25条数据，并发送了这25条数据到druid。在你第一次运行的时候，这个过程需要花一些时间，一段数据加载成功后，就可以查询了。

Query data

接下来就是数据查询了，我们可以采用如下几种方式来查询数据

Direct Druid queries 直接通过druid查询

druid提供了基于json的富文本查询方式。在提供的示例中， quickstart/wikiticker-top-pages.json 是一个topN的查询实例。

curl -L -H'Content-Type: application/json' -XPOST --data-binary @quickstart/wikiticker-top-pages.json http://localhost:8082/druid/v2/?pretty

Visualizing data 数据可视化

druid是面向用户分析应用的完美方案，有很多开源的应用支持druid的数据可视化，如pivot, caravel 和 metabase等

SQL and other query libraries 查询组件

有许多查询组件供我们使用，如sql引擎，还有其他各种语言提供的组件，如python和ruby。具体如下：

python： druid-io/pydruid

R: druid-io/RDruid

JavaScript: implydata/plywood

7eggs/node-druid-query

Clojure: y42/clj-druid

Ruby: ruby-druid/ruby-druid

redBorder/druid_config

SQL: Apache Calcite

implydata/plyql

PHP: pixelfederation/druid-php

本篇主要是讲了单机环境下druid的搭建以及使用，并使用druid安装包自带的例子给大家做了展示。下一篇我讲介绍在集群环境下Druid如何安装及使用。

Druid 单机环境

环境要求

开始

ZK安装

启动druid服务

批量加载数据

加载流数据

Query data

Direct Druid queries 直接通过druid查询

Visualizing data 数据可视化

SQL and other query libraries 查询组件

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Druid 单机环境

环境要求

开始

ZK安装

启动druid服务

批量加载数据

加载流数据

Query data

Direct Druid queries 直接通过druid查询

Visualizing data 数据可视化

SQL and other query libraries 查询组件

热门文章

最新文章

相关电子书