Windows10系统下使用Docker搭建ClickHouse开发环境-阿里云开发者社区

前提

随着现在业务开展，几个业务系统的数据量开始急剧膨胀。之前使用了关系型数据库MySQL进行了一次数据仓库的建模，发现了数据量上来后，大量的JOIN操作在提高了云MySQL的配置后依然有点吃不消，加之开发了一个基于关系型数据库设计的标签服务，日全量标签数据（无法避免的笛卡尔积）单表超过5000W。目前采取了基于用户ID分段配合多进程处理的方式暂时延缓了性能的恶化，但是考虑到不远将来，还是需要做一个小型的数据平台。Hadoop的那套体系过于庞大，组件过多，硬件和软件的学习成本比较高，不是一朝一夕可以让小团队的所有成员掌握。考虑到这么多因素的前提下，需要调用ClickHouse这项黑科技，看看使用他能不能突围困局。

微信截图_20220513175807.png

软件版本

这里就不对ClickHouse进行简介，其官方网站https://clickhouse.tech有详细的文档。一般使用Windows系统进行开发，如果是Windows10则可以直接安装Docker，利用Hyper-V的特性直接运行ClickHouse的镜像即可。下面列出开发环境搭建需要的软件：

软件	版本	备注
`Windows`	`10`	确保使用了`Windows10`并且开启了`Hyper-V`才能使用`Docker`
`Docker Desktop`	任意	`Docker`的`Windows`桌面版
`ClickHouse Server`	`20.3.x`	直接拉取`latest`的镜像即可
`ClickHouse Client`	`20.3.x`	直接拉取`latest`的镜像即可
`Cmder`	最新版	可选，用来代替自带的不好用控制台

Windows10下可以通过：控制面板 -> 程序 -> 启用或关闭Windows功能 ->Hyper-V（勾选Hyper-V管理平台和Hyper-V平台，然后重启生效）开启Hyper-V特性：

微信截图_20220513175816.png

然后在Docker官方站点的https://www.docker.com/get-started子页面可以找到Docker Desktop的下载入口：

微信截图_20220513175824.png

安装完之后Docker Desktop会随着系统自启，软件界面如下：

微信截图_20220513175832.png

安装和使用ClickHouse

注意需要先初步了解ClickHouse的核心目录，再进行容器安装启动。

镜像拉取和核心目录

先下载ClickHouse Server和ClickHouse Client的镜像：

docker pull yandex/clickhouse-server
docker pull yandex/clickhouse-client
复制代码

下载完毕后提示如下：

微信截图_20220513175840.png

可以通过docker images验证一下：

λ  docker images
REPOSITORY                 TAG                 IMAGE ID            CREATED             SIZE
yandex/clickhouse-server   latest              c85f84ea6550        10 days ago         515MB
yandex/clickhouse-client   latest              f94470cc9cd9        10 days ago         488MB
复制代码

两个镜像其实都是包裹在一个微型的Ubuntu系统中，所以启动后的容器可以使用当作是一个Linux系统这样操作。ClickHouse Server在容器中的核心目录部分如下：

/etc/clickhouse-server：这个是ClickHouse Server默认的配置文件目录，包括全局配置config.xml和用户配置users.xml等等。
/var/lib/clickhouse：这个是ClickHouse Server默认的数据存储目录。
/var/log/clickhouse-server：这个是ClickHouse Server默认的日志输出目录。

为了方便管理配置、查看数据和搜索日志，可以把上面这三个目录直接映射到宿主机的具体目录，笔者在本开发机做了如下的映射：

Docker容器目录	宿主机目录
`/etc/clickhouse-server`	`E:/Docker/images/clickhouse-server/single/conf`
`/var/lib/clickhouse`	`E:/Docker/images/clickhouse-server/single/data`
`/var/log/clickhouse-server`	`E:/Docker/images/clickhouse-server/single/log`

ClickHouse Server启动前需要注意几点：

ClickHouse Server服务本身依赖三个端口，这三个端口的默认值是9000（TCP协议）、8123（HTTP协议）和9009（集群数据复制），映射到宿主机的时候尽可能一一对应，所以需要确保宿主机的这三个端口没有被占用，可以使用Docker的参数-p指定容器和宿主机的端口映射。
ClickHouse Server正常使用需要修改容器系统的文件句柄数量配置ulimit nofile，可以使用Docker参数--ulimit nofile=262144:262144指定文件句柄数。
可以运用一个技巧，使用Docker的--rm参数创建临时容器，先获取到/etc/clickhouse-server目录下配置文件，通过docker cp 容器目录宿主机目录命令可以拷贝容器的配置文件到宿主机目录下，容器停止之后会被直接删除，这样就能保留宿主机的配置文件模板。

临时容器拷贝配置

先执行命令docker run --rm -d --name=temp-clickhouse-server yandex/clickhouse-server运行一个临时容器，成功后通过下面的命令拷贝容器的config.xml和users.xml文件到宿主机：

docker cp temp-clickhouse-server:/etc/clickhouse-server/config.xml E:/Docker/images/clickhouse-server/single/conf/config.xml
docker cp temp-clickhouse-server:/etc/clickhouse-server/users.xml E:/Docker/images/clickhouse-server/single/conf/users.xml

这两个命令执行完毕后，可以看到宿主机的磁盘目录已经生成了config.xml和users.xml，接着需要做几项配置：

创建default账号的密码。
创建一个新的root账号。
开放客户端监听的Host，避免后面使用JDBC客户端或者ClickHouse Client的时候无法连接ClickHouse Server。

通过docker exec -it temp-clickhouse-server /bin/bash命令进入临时容器，然后在临时容器中执行:

PASSWORD=$(base64 < /dev/urandom | head -c8); echo "default"; echo -n "default" | sha256sum | tr -d '-'
PASSWORD=$(base64 < /dev/urandom | head -c8); echo "root"; echo -n "root" | sha256sum | tr -d '-'

root@607c5abcc132:/# PASSWORD=$(base64 < /dev/urandom | head -c8); echo "default"; echo -n "default" | sha256sum | tr -d '-'
default
37a8eec1ce19687d132fe29051dca629d164e2c4958ba141d5f4133a33f0688f
root@607c5abcc132:/# PASSWORD=$(base64 < /dev/urandom | head -c8); echo "root"; echo -n "root" | sha256sum | tr -d '-'
root
4813494d137e1631bba301d5acab6e7bb7aa74ce1185d456565ef51d737677b2
复制代码

这样就得到了default:default和root:root两个账号密码的SHA256摘要。修改宿主机上的users.xml文件：

微信截图_20220513175849.png

然后修改宿主机上的config.xml文件：

微信截图_20220513175856.png

最后通过docker stop temp-clickhouse-server停止和销毁临时容器。

运行ClickHouse服务

接着使用下面的命令创建和运行一个ClickHouse Server容器实例（确保config.xml和users.xml已经存在）：

命名和容器命名：docker run -d --name=single-clickhouse-server 
端口映射：-p 8123:8123 -p 9000:9000 -p 9009:9009 
文件句柄数配置：--ulimit nofile=262144:262144 
数据目录映射：-v E:/Docker/images/clickhouse-server/single/data:/var/lib/clickhouse:rw 
配置目录映射：-v E:/Docker/images/clickhouse-server/single/conf:/etc/clickhouse-server:rw 
日志目录映射：-v E:/Docker/images/clickhouse-server/single/log:/var/log/clickhouse-server:rw 
镜像：yandex/clickhouse-server
复制代码

上面的命令合成一行执行docker run -d --name=single-clickhouse-server -p 8123:8123 -p 9000:9000 -p 9009:9009 --ulimit nofile=262144:262144 -v E:/Docker/images/clickhouse-server/single/data:/var/lib/clickhouse:rw -v E:/Docker/images/clickhouse-server/single/conf:/etc/clickhouse-server:rw -v E:/Docker/images/clickhouse-server/single/log:/var/log/clickhouse-server:rw yandex/clickhouse-server。

上面的命令执行完后，Docker Desktop会有几个弹出框确认是否共享宿主机的目录，直接按share it按钮即可。

微信截图_20220513175903.png

最后使用原生的命令行客户端ClickHouse Client进行连接，使用命令docker run -it --rm --link single-clickhouse-server:clickhouse-server yandex/clickhouse-client -uroot --password root --host clickhouse-server：

λ  docker run -it --rm --link single-clickhouse-server:clickhouse-server yandex/clickhouse-client -uroot --password root --host clickhouse-server
ClickHouse client version 20.10.3.30 (official build).
Connecting to clickhouse-server:9000 as user root.
Connected to ClickHouse server version 20.10.3 revision 54441.
f5abc88ff7e4 :) select 1;
SELECT 1
┌─1─┐
│ 1 │
└───┘
1 rows in set. Elapsed: 0.004 sec.
复制代码

下次如果电脑重启ClickHouse Server的容器没有启动，只需要使用命令docker (re)start single-clickhouse-server拉起容器实例即可。

使用JDBC连接ClickHouse服务

ClickHouse的JDBC驱动目前有三个：

clickhouse-jdbc（官方）：地址是https://github.com/ClickHouse/clickhouse-jdbc，目前版本是基于Apache Http Client实现。
ClickHouse-Native-JDBC（第三方）：地址是https://github.com/housepower/ClickHouse-Native-JDBC，基于Socket实现。
clickhouse4j（第三方）：地址是https://github.com/blynkkk/clickhouse4j，比官方驱动轻量级。

说实话有点尴尬，官方的驱动包竟然没有对接TCP私有协议栈，而是使用了HTTP协议进行交互，这里不知道性能会下降多少，但是基于"官方更好"的思维这里还是选用官方的驱动包进行Demo演示。引入clickhouse-jdbc依赖：

<dependency>
    <groupId>ru.yandex.clickhouse</groupId>
    <artifactId>clickhouse-jdbc</artifactId>
    <version>0.2.4</version>
</dependency>
复制代码

编写一个测试类：

public class ClickHouseTest {
    @Test
    public void testCh() throws Exception {
        ClickHouseProperties props = new ClickHouseProperties();
        props.setUser("root");
        props.setPassword("root");
        // 不创建数据库的时候会有有个全局default数据库
        ClickHouseDataSource dataSource = new ClickHouseDataSource("jdbc:clickhouse://localhost:8123/default", props);
        ClickHouseConnection connection = dataSource.getConnection();
        ClickHouseStatement statement = connection.createStatement();
        // 创建一张表，表引擎为Memory，这类表在服务重启后会自动删除
        boolean execute = statement.execute("CREATE TABLE IF NOT EXISTS t_test(id UInt64,name String) ENGINE  = Memory");
        if (execute) {
            System.out.println("创建表default.t_test成功");
        } else {
            System.out.println("表default.t_test已经存在");
        }
        ResultSet rs = statement.executeQuery("SHOW TABLES");
        List<String> tables = Lists.newArrayList();
        while (rs.next()) {
            tables.add(rs.getString(1));
        }
        System.out.println("default数据库中的表:" + tables);
        PreparedStatement ps = connection.prepareStatement("INSERT INTO t_test(*) VALUES (?,?),(?,?)");
        ps.setLong(1, 1L);
        ps.setString(2, "throwable");
        ps.setLong(3, 2L);
        ps.setString(4, "doge");
        ps.execute();
        statement = connection.createStatement();
        rs = statement.executeQuery("SELECT * FROM t_test");
        while (rs.next()) {
            System.out.println(String.format("查询结果,id:%s,name:%s", rs.getLong("id"), rs.getString("name")));
        }
    }
}
复制代码

执行结果如下：

表default.t_test已经存在   # <--- 这里估计是驱动包的实现有BUG，首次创建成功返回结果为false
default数据库中的表:[t_test]
查询结果,id:1,name:throwable
查询结果,id:2,name:doge
复制代码

小结

ClickHouse开发环境初步搭建完毕，后面会开始学习ClickHouse的基本语法、各类引擎的特性和使用场景以及集群搭建（分片和多副本）等等。

参考资料：

https://clickhouse.tech

提醒

这个是笔者在某次直接断电后发现Docker中的ClickHouse服务虽然重启成功，但是错误日志疯狂输出File not found，导致所有客户端无法连接服务。初步判断为元数据和实际存储的数据因为"断电"后造成不一致导致的。所以建议在开发环境中关机前要先进入容器调用service clickhouse-server stop，然后在宿主机调用docker stop 容器名|容器ID停止容器再进行关机，否则需要递归删除数据目录下的store目录中的所有文件才能正常重启ClickHouse Server和使用（这个是十分粗暴的办法，有比较大几率会直接导致数据丢失，一定要谨慎操作）。

（本文完 c-2-d e-a-20201108 开始搞小数据）

Windows10系统下使用Docker搭建ClickHouse开发环境

前提

软件版本

安装和使用ClickHouse

镜像拉取和核心目录

临时容器拷贝配置

运行ClickHouse服务

使用JDBC连接ClickHouse服务

小结

提醒

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Windows10系统下使用Docker搭建ClickHouse开发环境

前提

软件版本

安装和使用ClickHouse

镜像拉取和核心目录

临时容器拷贝配置

运行ClickHouse服务

使用JDBC连接ClickHouse服务

小结

提醒

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像