基于开源应用快速构建HTAP系统(1)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 基于开源应用快速构建HTAP系统

1. 关于ClickHouse


企业里随着数据量的增加,以及日趋复杂的分析性业务需求,主要适用于OLTP场景的MySQL压力越来越大。多年前还能免费试用的infobright社区版也早就销声匿迹,infinidb被MariaDB收入囊中之后改头换面变成ColumnStore,但最近几年发展的平平淡淡,都不是理想的OLAP方案。

战斗民族出品的ClickHouse这几年则是风头正劲,国内用户也越来越多,几大公有云上也提供相应的产品服务,是目前市面上最快的OLAP数据库,性能远超Vertica、Sybase IQ等。关于ClickHouse的性能也可以关注我以前的一份测试报告:ClickHouse性能测试

ClickHouse对MySQL的兼容性也很好,除了很多语法相同或接近外,甚至还可以利用MySQL客户端(协议)连接到ClickHouse。

ClickHouse 可以挂载为 MySQL 的一个从库 ,先全量再增量的实时同步 MySQL 数据,这个功能可以说是今年最亮眼、最刚需的功能,基于它我们可以轻松的打造一套企业级解决方案,让 OLTP 和 OLAP 的融合从此不再头疼。目前支持 MySQL 5.6/5.7/8.0 版本,兼容 Delete/Update 语句,及大部分常用的 DDL 操作。只需要安装最新版本的ClickHouse就可以体验到这个新特性了,不过该特性还处于experimental阶段,还在不断完善中。


2. 关于ProxySQL


ProxySQL是一款强大的中间件为MySQL的架构提供了有力的支持,支持传统主从复制、半同步复制、MGR、PXC等多种MySQL架构,还支持故障自动检测和切换、连接池、读写分离、日志记录、监控、集群部署等多项实用功能。当然了,ProxySQL最大的缺点是性能损失较大,预计至少有20% ~ 30%的性能损失,因此如果是在高性能场景下可能不太合适。不过可以考虑通过分库分表等方式降低单节点压力,充分发挥ProxySQL的集群功能。


3. 构建HTAP系统


ClickHouse和ProxySQL的安装本文不再赘述,直接开始动手构建HTAP系统。下面是整体架构示意图

image.png


3.1 将ClickHouse配置成为MySQL的从库


登入ClickHouse后,执行下面的命令启用新特性:

clickhouse :) SET allow_experimental_database_materialize_mysql = 1;



在ClickHouse中,创建一个复制通道,即可构建一个MySQL复制从库,例如:

clickhouse :) CREATE DATABASE test ENGINE = MaterializeMySQL('172.24.10.10:3306', 'test', 'repl', 'repl');
clickhouse :) use test;
clickhouse :) show tables;
┌─name─────┐
│ sbtest1  │
│ sbtest10 │
│ sbtest11 │
...
32 rows in set. Elapsed: 0.006 sec.



首次创建复制通道后,ClickHouse会快速从MySQL主库读取所有数据并应用,可以查看数据复制的进度:

[root@yejr.run]# cat metadata/sbtest/.metadata
Version: 2
Binlog File: binlog.001496
Executed GTID: 097ee9f2-2ded-11eb-9211-e4434ba52b50:1-952676723
Binlog Position: 789663343
Data Version: 2



提醒:在这里,我设置的是主从复制专用账号。相对于普通的主从复制账号,用于ClickHouse从库的账号至少还要加上只读权限,例如:

[root@yejr.run]> show grants for repl;
+--------------------------------------------------------------------------+
| Grants for repl@%                                                        |
+--------------------------------------------------------------------------+
| GRANT RELOAD, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO `repl`@`%` |
| GRANT SELECT ON `test`.* TO `repl`@`%`                                   |
+--------------------------------------------------------------------------+



ClickHouse的MaterializeMySQL引擎从MySQL复制数据的速度非常之快,甚至比MySQL原生的从库还要更快,大家可以亲身感受体验下。

接下来,再在ClickHouse中创建一个业务账号,以及一个服务监控账号(用于ProxySQL对后端服务的监控)。编辑ClickHouse的配置文件 users.xml,增加两个用户:

      <app_user>
            <password>app_user</password>
            <networks incl="networks" replace="replace">
                <ip>::/0</ip>
            </networks>
            <profile>default</profile>
            <quota>default</quota>
        </app_user>
        <monitor>
            <password>monitor</password>
            <networks incl="networks" replace="replace">
                <ip>::/0</ip>
            </networks>
            <profile>default</profile>
            <quota>default</quota>
        </monitor>


我只设置了简单密码,也没有修改其权限和quota模式,仅演示用,线上生产环境请自行调整以合规。


3.2 配置ProxySQL

配置mysql_servers表,增加两条记录,并使配置生效:

proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('0', '172.24.10.10', '3306');
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('1', '172.24.10.11', '9004');
proxysql> save mysql servers to disk; load mysql servers to run;



其中,172.24.10.10:3306 是MySQL主库,172.24.10.11:9004是ClickHouse从库,9004端口是ClickHouse里给MySQL客户端连接专用的,可以用MySQL客户端(协议)连接进来执行各种操作。

hostgroup分别为0和1,0用于读写组,1用于只读组

配置mysql_users表,加入业务账号和监控账号:

proxysql> select username,password,active from mysql_users;
+-----------+----------+--------+
| username  | password | active |
+-----------+----------+--------+
| app_user  | app_user | 1      |
| monitor   | monitor  | 1      |
+-----------+----------+--------+
proxysql> save mysql users to disk; load mysql users to runtime;



配置mysql_query_rules表,这个是关键,用于判断将哪些SQL转发到MySQL主库,哪些转发到ClickHouse:

proxysql> select rule_id, active, match_pattern,destination_hostgroup from mysql_query_rules;
+---------+--------+-------------------------+-----------------------+
| rule_id | active | match_pattern           | destination_hostgroup |
+---------+--------+-------------------------+-----------------------+
| 1       | 1      | ^SELECT.*\+CLICKHOUSE.* | 1                     |
+---------+--------+-------------------------+-----------------------+
proxysql>  save mysql query rules to disk; load mysql query rules to run;



上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理。例如下面这两条SQL就会分别转发到MySQL和ClickHouse后端:



#SQL #1
[root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;
#SQL #2
[root@yejr.run]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1; 



相关文章
|
网络协议 Java
【工具】Mermaid + 大模型画流程图
最近看面试文章关于TCP三次握手和四次挥手的文章,时常会看到有类似的图去描述这样的过程。当然觉得这样的图还是蛮规范的,属于流程图的一种,是否有工具可以自动生成呢?但没有细想,昨天刷V2EX看到也有老哥发出了这样的问题。于是顺着评论区大佬的回答,我GET到了一个工具Mermaid 这里三次握手的图取自小林coding的文章
1337 0
|
监控 Oracle 小程序
2021 最新版 JDK 1.8 下载与安装 步骤演示 (图示版)(一)
2021 最新版 JDK 1.8 下载与安装 步骤演示 (图示版)
1284 0
2021 最新版 JDK 1.8 下载与安装 步骤演示 (图示版)(一)
|
SQL 分布式计算 运维
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
快速学习开源大数据 OLAP 引擎最佳实践
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
|
11月前
|
数据采集 存储 人工智能
数据治理工作的持续评估与优化策略
数据治理工作的持续评估与优化是企业实现数据价值最大化的关键。通过明确目标、建立评估体系、实施定期评估、制定优化策略以及建立反馈机制,企业可以不断提升数据治理水平,为业务决策提供有力支持,推动企业持续健康发展。在这个过程中,保持对新技术、新方法的关注与探索,也是确保数据治理工作与时俱进的重要途径。
|
12月前
|
搜索推荐 机器人 云计算
纳米机器人:医疗领域的微型革命与精准治疗
【9月更文挑战第16天】随着科技的飞速发展,纳米技术成为推动多个领域变革的重要力量。在医疗领域,纳米机器人以其独特优势引领着微型革命与精准治疗新时代。本文探讨其在药物输送、癌症治疗、手术辅助及疾病诊断中的应用,并分析其小型化、精准化、智能化与综合化的优势。尽管面临制造技术、体内控制等挑战,但随着科技的进步,纳米机器人有望成为人类健康的重要保障。
668 10
|
图形学 Android开发 iOS开发
穿越数字洪流,揭秘Unity3d中的视频魔法!Windows、Android和iOS如何征服RTSP与RTMP的终极指南!
【8月更文挑战第15天】在数字媒体的海洋中,实时视频流是连接世界的桥梁。对于那些渴望在Unity3d中搭建这座桥梁的开发者来说,本文将揭示如何在Windows、Android和iOS平台上征服RTSP与RTMP的秘密。我们将深入探讨这两种协议的特性,以及在不同平台上实现流畅播放的技巧。无论你是追求稳定性的RTSP拥趸,还是低延迟的RTMP忠实粉丝,这里都有你需要的答案。让我们一起穿越数字洪流,探索Unity3d中视频魔法的世界吧!
321 2
|
10月前
|
UED 开发者 容器
鸿蒙next版开发:ArkTS组件通用属性(位置设置)
在HarmonyOS next中,ArkTS提供了align、direction、position、markAnchor、offset和alignRules等通用属性,用于精确控制组件在用户界面中的位置和布局。本文详细解读了这些属性,并提供了示例代码进行说明。通过这些属性,开发者可以实现精确布局、动态界面调整和提升用户体验。
1277 6
|
存储 安全 大数据
蚂蚁数科MAPPIC密态计算云平台入驻阿里云计算巢,打造云上密态计算服务
蚂蚁数科MAPPIC密态计算云平台入驻阿里云计算巢,打造云上密态计算服务
|
API 开发工具 vr&ar
从零开始的PICO教程(2)--搭建VR场景并打包至PICO中运行
这篇文章是PICO开发系列教程的第二部分,主要介绍了如何在Unity中搭建简单的VR场景、创建XR Origin对象、配置PICO开发环境、以及将场景打包并运行在PICO设备上的完整流程。
|
开发工具 git
idea中git替换,推送到新的github或者gitlab上面
idea中git替换,推送到新的github或者gitlab上面
979 2