浅析Cassandra扩容

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 前言 Cassandra是一款非常优秀的分布式数据库,可以灵活的在线扩容,满足业务水平扩展的需求。本文将会详细阐述扩容中可能遇到的问题,帮助Cassandra用户更好的管理Cassandra。 扩容原理 Cassandra采用一致性Hash算法对数据进行分区打散。

前言

Cassandra是一款非常优秀的分布式数据库,可以灵活的在线扩容,满足业务水平扩展的需求。本文将会详细阐述扩容中可能遇到的问题,帮助Cassandra用户更好的管理Cassandra。

扩容原理

Cassandra采用一致性Hash算法对数据进行分区打散。

image

上图不同颜色代表不同节点,每个节点会有虚拟节点在环上(图示每个节点有3个),具体有多少个虚拟节点,取决于这个配置:

num_tokens: 256

这个值不能调得太低,不然虚拟节点不够容易出现数据倾斜。

Cassandra称这些虚拟节点为Token,Token就是一个长整型数。2个Token之间构成一个左开右闭的区间(Range),落在这个区间内的数据都归右边界的Token所对应的节点管理(数据会用同样的Hash算法得到一个长整型值映射到环上)。比如:(100,200],200这个Token属于NodeA,那么(100,200]上的数据都归NodeA管理。

数据迁移

很明显扩容后加入了新的Token,会产生新的Range,这些Range中的一部分会归新节点管理。那么就需要把数据从旧节点迁移到新节点上去。

新节点会从旧节点上去拖数据过来,这时候节点状态会处于JOINING。可以通过nodetool netstats查看到节点状态以及当前迁移进度。
大概输出类似下面这样:

Mode: JOINING
Bootstrap fcbdf860-5bb4-11e9-85c8-000000000002
    /xx.xx.xx.xx
        Receiving 2 files, 100 bytes total. Already received 1 files, 50 bytes total
            filename 10/50 bytes(20%) received from idx:0/xx.xx.xx.xx

具体大家可以实际操作时候,跑一下nodetool netstats查看。

迁移开始标志可以通过搜索日志中这么一行内容:

Starting to bootstrap...

整个迁移过程完成后,节点会进入NORMAL状态,同样可以通过上述命令查看。整个数据传输过程,是通过Cassandra点对点之间的Streaming传输协议进行数据流传输。这里主要有2个参数控制传输速度,大家可以根据实际硬件&业务情况配置,在速度与稳定性之间权衡,避免影响在线服务。

# 控制该节点整体数据流出速度 200Mbps
stream_throughput_outbound_megabits_per_sec: 200

# 控制该节点夸数据中心间的数据流出速度(即数据同步到另一个数据中心的节点上时)。这个配置超过上面那个没有作用,因为上面是整体控制,也就是上界。
inter_dc_stream_throughput_outbound_megabits_per_sec: 200 

扩容操作建议

扩容过程需要一台一台操作,并通过nodetool netstats确认进入NORMAL状态后,再操作下一台,不然你可以会遇到下面这个异常,导致启动失败。

Other bootstrapping/leaving/moving nodes detected, cannot bootstrap while cassandra.consistent.rangemovement is true.

写在最后

为了营造一个开放的Cassandra技术交流环境,社区建立了微信公众号和钉钉群。为广大用户提供专业的技术分享及问答,定期开展专家技术直播,欢迎大家加入。另云Cassandra免费火爆公测中,欢迎试用:https://www.aliyun.com/product/cds
image

相关文章
|
存储 缓存 负载均衡
高可用mongodb集群(分片+副本):规划及部署
高可用mongodb集群(分片+副本):规划及部署
1294 0
|
存储 NoSQL Java
高可用mongodb集群(分片+副本):性能测试
高可用mongodb集群(分片+副本):性能测试
706 0
|
8月前
|
存储 SQL 分布式计算
ClickHouse 高可用之副本
ClickHouse 使用副本机制增强数据可用性,复制数据到多个节点以备故障转移。仅MergeTree系列引擎支持副本,需使用`Replicated`前缀。副本是表级别,需先创建对应表结构。配置高可用副本需借助Zookeeper协调。在三台机器上部署,每台有三份数据。创建副本表时,需指定Zookeeper路径和唯一副本名称。通过`CREATE TABLE`语句在每个节点创建副本表并插入数据,然后验证数据同步。还可以使用工具如PrettyZoo查看Zookeeper中的副本表元数据。
174 0
|
2月前
|
存储 监控 大数据
构建高可用性ClickHouse集群:从单节点到分布式
【10月更文挑战第26天】随着业务的不断增长,单一的数据存储解决方案可能无法满足日益增加的数据处理需求。在大数据时代,数据库的性能、可扩展性和稳定性成为企业关注的重点。ClickHouse 是一个用于联机分析处理(OLAP)的列式数据库管理系统(DBMS),以其卓越的查询性能和高吞吐量而闻名。本文将从我的个人角度出发,分享如何将单节点 ClickHouse 扩展为高可用性的分布式集群,以提升系统的稳定性和可靠性。
189 0
|
5月前
|
存储 监控 负载均衡
Elasticsearch 集群副本
【8月更文挑战第24天】
94 13
|
5月前
|
运维 监控 安全
【TiDB原理与实战详解】2、部署与节点的扩/缩容~学不会? 不存在的!
TiUP 是 TiDB 4.0 引入的集群运维工具,TiUP cluster 用于部署、管理 TiDB 集群,支持 TiDB、TiFlash、TiDB Binlog 等组件。本文介绍使用 TiUP 部署生产环境的具体步骤,包括节点规划、工具安装、配置文件修改及集群部署等。同时,提供了常用命令和安全优化方法,并详细说明了如何进行集群的扩缩容操作,以及时区设置等维护工作。
|
关系型数据库 MySQL 中间件
MySQL分库分表动态扩容缩容
MySQL分库分表动态扩容缩容
166 0
|
存储 分布式计算 Ubuntu
|
NoSQL 负载均衡
【Cassandra】Cassandra集群管理节点
The Apache Cassandra database is the right choice when you need scalability and high availability without compromising performance. Linear scalability and proven fault-tolerance on commodity hardware or cloud infrastructure make it the perfect platform for mission-critical data.
995 0
|
存储 NoSQL
Cassandra集群删除宕机节点
Cassandra集群删除宕机节点
Cassandra集群删除宕机节点