Cassandra技术介绍之开篇

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云数据库 Tair(兼容Redis),内存型 2GB
简介: cassandra的技术浅谈

Cassandra是一款分布式的去中心化的数据库,她脱胎于Dynamo以及bigtable,吸收了二者的架构以及数据模型在开源社区的孵化下达到今天这么一个程度。CAP理论中她更强调AP两点,当然C的属性也是可调的,C 和A 这2块在Cassandra身上可以看到一个权衡的存在。本文会从以下几个方面去介绍Cassandra相关知识:

  • 基本架构
  • 部署运维
  • 使用方法

一:基本架构

Cassandra可以有多dc的部署方案,且也有适合在云环境下的部署方案,从复杂的snitch到simple的snitch。不同的环境有不同的部署方式,如果你希望你的cluster下面都是在一个dc,可以使用simple snitch,如果想要有更复杂的rack 以及dc方案,配合network的拓扑,可以组合成比较合适的一套多dc的架构。当然也有适合云上很亲和性的snitch。这里以及简单的simple snitch策略进行介绍。

下面是Cassandra的单DC下的基本架构,其中集群各个节点的conf配置文件里面会配置该节点的partitioner策略,这个策略主要用来计算用户指定的key 以何种hash计算方式计算为一个确定的hash值;其中partitioner策略有4种,分别是:

        Murmur3Partitioner;
        RandomPartitioner;
        ByteOrderedPartitioner;
        OrderPreservingPartitioner;

各个partitioner分别表示不同的,分别表示不同的hash计算方式,当一条key来到Cassandra的集群中,被计算成对应的hash值,并按照该值路由到key的归属节点。比如pkey 经过A节点的计算得到DKeyA,然后路由到从属的primary 节点B,以及副本节点C,D (假设副本数3,摆放策略simple)。

现阶段一个节点负责的hash范围也是有2种配置方式,一种是一个节点分配一个token,这样每个节点按照顺序就可以负责一定的范围,但是这样需要预先平均的计算好各个节点分配的token值;还有一种就是vnode的方式,一个节点分配特定个的token_num,这样在最初加入集群的时候就会计算好相关的vnode。无论哪种方式,给的建议都是要保证每个节点负责的range区间量一致,不然会出现某些节点读写比较频繁,达不到均衡的效果。当然每种方式也有各自的优缺点。

cassandra_art

Cassandra在建keyspace的时候会需要设置副本数,基于keyspace下面的所有的table都是有对应的副本,副本的摆放策略也是基于我们设置的策略进行摆放。此外,在读写的时候需要人为的设置一个Consistencylevel的这个参数,大概的Consistencylevel包括下面几个方面:

LEVEL:

  • ONE:只需要一个副本响应即可;
  • TWO:需要2个副本给出响应;
  • THREE:需要3个副本给出响应;
  • QUORUM:需要大多数(副本数/2 + 1)副本响应;
  • ALL:需要所有副本响应;
  • LOCAL_QUORUM:只需要本地DC下的大多数副本响应;
  • EACH_QUORUM:每个DC下都需要有大多数副本响应;
  • LOCAL_ONE:只需要一个副本响应即可;
  • ANY: 写操作,一个副本响应,或者proxy节点可以记一个hint;读的操作,等一个副本响应;

当我们的请求落到对应的数据节点上以后,在数据节点上由以下几个组件组成我们单机的引擎:

  • Commitlog
  • Memtable
  • Row/Key Cache
  • BloomFilter
  • Sstable (与之相关的有很多物理文件)

至于具体的细节后续会介绍。


二:部署运维

因为cassandra的部署很简单,只需要一个进程就可以搞定,此外社区也有一些相关的工具支持管理运维。所以整体下来部署还是相对的方便简洁,编译完对应的代码,修改conf下面的yaml文件里的相关配置,其中比较重要的几个就是

  • Cluster_name:给你的集群起个名字;
  • Num_token,这个参数和initial_token要做好配合选择;
  • Parititoner:决定了你的集群以何种方式计算hash key;
  • Data_file_directories:虽然在配置里是被注释掉的,但是生产下还是建议自己好好配置下,毕竟还是会影响你的性能;
  • Commitlog_directory: commitlog 的位置,建议和数据盘分开;
  • Seed_provider:seed 节点的信息;

当然,还有别的东西会影响你的集群的性能,比如cache的配置,认证的配置,log 刷盘的配置,读写处理现场池大小等等配置,暂不一一列举,后面会有单独文章介绍配置调优。

​ 当配置完上述文件以后,我们在bin目录下面启动下cassandra这个可执行文件即可,当然我建议自己可以再写一个start的脚本,在脚本里面可以做一些进程nice值调整等事情;

当你nodetool 执行下status命令可以看到节点的状态是UN,表示各个节点都up了。列如我下面部署了4个物理节点的集群:

_2019_04_12_3_13_20

当然,也可以按照自己需要进行rack的部署,dc的部署等,这里只是演示下情况;


三:使用方法

可以使用cassandra自己自带的Cql shell进行一些基本的操作,当然cassandra的官方也推荐了一下driver进行基本的数据操作,见这里,通过这些软件,我们可以很方便的操作读写cassandra的集群,除此之外cassandra还为我们提供了一些运维管理的工具,比如所有对集群节点的操作可以再bin下面通过nodetool脚本进行执行:

nodetool cleanup:清理不属于本节点的key
nodetool compact:执行major compaction
nodetool decommission:decommission掉链接的这个节点
nodetool drain:drain掉这个节点
nodetool flush:对一个/多个table执行flush操作
nodetool info:输出节点的信息
nodetool repair:执行repair操作
nodetool status:输出集群状态信息
nodetool tablestats:输出表信息

下面是我们的社区,可以到我们的社区咨询,讨论相关问题:

微信群:

49a80b6aa947137f3ea33c447c2eaf13fc422453_jpeg

钉钉:
1b211c42d2911109ac34b9e79c33ef2992458c75_jpeg

目录
相关文章
|
8月前
|
存储 分布式计算 大数据
HBase分布式数据库关键技术与实战:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入剖析了HBase的核心技术,包括数据模型、分布式架构、访问模式和一致性保证,并探讨了其实战应用,如大规模数据存储、实时数据分析及与Hadoop、Spark集成。同时,分享了面试经验,对比了HBase与其他数据库的差异,提出了应对挑战的解决方案,展望了HBase的未来趋势。通过Java API代码示例,帮助读者巩固理解。全面了解和掌握HBase,能为面试和实际工作中的大数据处理提供坚实基础。
487 3
|
存储 NoSQL Linux
JuiceFS-开源分布式文件系统入门(一篇就够了)(下)
JuiceFS-开源分布式文件系统入门(一篇就够了)(下)
327 0
|
存储 分布式计算 监控
深入浅出 HBase 实战 | 青训营笔记
Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种分布式存储的数据库,技术上来讲,它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等待。
1119 0
深入浅出 HBase 实战 | 青训营笔记
|
存储 Kubernetes API
JuiceFS-开源分布式文件系统入门(一篇就够了)(上)
JuiceFS-开源分布式文件系统入门(一篇就够了)(上)
536 0
|
存储 SQL NoSQL
MongoDB从基础到实战的学习之路(万字总结值得一看)
🍅程序员小王的博客:程序员小王的博客 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 如有编辑错误联系作者,如果有比较好的文章欢迎分享给我,我会取其精华去其糟粕 🍅java自学的学习路线:java自学的学习路线
282 0
MongoDB从基础到实战的学习之路(万字总结值得一看)
|
存储 分布式计算 负载均衡
深入浅出 HBase 实战|青训营笔记
1.介绍 HBase 的适用场景和数据模型;2.分析 HBase 的整体架构和模块设计;3.针对大数据场景 HBase 的解决方案
262 0
深入浅出 HBase 实战|青训营笔记
|
SQL 存储 分布式计算
Presto 架构原理与优化介绍 | 青训营笔记
MapReduce代表了抽象的物理执行模型,使用]槛较高。 与Mapreduce Job相比,OLAP引擎常通过SQL的形式,为数据分析、数据开发人员提供统的逻辑描述语言,实际的物理执行由具体的引|擎进行转换和优化。
603 0
Presto 架构原理与优化介绍 | 青训营笔记
|
存储 数据可视化 大数据
Kudu入门_应用场景_项目介绍|学习笔记
快速学习Kudu入门_应用场景_项目介绍
140 0
Kudu入门_应用场景_项目介绍|学习笔记
|
SQL 大数据 数据建模
大数据框架原理简介(3)
大数据框架原理简介(3)
187 0
大数据框架原理简介(3)
|
大数据 数据挖掘
大数据框架原理简介(2)
大数据框架原理简介(2)
151 0
大数据框架原理简介(2)