数智创新行-SelectDB Cloud技术内核与解决方案(一)
嘉宾信息
肖康 SelectDB 技术副总裁
SelectDB Cloud技术内核与解决方案(一)
内容介绍
一、 SelectDB Cloud技术内核
二、 融合统一
三、 简单易用
四、开源开放
我是来自SelectDB技术副总裁的肖康,接下来,我将为大家介绍数据库的内核技术和面向业务的解决方案。
首先,我们一起看一看,数据库技术是一款采用纯分离架构的实施的软件,给我的客户带来极致的性价比,融合统一,简单应用企业特性和开源开放。
一、SelectDB Cloud技术内核
接下来,我将围绕着五大特点来解析核技术,首先是性价比,对性能的追求,是我们不断的要求。
目前已经取得了非常不错的性的表现,在单个场景,我们知道是以单表聚合的性能的这个场景下,取得了不错的成绩,不光在单表性理下面表现突出,在多表关联方面也突出,超低的成本,它相当于自由部署,能够做到1/2到1/5的性能,是同类产品的1.5倍,但是成本却降低了50%以上,我们可以通过一些用户的案例来感受一下,比如6.6秒,降到0.649了,云积分实时圈的业务出现三到五分钟,降低了十秒,沉股份的业务报表计算,以两个小时降低了两到三分钟,查询的延迟,五分钟降到五秒钟,同时,这些用户于高性能的查询引擎得到了这种数量级的查询,延值的降低,极大提升了用户的体验。
接下来我们看一看在十月份排行榜,源于实际的业务场景中的一些数据和差别。
我们在通用的实际的性能是排在第一位,而且和第二位,第三位拉开了20%到40%的差距,我们将近半排在第一位,所以在这个场景下面,其是在世界领先的,在这些强劲的性能数据背后,使用采用了哪些核心的技术呢?
首先是我们基于的这种查询引擎,通过这种分布式的的,全分布式的擎,我们可以充分发挥每一个节点的cpu和内存的资源,是来进行多核的,分布式的运算,包括多种的,大小表,大表和大表的然验等等一些优化,这些优化是采用这种简单分式架构做到的,第二个核心是向量化的计算引擎,通过采用链路的内存的布局,向量化的计算框架,我们充分利用cpu的加速指令来大幅提升cp缓存的降低,将查询的性能提升一个量级,第三块是高校的存储,在存储上,我们采用全列式的存储,针对不同的数据类型提供高效的压缩编码,比如说针对数字类型的,针对字符串类型的字典编码,我们对这些数据呢还提供很好的,丰富的索引,像经常使用到的组件索引,我们还将搜索引擎里面用来做检索加速的技术索引也引入到了里面来提升网站数,面对不同的场景,我们提供了种存储模型,第一种是面向明细场景的模型,适用于这样的场景,是模型,它适用于有聚合查询的场景;比如说像第三类是模型,它适合这种并发的查询,,我们将它结合,开放新的智能的优化器,能够实现像常量折叠,为此下推荐规划并提供的短路优化,让查询的这个规划时间大大提升,通过检查行程的优化能够极大提升效率,最终我们将单机的数千能够提高到万,提升了一个量级。
在提升性能同时,不忘降低成本,我们采用分离的架构,在一个之间,我们共享同一份存储进行计算隔离,避免了数据在不同业务的冗余的存储,带来了比较低的成本,实了弹性机制,能够按需进行的资源分释放,提供了弹性的模式,用户可以按量计费,包月的后的计费。
用户可以将这些方式混合起来,根据这个业务需求来灵活使用来降低它的使成本。
在云上部署的时候,云盘还有赋能作用,这会带来成本非常高的国际节点。我来比较一下实际一个案例,我们在一个客户的场景里面,它有三个节点去做t的数据,早晚需要去扩增加两个节点,我们在推算下来的价差不多40万每年,如果直接去买这种E字典的话,大概是36万美,采用时间弹性或机制,计算下来,大概是5.4万的成本,这样的话,就有六到八倍的剩余,七到八倍的成本降低,对用户来说是一个非常大的节约。
二、融合统一
下来我们看一看第二个特点,融合统一。我们在多个层面讲如何处理,首先是实时统一,我们在通过的方式,多个论文利用率提升起来12倍,如何做到呢,通过将批量的转化成批量的量计算它的轻量容错和这种量化擎来提升这个数据处理的效率,最以能够达到十倍,,
我们另外一个识别是结构化和半结构化数据,以及非结构化数据统一。
随着业务的发展,市场不再是仅仅处理结构化表格数据,省化的行相对于原始的字符串,存储的速度是解析的四倍,而且能够很好地支持这种高并发的情况,能够对导入的节省的字段和类型,拆分成一个个能储引擎,所以它非常适合做高校的非结构化的文本数据,提供了高效的文本分析的算法,而且还提供了很好的搜索引擎加速检索术。字符串匹配我们通过索引来减少数据i对于数类型的数据,我们通过提供一维的字符串,在文本分析的算法方面,我们提供了匹配的性能,能够比普通的字符串匹配能够提升两三倍的速度,通过擎能够比普通的智能匹配提升三到五倍,我们再通过存储层下推,能够提升两到三倍,综合起来,我们对于字符串匹配的性能能够达到五倍的提升,在这样一个的这样一个场景里面,我们性能如何呢?我们来进行测试,存储空间是s的效率的2.3倍,这里的存储空间的已经包括了索引。
相对在结构化数据的处理方面,在多交易方面能是很强的,可以很便捷的与数据通数据通过这种外表的支持来加速速度的提升。