数智创新行-新一代云原生实时数仓 SelectDB(一)
嘉宾信息
姜国强 SelectDB 云产品负责人
数智创新行-新一代云原生实时数仓 SelectDB(一)
内容介绍
一、 数据分析与飞轮科技
二、 SelectSelectDB Cloud产品介绍
三、 SelectSelectDB Cloud 特点
四、SelectSelectDB Cloud 操作演示
一、数据分析与飞轮科技
首先,简单介绍一下数据分析与飞轮科技,数据分析技术已经成为数据经济时代最核心的生产力,包含换库,金融,政企,服装,餐饮等各行各业都在越来越多的利用数据分析技术来驱动业务的发展,应用于辅助决策,提升业务效率,预测未来发展的场景,另外,据预测,到二零二五年,全球的数据量将达到一百七十五个,这比年后的增长率达到百分之二十六点九,这个增长速度非常的快,其中实时数据达到51的这笔从今天的百分之十九提升到二零二五年的百分之二十九,从这种数据也可以看出来,用户对于数据的利用越来越多,越来越广泛,而且越来越实时,用户的数据分析需求非常的大,大量的数据分析需求也在推动的数据分析技术的发展,我把数据分析的发展过程分为三个阶段。
第一个阶段是数据仓库时代,这个就量主要是用来满足企业内部的需求,主要使用的数据技术为传统的关系数据库和从关系数据库演证出来的数据仓库技术,第二个,称为并行的时代,但这个阶段产生了大量的数据分析需求,除了企业内部的包含分析与报表,数据工程,机器学习,各种数据应用等大量的数据分析需求,主要使用的技术分为两大类,数字服技术和数据仓股技术数据首先进入到离线的数据服中,经过处理之后,关注到数据仓库提供服务,数据库类的产品,数据仓库的产品非常多,在这一个阶段,数据分析的技术得到的充分的发展,可以说是百纳齐矿每一类场景都一个或者是多个系统诞生,一定程度上满足了用户的需求,但是也产生了比较多的问题,第一个明显的问题是一类需求,用一个系统来满足的话,企业需要部署有多套系统,运营压力很大,而且资源的成本很高,第二个典型的问题是数据分析运用越来越广泛,对于数据分析的实时性,效率要求很高,而这一部分服并行时代解决的并不是很好,第三部分是传统的idc和本地机器,已经很难满足业务快速发展,快速变化需求,尤其是创意新的公司,或者是业务快速变化的公司,因此,最近几年数据分析技术开始朝的融合发展,实时统一这种方向去发展,并且结合这个云技术进入现代的数据战时代,主要体现在两个特点,统一代表了产品,比如说大家耳熟能详的产品,正是在这样的数据分析技术背景下产生的科技是一家专注于开源研技术创新的分析型数据库。
主要是基于开源去研发下一代的云原生实时数仓,公司的初创成员主要来自于项目的核心开发,以及百度,腾讯详细的一线互联网公司的核心开发人员。
二、SelectSelectDB Cloud产品介绍
下面来重点介绍一下我们的云产品, 全面介绍,是一款基于云原生实时数据仓库,它可以从丰富的数据源导入数据,包含对象存储,也可以通过查询,访问其他的的数据源,对外提供实施的数据服务,交付式的数据分析,离线的数据处理等等。
可以很好的满足公司内部的各种数据分析需求,总体上来说的话,有4个非常明显的特点,第一的特点是极致性价比,在这种大盘表的场景下,性能排名全球第一,遥遥领先于其他的竞品,在云场景下,标准设计下,性能达到其他产品1.5倍,而在成本方面的话,b的成本要比其他产品低50%以上,所以提供了非常好的性价比,第二个特点是融合统一,它可以很好的支持这种实时交互,能够查询数据,同时能访问数据,所以,iSelectDB可以很好的用一套技术在满足企业内部的数据分析需求,第三个特点是简单,是一款全投管的云产品服务,所以用户不需要去关注各种底层的基础设施,可以专注于自己的业务,第二个是SelectDB高度兼容大数据生态,所以大数据生态里面的组件都可以拿过来用,第三点是SelectDB具有非常成熟活跃的社区,有问题的还可以到社区里面去咨询,第4个特点是开源开放,坚持和保持兼容,支持数据之间互相迁移,避免用户去担心,被某一大厂锁定了,同时在app支持支持主流的cpu架构,我们来看看是SelectDB的四种典型使用场景。
第一种典型使用场景是面向客户的报表分析场景,这里场景主要是采集线上的业务数据和应用日志的提供高并发,定延时的在线报表分析等功能,可以做到十毫秒级的延时,上万级的变化,可以非常好的替代传统的系统,这个这个场景实际上也是诞生时这持的场景,所以SelectDB可以支持的非常好;
第二个非常典型的场景是用户行为发向分析,这个场景下,只要收集用户的属性行为相关数据,用于支持一种用户的留存人群,等典型使用场景,是app支持的,方便去实时快速的更新用户属性链增加减少,这种可以实时的更新数据迁移及数据的基础上,可以达到秒级的查询性能,可以很好的替代产品在这个场景下的使用;
第三,已经只能场景存储分析,主要收集文字系统,日志甚至是传感器环境下的这种指标数据,提供可视化的可观测性分析,所以支持半酒无法数据处理,实时入库,且可以同时提供某不检索统计分析,这两种能力很好地解决了日志的统计分析需求,因此可以很好地替代产品,并且SelectDB成本上可以降低90%,性能上提升有四倍,进来的效果非常的好;
第四个典型的场景是现代化的内部数据平台,前面我们说过,可以统一注意仓库数据符到同一套平台上,这样可以大大简化企业内部的技术架构,用投一套系统来满足多种使用场景,但提供时时查询机致的性能,可以比较好的替代spark等传统的系统,然后我们来看看中的一些关键概念。
主要包含三个组织,仓库和集群组织,或者是一个企业,或者是一个独立的团体,也是机会的单元,一个公司通常来使用,SelectDB,就是一个组织里的资源数据,机会是完全隔离的。
第二个关键概念是仓库,是一个逻辑概念,里面包含计算和存储资源,一个组织下可以创建多个仓库,用来满足不同的业务需求,比如说仓库用于满足金融,是业务需求,仓库二用于满足广告业务需求,仓库三用于满足物流业务需求不同的仓库之间,它的数据和资源是完全隔离的,这三个概念是集群,集群是仓股中的计算资源,包含一个或者多个计算节点,概念上其实非常类似大家理解的传统的这种分布式计算引擎,一个长库下可以包含多个集群,最多个集群共享底层的数据,多个集群可以用于做不同的工作负载,比如说集群一,用于做导入集群,二用于做报表分析集群,三用于做这种交识分析,仅使当一个公司在使用的时候,实际上它是作为一个组织可以创建多个仓库,每一个仓库去服务不同的业务,有比较好的隔离性,在仓库内部可以创建多个集群,每个集群去做不同的工作,支持不同的工作负载,非常的方便,接下来我们来看看的产品架构,首先设计整个产品架构中的组件都采用语音的基础设施。
安心使用,无限扩展,另外是SelectDB也面向允序设计,就充分利用云里面的这种新硬件,新技术,做到了一款纯下的产品,当然这个过程比较长,需要持续的去做,去努力,第二个层面,采用存上分离的价格,从图我们可以看到,从最上层的这种管理层到中间的为集群计算层到底层的对象存储,这种存储在激犯和存储分离计算层面可以弹性拓展,而且不同的计算机群之间负载隔离存储层面,采用对象存储成本比较低,并且安全可靠,虽然是莱迪采用这种分离的架构。
可以达到业界顶级的性能,只要因为SelectDB采用了这种存储和计算协同的设计,存储为计算设计,后面我们会展开介绍一些。第三个方面是SelectDB高度兼容大数据的生态,可以从中导入数据,也可以访问等数据服务中的数据,并且提供买社会协议app协议的查询方式,方便用户来使用,接下来我们看看这种数据模型采用存储和计算协同设计。我们来看看,大概是怎么实现的,首先在存储层面采用列式存储,这样采与已经可以按需去读取需要的脸性能比较好,并且写列成的压缩比也比较高,另外,在之上提供了丰富的索引,包含这种排序索引,弥漫的索引盗等等,但结合上它运行的这种量化执行,所以可以达到业界顶尖的性能,因此可以支持好这种面向用户的报表与分析需求,用户画像与行验分析,索引也是支持存储于分析这种场景的关键技术。
此外是常用的使用场景提供了场景化的存储模型,包含三类模型,具体来介绍一下,总体上来看,SelectDB还是偏向于表格类的模型,表中的列被分为两大类,一类似k点,一类是不同存储模型,在k列相同时,两条记录之间的value流点表现是不一致的。
首先来看的k模型,这种模型下k相同时两每条记录的会进行合并,比较适合报表统计的场景,具体拿的例子来看,比如说右上角的这个销售数据统计每个门店每天的销售额,随着时间的推移,会产生大量的销售数据,数据量非常大,普通的系统性能也很慢,但是当数据导入进行聚合,从而大大降低数据量,这种模型下,相同k列的两条记录会进行覆盖新数据,覆盖数据非常适合关系数据的分析场景,举个例子,比如说右下角订单分析,当一个订单的状态发生变更,这条变更的状态增量同步在 SelectDB中,实新数据会覆盖老的数据,这种方式对于关系数据分析非常的简单,非常的方便,第三种模型是不用k模型,也称为明星模型,相同k列的两条记录会被完整的保存下来,这这个模型非常适合非常匹配日志的场景全面,我们介绍了SelectDB卡号的典型使用场景,关键概念,产品架构数据模型,方便大家更好地理解。