开源 SPL 打破数据库计算的封闭性

简介: 开源 SPL 打破数据库计算的封闭性

正文


我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。


数据库一般有 OLTP 和 OLAP 两个用途。对于 OLTP 业务来讲,因为要保证数据的一致性,而一致性只有在一个确定的范围内谈论才有意义,这样就自然就会带来封闭性:数据库系统将保证也只负责数据库内部的数据的一致性。


不过,OLAP业务却没有数据一致性的要求。而用于OLAP业务的数据仓库也常常是用数据库来充当,这样的数据仓库也顺便继承了这个封闭性。


数据库的名字中有个“库”字,这会让人觉得它是个以存储为主要目的的产品。其实不然,在实际应用中,特别是在大数据场景下,数据库有相当多的作用是计算,对于 OLAP 业务几乎可以说是全部,其存储经常也是为了计算服务的。因为数据库的计算能力还不错,远远超过大多数其它软件产品,所以人们经常会为了计算目标而部署数据库。


但是,一个以计算为主要任务的产品,没必要绑定封闭性这样的特点。数据库的封闭性会带来诸多问题,且越来越难适应当代的需要。


数据库封闭性带来的问题


ETL变成ELT甚至LET


一个典型的现象就是 ETL 经常被做成 ELT 甚至 LET。ETL是E、T、L这三个步骤,本来设计得很合理,先E再T再L。但是,ETL 中的 E 和 T 这两步事实上也是某种计算,如果计算能力被封闭到数据库之内的话,我们就只能先把数据装入库中才能计算了,因为无法计算库外的数据。然而 ETL 过程中的原始数据常常并不在库内,或者至少不在这个用于计算的数据库中,也可能存在于多个数据库。结果,都需要先做个同库动作之后才能再计算,也就是要先L才能去做E和T,打乱了ETL的合理次序。


数据库的封闭性,相当于城市有个城墙,数据要进出也必须通过数据库的城门,过程中还要进行一些检查。对于 OLTP 业务,为了保证一致性,这些检查是有必要的,但也会损失数据库的 IO 效率,而这对于 ETL 这类业务几乎没有意义,只是浪费时间而已。


中间表带来的资源消耗和耦合


还有中间表。原始数据量很大时,直接基于原始数据计算汇总信息(如报表查询)时的性能会很差,用户体验恶劣。这时,我们会先把一些汇总结果事先计算出,再基于这些中间结果做呈现,用户体验就会好很多。有时候是因为计算过程很复杂,在生成报表时临时计算会使报表开发过于繁琐,也会采用中间数据事先计算好。这些中间数据通常会以数据表的形式存储在数据库中,也就是中间表。之所以存储在数据库中是为了获得进一步的计算能力,中间数据也不是直接使用的,在报表查询时还需要再做少量计算,而基于数据表实施计算(SQL)相对其他方式更方便。


前端统计是业务稳定性比较差的业务,会经常修改和增加,随之而生的中间表也会越来越多。


前面说过的ETL变成ELT和LET由于需要事先入库也会形成很多中间表。


中间表一方面会占用大量存储空间,数据库空间非常宝贵,扩容成本很高。另一方面,中间表还会伴随着存储过程去定时更新数据,消耗数据库计算资源,导致数据库性能下降。


过多的中间表还会带来管理困难,数据库的表是以线性形式组织管理的。在数量不多时尚可,太多(几千上万时)就很难理解,人们一般会采用树状多层结构来组织管理众多的条目。但关系数据库并不支持这种方案(有个模式概念可理解为只能分两层),这时候就要给表较长的命名来区别其分类,使用不便,对开发管理水平要求还高,在工作较急迫时常常顾不上规范,而随便起个名字先把任务完成再说,时间长了,就会遗留大量的混乱中间表。


不仅如此,中间表还会造成各个应用间的紧耦合问题。数据库是一个独立进程,其计算能力在应用外部,不从属于某个应用。各个应用共享数据库,都能访问数据库的资源。某个应用(模块)中生成的中间表可能被另一个应用(模块)调用,这就造成了应用(模块)之间的耦合性,即使某个中间表的制造者已经下线不用,但因为可能被别的应用使用了而不能删除。这样不断新增,中间表的数量会越积越多更加加剧数据库存储容量和计算资源告急的情况。


多样性数据源


当代应用中多样性的数据源越来越普遍,经常有来自外部服务的数据。如果为了计算这些数据而先把它们转入数据库中,也是非常累赘的。临时转入的效率很低(因为数据库的 IO 成本高),很可能跟不上访问需求,定时批量转入又很难获得最新的数据,同样影响计算结果的实时性。


把外部数据存储在数据库中,又会形成众多中间表,面临中间表的各种问题。而且有些互联网上取过来的数据常常是多层的 json 或 XML 格式,在关系数据库中还要建立多个关联的表来存储,会进一步加剧中间表的问题。


存储过程带来的安全和耦合问题


除了中间表,还经常会使用存储过程,虽然存储过程缺点很多(缺乏移植性、编写调试困难等)。为什么会这样呢?由于数据库计算必须在封闭的库内完成,但有些复杂计算通过一句SQL很难实现,而存储过程支持分步计算,且可以利用数据库计算能力,因此大家不得不容忍其缺点。


查询分析类的存储过程是需要经常修改的,由于存储过程与数据库紧密结合,如果程序员每次修改存储过程代码,都要提交给数据库管理员去审核编译,多了环节无疑会降低工作效率。要么给程序员赋予编译存储过程的权限,这样倒是提高效率了,但存在严重的安全隐患,因为编译存储过程的权限过大,程序员有可能误删数据,甚至删除其他应用的数据。其实,查询报表类业务只需要有读权限就可以了,本来不会对数据库造成误写入,但使用存储过程机制却无法避免。


不仅如此,存储过程也会造成应用间的紧耦合,其内在原因和中间表是一致的,同一个存储过程被多个应用(模块)共用导致应用间的耦合性。


大数据性能导致的尴尬


随着业务的发展数据量越来越大,查询性能随之下降,严重时还会影响生产系统。为了保证业务稳定性通常会数据分库,将历史冷数据和当期热数据分库存储,实现冷热数据分离。查询大量冷数据时不会影响生产系统,查询热数据由于数据量很小也不会对生产系统造成很大压力。


但是,冷热数据分离会导致很难完成实时数据(T+0)查询。数据库的封闭体系不允许或很难计算库外的数据,包括跨库查询。而冷热数据分离后,要查询实时数据又必须跨库。同类数据库还有一些跨库查询的手段,虽然性能很差但至少还可以实现。而实际业务中冷热数据存储的数据库类型往往并不一致,热数据在生产系统中更多使用擅长OLTP业务的RDB,而冷数据经常会采用专门面向OLAP业务的数据仓库。跨异构库查询对数据库来说就更加难以实现了。


数据库封闭性引发的这些问题会伴随技术进步不断放大,传统“有库”的方式似乎越来越难适应现代应用架构的需要。


开源集算器SPL的出现,将解决这些问题。


SPL(Structured Process Language)是专业的结构化数据计算引擎,提供了丰富的计算类库,支持过程计算,擅长完成各类复杂计算。开放计算体系支持多数据源混合计算,数据无需“入库”就可以直接计算,SPL支持热切换,提供标准JDBC接口。


开放的SPL解决方式


多样源直接计算


不同于数据库需要数据先入库再计算,SPL面对多样性数据源时可以直接计算。数据入库不仅时效性差,也无法保证数据的实时性。此外不同数据源有各自的优点,文件的IO效率很高,NoSQL可以存储文档数据,RDB计算能力较强,数据入库就无法享受这些优点了。


SPL 提供了开放的数据源支持,你听说过还是没听说过的数据源几乎都能支持,不仅可以连接取数,还可以进行跨数据源混合计算。SPL可以充分利用各类数据源的优点后,再实施跨源计算也更加高效。

2345.png


回归ETL的本来过程


SPL拥有独立于数据库的计算能力,本身可以基于多源完成各类数据处理。这样ETL中的E和T两步都可以在库外使用SPL完成,最后将计算整理好的数据再L到数据库中,从而实现ETL本来应有的三步:E、T、L。


甚至有的时候ETL结果也可以不装载到数据库,将结果存储到文本中,或者采用SPL的私有数据格式还可以获得更高的查询性能,进一步释放数据库压力。


库外存储过程机制解决安全性


SPL的计算能力不依赖数据库,可以在库外实施计算。与存储过程类似,SPL支持过程计算,可以将任意复杂的计算拆分成多步,逐步实施。这样原来不得不依赖存储过程的两个能力(计算和分步)就完全可以使用SPL替代,实现“库外存储过程”。


库外存储过程创建和使用不需要对数据库有写权限,使用存储过程带来的安全性问题就可以有效避免。


文件替代中间表减少数据库压力并降低耦合


基于SPL的文件(多样源)计算能力,可以将以前不得不存在数据库内的中间表外置出来,存储在文件系统中,再借助SPL独立的计算能力完成中间表再计算。


从中间表的角度,也可以将SPL的实现视作“库外中间表”。保存在库外除了剥离开数据库减少数据库压力外,中间表文件还可以借助文件系统的树状结构进行管理,不同应用不同模块使用的中间表(存储过程也一样)与该应用模块一同存储,别的模块不会共用,这样就解决原来共用中间表产生的应用间耦合性问题。


冷热分离实现T+0查询


SPL提供了数据路由功能,可以根据计算需求选择对应的数据源以及跨数据源混合计算。如冷热数据分离后,基于SPL可以很方便实现全量数据查询,同时对上层应用透明就像基于一个数据库查询一样。


特别地,历史冷数据还可以存储到文件(IO快、压缩灵活、易并行)中,再借助SPL的跨源计算能力,将数据库(热数据)和文件(冷数据)混合计算就可以获得更高效的T+0查询性能。同时,使用SPL自有的高性能数据格式还可以进一步提升运算性能。


不仅如此,SPL的开放性决定了SPL很容易与现代技术架构结合。将SPL集成到微服务中就可以替代Java完成数据处理工作,在数据中心中也可以充当计算引擎实现数据处理,从而更能适应现代技术架构的需要。


SPL资料


http://www.scudata.com.cn

http://c.raqsoft.com.cn/article/1595816810031

https://github.com/SPLWare/esProc

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
数据库 开发者
参与TiDB社区,共筑开源数据库的未来
【2月更文挑战第25天】TiDB社区作为开源数据库项目的重要一环,汇聚了众多数据库爱好者与开发者。本文旨在鼓励读者积极参与TiDB社区,通过贡献代码、分享经验、参与讨论等方式,共同推动TiDB的发展。文章将介绍TiDB社区的特点、参与方式以及贡献的意义,帮助读者了解并融入这个充满活力的开源社区。
|
2月前
|
数据库
电子书阅读分享《开源数据库工作室推广计划》
电子书阅读分享《开源数据库工作室推广计划》
18 1
|
5天前
|
关系型数据库 OLAP 分布式数据库
「杭州*康恩贝」4月26日PolarDB开源数据库沙龙,开启报名!
4月26日周五,PolarDB开源社区联合康恩贝将共同举办开源数据库技术沙龙,本次沙龙我们邀请了众多数据库领域的专家,期待大家的参与!
「杭州*康恩贝」4月26日PolarDB开源数据库沙龙,开启报名!
|
15天前
|
运维 关系型数据库 分布式数据库
「合肥 * 讯飞」4 月 19 日 PolarDB 开源数据库沙龙,报名中!
4月19日周五,PolarDB开源社区联合科大讯飞共同举办开源数据库技术沙龙,本次沙龙我们邀请了众多数据库领域的专家,期待大家的参与!
「合肥 * 讯飞」4 月 19 日 PolarDB 开源数据库沙龙,报名中!
|
1月前
|
NoSQL 关系型数据库 Linux
Star 1.6k!当Web遇上Linux和数据库!一站式管理平台的开源之旅!
Star 1.6k!当Web遇上Linux和数据库!一站式管理平台的开源之旅!
|
1月前
|
数据采集 JSON 小程序
GitHub 开源数据库 chinese-poetry,最全中文诗歌古典文集数据库
GitHub 开源数据库 chinese-poetry,最全中文诗歌古典文集数据库
|
3月前
|
关系型数据库 MySQL 数据处理
MySQL vs. PostgreSQL:选择适合你的开源数据库
在当今信息时代,开源数据库成为许多企业和开发者的首选。本文将比较两个主流的开源数据库——MySQL和PostgreSQL,分析它们的特点、优势和适用场景,以帮助读者做出明智的选择。
|
4月前
|
Java 数据库 索引
最强阿里及大厂350道面试大全:框架+数据库+并发+开源+微服务
无论是对于刚入行工作还是已经工作几年的java开发者来说,面试求职始终是你需要直面的一件事情。首先梳理自己的知识体系,针对性准备,会有事半功倍的效果。我们往往会把重点放在技术上,而忽略了人事部分,实际上人事面试也会影响到最终的结果,把每一个环节做好,最终的结果自然不会差。
|
4月前
|
存储 运维 安全
开源盛行:为什么学习国产达梦数据库?
开源盛行:为什么学习国产达梦数据库?
76 0
|
5月前
|
SQL C# 数据库
推荐一个Dapper扩展CRUD基本操作的开源库
推荐一个Dapper扩展CRUD基本操作的开源库
34 0

热门文章

最新文章