【数据蒋堂】第15期:开放的计算能力为数据库瘦身

简介:

【数据蒋堂】第14期:计算封闭性导致臃肿的数据库

我们在上一期谈到,数据库的臃肿,也就是过多的中间表以及相关存储过程,是由于其计算封闭性造成的。如果能够实现独立的计算引擎,使计算不再依赖于数据库提供,那么就可以为数据库瘦身了。

内部来源的中间数据不必再以数据表的形式落地在数据库中,而可以放到文件系统中,由外部计算引擎提供进一步的计算能力。对于只读的中间数据,使用文件存储时不需要考虑再改写,可以更为紧致并采用一定的压缩手段,而且在访问时也不必考虑事务一致性,机制大为简化,这样能获得比数据库更好多的吞吐性能。文件系统还可以采用树形组织方案,将各个应用(模块)的中间数据分类管理好,使更方便,并且可使中间数据将从属于应用模块,不会被其它模块访问到。当有模块修改或下线时,相应的中间数据可以跟随修改,而不必担心被共享而产生的耦合问题。用于生成中间数据的存储过程也可以移到数据库外部,作为应用程序的一部分,同样不会产生耦合问题。

外部来源的中间表也可以减少甚至取消。ETL过程的E、T步骤可以直接在数据库外部由计算引擎实施,在完成清洗转换之后再加载进数据库。E、T步骤中不占用数据库的计算资源,当然也不需要建立中间表来保存这些数据,数据库只要保存最终需要的结果即可。

多样性数据源的数据呈现也可以直接由计算引擎实现数据源和数据库的混合计算,这样就不必将外部数据源导入数据库,有效减少中间表。在数据呈现时由计算引擎临时向数据源发出取数指令以获得最新的数据,还可以获得更好的实时性,而采用中间表方式一般只能定期把外部数据源转入,无法看到最新的外部数据。而且,不将外部数据导入数据库,还能继续利用原数据源的某些优势,比如NoSQL数据库对于按键值查找有很好的性能,还能较好地解决数据结构多样性的问题。另外,专门设计的计算引擎如果再能处理好XML,json这类多层数据,在计算描述上也比传统的关系数据库更有优势。

除了必须的计算能力本身之外,要用于数据库瘦身的计算引擎必须拥有较好开放性和可集成性。

开放性是指计算能力并不依赖于某种存储体系,而可以计算各种来源的数据,比如文件系统中的数据,这样就能利用适合的存储方案来组织管理中间数据。如果计算体系要求特有的数据存储体系(比如数据库),那只是把数据库的臃肿换了一个地方继续臃肿。可集成性是指计算能力可以嵌入到应用程序中,成为应用的一部分,而不能象数据库那样是个独立的进程,这样就不会被其它应用(模块)共享,避免出现应用间的耦合问题。

从这个意义上讲,Hadoop体系(包括Spark)虽然有一定的计算能力,但并不合适充当开放计算引擎的作用。Hadoop有一定的开放性,可以计算体系外的数据,但并不常用,而且性能较差;Hadoop是以独立进程方式运行的庞大体系,基本上没有可集成性,很难完全嵌入到应用程序中。

有了开放可集成的计算能力,相当于实现了计算和存储的分离,在设计应用的体系结构时就会更为得心应手。不必为了获得计算能力而部署多余的数据库或者扩容数据库,让数据库专心做它最合适做的事情,将资源效用发挥到最大。


原文发布时间为:2017-7-18
本文作者:蒋步星
本文来自云栖社区合作伙伴“数据蒋堂”,了解相关信息可以关注“数据蒋堂”微信公众号
相关文章
|
11天前
|
存储 缓存 数据库
数据库数据删除策略:硬删除vs软删除的最佳实践指南
在项目开发中,“删除”操作常见但方式多样,主要分为硬删除与软删除。硬删除直接从数据库移除数据,操作简单、高效,但不可恢复;适用于临时或敏感数据。软删除通过标记字段保留数据,支持恢复和审计,但增加查询复杂度与数据量;适合需追踪历史或可恢复的场景。两者各有优劣,实际开发中常结合使用以满足不同需求。
45 4
|
1月前
|
数据库 Python
【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断
【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断
|
11天前
|
人工智能 关系型数据库 分布式数据库
让数据与AI贴得更近,阿里云瑶池数据库系列产品焕新升级
4月9日阿里云AI势能大会上,阿里云瑶池数据库发布重磅新品及一系列产品能力升级。「推理加速服务」Tair KVCache全新上线,实现KVCache动态分层存储,显著提高内存资源利用率,为大模型推理降本提速。
|
2月前
|
SQL 数据建模 BI
【YashanDB 知识库】用 yasldr 配置 Bulkload 模式作单线程迁移 300G 的业务数据到分布式数据库,迁移任务频繁出错
问题描述 详细版本:YashanDB Server Enterprise Edition Release 23.2.4.100 x86_64 6db1237 影响范围: 离线数据迁移场景,影响业务数据入库。 外场将部分 NewCIS 的报表业务放到分布式数据库,验证 SQL 性能水平。 操作系统环境配置: 125G 内存 32C CPU 2T 的 HDD 磁盘 问题出现的步骤/操作: 1、部署崖山分布式数据库 1mm 1cn 3dn 单线启动 yasldr 数据迁移任务,设置 32 线程的 bulk load 模式 2、观察 yasldr.log 是否出现如下错
|
2月前
|
JSON Java 关系型数据库
Hutool创建数据源工厂动态查询不同数据库不同数据表的数据
Hutool创建数据源工厂动态查询不同数据库不同数据表的数据
52 2
|
1月前
|
SQL Java 数据库连接
【YashanDB数据库】由于网络带宽不足导致的jdbc向yashandb插入数据慢
由于网络带宽不足导致的jdbc向yashandb插入数据慢
|
28天前
|
关系型数据库 MySQL Java
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
|
1月前
|
关系型数据库 MySQL 数据库连接
docker拉取MySQL后数据库连接失败解决方案
通过以上方法,可以解决Docker中拉取MySQL镜像后数据库连接失败的常见问题。关键步骤包括确保容器正确启动、配置正确的环境变量、合理设置网络和权限,以及检查主机防火墙设置等。通过逐步排查,可以快速定位并解决连接问题,确保MySQL服务的正常使用。
265 82
|
3天前
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。

热门文章

最新文章