从2023数据技术嘉年看行业数据库的执行引擎

简介: 从2023数据技术嘉年看行业数据库的执行引擎

2023年4月7-8日,数据技术嘉年华给我们带了一场数据库行业盛宴。重点关注下向量化引擎的技术实现原理和创新应用点。1、MogDB基于openGauss内核在Copy导入优化方面使用了SIMD指令并行解析,能够提高导入性能10%-20%。SIMD指令优化方面同样可以用到分析型数据库中,比如向量化执行引擎。openGauss本身已实现向量化执行引擎,将执行器以行执行的模式改造成了以batch执行的批量模式。但本身并没有利用SIMD指令进行深度优化。 

2GoldenDB由金融TP型数据库发展到了HTAP数据库,增加了行列混合存储特性,以及向量计算,利用CPU指令集进行优化。可惜没有开源,不知道具体如何实现的列存及如何向量计算并利用CPU指令进行的优化。 

3、oceanbase增加了行列混合存储,表格分成多个Row Group,行组内按列存储,在这个基础上增加了向量化执行引擎。利用SIMD指令进行了深度优化。Oceanbase代码已开源,可以从GitHub上下载学习如何利用SIMD指令深度优化:github.com/oceanbase/oceanbase 

 4TDSQL同样设计了向量化执行引擎。应该没有实现深度SIMD优化。 

5、基于GreenPlum而来的YMatrix,自研开发了mars2存储引擎,增加了minmax等统计信息。可以通过minmax来过滤数据块,仅加载满足条件的值所在的块,大大减少了顺序扫描行数及IO。同时支持全面向量化,充分利用SIMD指令进行优化,据说基本支持了全部的算子。向量化加速100倍以上,这个就很强大了。可惜,Ymatrix不开源。 

 

从大会上看,基本上向量化执行引擎成为了分析型数据库的标配,并且在SIMD指令层进行并行执行。有开源也有商业版的。另外在这方面做的比较牛的还有ClickHouseStarRocksDorisDB等。惊喜的是,这些数据库都是开源的,可以从代码中了解向量化执行引擎以及SIMD优化的机制原理。

目录
相关文章
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
207 61
|
1天前
|
关系型数据库 分布式数据库 数据库
1月17日|阿里云云谷园区,PolarDB V2.0技术沙龙,畅聊国产数据库
为了助力国产化项目顺利推进,阿里云邀请企业开发者和数据库负责人到云谷园区,与PolarDB V2.0技术专家面对面交流。扫描海报二维码报名,我们将根据信息为您申请入园。欢迎参与,共同探讨PolarDB的最新技术和应用!
|
10天前
|
人工智能 物联网 大数据
解密时序数据库的未来:TDengine Open Day技术沙龙精彩回顾
在数字化时代,开源已成为推动技术创新和知识共享的核心力量,尤其在数据领域,开源技术的涌现不仅促进了行业的快速发展,也让更多的开发者和技术爱好者得以参与其中。随着物联网、工业互联网等技术的广泛应用,时序数据库的需求愈发强烈,开源的兴起更是为这一技术的创新与普及提供了强有力的支持。
23 3
|
21天前
|
存储 JSON NoSQL
学习 MongoDB:打开强大的数据库技术大门
MongoDB 是一个基于分布式文件存储的文档数据库,由 C++ 编写,旨在为 Web 应用提供可扩展的高性能数据存储解决方案。它与 MySQL 类似,但使用文档结构而非表结构。核心概念包括:数据库(Database)、集合(Collection)、文档(Document)和字段(Field)。MongoDB 使用 BSON 格式存储数据,支持多种数据类型,如字符串、整数、数组等,并通过二进制编码实现高效存储和传输。BSON 文档结构类似 JSON,但更紧凑,适合网络传输。
58 15
|
10天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
24 1
|
14天前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
17天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
49 5
|
2月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
2月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。