【数据库】Star Schema Benchmark 标准测试集优化(二)

简介: 【数据库】Star Schema Benchmark 标准测试集优化(二)

正文


这是Star Schema Benchmark 标准测试集优化的第二篇,前一篇提到了优化表结构。

表结构优化完之后,我们分析了下表数据,


一、验证数据的标准性


这几个表,除了lineorder是根据factor成倍增长,其它的表记录数增长应该是缓慢的,对吧,有的表甚至没有随着factor增长,对吧?


上面是架构师问让我调研的,我查了下,customer、supplier、lineorder三张表是成倍增长的(1:10:100)。dates表固定不变(1:1:1),part表增长缓慢(1:4:7);最大表(也即事实表) lineorder 除外,成倍增长的 supplier 和 lineorder 表虽然是成倍增长的,但基数也是不大,1000G 大小的数据集,customer 表才 3000万数据(lineorder是60亿数据)。


调查结果表明该数据集确实符合 Star Schema 的特点:星型模式将业务流程数据分为事实数据和维度数据,事实数据包含关于业务的可测量量化数据,维度是与事实数据相关的描述性属性。事实数据的例子包括销售价格、销售数量、时间、距离、速度和重量测量。相关的维度属性示例包括产品型号、产品颜色、产品大小、地理位置和销售人员名称。


二、验证数据结果的准确性


oracle数据库最好也安装一个,用它来比较查询结果;用它作为标准来验证查询结果,不能用别的数据库,因为我们不知道他们有没有bug,Oracle是绝对可信的。


这一步,我导入了1G,10G大小的数据到咱们的数据库,还有Oracle数据库。分别执行了13 条标准SQL,经过检验得知:咱们数据库得查询结果和 Oracle 数据库查询结果完全一致。


PS: 结合咱们数据库最新的多维分析专利技术,咱们除了多维数据这块的第一个版,使用 30G 大小的数据集,测得所有SQL的查询时间总计是 122s,100G大小的数据之前是 2800s,已经出现了巨额的提升——这就是发明专利加持的力量

目录
相关文章
|
4月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
8月前
|
关系型数据库 MySQL 数据库连接
Django数据库配置避坑指南:从初始化到生产环境的实战优化
本文介绍了Django数据库配置与初始化实战,涵盖MySQL等主流数据库的配置方法及常见问题处理。内容包括数据库连接设置、驱动安装、配置检查、数据表生成、初始数据导入导出,并提供真实项目部署场景的操作步骤与示例代码,适用于开发、测试及生产环境搭建。
375 1
|
4月前
|
SQL 存储 监控
SQL日志优化策略:提升数据库日志记录效率
通过以上方法结合起来运行调整方案, 可以显著地提升SQL环境下面向各种搜索引擎服务平台所需要满足标准条件下之数据库登记作业流程综合表现; 同时还能确保系统稳健运行并满越用户体验预期目标.
293 6
|
5月前
|
缓存 Java 应用服务中间件
Spring Boot配置优化:Tomcat+数据库+缓存+日志,全场景教程
本文详解Spring Boot十大核心配置优化技巧,涵盖Tomcat连接池、数据库连接池、Jackson时区、日志管理、缓存策略、异步线程池等关键配置,结合代码示例与通俗解释,助你轻松掌握高并发场景下的性能调优方法,适用于实际项目落地。
821 5
|
7月前
|
机器学习/深度学习 SQL 运维
数据库出问题还靠猜?教你一招用机器学习优化运维,稳得一批!
数据库出问题还靠猜?教你一招用机器学习优化运维,稳得一批!
201 4
|
10月前
|
SQL 人工智能 数据可视化
16.1k star! 只需要DDL就能一键生成数据库关系图!开源神器ChartDB让你的数据结构"看得见"
ChartDB是一款开源的数据库可视化神器,通过一句智能查询就能自动生成专业的数据库关系图。无需安装客户端、不用暴露数据库密码,打开网页就能完成从数据建模到迁移的全流程操作,堪称开发者的"数据库透视镜"。
2162 67
|
11月前
|
SQL 关系型数据库 MySQL
如何优化SQL查询以提高数据库性能?
这篇文章以生动的比喻介绍了优化SQL查询的重要性及方法。它首先将未优化的SQL查询比作在自助餐厅贪多嚼不烂的行为,强调了只获取必要数据的必要性。接着,文章详细讲解了四种优化策略:**精简选择**(避免使用`SELECT *`)、**专业筛选**(利用`WHERE`缩小范围)、**高效联接**(索引和限制数据量)以及**使用索引**(加速搜索)。此外,还探讨了如何避免N+1查询问题、使用分页限制结果、理解执行计划以及定期维护数据库健康。通过这些技巧,可以显著提升数据库性能,让查询更高效流畅。
|
12月前
|
关系型数据库 数据库 数据安全/隐私保护
云数据库实战:基于阿里云RDS的Python应用开发与优化
在互联网时代,数据驱动的应用已成为企业竞争力的核心。阿里云RDS为开发者提供稳定高效的数据库托管服务,支持多种数据库引擎,具备自动化管理、高可用性和弹性扩展等优势。本文通过Python应用案例,从零开始搭建基于阿里云RDS的数据库应用,详细演示连接、CRUD操作及性能优化与安全管理实践,帮助读者快速上手并提升应用性能。
|
缓存 NoSQL JavaScript
Vue.js应用结合Redis数据库:实践与优化
将Vue.js应用与Redis结合,可以实现高效的数据管理和快速响应的用户体验。通过合理的实践步骤和优化策略,可以充分发挥两者的优势,提高应用的性能和可靠性。希望本文能为您在实际开发中提供有价值的参考。
363 11