MySQL---决策支持的基本测试标准TPC-DS测试数据的生成及导入

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云数据库 RDS MySQL Serverless,价值2615元额度,1个月
简介: TPC-DS是tpc组织提供的官方决策支持基本测试标准,这个标准的数据对于决策支持的学习和测试很有帮助,怎样生成测试数据及将测试数据导入到MySQL数据库,可以参阅本文。

1 TPC-DS和TPC-H的区别

     说起数据库测试基准,第一个想到的tpc-c,tpc-c常常被用于在线事务处理(OLTP)数据库的性能测试,比如linux上常用的sysbench测试工具就支持oltp测试,开源工具sysbench-tpcc就基于sysbench的tpcc测试工具。

     oltp的测试基准是tpcc,olap(在线分析处理)的测试基准呢?广为人知的是tpc-H,TPC-H面向商品零售业,它定义了8张表,22个查询,遵循SQL92标准,它的表结构同oltp的表架构比较接近。

      另一个不太为人知的标准就是本文要提到的TPC-DS,这个标准表结构是典型的数据仓库的表结构,采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表,跟大数据的分析挖掘应用非常类似。对于数据仓库的初学者来说,通过实际的例子来学习相对起来容易一些,这个数据集是不错的选择。

2  TPC-DS的下载和编译

     下载连接在这个位置

  https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp

     在这个页面填入信息后,点击下载,可能会出现下面这个错误

捕获.PNG

    这个错误并不是输入有误,用必应搜索一下得知可以在火狐浏览器上安装gooreplacer插件来解决,插件的地址是:

https://addons.mozilla.org/zh-CN/firefox/addon/gooreplacer/

      下载插件安装后,设置一下这个插件:

屏幕截图(1173).png

     设置完之后重启一下浏览器,打开TPC-DS的下载连接,输入信息,点击下载后。输入的电子邮件地址会收到下载连接。将这个连接复制粘贴到浏览器就可以下载了。

     这个工具的编译十分简单,进入/usr/local/tpcds/tools目录下运行make命令即可。

[root@ tools]# pwd    /usr/local/tpcds/tools
[root@ tools]# make

3 准备MySQL数据库

    MySQL数据库的准备也不复杂,创建一个数据库,在数据库内创建表就可以了。

3.1 创建并切换到数据库

mysql>create database tpcds DEFAULT CHARSET utf8 COLLATE utf8_general_ci;    Query OK,1 row affected (0.00 sec)mysql> use tpcds;    Database changed

3.2 创建表

  建表脚本比较长,就不在这里粘贴了,建表后的结果如下(一共是25个表):

mysql> show tables;+------------------------+| Tables_in_tpcds        |+------------------------+| call_center            || catalog_page           || catalog_returns        || catalog_sales          || customer               || customer_address       || customer_demographics  || date_dim               || dbgen_version          || household_demographics || income_band            || inventory              || item                   || promotion              || reason                 || ship_mode              || store                  || store_returns          || store_sales            || time_dim               || warehouse              || web_page               || web_returns            || web_sales              || web_site               |+------------------------+25 rows inset(0.00 sec)

4 生成测试数据

       生成测试数据之前先要创建测试数据存放的目录

[root@ tools]# mkdir -p /tmp/tpcds_data

      运行生成测试数据的命令

[root@ tools]# ./dsdgen -DIR /tmp/tpcds_data -SCALE 1 -TERMINATE N, tpcds.sql    dsdgen Population Generator (Version 3.2.0)
    Copyright Transaction Processing Performance Council (TPC) 2001-2021    Warning: This scale factor is valid for QUALIFICATION ONLY

    -SCALE 参数指定数据的大小,以G为单位。

5 生成导入数据的脚本

          tpc-ds生成的测试数据可以用load命令导入MySQL数据库,可以用文本编辑器编辑,也可以用shell脚本生成,这里给出一个shell脚本,只需要调整数据文件所在的位置就可以生成25个表的导入脚本。

[root@ tpcds_data]# for file in `ls -l |awk '{print $9}'`;    >  do    >      echo"LOAD DATA INFILE '/tmp/tpcds_data/"$file"' INTO TABLE"${file%%.*}" FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';";
    >  done


      脚本是一个for循环,ls -l |awk '{print $9}'打印出来是当前目录下的文件名,文件名是带有扩展名的,针对每一取到的文件名,利用linux字符串功能拼接成load语句,${file%%.*}截取文件名中'.'左边的部分,这时是花括号,不是括号。这个脚本的输出结果如下:

LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat' INTO TABLE call_center  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/catalog_page.dat' INTO TABLE catalog_page  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/catalog_returns.dat' INTO TABLE catalog_returns  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/catalog_sales.dat' INTO TABLE catalog_sales  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/customer_address.dat' INTO TABLE customer_address  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/customer.dat' INTO TABLE customer  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/customer_demographics.dat' INTO TABLE customer_demographics  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/date_dim.dat' INTO TABLE date_dim  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/dbgen_version.dat' INTO TABLE dbgen_version  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/household_demographics.dat' INTO TABLE household_demographics  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/income_band.dat' INTO TABLE income_band  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/inventory.dat' INTO TABLE inventory  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/item.dat' INTO TABLE item  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/promotion.dat' INTO TABLE promotion  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/reason.dat' INTO TABLE reason  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/ship_mode.dat' INTO TABLE ship_mode  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/store.dat' INTO TABLE store  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/store_returns.dat' INTO TABLE store_returns  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/store_sales.dat' INTO TABLE store_sales  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/time_dim.dat' INTO TABLE time_dim  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/warehouse.dat' INTO TABLE warehouse  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_page.dat' INTO TABLE web_page  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_returns.dat' INTO TABLE web_returns  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_sales.dat' INTO TABLE web_sales  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_site.dat' INTO TABLE web_site  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';

6 导入数据

      登录MySQL数据库,切换到tcpds数据库下,粘贴生成的脚本就可以导入数据了。导入时往往报下面这个错误。

mysql> LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat'INTOTABLE call_center  FIELDS TERMINATED BY'|' LINES TERMINATED BY'\n';    ERROR 1290(HY000): The MySQL server is running with the --secure-file-priv option so it cannot execute this statement

出现这个错误的原因是secure_file_priv设置的问题,这个变量默认的设置为空

mysql> show variables like'%secure_file_priv%';+------------------+-------+| Variable_name    | Value |+------------------+-------+| secure_file_priv |NULL|+------------------+-------+1 row inset(0.00 sec)

需要将它设置为存放要导入文件的目录

mysql>set secure_file_priv="/tmp/tpcds_data/";    ERROR 1238(HY000): Variable 'secure_file_priv'is a read only variable

这个变量是只读变量,只能在数据库启动之前设置,关闭MySQL数据库,重启后带上这个选项

[root@ tpcds_data]# mysqld_safe --user=mysql --datadir=/mysqldata --secure_file_priv="/tmp/tpcds_data/"&    [1] 60061[root@ tpcds_data]# 2022-08-30T07:10:08.899244Z mysqld_safe Logging to '/mysqldata/iZ2ze0t8khaprrpfvmevjiZ.err'.2022-08-30T07:10:08.926603Z mysqld_safe Starting mysqld daemon with databases from /mysqldata

再次登录数据库就可以导入了。

mysql> LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat'INTOTABLE call_center  FIELDS TERMINATED BY'|' LINES TERMINATED BY'\n';    ERROR 1292(22007): Incorrect date value:'' for column 'cc_rec_end_date' at row 1

这个错误可以通过设置sql模式来消除

mysql>set sql_mode ='NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION';    Query OK,0 rows affected (0.00 sec)

再次导入

mysql> LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat'INTOTABLE call_center  FIELDS TERMINATED BY'|' LINES TERMINATED BY'\n';    Query OK,6 rows affected,9 warnings (0.00 sec)    Records:6  Deleted:0  Skipped:0  Warnings:9

7 生成查询

# ./dsqgen -input ../query_templates/templates.lst -directory ../query_templates -output ./sql.ansi/ -DIALECT ansi -LOG ./sql.ansi/ansi.log

-directory是查询模板所在的目录,-DIALECT设置sql语言的版本

  生成查询的过程中也有可能报下面这个错误

qgen2 Query Generator (Version 3.2.0)
      Copyright Transaction Processing Performance Council (TPC) 2001-2021      Warning: This scale factor is valid for QUALIFICATION ONLY
      ERROR: Substitution'_END' is used before being initialized at line 63in ../query_templates/query1.tpl

需要处理一下查询模板文件,在每个文件的末尾加上一行

[root@ query_templates]# for i in `ls query*tpl`    > do    >     echo$i;
    >     echo"define _END = \"\";" >> $i    > done

生成查询之间仍然需要创建查询的存储目录

[root@ tools]# mkdir sql.ansi

生成查询

[root@ tools]# ./dsqgen -input ../query_templates/templates.lst -directory ../query_templates -output ./sql.ansi/ -DIALECT ansi -LOG ./sql.ansi/ansi.log    qgen2 Query Generator (Version 3.2.0)
    Copyright Transaction Processing Performance Council (TPC) 2001-2021    Warning: This scale factor is valid for QUALIFICATION ONLY

8 运行查询

找一个查询语句运行一下

selectcount(*)from store_sales
,household_demographics
,time_dim, store
where ss_sold_time_sk = time_dim.t_time_skand ss_hdemo_sk = household_demographics.hd_demo_skand ss_store_sk = s_store_sk
and time_dim.t_hour=8and time_dim.t_minute>=30and household_demographics.hd_dep_count=5and store.s_store_name='ese'orderbycount(*);

看一下这条语句的执行计划

mysql> explain selectcount(*)from store_sales     ,household_demographics     ,time_dim, store where ss_sold_time_sk
= time_dim.t_time_skand ss_hdemo_sk = household_demographics.hd_demo_skand ss_store_sk = s_store_sk     and time_dim.t_hour=8and time_dim.t_minute>=30and household_demographics.hd_dep_count=5and store.s_store_name='ese'orderbycount(*);+----+-------------+------------------------+------------+--------+---------------+---------+---------+-----------------------------------+---------+----------+----------------------------------------------------+| id | select_type |table| partitions | type   | possible_keys | key     | key_len | ref                               | rows    | filtered | Extra                                              |+----+-------------+------------------------+------------+--------+---------------+---------+---------+-----------------------------------+---------+----------+----------------------------------------------------+|1| SIMPLE      | store                  |NULL| ALL    | PRIMARY       |NULL|NULL|NULL|12|10.00| Using where||1| SIMPLE      | store_sales            |NULL| ALL    |NULL|NULL|NULL|NULL|3754283|10.00| Using where; Using join buffer (Block Nested Loop)||1| SIMPLE      | household_demographics |NULL| eq_ref | PRIMARY       | PRIMARY |4| tpcds.store_sales.ss_hdemo_sk|1|10.00| Using where||1| SIMPLE      | time_dim               |NULL| eq_ref | PRIMARY       | PRIMARY |4| tpcds.store_sales.ss_sold_time_sk|1|5.00| Using where|+----+-------------+------------------------+------------+--------+---------------+---------+---------+-----------------------------------+---------+----------+----------------------------------------------------+4 rows inset,1 warning (0.00 sec)




相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
13天前
|
Java 关系型数据库 MySQL
JDBC实现往MySQL插入百万级数据
JDBC实现往MySQL插入百万级数据
|
13天前
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之DataWorks还有就是对于mysql中的表已经存在数据了,第一次全量后面增量同步的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 2
|
23小时前
|
传感器 数据采集 算法
LabVIEW无人机大气数据智能测试系统
LabVIEW无人机大气数据智能测试系统
10 3
|
3天前
|
存储 关系型数据库 MySQL
MySQL是怎样存储数据的?
MySQL是怎样存储数据的?
|
5天前
|
SQL 关系型数据库 MySQL
这篇文章带你了解:如何一次性将Centos中Mysql的数据快速导出!!!
这篇文章带你了解:如何一次性将Centos中Mysql的数据快速导出!!!
|
5天前
|
存储 SQL 关系型数据库
MySQL的优化利器⭐️索引条件下推,千万数据下性能提升273%🚀
以小白的视角探究MySQL索引条件下推ICP的优化,其中包括server层与存储引擎层如何交互、索引、回表、ICP等内容
MySQL的优化利器⭐️索引条件下推,千万数据下性能提升273%🚀
|
5天前
|
JSON 测试技术 数据格式
Elasticsearch 8.X 如何生成 TB 级的测试数据 ?
Elasticsearch 8.X 如何生成 TB 级的测试数据 ?
13 0
|
6天前
|
存储 关系型数据库 MySQL
MySQL字段的字符类型该如何选择?千万数据下varchar和char性能竟然相差30%🚀
本篇文章来讨论MySQL字段的字符类型选择并深入实践char与varchar类型的区别以及在千万数据下的性能测试
MySQL字段的字符类型该如何选择?千万数据下varchar和char性能竟然相差30%🚀
|
6天前
|
关系型数据库 MySQL 数据管理
MySQL通过 bin-log 恢复从备份点到灾难点之间数据
MySQL通过 bin-log 恢复从备份点到灾难点之间数据
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试中AI驱动的决策框架设计与实现
【5月更文挑战第5天】 在软件测试领域,自动化测试已成为提升测试效率和质量的关键手段。然而,随着软件系统的复杂性增加,传统的自动化测试方法面临挑战,尤其在测试用例的生成、执行及结果分析等方面。本文提出一种基于人工智能(AI)的自动化测试决策框架,旨在通过智能化的算法优化测试过程,并提高异常检测的准确率。该框架结合机器学习和深度学习技术,能够自学习历史测试数据,预测高风险变更区域,自动生成针对性强的测试用例,并在测试执行过程中实时调整测试策略。此外,通过自然语言处理(NLP)技术,该框架还能对测试结果进行语义分析,进一步提供更深入的洞察。本研究不仅增强了自动化测试工具的智能性,也为软件质量保证提

推荐镜像

更多