背景
最近由于在做上云的工作,并且公司离线部分引擎是Spark,所以做了一次基于TPC-DS性能比对测试。
云上和云下的机器主要不同如下:
不同点 |
云上 |
云下 |
存储 |
OSS |
HDFS |
机器CPU |
Intel®Xeon®Platinum 8269CY CPU@2.50GHz |
Intel®Xeon®Gold 6626 CPU@2.70GHz |
TPC-DS是什么
如下解释:
TPC-DS is a data warehousing benchmark defined by the Transaction Processing Performance Council (TPC) The “DS” in TPC-DS stands for “decision support.”
TPC-DS数据来源
进行TPCDS的数据来源需要我们自己生产,参考Spark Commiter和PMC的项目 spark-tpcds-datagen,具体的生产数据命令如下:
nohup ./bin/dsdgen --output-location /tmp/spark-tpcds-data --overwrite --scale-factor 600 --partition-tables --num-partitions 100 &>dsdgen.log &
生产了大约200GB的数据
TPC-DS的SQL来源
目前很多引擎都自带了TPC-DS的sql语句(如Trino,Spark),目前我们参考Spark的提供的sql语句如下:
运行TPC-DS Benchemark
由于spark内置的TPCDSQueryBenchmark.scala里是local模式运行,所以我们得修改成如下:
vi spark/sql/core/src/test/scala/org/apache/spark/sql/execution/benchmark/TPCDSQueryBenchmark.scala override def getSparkSession: SparkSession = { val conf = new SparkConf() // .setMaster("local[1]") .setAppName("test-sql-context") // .set("spark.sql.parquet.compression.codec", "snappy") // .set("spark.sql.shuffle.partitions", "4") // .set("spark.driver.memory", "3g") // .set("spark.executor.memory", "3g") // .set("spark.sql.autoBroadcastJoinThreshold", (20 * 1024 * 1024).toString) // .set("spark.sql.crossJoin.enabled", "true")
同时还得修改脚本spark-tpcds-datagen/bin/report-tpcds-benchmark,如下:
vi spark-tpcds-datagen/bin/report-tpcds-benchmark \\ 删除以下四个配置 --conf spark.ui.enabled=false \ --conf spark.master=local[1] \ --conf spark.driver.memory=60g \ --conf spark.sql.shuffle.partitions=32 \
用如下命令进行测试
nohup ./bin/report-tpcds-benchmark /tmp/spark-tpcds-data /tmp/benchmark-result &> benchmark.log &
结果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yIDFoehO-1685524759310)(null)]
作图的工具可以参考:
其他有意思的文章如下: