Ceph分布式存储系统-性能测试与优化-阿里云开发者社区

开发者社区> 开发与运维> 正文

Ceph分布式存储系统-性能测试与优化

简介: # 测试环境 部署方案:整个Ceph Cluster使用4台ECS,均在同一VPC中,结构如图: 以下是 Ceph 的测试环境,说明如下: - Ceph 采用 10.2.10 版本,安装于 CentOS 7.4 版本中;系统为初始安装,没有调优。

测试环境

部署方案:整个Ceph Cluster使用4台ECS,均在同一VPC中,结构如图:

cbf59ccbaf2b90a6a2eab8747e9486f8.png

以下是 Ceph 的测试环境,说明如下:

  • Ceph 采用 10.2.10 版本,安装于 CentOS 7.4 版本中;系统为初始安装,没有调优。
  • 每个 OSD 存储服务器都是4核8GB,挂载1块300G高效云盘(非SSD硬盘);操作系统和OSD存储均用同一个磁盘。
[root@node1 ~]# ceph osd tree
ID WEIGHT  TYPE NAME        UP/DOWN REWEIGHT PRIMARY-AFFINITY
-6       0 rack test-bucket
-5       0 rack demo
-1 0.86458 root default
-2 0.28819     host node2
 0 0.28819         osd.0         up  1.00000          1.00000
-3 0.28819     host node3
 1 0.28819         osd.1         up  1.00000          1.00000
-4 0.28819     host node4
 2 0.28819         osd.2         up  1.00000          1.00000
  • 使用 Test pool,此池为 64 个 PGs,数据存三份;
[root@node1 ~]# ceph osd pool create test 64 64
pool 'test' created

[root@node1 ~]# ceph osd pool get test size
size: 3

[root@node1 ~]# ceph osd pool get test pg_num
pg_num: 64
  • Ceph osd 采用 xfs 文件系统(若使用 brtf 文件系统读写性能将翻 2 倍,但brtf不建议在生产环境使用);
  • Ceph 系统中的Block采用默认安装,为 64K;
  • 性能测试客户端运行在node1上,在同一VPC下使用同一网段访问 Ceph 存贮系统进行数据读写;

本次测试中,发起流量的客户端位于Ceph Cluster中,故网络延时较小,真正生产环境中还需要考虑网络瓶颈。生产环境的网络访问图如下:

4613759a076848948ab7156ddb0b2c72.png

磁盘性能测试

测试磁盘写吞吐量

使用dd命令对磁盘进行标准写测试。使用一下命令行读取和写入文件,记住添加oflag参数以绕过磁盘页面缓存。

node1:

[root@node1 ~]# dd if=/dev/zero of=here bs=1G count=1 oflag=direct
记录了1+0 的读入
记录了1+0 的写出
1073741824字节(1.1 GB)已复制,15.466 秒,69.4 MB/秒

node2:

[root@node2 ~]# dd if=/dev/zero of=here bs=1G count=1 oflag=direct
记录了1+0 的读入
记录了1+0 的写出
1073741824字节(1.1 GB)已复制,13.6518 秒,78.7 MB/秒

node3:

[root@node3 ~]# dd if=/dev/zero of=here bs=1G count=1 oflag=direct
记录了1+0 的读入
记录了1+0 的写出
1073741824字节(1.1 GB)已复制,13.6466 秒,78.7 MB/秒

node4:

[root@node4 ~]# dd if=/dev/zero of=here bs=1G count=1 oflag=direct
记录了1+0 的读入
记录了1+0 的写出
1073741824字节(1.1 GB)已复制,13.6585 秒,78.6 MB/秒

可以看出,除了node1节点外,磁盘吞吐量在 78 MB/s 左右。node1上没有部署osd,最终不作为ceph的读写性能评判参考。

测试磁盘写延迟

使用dd命令,每次写512字节,连续写1万次。

node1:

[root@node1 test]# dd if=/dev/zero of=512 bs=512 count=10000 oflag=direct
记录了10000+0 的读入
记录了10000+0 的写出
5120000字节(5.1 MB)已复制,6.06715 秒,844 kB/秒

node2:

[root@node2 test]# dd if=/dev/zero of=512 bs=512 count=10000 oflag=direct
记录了10000+0 的读入
记录了10000+0 的写出
5120000字节(5.1 MB)已复制,4.12061 秒,1.2 MB/秒

node3:

[root@node3 test]# dd if=/dev/zero of=512 bs=512 count=10000 oflag=direct
记录了10000+0 的读入
记录了10000+0 的写出
5120000字节(5.1 MB)已复制,3.88562 秒,1.3 MB/秒

node4:

[root@node4 test]# dd if=/dev/zero of=512 bs=512 count=10000 oflag=direct
记录了10000+0 的读入
记录了10000+0 的写出
5120000字节(5.1 MB)已复制,3.60598 秒,1.4 MB/秒

平均耗时4秒,平均速度1.3MB/s。

集群网络I/O测试

由于客户端访问都是通过rgw访问各个osd(文件存储服务除外),主要测试rgw节点到各个osd节点的网络性能I/O。

rgw到osd.0

在osd.0节点上使用nc监听17480端口的网络I/O请求:

[root@node2 ~]# nc -v -l -n 17480 > /dev/null
Ncat: Version 6.40 ( http://nmap.org/ncat )
Ncat: Listening on :::17480
Ncat: Listening on 0.0.0.0:17480
Ncat: Connection from 192.168.0.97.
Ncat: Connection from 192.168.0.97:33644.

在rgw节点上发起网络I/O请求:

[root@node2 ~]# time dd if=/dev/zero | nc -v -n 192.168.0.97 17480
Ncat: Version 6.40 ( http://nmap.org/ncat )
Ncat: Connected to 192.168.0.97:17480.
^C记录了121182456+0 的读入
记录了121182455+0 的写出
62045416960字节(62 GB)已复制,413.154 秒,150 MB/秒

real    6m53.156s
user    5m54.626s
sys    7m51.485s

网络I/O总流量62GB,耗时413.154秒,平均速度150 MB/秒。

rgw到osd.1

在osd.1节点上使用nc监听17480端口的网络I/O请求:

[root@node3 ~]# nc -v -l -n 17480 > /dev/null
Ncat: Version 6.40 ( http://nmap.org/ncat )
Ncat: Listening on :::17480
Ncat: Listening on 0.0.0.0:17480
Ncat: Connection from 192.168.0.97.
Ncat: Connection from 192.168.0.97:35418.

在rgw节点上发起网络I/O请求:

[root@node2 ~]# time dd if=/dev/zero | nc -v -n 192.168.0.98 17480
Ncat: Version 6.40 ( http://nmap.org/ncat )
Ncat: Connected to 192.168.0.98:17480.
^C记录了30140790+0 的读入
记录了30140789+0 的写出
15432083968字节(15 GB)已复制,111.024 秒,139 MB/秒

real    1m51.026s
user    1m21.996s
sys    2m20.039s

网络I/O总流量15GB,耗时111.024秒,平均速度139 MB/秒。

rgw到osd.2

在osd.2节点上使用nc监听17480端口的网络I/O请求:

[root@node4 ~]# nc -v -l -n 17480 > /dev/null
Ncat: Version 6.40 ( http://nmap.org/ncat )
Ncat: Listening on :::17480
Ncat: Listening on 0.0.0.0:17480
Ncat: Connection from 192.168.0.97.
Ncat: Connection from 192.168.0.97:39156.

在rgw节点上发起网络I/O请求:

[root@node2 ~]# time dd if=/dev/zero | nc -v -n 192.168.0.99 17480
Ncat: Version 6.40 ( http://nmap.org/ncat )
Ncat: Connected to 192.168.0.99:17480.
^C记录了34434250+0 的读入
记录了34434249+0 的写出
17630335488字节(18 GB)已复制,112.903 秒,156 MB/秒

real    1m52.906s
user    1m23.308s
sys    2m22.487s

网络I/O总流量18GB,耗时112.903秒,平均速度156 MB/秒。

总结:集群内不同节点间,网络I/O平均在150MB/s左右。跟实际情况相符,因为本集群是千兆网卡。

rados集群性能测试

准备工作

    • 查看ceph cluster的osd分布情况:
[root@node1 ~]# ceph osd tree
ID WEIGHT  TYPE NAME        UP/DOWN REWEIGHT PRIMARY-AFFINITY
-6       0 rack test-bucket
-5       0 rack demo
-1 0.86458 root default
-2 0.28819     host node2
 0 0.28819         osd.0         up  1.00000          1.00000
-3 0.28819     host node3
 1 0.28819         osd.1         up  1.00000          1.00000
-4 0.28819     host node4
 2 0.28819         osd.2         up  1.00000          1.00000

可见该cluster部署了3个osd节点,3个都处于up状态(正常work)。

  • 为rados集群性能测试创建一个test pool,此池为 64 个 PGs,数据存三份;
[root@node1 ~]# ceph osd pool create test 64 64
pool 'test' created

[root@node1 ~]# ceph osd pool get test size
size: 3

[root@node1 ~]# ceph osd pool get test pg_num
pg_num: 64
  • 查看test pool默认配置:
[root@node1 test]# ceph osd dump | grep test
pool 12 'test' replicated size 3 min_size 2 crush_ruleset 0 object_hash rjenkins pg_num 64 pgp_num 64 last_change 37 flags hashpspool stripe_width 0
  • 查看test poll资源占用情况:
[root@node1 test]# rados -p test df
pool name                 KB      objects       clones     degraded      unfound           rd        rd KB           wr        wr KB
test                       0            0            0            0            0            0            0            0            0
  total used        27044652          192
  total avail      854232624
  total space      928512000

写性能测试

  • 测试写性能
[root@node1 ~]# rados bench -p test 60 write --no-cleanup
Maintaining 16 concurrent writes of 4194304 bytes to objects of size 4194304 for up to 60 seconds or 0 objects
Object prefix: benchmark_data_node1_26604
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
    0       0         0         0         0         0           -           0
    1      16        31        15   59.9966        60    0.953952    0.614647
    2      16        38        22   43.9954        28     1.38736    0.781039
    3      16        46        30   39.9958        32     1.87801     1.06765
    4      16        61        45   44.9953        60     1.19344     1.23191
    5      16        76        60   47.9949        60    0.993045     1.17022
    6      16        91        75   49.9946        60     1.00303      1.1498
    7      16       106        90   51.4231        60    0.999574     1.13609
    8      16       119       103   51.4945        52     1.00504     1.12779
    9      16       122       106    47.106        12     1.20668     1.13173
   10      16       122       106   42.3954         0           -     1.13173
   11      16       125       109    39.632         6      2.8996     1.18213
   12      16       137       121   40.3289        48     3.90723     1.45272
   13      16       151       135   41.5339        56     1.10043     1.47333
   14      16       169       153   43.7096        72    0.927572      1.4129
   15      16       181       165   43.9952        48     1.02879     1.38739
   16      16       196       180   44.9951        60     1.08398     1.36665
   17      16       209       193   45.4068        52       1.117     1.34742
   18      16       212       196   43.5508        12     1.30703      1.3468
   19      16       215       199   41.8902        12     2.79917     1.36874
2018-03-20 17:06:48.745397 min lat: 0.229762 max lat: 4.09713 avg lat: 1.40039
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
   20      16       218       202   40.3956        12     3.49784     1.40039
   21      16       225       209   39.8051        28     4.18987     1.48851
   22      16       241       225   40.9046        64     1.00629     1.53148
   23      16       256       240   41.7345        60     1.18098     1.49869
   24      16       271       255   42.4953        60      1.0017     1.47319
   25      16       286       270   43.1952        60     1.00118     1.45067
   26      16       299       283   43.5337        52     1.19813     1.43348
   27      16       302       286   42.3657        12     1.30607     1.43215
   28      16       302       286   40.8527         0           -     1.43215
   29      16       305       289   39.8577         6     3.00461     1.44847
   30      16       316       300   39.9956        44     3.73721     1.54023
   31      16       331       315   40.6407        60     0.97103     1.54526
   32      16       346       330   41.2455        60    0.999926      1.5214
   33      16       361       345   41.8136        60     1.00411     1.50169
   34      16       376       360   42.3483        60     1.00089     1.48355
   35      16       386       370   42.2811        40     1.20272      1.4727
   36      16       389       373   41.4399        12     1.50616     1.47296
   37      16       392       376   40.6442        12      3.1067       1.486
   38      16       395       379   39.8903        12     3.90852     1.50518
   39      16       402       386   39.5854        28     4.12175       1.551
2018-03-20 17:07:08.747628 min lat: 0.229762 max lat: 4.29984 avg lat: 1.56868
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
   40      16       418       402   40.1956        64     1.07659     1.56868
   41      16       433       417   40.6784        60    0.999955     1.54939
   42      16       448       432   41.1383        60     1.17664     1.53256
   43      16       463       447   41.5768        60     1.00297     1.51695
   44      16       478       462   41.9953        60     1.00466     1.50234
   45      16       479       463    41.151         4     1.19512     1.50168
   46      16       482       466   40.5172        12      2.6118     1.50882
   47      16       485       469   39.9105        12      3.3123     1.52034
   48      16       493       477   39.7456        32     4.00971     1.55901
   49      16       508       492   40.1588        60     1.01054     1.57611
   50      16       523       507   40.5555        60    0.996004     1.55869
   51      16       538       522   40.9366        60    0.997722     1.54464
   52      16       553       537   41.3031        60     1.19815     1.53113
   53      16       568       552   41.6557        60     1.21298     1.51864
   54      16       572       556   41.1806        16     1.49932     1.51797
   55      16       572       556   40.4318         0           -     1.51797
   56      16       575       559   39.9241         6     3.09559     1.52643
   57      16       583       567    39.785        32     3.99229     1.55923
   58      16       595       579   39.9266        48     1.37706     1.57952
   59      16       612       596   40.4022        68     0.89873     1.56855
2018-03-20 17:07:28.749935 min lat: 0.229762 max lat: 4.29984 avg lat: 1.56738
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
   60      16       624       608   40.5288        48     1.65518     1.56738
Total time run:         60.821654
Total writes made:      625
Write size:             4194304
Object size:            4194304
Bandwidth (MB/sec):     41.1038
Stddev Bandwidth:       23.0404
Max bandwidth (MB/sec): 72
Min bandwidth (MB/sec): 0
Average IOPS:           10
Stddev IOPS:            5
Max IOPS:               18
Min IOPS:               0
Average Latency(s):     1.55581
Stddev Latency(s):      0.981606
Max latency(s):         4.29984
Min latency(s):         0.229762

如果加上可选参数 --no-cleanup ,那么测试完之后,不会删除该池里面的数据。里面的数据可以继续用于测试集群的读性能。

db286e02f698d7c70c450985ca596074.png

从以上测试数据可以看出:数据写入时的平均带宽是41MB/sec,最大带宽是72,带宽标准差是23(反应网络稳定情况)。

读性能测试

  • 测试读性能
[root@node1 ~]# rados bench -p test 60 rand
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
    0       0         0         0         0         0           -           0
    1      16       101        85   339.935       340    0.270579    0.147057
    2      16       145       129   257.955       176    0.246583    0.220784
    3      16       191       175   233.297       184     0.53086    0.253465
    4      16       236       220   219.968       180   0.0326233    0.268682
    5      16       281       265   211.971       180    0.528696    0.286853
    6      16       328       312   207.973       188   0.0203012    0.295207
    7      16       371       355   202.831       172    0.283736    0.303328
    8      16       415       399   199.475       176    0.508335     0.30781
    9      16       461       445   197.753       184     0.24398    0.312503
   10      16       510       494   197.576       196    0.499586     0.31802
   11      16       556       540    196.34       184    0.259304    0.320708
   12      16       602       586    195.31       184    0.745053    0.320777
   13      16       646       630   193.823       176   0.0422189     0.32386
   14      16       692       676    193.12       184   0.0467997    0.326607
   15      16       735       719   191.711       172   0.0272729    0.327432
   16      16       777       761   190.228       168   0.0160831    0.326381
   17      16       821       805    189.39       176    0.483385    0.330262
   18      16       865       849   188.645       176   0.0279903    0.330038
   19      16       913       897    188.82       192    0.237649    0.332631
2018-03-20 17:08:51.231039 min lat: 0.00844047 max lat: 0.964959 avg lat: 0.332994
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
   20      16       962       946   189.178       196   0.0115256    0.332994
   21      16      1009       993   189.121       188     0.26545    0.334135
   22      16      1052      1036   188.342       172    0.502163    0.335411
   23      16      1095      1079   187.631       172    0.191482    0.335954
   24      16      1140      1124   187.312       180   0.0187187     0.33593
   25      16      1187      1171   187.339       188   0.0128352    0.336301
   26      16      1232      1216   187.056       180   0.0260001    0.336886
   27      16      1278      1262   186.942       184   0.0148474    0.336478
   28      16      1324      1308   186.836       184    0.723555    0.337355
   29      16      1367      1351   186.324       172   0.0246515    0.339247
   30      16      1412      1396   186.113       180   0.0120403    0.339659
   31      16      1460      1444   186.302       192    0.569969    0.338129
   32      16      1506      1490   186.229       184   0.0316037    0.340041
   33      16      1551      1535    186.04       180   0.0273989    0.340237
   34      16      1596      1580   185.862       180    0.525298    0.340735
   35      16      1638      1622   185.351       168   0.0101045     0.34052
   36      16      1686      1670   185.535       192   0.0159173     0.34091
   37      16      1731      1715   185.385       180    0.986173    0.339939
   38      16      1775      1759   185.138       176   0.0152587    0.340806
   39      16      1818      1802     184.8       172    0.216865    0.342337
2018-03-20 17:09:11.233088 min lat: 0.0080755 max lat: 1.20072 avg lat: 0.342772
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
   40      16      1863      1847    184.68       180    0.298863    0.342772
   41      16      1907      1891   184.468       176    0.539937    0.341949
   42      16      1950      1934    184.17       172    0.501967    0.343196
   43      16      1997      1981   184.259       188    0.258521     0.34255
   44      16      2043      2027   184.253       184   0.0441231    0.343493
   45      16      2088      2072   184.158       180    0.302963    0.343621
   46      16      2135      2119   184.241       188   0.0198267     0.34337
   47      16      2179      2163   184.065       176     0.26388    0.343744
   48      16      2224      2208    183.98       180    0.274291    0.343872
   49      16      2268      2252   183.817       176   0.0345847    0.343383
   50      16      2314      2298    183.82       184   0.0555181    0.344454
   51      16      2359      2343   183.745       180    0.288888    0.344362
   52      16      2405      2389   183.749       184    0.280761    0.344848
   53      16      2447      2431   183.452       168   0.0135715     0.34438
   54      16      2496      2480   183.684       196    0.259152    0.344883
   55      15      2542      2527   183.762       188   0.0231959     0.34473
   56      15      2585      2570   183.552       172    0.235059    0.345157
   57      16      2627      2611   183.208       164    0.272916      0.3454
   58      16      2674      2658    183.29       188    0.534074    0.345242
   59      16      2717      2701   183.099       172    0.261746    0.345621
2018-03-20 17:09:31.235266 min lat: 0.0080755 max lat: 1.20072 avg lat: 0.344692
  sec Cur ops   started  finished  avg MB/s  cur MB/s last lat(s)  avg lat(s)
   60      16      2765      2749   183.247       192    0.213941    0.344692
Total time run:       60.297422
Total reads made:     2765
Read size:            4194304
Object size:          4194304
Bandwidth (MB/sec):   183.424
Average IOPS:         45
Stddev IOPS:          5
Max IOPS:             85
Min IOPS:             41
Average Latency(s):   0.346804
Max latency(s):       1.20072
Min latency(s):       0.0080755

205077995da5a719d553ccc9a4b1c4aa.png

从以上测试数据可以看出:数据读取时的平均带宽是183MB/sec,平均延时是0.3 sec,平均IOPS是45。

  • 测试数据清除
rados -p test cleanup
  • 删除test池:
[root@node1 ~]# ceph osd pool delete test test --yes-i-really-really-mean-it
pool 'test' removed

结论

针对不同大小的block对Rados、RBD进行了读写性能测试,最终统计结果如下:

block 读写顺序 读写数据 线程数 IOPS 带宽速度 运行时间 s
4K Rados 随机读 174M 16 15563 60.7961MB/s 2
顺序读 174M 16 13199 51.5621MB/s 2
随机写 174M 16 1486 5.80794MB/s 30
4K RBD 随机读 17.6G 16 104000 587.7MB/s 30
顺序读 2.2G 16 23800 74MB/s 30
随机写 571M 16 2352 19MB/s 30
顺序写 43M 16 352 1.4MB/s 30
16K Rados 随机读 615m 16 13530 211.416MB/s 2
顺序读 615m 16 10842 169.419MB/s 3.7
随机写 615M 16 1313 20.52864MB/s 30
16K RBD 随机读 56G 16 120000 1881MB/s 30
顺序读 10G 16 25600 363MB/s 30
随机写 1.9G 16 2854 65.8MB/s 30
顺序写 170M 16 384 5.7MB/s 30
512K Rados 随机读 8.88G 16 4218 2109.11MB/s 3
顺序读 8.88G 16 4062 2031.33MB/s 4
随机写 8.88G 16 592 296.0093MB/s 30
512K RBD 随机读 54G 16 3719 1814.6MB/s 30
顺序读 56G 16 2834 1879.8MB/s 30
随机写 32G 16 1649 1082.5MB/s 30
顺序写 9G 16 1650 303.8KB/s 30
  • ceph 针对大块文件的读写性能非常优秀,高达2GB/s。
  • rados读比写高出10倍的速率,适合读数据的高并发场景。
  • pool配置:2个副本比3个副本的性能高出很多,但官方推荐使用3个副本,因为2个不够安全;
  • 若机器配置不算很差(4核8G以上),ceph很容易达到1G带宽的限制阀值,若想继续提升ceph性能,需考虑提升带宽阀值。
  • 设置更多的PG值可以带来更好的负载均衡,但从测试来看,设置较大的PG值并不会提高性能。
  • 将fileStore刷新器设置为false对性能有不错的提升。

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章