CRUSH映射图及自定义规则实战篇

简介: Ceph存储系统中CRUSH映射图及自定义规则的实战教程,涵盖了PG与OSD映射调整、CRUSH运行图修改案例以及CRUSH数据分类管理等内容。

一.PG与OSD映射调整

1.ceph集群运行图类型及算法

ceph集群中由mon服务器维护的5种运行图:
    monitor map:
        监视器运行图。
    OSD map:
        OSD运行图
    PG map:
        PG运行图。
    Crush map:
        crush全称为:Controllers Replication Under Scalable Hashing
        表示可控的,可复制的,可伸缩的一致性hash算法。
        crush 运行图,当新建存储池时会基于 OSD map创建出新的PG组合列表用于存储数据。

    MDS map:
        cephFS metadata运行图。

crush算法针对目的节点的选择:
    目前有5种算法来实现节点的选择,包括Uniform,List,Tree,Straw,Straw2。

早期版本使用的是ceph项目的发起者发明的Straw,目前已经发展社区优化的Straw2版本。

straw抽签算法:
    抽签是指挑取一个最长的签,而这个签值就是OSD的权重,当创建存储池的时候会向PG分配OSD。
    straw算法会遍历当前可用的OSD并优先使用中签的OSD,以让权重高的OSD被分配较多的PG以存储更多的数据。

2.PG与OSD映射调整概述

默认情况下,crush算法自行对创建的pool中的PG分配OSD,但是可以手动基于权重设置crush算法分配数据的倾向性。

比如1T磁盘权重是1,2T的权重为2,为了避免需要做这样权重的修改,推荐使用相同大小的设备。

生产环境中,我们可以基于WEIGHT和REWEIGHT实现数据均衡的效果。

3.查看osd使用状态

[root@ceph141 ~]# ceph osd df  # 注意观察"%USE"和"PGS"的区别
ID CLASS WEIGHT  REWEIGHT SIZE    RAW USE DATA    OMAP   META     AVAIL   %USE VAR  PGS STATUS 
 0   hdd 0.19530  1.00000 200 GiB 1.2 GiB 252 MiB    0 B    1 GiB 199 GiB 0.62 1.66 103     up 
 1   hdd 0.19530  1.00000 200 GiB 1.2 GiB 178 MiB    0 B    1 GiB 199 GiB 0.59 1.56  83     up 
 2   hdd 0.48830  1.00000 500 GiB 1.3 GiB 312 MiB    0 B    1 GiB 499 GiB 0.26 0.69 188     up 
 3   hdd 0.48830  1.00000 500 GiB 1.5 GiB 556 MiB    0 B    1 GiB 498 GiB 0.31 0.82 218     up 
 4   hdd 0.19530  1.00000 200 GiB 1.2 GiB 158 MiB  9 KiB 1024 MiB 199 GiB 0.58 1.53  90     up 
 5   hdd 0.19530  1.00000 200 GiB 1.2 GiB 211 MiB    0 B    1 GiB 199 GiB 0.60 1.60  96     up 
 6   hdd 0.48830  1.00000 500 GiB 1.5 GiB 467 MiB  8 KiB 1024 MiB 499 GiB 0.29 0.77 201     up 
 7   hdd 0.48830  1.00000 500 GiB 1.5 GiB 462 MiB  4 KiB 1024 MiB 499 GiB 0.29 0.77 205     up 
 8   hdd 0.19530  1.00000 200 GiB 1.2 GiB 184 MiB    0 B    1 GiB 199 GiB 0.59 1.57 100     up 
 9   hdd 0.19530  1.00000 200 GiB 1.2 GiB 246 MiB    0 B    1 GiB 199 GiB 0.62 1.65  83     up 
10   hdd 0.48830  1.00000 500 GiB 1.5 GiB 511 MiB    0 B    1 GiB 498 GiB 0.30 0.80 205     up 
11   hdd 0.48830  1.00000 500 GiB 1.3 GiB 358 MiB    0 B    1 GiB 499 GiB 0.27 0.72 204     up 
                    TOTAL 4.1 TiB  16 GiB 3.8 GiB 21 KiB   12 GiB 4.1 TiB 0.38                 
MIN/MAX VAR: 0.69/1.66  STDDEV: 0.17
[root@ceph141 ~]#

4.修改WEIGHT并验证

[root@ceph141 ~]# ceph osd crush reweight osd.2 1.5  # 修改权重后会触发数据的重新分配。
reweighted item id 2 name 'osd.2' to 1.5 in crush map
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph -s
  cluster:
    id:     a0f5dd38-4b16-48a7-9618-556f924b4c5d
    health: HEALTH_WARN
            Degraded data redundancy: 215/1728 objects degraded (12.442%), 62 pgs degraded

  services:
    mon: 3 daemons, quorum ceph141,ceph142,ceph143 (age 29h)
    mgr: ceph141(active, since 5h), standbys: ceph143, ceph142
    mds: oldboyedu-linux-cephfs:2 {0=ceph142=up:active,1=ceph143=up:active} 1 up:standby
    osd: 12 osds: 12 up (since 13h), 12 in (since 13h); 18 remapped pgs
    rgw: 3 daemons active (ceph141, ceph142, ceph143)

  task status:

  data:
    pools:   12 pools, 592 pgs
    objects: 576 objects, 1.2 GiB
    usage:   16 GiB used, 4.1 TiB / 4.1 TiB avail
    pgs:     215/1728 objects degraded (12.442%)
             52/1728 objects misplaced (3.009%)
             523 active+clean
             46  active+recovery_wait+degraded
             16  active+recovery_wait+undersized+degraded+remapped
             3   active+recovery_wait+remapped
             2   active+recovery_wait
             1   active+recovering+undersized+remapped
             1   active+recovering

  io:
    recovery: 4.0 MiB/s, 0 objects/s

[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd df   # 注意观察"%USE"和"PGS"的区别
ID CLASS WEIGHT  REWEIGHT SIZE    RAW USE DATA    OMAP   META     AVAIL   %USE VAR  PGS STATUS 
 0   hdd 0.19530  1.00000 200 GiB 1.1 GiB 126 MiB    0 B    1 GiB 199 GiB 0.56 1.49  62     up 
 1   hdd 0.19530  1.00000 200 GiB 1.1 GiB  90 MiB    0 B    1 GiB 199 GiB 0.54 1.44  51     up 
 2   hdd 1.50000  1.00000 500 GiB 1.7 GiB 748 MiB    0 B    1 GiB 498 GiB 0.35 0.92 351     up 
 3   hdd 0.48830  1.00000 500 GiB 1.3 GiB 353 MiB    0 B    1 GiB 499 GiB 0.27 0.71 128     up 
 4   hdd 0.19530  1.00000 200 GiB 1.2 GiB 166 MiB  9 KiB 1024 MiB 199 GiB 0.58 1.54  93     up 
 5   hdd 0.19530  1.00000 200 GiB 1.2 GiB 225 MiB    0 B    1 GiB 199 GiB 0.61 1.62  96     up 
 6   hdd 0.48830  1.00000 500 GiB 1.5 GiB 508 MiB  8 KiB 1024 MiB 498 GiB 0.30 0.79 202     up 
 7   hdd 0.48830  1.00000 500 GiB 1.4 GiB 418 MiB  4 KiB 1024 MiB 499 GiB 0.28 0.75 201     up 
 8   hdd 0.19530  1.00000 200 GiB 1.2 GiB 169 MiB    0 B    1 GiB 199 GiB 0.58 1.54 103     up 
 9   hdd 0.19530  1.00000 200 GiB 1.3 GiB 258 MiB    0 B    1 GiB 199 GiB 0.63 1.66  87     up 
10   hdd 0.48830  1.00000 500 GiB 1.5 GiB 473 MiB    0 B    1 GiB 499 GiB 0.29 0.77 203     up 
11   hdd 0.48830  1.00000 500 GiB 1.4 GiB 418 MiB    0 B    1 GiB 499 GiB 0.28 0.75 199     up 
                    TOTAL 4.1 TiB  16 GiB 3.9 GiB 21 KiB   12 GiB 4.1 TiB 0.38                 
MIN/MAX VAR: 0.71/1.66  STDDEV: 0.16
[root@ceph141 ~]#

5.修改REWEIGHT并验证

OSD的REWEIGHT的值默认为1,值可以调整,范围在0~1之间,值越低PG越小。

如果调整了任何一个OSD的REWEIGHT值,那么OSD的PG会立即和其他OSD进行重新平衡,即数据的重新分配。

用于某个OSD的PG相对较多需要降低其PG数量的场景。


实操案例:
[root@ceph141 ~]# ceph osd reweight 9 0.8
reweighted osd.9 to 0.8 (cccc)
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd df  # 注意观察"%USE"和"PGS"的区别
ID CLASS WEIGHT  REWEIGHT SIZE    RAW USE DATA    OMAP   META     AVAIL   %USE VAR  PGS STATUS 
 0   hdd 0.19530  1.00000 200 GiB 1.1 GiB 126 MiB    0 B    1 GiB 199 GiB 0.56 1.49  62     up 
 1   hdd 0.19530  1.00000 200 GiB 1.1 GiB  90 MiB    0 B    1 GiB 199 GiB 0.54 1.44  51     up 
 2   hdd 1.50000  1.00000 500 GiB 1.7 GiB 748 MiB    0 B    1 GiB 498 GiB 0.35 0.92 351     up 
 3   hdd 0.48830  1.00000 500 GiB 1.3 GiB 353 MiB    0 B    1 GiB 499 GiB 0.27 0.71 128     up 
 4   hdd 0.19530  1.00000 200 GiB 1.2 GiB 166 MiB  9 KiB 1024 MiB 199 GiB 0.58 1.54  93     up 
 5   hdd 0.19530  1.00000 200 GiB 1.2 GiB 225 MiB    0 B    1 GiB 199 GiB 0.61 1.62  96     up 
 6   hdd 0.48830  1.00000 500 GiB 1.5 GiB 508 MiB  8 KiB 1024 MiB 498 GiB 0.30 0.79 202     up 
 7   hdd 0.48830  1.00000 500 GiB 1.4 GiB 418 MiB  4 KiB 1024 MiB 499 GiB 0.28 0.75 201     up 
 8   hdd 0.19530  1.00000 200 GiB 1.2 GiB 169 MiB    0 B    1 GiB 199 GiB 0.58 1.54 103     up 
 9   hdd 0.19530  1.00000 200 GiB 1.3 GiB 258 MiB    0 B    1 GiB 199 GiB 0.63 1.66  87     up 
10   hdd 0.48830  1.00000 500 GiB 1.5 GiB 473 MiB    0 B    1 GiB 499 GiB 0.29 0.77 203     up 
11   hdd 0.48830  1.00000 500 GiB 1.4 GiB 418 MiB    0 B    1 GiB 499 GiB 0.28 0.75 199     up 
                    TOTAL 4.1 TiB  16 GiB 3.9 GiB 21 KiB   12 GiB 4.1 TiB 0.38                 
MIN/MAX VAR: 0.71/1.66  STDDEV: 0.16
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd reweight 9 0.8
reweighted osd.9 to 0.8 (cccc)
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph -s
  cluster:
    id:     a0f5dd38-4b16-48a7-9618-556f924b4c5d
    health: HEALTH_OK

  services:
    mon: 3 daemons, quorum ceph141,ceph142,ceph143 (age 29h)
    mgr: ceph141(active, since 5h), standbys: ceph143, ceph142
    mds: oldboyedu-linux-cephfs:2 {0=ceph142=up:active,1=ceph143=up:active} 1 up:standby
    osd: 12 osds: 12 up (since 13h), 12 in (since 13h)
    rgw: 3 daemons active (ceph141, ceph142, ceph143)

  task status:

  data:
    pools:   12 pools, 592 pgs
    objects: 576 objects, 1.2 GiB
    usage:   16 GiB used, 4.1 TiB / 4.1 TiB avail
    pgs:     592 active+clean

  io:
    recovery: 2.6 MiB/s, 2 objects/s

[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd df  # 注意观察"%USE"和"PGS"的区别
ID CLASS WEIGHT  REWEIGHT SIZE    RAW USE DATA    OMAP   META     AVAIL   %USE VAR  PGS STATUS 
 0   hdd 0.19530  1.00000 200 GiB 1.1 GiB 127 MiB    0 B    1 GiB 199 GiB 0.56 1.49  62     up 
 1   hdd 0.19530  1.00000 200 GiB 1.1 GiB  91 MiB    0 B    1 GiB 199 GiB 0.54 1.44  51     up 
 2   hdd 1.50000  1.00000 500 GiB 1.7 GiB 749 MiB    0 B    1 GiB 498 GiB 0.35 0.92 351     up 
 3   hdd 0.48830  1.00000 500 GiB 1.3 GiB 354 MiB    0 B    1 GiB 499 GiB 0.27 0.71 128     up 
 4   hdd 0.19530  1.00000 200 GiB 1.2 GiB 167 MiB  9 KiB 1024 MiB 199 GiB 0.58 1.54  93     up 
 5   hdd 0.19530  1.00000 200 GiB 1.2 GiB 226 MiB    0 B    1 GiB 199 GiB 0.61 1.62  96     up 
 6   hdd 0.48830  1.00000 500 GiB 1.5 GiB 509 MiB  8 KiB 1024 MiB 498 GiB 0.30 0.79 202     up 
 7   hdd 0.48830  1.00000 500 GiB 1.4 GiB 418 MiB  4 KiB 1024 MiB 499 GiB 0.28 0.75 201     up 
 8   hdd 0.19530  1.00000 200 GiB 1.2 GiB 182 MiB    0 B    1 GiB 199 GiB 0.59 1.56 108     up 
 9   hdd 0.19530  0.79999 200 GiB 1.2 GiB 203 MiB    0 B    1 GiB 199 GiB 0.60 1.59  65     up 
10   hdd 0.48830  1.00000 500 GiB 1.5 GiB 485 MiB    0 B    1 GiB 499 GiB 0.29 0.78 211     up 
11   hdd 0.48830  1.00000 500 GiB 1.4 GiB 450 MiB    0 B    1 GiB 499 GiB 0.29 0.76 208     up 
                    TOTAL 4.1 TiB  16 GiB 3.9 GiB 21 KiB   12 GiB 4.1 TiB 0.38                 
MIN/MAX VAR: 0.71/1.62  STDDEV: 0.16
[root@ceph141 ~]#

二.CRUSH运行图修改案例

1.管理CRUSH运行图思路

通过工具将ceph的crush运行图导出并进行编辑,然后导入。

2.导出crush运行图

导出crush运行图为二进制格式,无法通过文本编辑器直接打开。

使用crushtool工具转换crush运行图为文本格式后才能通过vim等文本工具进行编辑。

[root@ceph141 ~]# mkdir -pv /yinzhengjie/data/ceph
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd getcrushmap -o /yinzhengjie/data/ceph/v1.crushmap
39
[root@ceph141 ~]# 
[root@ceph141 ~]# ll -h /yinzhengjie/data/ceph/v1.crushmap
-rw-r--r-- 1 root root 1.2K Nov 14 23:19 /yinzhengjie/data/ceph/v1.crushmap
[root@ceph141 ~]# 
[root@ceph141 ~]# file /yinzhengjie/data/ceph/v1.crushmap
/yinzhengjie/data/ceph/v1.crushmap: MS Windows icon resource - 16 icons, 1-colors
[root@ceph141 ~]#

3.将运行图转换为文本

导出的运行图不能直接编辑,需要转换为文本格式在进行查看与编辑。

[root@ceph141 ~]# file /yinzhengjie/data/ceph/v1.crushmap
/yinzhengjie/data/ceph/v1.crushmap: MS Windows icon resource - 16 icons, 1-colors
[root@ceph141 ~]# 
[root@ceph141 ~]# crushtool -d /yinzhengjie/data/ceph/v1.crushmap > /yinzhengjie/data/ceph/v1.txt
[root@ceph141 ~]# 
[root@ceph141 ~]# file /yinzhengjie/data/ceph/v1.txt
/yinzhengjie/data/ceph/v1.txt: ASCII text
[root@ceph141 ~]# 
[root@ceph141 ~]# wc -l /yinzhengjie/data/ceph/v1.txt
95 /yinzhengjie/data/ceph/v1.txt
[root@ceph141 ~]# 
[root@ceph141 ~]# cat /yinzhengjie/data/ceph/v1.txt
# begin crush map  # 可调整的crush map参数

tunable choose_local_tries 0
tunable choose_local_fallback_tries 0
tunable choose_total_tries 50
tunable chooseleaf_descend_once 1
tunable chooseleaf_vary_r 1
tunable chooseleaf_stable 1
tunable straw_calc_version 1
tunable allowed_bucket_algs 54

# devices  # 当前的OSD设备列表

device 0 osd.0 class hdd
device 1 osd.1 class hdd
device 2 osd.2 class hdd
device 3 osd.3 class hdd
device 4 osd.4 class hdd
device 5 osd.5 class hdd
device 6 osd.6 class hdd
device 7 osd.7 class hdd
device 8 osd.8 class hdd
device 9 osd.9 class hdd
device 10 osd.10 class hdd
device 11 osd.11 class hdd

# types  # 当前支持的bucket类型

type 0 osd  # OSD守护进程,对应到一个磁盘设备
type 1 host  # 一个主机
type 2 chassis  # 刀片服务器的机箱
type 3 rack  # 包含若干个服务器的机柜/机架
type 4 row  # 包含若干个服务器的机柜的一排机柜(一行机柜)
type 5 pdu  # 机柜的介入电源插座
type 6 pod  # 一个机房中若干个小房间
type 7 room  # 包含若干机柜的房间,一个数据中心有好多这样的房间组成
type 8 datacenter  # 一个数据中心或IDC
type 9 zone  # 一个区域,比如AWS宁夏中卫数据中心。
type 10 region   # 全部区域
type 11 root  # bucket分层的最顶部,根。

# buckets

host ceph141 {  # 类型host 名称为ceph141的节点信息
    id -3        # do not change unnecessarily  # Ceph生成的OSD ID,非必要不要改。
    id -4 class hdd        # do not change unnecessarily
    # weight 2.379
    alg straw2  # crush算法,管理OSD角色。
    hash 0    # rjenkins1  # 使用哪个hash算法,0表示选择rjenkins1这种hash算法。
    item osd.0 weight 0.195  # OSD0权重比例,crush会自动根据磁盘空间计算,不同的磁盘空间的权重不一样。
    item osd.1 weight 0.195
    item osd.2 weight 1.500
    item osd.3 weight 0.488
}
host ceph142 {
    id -5        # do not change unnecessarily
    id -6 class hdd        # do not change unnecessarily
    # weight 1.367
    alg straw2
    hash 0    # rjenkins1
    item osd.4 weight 0.195
    item osd.5 weight 0.195
    item osd.6 weight 0.488
    item osd.7 weight 0.488
}
host ceph143 {
    id -7        # do not change unnecessarily
    id -8 class hdd        # do not change unnecessarily
    # weight 1.367
    alg straw2
    hash 0    # rjenkins1
    item osd.8 weight 0.195
    item osd.9 weight 0.195
    item osd.10 weight 0.488
    item osd.11 weight 0.488
}
root default {  # 根的配置
    id -1        # do not change unnecessarily
    id -2 class hdd        # do not change unnecessarily
    # weight 5.113
    alg straw2
    hash 0    # rjenkins1
    item ceph141 weight 2.379
    item ceph142 weight 1.367
    item ceph143 weight 1.367
}

# rules

rule replicated_rule {  # 副本池的默认配置
    id 0
    type replicated
    min_size 1  # 默认的最小副本是1。
    max_size 10  # 默认的最大副本为10。
    step take default  # 基于"root default"定义的主机分配OSD
    step chooseleaf firstn 0 type host  # 选择主机,故障域类型为主机
    step emit  # 弹出配置即返回给客户端。
}

# end crush map

[root@ceph141 ~]#

4.编辑文本

[root@ceph141 ~]# vim /yinzhengjie/data/ceph/v1.txt
...
rule replicated_rule {
        ...
        # 此处我就对这里进行配置修改测试哈!
        max_size 5
}

5.将文本转换为crush格式

[root@ceph141 ~]# crushtool -c /yinzhengjie/data/ceph/v1.txt -o /yinzhengjie/data/ceph/v2.crushmap
[root@ceph141 ~]# 
[root@ceph141 ~]# file /yinzhengjie/data/ceph/v2.crushmap
/yinzhengjie/data/ceph/v2.crushmap: MS Windows icon resource - 8 icons, 1-colors
[root@ceph141 ~]#

6.导入新的crush

导入的运行图会立即覆盖原有的运行图并立即生效。

[root@ceph141 ~]# ceph osd crush rule dump
[
    {
        "rule_id": 0,
        "rule_name": "replicated_rule",  # 我们只需要观察定义的副本池配置
        "ruleset": 0,
        "type": 1,
        "min_size": 1,
        "max_size": 10,  # 注意,默认的crush运行图的参数是10哈!
        "steps": [
            {
                "op": "take",
                "item": -1,
                "item_name": "default"
            },
            {
                "op": "chooseleaf_firstn",
                "num": 0,
                "type": "host"
            },
            {
                "op": "emit"
            }
        ]
    }
]

[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd setcrushmap -i /yinzhengjie/data/ceph/v2.crushmap  # 应用咱们修改的配置
40
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd crush rule dump
[
    {
        "rule_id": 0,
        "rule_name": "replicated_rule",
        "ruleset": 0,
        "type": 1,
        "min_size": 1,
        "max_size": 5,  # 注意观察,这里的配置就生效啦!
        "steps": [
            {
                "op": "take",
                "item": -1,
                "item_name": "default"
            },
            {
                "op": "chooseleaf_firstn",
                "num": 0,
                "type": "host"
            },
            {
                "op": "emit"
            }
        ]
    }
]

[root@ceph141 ~]#

三.CRUSH数据分类管理-将数据分配SSD和HDD案例

1.crush数据分类管理概述

ceph crush算法分配PG的时候可以将PG分配到不同主机的OSD上,以实现以主机为单位的高可用,这也是默认机制。

这种默认机制无法保证不同PG位于不同机柜或者机房的主机,如果要实现基于机柜或者更高级的IDC等方式的数据高可用。

而且也不能实现A项目的数据在SSD,B项目的数据在机械盘,如果想要实现此功能需要导出crush运行图并手动编辑,之后再导入并覆盖原有的crush运行图。

2.导出crush运行图

[root@ceph141 ~]# ceph osd getcrushmap -o /yinzhengjie/data/ceph/v3.crushmap 
40
[root@ceph141 ~]#

3.将运行图转换为文本

[root@ceph141 ~]# file /yinzhengjie/data/ceph/v3.crushmap
/yinzhengjie/data/ceph/v3.crushmap: MS Windows icon resource - 8 icons, 1-colors
[root@ceph141 ~]# 
[root@ceph141 ~]# crushtool -d /yinzhengjie/data/ceph/v3.crushmap > /yinzhengjie/data/ceph/v3.txt
[root@ceph141 ~]# 
[root@ceph141 ~]# file /yinzhengjie/data/ceph/v3.txt
/yinzhengjie/data/ceph/v3.txt: ASCII text
[root@ceph141 ~]#

4.添加自定义配置

[root@ceph141 ~]# cat /yinzhengjie/data/ceph/v3.txt
...

# buckets

host ceph141 {
    id -3        # do not change unnecessarily
    id -4 class hdd        # do not change unnecessarily
    # weight 2.378
    alg straw2
    hash 0    # rjenkins1
    # 注意哟,我将osd.0和osd.1的设备并没有添加到我的这个主机,因为我将其用于yinzhengjie-ceph141-ssd自定义的主机啦!
    # item osd.0 weight 0.195
    # item osd.1 weight 0.195
    item osd.2 weight 1.500
    item osd.3 weight 0.488
}



# 在适当位置添加如下配置即可,这个配置根据咱们自己的主机来写即可。

host yinzhengjie-ceph141-ssd {
    # 住两个id字段不要和上面的冲突即可,我就将ceph141的ID后面加了个0,哈哈哈~偷个懒!懒得箱编号啦!
    id -30        # do not change unnecessarily
    id -40 class hdd        # do not change unnecessarily
    # weight 2.378
    alg straw2
    hash 0    # rjenkins1
    item osd.0 weight 0.195
    item osd.1 weight 0.195
    # 注意哟,我将osd.2和osd.3的设备并没有添加到我的这个主机,因为我将其用于ceph141默认的主机啦!
    # item osd.2 weight 1.500
    # item osd.3 weight 0.488
}

host yinzhengjie-ceph142-ssd {
    id -50        # do not change unnecessarily
    id -60 class hdd        # do not change unnecessarily
    # weight 1.366
    alg straw2
    hash 0    # rjenkins1
    item osd.4 weight 0.195
    item osd.5 weight 0.195
    # item osd.6 weight 0.488
    # item osd.7 weight 0.488
}

host yinzhengjie-ceph143-ssd {
    id -70        # do not change unnecessarily
    id -80 class hdd        # do not change unnecessarily
    # weight 1.366
    alg straw2
    hash 0    # rjenkins1
    item osd.8 weight 0.195
    item osd.9 weight 0.195
    # item osd.10 weight 0.488
    # item osd.11 weight 0.488
}

root yinzhengjie-ssd {
    # 注意哟,复制的时候所有的id都不能重复哟!
    id -10        # do not change unnecessarily
    id -20 class hdd        # do not change unnecessarily
    # weight 5.113
    alg straw2
    hash 0    # rjenkins1
    item yinzhengjie-ceph141-ssd weight 0.488
    item yinzhengjie-ceph142-ssd weight 0.488
    item yinzhengjie-ceph143-ssd weight 0.488
}

# 注意,这个规则的名称也不要重复哈!

rule yinzhengjie_ceph_cluster_rule {
    id 10
    type replicated
    min_size 1
    max_size 3
    step take yinzhengjie-ssd
    step chooseleaf firstn 0 type host
    step emit
}

5.转换crush二进制格式

[root@ceph141 ~]# crushtool -c /yinzhengjie/data/ceph/v3.txt -o /yinzhengjie/data/ceph/v4.crushmap
[root@ceph141 ~]# 
[root@ceph141 ~]# file /yinzhengjie/data/ceph/v4.crushmap
/yinzhengjie/data/ceph/v4.crushmap: MS Windows icon resource
[root@ceph141 ~]#

6.导入新的crush运行图,观察osd是否被分组啦!

[root@ceph141 ~]# ceph osd tree
ID CLASS WEIGHT  TYPE NAME        STATUS REWEIGHT PRI-AFF 
-1       5.11298 root default                             
-3       2.37900     host ceph141                         
 0   hdd 0.19499         osd.0        up  1.00000 1.00000 
 1   hdd 0.19499         osd.1        up  1.00000 1.00000 
 2   hdd 1.50000         osd.2        up  1.00000 1.00000 
 3   hdd 0.48799         osd.3        up  1.00000 1.00000 
-5       1.36699     host ceph142                         
 4   hdd 0.19499         osd.4        up  1.00000 1.00000 
 5   hdd 0.19499         osd.5        up  1.00000 1.00000 
 6   hdd 0.48799         osd.6        up  1.00000 1.00000 
 7   hdd 0.48799         osd.7        up  1.00000 1.00000 
-7       1.36699     host ceph143                         
 8   hdd 0.19499         osd.8        up  1.00000 1.00000 
 9   hdd 0.19499         osd.9        up  0.79999 1.00000 
10   hdd 0.48799         osd.10       up  1.00000 1.00000 
11   hdd 0.48799         osd.11       up  1.00000 1.00000 
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd setcrushmap -i /yinzhengjie/data/ceph/v4.crushmap
41
[root@ceph141 ~]# 
[root@ceph141 ~]# ceph osd tree
ID  CLASS WEIGHT  TYPE NAME                        STATUS REWEIGHT PRI-AFF 
-10       1.46397 root yinzhengjie-ssd                                     
-30       0.48799     host yinzhengjie-ceph141-ssd                         
  0   hdd 0.19499         osd.0                        up  1.00000 1.00000 
  1   hdd 0.19499         osd.1                        up  1.00000 1.00000 
-50       0.48799     host yinzhengjie-ceph142-ssd                         
  4   hdd 0.19499         osd.4                        up  1.00000 1.00000 
  5   hdd 0.19499         osd.5                        up  1.00000 1.00000 
-70       0.48799     host yinzhengjie-ceph143-ssd                         
  8   hdd 0.19499         osd.8                        up  1.00000 1.00000 
  9   hdd 0.19499         osd.9                        up  0.79999 1.00000 
 -1       5.11298 root default                                             
 -3       2.37900     host ceph141                                         
  2   hdd 1.50000         osd.2                        up  1.00000 1.00000 
  3   hdd 0.48799         osd.3                        up  1.00000 1.00000 
 -5       1.36699     host ceph142                                         
  6   hdd 0.48799         osd.6                        up  1.00000 1.00000 
  7   hdd 0.48799         osd.7                        up  1.00000 1.00000 
 -7       1.36699     host ceph143                                         
 10   hdd 0.48799         osd.10                       up  1.00000 1.00000 
 11   hdd 0.48799         osd.11                       up  1.00000 1.00000 
[root@ceph141 ~]#

7.验证crush运行图是否生效

[root@ceph141 ~]# ceph osd crush rule dump
[
    {
        "rule_id": 0,
        "rule_name": "replicated_rule",
        "ruleset": 0,
        "type": 1,
        "min_size": 1,
        "max_size": 5,
        "steps": [
            {
                "op": "take",
                "item": -1,
                "item_name": "default"
            },
            {
                "op": "chooseleaf_firstn",
                "num": 0,
                "type": "host"
            },
            {
                "op": "emit"
            }
        ]
    },
    {
        "rule_id": 10,
        "rule_name": "yinzhengjie_ceph_cluster_rule",  # 注意,咱们定义的规则生效啦!
        "ruleset": 10,
        "type": 1,
        "min_size": 1,
        "max_size": 3,
        "steps": [
            {
                "op": "take",
                "item": -10,
                "item_name": "yinzhengjie-ssd"
            },
            {
                "op": "chooseleaf_firstn",
                "num": 0,
                "type": "host"
            },
            {
                "op": "emit"
            }
        ]
    }
]

[root@ceph141 ~]#

8.测试创建存储池

[root@ceph141 ~]# ceph osd pool create yinzhengjie-ssdpool 32 32
pool 'yinzhengjie-ssdpool' created
[root@ceph141 ~]#

9.验证pgp状态

[root@ceph141 ~]# ceph pg ls-by-pool yinzhengjie-ssdpool | awk '{print$1,$2,$15}'
PG OBJECTS ACTING
15.0 0 [11,3,6]p11
15.1 0 [10,3,7]p10
15.2 0 [2,7,11]p2
15.3 0 [11,3,7]p11
15.4 0 [10,2,7]p10
15.5 0 [6,10,3]p6
15.6 0 [2,10,6]p2
15.7 0 [3,11,7]p3
15.8 0 [2,6,11]p2
15.9 0 [6,2,10]p6
15.a 0 [2,6,10]p2
15.b 0 [2,7,10]p2
15.c 0 [10,2,7]p10
15.d 0 [11,3,7]p11
15.e 0 [2,10,7]p2
15.f 0 [6,10,2]p6
15.10 0 [11,7,2]p11
15.11 0 [2,6,10]p2
15.12 0 [3,7,10]p3
15.13 0 [2,6,10]p2
15.14 0 [6,2,11]p6
15.15 0 [7,10,3]p7
15.16 0 [2,10,6]p2
15.17 0 [7,2,10]p7
15.18 0 [3,10,6]p3
15.19 0 [6,10,3]p6
15.1a 0 [11,2,7]p11
15.1b 0 [7,11,2]p7
15.1c 0 [3,7,11]p3
15.1d 0 [7,11,2]p7
15.1e 0 [11,7,2]p11
15.1f 0 [11,6,2]p11

* NOTE: afterwards
  [root@ceph141 ~]# 
  [root@ceph141 ~]# ceph osd tree
  ID  CLASS WEIGHT  TYPE NAME                        STATUS REWEIGHT PRI-AFF 
  -10       1.46397 root yinzhengjie-ssd                                     
  -30       0.48799     host yinzhengjie-ceph141-ssd                         
  0   hdd 0.19499         osd.0                        up  1.00000 1.00000 
  1   hdd 0.19499         osd.1                        up  1.00000 1.00000 
  -50       0.48799     host yinzhengjie-ceph142-ssd                         
  4   hdd 0.19499         osd.4                        up  1.00000 1.00000 
  5   hdd 0.19499         osd.5                        up  1.00000 1.00000 
  -70       0.48799     host yinzhengjie-ceph143-ssd                         
  8   hdd 0.19499         osd.8                        up  1.00000 1.00000 
  9   hdd 0.19499         osd.9                        up  0.79999 1.00000 
   -1       5.11298 root default                                             
   -3       2.37900     host ceph141                                         
  2   hdd 1.50000         osd.2                        up  1.00000 1.00000 
  3   hdd 0.48799         osd.3                        up  1.00000 1.00000 
   -5       1.36699     host ceph142                                         
  6   hdd 0.48799         osd.6                        up  1.00000 1.00000 
  7   hdd 0.48799         osd.7                        up  1.00000 1.00000 
   -7       1.36699     host ceph143                                         
   10   hdd 0.48799         osd.10                       up  1.00000 1.00000 
   11   hdd 0.48799         osd.11                       up  1.00000 1.00000 
  [root@ceph141 ~]# 


如上结果所示,分到的pg对应的OSD编号有2,3,6,7,10,11,走的时候默认的规则对应的OSD编号。
对应的pg没有并没有落到0,1,4,5,8,9对应的分区编号。


如何让其调度到我们定义的规则的OSD上呢? 需要再进一步研究,现在已经是凌晨了1店多了.... 先睡了。
目录
相关文章
|
4月前
|
算法 前端开发 机器人
一文了解分而治之和动态规则算法在前端中的应用
该文章详细介绍了分而治之策略和动态规划算法在前端开发中的应用,并通过具体的例子和LeetCode题目解析来说明这两种算法的特点及使用场景。
一文了解分而治之和动态规则算法在前端中的应用
|
8月前
|
小程序 数据格式
【经验分享】如何实现自定义数据源的级联选择组件?
【经验分享】如何实现自定义数据源的级联选择组件?
97 6
|
8月前
|
移动开发 前端开发 JavaScript
动态获取新增的数据+项目实例介绍
动态获取新增的数据+项目实例介绍
98 0
|
8月前
|
存储 运维 安全
第十五章信息(文档)和配置管理(选择3分)
第十五章信息(文档)和配置管理(选择3分)
|
Java 数据库 开发者
自动配置要点解读
自动配置要点解读
|
机器学习/深度学习 自然语言处理 算法
C++模板元模板(异类词典与policy模板)- - - 中篇后续
C++模板元模板(异类词典与policy模板)- - - 中篇后续
102 0
|
存储 程序员 C语言
c++ 如何做出实现一组数据的实际索引
c++ 如何做出实现一组数据的实际索引
|
Kubernetes API 容器
【k8s 系列】k8s 学习二十四,如何访问 pod 元数据
**我们在 pod 中运行容器的时候,是否也会有想要获取当前 pod 的环境信息呢?**咱们写的 yaml 清单写的很简单,实际上部署之后, k8s 会给我们补充在 yaml 清单中没有写的字段,那么我们的 pod 环境信息和容器的元数据如何传递到容器中呢?是不是也是通过获取这些 k8s 默认给我填写的字段呢?
200 0
|
存储 程序员 C语言
c++ 如何做出实现一组数据的实际索引
C++是一种计算机高级程序设计语言, 由​​C语言​​​扩展升级而产生 , 最早于1979年由​​本贾尼·斯特劳斯特卢普​​在AT&T贝尔工
|
前端开发 网络架构
前端工作总结151-动态路由和表结构无关
前端工作总结151-动态路由和表结构无关
109 0

热门文章

最新文章