目录
- 2.1 创建2个存储池
- 2.2 创建cephfs
- 2.3 创建mds
- 2.4 查看文件系统信息
- 2.5 创建用户,并发放keyring
- 2.6 客户端执行挂载
- 2.7 永久挂载
- 2.8 权限补充
- 2.9 查看文件系统状态
1. RBD
rbd是Rados Block Device的简称,是ceph集群中常用的存储类型,rbd是通过linux内核模块或librbd库与osd之间完成交互,一般只有在为物理主机提供设备的时候才会使用内核rbd模块,虚拟机一般使用librbd库,当rbd使用基于内核模块驱动时,可以使用linux自带的页缓存来提高性能,当使用librbd库时,使用rbd缓存来提高性能。
1. RBD特性
- 支持完整和增量快照
- 自动精简置备
- 写时复制
- 动态调整大小
- 内存内缓存
rbd工作流程:
- 创建一个pool,创建rbd设备并挂载
- 用户写入数据,ceph对数据切块,每个块的大小默认为4M,每个块的名字时object+序号
- 将每个object通过hash算法分配给对应的pg
- pg根据crush算法会寻找3个osd,把这个object保存在这3个osd上
- osd实际把硬盘格式化成xfs文件系统,object存储在这个文件系统就相当于存储了一个文件 rbd0.object1.file
2. 创建rbd池并使用
2.1 创建rbd
[root@ceph01 ~]# ceph osd pool create rbd pool 'rbd' created [root@ceph01 ~]# ceph osd pool application enable rbd rbd enabled application 'rbd' on pool 'rbd' # 执行初始化rbd池 [root@ceph01 ~]# rbd pool init rbd
2.2 创建用户
[root@ceph01 ~]# ceph auth get-or-create client.rbd mon 'profile rbd' osd ' profile rbd' [client.rbd] key = AQBYmVJmdzLLEBAAAuxze+16sFzNAUsTontr8Q== [root@ceph01 ~]# ceph auth get client.rbd > ceph.client.rbd.keyring exported keyring for client.rbd
这里的权限就是给的profile rbd 意思就是这个用户只能对rbd进行操作,当然,是所有的rbd,如果想指定特定的rbd可以 ,allow rw pool=xxx这样就是操作特定池的rbd
2.3 下发用户key与ceph.conf
[root@ceph01 ~]# scp ceph.client.rbd.keyring /etc/ceph/ceph.conf 10.104.45.244:/etc/ceph/
2.4 客户端查看pool
来到客户端
[root@client ~]# ceph osd pool ls --name client.rbd --keyring /etc/ceph/ceph.client.rbd.keyring device_health_metrics test_pool test02 rbd
权限正常
2.5 创建rbd块
这一步操作也可以在客户端上执行
[root@ceph01 ~]# rbd create rbd/test --name client.rbd --size 5G --image-format 2 --image -feature layering
查看rbd块
[root@ceph01 ~]# rados -p rbd ls --name client.rbd rbd_header.fd7dc75c9ce3 rbd_id.test rbd_directory rbd_info
目前我们看到的rbd块里面有4个对象,后期往里面写入文件的时候这里面的对象会越来越多
2.6 映射rbd并挂载
在客户端操作
# 1. 加载rbd模块 [root@client ~]# modprobe rbd # 2. 让rbd模块开机自动加载 [root@client ~]# echo "rbd" >> /etc/modules-load.d/rbd.conf
先看一下块设备
[root@client ~]# fdisk -l Disk /dev/sda: 50 GiB, 53687091200 bytes, 104857600 sectors Disk model: Virtual disk Units: sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disklabel type: gpt Disk identifier: A41913C9-11D3-4136-9C7A-4FF37D0A02D0 Device Start End Sectors Size Type /dev/sda1 2048 1230847 1228800 600M EFI System /dev/sda2 1230848 3327999 2097152 1G Linux filesystem /dev/sda3 3328000 104855551 101527552 48.4G Linux LVM Disk /dev/mapper/openeuler-root: 44.48 GiB, 47760539648 bytes, 93282304 sectors Units: sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk /dev/mapper/openeuler-swap: 3.93 GiB, 4219469824 bytes, 8241152 sectors Units: sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes
目前机器上只有一个sda,并且是50G的
# 3. 映射rbd [root@client ~]# rbd map --name client.rbd rbd/test /dev/rbd0 # 4. 查看rbd [root@client ~]# fdisk -l |grep /dev/rbd0 Disk /dev/rbd0: 5 GiB, 5368709120 bytes, 10485760 sectors # 5. 格式化块设备 [root@client ~]# mkfs.xfs /dev/rbd0 meta-data=/dev/rbd0 isize=512 agcount=8, agsize=163840 blks = sectsz=512 attr=2, projid32bit=1 = crc=1 finobt=1, sparse=1, rmapbt=0 = reflink=1 bigtime=0 inobtcount=0 data = bsize=4096 blocks=1310720, imaxpct=25 = sunit=16 swidth=16 blks naming =version 2 bsize=4096 ascii-ci=0, ftype=1 log =internal log bsize=4096 blocks=2560, version=2 = sectsz=512 sunit=16 blks, lazy-count=1 realtime =none extsz=4096 blocks=0, rtextents=0 Discarding blocks...Done. # 6. 挂载使用 [root@client ~]# mkdir /rbd [root@client ~]# mount /dev/rbd0 /rbd/ [root@client ~]# echo 111 > /rbd/test
2.7 开机自动映射
这个地方是开机自动映射,并不是自动挂载,因为在挂载之前如果没有映射的话本地是没有这块磁盘的,所以也不存在能够挂载
# 1. 编写配置文件 [root@client ~]# vim /etc/ceph/rbdmap #poolname/imagename id=client,keyring=/etc/ceph/ceph.client.keyring rbd/test id=rbd # 2. 开机自启动服务 [root@client ~]# systemctl enable --now rbdmap Created symlink /etc/systemd/system/multi-user.target.wants/rbdmap.service → /usr/lib/systemd/system/rbdmap.service. # 3. 开机自动挂载 [root@client ~]# tail -1 /etc/fstab /dev/rbd0 /rbd xfs defaults,_netdev 0 0
这里的id=rbd是用户名是rbd,并不是pool的名字
2.8 rbd create参数
- --name:指定用哪个用户创建
- --size:指定创建的块大小
- --image-format:指定镜像文件格式,有1和2,1已经被废弃
- --image-feature:指定镜像文件的特性,可以指定多个
- --stripe-unit:指定rbd存储池中最小文件块的大小,不得小于4k,不得大于32M,默认4M
- --stripe-count:如果指定了stripe-unit,则这个也需要指定,其表示一个数据可以并行写入到多少个数据块中,默认为1
Name | 描述 | ID |
layering | 支持分层快照特性,用于快照及写时复制,可以对image创建快照并保护,然后从快照克隆出新的image,父子image之间采用COW技术,共享对象数据 | 1 |
striping | 支持条带化v2,类似于raid0,只不过ceph环境中的数据被分散到不同的对象中,可改善顺序读写场景较多情况的性能 | 2 |
exclusive-lock | 支持独占锁,限制一个镜像只能被一个客户端使用 | 4 |
object-map | 支持对象映射(依赖exclusive-lock),加速数据导入导出及已用空间统计等,此特性开启的时候,会记录image所有对象的一个位图,用于标记对象是否真的存在,在一些场景下可以加速IO | 8 |
fast-diff | 加速计算镜像与快照快照数据差异对比(依赖object-map) | 16 |
deep-flatten | 支持快照扁平化操作,用于快照管理时解决快照依赖关系等 | 32 |
journaling | 修改数据是否记录日志,该特性可以通过记录日志回复数据(依赖独占锁),开启此特性会增加系统IO使用 | 64 |
data-pool | EC data pool support | 128 |
在创建时,指定多个rbd特性
[root@ceph01 ~]# rbd create rbd/test --name client.rbd --size 5G --image-format 2 --image -feature layering,exclusive-lock,object-map
也可以直接指定默认的特性,可以直接使用id,如果我想要 layering+deep-flatten,那么id就是1+32=33
[root@ceph01 ~]# ceph config set client rbd_default_features 33 [root@ceph01 ~]# rbd create rbd/test01 --size 1G [root@ceph01 ~]# rbd info rbd/test01 rbd image 'test01': size 1 GiB in 256 objects order 22 (4 MiB objects) snapshot_count: 0 id: fdb9d96db2f9 block_name_prefix: rbd_data.fdb9d96db2f9 format: 2 features: layering, deep-flatten op_features: flags: create_timestamp: Sun May 26 11:37:08 2024 access_timestamp: Sun May 26 11:37:08 2024 modify_timestamp: Sun May 26 11:37:08 2024
看,这样设置默认之后创建出来的rbd就都是layering, deep-flatten 这两个特性了
2.9 rbd映射基本操作
# 查看已映射设备 [root@client ~]# rbd showmapped id pool namespace image snap device 0 rbd test - /dev/rbd0 # 取消映射,必须先取消挂载 [root@client ~]# umount /rbd [root@client ~]# rbd unmap rbd/test
3. 块设备操作
3.1 调整rbd大小
# 调大 [root@ceph01 ~]# rbd resize rbd/test --size 10G Resizing image: 100% complete...done. # 调小,慎重操作 [root@ceph01 ~]# rbd resize rbd/test --size 8G --allow-shrink Resizing image: 100% complete...done. [root@client ~]# fdisk -l |grep rbd Disk /dev/rbd0: 8 GiB, 8589934592 bytes, 16777216 sectors
3.2 复制块设备
[root@ceph01 ~]# rbd ls rbd test test01 [root@ceph01 ~]# rbd cp rbd/test01 rbd/copy01 Image copy: 100% complete...done.
3.3 移动到其他pool
移动到其他的池也就是将rbd复制到其他的池里去
# 创建一个池 [root@ceph01 ~]# ceph osd pool ls device_health_metrics test_pool test02 rbd [root@ceph01 ~]# ceph osd pool create mv_rbd pool 'mv_rbd' created [root@ceph01 ~]# ceph osd pool application enable mv_rbd rbd enabled application 'rbd' on pool 'mv_rbd' [root@ceph01 ~]# rbd pool init mv_rbd # 将copy01移动到 mv_rbd [root@ceph01 ~]# rbd cp rbd/copy01 mv_rbd/mv_copy Image copy: 100% complete...done.
当客户端挂载了一个rbd(已经格式化完成的),并且想挂载这个rbd复制过来的另一个rbd时,这时候系统是会报错的,原因是因为这两个rbd是完全一样的,系统识别是有点问题的,想要挂载的话必须取消之前的rbd映射,也就是说同一时间只能挂载一个,不管你是挂载的复制的还是被复制的,这俩只能有一个存在于系统上
4. rbd快照管理
4.1 创建快照
[root@ceph01 ~]# rbd snap create rbd/test@snapshot01 Creating snap: 100% complete...done. [root@ceph01 ~]# rbd snap ls rbd/test SNAPID NAME SIZE PROTECTED TIMESTAMP 4 snapshot01 8 GiB Sun May 26 12:34:03 2024
4.2 回滚快照
# 到客户端删除rbd上的所有文件 [root@client ~]# cd /rbd/ [root@client rbd]# ls test [root@client rbd]# rm test -f # 卸载rbd [root@client ~]# umount /rbd # 回滚 [root@client ~]# rbd snap rollback rbd/test@snapshot01 --name client.rbd Rolling back to snapshot: 100% complete...done # 重新挂载查看文件 [root@client ~]# mount -a [root@client ~]# cd /rbd/ [root@client rbd]# ls test
4.3 保护快照
开启了这个功能之后快照无法被删除
[root@ceph01 ~]# rbd snap protect rbd/test@snapshot01 [root@ceph01 ~]# rbd info rbd/test@snapshot01 rbd image 'test': size 8 GiB in 2048 objects order 22 (4 MiB objects) snapshot_count: 1 id: fd7dc75c9ce3 block_name_prefix: rbd_data.fd7dc75c9ce3 format: 2 features: layering op_features: flags: create_timestamp: Sun May 26 10:22:11 2024 access_timestamp: Sun May 26 10:22:11 2024 modify_timestamp: Sun May 26 10:22:11 2024 protected: True
4.4 删除快照
[root@ceph01 ~]# rbd snap rm rbd/test@snapshot01 Removing snap: 0% complete...failed. rbd: snapshot 'snapshot01' is protected from removal. 2024-05-26T12:44:29.788+0800 7fa5126fc1c0 -1 librbd::Operations: snapshot is protected
现在是删不掉的,因为被保护了,我们需要取消保护
[root@ceph01 ~]# rbd snap unprotect rbd/test@snapshot01 [root@ceph01 ~]# rbd snap rm rbd/test@snapshot01 Removing snap: 100% complete...done.
4.5 克隆快照
克隆之前需要对被克隆的快照进行保护,原因是因为克隆出来的新快照是完全依赖于原先的快照的,如果原先的快照被删除,那么克隆出来的快照也将无法使用
# 先创建一个快照 [root@ceph01 ~]# rbd snap create rbd/test@snapshot01 Creating snap: 100% complete...done. # 保护快照 [root@ceph01 ~]# rbd snap protect rbd/test@snapshot01 # 克隆新快照 [root@ceph01 ~]# rbd clone rbd/test@snapshot01 rbd/clone_snap [root@ceph01 ~]# rbd ls rbd/ clone_snap copy01 test test01
查看信息
[root@ceph01 ~]# rbd info rbd/clone_snap rbd image 'clone_snap': size 8 GiB in 2048 objects order 22 (4 MiB objects) snapshot_count: 0 id: fe76c24b54cf block_name_prefix: rbd_data.fe76c24b54cf format: 2 features: layering op_features: flags: create_timestamp: Sun May 26 12:51:40 2024 access_timestamp: Sun May 26 12:51:40 2024 modify_timestamp: Sun May 26 12:51:40 2024 parent: rbd/test@snapshot01 overlap: 8 GiB
注意对比这个克隆出来的与其他的差异,这个rbd他有一个
parent: rbd/test@snapshot01,也就是说他是基于这个的,如果这个快照被删除那么这个克隆出来的也将无法使用,前面提到了
如果说我我就要让他独立存在呢?不受其他快照的影响,可以做到吗?是可以的
# 合并父镜像/快照拉平 [root@ceph01 ~]# rbd flatten rbd/clone_snap Image flatten: 100% complete...done. [root@ceph01 ~]# rbd info rbd/clone_snap rbd image 'clone_snap': size 8 GiB in 2048 objects order 22 (4 MiB objects) snapshot_count: 0 id: fe76c24b54cf block_name_prefix: rbd_data.fe76c24b54cf format: 2 features: layering op_features: flags: create_timestamp: Sun May 26 12:51:40 2024 access_timestamp: Sun May 26 12:51:40 2024 modify_timestamp: Sun May 26 12:51:40 2024
这个时候再去看,他就没有parent这个条目了,也就是说他可以独立存在了
4.6 客户端配置rbd缓存
[root@client rbd]# vim /etc/ceph/ceph.conf # 加入下列这些配置 [clienti.rbd] rbd_cache = true rbd_cache_size = 33554432 # 32M rbd_cache_max_dirty = 25165824 rbd_cache_target_dirty = 16777216 rbd_cache_max_dirty_age = 1 rbd_cache_writethrough_until_flush = true
rbd缓存:开启之后想往磁盘写数据会先内存,然后再从内存里写入到磁盘,加速写入速度,开启之后也会面临风险,因为数据是先到内存,万一断电那么就会丢失32M数据,因为缓存大小是32M
2. CephFS
cephfs提供就是一个文件系统,不像rbd一样需要自己格式化
文件系统(cephfs)与块存储(rbd)不同的是,块存储只需要一个存储池就可以,而文件系统需要2个存储池,一个用来存放元数据,存放元数据的存储池需要有一个mds来读取。一个用来存放数据
1. mds是什么
mds:matadata server
文件系统需要存放元数据和数据,但是存储池里面存储的是对象,并不是元数据,那么需要使用文件系统的话就必须具备将对象转换成元素据的能力,这个就是mds的活,也就是转换元素据的,他还能够充当元数据的缓存,他的内存是可以缓存一部分元数据的。
2. 创建文件系统
2.1 创建2个存储池
# 1. 创建2个存储池 data_cephfs,metadata_cephfs # 存储池名字可以随便起 [root@ceph01 ~]# ceph osd pool create cephfs_data pool 'cephfs_data' created [root@ceph01 ~]# ceph osd pool create cephfs_metadata pool 'cephfs_metadata' created # 2. 绑定文件系统类型 [root@ceph01 ~]# ceph osd pool application enable cephfs_metadata cephfs enabled application 'cephfs' on pool 'cephfs_metadata' [root@ceph01 ~]# ceph osd pool application enable cephfs_data cephfs enabled application 'cephfs' on pool 'cephfs_data'
2.2 创建cephfs
# 先指定元数据池,再指定数据池 [root@ceph01 ~]# ceph fs new mycephfs cephfs_metadata cephfs_data new fs with metadata pool 13 and data pool 12
2.3 创建mds
如果不创建mds的话集群过一会的健康状态就会变成 HEALTH_ERR
[root@ceph01 ~]# ceph orch apply mds mycephfs --placement="3" Scheduled mds.mycephfs update...
2.4 查看文件系统信息
[root@ceph01 ~]# ceph fs dump e8 enable_multiple, ever_enabled_multiple: 1,1 default compat: compat={},rocompat={},incompat={1=base v0.20,2=client writeable ranges,3=default file layouts on dirs,4=dir inode in separate object,5=mds uses versioned encoding,6=dirfrag is stored in omap,8=no anchor table,9=file layout v2,10=snaprealm v2} legacy client fscid: 1 Filesystem 'mycephfs' (1) fs_name mycephfs epoch 5 flags 12 created 2024-05-26T06:36:24.540439+0000 modified 2024-05-26T06:38:54.292138+0000 tableserver 0 root 0 session_timeout 60 session_autoclose 300 max_file_size 1099511627776 required_client_features {} last_failure 0 last_failure_osd_epoch 0 compat compat={},rocompat={},incompat={1=base v0.20,2=client writeable ranges,3=default file layouts on dirs,4=dir inode in separate object,5=mds uses versioned encoding,6=dirfrag is stored in omap,7=mds uses inline data,8=no anchor table,9=file layout v2,10=snaprealm v2} max_mds 1 in 0 up {0=65215} failed damaged stopped data_pools [12] metadata_pool 13 inline_data disabled balancer standby_count_wanted 1 [mds.mycephfs.ceph03.hgvfpj{0:65215} state up:active seq 2 join_fscid=1 addr [v2:10.104.45.243:6824/75731152,v1:10.104.45.243:6825/75731152] compat {c=[1],r=[1],i=[7ff]}] Standby daemons: [mds.mycephfs.ceph02.dhucfo{-1:65221} state up:standby seq 1 join_fscid=1 addr [v2:10.104.45.241:6826/3559035759,v1:10.104.45.241:6827/3559035759] compat {c=[1],r=[1],i=[7ff]}] [mds.mycephfs.ceph01.fkwkdc{-1:65469} state up:standby seq 1 join_fscid=1 addr [v2:192.168.101.10:6824/2486210203,v1:192.168.101.10:6825/2486210203] compat {c=[1],r=[1],i=[7ff]}] dumped fsmap epoch 8
2.5 创建用户,并发放keyring
[root@ceph01 ~]# ceph auth get-or-create client.cephfs mon 'allow r' mds 'allow *' osd 'allow rw pool=cephfs_metadata,allow rw pool=cephfs_data' -o ceph.client.cephfs.keyring [root@ceph01 ~]# scp ceph.client.cephfs.keyring 10.104.45.244:/etc/ceph/ Authorized users only. All activities may be monitored and reported. root@10.104.45.244's password: ceph.client.cephfs.keyring 100% 64 120.7KB/s 00:00
2.6 客户端执行挂载
挂载有2种方式
- 基于ceph-fuse的方式
- 基于系统内核的方式(推荐这种)
# 需要安装ceph客户端,如果不安装mount -t ceph 会报错没有这个类型 # 1. 将用户密钥保存到一个文件。 只要密钥,其他任何东西都不用写 [root@client ~]# cat /etc/ceph/ceph.client.cephfs.keyring [client.cephfs] key = AQAP2lJm1BGICRAAblGZADS8xWfDsWl2keqzQw== [root@client ~]# echo "AQAP2lJm1BGICRAAblGZADS8xWfDsWl2keqzQw==" > cephfs.key [root@client ~]# mkdir /cephfs [root@client ~]# mount -t ceph -o name=cephfs,secretfile=./cephfs.key 192.168.101.10,192.168.101.20,192.168.101.30:/ /cephfs
2.7 永久挂载
[root@client ~]# vim /etc/fstab 192.168.101.10,192.168.101.20,192.168.101.30:/ /cephfs ceph defaults,_netdev,name=cephfs,secretfile=/etc/ceph/cephfs.key
2.8 权限补充
刚刚我们所给的权限是可以直接挂载cephfs的根目录的,如果我们只想给这个用户挂载根目录下的某个目录,那么就需要做进一步的权限控制了
[root@ceph01 ~]# ceph fs authorize mycephfs client.user01 /nas rwps [client.user01] key = AQCz4FJmZc+JAxAAtPPefz1dXPnwfoHH4LUXPw==
这里的mycephfs就是这个用户可以操作的文件系统名, /nas 就是它能够挂载的目录 权限是rwps也就是全部权限 rw很好理解,p是管理权限,s就是文件系统(fs中的s)
2.9 查看文件系统状态
[root@ceph01 ~]# ceph fs status mycephfs - 1 clients ======== RANK STATE MDS ACTIVITY DNS INOS DIRS CAPS 0 active mycephfs.ceph03.hgvfpj Reqs: 0 /s 11 13 12 1 POOL TYPE USED AVAIL cephfs_metadata metadata 300k 142G cephfs_data data 0 142G STANDBY MDS mycephfs.ceph02.dhucfo mycephfs.ceph01.fkwkdc MDS version: ceph version 16.2.13 (5378749ba6be3a0868b51803968ee9cde4833a3e) pacific (stable)
本文来自博客园,作者:FuShudi,转载请注明原文链接:https://www.cnblogs.com/fsdstudy/p/18213732
分类: Euler / HCIE / Ceph , Euler , Euler / HCIE