在阿里云ACK集群中部署有状态服务通常使用云盘数据卷做数据存储,云盘本身提供了数据的备份(快照)恢复机制,但是如何将底层能力和K8S服务集成并灵活的提供给应用使用,是云原生存储服务需要解决的问题。K8S使用如下两个特性来实现备份恢复能力:
通过VolumeSnapshot对象实现云盘的备份(快照功能);
通过PVC中的DataSource功能实现数据的恢复(快照恢复);
由于VolumeSnapshot在K8S 1.16版本处于Alpha状态,所以ACK集群当前没有默认部署快照功能,需要手动安装插件才能使用;
K8S快照说明:
在Kubernetes中为了实现快照相关功能,通过CRD定义了下面3个相关资源类型:
VolumeSnapshotContent:描述存储后端的快照实例,由系统管理员创建维护,无NameSpace;类比于PV概念;
VolumeSnapshot:声明一个快照实例,由用户创建维护,属于特定NameSpace;类比于PVC概念;
VolumeSnapshotClass:定义一个快照类,描述创建快照使用的参数、Controller;类比于StorageClass概念;
快照资源绑定规则:
在使用Snapshot对象时,和pv、pvc一样,VolumeSnapshot与VolumeSnapshotContent需要首先进行绑定;
VolumeSnapshot如果没有静态VolumeSnapshotContent可以绑定,则会创建动态VolumeSnapshotContent;
VolumeSnapshotContent 与 VolumeSnapshot 绑定是一对一;
删除VolumeSnapshotContent 同时会把后端的快照也删除;
1.卷快照模板
下面是一个VolumeSnapshotClass定义模板:
apiVersion: snapshot.storage.k8s.io/v1beta1
kind: VolumeSnapshotClass
metadata:
name: default-snapclass
driver: diskplugin.csi.alibabacloud.com
parameters:
forceDelete: "false"
deletionPolicy: Delete
其中:
driver:定义了使用这个快照类的VolumeSnapshot所使用的controller;
deletionPolicy: 表示删除volumeSnapshot的时候,volumeSnapshotContent是否删除;
forceDelete: 表示是否允许在云盘引用快照的时候删除快照(默认是不允许删除的,因为以快照为数据源创建云盘时,创建过程会有时延,强制删除可能会造成数据丢失);
下面是一个VolumeSnapshot定义模板:
apiVersion: snapshot.storage.k8s.io/v1beta1
kind: VolumeSnapshot
metadata:
name: new-snapshot-demo
spec:
volumeSnapshotClassName: default-snapclass
source:
persistentVolumeClaimName: disk-ssd-web-0
其中:
persistentVolumeClaimName:定义使用哪个pvc作为快照源;
volumeSnapshotClassName:定义了打快照使用的快照类;
2.通过快照恢复数据
通过云盘快照创建云盘是阿里云云盘提供的基础功能。在容器服务中通过在pvc定义DataSource指定使用哪个快照,动态创建云盘的时候即可实现使用快照创建云盘;
kind: PersistentVolumeClaim
apiVersion: v1
metadata:
name: disk-snapshot
spec:
accessModes:
- ReadWriteOnce
storageClassName: alicloud-disk-ssd
dataSource:
name: new-snapshot-demo
kind: VolumeSnapshot
apiGroup: snapshot.storage.k8s.io
resources:
requests:
storage: 20Gi
其中:
storageClassName:定创建pv的存储类,指向的disk controller需要支持DataSource特性;
dataSource:指定snapshot资源,说明创建云盘会使用这个快照数据;
插件部署:
集群准备:
部署csi-snapshotter前,您需要创建一个ACK 1.16版本集群,并在创建集群的时候选择使用CSI插件;集群创建
部署CRD & Snapshot:
下载snapshotter crd模板:https://github.com/kubernetes-sigs/alibaba-cloud-csi-driver/blob/master/deploy/disk/snapshot/crd.yaml
下载csi-snapshotter模板:https://github.com/kubernetes-sigs/alibaba-cloud-csi-driver/blob/master/deploy/disk/snapshot/csi-snapshotter.yaml
部署插件:
$ kubectl apply -f crd.yaml
$ kubectl apply -f csi-snapshotter.yaml
部署完成后集群中csi插件如下:
# kubectl get crd
NAME CREATED AT
volumesnapshotclasses.snapshot.storage.k8s.io 2020-06-17T09:36:32Z
volumesnapshotcontents.snapshot.storage.k8s.io 2020-06-17T09:36:32Z
volumesnapshots.snapshot.storage.k8s.io 2020-06-17T09:36:32Z
# kubectl get pod -nkube-system |grep csi-snap
csi-snapshotter-d78f57d4d-rmjhp 3/3 Running 0 54m
使用:
下图是一个使用示例流程图,分成1、2、3三个步骤:
步骤1:创建原始应用,创建云盘卷保存数据;
步骤2:创建VolumeSnapshot,这时会自动创建VolumeSnapshotContent和存储端的快照实例;
步骤3:创建新的应用,并配置PVC引用步骤2中创建的快照对象;
通过上述三步实现了:
备份:Volume1中的数据备份到Snapshot1;
恢复:Snapshot1的数据(Volume1的数据)恢复成Volume2卷;
创建VolumeSnapshotClass快照类:
下载VolumeSnapshotClass模板:https://github.com/kubernetes-sigs/alibaba-cloud-csi-driver/blob/master/examples/disk/snapshot/snapshotclass.yaml
$ kubectl apply -f calss.yaml
apiVersion: snapshot.storage.k8s.io/v1beta1
kind: VolumeSnapshotClass
metadata:
name: default-snapclass
driver: diskplugin.csi.alibabacloud.com
deletionPolicy: Delete
# kubectl get VolumeSnapshotClass
NAME AGE
default-snapclass 4h40m
步骤1:创建原始应用并写入数据:
$ kubectl apply -f sts.yaml
apiVersion: apps/v1
kind: StatefulSet
metadata:
name: web
spec:
selector:
matchLabels:
app: nginx
serviceName: "nginx"
replicas: 1
template:
metadata:
labels:
app: nginx
spec:
containers:
- name: nginx
image: nginx
volumeMounts:
- name: disk-ssd
mountPath: /data
volumeClaimTemplates:
- metadata:
name: disk-ssd
spec:
accessModes: [ "ReadWriteOnce" ]
storageClassName: "alicloud-disk-snap"
resources:
requests:
storage: 20Gi
往pod中写入数据:
# kubectl exec -ti web-0 touch /data/test
# kubectl exec -ti web-0 ls /data
lost+found test
步骤2:创建VolumeSnapshot:
$ kubectl apply -f snapshot.yaml
apiVersion: snapshot.storage.k8s.io/v1beta1
kind: VolumeSnapshot
metadata:
name: new-snapshot-demo
spec:
volumeSnapshotClassName: default-snapclass
source:
persistentVolumeClaimName: disk-ssd-web-0
检查集群状态,VolumeSnapshot、VolumeSnapshotContent创建完成,同时到ECS控制台查看快照实例也创建完成:
# kubectl get volumesnapshots.snapshot.storage.k8s.io
NAME AGE
new-snapshot-demo 36m
# kubectl get VolumeSnapshotContent
NAME AGE
snapcontent-222d4dbb-beb4-49e5-8e11-ca6358c62123 36m
步骤3:数据恢复
$ kubectl apply -f sts-snapshot.yaml
apiVersion: v1
kind: Service
metadata:
name: nginx
labels:
app: nginx
spec:
ports:
- port: 80
name: web
clusterIP: None
selector:
app: nginx
---
apiVersion: apps/v1beta2
kind: StatefulSet
metadata:
name: web-restore
spec:
selector:
matchLabels:
app: nginx
serviceName: "nginx"
replicas: 1
template:
metadata:
labels:
app: nginx
spec:
hostNetwork: true
containers:
- name: nginx
image: nginx
command: ["sh", "-c"]
args: ["sleep 10000"]
volumeMounts:
- name: disk-ssd
mountPath: /data
volumeClaimTemplates:
- metadata:
name: disk-ssd
spec:
accessModes: [ "ReadWriteOnce" ]
storageClassName: alicloud-disk-ssd
resources:
requests:
storage: 20Gi
dataSource:
name: new-snapshot-demo
kind: VolumeSnapshot
apiGroup: snapshot.storage.k8s.io
在volumeClaimTemplates定义中指定dataSource为VolumeSnapshot类型,且选择步骤2创建的名字为new-snapshot-demo的VolumeSnapshot。
查看容器数据,验证是否恢复成功:
# kubectl exec -ti web-restore-0 ls /data
lost+found test
可见实现了数据的恢复。
本方案只给出了创建一个快照并进行恢复的场景,后续我们会提供创建定时快照的方案。