Elastic Cloud Kubernetes
Elastic Cloud Kubernetes(ECK)是Elastic官方推出的,基于k8s operator的插件,其扩展了k8s的基础编排功能,可以轻松地在k8s中安装、管理 Elasticsearch, Kibana 和 APM集群。
借助ECK,我们可以简化以下关键操作:
- 管理和监控多个集群
- 扩大或缩小集群规模
- 改变集群配置
- 计划备份
- 使用TLS证书保护集群安全
- 建立具有可用区域意识的hot-warm-cold架构
支持的版本
- kubectl 1.11+
- Kubernetes 1.12+ or OpenShift 3.11+
- Google Kubernetes Engine (GKE), Azure Kubernetes Service (AKS), and Amazon Elastic Kubernetes Service (EKS)
- Elasticsearch, Kibana, APM Server: 6.8+, 7.1+
- Enterprise Search: 7.7+
- Beats: 7.0+
在Kubernetes集群中部署ECK
本文以原生的Kubernetes集群为例,GKE、Amazon EKS上的流程也很类似。
- 安装custom resource definitions和operator及其RBAC规则
kubectl apply -f https://download.elastic.co/downloads/eck/1.2.1/all-in-one.yaml
- 监控operator的日志
kubectl -n elastic-system logs -f statefulset.apps/elastic-operator
在私有的k8s集群中,可能无法访问公网,可以先将yaml文件下载至本地,并修改operator镜像的地址。all-in-one.yaml是多个yaml文件的集合,找到statefulset.yaml,并修改其中的image为私有仓库中镜像地址,修改--container-registry为私有仓库地址。
# Source: eck/templates/statefulset.yaml
apiVersion: apps/v1
kind: StatefulSet
metadata:
name: elastic-operator
namespace: elastic-system
labels:
control-plane: elastic-operator
spec:
selector:
matchLabels:
control-plane: elastic-operator
serviceName: elastic-operator
template:
metadata:
annotations:
# Rename the fields "error" to "error.message" and "source" to "event.source"
# This is to avoid a conflict with the ECS "error" and "source" documents.
"co.elastic.logs/raw": "[{\"type\":\"container\",\"json.keys_under_root\":true,\"paths\":[\"/var/log/containers/*${data.kubernetes.container.id}.log\"],\"processors\":[{\"convert\":{\"mode\":\"rename\",\"ignore_missing\":true,\"fields\":[{\"from\":\"error\",\"to\":\"_error\"}]}},{\"convert\":{\"mode\":\"rename\",\"ignore_missing\":true,\"fields\":[{\"from\":\"_error\",\"to\":\"error.message\"}]}},{\"convert\":{\"mode\":\"rename\",\"ignore_missing\":true,\"fields\":[{\"from\":\"source\",\"to\":\"_source\"}]}},{\"convert\":{\"mode\":\"rename\",\"ignore_missing\":true,\"fields\":[{\"from\":\"_source\",\"to\":\"event.source\"}]}}]}]"
labels:
control-plane: elastic-operator
spec:
terminationGracePeriodSeconds: 10
serviceAccountName: elastic-operator
containers:
- image: "your.com/eck-operator:1.2.1"
imagePullPolicy: IfNotPresent
name: manager
args:
- "manager"
- "--log-verbosity=0"
- "--metrics-port=0"
- "--container-registry=your.com"
- "--max-concurrent-reconciles=3"
- "--ca-cert-validity=8760h"
- "--ca-cert-rotate-before=24h"
- "--cert-validity=8760h"
- "--cert-rotate-before=24h"
- "--enable-webhook"
env:
- name: OPERATOR_NAMESPACE
valueFrom:
fieldRef:
fieldPath: metadata.namespace
- name: OPERATOR_IMAGE
value: "harbor.dcos.xixian.unicom.local/mtc/eck-operator:1.2.1"
- name: WEBHOOK_SECRET
value: "elastic-webhook-server-cert"
resources:
limits:
cpu: 1
memory: 512Mi
requests:
cpu: 100m
memory: 150Mi
ports:
- containerPort: 9443
name: https-webhook
protocol: TCP
volumeMounts:
- mountPath: /tmp/k8s-webhook-server/serving-certs
name: cert
readOnly: true
volumes:
- name: cert
secret:
defaultMode: 420
secretName: "elastic-webhook-server-cert"
---
如在安装all-in-one.yaml中出现错误,可以将其中的yaml文件拆分出来单独安装,以此来排除错误
ECK安装成功后,会在k8s中创建一个名为elastic-system的命名空间,在该空间中存在一个eck-operator Pod,该Pod会在后台监控集群的状态,并依据用户的指令作出相应的反应。
部署ELasticsearch集群
为了贴近实际应用,这里我们部署一个3个主节点,使用网络块存储的ES集群。
创建PV
以ceph存储为例,创建3块容量500G的PV
apiVersion: v1
kind: PersistentVolume
metadata:
name: pv-es-data-00 ##pv名称
spec:
capacity:
storage: 500Gi ## pv大小,与云硬盘大小一致即可
accessModes:
- ReadWriteOnce ## pv读写类型,填写云硬盘支持的类型
mountOptions:
- rw ##挂载类型有只读(ro),读写{rw},挂载类型和accessModes要对应起来
persistentVolumeReclaimPolicy: Retain ##建议选择Retain模式
csi:
driver: ckecsi ##固定不变
volumeHandle: welkinbig.es-00-608521303445 ##与cbs实例列表接口instanceId字段对应
fsType: xfs ##挂载文件系统类型xfs,ext4等
volumeAttributes:
monitors: 10.172.xx.xx:6789,10.172.xx.xx:6789,10.172.xx.xx:6789
pool: welkinbig
imageFormat: "2" ##固定不变
imageFeatures: "layering" ##固定不变
adminId: admin ##固定不变
userId: '60852xxxxxxx' ##账户ID
volName: es-00-608521303445 ##云硬盘实例列表接口imageName字段
mounter: rbd
608521xxxxxx: AQDcz0xf7s2SBhAAqGxxxxxxxxxxxxxxxxxx
admin: AQB4kjxfPP1HLxAAXfixxxxxxxxxxxxxxxxxx
controllerPublishSecretRef:
name: xx-secret ##秘钥名称
namespace: default
nodeStageSecretRef:
name: xx-secret
namespace: default
nodePublishSecretRef:
name: xx-secret
namespace: default
部署ES集群
在kubectl中执行以下yaml文件。
version字段指定了要安装的es版本,image标签指定es镜像的私有仓库地址,count为3,表示有3个节点。
node.master: true代表创建的节点为主节点。
node.data: true代表创建的节点为数据节点,可以用于存储数据。
apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
name: es-cluster
spec:
version: 7.9.0
image: your.com/elasticsearch:7.9.0-ik-7.9.0
nodeSets:
- name: master-nodes
count: 3
config:
node.master: true
node.data: true
volumeClaimTemplates:
- metadata:
name: elasticsearch-data
spec:
accessModes:
- ReadWriteOnce
resources:
requests:
storage: 500Gi
podTemplate:
spec:
initContainers:
- name: sysctl
securityContext:
privileged: true
command: ['sh', '-c', 'sysctl -w vm.max_map_count=262144']
containers:
- name: elasticsearch
env:
- name: ES_JAVA_OPTS
value: -Xms4g -Xmx4g
resources:
requests:
cpu: 4
memory: 8Gi
limits:
cpu: 4
memory: 8Gi
监控集群的健康状态和创建过程
获取当前es集群状态信息,包括健康状态、版本和节点数量:
kubectl get elasticsearch
NAME HEALTH NODES VERSION PHASE AGE
quickstart green 3 7.9.0 Ready 1m
当集群刚创建时,HEALTH和PHASE应该为空,等待一定时间后,集群创建完毕后,PHASE变为Ready,HEALTH变为green。
可以通过如下命令查看Pod的状态:
kubectl get pods --selector='elasticsearch.k8s.elastic.co/cluster-name=es-cluster'
NAME READY STATUS RESTARTS AGE
es-cluster-es-default-0 1/1 Running 0 79s
查看Pod的日志:
kubectl logs -f es-cluster-es-default-0
访问ES集群
ECK会创建一个ClusterIP Service用于访问es集群:
kubectl get service es-cluster-es-http
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
es-cluster-es-http ClusterIP 10.15.251.145 <none> 9200/TCP 34m
- 获取访问凭证
ECK会自动创建一个默认用户elastic,密码存储于k8s secret中:
kubectl get secret es-cluster-es-elastic-user -o go-template='{{.data.elastic | base64decode}}'
- 从集群内部访问
命令中的password用步骤1中所获password代替,-k表示忽略证书错误
curl -u "elastic:$PASSWORD" -k "https://es-cluster-es-http:9200"
{
"name" : "es-cluster-es-default-0",
"cluster_name" : "es-cluster",
"cluster_uuid" : "XqWg0xIiRmmEBg4NMhnYPg",
"version" : {...},
"tagline" : "You Know, for Search"
}
JVM堆设置
在podTemplate中设置ES_JAVA_OPTS环境变量,来改变es的JVM堆容量。同时,强烈建议将requests和limits设置为相同值,以确保pod在k8s集群中获取到足够的资源。
podTemplate:
spec:
containers:
- name: elasticsearch
env:
- name: ES_JAVA_OPTS
value: -Xms2g -Xmx2g
resources:
requests:
memory: 4Gi
cpu: 0.5
limits:
memory: 4Gi
cpu: 2
Node配置
任何定义在elasticsearch.yml配置文件中的设置,都可以在spec.nodeSets[?].config中定义。
spec:
nodeSets:
- name: masters
count: 3
config:
node.master: true
node.data: false
node.ingest: false
node.ml: false
xpack.ml.enabled: true
node.remote_cluster_client: false
- name: data
count: 10
config:
node.master: false
node.data: true
node.ingest: true
node.ml: true
node.remote_cluster_client: false
卷声明模板
为防止pod被删除时丢失数据,OPerator默认会为集群中每个pod创建一个容量为1Gi的PersistentVolumeClaim。在生产环境中,应该定义合适容量的volume claim template和storage class来关联持久卷。劵声明的名称必须是elasticsearch-data。如k8s中没有使用storage class来管理劵,可以不指定storage class。
取决于k8s配置和底层文件系统,某些持久卷在创建之后不能改变卷的容量。当定义卷声明时,考虑未来的存储需求以确保有足够的存储空间来应对业务增长
spec:
nodeSets:
- name: default
count: 3
volumeClaimTemplates:
- metadata:
name: elasticsearch-data
spec:
accessModes:
- ReadWriteOnce
resources:
requests:
storage: 500Gi
storageClassName: standard
虚拟内存
默认情况下,es使用内存映射(memory mapping, mmap)来高效地访问索引。通常,Linux系统的默认虚拟地址空间较少,不能满足es的需求,可能导致OOM异常。在生产环境中,建议设置Linux内核参数vm.max_map_count为262144,同时不设置node.store.allow_mmap。
上述内核设置可以在主机中直接修改,也可以通过初始容器来修改。可以使用如下样例,添加一个可以在es pod启动前修改内核参数的初始容器:
podTemplate:
spec:
initContainers:
- name: sysctl
securityContext:
privileged: true
command: ['sh', '-c', 'sysctl -w vm.max_map_count=262144']
定制配置文件和插件
有两种方式来自定义es的配置文件和插件:
- 创建一个已经安装好配置文件和插件的es镜像
- 在Pod启动时安装插件或配置文件
第一个选项的优点是,可以在ECK安装镜像之前验证其正确性,而第二个选项有最大的灵活性。但是第二个选项意味着只能在运行期间才能发现配置文件的错误,同时需要通过公网下载插件。
对于私有集群,可能在集群内无法访问公网,因此建议通过打包镜像的方式来安装插件。下面这个例子介绍如何定制安装插件的镜像。
- 创建一个包含如下内容的Dockerfile
FROM elasticsearch:7.9.0
COPY ./elasticsearch-analysis-ik-7.9.0.zip /home/
RUN sh -c '/bin/echo -e "y" | bin/elasticsearch-plugin install file:/home/elasticsearch-analysis-ik-7.9.0.zip'
- 创建镜像
docker build --tag elasticsearch-ik:7.9.0
上述案例以安装中文分词器IK为例,其他插件可修改Dockerfile。
下面的案例介绍了如何为es中的synonym token filter添加同义词文件。当然,也可以使用同样的方式来将任何文件挂载到es的配置文件目录。
spec:
nodeSets:
- name: default
count: 3
podTemplate:
spec:
containers:
- name: elasticsearch
volumeMounts:
- name: synonyms
mountPath: /usr/share/elasticsearch/config/dictionaries
volumes:
- name: synonyms
configMap:
name: synonyms
在上述代码中,需要事先在同一个命名空间中创建包含配置文件的config map。
部署Kibana
连接一个由ECK管理的es集群非常简单:
创建kibana实例并关联es集群
apiVersion: kibana.k8s.elastic.co/v1
kind: Kibana
metadata:
name: kibana
spec:
version: 7.9.0
image: your.com/kibana:7.9.0
count: 1
elasticsearchRef:
name: es-cluster
namespace: default
namespace是可选参数,如果es集群和kibana运行在同一个namespace中。
Kibana配置文件会被ECK自动创建,并会在es之间创建安全的链接。
监控kibana健康状态和创建过程
同es类型,可以通过kubectl查询kibana实例的细节:
kubectl get kibana
查看同实例关联的pod:
kubectl get pod --selector='kibana.k8s.elastic.co/name=kibana'
连接kibana
ECK会自动为kibana创建一个ClusterIP Service:
kubectl get service kibana-kb-http
kibana的用户名和密码同es集群:
curl -u "elastic:$PASSWORD" -k "https://kibana-kb-http:5601"
总结
本文介绍了如何使用ECK在k8s集群中安装es、kibana,并给出了关键参数的设置方式,文中的例子贴近实际的生产环境,具有一定的参考价值。K8s已经成为容器编排事实上标准,由k8s接管数据库的运维也将是一种趋势,同管理普通应用程序不同,管理数据库的难处在于如何持久化数据。k8s给出的解决方案有两种,一种是hostpath方式,将数据持久化至节点所在宿主机的硬盘上,另一种方式是使用网络存储,包括块存储或者文件存储,同方式一相比,方式二由于存在网络传输的损耗,性能上会存在一定差距,但方式二将数据库的应用和存储相分离,数据库可被调度至任意节点,这带来了更大的灵活性,以及更高的资源利用率,借助于网络存储的特性,数据有着更高的安全性。