开发者社区官方技术圈

阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。

阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。

手动备份到本地OSS仓库,需要先开通对象存储服务OSS,并新建一个标准存储类型的Bucket,且Bucket的地域与Elasticsearch实例的地域保持一致。在手动备份与恢复数据前,请确保集群的状态正常,否则会影响备份任务。快照仅保存索引数据,不保存Elasticsearch实例自身的监控数据(例如以.monitoring和.security_audit为前缀的索引)、元数据、Translog、实例配置数据、Elasticsearch软件包、自带和自定义的插件、Elasticsearch日志等。

然后创建仓库,创建一个名称为test的仓库,具体命令如下,其中""endpoint""为OSS Bucket的内网访问域名。""access_key_id""为账号ak。""secret_access_key""为账号sk。""bucket""为OSS Bucket的名称。""compress""为是否打开快照文件的压缩功能,参数值为true和false。""chunk_size""的含义是当上传的数据非常大时,配置此参数可以限制快照过程中分块的大小。超过这个大小,数据将会被分块上传到OSS中。

PUT _snapshot/test/
{
"type": "oss",
"settings": {
"endpoint": "http://oss-cn-hangzhou-internal.aliyuncs.com",
"access_key_id": "xxxx",
"secret_access_key": "xxxxxx",
"bucket": "xxxxxx",
"compress": true,
"chunk_size": "500mb",
"base_path": "snapshot/"
}
}

然后进行快照的创建,为全部索引创建快照命令如下PUT _snapshot/test/snapshot_1以上命令会为所有打开的索引创建名称为snapshot_1的快照,并保存到test仓库中。该命令会立刻返回,并在后台执行备份任务。如果您希望任务执行完成后再返回可通过添加wait_for_completion实现。该参数会阻塞调用直到备份完成,如果是大型快照,需要很长时间才能返回。

PUT _snapshot/my_backup/snapshot_1?wait_for_completion=true

注意:一个仓库可以包含多个快照,每个快照中可以包含所有、部分或单个索引的备份数据。第一次创建快照时,系统会备份所有的数据,后续所有的快照仅备份已存快照和新快照之间的增量数据。随着快照的不断进行,备份也在增量的添加和删除。这意味着后续备份会相当快速,因为它们只传输很小的数据量。

系统默认会备份所有打开的索引,也可以为指定索引创建快照,具体命令如下,该命令只会备份名称为index_1和index_2的索引。

PUT _snapshot/my_backup/snapshot_2
{
""indices"": ""index_1,index_2""
}

以上内容摘自《企业级云原生白皮书项目实战》电子书,点击https://developer.aliyun.com/ebook/download/7774可下载完整版

胡嘞嘞 评论 0

1

回答

詹姆斯邦德00 2022-10-17 563浏览量 回答数 1

1

回答

詹姆斯邦德00 2022-10-17 609浏览量 回答数 1

kibana的告警能力是基于X-Pack Watcher的,X-Pack Watcher功能主要由Trigger、Input、Condition和Actions四部分组成,详细说明如下TriggerWatcher定时触发器,即多久触发一次Watcher,相当于多久执行一次input。支持多种调度触发器,详细信息请参见Schedule Trigger。 InputInput将数据加载到执行上下文,用于后续的Watcher执行阶段,如果input没有指定,将会加载一个空上下文,详细信息请参见Inputs。Watcher支持以下input类型:

•simple:将输入静态数据加载到执行上下文。例如手动输入一段简单的数据进行报警。

•search:将搜索结果加载到执行上下文。例如全文搜索关键词,对搜索结果进行统计实现报警。

•http:将HTTP请求结果加载到执行上下文。例如通过Elasticsearch请求接口获取集群健康状态、节点状态等实现报警。

•chain:将一系列的输入数据加载到执行上下文,这些数据一般是来自多个源。

Condition执行Actions的条件。即满足条件将会触发下一步操作,如果不指定条件,默认为always,详细信息请参见Conditions。Watcher支持以下condition类型:

•always:条件总为true,始终执行Watcher Actions。

•nerver:条件总为false,从不执行Watcher Actions。

•compare:对Watcher有效负载中的值进行简单比较,以确定是否执行Watcher Actions。

•array_compare:将Watcher有效负载中的值数组与给定值进行比较,以确定是否执行Watcher Actions。

•script:使用脚本确定是否执行Watcher Actions。

Actions报警接收对象,常见的报警接收对象包括邮件、Webhook 、index和logging等,详细信息请参见Actions。

由于 Kibana告警是依赖ES本身的服务,所以实际的告警数据,是ES集群节点发送出来的,这样需考虑下网络联通性,自2020年10月起,阿里云Elasticsearch对不同地域进行了网络架构的调整,对创建的实例有以下影响,2020年10月之前创建的实例均在旧网络架构下,即Elasticsearch实例处于用户VPC下,如果需要访问公网,可以直接使用SNAT功能或自建Nginx代理。2020年10月及之后创建的实例均在新网络架构下,即Elasticsearch实例处于Elasticsearch服务VPC下,X-PackWatcher功能受到网络限制,为解决此问题,阿里云Elasticsearch提供了实例私网连接方案,也就是PrivateLink方案,详细网络架构我们在5.1.7.1.3章节有说明。如果还需要将报警信息推送至公网环境,在通过实例私网连接打通Elasticsearch服务VPC和用户VPC的基础上,还需对负载均衡后端服务配置Nginx代理或开启SNAT功能实现公网信息推送。

注意:通过邮件接收报警存在端口限制,阿里云Elasticsearch不支持,建议通过Webhook进行邮件转发。

以上内容摘自《企业级云原生白皮书项目实战》电子书,点击https://developer.aliyun.com/ebook/download/7774可下载完整版

胡嘞嘞 评论 0

还包括更多的ES应用层面的监控项,重点的ES应用层面的监控部分为cluster、index、Node Resource、Node Network、Node DiskNode JVM 、Thread_pool。

cluster表示ES集群维度监控,包括了节点的总数量、index的总数量、集群中shard的总数量、主shard的总数量等数据。

index是索引维度监控数据,包括了集群中索引维度的查询QPS、集群中索引维度的写入QPS、索引请求的执行耗时、查询请求的执行耗时、index segments内存使用情况、index segments数目等,当ES集群整体QPS异常,可以通过该指标看下,具体是那个索引的写入QPS上升了,当ES集群内存异常,可以通过这部分监控数据,分析下具体是哪部分内存异常,比如index segments内存使用情况,是指每个segment都会有一部分数据缓存在内存中,加速索引数据的查询速度,这部分内存是无法被GC的,一个node的segment memory占用过多的时候,就需要考虑删除、归档数据,或者扩容了。

Node Resource主要是节点内存、CPU资源的监控,当业务出现请求异常,可以优先查看下节点的资源数据,使用存在CPU、内存打高的情况。

Node Network是节点网络相关数据,包括节点网络流入流出包、节点网络流入流出率、节点TCP连接数,主要观察下ES集群连接数量和请求流量等。

Node Disk是节点维度的磁盘使用情况,包括每秒完成的读写请求数量、每秒完成的读写大小等指标,主要是观察存储维度的数据读写情况。

Node JVM是节点JVM内存使用的监控,包括heap使用率、old区使用情况、old GC耗时、young GC耗时、old GC频次、young GC频次、堆外内存最大使用量等。

其中heap使用率,也就是堆内内存。es内存分配,堆内和堆外个一半,当内存超过64G,堆内存不会再多分配,全部分配给堆外内存。而gc是保证ES内存资源使用的重要机制,一般通过gc的频次和耗时情况,判断集群的内存压力,当内存使用异常,可以通过gc的频次和耗时情况分析下。

Thread_pool是线程监控,包括线程池中的线程总数、查询线程池中被拒绝的请求数、查询线程池中排队的请求数,以及通用线程池的相关数据,线程一般和请求及CPU相关,当客户端请求失败,可以先观察下CPU使用率,以及查询线程池的情况,如果CPU使用率过高,查询线程池中排队的请求数打满,都可能导致请求失败。

以上内容摘自《企业级云原生白皮书项目实战》电子书,点击https://developer.aliyun.com/ebook/download/7774可下载完整版

胡嘞嘞 评论 0

公告

阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。

展开