Elasticsearch索引增量统计及定时邮件实现

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 0、需求随着ELKStack在应用系统中的数据规模的急剧增长,每天千万级别数据量(存储大小:10000000*10k/1024/1024=95.37GB,假设单条数据10kB,实际远大于10KB)的累积成为日常需求。如何以相对简单的图形化效果展示数据的增量呢?本文给出思路和实现。

1、问题分解

1.1 ES集群的数据量统计

ES自带的命令行统计举例:


 curl 'localhost:9200/_cat/indices?v'

1

1.2 如何实现增量?

简化思路:

1)每天的固定时间,如早晨0:00统计一次当天的数据量,形成日志文件存储如:20180228-08:00.log

2)20180228的增量为:20180229-00:00.log的数据值-20180228-00:00.log的数据量。(下一天-前一天)


1.3 如何实现统计

简化思路:

1)shell脚本获取每天统计的数据量

2)Excel公式简单计算增量


1.4 如何实现定时邮件统计

简化思路:

1)java + 邮件程序 + 读取脚本实现。

2)crontab实现定时任务处理。


2、具体实现

2.1 单日数据量统计

#!/bin/sh

echo "curTime: "`date '+%Y-%m-%d %H:%M:%S'`

rm -f ./tmp.rst

curl -s -XGET '192.168.1.21:9200/_cat/indices?v&pretty' | grep "open" | grep "index_*" | sort -n -k7 | tee ./tmp.rst

echo "total:" `awk '{sum += $7};END {print sum}' ./tmp.rst`

rm -f ./tmp.rst

1

2

3

4

5

6

返回结果如下:image.png

2.2 Java读取Shell脚本

public static String getShellCont(){

String strRst = "";

try {


String shpath="/home/mail_print.sh";

Process ps = Runtime.getRuntime().exec(shpath);


ps.waitFor();


BufferedReader br = new BufferedReader(new InputStreamReader(ps.getInputStream()));

StringBuffer sb = new StringBuffer();


Strig line;

while ((line = br.readLine()) != null) {

//特殊字符替换

line = line.replace("\t", "&nbsp&nbsp");

line = line.replace(" ", "&nbsp&nbsp");

sb.append(line).append("<br>");


}


strRst = sb.toString();

System.out.println(strRst);

}


catch (Exception e) {

e.printStackTrace();

}

return strRst;

}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

2.3 增量数据统计

步骤1:单日数据统计image.png

步骤1,步骤2数据可以Excel统计得出。

其中单日数据的拷贝shell脚本如下:

cat 20180102-00000*.log | grep count | awk -F "count:" ' { print $2 }'• 1

步骤3:Excel生成图表。image.png

3、难点


4、小结

通过shell脚本+Excel数据统计,简单实现了数据增量可视化。

通过java+邮件处理+定时任务,实现了数据的定时统计以及定时邮件预警功能。

可以,在此基础上,做更多的扩展应用,比如:

1)集群监控状态监控;

2)集群堆内存使用监控;

3)开发中其他相关物理机器内存、CPU、磁盘读写性能等指标的监控等。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
21天前
|
存储 自然语言处理 关系型数据库
ElasticSearch索引 和MySQL索引那个更高效实用那个更合适
ElasticSearch索引 和MySQL索引那个更高效实用那个更合适
35 0
|
23天前
|
关系型数据库 MySQL
elasticsearch对比mysql以及使用工具同步mysql数据全量增量
elasticsearch对比mysql以及使用工具同步mysql数据全量增量
20 0
|
2月前
|
存储 算法 NoSQL
Elasticsearch拆分索引知多少
Elasticsearch拆分索引知多少
31 0
|
3月前
|
数据采集 存储 自然语言处理
elasticsearch 跨索引联合多条件查询
elasticsearch 跨索引联合多条件查询
|
1月前
|
JSON 监控 数据管理
【Elasticsearch专栏 12】深入探索:Elasticsearch使用索引生命周期管理(ILM)自动化删除旧数据
Elasticsearch的ILM功能允许用户定义策略,自动管理索引从创建到删除的生命周期。用户可以设置策略,根据索引年龄或大小自动删除旧数据,节省存储空间。通过应用ILM策略于索引模板,新索引将遵循预定义的生命周期。用户还可以监控ILM状态,确保策略按预期执行。使用ILM,用户可以高效地管理数据,确保旧数据及时删除,同时保持数据完整性和安全性。
|
2月前
|
存储 自然语言处理 搜索推荐
【Elasticsearch专栏 01】深入探索:Elasticsearch的正向索引和倒排索引是什么?
正向索引根据文档ID直接查找文档内容,适用于精确匹配场景;而倒排索引则基于文档内容构建,通过关键词快速定位相关文档,适用于全文搜索,显著提高查询效率,是搜索引擎的核心技术。
|
2月前
|
存储 自然语言处理 搜索推荐
【Elasticsearch专栏 02】深入探索:Elasticsearch为什么使用倒排索引而不是正排索引
倒排索引在搜索引擎中更受欢迎,因为它直接关联文档内容,支持全文搜索和模糊搜索,提高查询效率。其紧凑的结构减少了存储空间,并方便支持多种查询操作。相比之下,正排索引在搜索效率、存储和灵活性方面存在局限。
|
2月前
|
API 索引
Elasticsearch Index Shard Allocation 索引分片分配策略
Elasticsearch Index Shard Allocation 索引分片分配策略
76 1
|
2月前
|
存储 自然语言处理 关系型数据库
Elasticsearch创建一个索引怎么也这么复杂
Elasticsearch创建一个索引怎么也这么复杂
39 0
|
2月前
|
Java 网络架构 索引
Elasticsearch 如何实现索引的伪·命名空间
Elasticsearch 如何实现索引的伪·命名空间
9 0