实时数据之python操作elasticsearch监控数据插入图表分析

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云数据库 MongoDB,通用型 2核4GB
简介:

  例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。


Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于Apache Lucene文本搜索引擎,内部功能通过ReST API暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支持Java、JavaScript、Python及更多语言的客户端库来访问。它也支持集成Apache Hadoop环境。Elasticsearch在有些处理海量数据的公司中已经有所应用,如GitHub、Foursquare和SoundCloud等。


elasticsearch 他对外提供了rest的http的接口,貌似很强大的样子。 但是咱们的一些数据平台市场会对于elasticsearch的数据进行分析,尤其是实时分析。 当然不能用 http的方式。 比如官网的demo提供的例子:


下面是查询,/ceshi 是索引,rui是type,搜索的内容是,title是jones的。 

1
curl http: //vim.xiaorui.cc:9200/ceshi/rui/_search?q=title:jones&size=5&pretty=true

添加数据


1
curl  - X POST       - '{      "title": "jones",      "amount": 5.7    }'


1.x之后,貌似不能直接curl,

注意,唯一标识符是放置在URL中而不是请求体中。如果您忽略这个标识符,搜索会返回一个错误,类似如下:

 No handler found for uri [/ceshi/rui/] and method [PUT]

发现用0.90.x的人,还是很多的~



当然在python里面,咱们可以用urllib2来搞数据。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#xiaorui.cc
import  urllib2
import  urlib
import  json
 
 
url  =  'http://vim.xiaorui.cc:9200/ceshi/rui'
data  =  {
     'title' 'jones' ,
     'amount' 5.7
     }
 
data  =  json.dumps(data)
 
req  =  urllib2.Request(url, data, headers)
out  =  urllib2.urlopen(req)
print  out.read()


但是这样的话,速度明显有点慢,官方提供了更加快速更方便的方法。

>>> from datetime import datetime

>>> from elasticsearch import Elasticsearch


# 连接elasticsearch 的端口,默认是9200

>>> es = Elasticsearch()


# 创建索引,索引的名字是my-index, 如果已经存在了,就给个400

>>> es.indices.create(index='my-index', ignore=400)

{u'acknowledged': True}


# 插入

>>> es.index(index="my-index", doc_type="test-type", id=42, body={"any": "data", "timestamp": datetime.now()})

{u'_id': u'42', u'_index': u'my-index', u'_type': u'test-type', u'_version': 1, u'ok': True}


# 查询

>>> es.get(index="my-index", doc_type="test-type", id=42)['_source']

{u'any': u'data', u'timestamp': u'2013-05-12T19:45:31.804229'}



其实熟悉mongodb的人,再看elasticsearch的语法,会发现非常的熟悉。

1
2
3
4
5
6
7
8
9
10
11
12
13
res  =  es.search(
     index = 'belajar' ,
     doc_type = 'pesan' ,
     body = {
       'query' : {
         'range' : {
           'postDate' : {
               'from' : '20100101' 'to' : '20140101'
           }
         }
       }
     }
)


上面的意思是,查询这个时间段里面的数据。

1
2
3
4
5
6
7
8
9
10
11
res  =  es.search(
     index = 'belajar' ,
     doc_type = 'pesan' ,
     body = {
       'query' : {
         'match' : {
           'user' 'xiaorui'
         }
       }
     }
)


上面是精确的匹配,匹配user值为 xiaorui 的数据。


一些详细的语法就不在描述了,大家看下官方的文档,然后再python引用就行了。


原文:http://rfyiamcool.blog.51cto.com/1030776/1420811


下面的数据,是我用python的elasticsearch库,打的随机数据。  关键是kibana会把es里面的数据,相应的统计好的。


wKioL1OKuNyASriYAAJVytUU3Xk029.jpg


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
curl -XGET  'http://10.10.10.66:9200/_all/_search?pretty'  -d '{
   "facets" : {
     "0" : {
       "date_histogram" : {
         "field" "@timestamp" ,
         "interval" "1m"
       },
       "global" true ,
       "facet_filter" : {
         "fquery" : {
           "query" : {
             "filtered" : {
               "query" : {
                 "query_string" : {
                   "query" "*"
                 }
               },
               "filter" : {
                 "bool" : {
                   "must" : [
                     {
                       "match_all" : {}
                     }
                   ]
                 }
               }
             }
           }
         }
       }
     }
   },
   "size" : 0
}'


wKiom1OKuRaiE0KeAAOsPXk8l3I020.jpg


支持很多的语法,可以随意的query查询,你想要的组合数据。

wKioL1OLEvOxr1a_AAEoe60ImUQ878.jpg

还可以多条件查询

wKioL1OLFleQtjx1AAJuetRLjRU990.jpg


其中遇到了一个问题,kibana3 时间貌似是UTC的,图表显示的时候,总是差距8个小时,需要调整源码,改成北京时间。




其实对我来说,我还是更喜欢用mongodb,他的bjson,让我爽到天,哈 ! 要是量大的话,用mongodb的分片,elasticsearch的dsl语法,还是让我有些看不下去。 我这里正在做通知平台,以前都是把数据放在mongodb,然后用各种图表展示。  我发现kibana很绚丽,就在研究kibana的一些个特性, 他只是为elasticsearch存在的。 所以大家也不要在尝试改掉kibana,直接把数据插入到elasticsearch,然后通过kibana显示就行了。





 本文转自 rfyiamcool 51CTO博客,原文链接:http://blog.51cto.com/rfyiamcool/1420811 ,如需转载请自行联系原作者

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
4天前
|
存储 JSON 数据格式
Elasticsearch 8.X 可以按照数组下标取数据吗?
Elasticsearch 8.X 可以按照数组下标取数据吗?
16 0
|
2天前
|
SQL 关系型数据库 数据库
实时计算 Flink版产品使用合集之将数据写入Elasticsearch时,若Elasticsearch中的字段类型为date,对应的SQL类型应该是什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
23 0
|
3天前
|
SQL 监控 API
实时计算 Flink版产品使用合集之可以用来同步数据到 Elasticsearch(ES)吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
12 0
实时计算 Flink版产品使用合集之可以用来同步数据到 Elasticsearch(ES)吗
|
4天前
|
Java API
Java操作elasticsearch
Java操作elasticsearch
11 0
|
4天前
|
API 数据安全/隐私保护 开发者
用 Python 优雅地玩转 Elasticsearch:实用技巧与最佳实践
用 Python 优雅地玩转 Elasticsearch:实用技巧与最佳实践
24 6
|
4天前
|
存储 数据处理 索引
Elasticsearch 8.X 小技巧:使用存储脚本优化数据索引与转换过程
Elasticsearch 8.X 小技巧:使用存储脚本优化数据索引与转换过程
34 6
|
4天前
|
JSON 测试技术 数据格式
Elasticsearch 8.X 如何生成 TB 级的测试数据 ?
Elasticsearch 8.X 如何生成 TB 级的测试数据 ?
15 0
|
4天前
|
监控 API 索引
实战问题:Elasticsearch 2.X 数据如何迁移到 7.X?
实战问题:Elasticsearch 2.X 数据如何迁移到 7.X?
11 0
|
4天前
|
NoSQL 关系型数据库 数据库
数据库同步 Elasticsearch 后数据不一致,怎么办?
数据库同步 Elasticsearch 后数据不一致,怎么办?
18 0
|
4天前
|
API 索引
Elasticsearch 8.X 如何基于用户指定 ID 顺序召回数据?
Elasticsearch 8.X 如何基于用户指定 ID 顺序召回数据?
14 0

热门文章

最新文章