四、Kibana
4.1、概述
Kibana是一个针对Elasticsearch的开源分析及可视化平台,使用Kibana可以查询、查看并与存储在ES索引的数据进行交互操作,使用Kibana能执行高级的数据分析,并能以图表、表格和地图的形式查看数据。Kibana与Elasticsearch版本保持严格一致。
4.2、下载安装Kibana
下载Kibana
安装下载Kibana
rpm -ivh kibana-6.2.4-x86_64.rpm 复制代码
查找kibana的安装位置
find / -name kibana 复制代码
编辑kibana配置文件
vim /etc/kibana/kibana.yml 复制代码
修改配置
#ES服务器主机地址 server.host: "192.168.202.200" #ES服务器地址 elasticsearch.hosts: ["http://192.168.202.200:9200"] 复制代码
启动kibana
# 启动kibana systemctl start kibana # 停止kibana systemctl stop kibana # 查看1kibana状态 systemctl status kibana 复制代码
访问测试
kibana默认端口为5601 使用主机:端口直接访问即可 。
五、Kibana的基本操作
5.1、索引的基本操作
5.1.1、创建索引
put /student/ 复制代码
5.1.2、删除索引
delete /student 复制代码
5.1.3、删除所有索引
delete /* 复制代码
5.1.4、查看所有索引信息
get /_cat/indices?v 复制代码
5.2、类型的基本操作
5.2.1、创建类型
创建/shop索引并创建(product)类型,这种方式创建类型要求索引不能存在。
PUT /shop { "mappings": { "product": { "properties": { "title": { "type": "text" }, "name": { "type": "text" }, "age": { "type": "integer" }, "created": { "type": "date" } } } } } 复制代码
5.2.1、查看类型
# 语法格式 get /索引名/_mapping/类型名 # 示范 get /shop/_mapping/product 复制代码
5.3、文档的基本操作
5.3.1、添加文档
# /索引/类型/id PUT /school/student/1 { "name":"xiaolin", "age":23, "bir":"2012-12-12", "content":"这是一个好一点的学生" } 复制代码
5.3.2、查询文档
GET /school/student/1 # 以下是返回结果 { "_index": "school", "_type": "student", "_id": "1", "_version": 1, "found": true, "_source": { "name": "xiaolin", "age": 23, "bir": "2012-12-12", "content": "这是一个好一点的学生" } } 复制代码
5.3.3、删除文档
DELETE /school/student/1 # 以下是返回结果 { "_index": "school", "_type": "student", "_id": "1", "_version": 2, "result": "deleted", #删除成功 "_shards": { "total": 2, "successful": 1, "failed": 0 }, "_seq_no": 1, "_primary_term": 1 } 复制代码
5.3.4、更新文档
5.3.4.1、第一种方式(更新原有的数据)
POST /school/student/1/_update { "doc":{ "name":"xiaohei" } } 复制代码
5.3.4.2、第二种方式(添加新数据)
POST /school/student/1/_update { "doc":{ "name":"xiaohei", "age":11, "dpet":"hello world" } } 复制代码
六、Query高级检索
6.1、检索方式
ES官方提供了两中检索方式:
- 一种是通过 URL 参数进行搜索,类似:GET /索引/类型/_search?参数
- 一种是通过 DSL(Domain Specified Language) 进行搜索,类似:GET /索引/类型/_search {}
官方更推荐使用第二种方式,第二种方式是基于传递JSON作为请求体(request body)格式与ES进行交互,这种方式更强大,更简洁
6.2、准备数据
# 删除索引 DELETE /ems # 创建索引并指定类型 PUT /ems { "mappings":{ "emp":{ "properties":{ "name":{ "type":"text" }, "age":{ "type":"integer" }, "bir":{ "type":"date" }, "content":{ "type":"text" }, "address":{ "type":"keyword" } } } } } # 插入测试数据 PUT /ems/emp/_bulk {"index":{}} {"name":"小黑","age":23,"bir":"2012-12-12","content":"为开发团队选择一款优秀的MVC框架是件难事儿,在众多可行的方案中决择需要很高的经验和水平","address":"北京"} {"index":{}} {"name":"王小黑","age":24,"bir":"2012-12-12","content":"Spring 框架是一个分层架构,由 7 个定义良好的模块组成。Spring 模块构建在核心容器之上,核心容器定义了创建、配置和管理 bean 的方式","address":"上海"} {"index":{}} {"name":"张小五","age":8,"bir":"2012-12-12","content":"Spring Cloud 作为Java 语言的微服务框架,它依赖于Spring Boot,有快速开发、持续交付和容易部署等特点。Spring Cloud 的组件非常多,涉及微服务的方方面面,井在开源社区Spring 和Netflix 、Pivotal 两大公司的推动下越来越完善","address":"无锡"} {"index":{}} {"name":"win7","age":9,"bir":"2012-12-12","content":"Spring的目标是致力于全方位的简化Java开发。 这势必引出更多的解释, Spring是如何简化Java开发的?","address":"南京"} {"index":{}} {"name":"梅超风","age":43,"bir":"2012-12-12","content":"Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API","address":"杭州"} {"index":{}} {"name":"张无忌","age":59,"bir":"2012-12-12","content":"ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口","address":"北京"} 复制代码
6.3、URL检索
GET /ems/emp/_search?q=*&sort=age:asc 复制代码
- _search:搜索的API
- q=* :匹配所有文档
- sort :以结果中的指定字段排序
- asc:排序方式(倒序or顺序)
6.4、DSL高级检索(Query)
GET /ems/emp/_search { "query": {"match_all": {}}, "sort": [ { "age": { "order": "desc" } } ] } 复制代码
6.4.1、match_all
这个关键字表示返回索引中的1全部文档。
GET /ems/emp/_search { "query": { "match_all": {} } } 复制代码
6.4.2、size
size关键字用于指定查询结果的条数,默认返回10条。
GET /ems/emp/_search { "query": { "match_all": {} }, "size": 1 } 复制代码
6.4.3、from
from:用来指定起始返回的位置,和size连用实现分页效果。
GET /ems/emp/_search { "query": {"match_all": {}}, "sort": [ { "age": { "order": "desc" } } ], "size": 2, "from": 1 } ### 6.4.4、_source _source是一个数组,用于指定查询结果中返回指定字段。 ```markdown GET /ems/emp/_search { "query": { "match_all": {} }, "_source": ["account_number", "balance"] } 复制代码
6.4.5、term
term用来使用关键词查询。
GET /ems/emp/_search { "query": { "term": { "address": { "value": "北京" } } } } 复制代码
注意事项:
- 通过使用term查询得知ES中默认使用分词器为标准分词器(StandardAnalyzer),标准分词器对于英文单词分词十分友好,但是对于中文单字分词是非常不友好的。
- 通过使用term查询得知,在ES的Mapping Type 中 keyword , date ,integer, long , double , boolean or ip 这些类型不分词,只有text类型分词。
6.4.6、range
range用来指定查询指定范围内的文档。
GET /ems/emp/_search { "query": { "range": { "age": { "gte": 8, "lte": 30 } } } } 复制代码
6.4.7、prefix
prefix用来检索含有指定前缀的关键词的相关文档。
GET /ems/emp/_search { "query": { "prefix": { "content": { "value": "redis" } } } } 复制代码
6.4.8、wildcard
wildcard用于通配符查询:
?
:用来匹配一个任意字符。*
:用来匹配任意多个字符。
GET /ems/emp/_search { "query": { "wildcard": { "content": { "value": "re*" } } } } 复制代码
6.4.9、ids
ids关键字用来根据一组id获取多个对应的文档,他的值是数组类型。
GET /ems/emp/_search { "query": { "ids": { "values": ["lg5HwWkBxH7z6xax7W3_","lQ5HwWkBxH7z6xax7W3_"] } } } 复制代码
6.4.10、fuzzy
fuzzy用来模糊查询含有指定关键字的文档,他有一个最大模糊错误,必须在0~2之间:
- 搜索关键词长度为2,不允许存在模糊,最大模糊错误为0。
- 搜索关键词长度为3-5,允许一次模糊,最大模糊错误为0和1。
- 搜索关键词长度大于5,最大模糊错误为2
GET /ems/emp/_search { "query": { "fuzzy": { "content":"spring" } } } 复制代码
6.4.11、bool
bool关键字用来组合多个条件实现复杂查询。
GET /ems/emp/_search { "query": { "bool": { "must": [ { "range": { "age": { "gte": 0, "lte": 30 } } } ], "must_not": [ {"wildcard": { "content": { "value": "redi?" } }} ] } }, "sort": [ { "age": { "order": "desc" } } ] } 复制代码
6.4.12、highlight
highlight关键字可以让符合条件的文档中的关键词高亮,并没有对原始数据进行高亮,他是将符合高亮的文档查询出来,并加上前后缀。我们可以自定义高亮html标签:
- pre_tags:前缀
- post_tags:后缀
GET /ems/emp/_search { "query":{ "term":{ "content":"框架" } }, "highlight": { "pre_tags": ["<span style='color:red'>"], "post_tags": ["</span>"], "fields": { "*":{} } } } 复制代码
如果需要多字段高亮,可以使用require_field_match
关键字将他的值设置为false开启多字段高亮。
GET /ems/emp/_search { "query":{ "term":{ "content":"框架" } }, "highlight": { "pre_tags": ["<span style='color:red'>"], "post_tags": ["</span>"], "require_field_match":false, "fields": { "*":{} } } } 复制代码
6.4.13、multi_match
multi_match用于多字段查询,他需要注意的点:
- 如果搜索的字段分词,他会对query进行先分词再搜索。
- 如果搜索的字段不分词,他会直接使用query整体进行该字段搜索,建议在可分词的字段进行检索
GET /ems/emp/_search { "query": { "multi_match": { #搜索字段 "query": "中国", #去哪些字段搜索 "fields": ["name","content"] #这里写要检索的指定字段 } } } 复制代码
6.4.14、query_string
query_string用于多字段分词查询。
GET /dangdang/book/_search { "query": { "query_string": { "query": "中国声音", "analyzer": "ik_max_word", "fields": ["name","content"] } } } 复制代码
6.5、ElasticSearch底层原理
ElasticSearch的底层核心是倒排索引表。
索引区:对文档分词之后的结果,例如:name:[张:0:1] ("张"
这个关键字在0
号文档中出现了1
次)。
元数据区:原始放入的一个个的文档。
6.5.1、正排索引
正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。一般是通过key,去找value。
他的结构是 : 文档1的ID →单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表。
当用户在主页上搜索关键词“华为手机”时,假设只存在正向索引(forward index),那么就需要扫描索引库中的所有文档,找出所有包含关键词“华为手机”的文档,再根据打分模型进行打分,排出名次后呈现给用户。因为互联网上收录在搜索引擎中的文档的数目是个天文数字,这样的索引结构根本无法满足实时返回排名结果的要求。
6.5.2、倒排索引
搜索引擎会将正向索引重新构建为倒排索引,即把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。他是来利用词的关键词去找文档。
他的结构是:“关键词1”:“文档1”的ID,“文档2”的ID