开发者学堂课程【SpringBoot 快速掌握 - 高级应用:Elasticsearch 快速入门】学习笔记,与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/613/detail/9306
Elasticsearch 快速入门
内容介绍:
1.学习工具
2.基础入门
1.学习工具
Elasticsearch 官网,找到文档里的简体中文版 Elasticsearch 权威指南
2.基础入门
面向文档
Elasticsearch 是面向文档 的,意味着它存储整个对象或文档。Elasticsearch 不仅存储文档,而且 索引 每个文档的内容,使之可以被检索。
在 Elasticsearch 中,对文档进行索引、检索、排序和过滤,而不是对行列数据。
这是一种完全不同的思考数据的方式,也是 Elasticsearch 能支持复杂全文检索的原因。
JSON
Elasticsearch 使用 JavaScript Object Notation(或者 JSON)作为文档的序列化格式。
下面这个 JSON 文档代表了一个 user 对象:
{
"email":"john@smith.com",
"first_name":"John",
"last_name": "Smith",
"info": {
"bio":"Eco-warrior and defender of the weak",
"age":25,
"interests": ["dolphins","whales"]
},
"join_date": "2014/05/01"}
创建一个雇员目录
受雇于 Megacorp 公司,作为 HR 部门新的 “热爱无人机” ("We love our drones!")激励项目的一部分,任务是为此创建一个员工目录。该目录应当能培养员工认同感及支持实时、高效、动态协作,因此有一些业务需求:
支持包含多值标签、数值、以及全文本的数据
检索任一员工的完整信息
允许结构化搜索,比如查询 30 岁以上的员工
允许简单的全文搜索以及较复杂的短语搜索
支持在匹配文档内容中高亮显示搜索片段
支持基于数据创建和管理分析仪表盘
索引雇员文档
第一个业务需求是存储员工数据。这将会以员工文档 的形式存储:一个文档代表一个员工。
存储数据到 Elasticsearch 的行为叫做索引 ,但在索引一个文档之前,需要确定将文档存储在哪里。
一个 Elasticsearch 集群可以包含多个索引 ,相应的每个索引可以包含多个 类型 。这些不同的类型存储着多个文档 ,每个文档又有多个属性 。
对于员工目录,将做如下操作:
每个员工索引一个文档,文档包含该员工的所有信息。
每个文档都将是 employee 类型 。
该类型位于 索引 megacorp 内。
该索引保存在我们的 Elasticsearch 集群中。
实践中这非常简单(尽管看起来有很多步骤),可以通过一条命令完成所有这些动作:
PUT /megacorp/employee/1{
"first_name" : "John",
"last_name" : "Smith",
"age" : 25,
"about" :"I love to go rock climbing",
"interests": [ "sports", "music" ]}
拷贝为 curl 在 Sense 中查看
注意,路径 /megacorp/employee/1 包含了三部分的信息:
megacorp
索引名称
employee
类型名称
特定雇员的 ID
检索文档
在 Elasticsearch 中存储一些数据,接下来就能专注于实现应用的业务需求。可以检索到单个雇员的数据。
这在 Elasticsearch 中很简单。简单地执行 一个 HTTP GET 请求并指定文档的地址——索引库、类型和 ID。
使用这三个信息可以返回原始的 JSON 文档:
GET /megacorp/employee/1
注:将 HTTP 命令由 PUT 改为 GET 可以用来检索文档,同样的,可以使用 DELETE 命令来删除文档,以及使用 HEAD 指令来检查文档是否存在。如果想更新已存在的文档,只需再次 PUT 。
轻量搜索
使用下列请求来搜索所有雇员:
GET /megacorp/employee/_search
搜索姓氏为 ``Smith`` 的雇员。将使用一个高亮搜索,很容易通过命令行完成。这个方法一般涉及到一个 查询字符串 (query-string) 搜索,因为通过一个 URL 参数来传递查询信息给搜索接口:
GET /megacorp/employee/_search?q=last_name:Smith
使用查询表达式搜索
Query-string 搜索通过命令非常方便地进行临时性的即席搜索 ,但它有自身的局限性(参见 轻量 搜索 )。Elasticsearch 提供一个丰富灵活的查询语言叫做 查询表达式 , 它支持构建更加复杂和健壮的查询。
领域特定语言 (DSL), 使用 JSON 构造了一个请求。
可以在重写之前的查询所有名为 Smith 的搜索 :
GET /megacorp/employee/_search{
"query" : {
"match" : {
"last_name" : "Smith"
}
}}
返回结果与之前的查询一样,但还是可以看到有一些变化。其中之一是,不再使用 query-string 参数,而是一个请求体替代。
更复杂的搜索
同样搜索姓氏为 Smith 的员工,只需要年龄大于 30 的。
查询需要稍作调整,使用过滤器 filter ,它支持高效地执行一个结构化查询。
GET /megacorp/employee/_search{
"query" : {
"bool": {
"must": {
"match" : {
"last_name" : "smith"
}
},
"filter": {
"range" : {
"age" : { "gt" : 30 }
}
}
}
}}
全文搜索
截止目前的搜索相对都很简单:单个姓名,通过年龄过滤。高级的全文搜索是一项传统数据库确实很难搞定的任务。
搜索下所有喜欢攀岩(rock climbing)的员工:
GET /megacorp/employee/_search{
"query" : {
"match" : {
"about" : "rock climbing"
}
}}
Elasticsearch 默认按照相关性得分排序,即每个文档跟查询的匹配程度。第一个最高得分的结果很明显:John Smith 的 about 属性清楚地写着 “rock climbing” 。
为什么 Jane Smith 也作为结果返回了呢?原因是 about 属性里提到了 “rock” 。因为只有 “rock” 而没有 “climbing” ,所以相关性得分低于 John 的
短语搜索
找出一个属性中的独立单词是没有问题的,但有时候想要精确匹配一系列单词或者短语。 比如,执行这样一个查询,仅匹配同时包含 “rock” 和 “climbing” ,并且 二者以短语 “rock climbing” 的形式紧挨着的雇员记录。
为此对 match 查询稍作调整,使用一个叫做 match_phrase 的查询:
GET /megacorp/employee/_search{
"query" : {
"match_phrase" : {
"about" : "rock climbing"
}
}}
高亮搜索
许多应用都倾向于在每个搜索结果中 高亮 部分文本片段,以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。
再次执行前面的查询,并增加一个新的 highlight 参数:
GET /megacorp/employee/_search{
"query" : {
"match_phrase" : {
"about" : "rock climbing"
}
},
"highlight": {
"fields" : {
"about" : {}
}
}}
拷贝为 curl 在 Sense 中查看
当执行该查询时,返回结果与之前一样,与此同时结果中还多了一个叫做 highlight 的部分。
这个部分包含了 about 属性匹配的文本片段,并以 HTML 标签 封装。