Elasticsearch 快速入门|学习笔记

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 快速学习 Elasticsearch 快速入门

开发者学堂课程【SpringBoot 快速掌握 - 高级应用:Elasticsearch 快速入门】学习笔记,与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/613/detail/9306


Elasticsearch 快速入门


内容介绍:

1.学习工具

2.基础入门


1.学习工具

Elasticsearch 官网,找到文档里的简体中文版 Elasticsearch 权威指南


2.基础入门

面向文档

Elasticsearch 是面向文档 的,意味着它存储整个对象或文档。Elasticsearch 不仅存储文档,而且 索引 每个文档的内容,使之可以被检索。

在 Elasticsearch 中,对文档进行索引、检索、排序和过滤,而不是对行列数据。

这是一种完全不同的思考数据的方式,也是 Elasticsearch 能支持复杂全文检索的原因。

JSON

Elasticsearch 使用 JavaScript Object Notation(或者 JSON)作为文档的序列化格式。

下面这个 JSON 文档代表了一个 user 对象:

{

"email":"john@smith.com",

"first_name":"John",

"last_name": "Smith",

"info": {

"bio":"Eco-warrior and defender of the weak",

"age":25,

"interests": ["dolphins","whales"]

},

"join_date": "2014/05/01"}

创建一个雇员目录

受雇于 Megacorp 公司,作为 HR 部门新的 “热爱无人机” ("We love our drones!")激励项目的一部分,任务是为此创建一个员工目录。该目录应当能培养员工认同感及支持实时、高效、动态协作,因此有一些业务需求:

支持包含多值标签、数值、以及全文本的数据

检索任一员工的完整信息

允许结构化搜索,比如查询 30 岁以上的员工

允许简单的全文搜索以及较复杂的短语搜索

支持在匹配文档内容中高亮显示搜索片段

支持基于数据创建和管理分析仪表盘

索引雇员文档

第一个业务需求是存储员工数据。这将会以员工文档 的形式存储:一个文档代表一个员工。

存储数据到 Elasticsearch 的行为叫做索引 ,但在索引一个文档之前,需要确定将文档存储在哪里。

一个 Elasticsearch 集群可以包含多个索引 ,相应的每个索引可以包含多个 类型 。这些不同的类型存储着多个文档 ,每个文档又有多个属性 。

image.png

对于员工目录,将做如下操作:

每个员工索引一个文档,文档包含该员工的所有信息。

每个文档都将是 employee 类型 。

该类型位于 索引 megacorp 内。

该索引保存在我们的 Elasticsearch 集群中。

实践中这非常简单(尽管看起来有很多步骤),可以通过一条命令完成所有这些动作:

PUT /megacorp/employee/1{

"first_name" : "John",

"last_name" : "Smith",

"age" : 25,

"about" :"I love to go rock climbing",

"interests": [ "sports", "music" ]}

拷贝为 curl 在 Sense 中查看  

注意,路径 /megacorp/employee/1 包含了三部分的信息:

megacorp

索引名称

employee

类型名称

特定雇员的 ID

检索文档

在 Elasticsearch 中存储一些数据,接下来就能专注于实现应用的业务需求。可以检索到单个雇员的数据。

这在 Elasticsearch 中很简单。简单地执行 一个 HTTP GET 请求并指定文档的地址——索引库、类型和 ID。

使用这三个信息可以返回原始的 JSON 文档:

GET /megacorp/employee/1

注:将 HTTP 命令由 PUT 改为 GET 可以用来检索文档,同样的,可以使用 DELETE 命令来删除文档,以及使用 HEAD 指令来检查文档是否存在。如果想更新已存在的文档,只需再次 PUT 。

轻量搜索

使用下列请求来搜索所有雇员:

GET /megacorp/employee/_search

搜索姓氏为 ``Smith`` 的雇员。将使用一个高亮搜索,很容易通过命令行完成。这个方法一般涉及到一个 查询字符串 (query-string) 搜索,因为通过一个 URL 参数来传递查询信息给搜索接口:

GET /megacorp/employee/_search?q=last_name:Smith

使用查询表达式搜索

Query-string 搜索通过命令非常方便地进行临时性的即席搜索 ,但它有自身的局限性(参见 轻量 搜索 )。Elasticsearch 提供一个丰富灵活的查询语言叫做 查询表达式 , 它支持构建更加复杂和健壮的查询。

领域特定语言 (DSL), 使用  JSON 构造了一个请求。

可以在重写之前的查询所有名为 Smith 的搜索 :

GET /megacorp/employee/_search{

"query" : {

"match" : {

"last_name" : "Smith"

}

}}

返回结果与之前的查询一样,但还是可以看到有一些变化。其中之一是,不再使用 query-string 参数,而是一个请求体替代。

更复杂的搜索

同样搜索姓氏为 Smith 的员工,只需要年龄大于 30 的。

查询需要稍作调整,使用过滤器 filter ,它支持高效地执行一个结构化查询。

GET /megacorp/employee/_search{

"query" : {

"bool": {

"must": {

"match" : {

"last_name" : "smith"

}

},

"filter": {

"range" : {

"age" : { "gt" : 30 }

}

}

}

}}

全文搜索

截止目前的搜索相对都很简单:单个姓名,通过年龄过滤。高级的全文搜索是一项传统数据库确实很难搞定的任务。

搜索下所有喜欢攀岩(rock climbing)的员工:

GET /megacorp/employee/_search{

"query" : {

"match" : {

"about" : "rock climbing"

}

}}

Elasticsearch 默认按照相关性得分排序,即每个文档跟查询的匹配程度。第一个最高得分的结果很明显:John Smith 的 about 属性清楚地写着 “rock climbing” 。

为什么 Jane Smith 也作为结果返回了呢?原因是 about 属性里提到了 “rock” 。因为只有 “rock” 而没有 “climbing” ,所以相关性得分低于 John 的

短语搜索

找出一个属性中的独立单词是没有问题的,但有时候想要精确匹配一系列单词或者短语。 比如,执行这样一个查询,仅匹配同时包含 “rock” 和 “climbing” ,并且 二者以短语 “rock climbing” 的形式紧挨着的雇员记录。

为此对 match 查询稍作调整,使用一个叫做 match_phrase 的查询:

GET /megacorp/employee/_search{

"query" : {

"match_phrase" : {

"about" : "rock climbing"

}

}}

高亮搜索

许多应用都倾向于在每个搜索结果中 高亮 部分文本片段,以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。

再次执行前面的查询,并增加一个新的 highlight 参数:

GET /megacorp/employee/_search{

"query" : {

"match_phrase" : {

"about" : "rock climbing"

}

},

"highlight": {

"fields" : {

"about" : {}

}

}}

拷贝为 curl 在 Sense 中查看  

当执行该查询时,返回结果与之前一样,与此同时结果中还多了一个叫做 highlight 的部分。

这个部分包含了 about 属性匹配的文本片段,并以 HTML 标签  封装。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
JSON 自然语言处理 Java
ElasticSearch快速入门(2)
ElasticSearch快速入门(2)
137 1
|
JSON Java 程序员
教你快速入门ElasticSearch,超详细简单~ 2
教你快速入门ElasticSearch,超详细简单~
180 0
|
7月前
|
SQL JSON API
ELK技术栈 - Elasticsearch 学习笔记(三)
ELK技术栈 - Elasticsearch 学习笔记(三)
111 0
|
7月前
|
存储 JSON API
ELK技术栈 - Elasticsearch 学习笔记(二)
ELK技术栈 - Elasticsearch 学习笔记(二)
260 0
|
7月前
|
存储 SQL JSON
ELK技术栈 - Elasticsearch 学习笔记(一)
ELK技术栈 - Elasticsearch 学习笔记(一)
268 0
|
7月前
|
JSON 自然语言处理 开发工具
elasticsearch7.X学习笔记
elasticsearch7.X学习笔记
166 0
|
7月前
|
JSON 自然语言处理 负载均衡
数据库-Elasticsearch进阶学习笔记(集群、故障、扩容、简繁体、拼音等)
数据库-Elasticsearch进阶学习笔记(集群、故障、扩容、简繁体、拼音等)
95 0
|
7月前
|
运维 监控 搜索推荐
数据库-ElasticSearch学习笔记
数据库-ElasticSearch学习笔记
84 0
|
存储 搜索推荐 Java
Elasticsearch的配置学习笔记
Elasticsearch是一个基于Lucene的搜索服务器。它提供一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java语言开发的。
83 0
|
自然语言处理 关系型数据库 MySQL
ElasticSearch快速入门(1)
ElasticSearch快速入门(1)
104 1