Elasticsearch的基本概念和指标

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch的基本概念和指标

背景


在13年的时候,我开始负责整个公司的搜索引擎。嗯……,不是很牛的那种大项目负责人。而是整个搜索就我一个人做。哈哈。


后来跳槽之后,所经历的团队都用Elasticsearch,基本上和缓存一样,是项目必备的工具。目前静儿在做的项目中也在用,正好系统学习一下。毕竟静儿的梦想就是打造自己的搜索引擎。

 

目录


1.近实时(NRT NearRealtime)


2.集群(Cluster)


3.节点(Node)


4.索引(Index)


5.文档(Document)


6.分片和副本(Shards & Replicas)


7.缓存数据(fielddata)


8.文档值(doc values)


9.行为模式(norms)


10.召回率(Recall Rate)


11.准确率(Precision)

 

正文


1.近实时(NRT NearRealtime)


ES是一个近实时的搜索平台,就是说从开始创建索引到能被搜索到只有很少的延时(通常是1s)。


2.集群(Cluster)


集群是一个或者多个节点(Node)协同工作来承载所有的数据,并提供跨所有节点的索引和搜索能力。一个集群有一个唯一名称作为标识,默认叫「elasticsearch」。因为在有多个节点的情况下,节点都是通过集群名来确定被安装到哪个集群,所以集群名很重要。


3.节点(Node)


节点是集群的一部分,就是集群里的一个服务器。它存储着数据,给提供集群的索引和搜索能力。像集群一样,一个节点也是用名称来做标识。它默认是一个在节点启动时被指定的随机UUID(Universally Unique Ientifier全局唯一标识)。如果不想用默认值,也可以自定义节点名。因为它是作为网络中的服务器和节点关系的纽带,所以这个名字对集群的管理来说很重要。


4.索引(Index)


索引是有相同特性的文档集合。举个栗子🌰:可以定义一个存储客户端数据的索引,建一个产品目录索引,再来一个顺序数据的索引。它也是靠名称来作为唯一标识的。通过索引名可以对索引内的文档进行索引添加、更新、搜索、删除等操作。


5.文档(Document)


文档是可以被索引的最小单元。举个栗子🌰:可以定义一个存储客户端数据的文档,建一个产品目录文档,再来一个顺序数据的文档。文档是用JSON(JavaScript Object Notation)来表示的。JSON是一个非常通用的数据传输形式。


6.分片和副本(Shards & Replicas)


为了解决让索引可以存储超过一个节点机器硬件限制的数据的问题。ES提供了将索引分割成多块的能力。这个数据小块叫做分片。创建索引时可以指定分片数量(副本数)。每个分片内部都是独立的,功能完整的。可以随便移植到集群的任何一个节点上。


7.缓存数据(fielddata)


缓存数据是文本字段使用的一个用于内存查询的数据结构。这个数据结构是第一次使用的时候被按需加载来用于聚合、排序或者脚本运算的。是通过读取所有段内的整个倒排索引,反转词条和文档关系,把结果存储到JVM堆中实现的。


8.文档值(doc values)


通过数据结构来进行聚合工作被叫做文档值。文档值是让聚合快速、高效、内存友好的手段。


9.行为模式(norms)


norms中国人一般大家也说norms。因为翻译过来的不能很贴切的表达原义。它存储了很多用于查询时计算评分的标准引子。


10.召回率(Recall Rate)


召回率也叫查全率是检索出的相关文档数和文档库中所有的相关文档数的比率。衡量的是检索结果是查全率。


11.准确率(Precision)


准确率也叫精度是检索出的相关文档数与检索出的文档总数的比率。衡量的是检索结果的查准率。


总结


不负春光不负卿!

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
6天前
电子书阅读分享《Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)》
电子书阅读分享《Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)》
237 1
|
9月前
|
存储 机器学习/深度学习 负载均衡
【Elasticsearch】学好Elasticsearch系列-核心概念
【Elasticsearch】学好Elasticsearch系列-核心概念
78 0
|
6月前
|
存储 弹性计算 监控
阿里云ElasticSearch基础巡检指标
阿里云ElasticSearch基础巡检指标
|
7月前
|
存储 监控 搜索推荐
ElasticSearch第二讲:ES详解 - ElasticSearch基础概念
ElasticSearch第二讲:ES详解 - ElasticSearch基础概念
206 0
|
9月前
|
存储 SQL 自然语言处理
|
9月前
|
存储 JSON 搜索推荐
Elasticsearch基本概念讲解
Elasticsearch基本概念讲解
106 0
|
10月前
|
存储 SQL 自然语言处理
二.全文检索ElasticSearch经典入门-倒排索引&核心概念&集群概念&分片机制
二.全文检索ElasticSearch经典入门-倒排索引&核心概念&集群概念&分片机制
|
10月前
|
存储 自然语言处理 搜索推荐
ElasticSearch的基本介绍与用途、ElasticSearch中一些基本的概念、倒排索引的基本概念
ElasticSearch的基本介绍与用途、ElasticSearch中一些基本的概念、倒排索引的基本概念
90 1
|
11月前
|
存储 搜索推荐 大数据
大数据数据存储的搜索引擎Elasticsearch的基础概念的副本
随着大数据存储技术的不断升级和企业对数据可靠性的要求越来越高,搜索引擎Elasticsearch的副本机制也变得愈发重要。作为一名阿里云开发者社区的博主,本文将会从大数据存储的角度,深入探讨Elasticsearch的副本机制。
45 0
|
11月前
|
存储 搜索推荐 大数据
大数据数据存储的搜索引擎Elasticsearch的基础概念的类型
随着大数据时代的到来,如何高效地存储和检索数据成为了企业面临的重要挑战。针对这个问题,搜索引擎Elasticsearch应运而生。作为一名阿里云开发者社区的博主,本文将会从大数据存储的角度,深入探讨Elasticsearch中的数据类型。
74 0

热门文章

最新文章