Elasticsearch(一)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: Elasticsearch(一)

Elasticsearch 是什么?一个开源的可扩展、高可用、分布式的全文搜索引擎。


你为什么需要它?《人生一串》中有这样一段话:

没了烟火气,人生就是一段孤独的旅程。

而我们如何通过烟火气、人生或者旅程等这样的关键词来搜索出这部纪录片呢?显然无论是传统的关系型数据库,还是 NOSQL 数据库都无法实现这样的需求,而这里 Elasticsearch 就派上了用场。


再来理解全文搜索是什么?举例来说,就是将上面那段话按照语义拆分成不同的词组并记录其出现的频率(专业术语叫构建倒排索引),这样当你输入一个简单的关键词就能将其搜索出来。


总而言之,Elasticsearch 就是为搜索而生。




01


基本概念



1、Near Realtime(近实时):


Elasticsearch 是一个近实时的搜索平台。为什么是近实时?在传统的数据库中一旦我们插入了某条数据,则立刻可以搜索到它,这就是实时。反之在 Elasticsearch 中为某条数据构建了索引(插入数据的意思)之后,并不能立刻就搜索到,因为它在底层需要进行构建倒排索引、将数据同步到副本等等一系列操作,所以是近实时(通常一秒以内,无需过于担心)。



2、Cluster(集群)& Node(节点):


每一个单一的 Elasticsearch 服务器称之为一个 Node 节点,而一个或多个 Node 节点则组成了 Cluster 集群。Cluster 和 Node 一定是同时存在的,换句话说我们至少拥有一个由单一节点构成的集群,而在实际对外提供索引和搜索服务时,我们应该将 Cluster 集群视为一个基本单元。


Cluster 集群默认的名称就是 elasticsearch ,而 Node 节点默认的名称是一个随机的 UUID ,我们只要将不同 Node 节点的 cluster name 设置为同一个名称便构成了一个集群(不论这些节点是否在同一台服务器上,只要网络有效可达,Elasticsearch 本身会自己去搜索并发现这些节点并构成集群)。



3、Index(索引)& Type(类型)& Document(文档):


Document(文档)是最基本的数据单元,我们可以将其理解为 mysql 中的具体的某一行数据。


Type(类型)在 6.0 版本之后被移除,它是一个逻辑分类,我们可以将其理解为 mysql 中的某一张表。


Index(索引)是具有类似特征的 Document 文档的集合,我们可以将其理解为 mysql 中的某一个数据库。



4、Shards(分片)& Replicas(副本):


为了更有效的存储庞大体量的数据,Elasticsearch 有了 shard 分片的存在,在对数据进行存储便会将其分散到不同的 shard 分片中,这就如同在使用 mysql 时,如果一张表的数据量过于庞大时,我们将其水平拆分为多张表一样的道理。然而 shard 的分布方式以及如何将不同分片的文档聚合回搜索请求都是由 Elasticsearch 本身来完成,这些对用户而言是无感的。同时分片的数量一旦设置则在索引创建后便无法修改,默认为五个分片。


对于副本,则是为了防止数据丢失、实现高可用,同时副本也是可以进行查询的,所以也有助于提高吞吐量。副本与分片一一对应,副本的数量可以随时调整,默认设置为每一个主分片有一个副本分片。副本分片和主分片一定不会被分配在同一个节点中,所以对于单节点集群而言,副本分片是无效的。




Elasticsearch 相关的基本概念先介绍这些。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
目录
相关文章
|
3天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
271 116
|
18天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
12天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
663 219
|
5天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
349 34
Meta SAM3开源:让图像分割,听懂你的话
|
10天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1573 157
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
897 61
|
7天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
295 140