为什么需要 Elasticsearch

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 为什么需要 Elasticsearch

转自:mp.weixin.qq.com/s?__biz=MzI…

Elasticsearch是什么?

Elasticsearch is the distributed search and analytics engine at the heart of the Elastic Stack.

简单说,就是一个分布式的搜索与分析引擎。

为什么需要 Elasticsearch?

用数据库,也可以实现搜索的功能,为什么还需要搜索引擎呢?

就像 Stackoverflow 的网友说的:

A relational database can store data and also index it. A search engine can index data but also store it.

数据库(理论上来讲,ES 也是数据库,这里的数据库,指的是关系型数据库),首先是存储,搜索只是顺便提供的功能,

而搜索引擎,首先是搜索,但是不把数据存下来就搜不了,所以只好存一存。

术业有专攻,专攻搜索的搜索引擎,自然会提供更强大的搜索能力。

1、精确匹配和相关性匹配

在使用数据库搜索时,我们更多的是基于「精确匹配」的搜索。

什么是「精确匹配」?

比如搜订单,根据订单状态,准确搜索。搜「已完成」,就要「精确匹配」「已完成」的订单,搜「待支付」,就要「精确匹配」「待支付」的订单。

这种「精确匹配」的搜索能力,传统关系型数据库是非常胜任的。

和「精确匹配」相比,「相关性匹配」更贴近人的思维方式。

比如我要搜一门讲过「莎士比亚」的课程,我需要在课程的文稿里进行「相关性匹配」,找到对应的文稿,

你可能觉得一条 sql 语句就可以解决这个问题:

select * from course where content like "%莎士比亚%"

然而,这只能算是「模糊查询」,用你要搜索的字符串,去「精确」的「模糊查询」,其实还是「精确匹配」,机械思维。

那么到底什么是「相关性匹配」,什么才是「人的思维」呢?

比如我搜「莎士比亚」,我要的肯定不只是精精确确包含「莎士比亚」的文稿,我可能还要搜「莎翁」、「Shakespeare」、「哈姆雷特」、「罗密欧和朱丽叶」…

又比如我输错了,输成「莎士笔亚」,「相关性匹配」可以智能的帮我优化为「莎士比亚」,返回对应的搜索结果。

这就是搜索引擎的强大之处,它似乎可以理解你的真实意图。

2、搜索和分析,不只是搜索,还有分析

"search and analytics engine",ES 不仅是搜索,还有分析。

原始数据如果只是躺在磁盘里面根本就毫无用处。—— 《Elasticsearch 权威指南》

躺在磁盘里的数据是没有价值的,而ES则让你存放在里面的数据,拥有了无限的探索力。

Elasticsearch 真正强大之处在于可以从无规律的数据中找出有意义的信息 —— 从“大数据”到“大信息”。—— 《Elasticsearch 权威指南》

和 mysql 一样,ES 提供了一些简单的聚合操作,avg、sum、min、max等等。

当然,实际的业务场景,很多是无法通过这些聚合操作就能分析出想要的数据的,复杂的处理逻辑,还是要通过写业务代码来实现。

实时计算的一种常见方案,是数据产生后,通过消息队列(比如kafka)推给实时计算平台 storm,计算后,再把数据存到 ES。

貌似es在这里没有提供什么分析能力,然而只要数据存在于es,这些数据的被探索力就比放在数据库里的强,你随时可以在里面挖掘出商机。

令我最为震惊的是,他们竟然不看表面数据,而是从无限数据的机会中寻找核心数据。 这正体现了大数据与传统数据之间最大的不同。以前,我们是“有问题找数据”,而在大数据时代,其最核心的特质则是“用数据找机会” —— 《决战大数据》车品觉

这一切的分析数据的能力,都是建立在快速的查询上的,如果没有快速的查询,分析能力无从谈起。

简单看看 Elasticsearch 的内幕

最后简单聊聊 ES 的内部原理。

正如上文讲到的,术业有专攻,既然 ES 是专门做搜索的,内部实现细节自然和主要做存储的数据库不同。

关系型数据库,把原本非常形象的对象,拍平了,拍成各个字段,存在数据库,查询时,再重新构造出对象;ES则是文档存储,把对象原原本本地放进去,取出时直接取出。

Mysql基于B+树索引,来实现快速检索,ES则基于倒排索引,对于文档搜索来说,倒排索引在性能和空间上都有更加明显的优势。


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
6月前
|
自然语言处理 网络架构 索引
Elasticsearch7.1之cerebro使用(一)
Elasticsearch7.1之cerebro使用(一)
80 1
|
3月前
|
存储 关系型数据库 MySQL
elasticsearch系列(一)
elasticsearch系列(一)
elasticsearch系列(一)
|
7月前
|
自然语言处理 Java 网络安全
ElasticSearch
ElasticSearch
80 2
|
7月前
|
JSON 搜索推荐 API
Elasticsearch
Elasticsearch是一个开源的分布式搜索引擎和数据分析引擎,基于Apache Lucene库构建。它提供了高度可扩展且实时的搜索功能,以及各种数据处理和分析功能。
77 4
|
7月前
|
搜索推荐 关系型数据库 MySQL
【Elasticsearch】初识elasticsearch
【Elasticsearch】初识elasticsearch
74 1
|
存储 关系型数据库 MySQL
Elasticsearch(二)
Elasticsearch(二)
64 0
一起来学ElasticSearch(十)
前言 目前正在出一个Es专题系列教程, 篇幅会较多, 喜欢的话,给个关注❤️ ~ 承接上文,上节给大家讲的es聚合还有一点内容,本节给大家更完~ 本文偏实战一些,为了方便演示,本节示例沿用上节索引,好了, 废话不多说直接开整吧~ 聚合排序 我们如何在聚合结果中进行自定义字段排序呢?
|
缓存 自然语言处理 安全
|
存储 JSON 缓存
Elasticsearch 系列之一 —— 初识
Elasticsearch 故名思议,Elastic Search 一个分布式搜索中间件。据说是创始人给妻子开发搜索食谱的应用时,顺手做的中间件。果然,爱情的力量是伟大的,否则也不会有至今广受使用的 Elasticsearch 了。 ​ 分布式、高性能、近实时是 Elasticsearch 的特点。它可以对几乎所有类型的数据(基本值类型、地理空间、IP 等)进行搜索,这依赖于针对不同的类型建立合适的索引结构,后面的系列我们将详细分析索引部分,本次我们分析 Elasticsearch 的系统概念与读写流程。
Elasticsearch 系列之一 —— 初识
下一篇
DataWorks