为什么不用mysql做全文搜索-阿里云开发者社区

为什么不用mysql做全文搜索

2024-09-25 310

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 为什么不用mysql做全文搜索

一、为什么要用全文搜索引擎，而不用mysql做全文搜索呢？

1、前言

①、有人可能会问，为什么一定要用搜索引擎呢？我们的所有数据不是都可以放在数据库里吗？

②、确实，我们大部分的查询功能都可以通过数据库查询获得，如果查询效率低下，还可以通过新建数据库索引，优化SQL等的方式进行提升效率，甚至通过引入缓存比如redis，memcache来加快数据的返回速度。如果数据量更大，还可以通过分库分表来分担查询压力。

③、那为什么还要全文搜索引擎呢？我从几个角度来说

A、数据类型

全文索引搜索很好的支持非结构化数据的搜索，可以更好地快速搜索大量存在的任何单词非结构化文本。例如:Google，百度类的网站搜索，它们都是根据网页中的关键字生成索引，我们在搜索的时候输入关键字，它们会将该关键字即索引匹配到的所有网页返回；还有常见的项目中应用日志的搜索等等。对于这些非结构化的数据文本，关系型数据库搜索不是很好的支持。

B、搜索性能

如果使用mysql做索引，比如player表，这个表有user_name这个字段，我们要查找出user_name以james开头的球员，和含有james的球员，我们一般怎么做？数据量达到千万级别的时候怎么办？

用sql: select * from player where user_name like 'james%' --走索引的

select * from player where user_name like '%james%'; --不走索引的

C、灵活的搜索

如果我们想要查出名字叫james的球员，但是用户输入了jame,我们想要提示他一些关键字。

如果我们想查出带有"冠军”关键字的文章，但是用户输入了"总冠军“，我们也希望你能查出来。

上面的只是列举出了两个能力，还有很多，非常的灵活

D、索引的维护

一般传统数据库，全文搜索都实现的很鸡肋，因为一般也没人用数据库存长文本你字段，因为进行全文搜索的时候需要扫描整个表，如果数据量大的话即使对SQL的语法进行优化，也是效果甚微，即使建立了索引，但是维护起来也很麻烦，对于insert和update操作都会重新构建索引(底层的数据结构要做一个平衡,比如一些树的平衡)。只有索引保持平衡的时候，搜索的时候性能才是最高的。

E、适合全文搜索引擎的场景

搜索的数据对象是大量的非结构化的文本数据

文本数据量达到数十万或者百万级别，甚至更多

支持大量基于交互式文本的查询

需求非常灵活的全文搜索查询

对安全事务，非文本数据操作的需求相对较少的情况。（读多写少的情况)

二、常见的搜索引擎

简介：常见的搜索引擎，Luence,Solr,Elasticsearch

1、Luence

①、Luence是一个java全文搜索引擎，完全由Java编写，Luence不是一个完整的应用

而是一个代码库和API,可以很容易地向应用程序添加搜索功能。

②、通过简单的API提供强大的功能

可扩展的高效能索引

强大，准确，高效的搜索算法

跨平台太解决方案

2、Apache软件基金会

①、在Apache软件基金会提供的开源软件项目的Apache社区支持

②、但是Luence只是一个框架，要充分利用它的功能，需要使用java，并且在程序中集成了Luence。需要很多的学习和了解，才能明白它是如何运行的，熟练运用Luence确实非常复杂。

3、Solr

①、Solr是一个基于Luence的java库构建的开源搜索平台，它以用户友好的方式提供Apache luence的搜索功能。它是一个成熟的产品，拥有强大而广泛的用户社。它能够提供分布式索引，复制，负载均衡查询以及自动故障转移和恢复。如果它被正确部署然后管理的好，它就能够成为一个高度可靠，可扩展且容错的搜索引擎。很多互联网巨头，如Netflix, eBay,Instagram和亚马逊都使用Solr，因为它能够索引和搜索多个站点。

强大的功能

①、全文搜索，②、突出， ③、分面搜索， ④、实时索引，⑤、动态群集，⑥、数据库集成，⑦、NoSql功能和丰富的文档处理

4、Elasticsearch

①、Elasticsearch是一个开源的，是一个基于Apache Luence库构建的Restful搜索引擎

②、Elasticsearch是在Solr之后几年推出的，它提供了一个分布式，多租用户能力的全文搜索引擎，具有HTTP Web界面（REST）和无架构JSON文档，Elasticsearch的官方客户端提供java,Groovy,php，Ruby,Perl,Python,.Net和javaScript

③、主要功能：分布式搜索，数据分析，分组和聚合

④、应用场景：维基百科，Stack Overflow ,GitHub,电商网站，日志数据分析，商品价格监控网站，BI系统，站内搜索，篮球论坛。

为什么不用mysql做全文搜索

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

为什么不用mysql做全文搜索

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像