每秒20W次并发分词检索,架构如何设计?

简介: 短文本,高并发,支持分词,不用实时更新的检索场景,可以使用:ES,杀鸡用牛刀、分词+DAT(trie)、分词+内存hash等解决。

继续回答星球水友提问。==沈哥,我们有个业务,类似于“标题分词检索”,并发量非常大,大概20W次每秒数据量不是很大,大概500W级别,而且数据不会频繁更新,平均每天更新一次,请问有什么好的方案么?==
这是一个典型的,短文本分词搜索的问题,简单聊聊自己的经验。
 常见的文本检索方案有哪些?
(1)数据库LIKE法将标题数据存放在数据库中,使用like来查询,方案非常简单,能支持简单的模糊搜索,但不支持分词。画外音:显然不适用于本例。
 (2)数据库全文检索法将标题数据存放在数据库中,建立全文索引来检索,方然依然简单,利用了数据库的能力,不用额外开发,但性能较低。画外音:本例的并发肯定扛不住。
(3)开源方案索引外置搭建lucene,solr,ES等开源搜索工具,建立索引,支持分词,支持数据量和吞吐量的水平扩展。
该方案能够很好的满足本例的需求。但是,杀鸡焉用牛刀,本例有一些业务特性:文本短,更新不频繁,如果利用好这两个特点,能有更巧妙的方案。画外音:任何脱离业务的架构设计,都是耍流氓。 针对“更新不频繁”的特性,可以使用“分词+DAT”方案。画外音:分词就不多说了。
什么是DAT?DAT是double array trie的缩写,是trie树的一个变体优化数据结构,它在保证trie树检索效率的前提下,能大大减少内存的使用,经常用来解决检索,信息过滤等问题。画外音:更具体的,可以Google一下“DAT”,DAT的缺点是,需要提前建立索引,索引不能实时更新。
 为什么用trie树的变种DAT,是否可以直接使用trie树呢?trie树的优点是,索引可以实时更新;不足是,占用内存非常大。
本例索引无需实时更新,无法利用trie树的优点。但是,如果300W短文本建立好trie树内存能装下,则可以使用trie树,否则只能使用DAT。
普及,什么是trie树?trie树,又称单词查找树,经常用于搜索引擎词频统计,短文本检索,输入法输入提示等。画外音:什么数据结构适合什么业务场景,一定要烂熟于胸。
它的特点是,能利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,其查询时间复杂度只与树的高度有关,与查询数据量级无关,因此查询效率非常高。画外音:“时间复杂度与查询数量级无关”这个太屌了。
image.png

例如:上面的trie树就能够表示{and, as, at, cn, com}这样5个标题的集合,可以用来做这5个字符串的词频统计,或者检索。画外音:检索时,节点存储命中该item的doc_list<doc_id>。
分词之后,是不是需要多次扫描trie树? 是的。分词之后,每个item都要扫描一次trie树,得到的doc_list<doc_id>的交集,就是最终命中每个item的检索结果。 针对“短文本”“500W数据”“不频繁更新”这些特性,还能使用“分词+内存hash”方案。
这个方案需要先对索引进行初始化对所有短文本进行分词,以词的hash为key,doc_id的集合为value。
查询的过程也很简单:对查询字符串进行分词,对每个分词进行hash,直接查询hash表格得到doc_list<doc_id>,再对每个分词的检索结果进行交集。
举个栗子进行说明。
例如:doc1 : 我爱北京doc2 : 我爱到家doc3 : 到家美好
先对短文本进行分词:doc1 : 我爱北京 -> 我,爱,北京doc2 : 我爱到家 -> 我,爱,到家doc3 : 到家美好 -> 到家,美好

对分词进行hash,建立hash表:hash(我) -> {doc1, doc2}hash(爱) -> {doc1, doc2}hash(北京) -> {doc1}hash(到家) -> {doc2, doc3}hash(美好) -> {doc3}
这样,所有短文本初始化完毕,与trie树类似,查询时间复杂度与文本数据量也没有关系。画外音:只与被分词后有多少数据量,即hash桶个数有关。
查询的过程是这样的:
假如用户输入“我爱”,分词后变为{我,爱},对各个分词的hash进行内存检索hash(我)->{doc1, doc2}hash(爱)->{doc1, doc2}然后进行合并,得到最后的查找结果是{doc1, doc2}。
这个方法的优点是,纯内存操作,能满足很大的并发,时延也很低,占用内存也不大,实现非常简单快速,而且冗余索引很容易水平扩展。画外音:做索引高可用也不难,建立两份一样的hash索引即可。 
它的缺点也很明显,索引全内存,没有落地,还是需要在数据库中存储固化的短文本数据,如果内存数据全丢失,数据恢复起来会比较慢。
总结短文本,高并发,支持分词,不用实时更新的检索场景,可以使用:(1)ES,杀鸡用牛刀;(2)分词+DAT(trie);(3)分词+内存hash;等几种方式解决。
思路比结论重要,希望大家有收获。

本文转自“架构师之路”公众号,58沈剑提供。

目录
相关文章
|
6月前
|
网络协议 Java 关系型数据库
年薪50W阿里P7架构师必备知识:并发+JVM+多线程+Netty+MySQL
线程基础、线程之间的共享和协作一 线程基础、线程之间的共享和协作二 线程的并发工具类 线程的并发工具类、原子操作CAS 显式锁和AQS一 显式锁和AQS二 并发容器一 并发容器二 并发容器三、线程池一 线程池二、并发安全一
|
6月前
|
存储 缓存 关系型数据库
⑩⑧【MySQL】InnoDB架构、事务原理、MVCC多版本并发控制
⑩⑧【MySQL】InnoDB架构、事务原理、MVCC多版本并发控制
214 0
|
4月前
|
NoSQL 算法 Java
(十三)全面理解并发编程之分布式架构下Redis、ZK分布式锁的前世今生
本文探讨了从单体架构下的锁机制到分布式架构下的线程安全问题,并详细分析了分布式锁的实现原理和过程。
102 6
|
5月前
|
存储 缓存 安全
架构面试题汇总:并发和锁(2024版)
架构面试题汇总:并发和锁(2024版)
|
4月前
|
监控 应用服务中间件 nginx
高并发架构设计三大利器:缓存、限流和降级问题之Nginx的并发连接数计数的问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之Nginx的并发连接数计数的问题如何解决
|
架构师
架构系列——架构师必备基础:并发、并行与多线程关系
架构系列——架构师必备基础:并发、并行与多线程关系
|
6月前
|
消息中间件 Java 程序员
阿里巴巴高并发架构到底多牛逼?是如何抗住淘宝双11亿级并发量?
众所周知,在Java的知识体系中,并发编程是非常重要的一环,也是面试的必问题,一个好的Java程序员是必须对并发编程这块有所了解的。
|
编解码 搜索推荐 测试技术
读书笔记第四讲:《百万级并发商品服务架构解密》丁鸣亮
读书笔记第四讲:《百万级并发商品服务架构解密》丁鸣亮
|
消息中间件 Java 程序员
阿里巴巴高并发架构到底多牛逼?是如何抗住淘宝双11亿级并发量?
众所周知,在Java的知识体系中,并发编程是非常重要的一环,也是面试的必问题,一个好的Java程序员是必须对并发编程这块有所了解的。 然而不论是哪个国家,什么背景的 Java 开发者,都对自己写的并发程序相当自信,但也会在出问题时表现得很诧异甚至一筹莫展。
百万级PV 千万级PV | 并发 的架构图
百万级PV 千万级PV | 并发 的架构图,生产环境可使用
百万级PV 千万级PV | 并发 的架构图