Elasticsearch实战——全文检索架构设计

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL DuckDB 分析主实例,集群系列 8核16GB
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 1、题记近几年,Elasticsearch(以下简称ES)作为开源的搜索引擎已经在国内得到越来越多的应用推广,在日志分析领域应用场景尤为广泛。传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实现呢?本文给出架构设计和实现原理。

2、理清楚使用ES的初衷

2.1 大数据背景下数据量的积累与数据应用疲软矛盾一直存在。

大数据的风已经刮了几年,西安交大徐宗本院士也强调“推动大数据产业必须解决好定位、规划、切入点、数据标准、开发共享等问题,互联互通是基础、定制化服务是中心、懂数据会分析是关键”。可见,数据分析的重要性。


传统企业的数据存储存在以下问题:

问题1:由于模型受限,传统企业的数据大多存储在关系型数据库Mysql、Oracle,非结构化数据存储在Mongo中。数据量也能积累到TB甚至PB级。


只能进行结构化的检索类似”select * from table where col like ‘%xxx%’显然不能满足纷繁复杂的业务需求。


问题2:数据是死数据,数据的BI可视化展示需要专业团队开发,但不能得到很好的分析效果。


以上问题形成了数据量累计到一定的量,但数据得不到很好的应用分析之间的矛盾。


2.2 在保持基础数据库不动的同时,新增全文检索,更好、更快的从亿万数据中获取检索服务。

不想抛弃原有的数据存储结构,想在原有数据存储的基础上新增全文检索。


3、传统存储模型上的ES全文检索架构

image.png

3.1 采集层

解决数据源头问题。

业务模型的不同,有的数据是机器设备(软件、硬件)产生的,有的则需要自己开发爬虫(如:python的scrapy)进行互联网全网爬取或者定向网站爬取。


3.2 Mysql基础存储层

基础数据的存储。

定义好库表结构、关联关系、主键、外键结构来存储结构化数据。

或者非结构化数据,采用Mongo键值对的方式存储。


3.3 ES检索层

实现基础数据的同步。这里是关键,传统的业务模型会在Mysql基础层的基础上,开展业务数据分析通常是以下步骤:


步骤1:后台数据——库表分散的建立视图,对数据做分门别类的统计(基于order by, group by等操作)。


步骤2:前端可视化——通过 Angularjs 进行数据渲染,并通过百度的Echart模型进行可视化展示。


ES检索层的准备如下:

方式1.数据同步——基础业务数据由基础库Mysql、Oracle或Mongolia同步到ES中,大多需要借助logstash实现。


同步策略参见:http://blog.csdn.net/laoyang360/article/details/72792865

方式2.数据同步——数据存成json格式文件,然后借助阿里的fastjson解析,以bulk方式批量导入ES。


3.4 对外接口及可视化层

实现ES全文检索、Tag检索等对外服务、数据的分类统计、排序等可视化展示。

java接口可以参考jest实现。


可视化可以借助kibana实现。这里就体现出elkstack的优势,logstash完成基础数据同步,es完成数据存储和检索,kibana完成数据可视化。


4.架构小结

以上是我研究ES近一年时间的实战总结。其中,ES检索、kibana可视化的深入应用还有很长的路要走。


欢迎就架构问题深入留言探讨!

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
2月前
|
缓存 监控 前端开发
顺企网 API 开发实战:搜索 / 详情接口从 0 到 1 落地(附 Elasticsearch 优化 + 错误速查)
企业API开发常陷参数、缓存、错误处理三大坑?本指南拆解顺企网双接口全流程,涵盖搜索优化、签名验证、限流应对,附可复用代码与错误速查表,助你2小时高效搞定开发,提升响应速度与稳定性。
|
4月前
|
人工智能 监控 前端开发
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战
支付宝「AI 出行助手」是一款集成公交、地铁、火车票、机票、打车等多项功能的智能出行产品。
694 21
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战
|
4月前
|
监控 Java API
Spring Boot 3.2 结合 Spring Cloud 微服务架构实操指南 现代分布式应用系统构建实战教程
Spring Boot 3.2 + Spring Cloud 2023.0 微服务架构实践摘要 本文基于Spring Boot 3.2.5和Spring Cloud 2023.0.1最新稳定版本,演示现代微服务架构的构建过程。主要内容包括: 技术栈选择:采用Spring Cloud Netflix Eureka 4.1.0作为服务注册中心,Resilience4j 2.1.0替代Hystrix实现熔断机制,配合OpenFeign和Gateway等组件。 核心实操步骤: 搭建Eureka注册中心服务 构建商品
764 3
|
4月前
|
消息中间件 Java 数据库
Java 基于 DDD 分层架构实战从基础到精通最新实操全流程指南
本文详解基于Java的领域驱动设计(DDD)分层架构实战,结合Spring Boot 3.x、Spring Data JPA 3.x等最新技术栈,通过电商订单系统案例展示如何构建清晰、可维护的微服务架构。内容涵盖项目结构设计、各层实现细节及关键技术点,助力开发者掌握DDD在复杂业务系统中的应用。
778 0
|
2月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
2月前
|
监控 Cloud Native Java
Spring Boot 3.x 微服务架构实战指南
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Spring Boot 3.x与微服务架构,探索云原生、性能优化与高可用系统设计。以代码为笔,在二进制星河中谱写极客诗篇。关注我,共赴技术星辰大海!(238字)
Spring Boot 3.x 微服务架构实战指南
|
3月前
|
消息中间件 数据采集 NoSQL
秒级行情推送系统实战:从触发、采集到入库的端到端架构
本文设计了一套秒级实时行情推送系统,涵盖触发、采集、缓冲、入库与推送五层架构,结合动态代理IP、Kafka/Redis缓冲及WebSocket推送,实现金融数据低延迟、高并发处理,适用于股票、数字货币等实时行情场景。
357 3
秒级行情推送系统实战:从触发、采集到入库的端到端架构
|
3月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
491 7
|
4月前
|
机器学习/深度学习 算法 文件存储
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
神经架构搜索(NAS)正被广泛应用于大模型及语言/视觉模型设计,如LangVision-LoRA-NAS、Jet-Nemotron等。本文回顾NAS核心技术,解析其自动化设计原理,探讨强化学习、进化算法与梯度方法的应用与差异,揭示NAS在大模型时代的潜力与挑战。
1033 6
神经架构搜索NAS详解:三种核心算法原理与Python实战代码

热门文章

最新文章