Elasticsearch生态&技术峰会 | Elasticsearch在企查查的应用实践

简介: 开源最大的特征就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的合作正是开源与云生态共生共荣的典范。值此合作三周年之际,我们邀请业界资深人士相聚云端,共话云上Elasticsearch生态与技术的未来。
开源最大的特征就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的合作正是开源与云生态共生共荣的典范。值此合作三周年之际,我们邀请业界资深人士相聚云端,共话云上Elasticsearch生态与技术的未来。

视频静态封面-780-388-0120备份 11.png

本篇内容是企查查搜索部门经理范兆明分享的Elasticsearch在企查查的应用实践。
分享人:企查查搜索部门经理范兆明

视频地址:http://cloud.video.taobao.com/play/u/3177173649/p/1/e/6/t/1/297441406466.mp4

众所周知,企查查是一家专业做工商查询的公司,所有的业务入口都是基于查询完成的,可以说查询是实现企查查价值的主要入口。所以,本篇内容将介绍Elasticsearch在企查查的应用实践。

企查查遇到阿里云ES时的状况是,海量的数据无法存储,存储后的数据无法做大规模的分析,实时的用户行为得不到到监控。基于这些痛点,让企查查在寻找解决办法的过程中遇到并认识了阿里云ES。通过搭建ELK日志分析平台、日志分析、全文检索等功能,充分的了解和熟悉了ES。

ES主要的技术革新和特点,总结而言有三个:架构天生分布式、检索全文和结构、分析实时聚合。

架构天生分布式

ES天生的分布式架构可以通过硬件扩容的方式实现海量数据的膨胀,并且它的副本模式能够解决数据安全问题。

image.png

检索全文和结构

通过Lucene的倒排索引、Bm25的全文检索和高效的结构化检索,能够满足大部分搜索场景。

分析实时聚合

实时的海量聚合能力和多聚合模式能够完成大部分分析场景。

基于以上ES的能力,最终企查查选择了阿里云ES。那么阿里云在ES的基础上又带来了哪些方面的便捷呢?

image.png

优秀的NLP分词器

阿里云ES具有优秀的NLP分词器能力。目前主流的ES中文分词器有IK和ANSJ等主要的几种,企查查选择了IK和ANSJ后,清洗了大约百万级的基础数据,然后导入到IK和ANSJ。通过阿里云分词器对比了IK和ANSJ分词器发现,基于NLP的阿里云分词器更优秀。

区别就在于,基于NLP的阿里云分词器可以在不同场景解析出不同的语义,完成不同分词,所以企查查最终的解决方案是,以阿里云分词器为主,以ANSJ分词器为辅做了两套分词模式,同时应用于文档搜索。

一站式管理和高效扩展

这两个特点原本就是云平台的天然优势,这也是为什么中小企业和高速发展企业会选择云平台的根本原因。

企查查基于阿里云Elasticsearch设计的应用实践,这里给大家介绍几个核心的数据。

image.png

5000+QPS
5000+QPS是指实时峰值QPS达到每秒5000;

200+应用
200+是指目前有200个数据维度参与了实时搜索;

8TB数据
8TB是指所有实时搜索数据加起来超过8TB。

从下图企查查的发展历程可以发现,2014年企查查只有单一的工伤搜索维度;发展到2020年底,企查查已经超过了200多个搜索维度。快速的版本迭代、数据爆炸式的增长、爆炸式的用户请求等等都在阿里云ES上都得到了很好的体现。因为阿里云具有足够稳定、快速扩容、大大减少运营成本和搜索故障等特点,在这些年的发展中不断的提升企查查的搜索体验。

image.png

企查查的技术特点

企查查涉及到的其他技术特点跟全文检索特点是一样的,包括高并发、海量数据、实时聚合和分词等特点。高并发和实时聚合也是ES所擅长的,再加上阿里云优秀的NLP分词器,两两作用后让企查查搜索体验更优秀。

image.png

搜索的目的

我们越来越重视搜索并不断提高搜索体验,那么搜索需要呈现的结果是怎样的呢?

image.png

第一个是精准搜索。顾名思义,就是把搜索词和文本词完全匹配的结果返回给用户;

第二个是分词匹配。分词匹配是目前搜索技术的主流,也是最难实现的。难度在于,虽然有基于语义的分词器,如基于NLP的阿里云,但仍然会有分词异常和分词歧义的时候。基础数据的权重配比、清洗排序能否达到用户预期和搜索意图,都是长期迭代的任务。

第三个是意义搜索。意思是当用户搜索的词,在精准搜索和分词搜索都没有匹配,但实际上意义是一样时提供的服务,比如番茄和西红柿,或是同音字和形近字,这个时候就会需要意义搜索。意义搜索就是把同义字、同音字和形近字都反馈给搜索用户。

第四个是意图搜索。当用户搜了一大段内容,但是在分词、精准和意义搜索里都没有办法找到搜索结果时,就需要提取用户搜索的核心词, 然后用核心词再去搜索并反馈给用户结果。

第五个是部分匹配搜索。意思是当上述四个搜索都没有结果的时候,需要将部分匹配出的结果反馈给用户。

Elasticsearch还能带来什么?

目前ES在机器学习方面做了持续迭代,可以自动发现实时数据异常,自动实现业务的实时监控。

ES可以做更深层次的数据分析,还可以将发现数据的核心词和数据的特点推荐给搜索的用户。


image.png

阿里云Elastic Stack】100%兼容开源ES,独有9大能力,提供免费 X-pack服务(单节点价值$6000)

相关活动


更多折扣活动,请访问阿里云 Elasticsearch 官网

阿里云 Elasticsearch 商业通用版,1核2G ,SSD 20G首月免费
阿里云 Logstash 2核4G首月免费
下载白皮书:Elasticsearch 八大经典场景应用


image.png

image.png

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
存储 运维 监控
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
1026 3
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案
856 3
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
453 3
|
人工智能 算法 API
构建基于 Elasticsearch 的企业级 AI 搜索应用
本文介绍了基于Elasticsearch构建企业级AI搜索应用的方案,重点讲解了RAG(检索增强生成)架构的实现。通过阿里云上的Elasticsearch AI搜索平台,简化了知识库文档抽取、文本切片等复杂流程,并结合稠密和稀疏向量的混合搜索技术,提升了召回和排序的准确性。此外,还探讨了Elastic的向量数据库优化措施及推理API的应用,展示了如何在云端高效实现精准的搜索与推理服务。未来将拓展至多模态数据和知识图谱,进一步提升RAG效果。
552 1
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
1074 5
|
存储 运维 监控
Elasticsearch Serverless高性价比智能时序分析关键技术解读
本篇演讲由阿里云1s团队的贾新寓讲解,主题为高性价比、智能日志更新关键技术。内容分为四部分:回顾日志场景痛点、介绍四大关键能力(开箱即用、高性能低成本、按量付费、智能调度免运维)、解读关键技术(如读写分离架构、ES内核优化等),并演示如何快速接入Serverless产品。通过这些技术,显著提升性能、降低成本,帮助用户实现高效日志管理。
|
存储 弹性计算 运维
海量日志接入 Elasticsearch Serverless 应用降本70%以上
本文将探讨在日志场景下,使用阿里云Elasticsearch Serverless相较于基于ECS自建Elasticsearch集群的成本与性能优势,展示如何通过Serverless架构实现高达 70%以上的成本节约。
829 0
|
安全 Java Linux
Linux安装Elasticsearch详细教程
Linux安装Elasticsearch详细教程
2075 64
|
11月前
|
JSON 安全 数据可视化
Elasticsearch(es)在Windows系统上的安装与部署(含Kibana)
Kibana 是 Elastic Stack(原 ELK Stack)中的核心数据可视化工具,主要与 Elasticsearch 配合使用,提供强大的数据探索、分析和展示功能。elasticsearch安装在windows上一般是zip文件,解压到对应目录。文件,elasticsearch8.x以上版本是自动开启安全认证的。kibana安装在windows上一般是zip文件,解压到对应目录。elasticsearch的默认端口是9200,访问。默认用户是elastic,密码需要重置。
5694 0
|
存储 安全 数据管理
如何在 Rocky Linux 8 上安装和配置 Elasticsearch
本文详细介绍了在 Rocky Linux 8 上安装和配置 Elasticsearch 的步骤,包括添加仓库、安装 Elasticsearch、配置文件修改、设置内存和文件描述符、启动和验证 Elasticsearch,以及常见问题的解决方法。通过这些步骤,你可以快速搭建起这个强大的分布式搜索和分析引擎。
619 5

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版
  • 下一篇
    开通oss服务