2021 年 Elasticsearch 生态和技术峰会干货总结

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 1、引言2021年 Elasticsearch 生态和技术峰会已完美闭幕,本次峰会可谓大咖云集,精彩纷呈。本文仅就下午场技术部分做一下梳理、提炼、总结,希望对没有来得及参加线上技术峰会的广大 Elastic 爱好者提供帮助。错过直播,但依然收获技术干货!

image.png

链接

2、峰会技术关键词词云


3、技术会议主题

吴斌老师(Elastic中文社区副主席):基于流式计算平台搭建实时分析应用


李猛老师(力萌科技数据专家):Elasticsearch 基于 Pipeline 窗口函数实现实时聚合计算


白凡老师(尚德机构资深工程师):基于 Elasticsearch 的容器化编排实践


刘征老师(Elastic社区布道师):如何规划和执行威胁狩猎


魏子珺老师(阿里巴巴技术专家):Elasticsearch云原生内核建设之路


4、基于流式计算平台搭建实时分析应用(吴斌)

4.1 为什么要面向开源进行架构设计?


轻松定制化、业务专注、低学习成本。


由于代码公开,所以安全、合规、透明。


高度灵活性,无平台绑定。


4.2 流式计算平台架构剖析

如图所示,流式计算平台主要由分布式消息队列、分布式计算引擎、数据引擎三部分构成。

image.png

4.2.1 分布式消息队列

数据采集,支持消息分发、消息缓存


高可用,削峰填谷


4.2.2 分布式计算引擎

早期:MapReduce、Storm


当下主流:Flink、Storm2.0


支持热更新 / 弹性伸缩


计算引擎核心任务:


数据校验(数据格式、合法性、脏数据等)


数据清洗(数据 ETL 转换)


数据丰富(多维数据Join,以辅助数据分析)


4.2.3 数据引擎

热数据存储在 Elasticsearch、HBase。


其中 HBase 存储热数据非完全必要,除非高 IO 存储需要引入。


一般情况下,数据的分析:Elasticsearch 就能搞定。


温数据(超过 7天的数据)存储选型:

1)MPP

2)Hive,GreenPlum


4.2.4 分布式存储


云端的对象存储


文件输出、明细错误数据落地


快照 snapshot 等

image.png

1)数据来源(server Application):服务器日志、监控、业务数据采集(如用户行为、购买记录、社交记录)。

2)数据发送到消息队列 (MSG G)。

3)消息队列数据写入 Beam Streaming 开源驱动引擎框架。


批流一体引擎。


Beam 能驱动:Flink、Spark Stream、 Strom 去做流式数据、batch 数据处理。


4)拉取RDB业务维表与实时数据Join。

5)对有问题数据输出到 Object 对象 / File 文件系统备份。

6)实时数据注入 Elasticsearch。

7)高 IO 数据写入 HBase(KV引擎)。

8)Beam Batch 批量处理。


核心Tips:


HBase  +  Elasticsearch 组合使用,以打车场景为例:


当打车订单未完成时候,明细数据(实时高 IO)录入HBase:


Session (订单)结束后,一个打车订单归拢为一条数据,放到 Elasticsearch,在 ES 中做实时订单分析、轨迹查询、客服查询等处理。


4.3 Elasticsearch 在流式平台中的角色功能

image.png

(1)文本检索


日志


场景:运维、开发、测试、客服。


(2)已知数据计算


已知数据定义:Mapping是我们自定义的。


实时指标计算。


场景:固定报表、大屏展示。


(3)未知线索探索


指标计算


复杂过滤条件


adhoc 查询


关联性、归因等


4.4 云原生与k8s集群管理经验分享(核心)

image.png

lass / On-prem:自己部署(实体机、虚拟机)大集群:维护升级麻烦,出错恢复周期非常长。


Sass:运维简单,具备弹性;缺点:细节不透明,网络拓扑受限,入口/网关性能、灵活性差,升级麻烦。


Pass (平台服务) / K8s

(1)优点:运维简单、yaml文件决定部署、弹性好、独享资源、官方operator。

(2)缺点:受限于K8s、开源版本,官方未来会推出商业版本。


推荐:基于云托管K8s搭建ES集群。


为 Elasticsearch 量身定制的网关产品——极限网关


极限网关特性:


转发性能好。


支持多集群之间数据分流、同步。


支持网关级限流。

image.png

4.5 相关资源

Elasticsearch  on K8s(Elastic 中文社区维护)


https://github.com/elasticsearch-cn/elastic-on-gke/


流式分析平台框架(Beam)


https://github.com/cloudymoma/raycom


极限网关(持续完善中)


http://gateway.infini.sh/


https://github.com/medcl/infini-gateway

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
20天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案
139 3
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
|
1月前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
138 2
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
17天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
|
21天前
|
存储 运维 监控
Elasticsearch Serverless高性价比智能时序分析关键技术解读
本篇演讲由阿里云1s团队的贾新寓讲解,主题为高性价比、智能日志更新关键技术。内容分为四部分:回顾日志场景痛点、介绍四大关键能力(开箱即用、高性能低成本、按量付费、智能调度免运维)、解读关键技术(如读写分离架构、ES内核优化等),并演示如何快速接入Serverless产品。通过这些技术,显著提升性能、降低成本,帮助用户实现高效日志管理。
|
3月前
|
存储 运维 监控
Elasticsearch Serverless 高性价比智能日志分析关键技术解读
本文解析了Elasticsearch Serverless在智能日志分析领域的关键技术、优势及应用价值。
135 8
Elasticsearch Serverless 高性价比智能日志分析关键技术解读
因为一个问题、我新学了一门技术 ElasticSearch 分布式搜索
这篇文章讲述了作者因为一个检索问题而学习了ElasticSearch技术,并分享了排查和解决ElasticSearch检索结果与页面展示不符的过程。
因为一个问题、我新学了一门技术 ElasticSearch 分布式搜索
|
3月前
|
消息中间件 监控 关系型数据库
MySQL数据实时同步到Elasticsearch:技术深度解析与实践分享
在当今的数据驱动时代,实时数据同步成为许多应用系统的核心需求之一。MySQL作为关系型数据库的代表,以其强大的事务处理能力和数据完整性保障,广泛应用于各种业务场景中。然而,随着数据量的增长和查询复杂度的提升,单一依赖MySQL进行高效的数据检索和分析变得日益困难。这时,Elasticsearch(简称ES)以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。本文将深入探讨MySQL数据实时同步到Elasticsearch的技术实现与最佳实践。
259 0
|
5月前
|
运维 监控 数据可视化
Elasticsearch全观测技术解析问题之面对客户不同的场景化如何解决
Elasticsearch全观测技术解析问题之面对客户不同的场景化如何解决
|
7月前
|
存储 监控 NoSQL
RedisSearch与Elasticsearch:技术对比与选择指南
RedisSearch与Elasticsearch:技术对比与选择指南
|
7月前
|
缓存 监控 索引
Elasticsearch中的post_filter后置过滤器技术
Elasticsearch中的post_filter后置过滤器技术