基于Elasticsearch+Flink的日志全观测最佳实践

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 本文介绍了怎样利用 Elasticsearch+Flink 搭建日志全观测平台

一、什么是全观测?

1、传统运维的问题

要了解全观测,我们先看看传统运维存在哪些问题:

  1. 数据孤岛,分散在不同部门,分析排查故障困难;
  2. 多个厂商的多种工具,无法自动化统一分析;
  3. 故障是立体的,日志、指标等都只能看到一方面的可观察性;
  4. 只进行收集,没有真正深入分析,不能发挥大数据的价值。


2、全观测的定义

全观测是对传统运维的改进,它将日志、指标、APM数据,汇总在一个平台,让运维、开发、业务人员对所有的数据从统一视角进行观察分析。

 

3、全观测可以做什么

  1. 建立统一的可视化视图、对齐时间、过滤条件;
  2. 建立统一的基于规则的监控和告警;
  3. 建立统一的机器学习的智能监控和告警。

图片 1.png

全观测架构图

 

二、全观测场景技术难点和解决方案

在全观测场景下会面临很多痛点,那么如何通过云上ELK+Flink能力,去解决全观测日志场景下的痛点呢?


1、痛点一:日志/指标获取难

机器、业务系统、网络链路、操作系统,诸多指标及日志获取手段不一,落地过程复杂;


解决方案:Beats/APM获取日志/指标

轻量化的提供各类meticlogsAPM数据采集能力;

 

2、痛点二:日志/指标规格化要求高

上下游链路配合衔接过程中,如何将有效信息从海量日志中获取;


解决方案:数据清洗SQL化更简易

支持各类网络格式的日志/指标采模板,实时计算Flink提供完整流式SQL能力;


3、痛点三:高并发写入、系统稳定性差

业务/流量抖动,日志写入峰值往往会很高,旁路系统稳定性受到很大的挑战;


解决方案:云上ES写入托管及超强稳定性

提供Indexing service自研ES写入托管服务,及跨机房部署、同城容灾、场景内核优化;

 

4、痛点四:海量数据存储成本高

日志场景涉及海量数据,TB级别起步,甚至PB级;


解决方案:低成本数据存储

阿里云ES提供冷热分离数据存储方式,及自研存储引擎Openstore优化存储压缩算法;

 

5、痛点五:日志分析和指标监控统一难

借助时序系统可以很好的完成监控,但异常分析困难相反,如何在统一平台完成;


解决方案:日志分析、指标监控、APM能力齐全

阿里云ElastiStack全托管,提供日志分析、监控、Tracing一站式能力,针对时序场景,针对性优化引擎,保证时序日志监控和分析的性能;

 

6、痛点6: 系统可扩展性要求高

业务调整带来的技术演进一直在发生,技术组件更新快,运维框架需要有强大的兼容性;


解决方案:开源生态具备强大的可扩展性

基于分布式架构,以及灵活开放的RestAPIPlugin框架,支持各种扩展能力。

 

三、时序日志场景痛点分析

写多读少的日志场景下会遇到什么问题?

  1. 高峰期写入压力大弹性扩展难以有效实施;
  2. 海量计算+存储资源成本高低峰期资源闲置;
  3. 为保证系统稳定性集群运维管理复杂;


从下图我们可以看到在高峰和低峰期遇到的情况:

  1. 业务突发峰值写入TPS高达60K,无法准确预测和预估,峰值写入瓶颈明显;
  2. 高峰期写入TPS平均40K,需要准备至少8节点ES计算资源来满足高峰期写入能力;
  3. 低峰期写入TPS平均20K,仅需要4节点ES计算资源即可满足低峰写入流量。

图片 2.png

 

四、全链路日志分析与监控ELK技术难点

1、高并发写入

a)日志场景往往面临业务/流量抖动;

b)日志写入峰值往往会很高;

c)ES集群容易被打爆;


2、存储成本高

a)日志场景涉及海量数据;

bTB级别起步,甚至PB级;

c)部分场景(如:审计)长周期存储;


3、时序分析性能差

aES内核技术局限性;

b)日志场景中的时序查询性能差;

c)复杂聚合、Range等查询性能瓶颈明显;

 

4、可伸缩性及运维要求高

a)日志峰值/均值/谷值差异巨大;

b)集群规模大管理运维复杂;

 

五、全观测解决方案实现日志监控/运维/分析

1、方案选型:100%兼容开源,与各类开源生态组件无缝衔接;支持多云/跨云的日志监控、运维分析场景。


2、方案优势:云上Elasticsearch及实时计算Flink产品,提供面向海量数据的高性能读写、及高弹性低成本解决方案。

图片 3.png

全观测解决方案数据架构图

 

六、FLink在方案应用中的优势

实时计算Flink版是新一代Serverless实时计算引擎,它在方案应用中具有以下优势:

1、流式SQL

100%兼容开源,一站式开发平台,提供更适合日志场景下海量数据清洗的流式SQL能力,核心算子性能优化达开源2倍以上。

2、Serverless服务

全托管免运维,用户无须关注集群运维和资源预留,100%投入业务开发。

3、Autopilot能力

根据数据流量自动重新分配算力,智能削峰填谷,弹性资源分配,有效应对数据的高峰低谷,如下图:

图片 4.png

Autopilot自动分配算力

 

七、阿里云Elasticsearch日志增强特性

1、日志增强版Indexing Service写入托管

图片 5.png

Indexing Service架构图

 

写入托管的核心功能是IndexingServerless服务,在ES集群之外,依托云端海量计算能力,打破本地集群的物理资源限制,通过读写分离架构,将ES集群的数据写入在云端服务进行托管加速,以满足高并发数据写入要求,并且基于海量的资源,支撑快速弹性的扩展能力。

图片 6.png

写入能力和成本对比图

 

 

2、自研ES存储Openstore

图片 7.png

 

阿里云自研ES存储Openstore具有以下优点:

a)低成本:

相较于本地SATA盘存储成本降低60%,相较于高效云盘存储成本降低70%

b)海量存储:

数据存储按实际用量用多少付多少,存储Serverless按量付费;

c)高可用:

底层存储服务保证了集群的数据高可用,提供99.9999999999%的数据持久性。

综上,基于Elasticsearch+Flink的日志全观测解决方案在开源的基础上做了优化,解决了传统运维日志场景下的诸多痛点,满足高并发的写入要求,可以达到比开源更高的写入性能,全托管免运维,存储按量付费,用户无需预先购置或预留过多节点来预防集群高并发的写入要求。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
3月前
|
Prometheus 监控 Java
日志收集和Spring 微服务监控的最佳实践
在微服务架构中,日志记录与监控对系统稳定性、问题排查和性能优化至关重要。本文介绍了在 Spring 微服务中实现高效日志记录与监控的最佳实践,涵盖日志级别选择、结构化日志、集中记录、服务ID跟踪、上下文信息添加、日志轮转,以及使用 Spring Boot Actuator、Micrometer、Prometheus、Grafana、ELK 堆栈等工具进行监控与可视化。通过这些方法,可提升系统的可观测性与运维效率。
352 1
日志收集和Spring 微服务监控的最佳实践
|
3月前
|
负载均衡 监控 安全
5 个 IIS 日志记录最佳实践
IIS日志记录是监控Web服务器性能与安全的关键。本文介绍启用日志、应用池配置、负载均衡、敏感数据防护、日志集中管理及保留策略等五大最佳实践,助力高效分析与合规审计。
261 1
|
7月前
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
819 54
|
8月前
|
监控 安全 BI
优化 Apache 日志记录的 5 个最佳实践
Apache 日志记录对于维护系统运行状况和网络安全至关重要,其核心包括访问日志与错误日志的管理。通过制定合理的日志策略,如选择合适的日志格式、利用条件日志减少冗余、优化日志级别、使用取证模块提升安全性及实施日志轮换,可有效提高日志可用性并降低系统负担。此外,借助 Eventlog Analyzer 等专业工具,能够实现日志的高效收集、可视化分析与威胁检测,从而精准定位安全隐患、评估服务器性能,并满足合规需求,为强化网络安全提供有力支持。
212 0
优化 Apache 日志记录的 5 个最佳实践
|
11月前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
795 25
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
|
运维 监控 安全
选择主题1:实时计算Flink版最佳实践测评
本文介绍了使用实时计算Flink版进行用户行为分析的实践,涵盖用户行为趋势、留存分析、用户画像构建及异常检测等方面。与自建Flink集群相比,实时计算Flink版在稳定性、性能、开发运维和安全能力上表现更优,且显著降低了企业的IT支出和运维成本,提升了业务决策效率和系统可靠性,是企业级应用的理想选择。
226 32
|
XML JSON 监控
告别简陋:Java日志系统的最佳实践
【10月更文挑战第19天】 在Java开发中,`System.out.println()` 是最基本的输出方法,但它在实际项目中往往被认为是不专业和不足够的。本文将探讨为什么在现代Java应用中应该避免使用 `System.out.println()`,并介绍几种更先进的日志解决方案。
290 1
|
运维 监控 安全
实时计算 Flink 版最佳实践测评
本文介绍了结合电商平台用户行为数据的实时计算Flink版实践,涵盖用户行为分析、标签画像构建、业务指标监控和数据分析预测等场景。文章还对比了实时计算Flink版与其他引擎及自建Flink集群在稳定性、性能、开发运维和安全能力方面的差异,分析了其成本与收益。最后,文章评估了实时计算Flink版的产品内引导、文档帮助、功能满足情况,并提出了针对不同业务场景的改进建议和与其他产品的联动可能性。
325 2
|
SQL 运维 监控
实时计算Flink版最佳实践测评报告
本报告旨在评估阿里云实时计算Flink版在实际应用中的表现,通过一系列的测试和分析来探讨其在稳定性、性能、开发运维及安全性方面的优势。同时,我们将结合具体的业务场景,如用户行为分析、标签画像构建等,来说明其实时数据处理能力,并对比自建Flink集群以及其他实时计算引擎。最后,从成本效益的角度出发,讨论采用全托管服务对企业运营的影响。
269 13
|
存储 运维 监控
实时计算Flink版最佳实践测评
实时计算Flink版最佳实践测评
293 1

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版