《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【下】

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【下】

接上篇:

https://developer.aliyun.com/article/1223030?spm=a2c6h.13148508.setting.29.4f394f0em1x0Jq

为了解决上述问题,我们在生产环境中逐渐沉淀下较为可行的方案,即基于OPLG建设统一可观测平台。此方案主要有以下几点优势:

 

开源开放:全开源技术栈,借助社区共建合力,比如可以借助OpenTelemetry的Traces埋点,Prometheus指标的Metrics Exporters,无需过多开发,即可保障大部分通用组件数据的采集生成上报,降低了接入成本

统一目标:开源且基于统一的一套规范,可以很轻松地实现内部各个子系统甚至是和外部三方系统之间的打通和关联分析

自由灵活:基于OPLG特别是Grafana一些比较好的设计,可以非常灵活地组织可观测数据,能够灵活地定制每一个场景下需要的大盘图表,满足自定义的需求

边缘计算:基于OpeTelemetry Collector技术,可以将数据处理“左移”到用户集群内。通过边缘计算的技术,能够提前提炼数据价值,并将提炼好的数据再发送到服务端,降低公网传输的成本以及服务端的存储成本。

image.png

OPLG主要由以下四个模块构成:

 

端侧数据生成与上报:通过OpenTelemetry完成Traces数据的生成,通过Prometheus完成指标类的数据,通过Loki的方式完成日志采用

边缘侧数据统一处理与路由:所有数据采集完成之后,可以通过OpenTelemetry Collector完成数据统一的边缘处理和路由转发

全托管服务端:能够提供更好的性能和更稳定的服务,而且不会绑定技术栈,迁移的自由度和灵活度高

统一可视化:可以通过Grafana完成统一的自定义灵活监控,也可以采用云服务商比如ARMS在特定的精细化交互场景提供精细化的交互大盘,提高查询体验。此外,如若有自己的需求,也可以通过开源的数据格式或开放的OpenAPI建设自己的控制台。

image.png

OpenTelemetry Collector首先会完成统一的数据采集,任何数据类型都可以进行数据采集,然后做通用的处理,比如格式化、数据的标签打标,还可以进行一些指标的预聚合动作,最常见的比如调用链,可以根据service IP等粒度先将数据聚合再进行采样,可以保证指标的精准度,而且上传到服务端也可以降低成本。

 

OpenTelemetry Collector还可提供本地存储的能力,可以将一部分最近的数据先临时缓存,然后进行比如最近10分钟的全量查询、错慢全采等,可以更好地利用边缘的存储能力。

 

针对处理好的数据,OpenTelemetry Collector提供了非常灵活的转发方式,可以支持不同的协议,比如Prometheus协议、OTLP协议等,也可以支持多数据源的转发,可以发送到云服务端,也可以转存到边缘存储,更加灵活。

 image.png

基于ARMS的托管服务端针对海量的数据场景做了很多查询性能优化加速的技术,比如通过算子下推的方式,在70%以上的场景下查询性能相对于开源提升了10倍以上;而针对7-10天等的长周期查询,通过降采样技术又进一步地提升了一个数量级的查询性能;针对URL等发散维度,通过自动收敛的技术很好地解决了热点导致的查询卡顿问题;针对链路数据,做了对应用和Traces ID两级的路由扫描,针对链路查询的使用特征做了相应的优化。

 

除了海量数据的查询性能优化外,我们在HA侧也做了体系化的建设,比如默认支持全球部署、多可用区的容灾,避免了单个region或AZ不可用的风险;其次业务经常会遇到突发的流量或用户快速增长,如果是自建机房则需要考虑容量问题,而使用ARMS可以根据流量自适应地做扩充,无需担心突发流量带来的性能瓶颈;极端情况下,也可以通过动态配置下推或自动流控降级保障核心功能的可用性;最后,提供了全链路SLA监控和预警的建设,有7*24小时的应急响应,可及时发现可用性问题并快速恢复。

image.png

此外,基于Grafana+ARMS提供了灵活、精细的可视化体验。

 

Grafana丰富的仪表盘插件和广泛的数据源支持,可以将各种数据都集成在一个大盘里。而且通过PromQL、LogQL等灵活的查询语法,不需要前端介入。后端的研发,测试,SRE等可以通过低代码的形式快速构建自己的场景大盘,提升可观测的效率。

 

得益于Grafana的开源属性,如果想从自建机房迁移到云上,或在云之间互相迁移,整个可视化平台都能够通过JSON文件或其他方式快速拷贝,轻松完成端到端的迁移,不会被特定的厂商强绑定。

 

但是Grafana也存在缺陷,比如它在交互场景的体验不够好,因此ARMS在调用链的关联分析、在线诊断、配置管理等强交互的场景提供了更精细化的交互页面。ARMS还会进一步增强Grafana的图表插件,提供新的图表插件以提升托管版Grafana的可视化能力。

相关文章
|
2月前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
8天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
108 2
|
2月前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110979 127
阿里云实时计算Flink的产品化思考与实践【下】
|
15天前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
476 2
Flink CDC在阿里云DataWorks数据集成应用实践
|
21天前
|
人工智能 安全 数据挖掘
阿里云高级技术专家李鹏:AI基础设施的演进与挑战 | GenAICon 2024
阿里云高级技术专家、阿里云异构计算AI推理团队负责人李鹏将在主会场第二日上午的AI Infra专场带来演讲,主题为《AI基础设施的演进与挑战》。
|
23天前
|
消息中间件 SQL Java
阿里云Flink-自定义kafka format实践及踩坑记录(以protobuf为例)
阿里云Flink-自定义kafka format实践及踩坑记录(以protobuf为例)
|
2月前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
2月前
|
供应链 安全 专有云
阿里云通过信通院面向一云多芯的专有云技术能力评测
近日,阿里云飞天企业版通过中国信息通信研究院2023年度《面向一云多芯的专有云技术能力要求》,在异构兼容能力、专有云基础能力、迁移适配能力三个方面,再一次验证了阿里云专有云一云多芯领先的技术能力。
|
2月前
|
缓存 运维 监控
应用研发平台EMAS 常见问题之用华为的推送界面阿里云收不到如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
383 2