带你读《2022技术人的百宝黑皮书》——移动域全链路可观测架构和关键技术(7)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 带你读《2022技术人的百宝黑皮书》——移动域全链路可观测架构和关键技术(7)

带你读《2022技术人的百宝黑皮书》——移动域全链路可观测架构和关键技术(6)https://developer.aliyun.com/article/1340963?groupCode=taobaotech


image.png提升日志上传成功率,从几个方面保障在排查问题时有日志供应过来,一是内置日志主动上传能力,在核心场景   或问题反馈多时机触发,提高日志触达率,如舆情反馈、新功能上线发生异常时;二对TLOG能力进行升级,涉 及到分片策略、重试、日志治理等优化,解决以往用户反馈较多日志上传的时效问题;最后是收集各类异常信息,作为快照,通过MTOP链路旁路上报,辅助还原现场。

image.png提升日志的定位效率,首先对日志做分类,如区分出页面日志、全链路日志支持快速筛选过滤;接着是打通各个   场景的全链路调用拓扑结构,目的是可以快速看出问题发生在哪个节点,以便快速分发处理;最后结构化错误、   慢、UI卡等问题,原则是将领域问题的解释权交给领域,比如卡顿日志有几类,如APM冻帧、ANR、主线程卡  顿等;业务类有请求失败、请求RT大于xx时间、页面白屏等,通过各领域的能力  对接来提升问题的快速诊断定位能力。

image.png全链路追踪能力建设,鹰眼(分布式跟踪系统在阿里后端的实现)接入业务众多,日志量大,不可避免要做日志的采样,对于没有命中采样的调用,缓存只有5分钟,需要想办法在5分钟内通知鹰眼保持更久的时间。第一阶段,后端解析服务会解析出调用链的鹰眼ID,通知鹰眼服务存储对应的trace日志,成功通知后可以存3天;第二阶段感知网关发生异常,取出鹰眼ID,通知鹰眼存储将存储前置;第三阶段,类似场景追踪,获取核心场景的鹰眼trace日志,尝试放在摩天轮平台上存储。第一阶段已经上线,可以做到关联跳转鹰眼平台,一般从问题发生到   排查都过了5分钟,因此成功率不高,还需要结合2、3阶段进一步提升成功率,正在规划开发中。

image.png平台能力的建设,基于端侧全链路日志做解析,在可视化方面,通过结构化展示全链路日志内容,方便快速部分节点的异常;还有就是基于结构化日志,对全链路日志中的耗时异常、接口报错、数据大小异常等问题进行快速诊断。

 

以上是今年在运维做的一些尝试,目的是希望可以通过技术升级,在排查领域用技术赋能代替流程赋能。下面接着继续给大家展示下淘宝的实践和集团其它app接入的效果。

 

全链路运维实践

 

淘宝卡顿问题排查

内部同事反馈在海外用淘宝App,出现卡、部分页面打不开等现象,经过上诉排查过程,提取到TLOG日志后。

 

image.png通过“全链路可视化”功能(图10),可以看到H5页面spanID为0.1的network状态为“失败”,导致页面打不 开。

image.png通过“全链路诊断”耗时异常功能(图11),可以看到大量network耗时分布在2s、3s+,有的甚至8s+, network阶段发生在请求调用阶段(传输),与海外用户访问到阿里的CDN节点慢相关。

 


image.png

 

(图13 全链路可视化功能)

 

image.png

 

(图14 全链路卡顿诊断功能)

 

 

 

带你读《2022技术人的百宝黑皮书》——移动域全链路可观测架构和关键技术(8)https://developer.aliyun.com/article/1340961?groupCode=taobaotech

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5天前
|
运维 Kubernetes Cloud Native
云原生技术:容器化与微服务架构的完美结合
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其灵活性和高效性成为企业的新宠。本文将深入探讨云原生的核心概念,包括容器化技术和微服务架构,以及它们如何共同推动现代应用的发展。我们将通过实际代码示例,展示如何在Kubernetes集群上部署一个简单的微服务,揭示云原生技术的强大能力和未来潜力。
|
3天前
|
存储 分布式计算 关系型数据库
架构/技术框架调研
本文介绍了微服务间事务处理、调用、大数据处理、分库分表、大文本存储及数据缓存的最优解决方案。重点讨论了Seata、Dubbo、Hadoop生态系统、MyCat、ShardingSphere、对象存储服务和Redis等技术,提供了详细的原理、应用场景和优缺点分析。
|
5天前
|
监控 API 微服务
后端技术演进:从单体架构到微服务的转变
随着互联网应用的快速增长和用户需求的不断演化,传统单体架构已难以满足现代软件开发的需求。本文深入探讨了后端技术在面对复杂系统挑战时的演进路径,重点分析了从单体架构向微服务架构转变的过程、原因及优势。通过对比分析,揭示了微服务架构如何提高系统的可扩展性、灵活性和维护效率,同时指出了实施微服务时面临的挑战和最佳实践。
22 7
|
3天前
|
传感器 算法 物联网
智能停车解决方案之停车场室内导航系统(二):核心技术与系统架构构建
随着城市化进程的加速,停车难问题日益凸显。本文深入剖析智能停车系统的关键技术,包括停车场电子地图编辑绘制、物联网与传感器技术、大数据与云计算的应用、定位技术及车辆导航路径规划,为读者提供全面的技术解决方案。系统架构分为应用层、业务层、数据层和运行环境,涵盖停车场室内导航、车位占用检测、动态更新、精准导航和路径规划等方面。
25 4
|
4天前
|
Kubernetes Cloud Native 持续交付
云原生技术在现代应用架构中的实践与思考
【10月更文挑战第38天】随着云计算的不断成熟和演进,云原生(Cloud-Native)已成为推动企业数字化转型的重要力量。本文从云原生的基本概念出发,深入探讨了其在现代应用架构中的实际应用,并结合代码示例,展示了云原生技术如何优化资源管理、提升系统弹性和加速开发流程。通过分析云原生的优势与面临的挑战,本文旨在为读者提供一份云原生转型的指南和启示。
17 3
|
6天前
|
网络协议 数据挖掘 5G
适用于金融和交易应用的低延迟网络:技术、架构与应用
适用于金融和交易应用的低延迟网络:技术、架构与应用
30 5
|
4天前
|
运维 Kubernetes Cloud Native
云原生技术在现代应用架构中的实践与挑战####
本文深入探讨了云原生技术的核心概念、关键技术组件及其在实际项目中的应用案例,分析了企业在向云原生转型过程中面临的主要挑战及应对策略。不同于传统摘要的概述性质,本摘要强调通过具体实例揭示云原生技术如何促进应用的灵活性、可扩展性和高效运维,同时指出实践中需注意的技术债务、安全合规等问题,为读者提供一幅云原生技术实践的全景视图。 ####
|
8天前
|
Kubernetes Cloud Native 云计算
云原生技术深度解析:重塑企业IT架构的未来####
本文深入探讨了云原生技术的核心理念、关键技术组件及其对企业IT架构转型的深远影响。通过剖析Kubernetes、微服务、容器化等核心技术,本文揭示了云原生如何提升应用的灵活性、可扩展性和可维护性,助力企业在数字化转型中保持领先地位。 ####
|
10天前
|
存储 分布式计算 分布式数据库
风险数据集市整体架构及技术实现
【11月更文挑战第11天】在当今大数据时代,风险数据集市作为金融机构的核心基础设施之一,扮演着至关重要的角色。它不仅为银行、保险等金融机构提供了全面、准确的风险数据支持,还帮助这些机构实现了风险管理的精细化和智能化。本文将深入探讨一种基于大数据Lambda架构设计的风险数据集市整体架构,并详细介绍其底层实现原理及实现方式。
25 3
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。