前端可观测性的宣讲-1022

本文涉及的产品
性能测试 PTS,5000VUM额度
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
简介: 前端可观测性的宣讲-1022

d1878be4545c48aeb120e9dc394bf4c7~tplv-k3u1fbpfcp-zoom-crop-mark_3024_3024_3024_1702.webp.jpg本次宣讲是前端早早聊第52届大会实录

大会介绍


前端早早聊目前已经举办51届,内容涉及话题有:转管理、基建、搭建、规划、监控、Serverless、微前端、大厂面试、在线文档、跨端跨栈、前端女性的职业路、可视化、构建、成长与晋升、报表、组件化、框架、性能优化、团队成长、小程序、页面搭建、CI/CD、算法、晋升述职、互动、跨端 Flutter、WebGL、可视化、BFF、前端质量、安全...


第一页 主题


今天主要要跟大家分享的主题,是如何通过观测云提升用户体验,要深入讲性能优化,可能需要的时间远远不是短短这次交流,前端性能优化范围很广,今天把我这几年前端研发工作的实践、阅读的书,以及在过程中的一些思考,抛砖引玉,希望对大家有所启发。

5b46f7ae76cb4454ab27cbdf61144452~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二页 目录

2173498960104dbb8d68ad2955321e5d~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三页 可观测性的引入

Gartner在10.18日发布企业机构在2023年需要探索的十大战略技术趋势,Gartner 2023年战略技术趋势围绕优化、扩展和开拓这三大主题,这些技术能够帮助企业机构优化韧性、运营或可信度、扩展垂直解决方案和产品交付并利用新的互动形式、更加快速的响应或机会进行开拓。”


f2c14bc021004e16881dffe8e3f0339d~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg


第四页 可观测性的引入

在Gartner的这个报告中显示,应用可观测性排行第二。 可观测性的应用能够是企业利用他们的数据获取竞争优势,它能够在正确的时间提高正确数据的战略重要性,以便根据确认的相关行动而不仅仅是意图采取快速行动,因此是一种强大的工具。如果能够在战略中予以规划并成功执行,可观测性应用将成为数据驱动型决策的最强大来源。可观测性这么重要,那么到底什么是可观测性呢


c3fe6785b92c449bad12d3fc394a5111~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第五页 可观测性的介绍

CNCF 早在定义云原生的概念时就提到了可观测性 ,它声称可观测性是云原生时代的必备能力。可观测性是通过技术手段引导系统从 不可预知性 去往 确定已知性 的 全新思维理念,当我们将可观测性的概念应用于软件系统时,主要是为了:了解应用程序的内部运行情况。简单的说,可观测性是一种度量能力,帮助使用者能够更好的理解和解释系统当前所处的任何状态,无论你之前是否遇到过或者这个状态有多奇怪。都有能力通过各种维度和各种角度去分析发现和理解这个系统当前所出现的状态,而不需要预先定义或预测那些调试需求。如果能够在不发布新代码(如增加一个用于调试的日志)的情况下理解任何奇怪或不确定性的状态,那么你的系统就具备可观测性。 管理学大师彼得·德鲁克:If you can't measure it, you can't improve it.“如果你不能够衡量,那你就不能有效的增长。”


36c0c61790df473b84b56b15ab7e92be~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第六页 可观测性的资料

而随着可观测性的概念明晰化,相关产品纷纷涌现,“可观测性”越来越成为云原生一个绕不开的话题。该如何更多的了解可观测性,这里给大家推荐一本书,叫做oe,这本书我也参与了翻译,很快就会在国内出版。等不及的小伙伴呢,或者更习惯看音视频来成长的话,可以扫描右侧的二维码,《深入浅出可观测性》是一份理论和实战的短视频课程,有概念篇、基础篇和实战环节。可以 帮助快速深入了解可观测性。



6b2574b95821453fb5bf9e6fb7378daf~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第七页 前端可观测性的简介


了解应用程序可能得状态,这种可能是前端开发的同学没见过和无法预测的。举个简单的例子来说 随着网站交互的增多,网站的复杂度变高了,前端可观测性就更难做了。大多数前端同学能看到的是本地开发环境,我们能够根据经验设定一些指标的值来预警,虽然大多情况下并不能理解为什么发生了告警,尤其是对线上异常的解释,比如发现某个问题和某些东西相关,但是无法进一步分解定位到根因,那么更无法进行相对应的进行优化,无法达到线上可观测的目标。


f6acc760edbf40e6847298d7fcb0e99b~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第八页

首先需要讲的是产品或者系统的性能与系统稳定有关,经常会出现用户经常反应的一个情况,就是页面报错或者卡顿。但是因为设备不同、浏览器兼容、网络快慢、产品设计等原因,开发或者研发很少能复现。还有更常见的场景,便是报错或者卡顿还没来得及上传到RUM系统或者反馈上来,用户已经流失了。很明显系统稳定跟留住用户有关,系统报错与用户体验有关,用户体验跟用户增长有关。而且通常前端开发工程师的一个难题是,能否快速定位系统性能问题是发生在前端这一侧每一个用户实际请求所产生的性能问题导致的缓慢,还是其他环节呢?


606b09125d67464288a0063d6cc33f1d~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第九页

1d16aaf79d394988ac9723285a544a51~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg要解决这个问题,首先需要尽可能多的收集事件的详细信息,对数据进行聚合分析,并采取相应的行动。但首先收集上来的数据量级巨大, 这些聚合的数值并不能告诉我们更多的信息,让我们了解在相应的系统中发生了什么——它们不会告诉你是哪些过程导致了这种状况, 为了缓解高基数数据量带来的无法快速定位构建可观测性的难题,一种解决办法是使用仪表盘,通过仪表盘能了解系统的运作状态,最重要的是,能够对指标的值有所了解,而且能清楚的了解指标的趋势。如果仪表盘界面上增加了过滤器和下钻,让你可以更深入和缩小可视化,以提供更多的分析故障的能力。当前服务收集的各种指标是无法在一个仪表盘中进行展示的,各个角色的人也有个各自的需求,后面我将同时展示一些相关的图表。 可观测性满足的是如何使团队能够识别先前已知和未知的问题。 其实重点还是在于探索了解系统的未知问题。


第十页


观测云能提升用户体验,他具备丰富的追踪能力,能利用精准的用户会话数据,对网站进行详细的分析,并通过强大的仪表进行展示。


05dd009930b84ba4887ba3f0f334bb14~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg


第十一页

image.jpeg

第十二页

d119b467f64a4163af305e32b3ff29d7~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第十三页

55cc6de3d7c34cf2a06dbfd95c2dae4e~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第十四页

bd55843ef7ba4fbc96595a9ce741d798~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第十五页

a81ba8b9084740ec9e3fe6ff50e0a880~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第十六页

458005d99cf740ddbc5dddb40da5380a~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第十七页

52550a77ebc64d37a9d59d3e87e28813~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg第十八页

阈值检测:基于设置的阈值对指标数据进行异常检测,当数据达到阈值时,触发告警并通知用户。 突变检测:基于比较两个不同时间段内同一个指标的绝对或相对(%)变化值来判断是否产生异常情况。多应用于追踪某个指标的峰值或者数据变化,当出现异常情况时可以更精准的产生事件留做记录。



87749fd4537741b29e072041c7fe314a~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第十九页

现在开始这次对提升性能的第一个实践和经验分享,便是FCP。 FCP是早期性能指标发展中比较早的一个指标,在常见的client-side-rendering场景中的spa架构中,因为body下id为app的div的渲染的结束,导致fcp通常大于等于first paint,FCP更适合在ssr场景中对首次内容渲染后用于衡量网站的加载体验,如在ssr的网站性能监控中,就比较建议针对FCP做告警设置。虽然fcp对于提升网站提升有效,但这个指标对于用户真实体验有较大的差异。fcp和真实发生的页面渲染之间往往还存在着网络资源队列处理请求、资源解析和dom的实际渲染中特别多的因素,随着页面内容复杂度攀升,当前渲染页面是否允许用户操作,页面渲染是否令人愉悦,但随着将rendering更多的放在浏览器侧,Fcp已经远远不能满足用户体验对性能检验的需求。便是今天还要跟大家分享在实践中需要关注的几个指标。

41fc73cb71744156a546e414acc31e30~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十页 核心指标及实践

今天跟大家聊一聊几大核心指标,首先是这些指标的含义,和指标如何解读,还有这些核心指标的影响因素。 这三大指标分别是从页面加载、用户交互以及视觉稳定性的角度入手。这个有点类似谷歌2022开发者大会的数据,但又不完全一样,主要是long task和errors,后面我也会根据观测云的仪表来给大家展示,


8d16ec172a3b4baaa08747d4314454e6~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十一页 度量loading的指标

LCP是一项以用户为中心的指标,用于衡量网页被感知到的加载速度,指的是可见的最大内容元素的渲染时间; 如图中所示,LCP应该在页面首次开始加载的2.5秒内,超过2.5sLCP则被定义为poor; 我们来查看一下LCP的影响因素呢,当用户访问一个网站,从端上发起请求后通常有好几个阶段,一般浏览器都不知道接下来要用什么内容,可能是css、js、字体和图片、或者音视频,其中浏览器大部分时间都花在等待服务器的数据。从端上传输到服务器,然后再返回设备。如果能预拉取这些内容,那么能极大的提高加载速度,即使只是预先拉取部分文件,也能有很显著的网页速度提升。 观测云推荐用户能够预拉取部分文件,预拉取部分文件应该是常用、公共、有良好缓存策略的文件。 当然这部分还是要根据业务和用户的需求来决定。如何能提前预提取呢。对此我想介绍两个可供参考的,能简单快捷的使用,并且对LCP和网站速度有明显提升。



6a5cea003be44c329465e44a46837e3e~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十二页 如何提升lcp

ccc8f16316604fc5a1b07b461ac404b6~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

这两项是技术基本都是很多年前就有,但经常被用户忽略的。 第一点是 让页面提前可与目标网站建立直接连接来获取资源。 由于这些请求每次都会发送到你的服务器,因此能够提高向用户显示的内容的速度。 一次DNS查询的平均时间大概是60-120ms左右,看似一个很短的时间,但是相对于网页的渲染来说,这是一个非常长的时间。 DNS预取技术是利用CPU和网络带宽来域名解析机制,可以针对多个域名采取并行处理的方式,每个域名开启一个新的线程。   信息告诉浏览器,需要做dsn预解析  使用link标签对后端api进行预解析, 尤其对于client side rendering的架构来讲,在已经构建完空白节点后在由client fire http request时建立连接其实已经滞后很多。

第二点是预拉取 在meta标签内Preload source,是声明式的 fetch,可以强制浏览器请求资源,同时不阻塞文档 onload 事件。 Prefetch 提示浏览器这个资源将来可能需要,但是把决定是否和什么时间加载这个资源的决定权交给浏览器。

Fetchpriority=“high” rel=“preload” href=“resource.jpg” Preload本来是一个专门针对音视频进行优化的一个标签,目前可以用对静态资源、关键公共js css 字体进行加载的一项技术 以上便是一些实践中对于提升lcp有帮助的一些经验。

除了以上的这些内容,还有什么能影响LCP呢,一般是服务器响应慢、js阻塞、资源加载慢、客户端渲染架构。 这里需要讲到服务器响应慢、资源加载慢, 目前观测云能全链路展示耗时占比,如果是服务器响应慢,则能快速看出来。 资源加载慢,观测云有两个字段对大家做性能调优有帮助。第一个是view_resource_count页面资源数量,第二个是resource_size。 一般情况下浏览器会限制同一个域名下可以下载资源的数量,以chrome为例,在建立连接阶段客户端最多与主机建立6个tcp连接,通过划分子域方式,将多个资源分布在不同子域上,减少请求队列的等待时间,这也算得上一种优化的方式。 根据从观测云得到的view_resource_count数量,可以做数量减少的尝试。比如从100到40。这也是非常值得尝试的性能提升。 最后一点便是reduce resource size,可以做大小降低上的尝试。比如从3M到1.5M。这也是非常值得尝试的性能提升。

第二十三页 交互



dacce07c732440388f7a85d6912eeea5~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十四页

8d9359ec62024301a96556537b7191d0~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十五页

d67dc6ea23744b2a80cb44620b5598b4~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十六页

231a058ec6f54f58b7e782c3ed48129b~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十七页

Cls是衡量视觉稳定性非常重要的指标,它可以量化在页面上布局累计偏移的最终效果,它可以衡量页面是否令人愉悦, 一般CLS应该在0.1以下,如果超过这个数值,就需要关注一下这个指标。 什么情况下会导致CLS比较差呢? 一般是没有尺寸的图像/视频的dom节点(这里尤其需要考虑css embeded到js中的场景有可能会让cls比较低),不设置宽高的大div,以及字体文件突然加载的闪烁。而且可以通过chrome的devtools能够直接看到对cls影响比较大的dom节点。对于lazy-load的image/video节点,可以设置多套尺寸,能够降低cls。也可以使用类似于骨架屏的策略,对这些节点的样式进行预设。 还有一种情况,就是长列表下滑场景,需要保证盒模型有足够的空间切换,也就是不论盒模型内数据如何变化,都要始终预留出数据变动所需要的布局空间。总之,通过努力,我们认为CLS这个数值,是有机会不断接近0的。



74d776c163ec4f0eafc07503b521213d~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十八页

46d8cac8137142c688fd500c1e348ea9~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第二十九页

7d08ddef58a44e7fb408f206fc349694~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三十页

5a941750661149ab93d3fc56d130e30e~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三十一页

“观测云” 内置20余种标准的可视化图表:包括 时序图、概览图、表格图、矩形树图、漏斗图、饼图、柱状图、直方图、SLO、排行榜、仪表盘、散点图、气泡图、中国地图、世界地图、蜂窝图、文本、图片、视频、命令面板、IFrame、日志流图、对象列表图、告警统计图 等,可快速根据不同业务需求快速创建不同的仪表板,满足对数据个性化、全面的展示需求。 时序图一般用于显示数据在相等时间间隔下的趋势变化,同时可以用来分析多组指标数据之间的作用及影响。



29013c997a304686b171e8b710454dc6~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三十二页

比如我们以时序图为例。时序图一般用于显示数据在相等时间间隔下的趋势变化,同时可以用来分析多组指标数据之间的作用及影响。 这里能看到观测云控制台的核心指标FCP基本在2s的箱体

3d99a3c2ea5b4d78b013db36a04a7641~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三十三页

这里能看到观测云控制台的核心指标LCP基本在2s的箱体,存在部分波动。

dd7892d7e669432ba7d95f34668ca52b~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三十四页

矩形树图用于展示不同分组下指标数据的占比分布可视化。这里能看到观测云控制台的核心指标LCP基本在2s的箱体,存在部分波动。

3433999b547244d3b1bf2898f1f01599~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

第三十五页

d67dc6ea23744b2a80cb44620b5598b4~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

矩形树图用于展示不同分组下指标数据的占比分布可视化。 这里能看到观测云控制台的核心指标LCP基本在2s的箱体,存在部分波动。

第三十六页

082e6e3aa0d040519755573c9702158c~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

这里可以通过这张图片能看出什么来呢?这是观测云控制台在阿里云的数据。 整体来看不论是页面切换,还是首次加载,cls整体绝大多数情况都在0.1以下,整体性能数据还是不错的,但是有明显超过0.1的情况存在。

第三十七页

bdf8c6ab8d1048f98d8af9f6339a3e52~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

让我看一下官网的数据,这里可以通过这张图片能看出什么来呢? 整体来看不论是页面切换,还是首次加载,cls整体绝大多数情况都在0.1以下,但是有明显超过0.1的情况存在。

第三十八页

06ebf9b046924e85a1e7c0fdf695b94e~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.webp.jpg

目录
相关文章
|
缓存 前端开发 数据可视化
前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘
前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘
292 0
前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘
|
监控 前端开发 JavaScript
英语专八海外翻译成功转型前端讲解云时代的可观测性
英语专八海外翻译成功转型前端讲解云时代的可观测性
140 0
英语专八海外翻译成功转型前端讲解云时代的可观测性
|
人工智能 编解码 监控
核桃编程:前端可观测性建设之路
随着核桃编程业务的快速增长,核心应用的系统规模和系统复杂度也在经历翻天覆地的变化。核桃技术团队不断通过新兴的技术手段维护整套系统架构的技术先进性。在3 年时间里,技术团队至少对整体系统架构进行了 6 次以上的重大重构,涉及微服务化、容器化、分布式数据库等重要的技术,并尝试通过 Serverless 技术提升系统的弹性伸缩能力。在疫情期间,当系统负荷呈现数倍突增的情况下,核桃编程的系统架构依然经受住了考验。
16373 0
核桃编程:前端可观测性建设之路
|
2月前
|
存储 人工智能 前端开发
前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索
本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。
187 2
|
2月前
|
JavaScript 前端开发 程序员
前端学习笔记——node.js
前端学习笔记——node.js
52 0
|
2月前
|
人工智能 自然语言处理 运维
前端大模型应用笔记(一):两个指令反过来说大模型就理解不了啦?或许该让第三者插足啦 -通过引入中间LLM预处理用户输入以提高多任务处理能力
本文探讨了在多任务处理场景下,自然语言指令解析的困境及解决方案。通过增加一个LLM解析层,将复杂的指令拆解为多个明确的步骤,明确操作类型与对象识别,处理任务依赖关系,并将自然语言转化为具体的工具命令,从而提高指令解析的准确性和执行效率。
|
2月前
|
存储 弹性计算 算法
前端大模型应用笔记(四):如何在资源受限例如1核和1G内存的端侧或ECS上运行一个合适的向量存储库及如何优化
本文探讨了在资源受限的嵌入式设备(如1核处理器和1GB内存)上实现高效向量存储和检索的方法,旨在支持端侧大模型应用。文章分析了Annoy、HNSWLib、NMSLib、FLANN、VP-Trees和Lshbox等向量存储库的特点与适用场景,推荐Annoy作为多数情况下的首选方案,并提出了数据预处理、索引优化、查询优化等策略以提升性能。通过这些方法,即使在资源受限的环境中也能实现高效的向量检索。
|
2月前
|
机器学习/深度学习 弹性计算 自然语言处理
前端大模型应用笔记(二):最新llama3.2小参数版本1B的古董机测试 - 支持128K上下文,表现优异,和移动端更配
llama3.1支持128K上下文,6万字+输入,适用于多种场景。模型能力超出预期,但处理中文时需加中英翻译。测试显示,其英文支持较好,中文则需改进。llama3.2 1B参数量小,适合移动端和资源受限环境,可在阿里云2vCPU和4G ECS上运行。
129 1
|
2月前
|
前端开发 算法 测试技术
前端大模型应用笔记(五):大模型基础能力大比拼-计数篇-通义千文 vs 文心一言 vs 智谱 vs 讯飞vsGPT
本文对比测试了通义千文、文心一言、智谱和讯飞等多个国产大模型在处理基础计数问题上的表现,特别是通过链式推理(COT)提示的效果。结果显示,GPTo1-mini、文心一言3.5和讯飞4.0Ultra在首轮测试中表现优秀,而其他模型在COT提示后也能显著提升正确率,唯有讯飞4.0-Lite表现不佳。测试强调了COT在提升模型逻辑推理能力中的重要性,并指出免费版本中智谱GLM较为可靠。
前端大模型应用笔记(五):大模型基础能力大比拼-计数篇-通义千文 vs 文心一言 vs 智谱 vs 讯飞vsGPT
|
3月前
|
SpringCloudAlibaba JavaScript 前端开发
谷粒商城笔记+踩坑(2)——分布式组件、前端基础,nacos+feign+gateway+ES6+vue脚手架
分布式组件、nacos注册配置中心、openfegin远程调用、网关gateway、ES6脚本语言规范、vue、elementUI
谷粒商城笔记+踩坑(2)——分布式组件、前端基础,nacos+feign+gateway+ES6+vue脚手架