移动端性能监控探索:iOS RUM SDK 技术架构与实践

简介: 阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。

作者:元泊


前言


作为移动端的研发同学,你是否也曾陷入这样的困境:用户在应用商店留下了一星差评,抱怨“App 用起来很卡”或者“支付时闪退了”,但无论你在测试环境如何操作,都无法复现问题?面对着从海量日志中捞出的、可能毫无关联的信息,以及一个孤立的、缺少上下文的崩溃堆栈,排查问题就像在浓雾中“盲人摸象”,耗费了数天时间,最终却只能提交一个基于猜测的修复。

为了提升这种低效的排查模式,我们进行了 iOS 数据采集与关联方向的探索,并进行了产品化的实践。它可以站在每一位真实用户的视角,把应用的性能指标、错误日志和用户行为等数据串联起来,提升您的问题排查效率。


iOS 数据采集简介


为了能够把应用性能指标、错误日志、用户行为等串联起来,SDK 需要具备体系化的数据采集与分析能力。SDK 的核心数据采集能力覆盖以下几个方面:


  • 用户会话轨迹:SDK 会记录用户的完整的操作轨迹,并与相关的事件进行关联。当问题发生时,通过会话轨迹可以回溯用户的操作路径、API 调用和资源加载情况。
  • 性能指标:对影响用户体验的关键链路进行监控测量,包括:应用启动耗时、页面加载耗时、网络请求耗时、网络请求成功率、页面卡顿率等。
  • 异常与稳定性监控:能够自动捕获应用触发的各类异常,包含:Mach 内核异常,Objective-C 异常,Swift 异常,C/C++ 异常等。
  • 自定义数据上报:除了标准的性能和异常数据外,还支持业务根据自身需求上报自定义事件与日志,将用户行为与业务指标相结合,赋能更深层次的产品分析与角色。

数据采集架构和实现


为了有效应对以上挑战,SDK 通过一个轻量化、模块化的架构,对应用的不同阶段进行 hook 和监听,以实现应用性能和稳定性的监控。

1760943544570_D7CC386D-60F5-4e25-97FC-3CD256F5FF2A.png

  • 公共接口层:提供对外公开的 API,用户通过 API 与 SDK 进行交互。
  • SDK 管理层:管理 SDK 的各个模块,SDK 的启停等。
  • 数据采集等:管理各个数据采集模块,实现数据采集细节,各个数据模块实现隔离。
  • 基础核心层:支撑整个 SDK 的运行,提供时间同步,数据处理,配置管理等能力。

在基础核心层,SDK 为了统一各个端的实现,以及性能的考虑,使用 C 实现了独立的跨平台数据处理和跨平台配置管理模块,使多端保持一致的数据持久化、数据发送、数据序列化、配置拉取和管理等逻辑。

在数据采集层,为了高效、精准、无侵入地采集各类事件,SDK 基于 Method Swizzling 技术和 iOS 系统平台特性与框架能力,构建了多样化的采集方案。并针对不同的场景和数据类型,分别采用合适的技术手段,主要包含:


  • 基于 Method Swizzling 的网络等数据采集。
  • 基于系统特性与框架能力的数据采集。
  • 崩溃异常数据的采集。


基于 Method Swizzling 的数据采集

iOS 开发的主要语言是 Objective-C 和 Swift,提到 Method Swizzling 技术离不开 iOS 的 ObjC 运行时。ObjC 是一门动态语言,在运行时间会对变量的数据类型检查,同时根据函数名查找要调用的函数。这种特性使得 ObjC 变得比较灵活,SDK 可以在程序运行时动态修改一个方法的实现,从而达到数据采集和埋点插桩的目的。

Method Swizzling 被称为动态方法交换技术,用于改变一个已经存在的 selector 实现。基于此技术,SDK 可以在程序运行时,通过改变 selector 所在 Class 的 method list 的映射,从而改变方法的调用,本质上是交换两个方法的 IMP。

1760943621883_EA42F710-FBD1-41d2-AC3A-D8865CE32559.png

通过以上方式,SDK 支持:


  • 网络请求数据采集:支持性能数据,状态码,错误原因,端到端链路打通等数据的采集。通过 Method Swizzling,SDK 对实现了对 URLSession 和 URLConnection 等网络库的无侵入数据采集。
  • 页面数据采集:支持页面加载耗时,页面状态变化等数据的采集。
  • Action 数据采集:支持 UITableView、UITableView 等控件的点击事件采集。
  • WebView 数据采集:结合 web 探针,支持了应用内置 H5 页面数据的采集,包含:网络资源请求,页面和路由切换,js 异常等。


基于系统特性与框架能力的数据采集

除了 Method Swizzling 之外,SDK 还利用系统特性和框架的标准 API 来采集应用在运行时的关键事件。


如上图所示,是 iOS 应用从启动到终止过程(包含前后台切换),系统通过事件通知中心对外暴露的事件状态变化。SDK 通过注册这些事件完成应用状态事件的采集。


为了准确采集应用的状态变化,SDK 按照不同的场景,分别对不同的事件进行处理:


  • 应用进入到前台事件:SDK 会对 willEnterForeground 和 didBecomeActive 事件处理。
  • 应用进入到后台事件:SDK 会对 willResignActive 和 didEnterBackground 事件处理。

为了统一的监控这些事件,SDK 提供了 AppLifeCycle 类对这些事件进行管理,简化事件处理的同时也能保证调用时序。除此之外,SDK 还对 RunLoop 进行了监听,通过检查 RunLoop 运行状态,实现卡顿监控事件的采集等。

通过以上方式,SDK 支持:


  • 应用启动耗时采集:支持应用冷启动、热启动耗时指标采集。
  • 卡顿事件采集:支持卡顿事件的采集,同时支持耗时堆栈的提取。
  • 网络状态的采集:支持网络类型的采集。


崩溃异常数据的采集

SDK 崩溃数据的采集能力基于业界知名的 KSCrash 框架开发。KSCRash 是一款强大的 iOS 崩溃报告库,其核心优点是“崩溃安全”,确保处理过程自身稳定可靠。它能全面捕获 Mach、C++、OC 等多种致命错误,生成包含所有线程堆栈和丰富上下文的详尽报告,极大提升开发者定位问题的效率。KSCrash 的工作流程主要分为下面五个部分:


  • 核心功能模块:协调各个模块工作,实现异常捕获的核心逻辑。
  • 监控系统:管理和协调各类异常监视器,全面捕获不同类型的异常。
  • 报告系统:生成详细的崩溃报告,进行本地存储和数据过滤。
  • 配置系统:按需配置框架的行为。
  • 安装系统:处理框架的安装流程,崩溃报告的发送工作。

1760943667080_16546AE0-3249-4768-B99C-6A401E617D17.png

基于 KSCrash,SDK 支持:


  • Mach、C++、OC、Signal 等类型的崩溃捕获。
  • 基于 KSCrash 的堆栈捕获能力,支持卡顿耗时堆栈的读取。


结语


阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。您可以参考接入文档https://help.aliyun.com/zh/arms/user-experience-monitoring/monitor-ios-apps体验接入 iOS SDK。相关问题可以加入“RUM 用户体验监控支持群”(钉钉群号: 67370002064)进行咨询。

您也可以参考以下文档体验接入 Android、Harmony SDK:

Android:https://help.aliyun.com/zh/arms/user-experience-monitoring/monitor-android-apps

HarmonyOS:https://help.aliyun.com/zh/arms/user-experience-monitoring/monitor-harmonyos-apps


点击此处,查看接入文档。

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
移动开发 监控 Android开发
Android & iOS 使用 ARMS 用户体验监控(RUM)的最佳实践
本文主要介绍了 ARMS 用户体验监控的基本功能特性,并介绍了在几种常见场景下的最佳实践。
1143 100
|
Web App开发 开发框架 前端开发
移动端window.open跳转链接时,iOS没有反应的问题
【10月更文挑战第9天】在移动端使用 `window.open` 跳转链接时,iOS 可能无响应,原因是 iOS 的安全策略和弹出窗口阻止功能。解决方法包括:确保在用户交互后触发 `window.open`,将目标设置为 `_self`,使用锚点链接模拟跳转,或利用专门的移动端框架。需综合考虑这些方案以优化用户体验。
2516 62
|
安全 Swift iOS开发
Swift 与 UIKit 在 iOS 应用界面开发中的关键技术和实践方法
本文深入探讨了 Swift 与 UIKit 在 iOS 应用界面开发中的关键技术和实践方法。Swift 以其简洁、高效和类型安全的特点,结合 UIKit 丰富的组件和功能,为开发者提供了强大的工具。文章从 Swift 的语法优势、类型安全、编程模型以及与 UIKit 的集成,到 UIKit 的主要组件和功能,再到构建界面的实践技巧和实际案例分析,全面介绍了如何利用这些技术创建高质量的用户界面。
430 2
|
安全 Android开发 数据安全/隐私保护
探索安卓与iOS的安全性差异:技术深度分析与实践建议
本文旨在深入探讨并比较Android和iOS两大移动操作系统在安全性方面的不同之处。通过详细的技术分析,揭示两者在架构设计、权限管理、应用生态及更新机制等方面的安全特性。同时,针对这些差异提出针对性的实践建议,旨在为开发者和用户提供增强移动设备安全性的参考。
1176 3
|
开发工具 iOS开发 容器
【Azure Blob】关闭Blob 匿名访问,iOS Objective-C SDK连接Storage Account报错
【Azure Blob】关闭Blob 匿名访问,iOS Objective-C SDK连接Storage Account报错
226 0
|
开发工具 数据安全/隐私保护 iOS开发
探索iOS应用开发的核心理念与实践
【8月更文挑战第23天】在数字时代的浪潮中,iOS应用开发不仅仅是技术的堆砌,更是一场关于创新、用户体验和持续改进的旅程。本文将深入探讨iOS应用开发的核心理念,从设计哲学到开发工具的选择,再到市场趋势的适应,旨在为开发者提供一条清晰的路径,帮助他们在不断变化的技术世界中保持竞争力和创新力。
|
开发工具 图形学 iOS开发
Unity与IOS⭐Unity接入IOS SDK的流程图
Unity与IOS⭐Unity接入IOS SDK的流程图
|
运维 监控 数据可视化
ARMS的微服务监控
【8月更文挑战第23天】
297 6
|
监控 Java 索引
APM Server监控
APM Server监控
|
6月前
|
监控 Kubernetes Java
使用 New Relic APM 和 Kubernetes Metrics 监控 EKS 上的 Java 微服务
在阿里云AKS上运行Java微服务常遇性能瓶颈与OOMKilled等问题。本文教你通过New Relic实现集群与JVM双层监控,集成Helm部署、JVM代理注入、GC调优及告警仪表盘,打通从节点资源到应用内存的全链路观测,提升排障效率,保障服务稳定。
481 115

热门文章

最新文章