打造一款支持线上抓 systrace 的框架

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 打造一款支持线上抓 systrace 的框架

1、缘起


缘起是看到网易云音乐技术团队发布的一篇《systrace 统计方法耗时》的文章,文章讲解了如何通过 hook 的方式将 trace 开关打开,并实现不依赖 PC 开启 Trace 功能,实现线上抓取。 文章思路与流程非常清晰,是一个不错的实践(造轮子)机会,我将此文转发给正在研究 xcrash 和 xhook 的同事,我俩一拍即合,打算利用这个机会撸一个框架,并且,同事还给我发了一篇更全面的实践文章《抖音 Android 性能优化系列:新一代全能型性能分析工具 Rhea》,Rhea 经历过三次演进,我们将这些思路进行整合,开发出了一款属于我们自己的框架  Lancer


我们非常建议,在阅读这款框架源码的时候,一定要看下上述提到的两篇文章。


为什么我们也想做一个:


  • 脱离 PC 抓取 trace 可以帮助我们更好的定位问题,有很多 bug 我们是无法从自己的机型和环境进行复现的,往往需要客户配合来抓取一些日志来实现问题定位,并且,相比较我们自己埋点的日志来说,systrace 采集到的信息更丰富

2、能学到什么?


  • Gradle Transfrom 被废弃,学习使用最新的 TransfromAction
  • 利用 AsmClassVisitorFactory 实现方法插桩
  • 学会使用 xhook 来 hook native 函数
  • 使用 mmap 来优化 IO 性能问题

3、开发的过程中遇到了哪些问题?


插桩方法未正确闭合:

  • try catch 中的 catch 块,需要插桩方法结束标记
  • 在参考字节的 Reha 第一版时,Reha 有限制调用栈深度,所以,我们直接使用了 Stack 集合 size 为 6 来限制层级,以此来提高性能,但忘了考虑多线程调用的问题,故修复后使用 ThreadLocal 来为每个线程保存一份 Stack 来记录方法调用栈深度问题。但在 Rhea 的第三次改造中,Rhea 为了获得更丰富的信息,已取消层级限制。

4、还有哪些不足


  • 插桩方法使用的 class name 和 method name,可以考虑像 Matrix 那样,通过 method Id 来做,然后生成一份 method 映射表。但这么做的话,对于生成的 systrace 可能不太直观, 因为倒入 perfetto 的时候看到的都是 methid Id,可以做一个脚本,读取 systrace 内容,将 method id 拿到,然后通过映射表,恢复方法名,然后再重新写入 systrace,导入 perfetto 查看。Reha 考虑线下用户的易用性,在线下模式打包阶段直接插入的方法名
  • 目前仅在线下使用,理由与 Rhea 一致:

目前 Trace 工具更多的还是在线下使用,由于插桩过多影响了包大小,使得我们线上部分只能对小规模的用户群体定向打开,没法全量上线定位线上大规模用户的性能问题

5、使用


由于放置在 github 的源码没有对外发布依赖,故这里就介绍下如何使用,我相信,如果有同学对这方面有兴趣的话,这一定难不倒他(主要是我们太懒了,笑哭)。

由于 github 项目使用的是复合构建引入的插件模块,如果想接入到自己项目的话,可以参考 setting.gradle,通过 includebuild 来引入插件模块。


在 app 模块的 build.gradle 中使用 tracePlugin 插件:


plugins {
    id 'com.android.application'
    id 'org.jetbrains.kotlin.android'
    id 'tracePlugin'
}
trace {
    pkg = "com.bomber.strace"
    ignoreClass = [
        "com.bomber.strace.*.bean.*",
        "com.bomber.*.R",
        "com.bomber.*.R\\\$.*",
        "com.bomber.*.BuildConfig",
    ]
}
复制代码
  • tracePlugin 插件支持 pkg 配置要插桩的包路径,这非常友好,对于一些三方模块,我们暂时没必要对其进行插桩,我们只定位业务模块发生的问题
  • tracePlugin 插件还支持 ignoreClass 来忽略掉一些不需要对其插桩的类,例如 javaBean 和 R 类等,类路径支持正则匹配


在 Application 中对其进行初始化:


class LancerApp : Application() {
    override fun attachBaseContext(base: Context?) {
        super.attachBaseContext(base)
        installLancer()
    }
    private fun installLancer() {
        val traceDir = filesDir.absolutePath + File.separator + "trace"
        val r = Lancer.getInstance().initialize(
            Build.VERSION.SDK_INT,
            traceDir,
            BuildConfig.DEBUG
        )
        Log.d("TraceApp", "r = $r")
    }
}
复制代码


initialize 方法需要传入三个参数:


  • 获取 Android SDK 版本
  • trace 文件存储目录,存储  trace 文件时使用
  • 是否为 debug 环境,打印日志时使用


在需要记录 trace 日志和关闭 trace 日志的地方进行记录:


Lancer.getInstance().start()
Lancer.getInstance().stop()
复制代码


示例 demo 中演示的是从 application 的 attachBaseContext 就开启 start 日志记录,对于想记录业务模块的话,可自由搭配记录位置。


运行 demo 时,需要在 local.properties 下配置下 ndk 路径,如:


ndk.dir=/Users/mac/Library/Android/sdk/ndk/25.1.8937393

release 包效果:


网络异常,图片无法展示
|

  • 打出 release 包,install 安装,并启动应用
  • 结束应用,导出存储在 sd 卡外置存储目录的 trace 文件

perfetto 效果:

image.png

  • 打开 perfetto ui 网址,将导出的 trace 文件直接拖进即可查看
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
数据采集 网络协议 算法
移动端弱网优化专题(十四):携程APP移动网络优化实践(弱网识别篇)
本文从方案设计、代码开发到技术落地,详尽的分享了携程在移动端弱网识别方面的实践经验,如果你也有类似需求,这篇文章会是一个不错的实操指南。
68 1
|
前端开发 Cloud Native 大数据
坑爹,线上同步近 3w 个用户导致链路阻塞引入发的线上问题,你经历过吗?
坑爹,线上同步近 3w 个用户导致链路阻塞引入发的线上问题,你经历过吗?
|
域名解析 前端开发 安全
搭建一个线上版远程视频聊天
搭建一个线上版远程视频聊天
355 0
搭建一个线上版远程视频聊天
|
Arthas 测试技术
《使用Arthas 抽丝剥茧深入应用-线上诊断利器之外》电子版地址
使用Arthas 抽丝剥茧深入应用-线上诊断利器之外
107 0
《使用Arthas 抽丝剥茧深入应用-线上诊断利器之外》电子版地址
|
Web App开发 JavaScript Linux
急速 debug 实战二(浏览器 - 调试线上篇)
通过前一篇的介绍,我们已经懂得基本的 debug 技巧,那么我们如何快速调试一些线上的问题呢。
急速 debug 实战二(浏览器 - 调试线上篇)
|
存储 消息中间件 NoSQL
服务链路追踪怎么搞?好搞吗?
服务链路追踪怎么搞?好搞吗?
181 0
服务链路追踪怎么搞?好搞吗?
|
视频直播 5G 开发工具
看直播软件源码,如何实现直播系统业务以及技术注意点分析
直播类app越来越受欢迎,互联网企业看到“直播+”的巨大潜力,搭建直播平台也成为大需求,而拥有一套完整的直播软件源码是开发直播软件的基础
看直播软件源码,如何实现直播系统业务以及技术注意点分析
|
缓存 监控 Java
史上最全的高可用服务系统线上问题排查工具单(一)
上一篇文章保证高可用Java服务化系统高效运行的必备工具箱介绍了笔者在互联网公司里线上应急和技术攻关过程中积累的应用层脚本和Java虚拟机命令,这些脚本和命令在发现问题和定位问题的过程中起到关键作用,然而,经常会遇到一些深层次的问题,仅仅通过应用层和JVM虚拟机层的信息无法定位问题和解决问题,这时需要深入研究系统级的各种参数和信息,才能确定问题的根源原因,例如:网络超时、机器负载过高、JVM OOM、JVM和内核Bug等,这篇文章介绍那些重要的Linux基础和监控相关的命令。
3819 0
|
存储 编解码 NoSQL
直播系统搭建:拉流端的三个环节及服务器部署重点
拉流端的三个环节1、 用户想看直播就要去服务器进行拉流,什么是拉流?你打开视频网站,点击视频,你点击视频和视频打开之间的时间段,就是你的客户端去向服务器请求拉流了,这一步要注意的是首屏开启时间,时间越短,观众越有可能被留下。
1313 0