Android卡顿优化 | 自动化卡顿检测方案与优化(AndroidPerformanceMonitor / BlockCanary)

简介: Android卡顿优化 | 自动化卡顿检测方案与优化(AndroidPerformanceMonitor / BlockCanary)

本文要点

  • 为何需要自动化检测方案
  • 自动卡顿检测方案原理
  • 看一下Looper.loop()源码
  • 实现思路
  • AndroidPerformanceMonitor实战
  • 基于AndroidPerformanceMonitor源码简析
  • 接下来我们讨论一下方案的不足
  • 自动检测方案优化

项目GitHub

为何需要自动化检测方案

  • 前面提到过的系统工具只适合线下针对性分析,无法带到线上!
  • 线上及测试环节需要自动化检测方案

方案原理

  • **源于Android的消息处理机制;

一个线程不管有多少Handler,只会有一个Looper存在,
主线程中所有的代码,都会通过Looper.loop()执行;**

  • **loop()中有一个mLogging对象,

它在每个Message处理前后都会被调用:**

  • **如果主线程发生卡顿,

一定是在dispatchMessage执行了耗时操作!**Handler机制图

**由此,我们便可以通过 mLogging对象
dispatchMessage执行的时间进行监控;**

看一下Looper.loop()源码

    public static void loop() {
        final Looper me = myLooper();
        if (me == null) {
            throw new RuntimeException("No Looper; Looper.prepare() wasn't called on this thread.");
        }
        final MessageQueue queue = me.mQueue;

        // Make sure the identity of this thread is that of the local process,
        // and keep track of what that identity token actually is.
        Binder.clearCallingIdentity();
        final long ident = Binder.clearCallingIdentity();

        // Allow overriding a threshold with a system prop. e.g.
        // adb shell 'setprop log.looper.1000.main.slow 1 && stop && start'
        final int thresholdOverride =
                SystemProperties.getInt("log.looper."
                        + Process.myUid() + "."
                        + Thread.currentThread().getName()
                        + ".slow", 0);

        boolean slowDeliveryDetected = false;

        for (;;) {
            Message msg = queue.next(); // might block
            if (msg == null) {
                // No message indicates that the message queue is quitting.
                return;
            }

            // This must be in a local variable, in case a UI event sets the logger
            final Printer logging = me.mLogging;
            if (logging != null) {
                logging.println(">>>>> Dispatching to " + msg.target + " " +
                        msg.callback + ": " + msg.what);
            }

            final long traceTag = me.mTraceTag;
            long slowDispatchThresholdMs = me.mSlowDispatchThresholdMs;
            long slowDeliveryThresholdMs = me.mSlowDeliveryThresholdMs;
            if (thresholdOverride > 0) {
                slowDispatchThresholdMs = thresholdOverride;
                slowDeliveryThresholdMs = thresholdOverride;
            }
            final boolean logSlowDelivery = (slowDeliveryThresholdMs > 0) && (msg.when > 0);
            final boolean logSlowDispatch = (slowDispatchThresholdMs > 0);

            final boolean needStartTime = logSlowDelivery || logSlowDispatch;
            final boolean needEndTime = logSlowDispatch;

            if (traceTag != 0 && Trace.isTagEnabled(traceTag)) {
                Trace.traceBegin(traceTag, msg.target.getTraceName(msg));
            }

            final long dispatchStart = needStartTime ? SystemClock.uptimeMillis() : 0;
            final long dispatchEnd;
            try {
                msg.target.dispatchMessage(msg);
                dispatchEnd = needEndTime ? SystemClock.uptimeMillis() : 0;
            } finally {
                if (traceTag != 0) {
                    Trace.traceEnd(traceTag);
                }
            }
            if (logSlowDelivery) {
                if (slowDeliveryDetected) {
                    if ((dispatchStart - msg.when) <= 10) {
                        Slog.w(TAG, "Drained");
                        slowDeliveryDetected = false;
                    }
                } else {
                    if (showSlowLog(slowDeliveryThresholdMs, msg.when, dispatchStart, "delivery",
                            msg)) {
                        // Once we write a slow delivery log, suppress until the queue drains.
                        slowDeliveryDetected = true;
                    }
                }
            }
            if (logSlowDispatch) {
                showSlowLog(slowDispatchThresholdMs, dispatchStart, dispatchEnd, "dispatch", msg);
            }

            if (logging != null) {
                logging.println("<<<<< Finished to " + msg.target + " " + msg.callback);
            }

            // Make sure that during the course of dispatching the
            // identity of the thread wasn't corrupted.
            final long newIdent = Binder.clearCallingIdentity();
            if (ident != newIdent) {
                Log.wtf(TAG, "Thread identity changed from 0x"
                        + Long.toHexString(ident) + " to 0x"
                        + Long.toHexString(newIdent) + " while dispatching to "
                        + msg.target.getClass().getName() + " "
                        + msg.callback + " what=" + msg.what);
            }

            msg.recycleUnchecked();
        }
    }
  • 里边有一个for循环,

会不断地读取消息队列队头进行处理:

  • 处理之前,会调用logging.println()执行之后再次调用我们可以从打印日志的前缀来判断Message处理的开始结束

实现思路

  • **通过Looper.getMainLooper().setMessageLogging();

来设置我们自己的Logging;
这样每次Message处理的前后,
调用的就是我们自己的Logging;**

  • **如果匹配到>>>>> Dispatching

我们就可以执行一个代码,
即在指定的阈值时间之后,
在子线程中开始执行一个【获取当前子线程的堆栈信息以及当前的一些场景信息(如内存大小、变量、网络状态等)】的任务;

如果匹配到<<<<< Finished
则说明在指定的阈值时间内,Message被执行完成,没有发生卡顿,
那便将这个任务取消掉;**

AndroidPerformanceMonitor实战

  • AndroidPerformanceMonitor原理:便是上述的实现思路和原理;
  • **特性1:非侵入式的性能监控组件

可以用通知的方式 弹出卡顿信息,同时用logcat打印出关于卡顿的详细信息;
可以检测所有线程中执行的任何方法,又不需要手动埋点,
设置好阈值等配置,就“坐享其成”,等卡顿问题“愿者上钩”!!**

  • 特性2:方便精确,可以把问题定位到代码的具体某一行!!!

【方案的不足 以及框架源码解析 在下面实战之后总结!!】


实战开始---------------------------------------------------

在Application进行初始化,
BlockCanary.install(this, new AppBlockCanaryContext()).start();
第一个参数是上下文
第二个参数是需要传入一个Block的配置类实例【BlockCanaryContext类实例或者其子类实例】:**

public class TestApp extends Application {

    @Override
    public void onCreate() {
        super.onCreate();
        ...

        //AndroidPerformanceMonitor测试
        BlockCanary.install(this, new AppBlockCanaryContext()).start();

    }
}    
  • **AppBlockCanaryContext是我们自定义的类,

配置了BlockCanary的各种信息,
代码较多,可以看下GitHub,这里就不贴全部代码了~
下面两个配置方法分别是
给出一个uid,可以用于在上报时上报当前的用户信息
第二个是自定义卡顿的阈值时间,过了阈值便认为是卡顿,
这里指定的是500ms;**

    /**
     * Implement in your project.
     *
     * @return user id
     */
    public String provideUid() {
        return "uid";
    }

    /**
     * Config block threshold (in millis), dispatch over this duration is regarded as a BLOCK. You may set it
     * from performance of device.
     *
     * @return threshold in mills
     */
    public int provideBlockThreshold() {
        return 500;
    }
  • **接着在MainActivityonCreate()中,

让主线程沉睡两秒(2000ms > 设定的阈值500ms);**

  • **运行时,因为主线程停滞时间超过既定阈值,

组件会认为其卡顿并且弹出通知!!
当然Android8.0以后比较麻烦,
因为notificationManager需要配置Channel等才能用,
或者允许后台弹出界面桌面上便会出现这个图标:进去之后就可以看到了相应的信息了:当然,我们可以在logcat中定位关键词blockInfo
看到同样的详细的信息:如上,
Block框架打印出来了【当前子线程的堆栈信息以及当前的一些场景信息(如内存大小、变量、网络状态等)】,
time-starttime-end时间间隔又可以知道阻塞的时间,如上图展示出来的,正是我们设置的2秒!!!!
也可以看到uid键的值 便是我们刚刚设定的字符串“uid”
同时还直接帮我们定位到卡顿问题的出处!!!**

**可见得BlockCanary已然
成功检测到 卡顿问题的各种具体信息了!!!**


基于AndroidPerformanceMonitor源码简析

由于篇幅原因,笔者把以下解析内容提取出来单独作一篇博客哈~

目录
1. 监控周期的 定义
2. dump模块 / 关于.log文件
3. 采集堆栈周期的 设定
4. 框架的 配置存储类 以及 文件系统操作封装
5. 文件写入过程(生成.log文件的源码)
6. 上传文件
7. 设计模式、技巧
8. 框架中各个主要类的功能划分



接下来我们讨论一下方案的不足

  • 不足1:确实检测到卡顿,但获取到的卡顿堆栈信息可能不准确;
  • **不足2:和OOM一样,最后的打印堆栈只是表象,不是真正的问题;

我们还需要监控过程中的一次次log信息来确定原因;
【假设初始方案,整个监控周期只采集一次】
如上图,
假设主线程
时间点T1(Message分发、处理前)T2(Message分发、处理后)之间的时间段中发生了卡顿,
卡顿检测方案是在T2时刻
也就是 阻塞时间完全结束 (前提是T2-T1大于阈值,确定了是卡顿问题)的时刻,
方案才开始获取卡顿堆栈的信息

实际发生卡顿(如发生违例耗时处理过程)的时间点
可能是在这个时间段内,而非获取信息的T2点,
那有可能,
耗时操作时间段内,即在T2点之前就已经执行完成了,
T2点获取到的可能不是卡顿发生的准确时刻,
也就是说T2时刻获取到的信息,不能够完全反映卡顿的现场
最后的T2点的堆栈信息只是表象,不能反映真正的问题;

我们需要缩小采集堆栈信息的周期,进行高频采集,详细如下;**

自动检测方案优化

  • 优化思路:获取监控周期内的多个堆栈,而不仅是一个;
  • **主要步骤:

startMonitor开始监控(Message分发、处理前),
接着高频采集堆栈!!!
阻塞结束,Message分发、处理后,前后时间差——阻塞时间超过阈值,即发生卡顿,便调用endMonitor(Message分发、处理后);
记录 高频采集好的堆栈信息 到文件中;【具体源码解析见上面解析部分(另一篇博客)】
在合适的时机上报给服务器;【相关方案以及源码解析见上面解析部分(另一篇博客)】**

  • **如此一来,

便能更清楚地知道在整个卡顿周期(阻塞开始到结束;Message分发、处理前到后)之内,
究竟是哪些方法在执行,哪些方法执行比较耗时;
优化卡顿现场不能还原的问题;**

  • 新问题:面对 高频卡顿堆栈信息的上报、处理,服务端有压力;

    • 突破点:一个卡顿下多个堆栈大概率有重复;
    • **解决:对一个卡顿下的堆栈进行hash排重,

找出重复的堆栈;**

  • 效果:极大地减少展示量,同时更高效地找到卡顿堆栈;





参考:

相关文章
|
2月前
|
数据采集 监控 API
告别手动埋点!Android 无侵入式数据采集方案深度解析
传统的Android应用监控方案需要开发者在代码中手动添加埋点,不仅侵入性强、工作量大,还难以维护。本文深入探讨了基于字节码插桩技术的无侵入式数据采集方案,通过Gradle插件 + AGP API + ASM的技术组合,实现对应用性能、用户行为、网络请求等全方位监控,真正做到零侵入、易集成、高稳定。
530 44
|
2月前
|
移动开发 JavaScript 应用服务中间件
【06】优化完善落地页样式内容-精度优化-vue加vite开发实战-做一个非常漂亮的APP下载落地页-支持PC和H5自适应提供安卓苹果鸿蒙下载和网页端访问-优雅草卓伊凡
【06】优化完善落地页样式内容-精度优化-vue加vite开发实战-做一个非常漂亮的APP下载落地页-支持PC和H5自适应提供安卓苹果鸿蒙下载和网页端访问-优雅草卓伊凡
295 5
【06】优化完善落地页样式内容-精度优化-vue加vite开发实战-做一个非常漂亮的APP下载落地页-支持PC和H5自适应提供安卓苹果鸿蒙下载和网页端访问-优雅草卓伊凡
|
3月前
|
存储 消息中间件 人工智能
【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡
【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡
302 10
【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡
|
7月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
728 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
7月前
|
数据采集 前端开发 JavaScript
深挖navigator.webdriver浏览器自动化检测的底层分析
本文详细讲解了如何通过技术手段破解浏览器 `navigator.webdriver` 检测,结合爬虫代理、多线程等策略,在豆瓣图书页面批量采集数据。具体包括:隐藏 Selenium 特征、配置代理突破 IP 限制、设置伪装用户、利用多线程提升效率。文章面向初学者,提供分步教程与示例代码,同时设有「陷阱警告」帮助规避常见问题。目标是从底层实现反检测,高效采集图书评分、简介、作者等信息,适合具备 Python 和 Selenium 基础的读者实践学习。
311 12
深挖navigator.webdriver浏览器自动化检测的底层分析
|
6月前
|
机器学习/深度学习 Kubernetes 监控
Kubernetes 节点故障自愈方案:结合 Node Problem Detector 与自动化脚本
本文深入探讨了Kubernetes节点故障自愈方案,结合Node Problem Detector(NPD)与自动化脚本,提供技术细节、完整代码示例及实战验证。文章分析了硬件、系统和内核层面的典型故障场景,指出现有监控体系的局限性,并提出基于NPD的实时事件捕获与自动化诊断树的改进方案。通过深度集成NPD、设计自动化修复引擎以及展示内核死锁恢复的实战案例,文章详细说明了自愈流程的实现步骤与性能优势。此外,还提供了生产环境部署指南、高可用架构设计及安全防护措施,并展望了机器学习增强故障预测和混沌工程验证的进阶优化方向。全文约1.2万字,适合希望提升Kubernetes集群稳定性的技术人员阅读。
382 2
|
9月前
|
JavaScript Linux 网络安全
Termux安卓终端美化与开发实战:从下载到插件优化,小白也能玩转Linux
Termux是一款安卓平台上的开源终端模拟器,支持apt包管理、SSH连接及Python/Node.js/C++开发环境搭建,被誉为“手机上的Linux系统”。其特点包括零ROOT权限、跨平台开发和强大扩展性。本文详细介绍其安装准备、基础与高级环境配置、必备插件推荐、常见问题解决方法以及延伸学习资源,帮助用户充分利用Termux进行开发与学习。适用于Android 7+设备,原创内容转载请注明来源。
2382 77
|
8月前
|
数据采集 JSON 网络安全
移动端数据抓取:Android App的TLS流量解密方案
本文介绍了一种通过TLS流量解密技术抓取知乎App热榜数据的方法。利用Charles Proxy解密HTTPS流量,分析App与服务器通信内容;结合Python Requests库模拟请求,配置特定请求头以绕过反爬机制。同时使用代理IP隐藏真实IP地址,确保抓取稳定。最终成功提取热榜标题、内容简介、链接等信息,为分析热点话题和用户趋势提供数据支持。此方法也可应用于其他Android App的数据采集,但需注意选择可靠的代理服务。
360 11
移动端数据抓取:Android App的TLS流量解密方案
|
7月前
|
缓存 编解码 Android开发
Android内存优化之图片优化
本文主要探讨Android开发中的图片优化问题,包括图片优化的重要性、OOM错误的成因及解决方法、Android支持的图片格式及其特点。同时介绍了图片储存优化的三种方式:尺寸优化、质量压缩和内存重用,并详细讲解了相关的实现方法与属性。此外,还分析了图片加载优化策略,如异步加载、缓存机制、懒加载等,并结合多级缓存流程提升性能。最后对比了几大主流图片加载框架(Universal ImageLoader、Picasso、Glide、Fresco)的特点与适用场景,重点推荐Fresco在处理大图、动图时的优异表现。这些内容为开发者提供了全面的图片优化解决方案。
306 1
|
8月前
|
数据采集 JavaScript 前端开发
浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现
本文介绍了如何构建一个反检测爬虫以爬取Amazon商品信息。通过使用`undetected-chromedriver`规避自动化检测,修改`navigator.webdriver`属性隐藏痕迹,并结合代理、Cookie和User-Agent技术,实现稳定的数据采集。代码包含浏览器配置、无痕设置、关键词搜索及数据提取等功能,同时提供常见问题解决方法,助你高效应对反爬策略。
748 1