线上Bug照妖镜——应用观测器(App Observer)

简介: 应用观测器(App Observer)是一款代码行级别的实时非阻塞应用调试工具,其动态日志、非阻塞断点与实时Metrics功能可以让你轻松在线上系统完成对问题的排查与实时观测。

(全文约1700字,阅读时间约5分钟)

随着业务的发展,程序逻辑会变得越来越复杂,为了保证线上系统不出 Bug,我们可能做了很多努力。但是,谁又能保证不出线上 Bug 呢?

唉!世界上最痛苦的是:工作还在,奖金没了。只有尽快解决才能挽救年终奖。然而世界上最遥远的距离就是可以调试的本地和出现 Bug 的线上。那么面对一些系统,既不能打断点调试,Bug 又无法在本地复现,我们该如何解决?

接下来,我们就来讨论一下这一富有挑战性的工作。

假如生产环境有个 Bug


调查线上问题,我们首先会借助于 Log、Tracing 和 Metrics。对于简单的报错,查 Log 就能解决。对于复杂的系统调用和逻辑错误,可能要借助于 Tracing 查看上下文。调查性能问题,查看 Metrics 会更有帮助。

如果通过上述手段就已经定位到了问题,是很幸运的。但有时我们会发现关键的位置缺少了日志,没法准确的获知代码运行情况,这会极大阻碍我们清晰的定位问题。

缺少日志只能补上,再发布一次。对于大多数应用系统来说,发布一次的时间成本是不低的,从数分钟到数小时不等。补日志的过程来上几次,要耗费很多心力,同时也要顶住不小的业务侧的压力。所以生产系统上发现了 Bug,找起来通常很不容易。

有没有更好的方法?


和稍有经验的同事讨论,相信他一定会给你推荐 Arthas。Arthas 相比与远程 Debug,对于环境的依赖更少,也不会因为打断点而阻塞业务请求。但是如果你不是一个运维老炮,那当线上问题发生了,求助于Arthas,你可能会发现短时间内不知从何入手,Arthas 大概有30+ 子命令,每个子命令都有一系列的参数。

有没有一款工具,即像远程 Debug 一样操作简便,又像 Arthas 那样对生产环境的要求和影响都比较小?答案是:当然!这款工具正是本文要向大家介绍的应用观测器(App Observer),一款代码行级别的实时非阻塞应用调试工具。



应用观测器(App Observer)


动态日志 —— 即时添加,即时生效


在排查问题时,你是否后悔过当初忘记打印日志?有了动态日志,再也不会有这样的烦恼。动态日志的生效过程,不需要重启应用程序,做到了“即时添加,即时生效”。添加动态日志时,可以使用条件表达式控制日志的打印与否,还可以在日志表达式中观测变量值。在整个过程中,动态日志不会改变原有的代码行数,不影响通过原日志系统排查问题。


非阻塞断点 —— 让你像 Debug 一样排查问题


非阻塞断点在问题排查上,比动态日志跟进一步。最显著的增强点在于可以观测程序的执行堆栈,让程序的调用链路一目了然。此外,在观测变量值方面,可以一步到位,自动观测函数体内的所有变量。所有的观测行为,都不会阻塞程序的执行,真正做到了似断点又非断点。


实时 Metrics —— 清爽易用的性能统计工具


实时 Metrics 用于辅助排查程序的性能问题,不需要添加非业务代码,在保持了程序逻辑清爽的同时,完成了统计观测:

  • 计数器:用于统计某一行代码的执行次数;
  • 方法执行耗时:用于统计函数体的执行耗时;

获取方式


应用观测器(App Observer)是Alibaba Cloud Toolkit for IntelliJ 插件的一部分,已经随着 2021.11.1 版本的插件上架插件市场:https://plugins.jetbrains.com/plugin/11386-alibaba-cloud-toolkit。已经安装 IntelliJ IDEA 的开发者也可以在 IDEA 的插件市场搜索 “Alibaba Cloud Toolkit” 进行安装。

详细的使用方式,可以参考官方的使用文档:https://help.aliyun.com/document_detail/326231.html


未来可期


支持更多的 Platform 和 Runtime


当前应用观测器仅支持 Java 应用,接下来我们会增加更多语言的支持。当前发布版本也仅支持观测运行在 Linux 中的应用服务,后续会逐步支持观测 Windows 下的应用程序。


云端控制台


当前应用观测器采用了插件直连应用的模式,在网络通路上我们借到了 SSH。这需要假设用户有 SSH 访问权限。接下来我们计划提供一个云端服务。有了云端服务后,可以把观测数据给记录下来,绘制成图表,方便用户在较大的时间尺度上了解服务健康状况。同一个应用下不同开发者添加的观测点也可以相互看到,会成为一种运维协作的新方式。


云原生应用平台集成


当前,在首次使用应用观测器时,有一个添加 Java Agent 参数并重启的过程。对于云原生应用来说,应用观测的能力,最好是与生俱来的。所以应用观测器这类工具,势必会成为云原生应用的 Sidecar。我们后续会和 ACK 服务、Serverless 服务、SAE 服务进行集成,让云原生用户能使用上开箱即用的实时应用观测能力。


联系方式


关于应用观测器的任何问题,都可以加入钉钉群(群号:34965379)寻求帮助,后续的新特性也会在钉钉群里进行更新。

此外,也欢迎把您遇到的问题反馈至我们的 Github Issue 空间:https://github.com/alibaba-cloud-toolkit/cloud-toolkit-jetbrains/issues


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
1月前
|
监控 安全 数据可视化
【教程】为什么要为 App 应用加固 ?如何为 App 应用加固 ?
【教程】为什么要为 App 应用加固 ?如何为 App 应用加固 ?
|
2月前
|
iOS开发 开发者
苹果iOS App Store上架操作流程详解:从开发者账号到应用发布
很多开发者在开发完iOS APP、进行内测后,下一步就面临上架App Store,不过也有很多同学对APP上架App Store的流程不太了解,下面我们来说一下iOS APP上架App Store的具体流程,如有未涉及到的部分,大家可以及时咨询,共同探讨。
|
2月前
|
存储 iOS开发 开发者
如何在上架App之前设置证书并上传应用
在上架App之前想要进行真机测试的同学,请查看《iOS- 最全的真机测试教程》,里面包含如何让多台电脑同时上架App和真机调试。
|
2月前
|
安全 开发工具 数据安全/隐私保护
如何将应用程序发布到 App Store
如何将应用程序发布到 App Store
|
2月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
99 0
|
1月前
|
前端开发 Android开发 iOS开发
应用研发平台EMAS使用 aliyun-react-native-push 库接入推送和辅助通道,推送都可以收到,但是在App切到后台或者杀掉进程之后就收不到推送了,是需要配置什么吗?
【2月更文挑战第31天】应用研发平台EMAS使用 aliyun-react-native-push 库接入推送和辅助通道,推送都可以收到,但是在App切到后台或者杀掉进程之后就收不到推送了,是需要配置什么吗?
30 2
|
2月前
|
编解码 供应链 数据安全/隐私保护
2023 年如何将您的应用提交到 App Store
2023 年如何将您的应用提交到 App Store
|
2月前
|
iOS开发 开发者
苹果 iOS App Store 上架操作流程详解:从开发者账号到应用发布
苹果 iOS App Store 上架操作流程详解:从开发者账号到应用发布
|
2月前
|
安全 Linux iOS开发
上传 iOS 应用变得更加容易 - 在 Windows 上架 iOS APP 的工具介绍
上传 iOS 应用变得更加容易 - 在 Windows 上架 iOS APP 的工具介绍
|
2月前
|
Android开发 iOS开发 开发者
点击APP的应用程序图标后,发生了什么
点击APP的应用程序图标后,发生了什么