开发者社区> 阿里云云原生小助手> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里开源那个牛哄哄问题排查工具竟然不会用?最佳实践来了!

简介: Arthas 官方社区正在举行征文活动,参加即有奖品拿~
+关注继续查看

1594893236094-62c94d20-b801-414c-94d6-558d0003175d.png
作者 | 汪吉

【Arthas 官方社区正在举行征文活动,参加即有奖品拿~点击投稿

一、入门步骤

1. 安装

https://arthas.gitee.io/install-detail.html

上述命令会下载启动脚本文件 as.sh 到当前目录:

curl -L https://alibaba.github.io/arthas/install.sh | sh

or

as.sh 启动:

curl -sk https://arthas.gitee.io/arthas-boot.jar -o ~/.arthas-boot.jar  && echo "alias as.sh='java -jar ~/.arthas-boot.jar --repo-mirror aliyun --use-http'" >> ~/.bashrc && source ~/.bashrc

2. 在线教程体验

https://alibaba.github.io/arthas/arthas-tutorials?language=cn

当然也可以自己本地体验一下~自己通过下载一个 arthas-idea-plugin 的体验 demo 直接本地上手。

https://github.com/WangJi92/arthas-plugin-demo

全局命令说明

  • -x 是展示结果属性遍历深度,默认为 1
  • -n 是执行的次数 ,q 退出
  • -c classloader 的hash值
  • 退出 q ,关闭 stop

3. 了解最常用的trace、watch的功能

watch和trace 是arthas 诊断中对于开发人员解决线上的问题最常用的功能!

trace

基本示例

trace com.wangji92.arthas.plugin.demo.controller.CommonController getRandomInteger -n 5 '1==1'

https://arthas.gitee.io/trace.html

  • 性能优化~
  • 调用的这个方法,走的具体流程是咋样的!可以通过调用链看出来。
  • 有异常了可以查看异常的堆栈。

高级的功能

trace命令只会trace匹配到的函数里的子调用,并不会向下trace多层。因为trace是代价比较贵的,多层trace可能会导致最终要trace的类和函数非常多。

trace -E xxxClassA|xxxClassB method1 | method2

trace -E com.wangji92.arthas.plugin.demo.controller.CommonController|com.wangji92.arthas.plugin.demo.service.ArthasTestService traceE|doTraceE -n 5 '1==1'

watch

https://arthas.gitee.io/watch.html

wathc 从字面上理解就是观察值的信息,可以查看入参、返回值、异常、可以执行表达式获取静态变量、target.xxx调用目标实施的字段、方法等等都行~只要你想得到没有做不到的~

基本示例

watch com.wangji92.arthas.plugin.demo.controller.CommonController traceE '{params,returnObj,throwExp}' -n 5 -x 3 '1==1'

4、arthas 表达式核心变量

public class Advice {
    private final ClassLoader loader;
    private final Class<?> clazz;
    private final ArthasMethod method;
    private final Object target;
    private final Object[] params;
    private final Object returnObj;
    private final Throwable throwExp;
    private final boolean isBefore;
    private final boolean isThrow;
    private final boolean isReturn;
    // getter/setter  
}

从watch 和 trace 中看到 后面的 '1==1' 执行的是一个条件表达式 当值为true 的时候通过执行了一个ognl 表达式 ,watch 观察 params,returnObj,throwExp 入参、返回值、是否异常 这个也是一个表达式,那么这个到底是咋回事?

spring el 表达式

没有学习过ognl 使用多年的spring 一定知道他的el 表达式,el 表达式中也有一种概念叫做【Context 上下文,和表达式】 如下所示,因为有了simple这个上下文 才能解析 "booleanList[0]" 这个脚本的含义~ 这个很熟悉,很好理解,那么ognl 表达式一样不难了。

class Simple {
    public List<Boolean> booleanList = new ArrayList<Boolean>();
}
Simple simple = new Simple();
simple.booleanList.add(true);
StandardEvaluationContext simpleContext = new StandardEvaluationContext(simple);
// false is passed in here as a string. SpEL and the conversion service will
// correctly recognize that it needs to be a Boolean and convert it
parser.parseExpression("booleanList[0]").setValue(simpleContext, "false");
// b will be false
Boolean b = simple.booleanList.get(0);

ognl 表达式

arthas 也是一样的,只是使用了一个叫做ognl的脚本,核心变量就是他的上下文,可以直接获取到这些字段。watch 观察的这几个字段 params,returnObj,throwExp 也就是我们所谓的上下文的概念,观察参数、返回值、和异常的信息。

如下是arthas 源码中 表达式评估和watch 观察值执行的代码!Advice 就是一个上下文,这里还增加了一个变量 const。知道了这些那不是很简单??

com.taobao.arthas.core.advisor.ReflectAdviceListenerAdapter#isConditionMet

/**
     * 判断条件是否满足,满足的情况下需要输出结果
     * @param conditionExpress 条件表达式
     * @param advice 当前的advice对象
     * @param cost 本次执行的耗时
     * @return true 如果条件表达式满足
     */
    protected boolean isConditionMet(String conditionExpress, Advice advice, double cost) throws ExpressException {
        return StringUtils.isEmpty(conditionExpress) ||
                ExpressFactory.threadLocalExpress(advice).bind(Constants.COST_VARIABLE, cost).is(conditionExpress);
    }
    protected Object getExpressionResult(String express, Advice advice, double cost) throws ExpressException {
        return ExpressFactory.threadLocalExpress(advice)
                .bind(Constants.COST_VARIABLE, cost).get(express);
    }

表达式实践

arthas 群经常有人问重载方法如何判断,无非就是评估条件? 参数的个数、第一个参数是什么?返回值的类型等等都可以作为你评估的条件。如下的watch 前面的一段是观察的值、后面这一段是表达式评估 ,满足了条件才执行。

入参长度大于0

watch com.wangji92.arthas.plugin.demo.controller.CommonController traceE '{params,returnObj,throwExp}' -n 5 -x 3 'params.length >0'

返回值为String 且长度大于5

watch com.wangji92.arthas.plugin.demo.controller.CommonController traceE '{params,returnObj,throwExp}' -n 5 -x 3 'returnObj instanceof java.lang.String && returnObj.length>5'

条件表达式+异步任务

  • 只有特定的场景才会有bug ,如何排查bug?
  • 一天只出现一两次如何解决?

条件表达式主要是用来过滤使用,比如某些场景只是在特定的参数才会出现,肯能会花费很多的时间去等待,这个时候可以使用条件表达式过滤 +异步任务更多参考博客

5、ognl 表达式

https://arthas.gitee.io/ognl.html 从上面看,ognl 在watch、trace上面无所不能啊,其实还有tt 也是 使用ognl 表达式执行逻辑的. @xxxClas@xxxStaticField 是静态变量的语法糖 ognl的,好好看一下官方的文档。OGNL特殊用法请参考:https://github.com/alibaba/arthas/issues/71

获取静态变量

静态变量由于 一个jvm 中可能被多个classloader加载,jvm 认定为一个实例是一个classloader加载哦,所以需要知道当前静态类的hash 值(sc -d com.wangji92.arthas.plugin.demo.controller.StaticTest)可以通过这个命令获取。

ognl  -x  3 '@com.wangji92.arthas.plugin.demo.controller.StaticTest@INVOKE_STATIC_DOUBLE' -c e374b99

调用spring 方法?

watch 执行ognl 语法中获取spring context 然后进行调用bean的方法

watch -x 3 -n 1  org.springframework.web.servlet.DispatcherServlet doDispatch '@org.springframework.web.context.support.WebApplicationContextUtils@getWebApplicationContext(params[0].getServletContext()).getBean("commonController").getRandomInteger()'

ognl 执行静态的一个spring context 然后调用bean 的方法

ognl -x 3 '#springContext=@com.wangji92.arthas.plugin.demo.common.ApplicationContextProvider@context,#springContext.getBean("commonController").getRandomInteger()' -c e374b99

有没有起飞的感觉,无所不能!前提是你要掌握一些ognl的一些简单的语法!

6、完毕

对于线上排查问题,我感觉这几个命令够你用了,还有一些其他的反编译、火焰图、.. 时间隧道、logger 等级修改,jvm环境信息等等感觉是有频率都没有上面的高,毕竟jvm信息有专门的监控~即使没有arthas 你也可以找到更好的工具去分析堆栈,jvm故障。

一些特殊的用户案列值得学习思考: https://github.com/alibaba/arthas/issues?q=label%3Auser-case

完了?
啊?这么多命令 记不住啊 还有一些高级的ognl的语法凉了... 让你获取一下所有的spring的环境变量咋办?trace、watch 这两个命令我还没有体验够呢?更加高级的让我如何是好啊!好了,请看下文。

二、进阶

前提

前提是你对于arthas 有了大概的理解,基本上的命令都有点概念了,ognl 简单的语法能够看懂了.. 简单的条件表达式会用了。 之前我们所过arthas的命令这么多 要记住小本本少不了啊!难受想哭~ 不要急,汪小哥来给你解决问题!

目前Arthas 官方的工具还不够足够的简单,需要记住一些命令,特别是一些扩展性特别强的高级语法,比如ognl获取spring context 为所欲为,watch、trace 不够简单,需要构造一些命令工具的信息,因此只需要一个能够简单处理字符串信息的插件即可使用。当在处理线上问题的时候需要最快速、最便捷的命令,因此arthas idea 插件还是有存在的意义和价值的。

arthas idea plugin

这个插件的意义不是处理协议层面的问题,主要解决命令生成的问题,由于工程在idea 里面管理,你想想你要watch 哪个类,这个插件是知道的,帮助你更方便、更加快捷的构建命令。使用arthas idea 插件 这一点一定要理解哦!主要解决你如何构造命令的问题! 更多查看文档

2.png

解决的问题

  • spring 环境变量优先级问题
  • 获取静态变量
  • 火焰图集成
  • logger 命令集成
  • 反编译集成
  • trace -E 集成
  • tt 集成

....... 基本上你能够在arths 上面看到的功能都集成到了这个上面!直接在idea 里面搜索arths idea 即可安装。

常用特殊用法问题

静态变量

可以直接获取 ognl 获取

ognl  -x  3 '@com.wangji92.arthas.plugin.demo.controller.StaticTest@INVOKE_STATIC_DOUBLE' -c e374b99

可以通过watch 获取 (光标放置在字段上)

watch com.wangji92.arthas.plugin.demo.controller.StaticTest * '{params,returnObj,throwExp,@com.wangji92.arthas.plugin.demo.controller.StaticTest@INVOKE_STATIC_DOUBLE}' -n 5 -x 3 '1==1'

一般的变量

可以通过spring context.getBean().field 获取(这个是要配置一个静态的spring context 看使用文档)

tt 、watch 也是可以的哦~ 一样的原理

ognl -x 3 '#springContext=@com.wangji92.arthas.plugin.demo.common.ApplicationContextProvider@context,#springContext.getBean("staticTest").filedValue' -c e374b99

watch 获取 放置在字段上即可

watch com.wangji92.arthas.plugin.demo.controller.StaticTest * '{params,returnObj,throwExp,target.filedValue}' -n 5 -x 3 'method.initMethod(),method.constructor!=null || !@java.lang.reflect.Modifier@isStatic(method.method.getModifiers())'

选择的配置项的值

springContext.getEnvironment() (这个是要配置一个静态的spring context 看使用文档)

ognl -x 3 '#springContext=@com.wangji92.arthas.plugin.demo.common.ApplicationContextProvider@context,#springContext.getEnvironment().getProperty("custom.name")' -c e374b99

获取所有的配置项的值

watch 获取spring context tt 、static 也是可以的哦~ 一样的原理

watch -x 3 -n 1  org.springframework.web.servlet.DispatcherServlet doDispatch '#springContext=@org.springframework.web.context.support.WebApplicationContextUtils@getWebApplicationContext(params[0].getServletContext()),#allProperties={},#standardServletEnvironment=#propertySourceIterator=#springContext.getEnvironment(),#propertySourceIterator=#standardServletEnvironment.getPropertySources().iterator(),#propertySourceIterator.{#key=#this.getName(),#allProperties.add("                "),#allProperties.add("------------------------- name:"+#key),#this.getSource() instanceof java.util.Map ?#this.getSource().entrySet().iterator.{#key=#this.key,#allProperties.add(#key+"="+#standardServletEnvironment.getProperty(#key))}:#{}},#allProperties'

视频

有兴趣可以看一下视频~ 操作起来更流畅,基本上不用记忆啥。 arthas 入门到精通最佳实践

三、更多

还想了解更多关于arthas-idea-plugin 的内容可以联系我 可以通过 右键查看arthas-idea-help 找到代码地址和使用说明文档,更重要的是提一下好的idea 让arthas的使用更加的方便哦!插件地址: https://plugins.jetbrains.com/plugin/13581-arthas-idea

Arthas 征文活动火热进行中

Arthas 官方正在举行征文活动,如果你有:

  • 使用 Arthas 排查过的问题
  • 对 Arthas 进行源码解读
  • 对 Arthas 提出建议
  • 不限,其它与 Arthas 有关的内容

欢迎参加征文活动,还有奖品拿哦~点击投稿

阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的公众号。”

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云企业版实例迁移工具最佳实践
本文整理自IoT事业部-产品解决方案架构师一澄,在物联网平台存量设备如何一键迁移企业版实例的分享。本篇内容主要分为两个部分: 1.企业实例迁移的背景与挑战 2.阿里云企业实例迁移工具详解
308 0
受Prometheus启发的开源日志工具:Loki
提及日志收集搜索框架,最常看到的解决方案就是 **ELK**。虽然现在有 Docker、k8s 帮我们简化了部署流程,但 **ELK** 对硬件的要求却很高。光是 **Elasticsearch** 官网就提及到需要 8 GB 内存以上的机器部署,可见占据的资源之多。为了能降本增效(**穷~~~**),在网上看到了 Grafana 团队的日志框架: **Loki**。为此进行了深入的了解并应用在了一些项目上。
281 0
阿里云视频点播转码多场景化最佳实践
在面对不同行业用户丰富的转码场景需求时,如何将用户偏向自身业务特性的定制化需求通用化、产品化并赋予给其他用户使用?这是点播转码一直在思考并努力去解决的,本文由阿里云视频点播技术团队张立磊撰写,讲述视频点播针对多种业务场景提供的适应多场景化的转码处理方案,如何实现将用户定制化的场景需求进行抽象提取,最终以适用于其他点播用户的同样或类似的业务场景需求。
4371 0
sklearn调包侠之学习曲线和Pipeline
今天不单独讲解某个机器学习算法,而是讲解机器学习中常用的工具或者说是方法。一是绘制学习曲线,看模型的好坏程度(过拟合还是欠拟合);而是减少代码量,利用pipeline构造算法流水线。
1842 0
Bean Validation 介绍及最佳实践
关于 Bean Validation 在任何时候,当你要处理一个应用程序的业务逻辑,数据校验是你必须要考虑和面对的事情。 应用程序必须通过某种手段来确保输入进来的数据从语义上来讲是正确的。
1154 0
阿里快速展现工具QuickBI
阿里的展现工具包括:快速展现工具QuickBI和大屏制作工具DataV。 当然QuickBI工具的使用和之前介绍的smartbi,FineBI,等产品类似,进行借鉴。
2246 0
【视频点播最佳实践】视频点播播放异常排查
阿里云视频点播是集音视频采集、编辑、上传、自动化转码处理、媒体资源管理、分发加速、视频播放于一体的一站式音视频点播解决方案。但是对于使用者来说经常遇到的问题即是视频点播中的视频如何对外提供服务,并且当播放出现异常时如何进行排查呢?本文主要从该方面为大家介绍视频点播的播放方式和异常排查。
7351 0
阿里古谦:阿里互联网架构的6大最佳实践
本文根据阿里中间件首席架构钟华(花名:古谦)在“云栖大会上海峰会”专场《“互联网+”架构及实践专场-企业级信息系统云化演进之路》中的演讲整理。钟华在演讲中主要为大家介绍了阿里技术架构发展概况,以及在阿里在构建互联网级系统架构的6大最佳实践。
11853 0
vss报错Workgroup无法访问,您可能没有权限使用网络资源解决办法
xp下访问svn或者vss的时候只能使用ip进行访问表示很不爽,昨天还好好的,结果就不能使用计算机名字去访问了。 很是郁闷,打开网上邻居之后发现,居然连网上邻居都搜不出来,于是关掉windows自带防火墙,顺利访问ok。
822 0
开源工具
 第1章 闲话开源社区篇 第2章 web框架篇  2.1 struts  2.2 spring  2.
1011 0
+关注
1725
文章
0
问答
来源圈子
更多
阿里云 云原生应用平台 肩负阿里巴巴集团基础设施云化以及核心技术互联网化的重要职责,致力于打造稳定、标准、先进的云原生产品,成为云原生时代的引领者,推动行业全面想云原生的技术升级,成为阿里云新增长引擎。商业化产品包括容器、云原生中间件、函数计算等。
+ 订阅
相关文档: 应用高可用服务 AHAS Prometheus监控 应用实时监控服务 ARMS
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载