如何具备P7般的线上诊断能力

简介:

近日,阿里巴巴低调上线了线上诊断神器 Arthas(阿尔萨斯),Github上线不到一周,star数达2550+,可见其实用性和在开发者群体中的受欢迎程度非同一般。有开发者提到,Arthas是魔兽世界的主角之一,阿里的线上监控诊断利器有点像Arthas的武器霜之哀伤,非常实用,因此获得了不少魔兽粉丝的点赞,小编觉得除了霜之哀伤,日用品一词也挺适合来形容Arthas的,这不,在Twitter上都火了,日用品这东西中美开发者都需要。

_2018_09_21_4_38_31

| Arthas能为你做什么:

当你遇到以下类似问题而束手无策时,你看到了这篇文档,看到了 Arthas,那么恭喜你,你朝正确的方向又迈了一大步。

  1. 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
  2. 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
  3. 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
  4. 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
  5. 是否有一个全局视角来查看系统的运行状况?
  6. 有什么办法可以监控到JVM的实时运行状态?

Arthas 是基于 Greys 进行二次开发的全新在线诊断工具,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,让你在定位、分析诊断问题时看每一个操作都看起来是那么的 666。

| Arthas有哪些特性:

  • 全新的Dashboard,让你一目了然的了解当前Java进程的运行状态
  • 良好的交互体验,通过Tab键自动补全,自动提示
  • 支持thread命令查看当前线程运行情况,并且查看指定线程当前的运行堆栈
  • 支持classloader命令查看当前的classloader的继承关系
  • 支持jad命令反编译class功能
  • 输出结果自适应窗口大小
  • 全平台支持,支持Windows/Mac/Linux
  • 引入全新的UI框架,优化结果展示,看起来更加清爽,同样大小的区域可以展示更多的内容

_2018_09_21_4_40_40

相关文章
|
16天前
|
弹性计算 运维 监控
云服务诊断方案介绍
云服务诊断是阿里云提供的免费运维工具,支持查看云资源的健康状态和实时诊断问题,如网站无法访问、ECS故障等,提供详细修复建议,提升业务可靠性和可用性。用户反馈积极,有效减少故障排查时间,提高工作效率。建议增加诊断结果导出、优化报告可视化及扩展支持实例类型。
|
3月前
|
云安全 安全 API
2024 年 CSPM 产品该具备哪些能力?
云安全态势管理(CSPM)是一种持续管理IaaS和PaaS安全态势的解决方案,通过预防、检测和响应云基础设施风险来保障安全。CSPM应用通用框架、监管要求和企业政策,主动或被动地发现和评估云服务配置风险,并提供修复选项。例如,若阿里云OSS服务被错误地设置为公共读写权限,CSPM会检测出这种不当配置并提供修复建议。CSPM的核心功能包括实时配置检测、基于上下文的优先级排序、多云支持及自动修复选项,帮助企业及时发现并解决配置不当问题。
147 1
2024 年 CSPM 产品该具备哪些能力?
|
3月前
|
存储 运维 监控
什么是运维自动化巡检中心,优势有哪些?
IT运维自动化通过将大量重复性工作转化为自动化操作,实现“零延时”运维,提高运维的主动性和准确性,降低技术人员工作强度。自动化巡检则将手动巡检转变为自动化形式,全面深度检测设备状态,补充监控无法覆盖的范围。其优势包括巡检对象多样、自定义巡检计划和区域、多种通知方式及高效执行,有效提升巡检效率,降低人为失误风险,确保业务稳定运行。
153 0
|
4月前
|
机器学习/深度学习 人工智能 运维
提升数据中心效率的关键:智能运维策略与实践
【7月更文挑战第39天】 在数字化时代,数据中心作为企业信息系统的心脏,其运行效率直接关系到企业的业务连续性和竞争力。本文将探讨如何通过智能运维(AIOps)策略来优化数据中心的性能,降低运营成本,并提高服务质量。我们将分析当前数据中心面临的挑战,介绍智能运维的基本概念,以及实施智能运维时需要考虑的关键因素。最后,本文将提供一系列实用的智能运维实践案例,帮助读者理解如何将这些策略应用于实际工作中。
|
6月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在故障预测与自愈系统中的应用
【6月更文挑战第13天】本文探讨了人工智能技术在现代IT运维领域的应用,着重分析了AI如何通过数据分析和机器学习算法实现故障预测和自动化修复。文章将揭示智能运维系统的工作机制,以及它如何帮助企业减少停机时间,提高服务稳定性,并最终推动业务连续性和增长。
|
7月前
|
机器学习/深度学习 人工智能 运维
智能化运维:基于AI的系统异常检测与自动修复策略
【5月更文挑战第29天】 在现代IT基础设施管理领域,智能化运维正逐步成为推动效率和稳定性的关键因素。本文深入探讨了人工智能(AI)技术在系统异常检测和自动化故障修复中的应用,提出了一个集成的智能运维框架。该框架利用机器学习算法分析历史数据,实时监控关键性能指标,并在检测到潜在问题时触发自动化修复流程。通过这一方法,我们旨在降低人工干预的需求,提高系统的可靠性和业务连续性。
|
7月前
|
机器学习/深度学习 运维 监控
如何构建应用智能运维系统的核心能力
【5月更文挑战第25天】面对日益复杂的信息系统,企业需建立具备全景监控和智能运维能力的 Application Performance Management (APM) 系统,以保障数字化体验和应用可用性。
智能、高效、便捷问题定位利器 —— 应用诊断分析平台 ATP 上线
一款分析功能丰富、诊断能力完备的平台,帮助用户高效定位应用诊断性能、异常行为等问题。
智能、高效、便捷问题定位利器 —— 应用诊断分析平台 ATP 上线
|
架构师 测试技术 定位技术
【业务架构】获得正确业务能力的 12 项必备措施
【业务架构】获得正确业务能力的 12 项必备措施
|
架构师 算法 大数据
测试架构需要具备哪些能力
如果是一个简单的软件系统,没有太多用户使用,也没有较为复杂的业务逻辑,那架构设计几乎是不需要的。为什么呢?一般来说用户少意味着操作场景较少,没有高并发场景,也没有复杂的业务逻辑,只要功能正确实现可以正常使用即可。
测试架构需要具备哪些能力