阿里云智能巡检管家特点优势与应用场景

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 作为阿里云云平台告警信息与监控的统一门户,铜雀专注于智能化巡检及问题诊断,是阿里云SRE混合云TAM和驻场服务团队日常工作中的首要工具。它能将TAM和驻场服务团队从日常繁琐的巡检工作中解放出来,将精力投入到更有价值的客户服务中去,通过打通云平台侧、租户侧及应用侧的信息,辅助应用运维及优化,并通过工具化手段提升现场问题分析定位的能力和速度。

作为阿里云云平台告警信息与监控的统一门户铜雀专注于智能化巡检及问题诊断,是阿里云SRE混合云TAM和驻场服务团队日常工作中的首要工具。它能将TAM和驻场服务团队从日常繁琐的巡检工作中解放出来,将精力投入到更有价值的客户服务中去,通过打通云平台侧、租户侧及应用侧的信息,辅助应用运维及优化,并通过工具化手段提升现场问题分析定位的能力和速度。


1 主要服务及功能


铜雀主要为客户、业务应用开发商、TAM、驻场提供以下服务:


  • 客户:了解云平台的健康状况和资源使用情况,通过对历史发展趋势的分析,发现可能的资源缺口和扩容需求
  • 业务应用开发商:通过铜雀分析可能导致线上应用问题的原因或提供排查方向
  • TAM:通过铜雀发现云平台或业务应用所存在的风险和问题,并跟进处理
  • 驻场:使用铜雀简化日常的运维类工作,并提升工作效率。比如:一键巡检、驻场日报自动生成、白屏化分析工具等

目前铜雀版本已经演进到V3944版本,建议使用企业版专有云V3.6或以上版本的用户都升级到此版本。V2版本现已停止开发,只做维护与支持。不同版本支持的功能点差异如下图所示:
_
图1:铜雀版本功能差异


2 应用场景


铜雀主要有如下一些典型的应用场景。


2.1 驻场巡检


通过将巡检动作标准化、白屏化、自动化,避免了人工巡检操作可能带来的风险,降低了对驻场人员的技能要求,提升了现场人员的工作效率。
_
图2:巡检结果


2.2 线上线下协同


日常巡检结果通过二维码或驻场日报回传,后端诊断分析并推送给客户,使客户实时了解云平台运行情况。


2.3 业务应用分析


以业务应用的角度对系统指标进行分析,发现业务系统存在的问题或瓶颈,辅助应用进行优化及问题排查。
_
图3:业务应用分析


2.4 云平台总览


用户可通过Dashboard页面总览云平台的资源及健康状态。
_
图4:云平台总览


2.5 自动化任务执行


驻场人员可根据各局点的业务特点,灵活定制各种任务的执行时间,从繁复的人肉巡检工作中解脱出来。
_
图5:自动化任务执行


2.6 插件化的升级方式


不依赖专有云大版本的发布周期,可独立实现功能升级,通过系统的快速迭代,满足对运维工作的需求。


2.7 白屏自升级


风险较小,升级操作复杂度更低,相对于黑屏升级可避免很多误操作。


2.8 智能诊断


通过简单快捷的搜索导航,将常用的基础信息整合在一起,结合日常运维高频使用的工具和监控图表,实现对日常问题排查诊断的提效,减少运维人员频繁在多个控制台进行切换,降低黑屏操作风险。
_
图6:智能诊断效果展示


2.9 日志清理


日志清理是在定时任务的基础上,开发的一个基于模板配置的日志清理功能,可基于多种配置策略清理云产品的日志,大大减少日常运维工作中的黑屏手动清理变更数量。
_
图7:日志清理效果展示


铜雀目前作为专有云企业版的标准输出产品,已经能够100%覆盖V3平台的局点。目前铜雀的功能主要是以巡检为中心,后续将逐渐将故障应急、高频变更、问题诊断能力补充上来,并将铜雀的基础能力开放出来,使产品、驻场、TAM等人员的经验不断沉淀到系统中,打造以铜雀为中心的运维生态圈。


云服务器ECS地址:阿里云·云小站

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
27天前
|
弹性计算 人工智能 运维
云产品评测|告别传统运维挑战!阿里云OS控制台引领智能管理新时代
阿里云OS控制台是专为运维人员设计的高效管理工具,旨在提升用户体验和简化操作流程。它不仅集成了OS Copilot等智能助手,还提供了系统诊断、订阅管理和AI组件等功能,支持API、SDK、CLI等多种管理方式。通过该平台,用户可以轻松纳管服务器、监控健康状态、执行故障排查,并享受针对阿里云环境优化的运维体验。整体而言,阿里云OS控制台为运维工作带来了极大的便利与效率提升。
|
27天前
|
机器学习/深度学习 人工智能 运维
AI赋能运维:实时警报管理的新时代
AI赋能运维:实时警报管理的新时代
49 8
|
1月前
|
人工智能 运维 监控
阿里云WAAP方案新升级:更智能、更高效、更易用
阿里云WAAP方案全新升级,涵盖Web防护、BOT管理和API安全三大领域,旨在应对数字化转型中的企业安全挑战。通过多引擎联合决策降低误报/漏报,增强BOT对抗能力,提升API安全的实时性和灵活性,助力企业实现更智能、高效、易用的安全防护。本次升级由阿里云安全专家魏根慧分享,针对当前网络攻击态势和企业合规、数据泄露等核心问题,提供全面解决方案。
42 11
|
2月前
|
人工智能 数据挖掘 BI
高效解决排班难题,从手动到自动的全流程升级
在现代企业中,排班管理是人力资源的重要组成部分,涉及合理分配工作、满足业务需求、提升员工满意度及合规性与成本控制等多个方面。传统手动排班因变量多、效率低等问题,难以满足需求。智能排班工具如板栗看板、Deputy、Zoho People、Humanity 和 Shiftboard 的出现,通过自动化和智能化手段,有效解决了这些难题,提升了排班的效率和准确性。选择合适的工具,可以显著提高HR工作的效能,实现事半功倍的效果。
150 13
高效解决排班难题,从手动到自动的全流程升级
|
3月前
|
数据采集 机器学习/深度学习 运维
智能运维在IT服务管理中的实践与挑战####
本文深入探讨了智能运维(AIOps)在现代IT服务管理中的应用,通过分析其如何提升效率、预测故障并优化资源分配,阐述了智能运维的实施策略与面临的主要挑战。不同于传统摘要,本部分旨在直接概述文章的核心观点与结论,为读者提供快速了解全文主旨的窗口。
|
3月前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
87 6
|
6月前
|
监控 安全 Cloud Native
公司监控电脑效率升级:精细化选择与应用
在竞争激烈的商业环境中,高效的员工表现对企业成功至关重要。为此,选用合适的电脑监控方案变得尤为重要。Libera Networks LAN/WAN Manager 提供云原生监控服务,能快速适应企业变化并集成最新威胁情报,但成本较高。WorkWin 是一款优秀的国产监控软件,提供全方位监控功能与个性化策略配置,加之深入的数据分析及严格的数据安全保障。SentinelOne 则专注于端点安全,能有效防御各种威胁,但配置较复杂。OsMonitor 能准确监测员工活动,提供灵活的监控策略及直观的报表功能。这些工具帮助企业提升工作效率的同时,兼顾了安全与隐私。
188 0
智能、高效、便捷问题定位利器 —— 应用诊断分析平台 ATP 上线
一款分析功能丰富、诊断能力完备的平台,帮助用户高效定位应用诊断性能、异常行为等问题。
智能、高效、便捷问题定位利器 —— 应用诊断分析平台 ATP 上线
|
弹性计算 运维 监控
全新升级|ECS成熟度评估与洞察,助你精准定位运维风险
3 月 22 日,阿里云宣布 CloudOps(云上自动化运维)套件全新升级,并发布了 CloudOps 云上自动化运维白皮书 2.0 版本。随着本次产品升级,阿里云推出了配套的智能化产品方案,即“ECS 成熟度评估与洞察(ECS Insight)”,它基于用户的 ECS 多维度的使用数据,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。
全新升级|ECS成熟度评估与洞察,助你精准定位运维风险
|
关系型数据库 RDS
《TcpRT:阿里云RDS智能诊断系统云上大规模部署自动化服务的客户实践经验》电子版地址
TcpRT:阿里云RDS智能诊断系统云上大规模部署自动化服务的客户实践经验
219 0
《TcpRT:阿里云RDS智能诊断系统云上大规模部署自动化服务的客户实践经验》电子版地址