用数据灭火 ——如何积极主动预防故障,避免IT消防演练

简介:

IT部门作为基础设施提供者的传统角色正受到云服务提供商、紧缩预算以及新数字业务战略技术需求的挑战,且这些挑战不会自动消失。随着企业对移动设备和云服务的采用,对新型高效IT服务的需求也在不断增加。

这种需求几乎不容许有犯错的余地。企业需要快速可靠地获取此类新的IT服务。任何延误和故障都可能导致企业丧失竞争优势甚至影响收入。IT部门必须学会更具战略性的思维,否则就会卡在传统的运维方式上。

新常态:IT成为业务伙伴

我们已步入新的服务交付时代,IT部门必须发展成为商业计划的主动合作伙伴。这是一个转变,要求IT部门提高运维效率,为战略性、创收型和客户导向型业务释放各类资源。而且这种转变必须快速发生:Gartner最近的一次首席信息官(CIO)调查显示,CIO们正在努力了解各项业务重点,以便宣布和实施数字化转型。CIO们正在转变投资模式以应对数字业务。到2018年,投资增长预计将高达44%,从而推动实现数字生态系统的业务目标。

这个转变虽然不简单,却颇有价值。这是提高IT部门声誉并与业务重点协调一致的好机会。这需要IT部门通过信息管理和分析获得新的应用和业务洞察力,发挥业务加速器职能。

IT部门如何实现这一转变?

转变IT运维的关键是利用来自整个基础设施不断增长的海量数据,从服务和业务角度做出基于事实的决策。离开数据驱动的见解,就很难准确测量服务绩效。

此外,无论是虚拟服务器和网络,还是安全和用户支持,IT部门都必须从整体上考虑以成功交付业务服务。这种整体观使得包括IT部门和业务部门在内的所有信息消费者都能够从所提供的服务和最终用户体验方面看到整体绩效。结果是什么?IT部门可以在危机发生之前预见到相关问题。也可以化被动为主动,并提供商业用户所需的服务情报。

什么是服务情报?

IT部门采取全面主动的方式离不开服务情报,后者具有三个主要特征:

1. 对与业务有关指标的测量和报告

2. 通过收集和关联IT竖井上的数据,解锁运维效率

3. 使用数据分析提供业务洞察力并推动决策

以下是查看服务情报三要素的另一种方式。


鉴于IT基础架构所产生数据的复杂性,交付服务情报需要具备下列能力的高级软件

能从任何系统和应用自动收集数据

结合数据过滤和统计引擎以实行预测分析,并推动问题解决和故障排除

使任何人,无论是业务用户还是IT人员,都可以生成可视化和仪表板

通过非程序员轻松定制,启用衡量关键绩效指标(KPI)的特定服务仪表板

具备从可视化中钻取数据的能力以了解背景和详细信息

是时候转变了

随着新的数字服务的发展,数据驱动洞察力和决策以及竞争灵活性需要对IT的角色进行根本重塑,IT部门正处于转型的十字路口。IT部门的关注点必须从传统的基础设施运维和反应式防火演练转向主动服务管理和智能化。

这一演变的一个重要环节是IT人员通过使用新的数据驱动软件开展价值创造活动。 主动型IT部门必须能够提供端到端的服务情报和报告、跨IT竖井自动收集和分析数据的工具,通过数据和机器学习实现智能化的可定制可视化和仪表板功能。





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
目录
相关文章
|
运维 监控 测试技术
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。
|
安全 关系型数据库 MySQL
【网络安全】护网系列-应急响应排查
【网络安全】护网系列-应急响应排查
541 0
|
运维 监控
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
363 0
|
运维 NoSQL 容器
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
247 0
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘
312 0
|
缓存 运维 监控
IT硬件故障的主要原因和预防的最佳实践
企业组织面临的超过 45% 的网络中断完全是由于硬件故障造成的,因此 24x7 全天候监控硬件至关重要
373 0
IT硬件故障的主要原因和预防的最佳实践
|
数据采集 数据可视化 安全
预防山体滑坡安全监测系统
滑坡泥石流是地质灾害中的重要组成部分,我国地质和地理环境复杂,气候条件时空差异大,地质灾害种类动、分布广、危害大,是世界上地质灾害最严重的国家之一。河北稳控科技充分利用在滑坡监测方面的技术积累,建立了一套科学完善的滑坡监测预警平台,实现了滑坡防治管理的科学化、信息化、标准化和可视化。为防灾减灾决策提供科学依据。
预防山体滑坡安全监测系统
|
运维 数据库
故障定位方法-磁盘故障定位手段
常见的磁盘故障是磁盘空间不足、磁盘出现坏块、磁盘未挂载等。 磁盘故障有的会导致文件系统损坏,比如磁盘未挂载,集群管理自动定期做磁盘检测时会识别故障并将实例停止,查看集群状态时对应实例状态异常;有的不会导致文件系统损坏,比如磁盘空间不足,集群管理无法检测到,服务进程访问到故障磁盘会异常退出,比如:数据库无法启动、checksum校验不对、页面读写失败、页面校验错误等。 对于会导致文件系统损坏的故障,查看集群状态会显示对应实例状态持续为Unknown,定位方法如下: 查看cm_agent日志,日志保存在mpp/omm/cm/cm_agent,日志中会有类似“data path disc wri
393 0
电脑主板最易故障
电脑主板最易故障
141 0
|
传感器 安全 物联网
五种常见的智能工厂安全风险以及如何补救它们
维护组织、客户和员工的数据安全是一项挑战。智能技术带来了帮助流程更平稳运行的功能。然而,如果没有正确的安全措施,所有收集的数据都是无用的。下面,您将发现五种常见的安全风险以及如何补救它们。
519 0
五种常见的智能工厂安全风险以及如何补救它们