每一起严重事故背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。—— 海恩法则(Heinrich‘s Law)
随着云计算时代的到来,大量企业将自己的业务逐步迁移上云。云计算的弹性,让IT资源购买、扩容等更简单。许多企业,已经不要花费巨大的人工时间,投入在IDC、服务器、网卡等物理资源的购买、扩容、升级等等。
但随着信息时代的发展,业务在线化,业务系统服务客户规模更大,系统的稳定变得更加重要。一旦出现故障,运维人员无法提前预警、以及无法最快时间内寻找出问题,极易影响到业务,造成巨大损失。
面对庞大的业务系统、多样的服务模块、海量的日志与监控信息、极致的业务需求等,如何构建企业的快速、自动化、智能化、全周期的智能运维与预警系统,已经是企业竞争力的一部分。
因此,越来越多的企业开始搭建属于自己的智能运维平台,力图减轻运维人员的负担,以及更智能的故障预警、更快的响应。尤其是在这个业务上云的时代,企业运维平台的价值密集一直在升级,许多企业已经从基础的资源购买维护中,升级到对业务价值的提升上。
由于泛日志类数据的利用与分析,正在成为企业竞争力的一部分。研究报告表明,泛日志类机器数据和规模快速增长,企业需要通过更加智能的运维平台,来为业务提供参考。加之业务系统的时间价值密度逐渐加大,系统服务的客户指数级增长,业务系统的复杂度和集群规模变得越大,因此一个稳定、高效且实惠的智能运维平台逐渐成为一个企业安身立命的根本。
但是在搭建智能运维平台时,我们又经常会遇到以下几个挑战:
1、海量日志,如何快速分析告警:比如千亿、万亿条日志,如何实时查询分析?如何确保实时稳定写入?
2、系统复杂,数十个维度的数据,如何更高效地多维度分析?
3、如何抽丝剥茧,从中找的最重要的信息?比如,Error日志有几万条,如何找到重要信息?
4、海量日志长周期保存和处理流转:从实时数据到历史数据,如何满足不同的分析模式和存储要求?
阿里云在这些年服务阿里巴巴经济体、以及阿里云客户时,也遇到过许多这类的问题。阿里云通过不断打磨,推出了阿里云日志服务SLS,助力客户构建智能运维平台。
在9月18号云栖大会上,阿里云智能高级产品专家铧剑为大家带来了题为《云时代的智能运维平台日志服务,助力企业创新迭代》的分享,在分享中详细地介绍了阿里云日志服务SLS,是如何为用户提供一站式的日志采集、告警、存储、分析以及可视化的能力,帮助企业的技术运维人员在云时代,能够基于SLS构建自己的智能运维平台,快速分析系统状态、洞察业务,助力企业的快速迭代和业务创新。
阿里云日志服务SLS,具备以下几个优势:
1、 秒级实时分析和告警:千亿条日志中,秒级返回10亿条记录
2、 多维度数据联合分析能力:并提供高维查询、实时分析、定时任务、可视化能力
3、 更深入细节洞察:从秒级细节、异常点位AI检测、数据聚类来助力抽丝剥茧,发现重要信息
这些能力,帮助客户对Logging、Metric、Tracing数据进行统一采集存储分析,满足业务监控、日志分析、安全审计等要求,轻松解决如何快速、多维、深入细节分析的挑战。
同时,SLS提供全周期的数据流转能力,近期新发布的数据加工、数据投递,可支持不同的分析模式、周期要求。利用数据加工,企业可以根据不同的分析要求,对数据进行规整、ETL。而利用数据投递,企业可以满足不同时间周期的数据处理方式、保存方式的数据流转要求。
因此在这个业务上云的时代,我们需要更智能的运维平台,帮助我们的业务平稳、智能、高效地运行。我们坚信,基于阿里云日志服务SLS搭建,企业的智能运维平台,能真正帮助到企业进行业务价值的创新迭代,助力企业客户的业务,更稳定且快速地发展。