上云就用云监控-新一代云监控

简介:

2018年4月2号,新一代的云监控正式上线商业化,为阿里云上用户提供功能强大,却简单易用的监控服务。让用户在上云后更放心,让云上的it基础设施更透明。

云监控 产生于阿里云飞天基础监控平台,内部服务于阿里百万级服务器和全球IDC监控。

背景

未来是数字化经济时代,越来越多的企业接受并使用云计算服务,尤其是大企业,会使用包括IAAS,PAAS,SAAS等不同层次的服务。深度使用云计算服务,将给企业带来更高的IT效率,更低的IT成本,并享受云厂商提供的安全,弹性,高质量网络等在传统时代需要极高成本才能获取的价值,从而给企业带来更大的竞争力,使用企业在高竞争时代,更容易胜出。

但企业上云后,资源种类越来越多,资源数越来越多,为满足高可用、低延迟等用户诉求,资源会跨区域分布,节点遍布全国甚至全球,网络拓扑也越来越复杂。同时,资源也越来越不固定,传统物理机被虚拟机,容器,甚至serverless架构取代,原来相对固定的资源也被慢慢不断的弹性伸缩取代,以天猫双11为例,阿里产生数十万的虚拟机,在狂欢过后再回收,极大的提高效率,节省成本。

挑战

上云后,IT优势越来越明显,然而在这些优势下,IT基础设施也变得更加难以清晰掌握,这些资源的背后,在发生什么?系统运行的怎么样?如何快速全面的掌握IT系统的运转情况,实时了解系统发生的事件,及时了解系统瓶颈,变得越来越重要。

也就是说,面对这么复杂多变的it系统,面对各种服务实例的大量指标,事件,用户如何能快速的上手,快速完成监控的覆盖,变得极为重要。

简单易用且全面的监控变得越来越重要。

新一代的阿里云监控: 省时,省力,省心

--- 省时,省力

核心理念:效率,为云上用户提供全面却简单易用的监控服务。

基于云监控,您可以一键开启基础监控覆盖;打开某产品的一键报警开关,就可以为该产品的所有实例,都默认覆盖监控报警,非常便捷。

基于分组和报警模板,将报警模板,批量应用于不同的应用分组,可以快速实现大规模it基础设施的监控配置。

--- 省心

核心理念:全面,让用户可以获得一站式的监控体验。

云监控是云产品云服务的统一的监控入口。云服务的监控指标会在云监控统一汇总,目前汇总的指标包括30多款产品的500+的指标。所有这些指标都支持openapi获取,以集成到用户线下的it系统。在云监控,所有指标都可以在dashboard中配置展示可视化,都可以配置报警,

云监控同时也提供开放的接口,支持用户上报自定义的指标和错误事件。让用户可以将业务指标和系统基础监控整合在一起,提供更全面的监控。

核心理念:场景化解决方案,监控和其他产品深度打通。

云监控产品应用分组已经和包括PTS,云效,容器服务K8S集群,EMR,EHPC,ESS等产品尝试打通,在这些产品的应用,会直接在云监控中创建分组,并产生分组维度的聚合,并支持跨产品的资源加入一个应用分组。

很快,我们还将支持动态化的应用分组,进一步方便用户运维。进而实现运维自动化。

同时,云监控与Function Computer的集成也在进行中。未来基于FC,与云监控的系统事件,将进一步产生化学反应。实现云上的运维自动化。

云监控业务架构视图

阿里云监控致力于打造,面向云上企业级用户的开放的一站式的云监控服务.

image.png | left | 748x419

云监控产品功能集

一站式的面向企业级用户的开放式的云监控服务

Pasted Graphic 1.png | center | 748x457

云监控产品功能截图

app移动端运维周报

通过阿里云app查收运维周报,统计本周使用情况。

image.png | left | 748x425

资源概览

全局资源统计,水位,重要事件,报警概况等。

image.png | left | 748x416

遍布全球的网站监控

覆盖全球20+国家地区的阿里云IDC探测点,覆盖全国绝大多数地市级运营商的lastime的终端探测点。
为用户提供网站可靠性监控,竞品分析,域名劫持发现,互联网故障等高价值服务。

image.png | left | 748x418

只需一步,开启监控

image.png | left | 748x419

总结,新一代云监控的优势:

  • 全面指标丰富,近1000个的系统监控指标,以及越来越多的云系统事件(包括,宕机,hang机,rdsfailover等)
  • 灵活开放的自定义错误事件和指标,支持用户上报错误事件和指标,并支持按业务分组,跟云平台的系统事件统一展示管理
  • 全面开放的api,平台上的所有指标,报警,都可以通过api对接到用户线下的IT系统。
  • 越来越丰富的报警渠道,邮件,旺旺,钉钉,短信,电话,http,MNS,functioncomputer(正在接入中),
  • 一键安装却指标丰富的主机监控,支持准秒级(秒级采集,15秒聚合上报,平衡功能和和性能),进程级监控。
  • 灵活的资源分组, 支持将不同产品不同地域的资源回到一个分组统一管理,实现业务集群级监控管理。
  • 跟其他云服务深度集成,通过分组和pts,arms,云效,容器服务K8S集群,ehpc集群, emr集群等。为其他服务提供集群维度的更易用的监控视角。
  • 一站式的监控功能栈:主机监控,云服务监控,自定义指标,错误事件,站点监控,日志监控(结合阿里云日志服务)
  • 强大的站点监控,遍布全球20个国家地区的探针,覆盖全国约大部分地地市运营商的lastmile探针。

未来:

  1. 基于分组的主子账号授权,跨账号授权。提供企业级资源管理支持。
  2. 打通自动化运维,基于报警打通通知,运维。使更多运维动作自动化,
  3. 提供更高精度的监控指标。
  4. 云监控支持大型化,小型化部署,能够输出所有形态专有云。

云上监控就用云监控

云监控服务了数十万家阿里云的企业级用户,用户在云监控上创建了数以几十万计的监控大盘和应用分组,数以百万的报警规则。

云监控让云更透明,让用户上云更放心。让用户省时、省力、省心。

最后

云监控产品正在快速演进中,已经跟两年前的产品形态大不一样,欢迎过来看看,也欢迎加入云监控用户群,获得更多支持。

image.png | left | 748x987

相关实践学习
RocketMQ监控/告警一站式搭建应用
RocketMQ监控/告警一站式搭建演示
目录
相关文章
|
5天前
|
监控
云监控
云监控
33 1
|
8月前
|
弹性计算 运维 监控
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
414 0
|
存储 消息中间件 Prometheus
基础云监控VS企业云监控
企业云监控是对基础版云监控的增强版本,针对企业客户的各种痛点,提供更丰富的上云监控解决方案
150 1
|
存储 JSON 弹性计算
使用云监控实现本地日志监控
本地日志监控是什么?本地日志监控是指使用云监控的Agent在本地对日志进行格式化处理,然后将处理后的格式化数据上报到云监控的指标仓库。而不用上报原始日志。在本地处理日志(而非上报原日志)有几个重要的理由:1,上报原始日志需要消耗大量的云端存储和网络IO,甚至为了查询还需要创建索引,费用不低;2,部分场景下的原始日志涉及到商业数据,不便上报,如订单信息,客户信息等。本地日志被处理成指标数据上报到指标
669 0
使用云监控实现本地日志监控
|
运维 监控 安全
企业云监控-企业上云的基础监控解决方案
背景经过十多年的发展,云已经成为新数字体验的核心。越来越多的客户上云,客户也从早期的中小站长演变成了今天的真正的企业客户,涵盖了几乎所有行业,新兴的传统的。在企业客户的真实场景中,客户往往拥有海量规模的资源,拥有IaaS,PaaS,SaaS的多层次产品形态,多云,多账号,混合云成为常态企业客户上云后的监控挑战在这种背景下,企业客户上云如何实现对资源的有效管控,正面临着巨大的挑战: 首先是规模和复杂
13382 0
企业云监控-企业上云的基础监控解决方案
|
存储 SQL 机器学习/深度学习
智能巡检云监控指标的最佳实践
在真实的企业生产中,对研发和运维的同学都会面临一个十分繁复且艰难的问题,就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座,看看在算力爆炸的时代能否通过算力和算法一起解决!
914 0
|
弹性计算 JSON 监控
日志服务SLS开放告警接入云监控
阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。
|
SQL 机器学习/深度学习 运维
一站式云原生智能告警运维平台——SLS新版告警发布!
本文介绍什么是云原生可观测性需求以及告警限制,介绍一站式云原生智能告警运维平台——SLS新版告警。
11464 3
一站式云原生智能告警运维平台——SLS新版告警发布!
|
监控 机器人
利用阿里云-云监控对网站进行监控
利用阿里云-云监控对网站进行监控
879 0
利用阿里云-云监控对网站进行监控