阿里云 LOT 设备运维——监控报警介绍|学习笔记

本文涉及的产品
云监控,每月短信1000条
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习阿里云 LOT 设备运维——监控报警介绍。

开发者学堂课程【物联网平台实战课程:阿里云 LOT 设备运维——监控报警介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/836/detail/13995


阿里云 LOT 设备运维——监控报警介绍

 

内容介绍:

一、设备运维监控报警介绍

二、实时监控大盘

三、监控报警规则管理

四、场景联动报警配置

五、监控报警未来展望

 

一、设备运维监控报警介绍

1.设备运维的定位

首先要了解这部分 LOT 的物联网平台,设备运维以及监控报警它们之间的关系。

(1)什么是上云?它的功能是什么?

物联网平台是服务各产业实体,用于实现数字化,开展业务,从而完成衔接工作的一个设备端。在互联网时代,人们所说的上网是使用PC或者移动设备获得更多的信息。现在我们通常会说上云,上云上网最大的区别是,上云是强调把业务过程设计的人和物将它数字化,接入到云数字化引擎上。的好处是接入数字化引擎之后,可以享受云上更强大、更实惠的服务能力。它让以前做不到的事情变成现实,而且已经成功做到的事情,变得更实惠。它的强大体现不需要高端的设备,拥有强大的计算能力和存储的数据,以及算法能力,这些功能让我们处理业务更便捷。中国有一句谚语“天上一天,地上一年”,这跟我们的云上有点不谋而合。

云上还有另一个优势,它让处理业务变得更简便。体现在服务能力集中化,以及具有成本优势的资源采购。资源的利用率可以通过先进的虚拟化隔离站技术来进行零货资源调配,从而使得它的利用率变高,同时能做到按量付费,避免了浪费。

除了能享受到云上强大且便宜的引擎能力之外,它还可以建立数字化信息通道,减少更多的人力投入,更快的处理好业务。

2)物联网平台

物联网平台里面有几个主要的功能模块,分为接入连接、建模管理、数据流转。

image.png

第一,是设备接入连接,建立通讯的数据通道。

第二个是核心功能,即设备的建模管理,是定义设备数字化的业务的物模型。是上网上网访问网页所定义的外部标准,有了这些外部标准,才可以开发出不同的网页,完成不同的功能用途,使我们上网时的信息交互变得更便捷。在设备数设备数字化之后,接口会变得更丰富,更标准,更易用,更利于复制,以及形成成行业的统一理解。数字化上云之后,效率会更高。

第三个是数据流转,它可以完成设备的事件消息流转,可以相关的数据流转到阿里云上面的一些云产品。

3)设备运维

设备运维是一个横向的模块,没有直接参与主要的运营业务,但仍然会解决较大部分的问题。

首先设备它本身是一个物理的设备,在它的生命周期中,需要一个运行维护,所以说运维能力是一个十分基础且通用的诉求,比如说买车后的保养等维护。设备运维的主要功能有监控报警、 OTA 升级、远程诊断等等。设备运维的功能是比较是细散的,只要有需求,可以去建设。

(4)小结

总结来说,它们的功能总共有两个特点。

第一个特点是数据化。数据一定是可度量的,不能是模糊的,必须要有精确可度量的数据;数据要可视化,可以让用户看到。并且需要根据不同的可视化数据,提供多种可视的形式;同时数据要可分析,可以帮忙预知风险,产生异常的警报。

第二个特点是工具化。数据化是为了发现问题,而工具化则是解决问题。

运维与运行有什么区别呢?运行时的部件是必不可少的,车少了部件就跑不起来了,是属于运行。运维时部件可以少,如果缺少了,就只是跑不快,跑不稳而已。

这一模块主要是说物联网场景的设备与云上之间什么关系,物联网平台是为了解决哪些问题,主要有哪些主要的功能模块,以及设备运维在这里面是一个定位,还有是设备命维会有哪些有特点的功能。如果有需求可以联系我们,我们会帮忙解决,尽可能的满足客户的需求。

2.监控报警简介

监控报警主要介绍产品技术架构。

image.png

左边是实际的客户业务设备,在物联网平台连接之后,上开展自身业务。右边是供几个方面的产品功能。第一个是制定监控大盘,具有一定的策划能力,以及可以配置和管理对应的报警规则和产品功能指标。

第二个有指标数据服务,监控大盘管理,指标管理,以及报警规则管理。他们所产生的数据会被采集,然后进入底层的 LOT 数据平台进行数据分析。 LOT 数据平台具有强大的数据计算分析能力,同时有一个统一云监控平台,它是阿里云统一的监控报警相关的一个基础产品。目前报警通知渠有钉钉、邮件、短信、电话。

 

二、实时监控大盘

1.整体简介

针对数据可视化,我们提供了一个产品功能,叫做自定义的监控大盘。

相关技术的同学应该都不陌生这样的图表,并且在很多的地方都有见过,这是为了清晰的看到业务平台上的数据变化。

可以像各种仪表一样,可以根据大家的需求来定制。定制包括数据内容,数据指标参数,以及图表位置。

image.png

根据数据指标内容可以划分为设备连接、消息、规则引擎、物模型。设备连接与设备相关的,包括设备的激活数、在线数、上下线次数等等。消息是与上下行消息量,不同协议消息量等情况相关联。规则引擎能记录流转不同云产品的次数、流转数的大小等。物模型与属性设置、服务调用、事件上的次数及失败量等等相关。物模型在后期会重点突破,因为监控指标还是局限于物模型的几个基础指标,还没有真正定制到专属的物模型。

数据图表的类型有曲线图和排行榜两种。曲线图是反映一个持续变化的指标情况。排行榜是通过 LOT 数据平台分析,得到客户较为关注的数据指标排行情况。 LOT 物流平台上有数据实例,具有较强的数据分析计算的能力。

2.指标图表管理和布局

现在简单介绍一下,如何定制、添加一个图表,怎么来定制它的位置。

(1)添加图表

如果要添加,只要点击添加入口即可。它会将所有可供选择的指标列出来,这里面可以看到有曲线型,排行榜型,还有一类是需要付费的,基础的类型都是免费开放的。

image.png

添加监控指标图表,可以多选批量添加,最多支持50个指标图表一个指标,可以多次添加图标里面,这是因为它每一个指标,它有不同的参数可以供定制的。同一个指标可添加进多个图表的不同位置,可以制定出不同的展示参数。需要注意的是带“数据型”标签的指标只能在数据型实例中使用。

(2)调整布局

添加图表后是调整布局。

在调整指标图表布局时,系统默认4个基础指标图表不允许删除,可以改变位置,拖动图标可进行自由排序。带删除标和开关按钮的图表,是由用户添加,可以进行删除,也可以进行暂时隐藏。每行图表最多50个,目前来说是够用的。

3.指标参数定制

刚刚提到一个指标可以添加多个图表,那么它可以定制的参数有哪些?

第一个是聚合函数选择。同一个指标有不同的聚合函数,可以输出不同的指标值,可以按序来选择。不同指标支持的聚合类型可能不一样,可根据具体选中的指标来判断。

第二个是指标维度下钻。例如指定具体产品,都是默认到当前实例。有些指标有产品维度,默认则将所有产品的指标聚合在一起。如果只想关注某一个产品的指标情况,在这里选择关注产品就完成了。不同指标的维度定义可能不同。

第三个是聚合粒度。是指标聚合的时间粒度。目前是只有1分钟和5分钟两种选择,默认是1分钟。

最后一个是参考阈值设置。它是在设置图标展示时的一个阈值参考红线,这里只是曲线图中的参考线,没有任何报警信息。

针对图表可视化,这是怎么来添加一个图表,调整它的布局,以及定制图表展示的相关参数。

 

三、监控报警规则管理

1.报警规则配置

1)怎么设置监控报警?

image.png

监控报警设置也很简单,分两个要素。第一个要素是监控报警的条件以及与指标的关系。

这里面有几个要素,首先是数据指标,它有报警指标数据源可供选择,但是排行榜指标不支持。如果已有图表,可以点击图表右上方菜单,可以创建快捷的监控报警。跳转后会自动填充一些已设置过的指标属性。

其次是报警规则名称。其实是设置监控报警规则的业务语义,例如业务增长超过10倍

第三个是统计字段。跟指标图表输出字段相类似,有些指标输出了多个统计字段,需要选择确认报警的统计字段。

第四个是运算符。除了基础的算术运算符,可以支持像昨天、上周同一时间的百分比变化,以及环比上个探测周期的百分比变化。

第五个是阈值。是根据相关运算符的条件,自己按需来进行设置。

第六个是持续周期。持续周期是指探测周期要连续判断成功几次才会触发报警。可以按需设置。

第七个是数据聚合周期。它与数据指标可视化类似,数据产生的聚合的时间周期粒度是怎样的。

2.报警通知配置

image.png

这是与报警通知相关的配置。第一个是报警生效时段,是按每天来的。如晚上睡觉不想被打扰,可以将晚上的时间去除。

第二个是报警沉默周期。即报警触发后多长时间内不再重复通知报警,有点类似于闹钟。

第三个是通知联系人组。即通知对象,是以“云监控”联系人组形式管理。联系人组是云监控提供的概念,云监控是阿里上通用统一的基础的一个产品。也可以通过点击链接进行跳转配置联系人,通过各种方式联系到联系人,有了联系人之后,可以选中需要通知的联审组,选中之后进行报警。

最后一步是报警级别。报警级别其实是用什么样的渠道方式来通知到上面配置的联系人,基本上是四种方式,钉钉机器人、邮件、短信、电话。提到短信和电话,因为涉及到运营商,所以需要收钱,它有一定的免费额度,免费额度用完之后需要自行购买,这是云监控产品边控制的,可以参考云监控产品的定价说明。

3.报警规则管理

创建报警规则后,可以在这里面进行查询、管理、编辑、调整设定、删除等。

 

四、场景联动报警配置

场景联动报警管理,并不是为了专门为了报警,它是根据模型以及的一些基础的设备上下线事件而来,提供像引擎一样的能力,去定制一些事件触发规则和执行条件。

当这些条件事件触发之后,条件又满足之后,再可以执行相应的反应,反应里面有一类是可用于报警输出。该板块后面可能会有进行一个优化,因为目前的产品体验不太好,产品目前在新版本里已经不开放了,但企业版还是是可以看到的。让大家了解一下,这里的功能以后一定会支持,但不是以现在的产品功能来支持,因为这部分确实是大家需要的。

1.属性

这里面可以看到它的属性。触发器触发是需要满足条件的,可以是属性触发、事件触发、上下限触发,多条触发规则逻辑关系为“ OR ”,随便哪个条件触发都算。

下一个是执行条件。它与设备的属性状态相关联,多条执行规则的逻辑关系为“ AND ”,执行规则和触发规则的逻辑关系是“ AND ”。

下一个与执行动作相关,是执行报警通知。规则执行动作设为“告警输出”。

 image.png

最后一个是告警中心关联设置报警通知方式。目前在告警中心里只能记录,不会通知;也只支持钉钉机器人,可通过钉钉机器人推送钉钉消息;告警列表里可以查看和标记报警记录。未来将会有更大的发展进步空间,大家先期待一下吧。

 

五、监控报警未来展望

在监控方面,未来会有什么样的作为,给大家提前汇报一下。大概会有三个方面:

1.更丰富的数据指标内容

第一个方面是会提供更丰富的数据指标,内容会持续地进行建设。内容方面会覆盖更多的产品功能,前面提到的核心模块里不少的产品功能,以及相关的信息指标,都会去不断的完善。还有一块是会重点提供的是根据模型制定的相关指标。因为模型跟业务的关联度最高,也最贴合。

2.更多样的可视化形式

第二块的是会提供更多样的可视化形式,比如说的图表类型,目前只有两种,未来会扩展一些图,满足大家不同的实际需要。也会提供更灵活的透出形式,比如说像移动端、被集成等透出形式都是可以考虑的。

3.更智能的异常识别及通知处理

第三块是会重点关注加强的。我们会提供更智能的异常识别功能以及通知处理能力。异常识别,刚才讲的都是一些固定的,需要手动定制的功能阈值,准确性不够高。目前在建设过程中,会提供一些智能阈值,根据历史指标的数据情况,进行一些算法之类的机器学习,学习之后生成一个动态阈值管理能力,减轻我们的负担。

针对通知和预案,我们需要为用户提供更好的便捷服务。因为发现问题不是目的,解决问题才是。能不能把用户产生的异常解决,减少异常的时间,是十分关键的。

一个是针对预期内的异常,可以定制一些预案,预案不是提供的,是提供这些机制,让用户有备无患。当然异常发生后,可以自动执行相对应的预案,减少业务的影响,避免造成更多的业务损失,

监控报警是按照目前这三个思路来推进。比较重要的是第一个和第三个,我们的发展方向并不局限与这几点,用户真实的业务需求使我们服务的最终目的。

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
相关文章
|
1月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全方位实践
本文深入探讨了构建高效运维体系的关键要素,从监控、日志管理、自动化工具、容器化与微服务架构、持续集成与持续部署(CI/CD)、虚拟化与云计算以及安全与合规等方面进行了全面阐述。通过引入先进的技术和方法,结合实际案例和项目经验,为读者提供了一套完整的运维解决方案,旨在帮助企业提升运维效率,降低运营成本,确保业务稳定运行。
|
2月前
|
运维 Prometheus 监控
OceanBase 的运维与监控最佳实践
【8月更文第31天】随着分布式数据库解决方案的需求日益增长,OceanBase 作为一种高性能的分布式数据库系统,在众多场景下得到了广泛应用。为了确保 OceanBase 集群的稳定运行,合理的运维与监控是必不可少的。本文将探讨 OceanBase 的日常运维管理与监控策略,并提供相应的代码示例。
118 2
|
3天前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
8天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
23 1
|
13天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
14天前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
1月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
76 6
阿里云日常运维-购买服务器
|
1月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
1月前
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践指南
在当今数字化时代,企业对运维(Operations)的需求日益增长。运维不仅仅是保持系统运行那么简单,它涉及到监控、日志管理、故障排除、性能优化和自动化等多个层面。本文将从实际操作的角度出发,详细探讨如何构建一个高效的运维体系。通过具体案例,我们将了解不同运维工具和方法的应用,以及它们是如何帮助企业提高生产效率和降低运营风险的。无论你是刚接触运维的新手,还是经验丰富的专家,这篇文章都将为你提供宝贵的参考和启示。
|
23天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的实践之路
在当今信息技术飞速发展的时代,运维作为保障企业信息系统稳定运行的关键环节,其重要性日益凸显。本文将探讨如何通过构建高效的运维体系,实现从被动响应到主动预防的转变,以及如何利用自动化工具提升运维效率和质量。我们将从运维的基本概念出发,逐步深入到监控、自动化和安全管理等方面,为企业提供一套实用的运维优化方案。
46 0

热门文章

最新文章