开发者学堂课程【物联网平台实战课程:阿里云 LOT 设备运维——监控报警介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/836/detail/13995
阿里云 LOT 设备运维——监控报警介绍
内容介绍:
一、设备运维监控报警介绍
二、实时监控大盘
三、监控报警规则管理
四、场景联动报警配置
五、监控报警未来展望
一、设备运维监控报警介绍
1.设备运维的定位
首先要了解这部分 LOT 的物联网平台,设备运维以及监控报警它们之间的关系。
(1)什么是上云?它的功能是什么?
物联网平台是服务各产业实体,用于实现数字化,开展业务,从而完成衔接工作的一个设备端。在互联网时代,人们所说的上网是使用PC或者移动设备获得更多的信息。现在我们通常会说上云,上云和上网最大的区别是,上云是强调把业务过程设计的人和物将它数字化,接入到云数字化引擎上。上云的好处是接入数字化引擎之后,可以享受云上更强大、更实惠的服务能力。它让以前做不到的事情变成现实,而且已经成功做到的事情,变得更实惠。它的强大体现不需要高端的设备,拥有强大的计算能力和存储的数据,以及算法能力,这些功能让我们处理业务更便捷。中国有一句谚语“天上一天,地上一年”,这跟我们的云上有点不谋而合。
云上还有另一个优势,它让处理业务变得更简便。体现在服务能力集中化,以及具有成本优势的资源采购。资源的利用率可以通过先进的虚拟化隔离站技术来进行零货资源调配,从而使得它的利用率变高,同时能做到按量付费,避免了浪费。
除了能享受到云上强大且便宜的引擎能力之外,它还可以建立数字化信息通道,减少更多的人力投入,更快的处理好业务。
(2)物联网平台
物联网平台里面有几个主要的功能模块,分为接入连接、建模管理、数据流转。
第一个,是设备接入连接,建立通讯的数据通道。
第二个是核心功能,即设备的建模管理,是定义设备数字化的业务的物模型。是上网上网访问网页所定义的外部标准,有了这些外部标准,才可以开发出不同的网页,完成不同的功能用途,使我们上网时的信息交互变得更便捷。在设备数设备数字化之后,接口会变得更丰富,更标准,更易用,更利于复制,以及形成成行业的统一理解。数字化在上云之后,效率会更高。
第三个是数据流转,它可以完成设备的事件消息流转,可以相关的数据流转到阿里云上面的一些云产品。
(3)设备运维
设备运维是一个横向的模块,没有直接参与主要的运营业务,但仍然会解决较大部分的问题。
首先设备它本身是一个物理的设备,在它的生命周期中,需要一个运行维护,所以说运维能力是一个十分基础且通用的诉求,比如说买车后的保养等维护。设备运维的主要功能有监控报警、 OTA 升级、远程诊断等等。设备运维的功能是比较是细散的,只要有需求,可以去建设。
(4)小结
总结来说,它们的功能总共有两个特点。
第一个特点是数据化。数据一定是可度量的,不能是模糊的,必须要有精确可度量的数据;数据要可视化,可以让用户看到。并且需要根据不同的可视化数据,提供多种可视的形式;同时数据要可分析,可以帮忙预知风险,产生异常的警报。
第二个特点是工具化。数据化是为了发现问题,而工具化则是解决问题。
运维与运行有什么区别呢?运行时的部件是必不可少的,车少了部件就跑不起来了,是属于运行。运维时部件可以少,如果缺少了,就只是跑不快,跑不稳而已。
这一模块主要是说物联网场景的设备与云上之间什么关系,物联网平台是为了解决哪些问题,主要有哪些主要的功能模块,以及设备运维在这里面是一个定位,还有是设备命维会有哪些有特点的功能。如果有需求可以联系我们,我们会帮忙解决,尽可能的满足客户的需求。
2.监控报警简介
监控报警主要介绍产品技术架构。
左边是实际的客户业务设备,在物联网平台连接之后,向上开展自身业务。右边是供几个方面的产品功能。第一个是制定监控大盘,具有一定的策划能力,以及可以配置和管理对应的报警规则和产品功能指标。
第二个有指标数据服务,监控大盘管理,指标管理,以及报警规则管理。他们所产生的数据会被采集,然后进入底层的 LOT 数据平台进行数据分析。 LOT 数据平台具有强大的数据计算分析能力,同时有一个统一云监控平台,它是阿里云统一的监控报警相关的一个基础产品。目前报警通知渠道有钉钉、邮件、短信、电话。
二、实时监控大盘
1.整体简介
针对数据可视化,我们提供了一个产品功能,叫做自定义的监控大盘。
相关技术的同学应该都不陌生这样的图表,并且在很多的地方都有见过,这是为了清晰的看到业务平台上的数据变化。
可以像各种仪表一样,可以根据大家的需求来定制。定制包括数据内容,数据指标参数,以及图表位置。
根据数据指标内容可以划分为设备连接、消息、规则引擎、物模型。设备连接与设备相关的,包括设备的激活数、在线数、上下线次数等等。消息是与上下行消息量,不同协议消息量等情况相关联。规则引擎能记录流转不同云产品的次数、流转数的大小等。物模型与属性设置、服务调用、事件上报的次数及失败量等等相关。物模型在后期会重点突破,因为监控指标还是局限于物模型的几个基础指标,还没有真正定制到专属的物模型。
数据图表的类型有曲线图和排行榜两种。曲线图是反映一个持续变化的指标情况。排行榜是通过 LOT 数据平台分析,得到客户较为关注的数据指标排行情况。 LOT 物流平台上有数据实例,具有较强的数据分析计算的能力。
2.指标图表管理和布局
现在简单介绍一下,如何定制、添加一个图表,怎么来定制它的位置。
(1)添加图表
如果要添加,只要点击添加入口即可。它会将所有可供选择的指标列出来,这里面可以看到有曲线型,排行榜型,还有一类是需要付费的,基础的类型都是免费开放的。
添加监控指标图表,可以多选批量添加,最多支持50个指标。图表一个指标,可以多次添加图标里面,这是因为它每一个指标,它有不同的参数可以供定制的。同一个指标可添加进多个图表的不同位置,可以制定出不同的展示参数。需要注意的是带“数据型”标签的指标只能在数据型实例中使用。
(2)调整布局
添加图表后是调整布局。
在调整指标图表布局时,系统默认4个基础指标图表不允许删除,可以改变位置,拖动图标可进行自由排序。带删除标和开关按钮的图表,是由用户添加,可以进行删除,也可以进行暂时隐藏。每行图表最多50个,目前来说是够用的。
3.指标参数定制
刚刚提到一个指标可以添加多个图表,那么它可以定制的参数有哪些?
第一个是聚合函数选择。同一个指标有不同的聚合函数,可以输出不同的指标值,可以按序来选择。不同指标支持的聚合类型可能不一样,可根据具体选中的指标来判断。
第二个是指标维度下钻。例如指定具体产品,都是默认到当前实例。有些指标有产品维度,默认则将所有产品的指标聚合在一起。如果只想关注某一个产品的指标情况,在这里选择关注产品就完成了。不同指标的维度定义可能不同。
第三个是聚合粒度。是指标聚合的时间粒度。目前是只有1分钟和5分钟两种选择,默认是1分钟。
最后一个是参考阈值设置。它是在设置图标展示时的一个阈值参考红线,这里只是曲线图中的参考线,没有任何报警信息。
针对图表可视化,这是怎么来添加一个图表,调整它的布局,以及定制图表展示的相关参数。
三、监控报警规则管理
1.报警规则配置
(1)怎么设置监控报警?
监控报警设置也很简单,分两个要素。第一个要素是监控报警的条件以及与指标的关系。
这里面有几个要素,首先是数据指标,它有报警指标数据源可供选择,但是排行榜指标不支持。如果已有图表,可以点击图表右上方菜单,可以创建快捷的监控报警。跳转后会自动填充一些已设置过的指标属性。
其次是报警规则名称。其实是设置监控报警规则的业务语义,例如业务增长超过10倍。
第三个是统计字段。跟指标图表输出字段相类似,有些指标输出了多个统计字段,需要选择确认报警的统计字段。
第四个是运算符。除了基础的算术运算符,可以支持像昨天、上周同一时间的百分比变化,以及环比上个探测周期的百分比变化。
第五个是阈值。是根据相关运算符的条件,自己按需来进行设置。
第六个是持续周期。持续周期是指探测周期要连续判断成功几次才会触发报警。可以按需设置。
第七个是数据聚合周期。它与数据指标可视化类似,数据产生的聚合的时间周期粒度是怎样的。
2.报警通知配置
这是与报警通知相关的配置。第一个是报警生效时段,是按每天来的。如晚上睡觉不想被打扰,可以将晚上的时间去除。
第二个是报警沉默周期。即报警触发后多长时间内不再重复通知报警,有点类似于闹钟。
第三个是通知联系人组。即通知对象,是以“云监控”联系人组形式管理。联系人组是云监控提供的概念,云监控是阿里上通用统一的基础的一个产品。也可以通过点击链接进行跳转配置联系人,通过各种方式联系到联系人,有了联系人之后,可以选中需要通知的联审组,选中之后进行报警。
最后一步是报警级别。报警级别其实是用什么样的渠道方式来通知到上面配置的联系人,基本上是四种方式,钉钉机器人、邮件、短信、电话。提到短信和电话,因为涉及到运营商,所以需要收钱,它有一定的免费额度,免费额度用完之后需要自行购买,这是云监控产品边控制的,可以参考云监控产品的定价说明。
3.报警规则管理
创建报警规则后,可以在这里面进行查询、管理、编辑、调整设定、删除等。
四、场景联动报警配置
场景联动报警管理,并不是为了专门为了报警,它是根据物模型以及的一些基础的设备上下线事件而来,提供像引擎一样的能力,去定制一些事件触发规则和执行条件。
当这些条件事件触发之后,条件又满足之后,再可以执行相应的反应,反应里面有一类是可用于报警输出。该板块后面可能会有进行一个优化,因为目前的产品体验不太好,产品目前在新版本里已经不开放了,但企业版还是是可以看到的。让大家了解一下,这里的功能以后一定会支持,但不是以现在的产品功能来支持,因为这部分确实是大家需要的。
1.属性
这里面可以看到它的属性。触发器触发是需要满足条件的,可以是属性触发、事件触发、上下限触发,多条触发规则逻辑关系为“ OR ”,随便哪个条件触发都算。
下一个是执行条件。它与设备的属性状态相关联,多条执行规则的逻辑关系为“ AND ”,执行规则和触发规则的逻辑关系是“ AND ”。
下一个与执行动作相关,是执行报警通知。规则执行动作设为“告警输出”。
最后一个是告警中心关联设置报警通知方式。目前在告警中心里只能记录,不会通知;也只支持钉钉机器人,可通过钉钉机器人推送钉钉消息;告警列表里可以查看和标记报警记录。未来将会有更大的发展进步空间,大家先期待一下吧。
五、监控报警未来展望
在监控方面,未来会有什么样的作为,给大家提前汇报一下。大概会有三个方面:
1.更丰富的数据指标内容
第一个方面是会提供更丰富的数据指标,内容会持续地进行建设。内容方面会覆盖更多的产品功能,前面提到的核心模块里不少的产品功能,以及相关的信息指标,都会去不断的完善。还有一块是会重点提供的是根据物模型制定的相关指标。因为物模型跟业务的关联度最高,也最贴合。
2.更多样的可视化形式
第二块的是会提供更多样的可视化形式,比如说的图表类型,目前只有两种,未来会扩展一些图,满足大家不同的实际需要。也会提供更灵活的透出形式,比如说像移动端、被集成等透出形式都是可以考虑的。
3.更智能的异常识别及通知处理
第三块是会重点关注加强的。我们会提供更智能的异常识别功能以及通知处理能力。异常识别,刚才讲的都是一些固定的,需要手动定制的功能阈值,准确性不够高。目前在建设过程中,会提供一些智能阈值,根据历史指标的数据情况,进行一些算法之类的机器学习,学习之后生成一个动态阈值管理能力,减轻我们的负担。
针对通知和预案,我们需要为用户提供更好的便捷服务。因为发现问题不是目的,解决问题才是。能不能把用户产生的异常解决,减少异常的时间,是十分关键的。
一个是针对预期内的异常,可以定制一些预案,预案不是提供的,是提供这些机制,让用户有备无患。当然异常发生后,可以自动执行相对应的预案,减少业务的影响,避免造成更多的业务损失,
监控报警是按照目前这三个思路来推进。比较重要的是第一个和第三个,我们的发展方向并不局限与这几点,用户真实的业务需求使我们服务的最终目的。