背景:
本实践是以化工业的安全生产为背景,随着工业企业的日益大型化和复杂化,非正常事件(下称故障)不仅影响了企业效益,更带来了很多的安全问题。据非正常状况管理联盟(Abnormal Situation Management,简称ASM)的统计,美国由于故障在石油化工领域造成的经济损失一年就高达200 亿美元,而炼油厂平均每三年就发生一次重大事故,平均损失8 千万美元。
化工业具有较高的自动化程度,DCS和现场总线广泛应用,各种单点报警也被大量使用,它们对提高系统安全性起到很好的作用,然而随着装置的大型化和复杂化,报警数量的众多和无序以及设计的随意性使得真正有用的报警信息淹没在大量冗余和虚假的报警信号中,特别是故障发生的时刻,大量相关的报警信号突然出现,让操作人员无法有效的分辨真实的报警源头,称之为报警泛滥(Alarm Flood)。例如1994 英国Texaco 公司炼油厂流化催化裂化装置爆炸事故,2040个报警在爆炸之前有1775 个报警同时显示优先级为高,致使操作员无法及时判断问题的根源进而采取措施,最终酿成大祸。
报警标准定义了三个关键的KPI来将企业报警管理分成五个等级。这三个关键指标分别是平均报警率、峰值报警率和扰动率。通过这三个指标,将企业报警进行收集和统计,可以归类到五个评价等级。
现阶段面临的问题:
大型化和复杂化逐渐带来了软硬件上的存储、计算性能瓶颈问题:
- 实时报警数据存储无法满足需求 (由于工业厂区内报警装置和接入设备繁多,且报警频率高【秒级】导致每秒需要处理和存储的数据量巨大【每秒上万】,普通存储产品无法满足)
- 无效报警严重 (简单的报警限和判断规则设置,导致其产生了数量巨大的报警信号,由于涉及的随意性较大,产生的报警数据中存在大量冗余和虚假信息)
- 故障诊断、源头分析难以实现 (由于系统内部相互作用和一些冗余报警设置会导致在故障发生时出现很多报警,使人难以分辨真实的源头)
- 报警指标计算效率不高 (由于秒级上万的数据接入量,且报警各类指标较多,这样就导致需要在短时间内需要完成千万甚至是亿级数据的统计计算,在现有计算资源不足情况下只能以更多的计算时间来弥补计算性能,这样就导致一个周期的报警指标统计需要几十分钟甚至以小时计算)
目标
:
建立一套稳定高效的操作报警系统,并结合报警管理的国际标准、最佳实践建立一套切实可行的报警管理机制和工作流程,降低“干扰性”报警数量,提高报警处理效率,规范报警处理流程,提升工厂安全性。建设内容如下:
1.建立一套适合企业的操作报警系统及报警管理体系对照ISA 18.2或EEMUA 191国际标准,整体报警管理水平从报警过载达到或接近可靠;报警级别分布达接近国际标准:关键/重要/一般比例为 5/15/80;形成一套不断提高的管理体系,确保报警管理系统持续优化与提高。
2.建立一套报警管理知识库 建立报警知识库,为操作人员提供实时的操作支持与指导,同时可以通过历史知识库进行事故回顾与培训。
3.建立一套可执行的报警管理机制与工作流程 结合报警管理的国际标准、最佳实践以及企业的实际要求,建立一套切实可行的报警管理机制和工作流程
报警分析技术架构图:
报警分析云上集成解决方案-技术架构
1.DCS日志采集:
通过TCP监听方式获取DCS中报警日志数据;
2.日志解析:
解析获取的DCS报警日志格式化后存入实时数据库中形成历史记录;
3.数据清洗:
清理历史记录中正常数据保留报警数
;
4.数据同步至阿里云:
使用DataX工具将清理后的报警数据导入到在ODPS建立的表中;
5.KPI
指标计算
:
基于EEMUA国际标准,
编写指标KPI计算
的
SQL
与
MapReduce对ODPS表中的数据进行指标计算并将结果写入到KPI指标结果表中;
7.
统计结果同步到本地
:
使用Data X工具将KPI指标统计结果数据同步到本地系统数据库中(如本地mysql);
8.数据可视化展示:
前端展示页面根据需要, 从数据库中读取KPI统计结果数据进行可视化展示;
主要处理流程
基于阿里云MaxCompute的报警分析平台-处理流程
报警分析结果展示:
【报警评估与分析】
【报警系统性能评估】
【操作台报警分析】
【合理化评估报告】
【TOP N报警报告】
应用效果:
根据报警管理系统,通过对装置无效报警的过滤、对工艺位号进行限值调整、控制回路PID参数的调整,装置报警总数从原来每周209,068个报警下降到、每周19276个报警,报警总数下降了92.5%;装置6个岗位报警等级均下降。整个装置平均报警率从192左右下降到15.4,峰值报警率从374下降到143,扰动率从95下降到71.3。
-END-
蓝智云海
云计算丨数据分析丨机器学习丨云服务