报警分析云上集成解决方案

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 为了方便用户云上分析大数据的需求,报警分析云上集成解决方案提供了一系列的数据分析产品,可以帮助各类客户快速轻松地构建和部署大数据分析应用。
背景:
     本实践是以化工业的安全生产为背景,随着工业企业的日益大型化和复杂化,非正常事件(下称故障)不仅影响了企业效益,更带来了很多的安全问题。据非正常状况管理联盟(Abnormal Situation Management,简称ASM)的统计,美国由于故障在石油化工领域造成的经济损失一年就高达200 亿美元,而炼油厂平均每三年就发生一次重大事故,平均损失8 千万美元。
      化工业具有较高的自动化程度,DCS和现场总线广泛应用,各种单点报警也被大量使用,它们对提高系统安全性起到很好的作用,然而随着装置的大型化和复杂化,报警数量的众多和无序以及设计的随意性使得真正有用的报警信息淹没在大量冗余和虚假的报警信号中,特别是故障发生的时刻,大量相关的报警信号突然出现,让操作人员无法有效的分辨真实的报警源头,称之为报警泛滥(Alarm Flood)。例如1994 英国Texaco  公司炼油厂流化催化裂化装置爆炸事故,2040个报警在爆炸之前有1775 个报警同时显示优先级为高,致使操作员无法及时判断问题的根源进而采取措施,最终酿成大祸。 


   报警标准定义了三个关键的KPI来将企业报警管理分成五个等级。这三个关键指标分别是平均报警率、峰值报警率和扰动率。通过这三个指标,将企业报警进行收集和统计,可以归类到五个评价等级。

现阶段面临的问题:
    大型化和复杂化逐渐带来了软硬件上的存储、计算性能瓶颈问题: 
  • 实时报警数据存储无法满足需求 (由于工业厂区内报警装置和接入设备繁多,且报警频率高【秒级】导致每秒需要处理和存储的数据量巨大【每秒上万】,普通存储产品无法满足)
  • 无效报警严重   (简单的报警限和判断规则设置,导致其产生了数量巨大的报警信号,由于涉及的随意性较大,产生的报警数据中存在大量冗余和虚假信息)
  • 故障诊断、源头分析难以实现   (由于系统内部相互作用和一些冗余报警设置会导致在故障发生时出现很多报警,使人难以分辨真实的源头)
  • 报警指标计算效率不高 (由于秒级上万的数据接入量,且报警各类指标较多,这样就导致需要在短时间内需要完成千万甚至是亿级数据的统计计算,在现有计算资源不足情况下只能以更多的计算时间来弥补计算性能,这样就导致一个周期的报警指标统计需要几十分钟甚至以小时计算)
目标
建立一套稳定高效的操作报警系统,并结合报警管理的国际标准、最佳实践建立一套切实可行的报警管理机制和工作流程,降低“干扰性”报警数量,提高报警处理效率,规范报警处理流程,提升工厂安全性。建设内容如下:
1.建立一套适合企业的操作报警系统及报警管理体系对照ISA 18.2或EEMUA 191国际标准,整体报警管理水平从报警过载达到或接近可靠;报警级别分布达接近国际标准:关键/重要/一般比例为 5/15/80;形成一套不断提高的管理体系,确保报警管理系统持续优化与提高。
2.建立一套报警管理知识库    建立报警知识库,为操作人员提供实时的操作支持与指导,同时可以通过历史知识库进行事故回顾与培训。
3.建立一套可执行的报警管理机制与工作流程   结合报警管理的国际标准、最佳实践以及企业的实际要求,建立一套切实可行的报警管理机制和工作流程

报警分析技术架构图:
 报警分析云上集成解决方案-技术架构

1.DCS日志采集: 通过TCP监听方式获取DCS中报警日志数据;
2.日志解析: 解析获取的DCS报警日志格式化后存入实时数据库中形成历史记录;
3.数据清洗: 清理历史记录中正常数据保留报警数
4.数据同步至阿里云: 使用DataX工具将清理后的报警数据导入到在ODPS建立的表中;
5.KPI 指标计算 基于EEMUA国际标准, 编写指标KPI计算 SQL MapReduce对ODPS表中的数据进行指标计算并将结果写入到KPI指标结果表中;
6.KPI指标结果统计: 对计算出的KPI指标根据需求进行分钟、小时、天、月统计,将统计结果写入到KPI指标统计结果表中;
7. 统计结果同步到本地 使用Data X工具将KPI指标统计结果数据同步到本地系统数据库中(如本地mysql);
8.数据可视化展示: 前端展示页面根据需要, 从数据库中读取KPI统计结果数据进行可视化展示;
 

主要处理流程
基于阿里云MaxCompute的报警分析平台-处理流程




报警分析结果展示:
【报警评估与分析】

【报警系统性能评估】

【操作台报警分析】

【合理化评估报告】

【TOP N报警报告】
       
       应用效果: 根据报警管理系统,通过对装置无效报警的过滤、对工艺位号进行限值调整、控制回路PID参数的调整,装置报警总数从原来每周209,068个报警下降到、每周19276个报警,报警总数下降了92.5%;装置6个岗位报警等级均下降。整个装置平均报警率从192左右下降到15.4,峰值报警率从374下降到143,扰动率从95下降到71.3。


致力攻克企业大数据信息化难题,提供专业服务和解决方案,更多案例可进入官网详细了解: www.blueintelligence.com


-END-

蓝智云海
云计算丨数据分析丨机器学习丨云服务

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
Oracle 关系型数据库 分布式数据库
分布式数据库集成解决方案
分布式数据库集成解决方案
256 0
|
7月前
|
NoSQL Java Redis
SpringBoot原理分析 | Redis集成
SpringBoot原理分析 | Redis集成
67 0
|
27天前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
34 3
|
3月前
|
人工智能 运维 安全
聚焦API安全未来,F5打造无缝集成的解决方案
聚焦API安全未来,F5打造无缝集成的解决方案
88 26
|
3月前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
102 2
|
5月前
|
传感器 机器学习/深度学习 监控
在视频监控和防盗报警系统工程中,通常包括硬件(如摄像头、传感器、报警器等)和软件(如监控软件、报警管理软件等)的集成。
在视频监控和防盗报警系统工程中,通常包括硬件(如摄像头、传感器、报警器等)和软件(如监控软件、报警管理软件等)的集成。
|
7月前
|
安全 IDE 测试技术
python集成测试分析和修复问题
【4月更文挑战第20天】
78 8
|
7月前
|
安全 数据管理 测试技术
网络安全与信息安全:防范漏洞、加强加密与提升安全意识深入探索自动化测试框架的设计原则与实践应用化测试解决方案。文章不仅涵盖了框架选择的标准,还详细阐述了如何根据项目需求定制测试流程,以及如何利用持续集成工具实现测试的自动触发和结果反馈。最后,文中还将讨论测试数据管理、测试用例优化及团队协作等关键问题,为读者提供全面的自动化测试框架设计与实施指南。
【5月更文挑战第27天】 在数字化时代,网络安全与信息安全已成为维护国家安全、企业利益和个人隐私的重要环节。本文旨在分享关于网络安全漏洞的识别与防范、加密技术的应用以及提升安全意识的重要性。通过对这些方面的深入探讨,我们希望能为读者提供一些实用的建议和策略,以应对日益严峻的网络安全挑战。 【5月更文挑战第27天】 在软件开发周期中,自动化测试作为保障软件质量的关键步骤,其重要性日益凸显。本文旨在剖析自动化测试框架设计的核心原则,并结合具体案例探讨其在实际应用中的执行策略。通过对比分析不同测试框架的优缺点,我们提出一套高效、可扩展且易于维护的自动
|
7月前
|
机器学习/深度学习
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
|
7月前
|
算法 数据可视化
R语言ARIMA集成模型预测时间序列分析
R语言ARIMA集成模型预测时间序列分析