开发者学堂课程【智能数据建模训课程 :客户案例:工业 OT 域数据建模最佳实践】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1223/detail/18313
客户案例:工业 OT 域数据建模最佳实践
内容介绍:
一、大体简介
二、通用建模内容
三、指标工厂实现思路
四、基于 Dataworks 的智能数据建模
五、总结
一、大体简介
将简单介绍一下 OT 域的建模的最佳实践。
二、通用建模内容
第一部分是一些通用的建模内容,可以直接在电子书当中查看,接下来直接介绍工业 OT 域的建模场景,在工业业务的场景下,生产产线上存在大量的 IOT 设备的测点数据,和 IT 的数据相比,这一类数据量非常大,但是格式相对来说比较统一。比如核心字段包括了设备,ID,时间戳、测点值、数据类型等等,数据类型可以分为两种,第一类为模拟量数据,例如设备的温度,电流,电压,微量量等。这类数据为一个连续的值,第二类数据是开关量的数据,当设备开机时上报1信号,当设备关机时上报0信号,对于原始的 IOT 数据存在大量指标计算的需求,相比传统的维度建模,这类指标计算模式相对比较固定,指标大致可以分为单点未测点值的聚合计算和多点位测点值的公式计算两种,对于聚合计算就是统计一段周期内最大最小平均值的指标。
公式计算带有具体的业务含义,例如电流,电压,运行时长等等,从前面的描述可以看出,工业 OT 域数据的特点是它的指标量会非常大,但是计算方式相对比较简单,可以做枚举或者归纳,所以在一个车间当中经常会有上万个设备的点位,每个点位的数据都需要做聚合计算,存在着大量通过类似电流乘电压乘运行时长等于电量这种公式的计算指标。因此,成千上万的指标在 OT 领域是一个常态。参考维度建模的指标分类可以把原始的测点值定义为原子指标,将周期的巨额计算定义为派生指标,带有具体业务函数的公式计算得到的指标定义为衍生指标。分析可以发现原子指标虽然量很大,但是其格式是固定的,派生指标的计算和枚举都是最大最小平均值之类的周期聚合,而衍生指标虽然计算公式不可枚举,但是其计算形式都是一样的,基本都是通过一个四则运算的公式进行计算。
在目前的工业 OT 领域的指标分类和计算有一些各自的实践。比如有些公司将 ETL过程把指标计算明确分为两步,第一步为单点位的聚合计算,将原始点位数据的周期内最大、最小平均值、差值等聚合指标定义为一次指标,第二步为多点位的公式融合计算,将基于一次指标进行公式计算后的结果定义为二次参数,阿里的工业数据应用平台将指标定义为数据转换和数据统计两类。数据转换可以对原始的点位数据进行各种的清晰转换操作;数据统计可以设置统计周期、计算统计周期内的数据统计量。可以看出 OT 域的指标计算是比较清晰的,各自的实现也有相似之处,但相比于标准的维度建模,现在并没有一个很统一的定义以及实现方案。例如上面的某公司虽然将指标比较清晰地分成了两类,但在最后计算完成后,所有指标都存在同一张表中,没有模型分层的概念,同时整个过程基本不涉及数据治理的工作。阿里目前的工业数据应用平台能力比较强,能实现各种数据转换和计算,并把计算动作分成转换和统计,但同样也没有明确的指标的分层定义,从建模的角度来讲是稍显混乱的。
三、指标工厂实现思路
接下来介绍指标工厂的实现思路,由于在 OT 域的数据下指标的特点是数据量特别大,但是其计算方式可枚举可归纳,因此在现有的方案基础上,参考维度建模定义的建模分层,同时设计批量指标定义和计算的实现方案,实现批量的指标定义以及加工计算。指标工厂的建设思路是 OT 域的建模分层和传统的 IT 域维度建模是一致的,但是计算开发过程有比较大的差异。不需要对单个指标做复杂计算,可以通过工厂化配置的方式进行批量定义和计算,第一,对原始采集的数据定义,清晰转换规则得到基础的原子指标;第二,定义原子指标计算方式,计算方式和枚举通过周期聚合计算得到派生指标;第三,自定义衍生计算公式,计算公式只指涉及派生指标之间的公式计算,不涉及其他约束条件。通过这几种设计方式,通过几个计算任务即可完成原子指标派生指标,衍生指标的批量计算,当业务场景需要增加指标时,只需要增加对应的指标计算公式即可。
通过指标工厂的思路可以在 OT 域数据下快速定义及生成指标指标,和传统的维度建模概念类似,分为原子指标、派生指标、衍生指标等,区别于在传统的 IT 域下数据源的形式及指标计算方式比较难统一,因此基本上需要对每一个指标做建模设计,而 OT 数据域虽然数据源量特别大,例如一个车间可能有上万个点位数据,但其数据格式是一样的,可以放在一个表中用ID区分不同点位数据。指标计算的方式也相对比较统一,维度建模需要对每一个指标作比较详细的设计,且不同的指标计算大多是需要在不同的任务中去计算的,而 OT 域的基于指标工厂的指标设计、计算会简化很多,通过批量定义原子指标的统计类型以及派生指标的计算公式,用几个任务即可以完成所有指标的计算。
四、基于 Dataworks 的智能数据建模
接下来将介绍基于 Dataworks 的智能数据建模来实现上述提及的指标工厂的建设,数据建模可以支持数仓规划设计,制定并承定企业标准,维度建模、数据指标等定义。通过对 Dataworks 数据建模,可以将建模设计产出的分层模型表物化到计算引擎中,并进一步应用。基于 Dataworks 建模的功能,可以快速实现指标工厂概念中的原子指标和派生指标以及表模型的定义和创建等。
五、总结
最后总结一下,基于指标工厂的思路进行 OT 域的指标设计和开发,目前阿里云已经在多个项目中进行一个落地实施.以某个水泥的项目为例,阿里云全球交付技术服务部基于这个上述的指标工厂建设思路完成了上万个测点,派生指标的计算以及数百个衍生指标的设计和计算,例如水泥产量的信息指标。通过统计类型配置及公式配置就可以完成计算输出,把这些数据清晰的呈现在类似一些前端大屏的展示上。以上就是整个案例的介绍内容。