【电力大数据】浅谈电力行业元数据管理

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
数据安全中心,免费版
简介: 【电力大数据】浅谈电力行业元数据管理

01

元数据管理背景


元数据(metadata),又称中介数据或者中继数据,是“描述数据的数据(data about data)”。在《DAMA数据管理知识体系指南》中指出:


元数据与数据的关系就像数据与自然界的关系,数据反映了真实世界的交易、事件、对象和关系,而元数据则反映了数据的交易、事件、对象和关系等。简而言之,任何可以用来描述特定数据的要素都可被视为元数据。


对企业而言,元数据描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)及其关系。


从企业管理的视角出发,元数据可以按用途不同进行如下分类:


图1:元数据分类



元数据管理是对企业数据现状的一种抽象、整合和展现,最主要是能方便集成不同数据库、数据模型、OLAP和ETL(数据抽取、转换和装载)工具所包含的各式各样的元数据。它是一项承上启下,贯通业务和技术,连接数据标准、数据质量、数据安全等的基础性管理工作。以中国移动为例:


早在2003年就启动了元数据规划工作,并于2006年以企业标准的形式,发布了《中国移动省级经营分析系统元数据管理规范》和《中国移动省级经营分析系统元数据管理功能技术规范》,并在之后的十几年内不断更新和完善规范,使其与企业业务发展及应用技术架构相匹配,元数据管理水平逐年提升。


02

电网企业元数据管理的现状


在电网企业,信息化系统建设工作持续多年,但在元数据管理的工作中,还存在一些亟待解决的问题。


(一)元数据管控机制不完善,缺乏统一管理


电网企业各业务系统的元数据管理不完善或者缺失,没有统一管理,缺乏管控机制。源端系统的元数据改变后,缺少同步更新机制,容易导致关联系统中的数据丢失或异常,直接影响数据质量。


(二)元数据获取困难,采集方法不统一


通过技术手段自动获取的元数据仅包含技术信息,缺乏业务类信息,对数据分析和挖掘起不到指引效果,同时存在指标解释不一致、统计口径存在差异,难以真正实现跨部门、跨专业数据共享。


(三)元数据缺失严重,质量有待提升


通过技术手段自动获取的元数据仅包含技术信息,缺乏业务类信息,对数据分析和挖掘起不到指引效果,同时存在指标解释不一致、统计口径存在差异,难以真正实现跨部门、跨专业数据共享。


03

电网企业元数据管理的实施路径


元数据管理是一项复杂的系统工程,不但牵涉到所有的业务系统,而且还与传统的业务管理存在很大区别,对管理方法、管理措施都提出了诸多挑战,本文将成熟度模型引入电网企业元数据管理,开展深入应用探究。


(一)明确目标、设计先行


电网企业元数据管理参照成熟度模型确定当前企业元数据管理所在层次,并根据不同时期的业务需要,制定线路图,开展有针对性的管理方案设计,如基于规范和制度设计,元模型设计、实施设计、推广设计等,最终提升元数据管理水平,见图2:


图2 元数据管理成熟度模型


如以实现企业物理模型全面管理目标为例,首先,需要全面分析企业有多少应用系统,每个应用系统有多少个数据库,有多少数据库类型,有哪些业务数据表,有哪些是垃圾数据表,每个数据字段的含义是否完整,每个系统由哪个业务部门在使用,由哪些人员运维,系统的数据变更是否有流程驱动等诸多问题。


其次,建立元数据的管理规范,推动业务系统进行整改,保证元数据的完整性和一致性。元数据会开放给不同的人群,需要对元数据进行权限管理,定义权限的管理流程,如元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等。


(二)确定范围、分步实施


元数据管理范围,从技术维度分析,围绕源端系统、数据平台、数据应用等,管理数据模型、数据库、表、字段以及字段间关系;


从业务维度分析,管理表或字段中文描述、数据加工策略、表或字段安全等级以及指标定义及统计口径等;


从管理维度分析,解决元数据管理和数据标准、数据质量、数据安全、数据价值、数据服务的贯通问题,实现数据层面的信息融合。


如按以下表格梳理元数据管理的清单,见图3:


图3 元数据管理清单示例



以上几方面元数据,可以从技术、业务、管理三个维度进行划分


基于技术维度的元数据,大部分可以通过采集工具,自动获取相关内容,实施难度小,建设周期短,应用价值相对不高;


基于业务维度的元数据,需要业务人员和技术人员相互配合,人工梳理内容,发生变更时需及时更新,实施存在一定的难度,建设周期较长,应用价值中等;


基于管理维度的元数据,需要明确制定管理标准、确定管理流程,同时所有相关的数据管理工具均需调整,实施难度巨大,建设周期漫长,但建成后价值巨大。


一般来说,企业元数据建设都是围绕数据平台进行全链路的技术元数据管理,同时,进一步区分哪些是业务元数据,哪些是管理元数据。


(三)基于业务、合理分类


元数据在采集以后,可以基于技术、业务及管理要求,新增各类数据标签,从不同角度描述相关元数据。以营销为例,可生成以下分类标签,见图4:

图4 元数据标签示例



04

电网企业元数据管理的典型应用


基于元数据管理,介绍几种典型的应用场景。


(一)元数据检索


按不同条件对元数据进行检索和浏览,显示表、字段、关系信息等。通过合理的权限分配,保证各使用人员可快速查询经授权的元数据信息,提升企业内部的信息共享水平。


图5 元数据检索示例


(二)元数据分析


1、血缘分析


血缘分析可以清晰展现数据来源,经过了哪些加工,其主要使用对象为业务人员。能帮助业务人员快速查找和获取到数据的来源,定位问题出现的环节。


比如当发现某个指标数据异常,可以追溯指标统计来源的各个元数据节点来分析问题。


图6 血缘分析示例


2、影响分析


影响分析可以清晰展现数据的去向,经过了哪些加工,其主要使用对象为数据管理人员和业务人员。可以通过影响分析快速查找和获取到数据可能影响的范围,定位数据变更可能涉及的环节。


3、实体关联分析


实体关联分析可以清晰展现数据和其他数据的关系以及它们的关系是怎样建立的,其主要使用对象为业务人员。


是从某一实体和其相关过程两个角度来看待特定数据使用,形成一个由实体及其参与过程组成的网络,从而进一步了解实体的重要程度。该功能可用于支持业务人员评估需求变更影响。


4、访问热度分析


访问热度分析可以展现哪些数据是企业常用数据,哪些数据属于“僵死数据”,其主要使用对象为数据管理人员和业务人员。


其价值在于将数据活跃程度可视化,以便更好的驾驭数据,激活或处置“僵死数据”。


5、数据资产地图


数据资产地图可以清晰展现由哪些数据构成,在哪里可以找到这些数据,能用这些数据干什么,其主要使用对象为数据管理人员。


数据资产地图从宏观层面组织信息,显示诸如数据量、数据存储分步、整体数据质量等情况,为数据管理部门和决策者提供参考。


图7 数据资产地图示例



(三)高级应用示例


元数据管理有利于统一数据口径、标明数据方向、分析数据关系、管理数据变更,为企业级的数据标准管理、数据质量管理、数据安全管理、数据价值管理以及数据服务管理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。例如:


  1. 通过标准与数据库实体对比,确认数据标准及数据模型落地应用情况;
  2. 数据地图、元数据分析的结果可用于提高数据质量,实现数据流的动态全覆盖控制;
  3. 元数据管理提供的数据安全和敏感信息定义,协助数据安全管理完成相关的安全管控操作;
  4. 高质量的元数据标签可实现了高效的数据归集,促进了数据资源目录体系构建,为数据服务管理奠定更好的数据基础。


05

结束语


元数据是企业数据资源的应用字典和操作指南,可以帮助业务人员清楚了解企业的数据信息,包括数据资产分布情况、各系统数据流向、业务指标和业务报表来源以及影响、数据业务含义和规则等;能够帮助技术人员了解各系统内物理表的关联关系、影响、生成逻辑、ETL过程等信息,为企业提供更好的数据服务。通过元数据管理,电网企业增强数据掌控能力,提高数据共享能力,更有利于企业评估数据价值,推动企业数据资产价值变现。





参考文献

[1]《DAMA数据管理知识体系指南》DAMA International;

[2]《数据资产管理实践白皮书(4.0)》中国信息通信研究院云计算与大数据研究所、 CCSA TC601 大数据技术标准推进委员会;

[3]《基于电力行业的大数据时代下元数据管理方法 》,张新阳;张梅;马文;程永新 ,电脑知识与技术;

[4] https://www.jianshu.com/p/f0754b2ada03,元数据管理-简书;

[5]https://blog.csdn.net/weixin_45443931/article/details/98869644 , 数据治理之元数据管理实践。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
SQL 存储 分布式计算
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
829 0
|
4月前
|
存储 JSON 分布式计算
DataWorks操作报错合集之在处理元数据存储时发生报错:ODPS-0010000,该如何处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之大数据计算MaxCompute如何限制用户只能访问特定的元数据信息,而不是整个工作空间
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
分布式计算 项目管理 MaxCompute
MaxCompute元数据使用实践--数据权限统计
本文主要介绍通过元数据的相关权限的视图进行数据权限的统计。
101621 2
|
6月前
|
存储 缓存 NoSQL
大数据 | HDFS 元数据持久化笔记
大数据 | HDFS 元数据持久化笔记
175 0
|
SQL 分布式计算 DataWorks
MaxCompute元数据使用实践--作业统计
通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。
1622 0
|
SQL 分布式计算 大数据
MaxCompute元数据使用实践 -- 数据下载审计
通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。
778 0
|
SQL 存储 分布式计算
大数据组件-Hive部署基于derby作为元数据存储
大数据组件-Hive部署基于derby作为元数据存储
大数据组件-Hive部署基于derby作为元数据存储
|
SQL 存储 分布式计算
大数据组件-Hive部署基于MySQL作为元数据存储
大数据组件-Hive部署基于MySQL作为元数据存储
大数据组件-Hive部署基于MySQL作为元数据存储
|
分布式计算 MaxCompute
【MaxCompute 常见问题】 元数据
通过数据源数据增量同步后,如何查看某一条数据具体被同步到MaxCompute 中的时间? 不支持,查看不了,可以看表元数据的 LastModifiedTime 时间,但具体某个记录看不到时间。
【MaxCompute 常见问题】 元数据

热门文章

最新文章