大数据资产管理实战

简介: 本文讲的是大数据资产管理实战,本次分享包括大数据资产管理的概述、方法论和实施效果三个部分的内容。

本文讲的是大数据资产管理实战,本次分享包括大数据资产管理的概述、方法论和实施效果三个部分的内容。
· · ·

image

第一部分:大数据资产管理概述

image

提到企业数字化转型,不得不提现在的一个主流观点:未来的企业必将成为数字化企业,每个公司都将会成为软件公司!未来企业增长和竞争的能力越来越取决于其数字化创新能力。为了应对企业数字化转型,企业IT架构采用分布式、微服务、移动化、大数据等技术来应对业务变化带来的挑战。

那么在业务敏捷变革、应用快速创新的前提下,企业的大数据需要能够准确反映出企业的业务情况,进而需要高质量的数据和完善的数据管理机制,也就是大数据资产管理。下面我们来看一下复杂场景下数据资产的一个实例。

image

如上图所示,一笔4G的XDR信令数据在完整情况下将保存5份数据,分别为:数据流Storm、Hadoop、MPP、DB、内存网格Redis。信令数据根据业务用途的不同分别存放。同样的,不同存放的数据又是同一来源,相互之间存在着关系。

因此,在复杂的异构环境下,使用一套行之有效的工具进行数据模型管理是非常有必要的。
image

在单个系统开发时,一般使用ERWin、PowerDesigner等工具进行数据模型设计。
当设计异构环境时,就存在着各种问题了:

1、如何设计逻辑模型
2、设计好的逻辑模型如何快速的分发到各个环境中
3、分发到异构环境中的数据模型是否不被修改

那么在这种异构环境下,就存在着“数据模型设计→数据模型分发→数据资产管理”的数据模型生产闭环了。

1、数据模型设计:负责逻辑模型的设计,不依赖于数据平台,支持协作;
2、数据模型分发:负责逻辑模型在各个数据平台的分发,支持对接各类数据平台;
3、数据资产管理:负责异构环境下数据模型的管理,支持审计、分析等。

今天,我们主要分享数据资产管理的相关内容。

· · ·

image

第二部分:大数据资产管理的方法论
image

大数据资产管理是一个复杂而长期的工程,主要包括“建规范、搭平台、管资产”三个环节。

image

建规范:制订资产的管理流程(加强资产的生成、使用和退出管理),制订数据资产的技术模型(全局数据资产标识)及规范。

1、实现异构资产的统一注册、统一审计、统一监控的全生命周期管理
2、通过多种手段提升资产管理的安全,防止敏感信息泄露

image

大数据资产管理的规范包括两部分,分别为管理规范和技术规范:

1、管理规范:对数据资产的管理过程进行了规范化和标准化,对使用数据资产管理系统的人员进行角色定义,介绍了各个角色在不同的环境中需要完成的相关工作。

2、技术规范:对数据资产的管理技术进行规范化和标准化的阐述,包括数据资产模型和数据资产管理接口规范。
image

经过抽象,数据资产管理模型分为三层:业务分类→业务对象→数据资产

在实物资产管理时,通过固定资产标签进行唯一确认。那么在数据资产管理时,同样需要对数据资产进行全局确认(数据资产全局唯一标识)。如下图所示:

image

数据资产管理平台建议的标识由五段七项内容组成。五段标识分别为根前缀、业务域、资产类型、提供者/租户、资产名称组成,其中提供者/租户、资产名称根据具体的数据资产分别展开两段。

在上图中,我们以“Hadoop类资产”为例,全局唯一标识为:

1、Hadoop类HDFS资产就是:根前缀、业务域、资产类型、提供者/租户(HDFS集群、HDFS域)、资产名称(文件名、文件类型)组成。

2、Hadoop类HIVE资产就是:根前缀、业务域、资产类型、提供者/租户(Hive服务、Hive数据库)、资产名称(数据库对象名、数据库对象类型)组成。

3、Hadoop类HBASE资产就是:根前缀、业务域、资产类型、提供者/租户(HBase服务、HBase命名空间)、资产名称(数据库对象名、数据库对象类型)组成。

image

搭平台:建设数据资产管理平台,实现数据资产管理

实现异构环境下的数据资产管理
image

根据业务目标的不同,数据资产存放在数据流、Hadoop、MPP、数据库、内存网格等异构环境中。数据资产管理平台提供了如下能力:

1、一体化的数据资产管控(注册、审计、统计、影响分析等)
2、多环境的数据资产使用同一套管理办法及流程,与存储模型、业务域没有关系

那么,我们首先来看看如何快速实现异构环境的数据资产注册……

image

基于统一的CWM规范数据模型,实现对异构数据源的资产管理。既提供丰富的采集适配器实现数据资产的自动注册,同时也提供在线编辑、接口注册、Excel导入等人工注册的方式。

数据对象模型注册及访问接口:提供标准的HTTP+JSON、WebService接口,Hadoop、MPP等平台的开发工具可以通过调用标准接口集成数据对象模型注册及访问功能。
image

数据资产管理平台实现对异构数据源的数据模型/数据进行审计及统计分析。

在数据模型审计及统计分析时:

1、平台获取数据模型配置
2、平台数据平台中获取实际的数据模型
3、平台将针对数据模型的审计结果导入审计结果分析引擎

在数据审计及统计分析时:

1、平台获取数据模型配置
2、平台获取数据审计规则配置
3、平台从数据平台中获取实际的数据(抽样)
4、平台将针对数据的审计结果导入审计结果分析引擎
image

管资产:梳理现有异构环境下的数据,通过平台分阶段进行数据资产管理

1、完整:包括整个资产以及上游、下游资产关系等
2、详细:细化到资产的各个字段定义等详细信息
3、结构化:实现每个资产信息结构化存储
image

基于数据资产管理平台建设数据资产服务能力,组建数据管理体系团队。团队的职责包括:

1、负责数据管理体系管理流程及管理办法建立
2、基于平台进行常态化的数据管理(审计和统计分析),完善数据对象的管控流程,形成数据生产标准
3、基于平台完善数据字典的维护流程及完成数据字典的日常维护工作

数据管理场景(部分)如下:

每天:
1、数据对象的注册、变更、审批;
2、重要业务对象的分析(不同态之间的差异分析、模型不一致审计、关键业务字段质量分析等);
3、配合完成数据共享平台接入。

每周:
1、全局业务对象的分析(不同态之间的差异分析、模型不一致审计、关键业务属性质量分析等)。

新系统上线:
1、数据对象的注册、变更、审批;
2、配置关键业务字段属性质量。

因为业务需求的不断变化,大数据资产的管理(梳理、规范、优化)工作是持续且长期的。因此,在客户的高度重视下,客户、平台厂商、业务厂商的紧密配合及持续演进才能建设数据资产的服务能力!!!

· · ·

image

第三部分:实施大数据资产管理的项目效果。

image

根据前面介绍的大数据资产管理方法论,普元主导实施了一系列大数据资产管理类项目。本人有幸作为项目负责人参与了上海移动数据资产管理平台的建设,上海移动建设数据资产管理平台时,采用“规范+平台+服务”的环节,大数据资产管理已经初见成效。通过大数据资产管理项目的建设及实施,上海移动实现了:

1、建立数据资产管理服务体系
2、统一数据模型注册管控
3、提供有效的数据质量审计审核

通过建立数据资产管理平台,上海移动从整体上改善了企业对多种数据的管控能力,将数据的价值提升,为日后基于大数据的应用与业务创新提供了有效支撑。

image

最后,我们来总结一下大数据资产管理,它提供了以下业务价值:

1、建设数据资产管理能力体系
2、多环境一体化的数据对象管理(注册、审计、统计、影响分析等)
3、从全局角度初步提升各环境的数据质量
4、为基于大数据的应用创新提供基础,可输出各类标签库

同时,通过数据资产管理平台的数据积累,通信行业可以得出如下标签:

1、客户标签类(客户自然属性、客户偏好信息、客户群信息)
2、终端信息类(某一终端品牌在特定时间区间下的用户群分布、地域分布、型号分布、市场占比情况等信息的查询服务)
3、位置信息类(某具体位置在特定时间点或区间下的客流量、客户群分布等信息查询服务)
4、等

原文发布时间为:2016-08-03
本文作者: 徐松林
本文来自云栖社区合作伙伴EAWorld,了解相关信息可以关注EAWorld。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
9月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
9月前
|
存储 SQL 分布式计算
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
434 19
|
8月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
433 0
|
9月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1057 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1845 1
|
SQL 缓存 数据处理
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
Apache Doris 提出“数据无界”和“湖仓无界”理念,提供高效的数据管理方案。本文聚焦三个典型应用场景:湖仓分析加速、多源联邦分析、湖仓数据处理,深入介绍 Apache Doris 的最佳实践,帮助企业快速响应业务需求,提升数据处理和分析效率
758 3
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
|
12月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。