大数据资产管理实战

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文讲的是大数据资产管理实战,本次分享包括大数据资产管理的概述、方法论和实施效果三个部分的内容。

本文讲的是大数据资产管理实战,本次分享包括大数据资产管理的概述、方法论和实施效果三个部分的内容。
· · ·

image

第一部分:大数据资产管理概述

image

提到企业数字化转型,不得不提现在的一个主流观点:未来的企业必将成为数字化企业,每个公司都将会成为软件公司!未来企业增长和竞争的能力越来越取决于其数字化创新能力。为了应对企业数字化转型,企业IT架构采用分布式、微服务、移动化、大数据等技术来应对业务变化带来的挑战。

那么在业务敏捷变革、应用快速创新的前提下,企业的大数据需要能够准确反映出企业的业务情况,进而需要高质量的数据和完善的数据管理机制,也就是大数据资产管理。下面我们来看一下复杂场景下数据资产的一个实例。

image

如上图所示,一笔4G的XDR信令数据在完整情况下将保存5份数据,分别为:数据流Storm、Hadoop、MPP、DB、内存网格Redis。信令数据根据业务用途的不同分别存放。同样的,不同存放的数据又是同一来源,相互之间存在着关系。

因此,在复杂的异构环境下,使用一套行之有效的工具进行数据模型管理是非常有必要的。
image

在单个系统开发时,一般使用ERWin、PowerDesigner等工具进行数据模型设计。
当设计异构环境时,就存在着各种问题了:

1、如何设计逻辑模型
2、设计好的逻辑模型如何快速的分发到各个环境中
3、分发到异构环境中的数据模型是否不被修改

那么在这种异构环境下,就存在着“数据模型设计→数据模型分发→数据资产管理”的数据模型生产闭环了。

1、数据模型设计:负责逻辑模型的设计,不依赖于数据平台,支持协作;
2、数据模型分发:负责逻辑模型在各个数据平台的分发,支持对接各类数据平台;
3、数据资产管理:负责异构环境下数据模型的管理,支持审计、分析等。

今天,我们主要分享数据资产管理的相关内容。

· · ·

image

第二部分:大数据资产管理的方法论
image

大数据资产管理是一个复杂而长期的工程,主要包括“建规范、搭平台、管资产”三个环节。

image

建规范:制订资产的管理流程(加强资产的生成、使用和退出管理),制订数据资产的技术模型(全局数据资产标识)及规范。

1、实现异构资产的统一注册、统一审计、统一监控的全生命周期管理
2、通过多种手段提升资产管理的安全,防止敏感信息泄露

image

大数据资产管理的规范包括两部分,分别为管理规范和技术规范:

1、管理规范:对数据资产的管理过程进行了规范化和标准化,对使用数据资产管理系统的人员进行角色定义,介绍了各个角色在不同的环境中需要完成的相关工作。

2、技术规范:对数据资产的管理技术进行规范化和标准化的阐述,包括数据资产模型和数据资产管理接口规范。
image

经过抽象,数据资产管理模型分为三层:业务分类→业务对象→数据资产

在实物资产管理时,通过固定资产标签进行唯一确认。那么在数据资产管理时,同样需要对数据资产进行全局确认(数据资产全局唯一标识)。如下图所示:

image

数据资产管理平台建议的标识由五段七项内容组成。五段标识分别为根前缀、业务域、资产类型、提供者/租户、资产名称组成,其中提供者/租户、资产名称根据具体的数据资产分别展开两段。

在上图中,我们以“Hadoop类资产”为例,全局唯一标识为:

1、Hadoop类HDFS资产就是:根前缀、业务域、资产类型、提供者/租户(HDFS集群、HDFS域)、资产名称(文件名、文件类型)组成。

2、Hadoop类HIVE资产就是:根前缀、业务域、资产类型、提供者/租户(Hive服务、Hive数据库)、资产名称(数据库对象名、数据库对象类型)组成。

3、Hadoop类HBASE资产就是:根前缀、业务域、资产类型、提供者/租户(HBase服务、HBase命名空间)、资产名称(数据库对象名、数据库对象类型)组成。

image

搭平台:建设数据资产管理平台,实现数据资产管理

实现异构环境下的数据资产管理
image

根据业务目标的不同,数据资产存放在数据流、Hadoop、MPP、数据库、内存网格等异构环境中。数据资产管理平台提供了如下能力:

1、一体化的数据资产管控(注册、审计、统计、影响分析等)
2、多环境的数据资产使用同一套管理办法及流程,与存储模型、业务域没有关系

那么,我们首先来看看如何快速实现异构环境的数据资产注册……

image

基于统一的CWM规范数据模型,实现对异构数据源的资产管理。既提供丰富的采集适配器实现数据资产的自动注册,同时也提供在线编辑、接口注册、Excel导入等人工注册的方式。

数据对象模型注册及访问接口:提供标准的HTTP+JSON、WebService接口,Hadoop、MPP等平台的开发工具可以通过调用标准接口集成数据对象模型注册及访问功能。
image

数据资产管理平台实现对异构数据源的数据模型/数据进行审计及统计分析。

在数据模型审计及统计分析时:

1、平台获取数据模型配置
2、平台数据平台中获取实际的数据模型
3、平台将针对数据模型的审计结果导入审计结果分析引擎

在数据审计及统计分析时:

1、平台获取数据模型配置
2、平台获取数据审计规则配置
3、平台从数据平台中获取实际的数据(抽样)
4、平台将针对数据的审计结果导入审计结果分析引擎
image

管资产:梳理现有异构环境下的数据,通过平台分阶段进行数据资产管理

1、完整:包括整个资产以及上游、下游资产关系等
2、详细:细化到资产的各个字段定义等详细信息
3、结构化:实现每个资产信息结构化存储
image

基于数据资产管理平台建设数据资产服务能力,组建数据管理体系团队。团队的职责包括:

1、负责数据管理体系管理流程及管理办法建立
2、基于平台进行常态化的数据管理(审计和统计分析),完善数据对象的管控流程,形成数据生产标准
3、基于平台完善数据字典的维护流程及完成数据字典的日常维护工作

数据管理场景(部分)如下:

每天:
1、数据对象的注册、变更、审批;
2、重要业务对象的分析(不同态之间的差异分析、模型不一致审计、关键业务字段质量分析等);
3、配合完成数据共享平台接入。

每周:
1、全局业务对象的分析(不同态之间的差异分析、模型不一致审计、关键业务属性质量分析等)。

新系统上线:
1、数据对象的注册、变更、审批;
2、配置关键业务字段属性质量。

因为业务需求的不断变化,大数据资产的管理(梳理、规范、优化)工作是持续且长期的。因此,在客户的高度重视下,客户、平台厂商、业务厂商的紧密配合及持续演进才能建设数据资产的服务能力!!!

· · ·

image

第三部分:实施大数据资产管理的项目效果。

image

根据前面介绍的大数据资产管理方法论,普元主导实施了一系列大数据资产管理类项目。本人有幸作为项目负责人参与了上海移动数据资产管理平台的建设,上海移动建设数据资产管理平台时,采用“规范+平台+服务”的环节,大数据资产管理已经初见成效。通过大数据资产管理项目的建设及实施,上海移动实现了:

1、建立数据资产管理服务体系
2、统一数据模型注册管控
3、提供有效的数据质量审计审核

通过建立数据资产管理平台,上海移动从整体上改善了企业对多种数据的管控能力,将数据的价值提升,为日后基于大数据的应用与业务创新提供了有效支撑。

image

最后,我们来总结一下大数据资产管理,它提供了以下业务价值:

1、建设数据资产管理能力体系
2、多环境一体化的数据对象管理(注册、审计、统计、影响分析等)
3、从全局角度初步提升各环境的数据质量
4、为基于大数据的应用创新提供基础,可输出各类标签库

同时,通过数据资产管理平台的数据积累,通信行业可以得出如下标签:

1、客户标签类(客户自然属性、客户偏好信息、客户群信息)
2、终端信息类(某一终端品牌在特定时间区间下的用户群分布、地域分布、型号分布、市场占比情况等信息的查询服务)
3、位置信息类(某具体位置在特定时间点或区间下的客流量、客户群分布等信息查询服务)
4、等

原文发布时间为:2016-08-03
本文作者: 徐松林
本文来自云栖社区合作伙伴EAWorld,了解相关信息可以关注EAWorld。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
39 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
37 3
|
19天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
34 0
|
5月前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
122 0
|
3月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
3月前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
59 1
|
3月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
61 1
|
3月前
|
API C# Shell
WPF与Windows Shell完美融合:深入解析文件系统操作技巧——从基本文件管理到高级Shell功能调用,全面掌握WPF中的文件处理艺术
【8月更文挑战第31天】Windows Presentation Foundation (WPF) 是 .NET Framework 的关键组件,用于构建 Windows 桌面应用程序。WPF 提供了丰富的功能来创建美观且功能强大的用户界面。本文通过问题解答的形式,探讨了如何在 WPF 应用中集成 Windows Shell 功能,并通过具体示例代码展示了文件系统的操作方法,包括列出目录下的所有文件、创建和删除文件、移动和复制文件以及打开文件夹或文件等。
71 0
|
4月前
|
分布式计算 Apache Spark

热门文章

最新文章

下一篇
无影云桌面