数据架构是打通数据金山“最后一公里”的必由之路

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。

     随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB来衡量。“让一切成为数据”是大数据时代的重要特征。公开数据显示,互联网搜索巨头百度2013年拥有数据量接近EB级别。阿里、腾讯都声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。全球数据量以每两年翻倍的速度增长,在2010年已经正式进入ZB时代,到2020年全球数据总量将达到44ZB。

27bd12e119e779b7a0dda9b078ba6a1b.png

     大数据时代下,人们对数据加工的复杂度和速度要求更高,传统的数据管理已经无法适应当下企业对数据管理的需求。大数据资产管理则应运而生。相比传统单一的数据管理方式,大数据资产管理通过降低企业数据使用的成本,来提高管理决策的效率,用数据进行资产管理已然成为大数据时代下中企业竞争力的重要来源。所谓数据资产管理其实是规范、控制和提供数据及信息资产,他包括开发、执行和监督有关数据的计划、政策、方案、项目等,数据资产管理面向数据的全生命周期,其核心思路是将数据对象以资产的标准和要求进行管理。

2f4cfba65c1c845c859011cba3a0ee74.png      

什么样的数据能够成为资产,或者说什么样的数据有资格成为资产?首先了解一下什么是财务意义上资产:“一般来讲,资产可以认为是企业拥有和控制的,能够用货币计量,并能够给企业带来经济利益的经济资源。”在这里,资产包含着如下几个要素:1、被企业拥有和控制;2、能够用货币来计量;3、能为企业带来经济利益。

84f56b69498ee2ed71d15c9e1506050a.png      

下面我们就用资产的要素来盘点一下什么样的数据符合资产的要求:

     1、被企业拥有和控制

     与专利权为代表的知识产权相比,数据所有权问题还比较模糊。从拥有和控制的角度来看,数据可以分为第一方数据、第二方数据和第三方数据。

     第一方数据也可以称为甲方数据,主要来自于数据的生产者。百度或京东这样的公司在为个人客户提供搜索服务或销售商品的同时,采集和整理了大量的用户行为数据。借助于支付、配送等后续服务,电商网站还能收集到诸如用户真实姓名、电话号码、家庭住址等隐私信息。这些一手数据被毫无疑义的被其生产者拥有和控制,并借助于数据挖掘或出售等方式不断给数据拥有者带来经济收益。

     第二方数据也可称为乙方数据。随着互联网行业的高速发展,各行业巨头着力构建围绕核心业务的生态体系,专业分工愈发细致。一批像亿玛、百分点这样专业公司脱颖而出。作为效果营销领域的领导者,亿玛通过为电商提供流量入口服务,间接积累了大量的网购用户的行为数据、广告投放数据和订单数据等。从拥有和控制角度看,第二方数据的所有者的确拥有对数据的掌控权,但这部分数据受制于获取路径(为甲方服务获取),在使用、交换或交易的过程中会有一些限制。需要采取匿名化以及整体化等脱敏处理处理后,才能实现有效控制和使用。

     第三方数据的产权问题比较复杂。出于对敏感数据泄露的担心和数据资产定价困难方面的考虑,第一方和第二方数据的拥有者很少直接进行数据交易或授权。与之相反倒是常有从这些公司的流出的内部数据放在网上供人付费下载。这也正是数据当前阶段还不能和资产划等号的一个生动体现。由于无法通过交易授权渠道获得,目前很多第三方数据提供商是通过网络爬虫、甚至是黑客手段获取数据。从法律层面看这些数据的所有权存在瑕疵的数据即使暂时拥有,也不能构成资产要素。只有在建立起有效的数据交换、交易机制后,第三方数据才能被真正的拥有和控制。

     2、能够用货币计量

     虽然从拥有和控制的角度来看,多数企业的数据都符合资产要素要求。但是如何用货币对这些数据进行计量则是个巨大的问题。传统会计的货币计量假设是指在企业众多计量单位中确定用货币为单位进行统一计量。货币作为会计信息的统一计量单位,有利于不同企业、不同行业用同一口径衡量反映其财务状况和经营成果。这也是为什么那些存储在硬盘上,以GB、PB为计量单位的数据无法直接进入资产负债表的原因。将数据列入无形资产的好处不言而喻:考虑到研发因素,很多高科技企业都具有较长的投入产出期,通过对递延资产的摊销可以为企业形成有效税盾,降低企业实际税负。

     3、能够为企业带来经济利益

     如果不能带来经济利益,再多的数据也只能是垃圾,企业还要为这些数据支付额外的存储费用。根据国金证券的研究报告,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。

     数据租售:以四维图新、广联达为代表的公司,在主营业务的基础上,通过对业务数据的收集、整理、过滤、校对、打包、发布等等一系列的流程,实现了数据自身的价值,为企业带来了经济利益。

     信息租售:以彭博为代表的金融信息服务商,聚焦在某个行业,广泛收集相关数据、深度整合萃取信息,以庞大的数据中心加上专用的数据终端,形成数据采集、信息萃取、价值传递的完整链条,成为行业巨擘。

     数据使能:类似于阿里金融这样的公司,通过对大量数据进行有效的挖掘和分析,开展传统公司难以触及的小额贷款业务,为公司开创新的盈利增长点。

7ddb24001bc62cea26765c1750520dbd.png


     数据作为越来越重要的生产要素,将成为比土地、石油、煤矿等更为核心的生产资源,如何加工利用数据,释放数据价值,实现企业的数字化转型,是各行业和企业面临的重要课题,然而数据的价值发挥面临重重困难。企业的数据资源散落在多个业务系统中,企业主和业务人员无法及时感知到数据的分布与更新情况,也无法进一步开展对数据加工工作。数据标准不统一,数据孤岛普遍存在导致业务系统之间的数据无法共享,资源利用率降低,降低了数据的可得性。标准缺失、数据录入不规范导致数据质量差,垃圾数据增多,数据不可用。数据安全意识不够、安全防护不足导致了数据泄露事件频发,危害了企业经营和用户利益。为了解决解决数据面临的诸多问题,充分释放数据价值,必须进行数据架构设计,理清数据资产,为数据资产运营奠定基础。

108497ab4bc92aea319112b8a0be71f3.png

     目前,很多企业以应用为划分的“烟囱”结构,数据基于应用,并被锁定在应用系统中,数据并没有被作为一个单独的IT组成部分被规划和设计,而是作为应用系统的一部分,由于应用系统的供应商不同,其设计工作也缺乏相互之间的协调,因此,数据模型基本按照各个应用系统的功能需求进行设计和实现;由于缺乏有效的数据共享,一个应用所需的数据无法从相关的其他应用系统中获得而只好重复录入;另一方面,由于同一个数据可能存在多个数据源,由此导致了信息的不一致。结构化数据基本上都利用数据库技术实现,非结构化数据只有少数地方使用影像技术实施了电子化,从应用程度上两者之间的集成度不高,影像工作流技术和其他应用系统之间没有能够做到无缝联接。数据交换过程缺乏严格的数据校验、过程控制等,接口数据的错误经常是在导入目标系统时才发现,而不是作为系统数据质量控制的一部分,预先在源系统中进行合法性校验;数据交换的过程缺乏技术性控制:诸如大批量数据分割、数据传输的校验、重复操作的处理、操作回滚等。对不同版本或开发商的同一应用,缺乏统一规定的应用系统数据外模式因此,为了解决以上问题,数据架构就越发重要,数据架构也是企业架构中一个极其重要的组成部分。

4486048401e7ae6278dfc8dbf586cbe8.png    

企业架构(EA)最早由John Zachman提出,Zachman认为企业架构是构成组织的所有关键元素和关系的综合描述,而企业架构框架(EAF)是一个描述企业 架构方法的蓝图。经过近三十年的发展,企业架构理论已经相当成熟,目前,国际上影响力比较大的企业架构框架有Zachman架构框架、DoDAF框架、FEAF   框架、TOGAF框架等

     一个完整的企业架构通常被划分为:业务架构、应用架构、数据架构和技术架构。在企业架构中,业务架构描述了企业各业务之间相互作用的关系结构和贯彻企业业务战略的基本业务运作模式;数据架构将企业业务实体抽象为信息对象,将企业的业务运作模式抽象为信息对象的属性和方法,建立面向对象的企业数据模型,数据架构实现从业务模式向数据模型的转变,业务需求向信息功能的映射,企业基础数据向企业信息的抽象;应用架构以数据架构为基础,建立支撑企业业务运行的各个业务系统,通过应用系统的集成运行,实现企业信息自动化流动;技术架构定义企业IT的管理和技术标准,涉及数据架构、应用架构和基础设施3个层面的标准。数据架构作为企业架构的重要组成部分,承载着信息化的重要使命:信息的价值实现。信息的价值实现依赖于数据的标准化、高质量、集成共享、利用方式等。换言之,数据架构的价值定位包括(但不限于):

     解决“方言”问题,数据架构通过制定一系列数据管理标准,比如数据模型标准、数据分类编码标准、数据管理规范等,从而实现IT人员对业务理解,对信息对象理解的一致性。

7c49608840f541385ae0293a71672d62.png      

解决信息集成共享问题。在信息化的特定时期,IT系统被孤立地建设,各自生成、传递和存储数据,从而导致基础数据被多次定义,数据源不唯一,最终导致系统之间由于数据不一致等问题,信息的集成共享难以真正实现。数据架构通过建立数据共享机制,保证数据源唯一性,通过数据质量审核,保证数据的准确性、完整性,最终实现数据的共享。

2fe1592ebc2791d84f45a94b87a01c35.png

     解决基础资源的形成和重复利用问题,设计人员对材料、元器件、标准件、加工设备等选用的随意性将给产品系列化、标准化乃至产品质量带来重要影响。基础资源库作为数据架构的重要组成部分,帮助企业逐步积累能够支撑快速、标准化设计的各类基础资源,进而提高产品质量。

     解决信息的整合与利用问题,通过构建管理分析、决策模型与提标体系,建立数据整合机制,整合业务系统的数据,帮助企业管理者借助先进的管理工具开展分析和决策,实现企业的量化管理和基于数据的科学决策。

ea270b705ee6eac630536bd88e75e0fe.png

     管控机制和管控手段形成数据管控矩阵,能有序高效地提升数据架构各个层次的管控及协作能力,增强企业级数据模型驱动力,使其有序开展及持续优化。

0ce8368adb6d097b5c5c6f57f2ff40b6.png      

管控政策。通过政策和规范的方式发布数据管控各个相关部门的责任,明确数据管控各领域的政策、规范和实施办法,确保数据管控的管理原则和执行是一致地贯穿全行,改变或规范各个部门数据管控人员的行为。

     管控组织。建立明确的数据管控组织架构与人员角色定义,明确某类数据的责任人,定义不同数据责任人的职责,对某一特定数据范围内的信息的正确性,一致性和及时性负责。

     管控流程。定义数据管控各个领域的工作方法和步骤,明确各个相关部门在数据管控各个领域中的分工和协作关系。

     管控工具。提供一套数据管理的支撑系统,支撑数据质量的规则,问题的集中管理,支撑数据标准的发布,查询,变更等流程。

     数据质量管理。一致和准确的数据是业务运营与决策分析的基础,良好的、高质量的数据可以有效降低系统建设成本,外部的监管和规范,如反洗钱、Basel II、SO等,对数据的质量提出了越来越高的要求。

e1be13e0b51989d3437dc74fb44c9db4.png

    数据生命周期管理。减低成本、简化管理(控制存储需求、软硬件以及人力成本等),提高效率(提升系统性能,合理利用人力、流程、技术提高信息服务效率),控制风险,有效合规(提高对审计的控制、遵守政府和行业规范等)。

     数据标准管理。加强业务的标准化工作,规范重点业务内容,强化业务管理,加强现有数据的交互性,支撑统一的业务管理,推动主数据系统的建设,完成重点数据的统一管理,完全共享。

     元数据管理。业务术语、标准等的统一定义、管理、引用,各式数据流(像文件交换、点对点直连、企业数据总线等)的管理,数据的创建/引用/关联、血缘的分析,对其它数据管理领域,像数据质量、数据生命周期的支撑。

cf5dd7c31ee9c5af8c36e24bb20e79d9.png

     企业经历了数据集市、数据仓库、大数据平台多次迭代和发展,正在从以数据统计分析为主的“数据辅助决策”向以人工智能支撑的“数据驱动决策”的演进。必须规划设计数据模型、数据布局、数据交换、数据服务、数据管控的完整数据架构体系。整合机器学习知识图谱技术,提升智能化基础支撑。建设共享复用的标准化数据服务体系及数据展现工具,促进企业用户参与数据价值的深入挖掘和灵活运用

2c7efb8ac169507519f07c30e37fd64d.png      

强化数据资产治理。随着对数据价值认识的深化,各专业分析挖掘需求也呈现爆发式增长,大数据应用的广度和深度大大拓展,为数据架构、数据标准、数据质量、数据安全等方面管理带来挑战。企业可以依托大数据服务云建设,重构数据架构与数据治理管控体系。制定数据治理的管理制度和技术规范,建立涵盖事前预防、事中监测、事后评估改进的全生命周期数据治理流程,设置与数据治理相匹配的组织架构,合力做好数据治理工作。实现企业级数据资产的全生命周期运营管理,确保数据的一致性、准确性,有效防范了数据、模型等新型风险,支持数据驱动下的应用创新。

     建立数据标准体系,推动数据标准化。一是制定企业级数据标准,为数据 标准化夯实基础。参考国家标准和行业标准,坚持“定义统一、口径统一、名称统一、来源统一、参照统一”的原则,建立了统一的企业级数据标准。二是推动数据标准贯彻应用,实现业务和技术联动的全流程贯标。在业务需求阶段,运用业务架构建模方法,基于实体模型实现源头贯标,从业务层面推进数据标准化建设。在IT设计实现阶段,承接业务架构的实体模型设计成果,通过和元数据管理系统联动,实现数据字段关联标准与合标校验,确保数据标准的贯彻应用。对于存量数据,结合数据架构、应用重构等重大项目同步开展存量系统贯标改造。

     建立数据质量管理体系,强化数据质量闭环管理。一是建立分工明确的三层数据质量治理机制。上游源系统在系统设计过程中落实数据质量检查以确保增量数据质量,并对发现的数据质量问题进行源头治理。基于全入湖数据,依托大数据服务云,实现贴源数据质量检查规则的全面部署和检查。下游数据使用系统负责响应监管及业务的要求,并开展加工后的数据质量规则部署和检查。 二是建设全流程闭环管理的数据质量管理系统。依托系统实现数据质量检查规则统一管理,支持用户自助或系统固化等方式部署检查规则,依托大数据服务云实现数据质量全面检查,形成“制定规则、规则检查、发现问题、问题分析治理、后评估”的全流程闭环管理。检查范围包含数据完整性、准确性、业务有效性、关联一致性、唯一性等各个维度,实现对数据质量治理的全面支撑。

     构建企业级安全体系,实现数据全面保护。一是建立企业级安全规范,支持覆盖全生命周期的数据安全保护。参照国家安全等级技术保护要求,结合自身实际情况,建立企业级安全规范体系,按照数据架构制定重要数据的分类分级规则,明确不同安全等级数据在生命周期各阶段的保护要求。 二是完善数据安全防护功能,保护数据的机密性与完整性。通过集中身份认证、数据及用户分级管理,防范非授权访问。

     下面是数据架构管理价值案例:

     (1) 数据架构促进数据资产管理

85c09ea24c3276f96f65f4d931800244.png

   (2)数据架构管理实现数据架构及存储、性能的整体提升

4c37b0ae1432953a52cc8acc3be65c07.png      

经过多年信息化建设,大型企业普遍积累了较大规模的数据,其内容也日趋丰富。随着大数据、人工智能等技术快速发展,数据资产价值凸显。开展数据治理、挖掘数据价值、推动智能化应用,成为众多企业推动经营管理变革,实现数字化转型的重要手段。

     一是坚持以数据架构规划为基础,持续优化提升数据资产运用所需的算力、算法,完善数据资产的布局和管理;

     二是以数据治理为抓手,针对数据标准、数据质量、数据安全等开展数据资产的全面运营管控;

     三是以业务热点、痛点为驱动,开展企业级数据智能化应用。通过数据架构、数据治理、数据应用的相互促进,才能赋能业务智能化,有力推动数字化转型。



相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
7天前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
27 8
|
8天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
67 7
|
8天前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
31 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
150 66
|
4月前
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
82 0
|
1月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
2月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
46 5
|
3月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
3月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
3月前
|
机器学习/深度学习 自然语言处理 数据处理
下一篇
无影云桌面