大数据治理系列:1 谈谈大数据治理的核心原则

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 当业务和IT专业人员第一次谈到大数据治理的时,许多人对大数据治理的复杂性感到不知所措。系统的数量和相互竞争的业务日程将如此多的变量混杂在一起,以至于手头的任务似乎无法管理。

当业务和IT专业人员第一次谈到大数据治理的时,许多人对大数据治理的复杂性感到不知所措。系统的数量和相互竞争的业务日程将如此多的变量混杂在一起,以至于手头的任务似乎无法管理。成功地解决问题需要专注于基本原则,决定核心价值的数据是什么,然后将决策过程与这些原则联系起来。治理大数据所需的原则来源于基本的数据管理实践。它们随着技术进步带来了创造价值的新机会和需要管理和控制的新风险而演变。

乍一看,您可能会将这些原则视为常识或良好的数据管理而不屑一顾。尽管这是事实,但这些原则在许多组织中却很少得到实践。常识很少是普遍的实践,为了走捷径和妥协,原则被抛在一边。作为信息治理过程的一部分,您必须问自己,组织中的数据状态是什么,为什么会出现这种情况?

组织的领导应该将这些原则付诸行动。这项任务是通过确保将这些原则广泛地传达给处理数据的每个工作人员来完成的。员工需要这些原则作为他们的指导,因为他们每天都要做出成千上万个小的决定,而这些决定是你的组织成功所需要的。没有它们,这个组织就会向千百个随机的方向出发。这些原则必须成为组织的基础和“DNA”的一部分。这些原则是创建策略的基础,这些策略体现了这些原则是如何在您的组织中常规应用的。与向组织传达和体现原则相比,策略是次要的。

大数据治理的核心原则

大数据治理的原则是基于一个简单的核心规则:组织管理数据的目标是尽可能快地移动信息,同时保持质量尽可能高、尽可能安全。

这是其他原则的主要来源。这是一个简单的概念,但却有着深远的影响。它建立了一种微妙的平衡行为,将生产率和质量作为平衡的要素,有时在不同的目的下工作,如下图所示。

b41d6e698044f47373cc3acc94766a46.jpg

核心原则中“尽可能”一词的使用是有意为之的。完美不是大多数组织的选择。在现实中,生产力和质量只需要保持领先于竞争对手,并稳步提高。这是客户和股东评判企业能力的标准。在短时间内,你可能需要选择其中一个,但是太长时间的不平衡会导致任何组织的灭亡。

组织必须在确保数据符合目的和拥有健康的生产节奏之间保持适当的平衡。只有您的组织才能确定何时达到了临界点,即任何额外的治理和监督只能提供有限的价值或最小程度地降低风险。这个决定属于高层领导,而不能授权。

大数据治理的核心原则为领导提供决策的基础,并向组织的较低层次传达他们的意图,从而为领导服务。了解了这些原则之后,在高生产力时期所需的决策仍然可能与企业数据治理委员会的意图保持一致。

这些原则中有许多是结构化数据领域中的常识和常见实践。它们的起源可以追溯到几十年前开发的良好数据管理实践。它们是这些实践的扩展,通常为许多监管需求提供基础,如SOX、HIPPA、Dodd-Frank等。在这里将它们扩展到大数据治理所必需的原则。如果您的组织还没有建立基于原则的治理计划/结构,那么可以考虑从以下方面着手:

1、保持敏捷:数据治理实践的焦点必须允许对技术、客户需求和内部流程的变化做出敏捷的响应。

-组织必须能够对紧急技术做出响应(每天,而不仅仅是当天)。

-考虑规则和管理控制如何可能降低生产力。

-在不显著影响工作流程的情况下进行标准化。

2、法规遵从:必须能够将社会契约应用于个人或流程结合策略和法规带入组织的数据。

-上市公司:履行保护股东投资的义务,在创造价值的同时管理风险。

-私人公司:符合隐私法,即使财务法规不适用。

-两种类型的公司:履行国际、国家、地区和地方政府的外部法规的义务。

3、管理质量:由于信息和数据是业务的核心,因此信息内容的质量对您的持续成功至关重要。

-对于大数据,数据必须符合目的;评估时可能需要假设背景。

-质量并不意味清洗工作,而清洗工作可能会掩盖清洗结果。

4、鼓励结果:您的人员是保证数据质量、安全性和治理/遵从性的手段。

-持续产生意识,作为治理计划的关键任务。例如,许多公司提供定期的个人信息保护培训。

-按照这些原则定期对组织进行审计和衡量,并将结果纳入个人和部门的绩效监测。

5、映射信息:理解您的整个业务和跨所有流程的信息流,使您能够成功地实现您的前两个原则。这需要在整个组织中捕获和记录静态数据和动态数据。

-在大数据中,起源和血统仍然很重要,如果不是更重要的话。

-消息来源是什么?这是验证分析结果是否符合目的的关键问题。

-它要去哪里或已经去了?对于正在进行的系统维护和支持工作来说,这是一个至关重要的问题。

-启用审计报告,这被认为是一个基本的监管合规功能。

6、管理含义:数据是企业的语言。为此,理解您使用的语言并积极地管理它,可以减少歧义、冗余和不一致,这些都直接关系到信息的质量。

-大数据可能没有提供逻辑数据模型,因此,在实践中,任何结构化数据都应该映射到企业模型。

-大数据仍然有上下文,因此建模对于创建知识和理解变得越来越重要。

-确定在报告和分析中可以容忍的歧义程度。将这种不确定性作为度量来度量和监视。

-计划随时间变化的意义。定义随着时间的推移而演变,企业必须计划管理含义的转变。

7、管理分类:对于业务主管来说,一旦所有者引入整个源和内容,就立即对其进行分类,以支持信息生命周期管理、访问控制和法规遵从性,这一点非常重要。

-公共与私人。

-保持期/时间表。

—安全级别。

-适用的监管控制(例如,PII、PCI和非法内容)。

-无损检测在分段区域(静止数据)进行评估/分类,或在流中进行威胁评估/功能(运动数据)。

-如果您没有对传入流的积极控制(例如,Twitter提要是不受控制的),那么您必须有组件来监视和分类跨边界的内容。这需要能够排除任何不符合验收标准的数据。

8、保护信息:保护数据质量和访问权对于维护客户及其客户的信任至关重要。

-您的信息保护不应因权宜之计、便利性或最后期限(例如,简单的数据探索)而受到损害。如果条件允许,则应由适当的管理团队决定例外情况并形成文档。

- -接受预测新的风险如何出现的困难是一个事实。

-不仅要保护你引入的内容,还要保护你加入/链接的内容,以及你从中获得的内容。你的客户会指责你没有保护他们免受恶意链接的攻击。

-企业必须制定策略,以处理更多的数据、更长的保留期、更多的试验数据、更少的围绕数据的过程,同时努力在更长的时间内获得更多的价值。

9、促进管理:确保数据的适当使用和重用需要员工的行动。此角色不能自动化,需要业务组织的成员积极参与,以充当数据元素或源的管理员。

-源数据集/内容(包括结构化数据元素、元数据和非结构化文件/消息内容)是用于一个关键业务流程,报告或分析过程,数据管家从业务应该被分配负责定义内容、验证规则,安全水平和质量标准的数据元素。数据管理员的记录必须始终保持最新。

-专员不属于IT部门(除非他们拥有业务流程)。管家是公司里的人;他们监督为合法商业目的而获取或创建的数据。

-从业务角度对数据的类型和主题领域进行控制。除非数据来自它们自己的业务流程,否则信息技术只是一个启用器。

10、管理需求:政策和标准是管理人员沟通其长期业务的机制要求。它们对于有效的治理计划至关重要。

-影响数据获取、存储或移动方式的项目必须参考所有适用的策略和标准。这些策略和标准必须与业务需求同等对待。

-如果你正在启动一个大数据项目,你可能需要一个大数据政策(或重新审视现有政策),看看什么适用,什么独特风险/价值机会被创造。重新审视规则,因为大数据正在改变游戏规则。

-考虑到大数据意味着较少的人为干预和确定新的应对方法的能力。

-您必须构建中断进程,以避免失控的进程,并监控此类事件。团队必须计划反馈机制来控制变更速度,以避免被失控的流程或决策引擎所淹没。

11、管理反馈:作为策略和标准的伙伴,当策略和标准与新的业务需求发生冲突时,升级和异常流程可以在整个组织中进行沟通。它形成了驱动策略和标准文档改进的核心过程。

-每个政策或标准都必须有一个渠道,以促进那些被要求遵守政策或标准的人所确定的变化。这符合第一条指导原则。

-一般来说,有了政策和标准,就必须存在、知道和遵循升级过程。

-您必须考虑创建和管理策略异常的能力,并确保随着时间的推移清除异常。例外情况永远不应该成为永久的解决方案。

12、培育创新:治理不能压制创新。治理能够并且应该适应新的想法和增长。这是通过将基础设施环境作为体系结构的一部分进行管理的。

-在开发过程中,除了为数据的变更和保护进行设计外,不断的创新必须在有限的治理约束下发挥作用。

-作为任何技术开发工作的一部分,项目必须报告需要对策略、标准、现有流程、数据模型或业务术语进行哪些更改。其目的是将驱动治理的核心原则灌输进去

13、控制内容:第三方数据在大数据中发挥着越来越大的作用。有三种类型(定义如下),治理控制必须适合于具体情况。它们必须考虑适用于业务地理区域的规章;因此,您必须理解并管理这些义务。

-外包交付(您的代理):契约需要反映您的策略,因为您仍然要对数据的内容负责(例如,可跟踪性)。

-数据提供者(发布或向您出售):您的责任是什么(例如,基于错误数据的错误行为)与第三方提供者的责任是什么(错误的紧急响应)?根据条款和条件,责任属于第三方。

-数据订阅者(向您购买):责任属于交付者,具体取决于条款和条件。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 SQL 分布式计算
闲侃数仓优化-大数据治理和优化
闲侃数仓优化-大数据治理和优化
41 0
|
10天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用问题之dataworks仅支持maxcompute上面的数据治理吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
存储 数据采集 算法
大数据平台治理——运营的角度看数仓
大数据平台治理——运营的角度看数仓
25 0
|
2月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
47 0
|
2月前
|
存储 SQL 分布式计算
大数据平台治理资源成本化
大数据平台治理资源成本化
31 0
|
2月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
109 0
|
2月前
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
|
10月前
|
SQL 存储 分布式计算
深入MaxCompute,人力家借助Information Schema合理治理费用
本文将为大家带来MaxCompute与人力家客户案例深度解读。
1151 1
|
8月前
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
|
人工智能 网络协议 大数据
大数据产业博览会上提出了“人工智能103.36.166伦理杭州BGP四原则”
大数据产业博览会上提出了“人工智能103.36.166伦理杭州BGP四原则”