大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
数据治理需要进行系统的学习才能真正掌握,也需要进行专业的考试认证才能证明自己在数据治理方面的学习能力和知识掌握情况。如果对数据治理和数据治理认证CDMP有疑问的话,可以参考我之前的文章,有详细的介绍。
5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)
正文共:6674字 9图
预计阅读时间:17分钟
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。
文章较长,建议收藏后阅读。
后续的文档请关注公众号 大数据流动,会持续的更新~
本文档为数据存储与操作思维导图与知识点整理。共分为6个部分,由于页面显示原因,部分层级未能全部展开。结构如下图所示。
一、数据存储概述
数据存储与操作定义:管理数据存储的设计、实现和支持活动,以实现其最大化价值,贯穿数据创建和获取到处置的整个生命周期。
其语境关系图如下所示:
目标:1 贯穿整个数据生命周期,管理数据的可用性。2 确保数据资产的完整性。3 管理数据交易的性能。
输入:数据架构。数据需求。数据模型。服务级别协议。
业务驱动因素:保障业务连续性。
活动:1 管理数据库技术(理解数据技术。评估数据库技术。管理和监控数据库技术)。2 管理数据库操作(理解需求。规划业务连续性。创建数据库实例。管理数据库性能。管理测试数据集。管理数据迁移)。
交付成果:数据库技术评估标准。数据库环境。迁移/复制/多版本数据。业务连续规划。数据库性能操作级别协议 OLA。
度量指标:数据存储/性能/操作/服务四个度量指标。
工具:数据建模工具。数据库监控工具。数据库管理工具。开发支持工具。
方法:变更实施路径。物理命名标准。数据生命周期管理。所有变更操作脚本化。
指导原则:1 识别自动化的机会并采取行动。2 构建时就考虑重用的思想。3 理解并适当使用最佳实践。4 支持数据库的标准需求。5 为项目中的 DBA 角色设置期望值。
为方便理解,整理本部分思维导图如下:
二、基本概念
1、数据库术语
1、数据库:存储数据的集合,大型也称实例或模式。
2、实例:通过数据库软件指定一存储区域的控制访问。每个实例相互独立。
3、模式:模式是数据库或实例中数据库对象的一个子集。
4、节点:一台单独的计算机作为分布式数据库处理数据或者存储数据的一个部分。
5、数据库抽象:通过API接口来调用数据库函数。
2、数据生命周期管理
数据生命周期管理包括数据的获取、迁移、保留、过期和处置进行的实施策略和过程。
3、管理员
数据库管理员(DBA)是数据专业中最常见,也是最广泛被接纳的角色。
DBA 为开发环境、测试环境、QA 环境和其他特殊数据库环境提供支持。不是独立完成数据存储和操作活动的唯一角色 。
按专业分工,DBA可分为生产 DBA、应用程序 DBA、过程和开发 DBA、网络存储管理员 NSA。
【生产DBA】
生产 DBA 主要负责数据操作管理,包括:1)通过性能调优、监控、错误报告等活动,确保数据 库的性能及可靠性。2)通过建立备份与恢复机制,确保在任何意外情况下数据能够被恢复。3) 通过建立集群和容错机制,确保数据连续可用。4)执行其他数据库维护活动,如建立数据归档机制。
生产 DBA 交付的成果:1)生产数据库环境,确保性能,配置适当的安全性、可靠性和可用性级 别。数据库系统管理员为 DBMS 的环境负责。2)控制数据库实施变更的机制和流程。3)建立确保数据完整、可用和恢复的机制。4)建立错误检测和报告的机制。5)提供与服务水平协议 (SLA)相匹配的数据库服务。6)建立性能监控的机制和过程。
【应用程序DBA】
应用程序 DBA:负责所有环境(开发、测试、QA 及生产)中的一套或多套数据库,而不是指定负责管理某个环境的数据库系统。
【过程和开发DBA】
过程和开发 DBA:负责审查和管理数据库的过程对象。
【网络存储管理员】
网络存储管理员 NSA:关注支持数据存储阵列的软硬件。
4、数据架构类型
数据架构类型:集中式数据库、分布式数据库、可视化、云计算平台。
【集中式数据库】
单一数据库。
【分布式数据库】
管理多个系统上的多个数据库。
分布式系统组件可分为:联邦的(自治的)、非联邦的(非自治的)。
联邦数据库对于类似企业信息集成、数据可视化、模式匹配和主数据管理这样异构和分布式的集 成项目非常合适。分松耦合、紧耦合。
区块链数据库是一种联邦数据库,用于安全管理金融交易。它有单条记录和块两种结构类型。
【可视化、云计算平台】
在云上实施数据库的方法:1、虚拟机镜像。2、数据库即服务 DaaS。3、管理托管云上的数据库。
DBA 需要建立系统的项目集成机制:标准化/整合。服务器虚拟化。自动化。安全。
5、数据处理类型
有两种基本类型:ACID(强调一致性)和BASE(强调可用性)。CEP定理用于界定分布式系统与那个类型更加接近。
ACID:1)原子性(Atomicity)。2)一致性(Consistency)。3)隔离性(Isolation)。4)持久性(Durability)。
BASE:1)基本可用(Basically Available)。2)软状态(Soft State)。3)最终一致性(Eventual Consistency)。
在大数据环境中,BASE非常常见。
CAP定理:分布式系统不可能同时满足ACID的所有要求,系统规模越大,满足的要求点越少。
分布式系统必须在各种属性间进行权衡:1)一致性(Consistency)。2)可用性(Availability)。3)分区容错(Partition Tolerance)。
CAP指出在任何共享数据的系统中,这3项要求最多只可能满足其中两项。3 选 2。
大数据中的Lambda 架构使用,Lambda 架构通过两种路径来使用数据。当可用性和分区容错更重要时采用 Speed 路径,当一致性和可用性更重要时采用 Batch 路径。
6、数据存储介质
数据存储介质:1 、磁盘和存储区域网络 SAN。2、内存。3、列压缩方案。4、闪存。
7、数据库环境
数据库环境:
1、生产环境。
2、非生产环境(开发环境。测试环境。数据沙盒或实验环境。)
测试环境通常用于:1、质量保证测试(QA). 2 集成测试 3用户验收测试(UAT) 4 性能测试
8、数据库组织模型
数据库组织模型:
【层次型数据库】
【关系型数据库RDBMS】
多维数据库:多用于数据仓库和商务智能。多维数据库对数据的访问使用的是SQL:变体的多维表达式。
时态数据库:特性包括有效时间和事务时间。
【非关系型数据库 NoSQL】
可以将数据存储为简单的字符串或者完整的文件。与传统关系数据库相比,他使用的一致性模型约束较少。
这样设计的动机是:简化设计,水平扩展性以及对可用性更好的控制。
1 列式数据库。
用面向列还是面向行,需要权衡:
当需要对很多行进行聚合计算时,面向列的存储更高效。
当一次向所有行更新某个列时,面向列的存储组织更加高效。
当同时需要一行数据的很多列,面向行的存储组织更加高效。
如果写入一条新纪录要提供所有行数据,那么面向行的组织效率更高。
在实践中,面向行的存储布局适用(OLTP 在线事务处理),面向列的存储布局适用(OLAP 在线分析处理)
2 空间数据库。
用于存储几何空间对象。
空间数据库可以执行操作:
空间评估;空间功能;空间预测;几何构造;观测功能。
3 对象/多媒体数据库。
高效管理磁介质和光存储介质。
4、平面文件数据库。
将数据集编码为单个文件的各种方法。
Hadoop使用的就是平面文件数据库。
5、键值对。
包含两部分:键的标识符和值。
文档数据库:面向文档的数据库包含由结构和数据组成的文件集合。
图数据库:图数据库存储关键值对,关注的重点是组成图的节点关系。
6、三元组存储。
由主语、谓语、宾语组成的数据实体成为三元组存储。
分为:原生三元组存储;RDBMS支持的三元组存储;NoSQL三元组存储。
9、专用数据库
1、计算机辅助设计和制造(CAD/CAM)
2、地理信息系统(GIS)
3、购物车功能
10、常见数据库的过程
常见数据库过程:
1 数据归档。
将可访问存储介质迁移到查询性能较低的存储介质上。
2 容量和增长预测。
评估总容量,数据增加速度,数据减少速度。
3 变动数据捕获 CDC。
检测数据的变动并确保与变动相关的信息被适当记录的过程。
有两种检测和收集更改的方法:
数据版本控制-评估标识已改动过的行的列。
通过读取日志,日志中记录变化,将变化复制到辅助系统中。
4 数据清除 purging。
归档,清除都要做。
清除是指从存储介质中彻底删除数据并让它无法恢复的过程。
5 数据复制replication
两种模式:主动复制。被动复制。
两个维度的扩展方式:水平数据扩展。垂直数据扩展。
两种复制方式:镜像。日志传送。
6 韧性与恢复。
韧性是衡量系统对错误条件容忍度的指标。
3种恢复类型:立即恢复。关键恢复。非关键恢复。
7 数据保留。
数据保持可用的时间。
数据保留需求影响容量规划,数据安全性也会影响数据保留计划。
8 数据分片。
是一个把数据库中的一部分独立处理的过程。
为方便理解,整理本部分思维导图如下:
三、活动
1、管理数据库技术
主要参考的是信息技术基础设施库(ITIL)
【理解数据库的技术特征】
数据专业人员必须先理解候选数据库的技术的特点。
【评估数据库技术】
选择数据管理系统(DBMS)非常重要。
考虑因素:
1、产品架构和复杂性
2、容量和速度限制,包括数据库传送速率
3、应用类别,如事务处理、商务智能、个人资料
4、特殊功能,如时间计算支持
5、硬件平台及操作系统支持
6、软件支持工具的可用性
7、性能评测
8、可扩展性
9、软件、内存、存储需求
10、韧性
还有一些与采购组织和供应商的因素:
1、组织对技术风险的偏好
2、提供训练有素的技术专业人员
3、拥有成本
4、供应商声誉
5、供应商支持策略和版本计划
6、其他客户案例
【管理和监控数据库技术】
DBA作为后台技术支持和服务商供应商的支持人员一起,理解分析和解决用户问题。
2、管理数据库操作
DBA和网络存储管理员提供的数据库支持是数据管理的核心。
【理解需求】
(1)定义存储需求。永久性还是临时性;初始容量;空间增长预测;数据保留合规性;
(2)识别使用模式:事务型;基于大数据集的读或写型;基于时间型;基于位置型;基于优先级型。
(3)定义访问需求。
适用于ACID的:SQL,ODBC,JDBC,XQJ,XML,web服务等
适用于BASE的:C,C++,REST,XML,Java等。
【规划业务连续性】
做好 备份数据和恢复数据。
【创建数据库实例】
创建数据库实例的活动:
1)安装和更新 DBMS 软件。
2)维护多种环境的安装。
3)安装和管理相关的数据技术。
安装和管理相关的数据技术:(1)物理存储环境管理(配置识别;配置变更控制;配置状态报告;配置审计)。
(2)管理数据访问控制(受控环境。物理安全。监控。控制。)
(3)创建存储容器。
(4)应用物理数据模型。
(5)加载数据。
(6)管理数据复制。(建议:主动或被动复制。基于分布数据系统的分布式并发控制。在数据更改控制过程中,通过时间戳或版本号来识别数据更新的适当方法。)
【管理数据库性能】
管理数据库性能的步骤:1)设置和优化操作系统及应用程序参数。2)管理数据库连接。3)与系统开发人员和网络管理员合并,优化操作系统、网络和事务处理中间件。4)提供合适的存储。5)提供容量增长预测。6)与系统管理员一起,提供操作工作负载和基准,以支持 SLA 管理、收费计划、服务器容量及规划的生命周期轮换。
管理数据库性能的内容:
(1)设置数据库性能服务水平。
通过IT数据管理服务组织和数据所有者之间的服务水平协议(SLA)来管理的。
(2)管理数据库可用性。【可管理性。可恢复性。可靠性。可维护性】
影响数据可用性的因素:
计划性停机(出于维护的考虑;出于升级的考虑)。
非计划停机(服务器硬件故障;磁盘硬件故障;操作系统故障;数据库软件故障;数据中心站点故障;网络故障)。
应用问题(安全和授权问题;严重性能问题;恢复失败)。
数据问题(数据损坏;数据库对象丢失;数据丢失;数据复制问题)。
人为错误。
DBA确保可用性的工具:备份工具。重组工具。统计信息搜索工具。数据完整性检查工具。自动执行上述工具。利用表空间聚类和分类。跨库进行数据复制保证高可用性。
(3)管理数据库运行。
DBA部署数据库监控,监视数据库运行,数据变更日志的使用和复制环境的同步等情况。
(4)维护数据库性能服务水平。
注意两个方面
1、事务性能与批处理性能。
2、问题修复。
数据库性能低下的常见原因:内存分配和争用。锁与阻塞。不准确的数据库统计信息。不良代码。低效而复杂的表连接。不当的索引。应用程序活动。过载的服务器。数据库的易变性。失控的查询语句。
(5) 维护备用环境。
替代环境类型:开发环境。测试环境。数据沙箱。备用的生产环境。
【管理测试数据集】
有效的测试需要高质量的测试数据,必须对这些数据进行管理。
【管理数据迁移】
迁移相关工作:
1、将过度使用的存储设备上的数据转移到一个单独的环境中。
2、根据需求将数据移动到速度更快的存储设备商。
3、实施数据生命周期管理策略。
4、将数据从旧的存储设备迁移到线上或者云存储上。
为方便理解,整理本部分思维导图如下:
四、工具、方法与实施指南
【工具】
1、数据建模工具
2、数据库监控工具
3、数据库管理工具
4、开发支持工具
【方法】
1、在低阶环境中测试
2、物理命名标准
3、所有变更脚本化
【实施指南】
1、就绪评估/风险评估:数据丢失。技术准备。
2、组织和文化变化:DBA和其他数据管理人员可以帮助克服这些组织和文化障碍。
为方便理解,整理本部分思维导图如下:
五、数据存储和操作治理
【度量指标】
数据存储的度量指标
1、数据库类型的数量
2、汇总交易统计
3、容量指标
4、已使用存储的数量
5、存储容器的数量
6、数据对象中已提交和未提交块或页的数量
7、数据队列
8、存储服务的使用情况
9、对存储服务提出的请求数量
10、对使用服务的应用程序性能的改进
性能度量的评估指标
1、事务频率和数量
2、查询性能
3、API服务性能
操作度量指标
1、有关数据检索时间的汇总统计
2、备份的大小
3、数据质量的评估
4、可用性
服务度量指标
1、按类型的问题提交、解决、升级数量
2、问题解决时间
【信息资产跟踪】
审计数据可以帮助确定每种技术和产品的总拥有成本(TCO)
【数据审计与数据有效性】
根据标准对数据集进行评估的过程。
DBA对数据审计和验证提供部分支持工作。
1、帮助指定和审查方法
2、进行初步的数据筛选和审查
3、开发数据监控方法
4、应用统计信息、地理统计信息、生物统计信息等技术来优化数据分析
5、支持采样及分析
6、审核数据
7、提供数据发现的支持
8、担任与数据库管理相关问题的主题专家。
为方便理解,整理本部分思维导图如下:
未完待续~