大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
数据治理需要进行系统的学习才能真正掌握,也需要进行专业的考试认证才能证明自己在数据治理方面的学习能力和知识掌握情况。如果对数据治理和数据治理认证CDMP有疑问的话,可以参考我之前的文章,有详细的介绍。
5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)
正文共:5471字 9图
预计阅读时间:14分钟
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。
文章较长,建议收藏后阅读。
后续的文档请关注公众号 大数据流动,会持续的更新~
本文档为文件和内容管理思维导图与知识点整理。共分为5个部分,由于页面显示原因,部分层级未能全部展开。结构如下图所示。
一、文件和内容管理
文件和内容管理:是针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。
重点在于保持完整性,确保可访问。确保安全和高质量,需要可靠的架构和管理良好的元数据。
其语义关系图如下:
业务驱动因素:法规遵从性要求、诉讼响应能力、电子取证请求能力、业务连续性要求。帮助提高组织效率。
目标:
1)确保能够高速有效地采集和使用非结构化的数据和信息。
2)确保结构化和非结构化数据之间的整合能力。
3)遵守法律义务并达到客户预期。
原则:
1)组织中的每个人都应该在保护组织的未来方面发挥作用。每个人都必须按照既定的制度和程序来创建、使用、检索和处置档案。2)档案和内容处理方面的专家应充分参与制度和规划的制定。
ARMA 国际在 2009 发布的档案保存指导原则 GARP:1)问责原则。2)完整原则。3)保护原则。4)遵从原则。5)可用原则。6)保留原则。7)处置原则。8)透明原则。
为方便理解,整理本部分思维导图如下:
二、基本概念
1、内容
内容是指文件、档案、网站内的数据和信息。
【内容管理】
内容管理包括用于组织、分类和构造信息资源的流程、方法和技术。
内容管理在网站和门户中尤为重要。
【内容元数据】
元数据对于管理非结构化数据至关重要。
非结构化内容元数据包括:格式。可搜索性。自我描述性。既有模式。内容主题。需求。
【内容建模】
内容建模:将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程。分为信息产品级别、组件级别两个层次。
【内容分发方法】
1、推式,如 RSS。
2、拉式,如访问淘宝。
3、交互式,如企业应用程序集成 EAI、更改数据采集、数据集成和 EII。
2、受控词表
被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索术语的定义列表。
受控词表的一个例子是都柏林核心元素表(DC)。
【词汇表管理】
词汇表管理关键问题集中于用途、消费者、标准、维护 4 个方面。
【词汇表视图和微控制词汇表】
词汇表视图(Vocabulary View)是受控词表的子集,涵盖了受控词表领域内有限范围的主题。
微控制词汇表(Micro-Controlled Vocabulary)是包含一般词汇表中不包含的高度专业化术语的词汇表。
【术语和选择列表】
术语列表仅仅就是一个列表。
选择列表通常隐藏在应用程序中。
【术语管理】
术语管理包括在受控词汇表中建立术语之间的关系。关系的类型:1)等价术语关系(Equivalent Term Relationship)。
2)层次化关系(Hierarchical Relationship)。它描述广义(一般)到狭义 (特定)或整体-部分的关系。
3)关联关系(Related Term Relationship)。与受控词表中的另 一个术语相关联,但这种关联不是层次化的。
【同义词环和规范表】
同义词环是指一组含义大致相同的术语。
规范表是描述性术语的受控词表。
【分类法】
分类法是指任何分类或受控词表的总称。
1、扁平分类法
2、层次分类法
3、多重层级结构
4、面分类法
5、网状分类法
【分类方案和打标签】
分类方案是代表受控词表的代码。
【主题词表】
一种用于内容检索的受控词表。
【本体】
本体是一种分类法,代表一套概念和它们之间在某个领域内概念之间的关联。
分类法和主体之间存在两个主要区别:
1、分类法为给定的概念区域提供数据内容分类。
2、在分类法或数据模型中,定义是已知的。
3、文件和档案
文件(Document)是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等的电子或纸质对象。文件可用于交流并分享信息和知识。
只有部分文件才能称为档案 (Record)。
档案可用于证明所做的决策和所采取的行动是符合程序的;可作为组织业务活动和法规遵从的证据。档案通常是由人来创建的,但仪器和监控设备也可以提供数据来自动生成档案。
【文件管理】
文件管理包括在文件和档案的整个生命周期中控制和组织它们的流程、方法和技术。它包括电子和纸质文件的存储、编目和控制。关注文件本身,几乎不关注文件内容。市场和监管压力都将重点放在档案保管期限表、地点、传送和销毁上。
【档案管理】
档案管理是文件管理的一部分,有一些特殊要求。
管理文件和档案的生命周期包括:编目。制度。分类。存储。检索和流传。保存和处置。
精心管理档案具有以下特点:1、内容;2、背景;3、及时性;4、永久性;5、结构。
【数字资产管理DAM】
和文件管理流程相似,专注于存储、跟踪和使用视频、徽标、照片等富媒体文件。
【数据地图】
数据地图是所有ESI数据源、应用程序、IT环境的清单。
【电子取证】
电子文件通常具有元数据,他们在证据中起着重要作用。
【信息架构】
信息架构是为信息体或内容创建的结构。它包括以下组件:1)受控词表。2)分类法和本体。3) 元数据映射。4)搜索功能规格。5)用例。6)用户流。
信息架构和内容制度共同描述了“什么”, 即哪些内容将在系统中被管理。
设计阶段描述了“如何”实施内容管理制度。
【搜索引擎】
根据术语搜索信息并检索内容中包含这些术语网站的软件。
【语义模型】
语义建模:一种知识建模,描述一系列概念网络(有关的想法或主题)以及它们之间的关系。
语义模型包含语义对象和语义约束。
语义对象是模型中表示的事物,它们可以具有基数和域的属性以及标识符。它们的结构可以是简单的、合成的、复合的、混合的、关联的、父/子类型或原型/ 版本。
语义约束表示 UML 中的关联或关联类模型,这些模型有助于识别模式和趋势,并发现可 能看起来不相干信息之间的关系。
【语义搜索】
语义搜索(Semantic Search)侧重于语义和语境而非预先设定的关键字。可使用人工智能。要弄清用户想要什么。
【非结构化数据】
多达 80%的数据存储是在关系型数据库之外维护。工作流程需要具有可重复执行的能力,在理想情况下包含对种内容通用的流程步骤。
【工作流】
通过一个工作流管理内容开发,以确保内容按时创建并获得适当的批准。
为方便理解,整理本部分思维导图如下:
三、活动
【活动 1】规划生命周期管理
1.规划档案管理。(什么是档案;存在哪;老旧档案处置;)
- 制定内容策略。(从当前状态审视和差距评估开始。元数据分类和 SEO)
【活动 2】创建内容处理制度
多数文件管理制度有这些内容
1)审计的范围和合规性。
2)重要档案的鉴定和保护
3)保留档案的目的和保管期限表。
4)如何响应信息保留命令(特殊保护令),即针对已过保留期的诉讼信息要求。
5)本地和异地存储档案的要求。
6)硬盘驱动器和共享网络驱动器的使用和维护。
7)对电子邮件管理,从内容管理的角度进行处理。
8)合理的档案销毁方法。
【活动 3】定义内容信息架构
需要从结构和非结构化的数据中,检索出用户需要的信息。
【活动 4】实施的生命周期管理
1.获取档案和内容。2.管理版本控制。3.备份和恢复。4.管理保管和处置。5.审计文件/档案。
ANSI 859 标准基于数据的重要性及数据损坏或不可用时可能造成的损害,将数据控制分为 3 个 等级:正式控制、修订控制、托管控制。
【活动 5】发布和分发内容
1.开放访问、搜索和检索。2.通过可接受的渠道分发。
为方便理解,整理本部分思维导图如下:
四、工具、方法和实施指南
工具
【企业内容管理系统】
文件管理:一些文件管理系统拥有工作流,1、手动工作流。2、基于规则的工作流。3、动态规则。
内容管理系统CMS,负责管理内容的整个生命周期。
内容和文件工作流,在内容发布之前,工作流应支持对内容的审核和批准。
【协作工具】
用于收集、存储、工作流程和管理与团队活动相关的文件。
【受控词汇表和元数据工具】
帮助管理受控词汇表和元数据的工具,包括办公软件、元数据库和BI工具,以及文件和内容管理系统。
1、在组织中被用作数据指南的数据模型。
2、文件管理系统和办公软件。
3、元数据库、术语表或目录。
4、分类法和分类法之间的交叉参考模式。
5、集合索引、文件系统、民意调查、档案。
6、搜索引擎。
7、非结构化数据的BI工具
8、企业和部门同义词表。
9、已发布的报告库、内容和参考书目及其目录。
【标准标记和交换格式】
标准的标准标记和交换格式有助于在信息系统和互联网之间共享数据。
1、可扩展标识语言XML。
2、基于JavaScript语言的轻量级的数据交换格式JSON。
3、资源描述框架RDF 和相关的万维网联盟 W3C规范。
4、Schema.org。
【电子取证技术】
电子取证通常涉及审查大量文件。
方法
1、诉讼应诉手册。
2、诉讼应诉数映射,电子取证有时间限制(90 天限制)。
实施指南
实施企业内容管理(ECM)是一项代价高昂的长期工作。
【就绪评估,风险评估】
ECM 就绪评估的目的:确定内容管理需要改进的方面,以及组织对改变其流程以满足这些需求的适应程度。
1、档案管理成熟度
ARMA 有一个信息治理成熟度模型:1)1 级,低于标准的(Sub-Standard)。信息治理和档 案保管问题没有得到解决或只是最低限度的解决。2)2 级,发展中的(In Development)。认识到信息治理和档案保管可能对组织产生的影响。3)3 级,基本的(Essential)。必须满足法律法规的最低要求。4)4 级,积极的(Proactive)。已经建立了一个以持续改进为重点的主动式 信息治理计划。5)5 级,完成变革的(Transformational)。信息治理已经融入企业的基础架构和业务流程中。
2、电子取证评估
评估准备中应检查并确定诉讼应诉计划的改进机会。
【组织和文化变革】
人员可能是更大的挑战。
为方便理解,整理本部分思维导图如下:
五、文件和内容治理
【信息治理架构】
信息治理驱动因素:1、法律和法规遵从。2、档案的合理处置。
3、对电子取证的前瞻性准备。4、敏感信息的安全。5、电子邮件和大数据等风险领域的管理。
信息治理参考模型 IGRM:展示信息治理与其他信息功能的关系。
【信息的激增】
非结构化数据的增长速度远远快于结构化数据。
管理非结构化数据需要数据管理专员与其他数据管理专业人员、档案管理人员的有效合作。
【管理高质量的内容】
定义高质量的内容需要了解:1、生产者;2、消费者;3、时间;4、格式;5、分发。
【度量指标】
1.档案管理:ARMA 的 GARP 原则类别和成熟度模型可以指引 KPI 的定义。
衡量档案管理实施成功的标准:1) 每个用户有百分之几的文件和电子邮件被认定为是公司的档案。2)被认定为公司档案中有百分 之几得到了控制。3)在所有存储的档案中有百分之几的档案应用了适当的保管规则。然后将以上百分比进行比较,以确定出最佳实践的百分比值。
2.电子取证:成本降低、对比被动收集信息的方式,提前收集信息时提高的效率(如转为电子取证平均需要几天时间)、组织可以快速地进 行法律保留通知的过程。
3.企业内容管理:衡量企业内容管理(ECM)的有形和无形效益。有形效益包括提高生产力、降低成本、提高信息质量和改善合规性;无形效益包括增进协作、简化工作程序和工作流。
为方便理解,整理本部分思维导图如下:
未完待续~