一 挥之不去的数据使用问题
我们不断听到关于大数据的爆炸式增长以及数据对任何领域的任何业务的重要性。但是,如此多的业务用户根本不使用他们的数据,因为他们不知道自己拥有什么(是否有企业数据的最新清单?),他们找不到它(是否组织中的任何人都知道重要数据的位置?)或者他们只是不信任它(我们找到了它,但它来自哪里,它意味着什么?)。如果不能明确回答所有这些问题,那么,令人惊讶的是,您并不孤单!
在大型组织中,数据不可避免地跨越多个系统,因此,IT 面临着整合来自各种流程和系统的数据的挑战性任务。例如,许多组织维护传统和遗留系统,并通过云存储、“大数据”Hadoop 集群和第三方供应商数据扩展其数据能力。这些数据存储库中的每一个都有自己的规则和要求。现代组织的数据供应链是海量、复杂和分散的。只需进行一次更改,例如第三方系统的数据推送切换,即可影响一系列业务流程。难怪组织在需要时难以确定正确的数据。然而,这些相同的组织需要以业务速度进行实时洞察,以做出明智的业务决策,以实现或保持竞争优势。
二 元数据管理基本知识
组织现在正在寻求用元数据来帮助解决这个问题。简而言之,元数据只是关于数据的数据。它可以告诉我们各种数据属性,包括数据所在的位置以及如何找到它。还记得通过识别作者、标题、主题或出版日期等信息(也称为元数据)来查找书籍的日子吗?卡片目录是您在图书馆中搜索内容的首要地方。它会告诉我们在哪里可以找到这本书以及图书馆是如何组织的。如果卡片目录告诉我们书籍是如何组织的,我们可以将集中式元数据门户视为数据的卡片目录。就像书籍驻留在图书馆、不同楼层、不同区域等一样,数据以不同格式分散在企业的不同系统中。元数据应该存储在中央位置,用于帮助组织标准化数据的定位方式。但是,在可以按类型组织元数据并了解其功能之前,需要回过头来了解元数据的基本内容并定义数据。
1.元数据的类型
元数据允许组织描述和记录数据,但大多数组织难以实施元数据解决方案。为了让元数据帮助组织更好地理解、跟踪和检索数据,他们必须首先了解如何有效地构建元数据本身。首先要了解三种不同类型的元数据。
物理元数据:这是最直接处理数据的物理位置和存储的元数据类型。它由可以由数据库或任何移动、更改或存储数据的技术应用程序自动填充的技术元数据组成。
逻辑元数据:这种类型的元数据涉及通过系统的数据流的设计。这可能包括模式或其他设计文档,这些文档描绘了数据应该如何从数据分析师或其他数据消费者的摄入到最终消费。该元数据可以从数据建模软件或系统架构师那里获取。
概念元数据:这种类型的元数据处理从业务角度理解的数据的含义和目的。它可以包括数据的典型用途,以及特定数据集在业务流程中的使用方式。这些信息中的大部分必须从业务用户的头脑中获取。这三种类型的元数据代表了查看和理解数据的三个有利位置。为了充分利用您的数据资产,有必要获取并保持更新所有三种类型的元数据。既然我们了解了如何管理元数据,我们就需要了解如何使用元数据。
2.元数据的功能
元数据可用于将基本信息汇总到高级功能。元数据使用方式的一些最常见示例包括搜索、浏览、联合、访问权限等。更高级的用法包括:
资源发现:使用相关标准元数据可用于查找数据资源,将相似资源聚集在一起,区分不相关资源并给出某些数据集的位置。
组织数据资源:元数据可用于根据主题组织来自各种数据源的数据文件和链接。促进和简化软件交换:可以使用元数据无缝搜索任何数据库或网络中的数据资源。
数据识别:使用文件名或 URL,元数据可用于查找任何数据对象的位置。
存档和保存:元数据对于确保数据资源将继续可访问和可用至关重要。元数据或有关数据集沿袭的信息是归档和保存的关键要素。
元数据管理不是一件容易的事,需要考虑很多。组织需要确保元数据存储在可以访问和索引的位置,以便轻松找到。元数据的质量需要保持一致,以便所有用户都可以信任它,并且相同的数据需要随着时间的推移保持最新。那么如何创建、维护、更新、存储、发布和处理元数据呢?这就是强大的数据治理策略可以提供帮助的地方。
3.组织和定义数据
在可以使用元数据创建一个词汇表来告诉组织数据的确切位置以及应该如何使用它之前,我们必须了解元数据的目的和对业务的价值。为了充分理解数据,必须对数据进行三角剖分——从三个不同的角度来看。从这些不同的角度收集元数据是全面了解数据在业务中的方式和位置的唯一方法:
物理数据视角:组织有多个数据库,每个数据库都有一个代码,指定每组数据的确切位置。此模型中的元数据应包括有关每个系统所在位置以及某些数据集在每个系统中的位置的信息。通常,此类元数据可以从运行物理硬件的软件自动派生。
逻辑数据视角:此类别应包含有关数据如何从 A 点传输到 B 点的元数据。本质上,它是一张地图,告诉组织数据的来源、发生了什么以及随着时间的推移它移动到哪里。逻辑数据模型显示数据应如何流经组织,并为我们提供元数据来自何处以及如何转换的蓝图。
概念数据视角:概念元数据应从业务角度传达数据集的含义和目的。它应该告诉用户数据的含义,它通常用于什么目的,它是什么时候创建的,它是否是最新的以及它是否是机密的等等。概念数据模型需要人工输入来定义数据。它还要求用户不断更新此元数据,因为它会随着时间而变化。例如,数据科学家可能会发现“旧”数据的新用途。在这种情况下,应更新用例元数据以反映数据的新用途。
为了有效地管理如此多的元数据,用户必须能够进入并建议更新,并提供适当的认证或批准流程。
一旦一个组织从这些角度查看他们的数据,元数据模型就会开始形成。下一步是实施适当的数据治理解决方案来组织元数据并将其放置在集中存储库中。
4.元数据管理平台
为了创建一个全面的数据词汇表,为业务专业人员提供所有权维度的透明度,组织需要构建数据治理平台。该平台应促进数据所有者和数据消费者之间的流畅通信。此外,它应该具有广泛的协作能力,让用户能够获得有关其数据的专业知识。该平台应提供组织数据环境的全面视图。通过向组织数据资产的各个方面提供透明度,业务用户不仅可以了解其数据资产的详细信息,还可以了解其数据质量以及与跨业务应用程序使用相关的风险。
与任何公司资产一样,需要当前的库存和价值评估才能开始跟踪和保护数据的过程。全面的当前元数据对于数据保护和安全至关重要。
最后,正确的平台应该具有自动发现功能,能够捕获和监控元数据的变化。一旦发现更改,技术元数据关系就是构建业务沿袭的原材料,以便在业务环境中提供对数据的有意义的见解。通过适当的数据治理策略,企业可以成功地创建一个全面的数据治理词汇表,其中包含出现在报告和应用程序等数据工件中的业务术语定义。数据治理的核心不仅仅是标准化的术语,而是监督数据和回答问题的人。这是通过分配负责组织和维护数据定义的数据所有者和数据管理员来实现的。
三 元数据管理基本构件
在信息时代的深处,趋势以闪电般的速度发展和成熟。随着大数据已成为常态,组织正在努力应对前所未有的数据量和速度,数据管理专业人士的最新流行语是“元数据管理”,这是有充分理由的。组织可以使用元数据来分类、管理和组织在其企业中收集的大量不同数据。此信息对于理解和有效部署资源以支持企业部门至关重要。元数据提供了关键信息,以实现真正的预测分析洞察力。
然而,管理元数据需要的远不止数据治理工具。它需要适当的基础、清晰的流程和合适的人员来执行工作。因此,元数据管理的构建既包括构成战略的工具和技术,也包括人员和流程的结合,以创建支持和问责的文化。与任何重大业务计划一样,从一开始就需要改变思想和克服挑战,这就是您不能等待的原因。
1.建立组织数据文化
当今企业在寻求实施数据计划时面临的一个典型挑战是获得高层管理人员的支持。另一个常见且相关的问题是实现或展示ROI所需的时间。在投资元数据管理时,将产生立竿见影的影响,尽管完整的投资回报率将在更长的时间内实现。正确管理元数据需要持久性,除非将流程构建到工作结构中,否则很少有组织能够维持这种持久性。但是,如果完全实施,回报是可观的,为组织提供更多的利润和更高的运营效率、优化的数据利用率和数据资产的最大价值。
组织很少有足够的资源来同时为多个项目配备人员,而那些需要专业知识(例如数据科学家)的人需求量很大,从而造成了瓶颈。不仅人们在争夺资源或分散在各个项目中,而且需要不同业务线之间广泛参与和协作的项目进一步破坏了进展。运营被日常业务所消耗,营销部门忙于创建活动和内容,IT 正在处理从数据到环境再到最终用户支持的无数请求和优先级,而财务则埋在平衡账目中。让每个人同时在同一个房间讨论、组织和定义数据几乎是不可能的,更不用说大多数利益相关者的低优先级了。
2.鼓励员工积极参与
那么如何让每个部门不仅参与元数据管理,而且投入元数据管理?每个部门都需要意识到,适当的元数据管理将帮助他们找到隐藏在组织数据中的“金块”,从而做出更好的业务决策和更高的盈利能力。如果找到正确的模式、趋势、洞察力和可操作信息不足以激励员工参与元数据管理,那么高层管理人员将不得不利用他们可以利用的所有资源来推动变革。这可以包括创建元数据工作的可见性、开辟职业道路以及创造性地建立与组织文化和政策相一致的短期和长期激励措施。一旦组织获得了上层管理人员的预算和支持,并为元数据管理可以与整个企业的员工和部门实现的目标奠定了基础,他们就可以开始建立元数据管理基础。
3.奠定元数据管理基础
在启动元数据管理程序时,组织内部或外部的人员必须处理三个基本步骤。它们是:
模型的设计和工具的实现:每个企业都是不同的,每个企业都需要确保他们的模型是定制的,以满足他们的特定需求。元数据模型的架构师必须保证组织正在收集正确的元数据清单以解决他们各自的业务问题。此外,还必须配置该工具以满足持续的业务需求。此步骤应由具有处理所有类型元数据经验的内部专家或外部顾问处理。理想情况下,架构师直接向首席数据官 (CDO) 报告。
元数据的监督和管理:与任何项目一样,需要指定一名项目经理来确保一切按计划进行。在这种情况下,组织需要一位了解元数据模型的经理,以保证一旦设计了工具,就可以收集和正确维护正确的信息,并且按时正确完成工作。经理角色的技术含量不高,但可以确保元数据模型联网在一起,以通过实现等提高设计的可用性。
元数据的采集:需要采集三种元数据。前两种类型是物理元数据和逻辑元数据。物理元数据处理数据的位置,逻辑处理通过企业的数据流。逻辑元数据的数据沿袭提供了有关数据来自和去向的关键信息,这两种类型本质上都是技术性的。因此,收集这些类型的元数据需要具有技术技能的分析师。许多物理和逻辑元数据在最初收集后可以自动刷新。另一方面,概念元数据处理从业务角度理解的数据的含义和目的。它是人们头脑中的“数据”,必须从各行各业的实际人员那里收集。元数据架构师可以监督这项工作,但它需要是一项战略性和协作性的工作。无论谁负责收集概念性元数据,都必须优先考虑并计划首先针对哪些元数据,以快速获取高价值信息。它涉及与来自不同业务线的人员进行一对一、小组或大型研讨会的过程,以及收集和记录他们的业务定义,以确保已知差异并记录在案,从而避免对数据的错误假设不要导致错误的决定。以快速获取高价值信息为目标。它涉及与来自不同业务线的人员进行一对一、小组或大型研讨会的过程,以及收集和记录他们的业务定义,以确保已知差异并记录在案,从而避免对数据的错误假设不要导致错误的决定。以快速获取高价值信息为目标。它涉及与来自不同业务线的人员进行一对一、小组或大型研讨会的过程,以及收集和记录他们的业务定义,以确保已知差异并记录在案,从而避免对数据的错误假设不要导致错误的决定。
一旦组织建立了元数据管理基础,业务和技术用户将能够快速找到数据存储库以及有关其沿袭和可靠性的详细信息,换句话说,数据来自哪里,如何到达那里,它进行了哪些转换其质量水平及其与其他数据和报告的关系。
四 构建元数据业务案例
元数据正迅速成为数据管理领域的下一个轰动效应,对于大数据项目的成功至关重要。元数据包含对理解和有效部署跨组织数据至关重要的所有信息——例如意义和目的、沿袭、利用等信息。在企业数据环境中,支持有效的数据治理、确保合规性并满足不断增长的数据管理需求清单至关重要。我们讨论了如何从元数据中提取价值,以及组织如何利用其元数据来优化数据计划。但是,除非他们确信他们会看到显着的投资回报 (ROI),否则高层管理人员不太可能投资于元数据管理技术。为了帮助展示急需的投资回报率,下面将讨论如何为元数据制作商业案例并展示价值。
1.构建元数据业务案例
企业有一个基本问题——他们的底线。执行领导层可能没有意识到,投资元数据可以通过提高运营效率、优化数据安全性和最大化数据价值来提高他们的底线。以下是展示元数据重要性并帮助构建元数据业务案例的 4 个关键功能。
发现:在大数据环境中查找单个数据集可能是一个具有挑战性的提议,但强大的元数据中央存储库使组织能够快速轻松地搜索和发现他们需要的数据。通过使用元数据定义和标记数据集,可以更轻松地查找和确认数据对于特定用途是否有效。这提高了运营效率,使组织能够更有效地利用其数据。
影响分析:能够定位和了解数据的质量至关重要,但元数据可以更进一步。通过使用元数据,组织可以了解数据的相关性以及更改数据可能对其他数据集产生的影响。例如,如果用户正在搜索诸如“客户识别号”之类的业务术语,则影响分析可以告诉用户哪些其他数据集、用例和主题领域与该术语相关。此外,如果应该以某种有意义的方式删除、移动或更改该数据元素,他们可以确定对组织的影响。例如,如果您将电话号码的数据类型从字符串更改为数字,可能会节省一些存储空间,但可能会破坏整个组织的 10 种算法。
清点和评估:数据泄露在当今的企业中几乎是不可避免的,但元数据可以帮助评估损害并让组织做好准备,立即做出适当的响应。元数据可用于根据数据集的安全风险对数据集进行分类和排名,以确保快速了解和及时解决违规的潜在影响。例如,社会安全号码包含高度敏感的数据,但是,没有关联的名称,它们只是 9 位数字的序列。如果黑客只获得了社会安全号码的访问权限,则与他们访问包含社会安全号码以及相关姓名和出生日期的完整客户记录相比,需要做出不同的响应。
认证:每个组织都需要用于大数据项目的高质量数据,因此拥有有效且透明的认证流程非常重要。如果一个组织向第三方出售数据并希望获得最大的补偿,则需要确保数据的质量和可靠性。
元数据可用于创建数据质量评分,因此可以定量验证数据的质量。组织不仅可以获得最大的数据回报,而且还可以对内部使用的数据质量充满信心。
完善的元数据管理策略可以带来好处,但要有效利用元数据,组织将需要实施一个强大、稳健的数据治理平台。
2.构建元数据治理平台为了利用元数据,组织将需要一个全面的数据治理解决方案,以提供组织数据环境的完整视图。该平台应包括交互式数据可视化和沿袭功能,并为组织数据资产的各个方面提供透明度。它还应该具有自动发现功能,能够捕获和监控元数据的变化。一旦发现更改,就可以调查技术元数据关系,以提供对数据的有意义的见解,从而做出更好的业务决策。
3.提取元数据业务价值大数据不再是新现象;现在这已成为常态,全球数以百万计的组织已经开始实施大数据。然而,并非所有人都成功。如今,许多组织都在努力从他们摄取的大量数据中创造价值,从而难以访问、使用和分析最能满足他们需求的数据。事实上,最近的一项调查发现,“超过 85% 的受访者表示他们的公司已经启动了创建数据驱动文化的计划,但迄今为止只有 37% 的受访者表示成功。”
组织现在意识到他们必须依靠元数据来分类、管理和组织在整个组织中发现的大量不同的企业数据。元数据向业务和技术用户展示在数据存储库中的何处查找信息,同时提供有关数据来自何处、如何到达那里、经历了哪些转换、其质量水平以及与其他数据或报告的关系的详细信息。
元数据的最佳实践始于数据进入组织的那一点。互联网上有如此多不同的信息,我们重点介绍了最常见的元数据类型和功能。通过了解这些含义,组织可以开始构建系统,以实现具有可证明投资回报的高级数据管理。
五 数据治理与元数据
为了利用元数据,组织将需要通过采用全面的数据治理来实现数据治理,从而提供组织数据环境的完整视图。该解决方案应包括交互式数据可视化和沿袭功能,并为组织数据资产的各个方面提供透明度。
此外,该解决方案应具有自动发现功能,能够捕获和监控元数据的更改。一旦发现更改,就可以调查技术元数据关系以提供对数据的有意义的见解。借助适当的数据治理平台,企业可以授权其数据社区使用元数据来帮助启动他们的大数据计划。
当您可以将技术血统转化为业务血统时,真正的价值就会显现出来——这是通过将元数据与数据治理相结合来利用元数据价值的众多方法之一。
1.构建成功数据管理框架
数据驱动型组织知道如何利用其数据作为战略资产来优化业务流程、改进决策、增强客户体验和增加收入。但是,利用这些资产不仅仅是管理数据,而是建立一种致力于最大化数据价值的文化,利益相关者参与其中,业务用户有权寻找数据以增强业务战略和目标。
全面的数据管理战略应包括数据治理和元数据管理的基础,以促进数据的理解、可访问性、可用性和利用率。使这种战略成功的基本文化需要业务和 IT 之间的伙伴关系、数据所有者和管理者之间的责任以及整个企业的合作与协作,以收集和维护概念元数据等关键信息。所有这一切都应该使业务用户能够轻松定位数据并将其应用于业务问题,将原始数据转化为可操作的见解。
然而,建立这种文化并成为数据驱动的组织并非一蹴而就。企业领导者必须采取许多步骤来实施元数据管理。在之前的博客中,我们专注于元数据管理的构建块。在本博客中,我们将研究组织如何培养数据驱动的文化。
可靠的数据管理必须从正确的工具开始,但正是技术、人员和流程的结合才能实现企业级的卓越。世界上最好的锤子也可能是一个镇纸,没有熟练的工匠来使用它,这就是为什么数据管理的成功始于正确的团队。
2.创建数据驱动型的文化
任何尝试实施数据管理解决方案的人都会告诉您,如果没有高管的支持和预算,该项目将一事无成。高级管理层需要了解和提升数据资产的价值以及建立数据驱动文化的重要性,并证明建立了作为数据管理团队的承诺。领导层需要聘请合适的专家来宣传和监督整个企业的数据战略。如今,许多组织聘请首席数据官 (CDO),而其他组织则利用数据顾问充当事实上的 CDO。
紧随CDO之下的应该是一名高级主管,担任企业采用的负责人。他们的职责包括整合、采用和遵守 CDO 推荐的新数据政策、标准、分析方法和各种能力。在这个职位上取得成功需要丰富的变革管理经验,以及对技术开发生命周期的深刻理解。
接下来,组织应该聘请一位精通技术的高级经理来担任数据工程经理的角色。该职位负责领导团队构建高性能、可扩展的数据解决方案,以满足数据创建者、管理者和消费者的需求。此人还可以管理数据平台,并与包括产品工程师、产品经理、设计师、分析师和数据科学家在内的各种团队和个人合作,以了解他们的数据供应链需求,并开发用于数据摄取、准备和交付的创新解决方案。
完善团队的是数据传播者。这个职位可以由在宣传和激励他人工作方面经验丰富的数据分析师担任。这项工作对于推动数据知识参与讨论、组织和定义来自不同业务线的数据至关重要。数据传播者可以采取多种方法,但主要目标是传播广泛的数据知识并鼓励不同部门的参与和协作。
3.促进数据管理知识参与
在数据团队中,数据传播者对于创建数据驱动的组织至关重要,因为他们可能是组织收集概念元数据的先锋。数据传播者或他们指定的团队成员的任务是收集驻留在不同部门和业务线员工头脑中的数据。为了跨业务职能收集这种概念性元数据,他们必须采访主题专家并与各种业务和技术团队进行跨职能合作。然而,收集这些知识存在许多障碍。首先,只是物流问题。将各个部门的专家同时聚集在同一个房间,分享他们的专业知识,绝非易事。
然后,随着任何新工艺或技术的引入,普遍存在怀疑。会有厌恶改变的员工,以及怀疑新程序有效性的员工。在员工之间建立转换可能需要时间。最后,有些员工感到共享知识的威胁。他们保护他们所拥有的知识,作为保护他们和他们的位置的盾牌。这些员工不会轻易放弃他们认为是他们权力来源的东西。然而,了解这些障碍的存在是克服它们的第一步。数据团队需要找到创新的方式来吸引用户并鼓励他们参与。数据布道者可以用来激励参与的一种方法是实施内部营销活动,让人们对数据感到兴奋并获得他们的支持。例如,数据传播者可以制作各种营销材料,将人们与数据洞察联系起来,以展示数据如何特别有利于他们的团队。他们还可以采取更有趣的方法,使用“游戏化”或竞赛来增加参与度和兴趣,或者使用真实世界的示例培训团队,以展示数据知识如何与他们的工作相关。
如果内部宣传不起作用,数据传播者可以与人力资源 (HR) 部门合作,进一步吸引员工。HR 可以为数据参与提供特殊认可,例如对 ID 标签和电子邮件签名的确认、声望赠品或诸如休假、奖金、免费午餐等独家福利,以帮助促进参与。