几十年来,数据治理一直是企业关注的焦点,并随着企业数据量的急剧增长,数据治理的重要性日益凸显。然而,大规模的有效BI治理一直是一个难以实现的目标,因为它需要比传统数据治理更广泛的关注点。企业中的业务用户是通过BI应用程序使用数据,而不是直接从数据源读取数据。无论用户是调阅通过BI工具发布的仪表板,还是读取R或Python高级可视化的结果,如果忽略数据可视化的过程,良好的数据治理就不可能真正实现。毕竟,如果给用户的交付物不一致,或者缺乏适当的上下文以确保业务用户正确地理解数据,那么所谓高质量、精心治理的数据又有什么价值呢?
有效的BI治理要求组织为数据和分析的治理建立流程。为了在企业规模上取得成功,BI治理过程必须得到有效技术的支持。本白皮书概述了BI门户如何为支持全面的BI治理战略提供关键的技术基础。BI门户的关键治理角色体现在以下两个场景:独立的BI治理平台,或与数据目录协同工作。
什么是数据治理?
数据治理是一组确保有效管理和利用数据的过程和技术的集合。组织中的分析师和数据管理员使用数据治理工具来执行公司治理政策,来促进数据的正确使用。典型的情况,是应用ETL流程从数据库中抽取元数据,整合到数据治理工具中,并在其中添加额外的治理信息,然后利用一些BI工具将其可视化。
数据治理工具提供了以下功能领域的能力:
数据质量
当数据流水线出现数据质量问题时,执行数据剖析操作以提醒分析人员。例如,如果只加载了某个事务表一半记录的数据(表处理的典型情况),那么分析师或数据管理人员应该在分布不完整数据报告出台之前调查这个问题。数据治理工具还允许分析人员采用数据集标记定性问题,并通过解决方案跟踪这些问题。
认证
数据治理工具可以识别哪些数据集和可视化已通过认证,并跟踪其所有权和认证随时间的变化信息。认证细节可以从用于报告的BI工具的底层元数据中提取,也可以直接在治理工具中执行认证任务。
使用情况统计
一些工具的使用情况统计信息是从底层BI工具收集的,并应用数据治理工具呈现给分析师。这些统计数据确定了业务用户对每个报表资产的参与程度,并由分析师用于确定哪些报表资产在用户群中获得了吸引力,哪些内容表无人问津。
数据分类
有效的数据治理要求根据数据敏感性、PII数据以及其他关键元数据对数据集和报告进行分类。需要这些分类元数据来告知数据的正确使用信息,以满足合规性、机密性和隐私法规。数据治理工具扩展了从源系统收集的此类元数据的能力。
数据血缘
在使用数据集或报告之前,分析师必须首先了解基础数据的来源。数据血缘图为给定的仪表板或数据集提供了数据源的可视化地图。它们为试图找到具有正确信息的现有BI资产的分析师建立了必要的语境,以帮助回答特定的业务问题。
术语表
如果组织对关键企业指标和业务术语没有一套一致的定义,那么随着时间的推移,总是会出现不同分析师将使用一组不同的规则来衡量相同指标的情况。这种不一致会给企业带来一组相互矛盾的数字,并导致数据的可信度降低。术语表包含已批准的所有关键指标的定义以及这些定义的既定所有权信息,是所有数据治理工具包的重要组成部分。
生命周期管理
所有BI资产,无论是数据表、仪表板还是报告,都必须在其整个生命周期内进行管理。在向用户发布新的仪表板之前,必须经过验证处理,以确保它使用的数据和转换规则与已建立的指标定义一致。随着时间的推移,业务规则和数据源的变化,以前被认为是“⻩金标准”的表格和报告也可能会过时,必须更新或停用。有效的数据治理工具提供了一种机制来管理所有关键BI资产的生命周期。
数据治理工具提供的关键功能对于分析师和数据科学家来说非常宝贵,因为这些功能决定了他们在分析中使用哪些现有的BI资产。然而,这些工具不足以满足组织的全面治理需求,因为它们无法支持企业中所有数据消费者的需求。典型的业务用户不会在日常工作中使用数据治理工具,因此不会从其中包含的丰富信息中获益。应用这些工具进行数据治理需要大量的持续投资,因此许多组织希望从这些投资中获得可观的投资回报。
什么是BI治理?
BI治理扩展了传统数据治理的范围,通过利用治理元数据推动用户参与并提高整体数据素养,从而覆盖组织中的所有信息消费者。BI门户可以用作有效BI治理的基础,因为它充当单一管理面板,企业中的每个人都可以通过它访问分析。BI门户可以在分析消费和治理之间建立紧密的关系。目标是通过将治理元数据集成到用于查找和使用分析的工作流中来实现的。BI治理是通过门户将其广泛提供给所有用户,而不是将治理元数据锁定在只有少数分析师可以访问的传统数据治理工具中。数据质量、使用情况统计和其他重要元数据在门户中通过可视化方式呈现,使所有用户都能从这些关键信息提供的上下文中受益。
除了允许大家都来访问数据治理元数据之外,BI门户还提供以下关键的BI治理功能来推动用户参与:
检索
有效检索企业中所有可用信息资产的能力是BI门户中最重要功能之一。搜索提供了向用户展示关键治理元数据(如数据分类、所有权、血缘和详细的使用情况)的机会。此类信息可帮助用户搜索可用内容并确定能够用于回答特定业务问题的正确可视化或数据集。
访问请求
可发现性是有效BI治理的重要组成部分。BI门户为用户提供了一种机制来搜索和发现他们无权查看的内容,然后请求访问这些报告内容。此功能可确保不会仅仅因为用户不熟悉现有报告而生成重复内容。访问请求机制的良好实施为访问请求治理提供了一个自助服务环境,平衡了安全性和可发现性。
个性化
BI门户通过向用户提供个性化体验来推动用户参与,将相关的内容分组到对应文件夹中,并且可以应用全局过滤器来自定义仪表板来提升用户使用体验。个性化体验还可以扩展到治理,防止用户下载或打印包含敏感信息的报告,除非他们属于特殊的“特权”组。
协作
BI门户的协作功能支持良好的BI治理实践。数据质量问题或数据管道延迟可以设置为自动触发通知用户,确保业务用户在做出关键业务决策时不会依赖不正确或过时的信息。从重要的可视化指标中捕获的专家分析可以为业务用户提供关键上下文,以正确理解支持围绕数据讨论的门户中的数据和协作功能。
预警
为了进行有效的BI治理,必须为分析师和业务用户部署提供预警功能:
- 关键数据管道中出现任何数据异常会立即通知对应的分析师或数据管理员,以便调查和解决这些问题。
- 在验证数据质量后,必须将业务指标中的任何异常情况告知业务用户。
分发
BI门户的分发功能确保BI治理以多种方式扩展到业务用户:
- 当关键报告因数据管道问题或质量预警而延迟,可以立即通知相关用户。
- 只有在所有相关数据质量检查通过后才能开始通过电子邮件分发仪表板和报告,确保用户不会收到包含不良数据的报告。
- 待认证的项目可以自动通知到分析师和数据管理员。如果底层BI工具中的认证内容已更改,触发重新认证过程,也会通知到相关用户。
移动端
通过门户使用的所有BI内容都应该可以通过PC端和移动设备使用。该功能提供了“单一管理平台”体验,并通过为各种终端上的业务用户提供分析来提升数字素养。
集成数据目录进行BI治理
一些组织发现他们可以通过简单地部署BI门户来支持基本数据的治理要求。然而,在其他情况下,需要数据目录工具(如Collibra和Alation)提供的更高级的治理能力。这些工具提供了基于AI的自动数据分类、PII数据脱敏以及BI门户中治理功能之外的其他功能。
对于选择在其环境中部署数据目录的组织来说,面临的一个挑战是这些工具中捕获的元数据不容易为信息消费者(例如常规业务用户)所用。而BI门户可以应对这一挑战:将基本元数据从数据目录自动同步到BI门户,并使这些信息为从门户访问内容的所有用户所使用。例如,如果通过数据目录中的工作流对可视化进行认证,同步则可确保认证和所有相关详细信息通过门户自动可见。同样,数据目录中维护的自定义元数据和业务术语表会自动拉入BI门户,便于通知企业中所有用户执行的检索和分析活动。
结论
传统的数据治理只关注数据,止步于可视化。这种治理方法是不充分的,因为组织中的大多数信息消费者都是通过BI工具和报告来使用数据的。由于未能将治理扩展到业务用户使用的数据工具,数据治理工作在提供数据素养和用户参与方面达不到要求。
通过利用BI门户,可以实现包含数据和可视化的有效BI治理。BI门户可以用作独立的治理解决方案,也可以与数据目录工具一起部署。在这两种场景下,BI门户的治理和参与功能都会提供必要的上下文信息,以提升数据可信度和对数据的正确解释。