谈谈如何避免数据质量的多米诺骨牌效应

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 克服数据质量挑战,领先于数据曲线。无论推动业务战略或重点如何,组织都在转向数据以利用关键洞察力并帮助提高组织实现其愿景、关键目标和目的的能力。

一 概述

克服数据质量挑战,领先于数据曲线。无论推动业务战略或重点如何,组织都在转向数据以利用关键洞察力并帮助提高组织实现其愿景、关键目标和目的的能力。然而,质量差的数据可能会对洞察时间产生负面影响,并可能破坏组织的客户体验工作、产品或服务创新、运营效率或风险和合规管理。如果您希望从数据中汲取洞察力以进行决策,那么这些洞察力的质量仅与提供或推动它们的数据的质量一样好

提高数据质量意味着拥有可持续成功且适合数据使用的数据质量管理实践,同时不断发展以跟上或领先于不断变化的业务和数据环境。这不是一次修复一个数据集的问题,这是资源和时间密集型的,而是确定数据质量始终偏离轨道的地方,并创建一个程序来从源头改进数据处理。

d09e7c0974daff745f73629fb06c17e6.png

二 建立数据质量计划

随着数据在组织系统和应用程序架构的各种流中被摄取、集成和维护,数据质量可能会在多个点下降。

  1. 了解整个业务环境中组织的数据文化和数据质量环境。
  2. 优先考虑数据质量较差的业务用例。
  3. 对于每个用例,确定整个数据管道中的数据质量问题和要求。
  4. 从根本上解决数据质量问题。
  5. 当数据流经质量保证监控检查点时,监控数据以确保高质量的输出。

在整个数据管道中正确应用数据质量维度将产生卓越的业务决策。数据质量问题可能发生在数据流的任何阶段。

0832913cce3ae462e35cdce977a7c56b.png

353a8edaaffc287f41a3acd491419019.png

三 防止数据质量差的连锁效应

数据是数据驱动型组织做出决策的基础。因此,如果组织的底层数据出现问题,这可能会对许多下游业务功能产生多米诺骨牌效应。

让我们用一个例子来说明数据质量差的多米诺骨牌效应

组织 X 正在寻求将他们的数据迁移到单一平台系统 Y。迁移之后,很明显从该平台生成的报告不一致并且经常看起来是错误的。这有什么作用?

  1. 必须花费时间来识别数据质量问题,并且通常会使用手动数据质量修复。这将使交付依赖于系统 Y 的项目的时间延长 X 个月。
  2. 为了修复这些问题,企业需要额外签订两个资源来完成不可预见的工作。每个新资源的成本为 X 美元,以及额外的基础设施和硬件成本。
  3. 现在,企业的战略目标面临风险,对新系统 Y 产生了不信任感。

影响提供卓越客户体验能力的三个关键挑战:

30%数据质量差;

30%交互方式改变;

30%遗留系统或缺乏新技术。

95%的组织表示糟糕的数据质量会破坏业务绩效。

四 维护质量数据将支持更明智的决策和战略洞察力

提高组织的数据质量将帮助企业实现以下好处:

数据驱动的决策

商业决策应该有充分的理由。数据可以提供对关键业务问题的洞察力,例如“我怎样才能提供更好的客户满意度?”89% 的接受调查的首席信息官表示,缺乏高质量的数据是做出良好决策的障碍。

客户关系

通过使用来自记录系统的正确数据来分析交易、情绪和交互的完整客户视图,改善营销和客户体验。94%的高级 IT 领导者表示糟糕的数据质量会影响业务成果。

创新领导力

深入了解您的产品、服务、使用趋势、行业方向和竞争对手的结果,以支持有关创新、新产品、服务和定价的决策。20%企业因数据质量差而损失高达 20% 的收入。

卓越运营

确保以正确的价格和成本结构将正确的解决方案快速、一致地交付给正确的各方。通过使用正确的数据来推动流程改进,实现流程自动化。10-20%数据质量计划的实施可导致企业预算减少高达 20%。

五 保持数据质量是困难的

避免这些陷阱,以从数据中获取真正的价值。

  1. 数据债务拖累投资回报率——高度的数据债务会阻碍获得预期的投资回报率。
  2. 缺乏信任意味着缺乏使用——对数据缺乏信心会导致组织缺乏数据使用,这会对战略规划、KPI 和业务成果产生负面影响。
  3. 战略资产成为一种负担——不良数据会使企业面临无法达到合规标准的风险,这可能导致支付巨额的罚款。
  4. 成本增加和效率低下- 修复不良数据所花费的时间意味着重要计划的工作负载容量减少,并且无法做出基于数据的决策。
  5. 采用数据驱动技术的障碍——预测分析和人工智能等新兴技术依赖于高质量的数据。不准确、不完整或不相关的数据将导致延迟或缺乏 ROI。
  6. 糟糕的客户体验——在不良数据上开展业务可能会阻碍向客户交付产品的能力,增加他们的挫败感,从而对维持客户群的能力产生负面影响。

数据质量在入口点受到的影响最大。这是数据质量多米诺骨牌效应的原因之一,并且可能是由于错误传播而造成的最昂贵的数据质量错误形式之一。换句话说,修复数据摄取,无论是通过改进应用程序和数据库设计还是改进数据摄取策略,都将修复大部分数据质量问题。

六 数据质量植根于数据管理

从数据质量管理中获取最大收益。

  • 数据管理是对获取、控制、保护、交付和提高数据和信息资产价值的政策、实践和项目的规划、执行和监督(DAMA,2009)。
  • 换句话说,在正确的时间向正确的人提供正确的信息。
  • 数据质量管理存在于构成数据管理框架的每个数据实践、信息维度、业务资源和主题领域中。
  • 在此框架内,有效的数据质量实践将用标准化实践取代临时流程。
  • 如果没有跨该框架的适当对齐和协作,有效的数据质量实践将无法成功。
  • 对齐确保数据质量实践适合业务目的。

DAMA DMBOK2 数据管理框架

b40cffabcc072840c2e72b6d113ace4b.png

七 数据质量管理方法

阶段步骤

1. 定义组织的数据环境和业务环境

2. 分析数据质量修复的优先级

3. 建立组织的数据质量计划

4. 发展和维持您的数据质量实践

阶段结果

此步骤确定对数据和业务环境的基本理解、围绕数据质量的基本概念,以及 IT 有效提高数据质量所需的核心能力和能力。

要开始处理特定的、业务驱动的数据质量项目,您必须确定数据驱动的业务单元并确定其优先级。这将确保数据改进计划与业务目标和优先级保持一致。

在确定了优先修复谁的数据后,确定他们在数据质量方面面临的具体问题,并实施改进计划来修复它。

既然您已经将改进计划付诸实施,请确保数据质量问题不会不断出现。将数据质量管理与数据治理实践集成到您的组织中,并寻求提高组织的整体数据成熟度。

数据质量意味着宽容,而不是完美

当对数据质量的满意度较低时,数据质量非常重要

然而,当数据质量满意度达到阈值时,它就变得不那么重要了。

58d1bbe803922a5a7a5c4a2186d96584.png

通过适当的努力,为正确使用提供适当水平的数据质量。

八 数据角色和责任

数据质量贯穿数据生命周期的三个主要层

数据策略

数据策略应包含数据质量作为标准组件。

← 数据质量问题可能发生在数据流的任何阶段 →

数据质量度量

及时性 - 代表性 - 可用性 - 一致性 - 完整性 - 唯一性 - 进入质量 - 有效性 - 信心 - 重要性

源系统层

  • 数据资源管理器/收集器:将数据输入数据库并确保数据收集源准确

数据转换层

  • ETL 开发人员:设计数据存储系统
  • 数据工程师:监督数据集成、数据仓库和数据湖、数据管道
  • 数据库管理员:管理数据库系统,确保它们满足 SLA、性能、备份
  • 数据质量工程师:发现并清理数据源中的不良数据,创建流程以防止数据质量问题

消费层

  • 数据科学家:从数据库和其他来源收集和分析数据,运行模型,并为用户创建数据可视化
  • BI 分析师:评估和挖掘复杂数据,并将其转化为推动业务价值的洞察力。使用 BI 软件和工具分析行业趋势并为业务用户创建可视化
  • 数据分析师:从业务系统中提取数据,对其进行分析,并为用户创建报告和仪表板
  • BI 工程师:记录有关数据分析和报告的业务需求,并开发 BI 系统、报告和仪表板以支持它们

数据创建 →

[SLA] 数据摄取 [QA]

→数据积累与工程 →

[SLA] 数据交付 [QA]

→报告与分析

在此处修复数据质量根本原因……

以防止在这里进行昂贵的修复费用。






相关文章
|
6天前
|
设计模式 缓存 Java
全面解读:Java后台开发面试常见技术问题与应对策略
【4月更文挑战第17天】本文梳理了Java后台开发面试的常见技术问题,涵盖基础概念(JVM、多线程、集合框架)、框架与中间件(Spring、数据库、缓存)、设计模式与架构及问题解决能力。建议面试者巩固基础知识,理解框架原理,关注微服务、性能优化等领域,以展示专业素养和技术实力。同时,保持学习习惯,跟进技术前沿,以提升竞争力。
|
6天前
|
存储 缓存 监控
Linux内存管理:理解正常波动背后的机制
Linux内存管理:理解正常波动背后的机制
63 0
|
6天前
|
搜索推荐 测试技术
性能场景之业务模型中二八原则的误区
【2月更文挑战第18天】性能场景之业务模型中二八原则的误区
57 6
性能场景之业务模型中二八原则的误区
|
6天前
|
人工智能 监控 安全
大模型安全风险的具体表现
【1月更文挑战第23天】大模型安全风险的具体表现
148 3
大模型安全风险的具体表现
|
7月前
|
Cloud Native Go Python
当面试遇到难题:解决棘手问题的三大策略
当面试遇到难题:解决棘手问题的三大策略
98 0
|
12月前
|
机器学习/深度学习 算法 计算机视觉
模型落地困难?看看这个如何解决PTQ的振荡问题(一)
模型落地困难?看看这个如何解决PTQ的振荡问题(一)
139 0
|
12月前
|
算法 数据挖掘 计算机视觉
模型落地困难?看看这个如何解决PTQ的振荡问题(二)
模型落地困难?看看这个如何解决PTQ的振荡问题(二)
162 0
|
存储 消息中间件 缓存
性能优化的十种手段
性能优化的十种手段
|
设计模式 机器学习/深度学习 算法
聊一聊过度设计!
新手程序员在做设计时,因为缺乏经验,很容易写出欠设计的代码,但有一些经验的程序员,尤其是在刚学习过设计模式之后,很容易写出过度设计的代码,而这种代码比新手程序员的代码更可怕,过度设计的代码不仅写出来时的成本很高,后续维护的成本也高。因为相对于毫无设计的代码,过度设计的代码有比较高的理解成本。说这么多,到底什么是过度设计?
211 0
|
缓存 负载均衡 监控
聊个简单的话题:如何分析性能需求?
一般来说,云服务的可用区,可以理解为同一个机房的不同虚拟机集群。为了避免某个可用区由于网络硬盘等原因损坏导致服务不可用,跨可用区的服务部署是一种常见的容灾手段。
聊个简单的话题:如何分析性能需求?