序言
在本文中,我们讨论了有关组织如何衡量和改善数据质量的一些技巧。将数据用于业务目的的关键规则之一就是:决策的质量在很大程度上取决于数据的质量。但是,仅仅知道它并不是非常有用。为了获得切实的结果,我们应该测量数据的质量,并根据这些测量结果进行改进。在这里,我们将对复杂的数据质量问题进行一些探讨,并分享如何解决这些问题的技巧。
一、如何定义数据质量:属性、度量和指标
在这方面,依赖我们在数据分析方面多年的经验,提出自己的定义:数据质量是与解决业务任务能力紧密相关的数据的状态。此状态可以是“好”或“坏”,具体取决于数据对应于以下属性的程度:
□ 一致性
□ 准确性
□ 完整性
□ 可审核性
□ 整齐有序
□ 唯一性
□ 及时性
为了揭示每个属性的含义,我们给出以下表格,并根据客户数据使用说明示例进行填充。我们还提到了可以在测量这些数据质量属性时选择可量化结果的样本指标。
重要提示:对于大数据,并非所有属性都是100%可实现的。
二、为什么数据质量低是个问题
您是否认为整个数据质量差的问题都被夸大了,并且上面提到的属性不值得关注?我们将提供有关低质量数据可能对业务流程产生何种影响的真实案例。
1、数据不可靠
制造商认为他们知道将成品从生产现场运送到配送中心的卡车的确切位置,他们优化了路线,估计了交货时间等。结果位置数据是错误的,卡车延迟到达,这破坏了配送中心的正常工作流程。更不用说路线建议了,结果毫无用处。
2、数据不完整
假设您正在努力优化供应链管理。要评估供应商并了解哪些值得信赖,哪些不守信用,您可以跟踪交货时间。但是与计划的交付时间不同,实际交付时间字段在系统中不是必填项。自然地,仓库员工通常会忘记键入该信息。不知道此关键信息,您将无法了解供应商的表现。
3、数据解释不明确
设备管理系统可能有一个称为“故障原因”的字段,目的在于帮助识别造成故障的原因。通常,它采用下拉菜单的形式,并包含“其他”选项。因此,每周报告可能会说在80%的情况下,机械故障是由“其他”原因引起的。因此,制造商可能会经历整体设备效率低下而又无法学习如何提高效率的情况。
4、数据重复
乍一看,重复的数据可能不会构成挑战。但实际上,这可能会成为一个严重的问题。例如,如果一个客户在CRM中出现了多次,那么它不仅会占用额外的存储空间,而且还会导致错误的客户数量。此外,重复的数据会影响营销分析:它会分解客户的购买历史记录,从而使公司无法判断客户的准确需求,无法正确地细分客户。
5、过时的数据
想象一下,一位顾客曾经完成零售商的问卷调查,并说他们没有孩子。但是,时间过去了,现在他们有了一个新生婴儿。开心的父母已经准备好将预算花在尿布、婴儿食品和衣服上,但是我们的零售商知道吗?该客户是否包括在“有婴儿的客户”部分中?两者都不。这就是过时的数据可能导致错误的客户细分,对市场的了解不足以及利润损失的方式。
6、延迟数据输入/更新
延迟的数据输入和更新可能会对数据分析和报告以及业务流程造成负面影响。发送到错误地址的发票就是一个典型的例子。下面是设备跟踪的一个示例,该系统展示的信息是水泥搅拌机目前不可用,然而已经维修好,这仅是因为员工延迟更新其状态几个小时。
三、数据质量管理的最佳做法
由于不良的数据质量可能会造成破坏性后果,因此了解补救措施至关重要。在这里,我分享了可以帮助您提高数据质量的最佳实践。
1、优先考虑数据质量
第一步是将提高数据质量放在首位,并确保每个员工都了解低质量数据带来的问题。听起来很简单。但是,将数据质量管理整合到业务流程中需要多个严谨的步骤:
A 设计企业范围的数据策略。
B 创建具有权限和问责制的明确用户角色。
C 设置数据质量管理流程。
D 使用仪表板来监视数据质量状态。
2、自动化数据输入
造成数据质量差的一个典型原因是手动输入数据:员工、客户或多个用户。因此,公司应该考虑如何自动化数据输入过程以减少人为错误。只要系统可以自动执行的操作(例如,自动完成呼叫或电子邮件日志),就要采用自动化的数据录入方式。
3、防止重复,而不仅仅是修正它们
众所周知的事实是,预防疾病比治愈疾病容易。您可以用相同的方式处理重复数据!一方面,您可以定期清洗它们。另一方面,您可以创建重复的检测规则,以识别数据库中已经存在类似的条目,并禁止创建另一个条目或建议合并这些条目。
4、考虑模版和元数据
维护主数据非常重要,但是您也不应该忘记元数据。例如,没有元数据显示的时间戳,公司将无法控制数据版本。结果,他们可以为报告提取过时的值,而不是更新的值。
四、数据质量管理过程
数据质量管理是一个管控过程,旨在实现和保持较高的数据质量。其主要阶段涉及数据质量阈值和规则的定义、数据质量评估、数据质量问题的解决、数据监视和控制。
为了提供尽可能清晰的解释,我基于理论并以基于客户数据的示例来解释每个阶段。这是数据库中的数据片段:
1.定义数据质量阈值和规则
如果您认为完美的数据与所有数据质量属性100%符合(换句话说,100%一致,100%准确等等),您可能会发现事与愿违。首先,要使任何属性达到100%都是一项非常耗费成本和精力的工作,因此通常公司会决定哪些数据至关重要,并专注于最适用于此数据的几个数据质量属性。其次,公司并非总是需要100%的完美数据质量,有时他们可以做到“足够好”的水平。第三,如果您需要各种数据的各种质量级别,则可以为不同的字段设置各种阈值。现在,您可能会有一个问题:如何衡量数据是否满足这些阈值?为此,您应该设置数据质量规则。
下面,我们看一个实际示例。
假设您认为客户全称字段非常关键,并且为此设置了98%的质量阈值,而出生日期字段的重要性就不那么重要了,那么您将对80%的阈值感到满意。下一步,您确定客户全称必须完整且准确,并且出生日期必须有效(也就是说,它应符合有序性属性)。为客户全称选择了几个数据质量属性后,所有这些属性都应达到98%的质量阈值。
现在,设置数据质量规则,该规则将覆盖所有选定的数据质量属性。在我们的例子中,这些是以下内容:
- 客户全称不能为N / A(检查完整性)。
- 客户全称必须至少包含一个空格(以检查准确性)。
- 客户名称必须仅由字母组成,不允许使用数字(以检查准确性)。
- 客户姓名,中间名和姓氏中的首字母必须大写(以检查准确性)。
- 出生日期必须是一个有效日期,该日期应介于1900年1月1日至2010年1月1日之间。
2.评估数据质量
现在,是时候查看数据并检查其是否符合我们设置的规则。因此,我们开始分析数据,获取有关数据质量的统计信息。下面是评估过程:我们案例中有8条个人记录,我们核对第一条规则的客户全称不能为N / A。所有记录均符合规则,这意味着数据已100%完整。
为了衡量数据的准确性,我们有3条规则:
- 客户全称必须至少包含一个空格。
- 客户名称只能由字母组成,不允许包含数字。
- 客户名称,中间名和姓氏中的首字母必须大写。
再次,我们对每个规则进行数据分析,并得到以下结果:100%、88%和88%(下面,我们突出显示了不符合数据准确性规则的记录)。总体而言,我们只有92%,也低于我们的98%的阈值。
至于“出生日期”字段,我们确定了两个不符合我们设置的规则的数据记录。因此,该字段的数据质量是75%,也低于阈值。
3.解决数据质量问题
在这一阶段,我们应该考虑是什么原因导致了这些问题,从而消除其根本原因。在我们的示例中,确定了客户全称字段的几个问题,可以通过引入明确的手动数据输入标准以及负责将数据键入CRM系统的员工的数据质量相关关键绩效指标来解决。
在带有“出生日期”字段的示例中,未针对日期格式或范围验证输入的数据。作为临时措施,我们清理并标准化数据。但是为了避免将来出现此类错误,我们应该在系统中设置一个验证规则,除非该规则符合格式和范围,否则系统将不接受不合要求的数据。
4.监控数据
数据质量管理不是一次性的工作,而是一个不间断的过程。我们需要定期检查数据质量策略和规则,以不断改进它们。这是必须的,因为商业环境在不断变化。假设某天,某公司可能会选择通过购买和集成包含人口统计数据的外部数据集来丰富其客户数据。因此,他们将不得不提出新的数据质量规则,因为外部数据集可以包含到目前为止尚未处理的数据。
五、数据质量工具类别
为了解决各种数据质量问题,公司不应考虑只使用一种工具,而应综合考虑。例如,Gartner命名以下类别:
- 解析和标准化工具将数据分解为组件,并将其统一格式。
- 清洗工具将删除不正确或重复的数据条目,或修改值以满足某些规则和标准。
- 匹配工具集成或合并紧密相关的数据记录。
- 分析工具收集有关数据的统计信息,然后将其用于数据质量评估。
- 监视工具控制数据质量的现状。
- 数据丰富工具将引入外部数据并将其集成到现有数据中。
当前,市场上可以有众多的数据质量管理工具。其中有些集中在某些类别的数据质量问题上,有些则涵盖了多个方面。要选择正确的工具,需要专门进行研究,或者让专业顾问为您完成这项工作。
六、综述
数据质量管理可以使企业免受低质量数据的侵害,低劣数据会完全破坏数据分析工作。但是,要正确执行数据质量管理,您需要关注和考虑许多方面。选择评估数据质量的指标,选择工具并管理数据质量规则和阈值仅仅是几个重要步骤。大型集团和企业可以在专业厂商和顾问的协助下完成数据质量管理这项复杂的工作。