企业经营数据的质量及其八个指标

简介:

随着大数据技术逐步在企业端应用,越来越多的企业在利用数据技术提升管理效率和决策的科学性。企业对数据分析人才的需求也越来越旺盛,对管理者的数据分析能力也提出了新的要求。

数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量。质量不高的数据会影响企业的经营管理决策;如果数据是错误的,那么还不如没有数据,因为没有数据时,我们会基于经验和常识做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此,数据质量是治理企业经营管理数据的关键所在。

数据的质量可以通过八个指标进行衡量,每一个指标都从一个侧面反映了数据的品相。这八个指标分别是:准确性、及时性、即时性、真实性、精确性、完整性、全面性和关联性。

我们在比较两个数据集的品相时往往采用如下图所示的这种图形表示。例如常规来讲,内部数据集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采集数据的技术手段;

而外部数据集(如微博数据、互联网媒体数据等)的全面性、及时性和即时性都可以通过技术手段如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,而关联性取决于数据采集和挖掘的相关技术。

image

  数据的准确性

数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据的准确性由数据的采集方法决定的。

数据的精确性

数据的精确性(Precision)是指对同一对象在重复测量时所得到的不同观测数据之间的接近程度。精确性,也叫精准性,它与数据采集的精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也越低。

例如在测量人的身高时,可以精确到厘米,多次测量结果之间的误差只会在厘米级别;在测量北京到上海的距离时,可以精确到千米,多次测量结果之间的误差会在千米级别;用游标卡尺测量一个零件的厚度时,可以精确到 1/50 毫米,多次测量结果之间的误差也只会在 1/50 毫米级别。因此,可以说采用的测量方法和手段直接影响着数据的精确性。

数据的真实性

数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度。数据采集过程可控程度高,可追溯情况好,数据的真实性就容易得到保证,而可控程度低或者无法追溯,则数据的真实性就难以得到保证。

为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集的数据的真实性,减少人为干预,减少数据造假,从而让数据更加准确地反映客观事物。

数据的及时性

数据的及时性(In-time)是指能否在需要的时候获到数据。例如企业在月初会对上个月的经营和管理数据进行统计和汇总,此时的数据及时性是指这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是数据分析和挖掘及时性的保障。如果企业的财务核算流程复杂,核算速度缓慢,上个月的数据在本月月中才能统计汇总完成,那么等需要调整财务策略的时候,已经到月底了,一个月已经快过完了。特别是当企业做大了之后,业务覆盖多个市场、多个国家,如果数据不能及时汇总,则会影响到高层决策的及时性。数据的及时性与企业的数据处理速度及效率有直接的关系,为了提高数据的及时性,越来越多的企业采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,在数据上传到系统中之后自动完成绝大部分报表,从而提高了数据处理的效率。使用计算机自动处理中间层数据是提高企业数据处理效率的有效手段。

企业除要保证数据采集的及时性和数据处理的效率外,还需要从制度和流程上保证数据传输的及时性。数据报表制作完成后,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间中。

数据的即时性

数据的即时性包括数据采集的时间节点和数据传输的时间节点,在数据源头采集数据后立即存储并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据的即时性就稍差。例如一个生产设备的仪表即时地反映了设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作即时数据。而

当将设备的即时运行数据存储下来,用来分析设备的运行状况与设备寿命的关系时,这些数据就成了历史数据。

数据的完整性

数据的完整性是指数据采集的程度,即应采集的数据和实际采集到的数据之间的比例。例如在采集员工信息数据时,要求员工填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间共 12 项信息,而某个员工仅仅填写了部分信息,例如只填写了其中的 6 项,则该员工所填写数据的完整性只有一半。

一家企业中的数据的完整性体现着这家企业对数据的重视程度。要求采集的数据在实际中并未完整采集,这就是不完整的数据,这往往是企业对数据采集质量要求不到位导致的。

另外,对于动态数据,可以从时间轴去衡量数据的完整性。比如,企业要求每小时采集一次数据,每天应该形成 24 个数据点,记录为 24 条数据,但是如果只记录了 20 条数据,那么这个数据也是不完整的。

数据的全面性

数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际采集到的数据之间的比例。而数据全面性指的是数据采集点的遗漏情况。例如,我们要采集员工行为数据,而实际中只采集了员工上班打卡和下班打卡的数据,上班时间员工的行为数据并未采集,或者没有找到合适的方法来采集,那么这个数据集就是不全面的。

再例如,我们记录一个客户的交易数据,如果只采集了订单中的产品、订单中产品的价格和数量,而没有采集客户的收货地址、采购时间,则这个数据采集就是不全面的。

腾讯 QQ 和微信的用户数据记录了客户的交流沟通数据;阿里巴巴和京东的用户数据记录了用户的交易数据;百度地图记录了用户的出行数据;大众点评和美团记录了客户的餐饮娱乐数据。对全面描述一个人的生活来说,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性是一个相对的概念。过度追求数据的全面性是不现实的。

数据的关联性

数据的关联性是指各个数据集之间的关联关系。例如员工的工资数据和绩效考核数据是通过员工关联在一起来的,而且绩效数据直接关系到工资数据。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来的。

本书探讨的企业经营数据,每个数据集都是相互关联的,有的是直接关联的,如员工工资数据和员工绩效数据;有的是间接关联的,如物料采购订单数据与员工工资数据。这些数据是由公司的资源,包括人、财、物和信息等关联起来的。如果有任何的数据集不能关联到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业经营数据关联性不足导致的。而数据的关联性直接影响到企业经营数据集的价值。

本文转自d1net(转载)

相关文章
|
JSON 数据格式
Charles自动保存响应数据
Charles自动保存响应数据
Charles自动保存响应数据
|
缓存 负载均衡 安全
Nginx常用基本配置总结:从入门到实战的全方位指南
Nginx常用基本配置总结:从入门到实战的全方位指南
1113 0
|
8月前
|
人工智能 数据可视化 安全
2025年销售自动化工具选型指南
本文探讨了企业在数字经济时代选择合适CRM系统的重要性,分析了选型的5大核心维度:AI能力、全流程闭环管理、生态集成能力、数据安全合规及供应商综合实力。同时对比了5家国内外CRM厂商,如Salesforce、纷享销客、Hubspot等,并指出企业常遇的3大选型误区,包括功能冗余、忽视数据迁移成本和迷信行业模板。文章强调,适合企业的CRM需与战略、管理和业务流程深度适配,而非单纯追求技术堆砌。最终提醒管理者,选择CRM时应以实际需求为导向,而非盲目迷信国际品牌。
|
机器学习/深度学习 安全 网络安全
【计算巢】数字取证:追踪和分析网络犯罪的方法
【6月更文挑战第4天】本文探讨了数字取证在网络安全中的关键作用,通过Python编程展示如何分析网络日志以发现线索。数字取证利用科学方法收集、分析电子数据,以应对黑客入侵、数据泄露等网络犯罪。文中提供的Python代码示例演示了从服务器日志中提取IP地址并统计访问次数,以识别异常行为。此外,实际的数字取证还包括数据恢复、恶意软件分析等复杂技术,并需遵循法律程序和伦理标准。随着技术发展,数字取证将更有效地保障网络空间的和平与秩序。
329 5
|
存储 分布式计算 负载均衡
什么是 HBase?其组件起什么作用?
【8月更文挑战第12天】
1757 4
|
API 开发者 Python
API接口:原理、实现及应用
本文详细介绍了API接口在现代软件开发中的重要性及其工作原理。API接口作为应用程序间通信的桥梁,通过预定义的方法和协议实现数据和服务的共享。文章首先解释了API接口的概念,接着通过Python Flask框架示例展示了API的设计与实现过程,并强调了安全性的重要性。最后,本文还讨论了API接口在Web服务和移动应用程序等领域的广泛应用场景。
|
API 开发者
淘宝官方商品、交易、订单、物流、插旗接口接入说明
这些接口涉及淘宝店铺订单管理的关键方面,包括订单列表、订单详情及订单物流信息的获取。订单列表接口(如`taobao.trades.sold.get`和`taobao.topats.trades.sold.get`)帮助商家快速了解订单概览,进行基本管理和统计。订单详情接口(如`taobao.trade.fullinfo.get`和`taobao.topats.trades.fullinfo.get`)提供单个订单的全面信息,便于发货准备和服务支持。订单物流接口则允许跟踪订单的物流状态,确保配送顺畅。使用这些接口需遵循淘宝开放平台的规定,并关注API调用限制与更新。
技术心得:对数周期幂率模型(LPPL)
技术心得:对数周期幂率模型(LPPL)
607 3
|
前端开发 JavaScript 安全
【网络安全】WebPack源码(前端源码)泄露 + jsmap文件还原
【网络安全】WebPack源码(前端源码)泄露 + jsmap文件还原
2692 0
|
机器学习/深度学习 人工智能 TensorFlow
Python 与 TensorFlow2 生成式 AI(一)(1)
Python 与 TensorFlow2 生成式 AI(一)
270 0