web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。
数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域:
1 数据仓库(DW)
2数据库中的知识发现(KDD)
3数据质量管理(TDQM)
我在公司里的第一个项目就是数据质量管理,在这里在说下数据质量管理:
通过制定、实施数据质量检核,暴露各系统数据质量问题。持续监控各系统数据质量波动情况及数据质量规则占比分析,定期生成各系统关键数据质量报告,掌握系统数据质量状况。结合系统提供的清洗组件以及数据质量问题处理流程为各系统数据质量提升提供有效支撑。
数据质量(DataQuality)管理是贯穿数据生命周期的全过程,覆盖质量评估,数据去噪,数据监控,数据探查,数据清洗,数据诊断等方面。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。数据质量管理准则包括测量、提高组织数据的质量和整合性的方法。数据质量处理包括数据标准化、匹配、生存和质量监测。数据必须具备适当的质量,以解决业务要求问题。
结合大数据的参考框架及数据处理实际需求情况,数据质量管理系统主要功能定位为:数据发现、质量管理、元数据、主数据管理和信息政策管理。
在数据生命周期中,数据的获取和使用周期包括系列活动:评估,分析,调整,丢弃数据,
目前数据清洗的模型:
基于粗糙集理论数据清洗
基于聚式模式数据清洗
基于模糊匹配数据清洗模型
基于遗传神经网络数据清洗
基于专家系统体系结构等
数据校验及转换
数据校验的目的是确保抽取数据本身的正确性和完整性,
数据转换的目的是保证数据的一致性
数据清洗流程
1数据预处理: 包括数据元素化,保准化
2确定清洗方法:
3校验清洗方法:先验证所用的清洗方法是否合适,抽取小样本进行验证,判断其召回率和准确率
4执行清洗工具:
5数据归档:将新旧数据源进行归档处理,方便以后的清洗
一般情况下,模式中反应的元数据对应判断一个数据源的质量远远不够,因此通过具体实例来获得有关数据熟悉和不寻常模式的元数据很重要。这些元数据可以帮助发现数据质量问题,也有助于发现属性间的依赖关系,
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。