数据清洗工具OpenRefine

简介: 数据清洗工具OpenRefine 数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。 怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。
数据清洗工具OpenRefine

数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。
怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。

一、介绍OpenRefine
我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。
正确且清晰地认识以上的现状,是我们开始使用OpenRefine的前提。于是有了数据质量的说法。
下面先熟悉三个基础概念。

数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。

二、安装OpenRefine
要学习OpenRefine,首先需要下载最新版本的OpenRefine。
下载地址: http://openrefine.org/
OpenRefine最早是众所周知的Freebase Gridworks,随后又变成Google Refine,几年后又被社区接管,在2012年10月变成了彻底开源的OpenRefine。
OpenRefine 2.6版是它改名为OpenRefine的第一个发行版本。
如果你对OpenRefine的开发版感兴趣,可以访问:https://github.com/OpenRefine.OpenRefine
OpenRefine基于Java环境,因此是跨平台的。

OpenRefine 2.6版目前还处于Beta1版,也是所谓的开发版,不适合在生产环境中使用。如果要选择稳定版,那么还是该下载Google Refine 2.5版。

1、OpenRefine在Windows的安装
1)下载ZIP包,地址: https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip
2)解压到某个目录;
3)要运行OpenRefine,双击openrefine.exe文件。

2、OpenRefine在Mac的安装
1)下载DMG文件: https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg
2)打开磁盘镜像,拖动OpenRefine的图标到Applications目录;
3)双击图标以启动OpenRefine。

3、OpenRefine在Linux的安装
1)下载gzipped包: https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz
2)解压到当前用户的home目录;
3)在终端命令行环境,键入./refine以启动OpenRefine。










目录
相关文章
|
4月前
|
数据采集 数据可视化 数据挖掘
数据清洗有什么方式
数据清洗有什么方式
|
26天前
|
数据采集 数据可视化 数据挖掘
SciPy在数据分析中的应用:从数据清洗到可视化
【4月更文挑战第17天】# SciPy在数据分析中的应用:从数据清洗到可视化。文章探讨了SciPy在数据清洗(使用NumPy处理缺失值和异常值)、数据分析(描述性统计和模型拟合)以及数据可视化(结合Matplotlib和Seaborn进行图表绘制)中的作用。SciPy与其他Python库结合,为完整的数据分析流程提供了强大支持。
|
26天前
|
数据采集 数据可视化 数据挖掘
Seaborn实战:从数据清洗到可视化全流程解析
【4月更文挑战第17天】在数据分析中,Seaborn是用于数据可视化的重要工具,同时也辅助数据清洗。本文通过实例展示了如何利用Seaborn从数据清洗(包括导入数据、处理缺失和异常值)到数据探索(描述性统计、分组统计和可视化探索)。接着,文章详细讲解了数据可视化,包括分类和数值数据的图表以及高级图表如小提琴图、箱形图和热力图。最后,介绍了Seaborn与其他工具(如Pandas和Matplotlib)的结合使用,强调了数据可视化的迭代优化过程。学习并掌握Seaborn能提升数据分析和展示的效率。
|
1月前
|
数据采集 监控 数据挖掘
提高数据清洗效果的关键
【4月更文挑战第2天】提高数据清洗效果的关键
12 2
|
2月前
|
数据采集 Python
数据清洗是数据预处理的重要步骤
数据清洗是数据预处理的重要步骤
21 0
|
3月前
|
数据采集 JSON 数据挖掘
利用Python实现自动化数据清洗和转换
数据清洗和转换是数据分析的重要步骤。在数据分析工作中,我们常常需要处理不规范、重复、缺失或错误的数据。本文介绍如何使用Python编程语言实现自动化数据清洗和转换,为数据分析工作提供高效的支持。
|
9月前
|
数据采集 机器学习/深度学习 存储
ETL工程师必知的数据清洗方法【最全】
ETL工程师必知的数据清洗方法【最全】
|
12月前
|
数据采集 运维 Ubuntu
使用kettle进行数据清洗
使用kettle进行数据清洗
使用kettle进行数据清洗
|
数据采集 大数据 开发者
数据预处理—数据清洗—数据过滤功能代码|学习笔记
快速学习数据预处理—数据清洗—数据过滤功能代码
274 0
数据预处理—数据清洗—数据过滤功能代码|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
423 0
数据预处理-数据清洗需求分析|学习笔记