数据清洗工具OpenRefine-阿里云开发者社区

数据清洗工具OpenRefine

2014-02-27 2705

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据清洗工具OpenRefine 数据经常被称为一座金矿，尤其是在当今数据驱动的经济环境下更是如此。怎样把数据集在OpenRefine中进行转换，优化数据的质量以便于在真实场景下重用它们。

数据清洗工具OpenRefine

数据经常被称为一座金矿，尤其是在当今数据驱动的经济环境下更是如此。
怎样把数据集在OpenRefine中进行转换，优化数据的质量以便于在真实场景下重用它们。

一、介绍OpenRefine
我们来看一个残酷的现实：你的数据是杂乱无章的。错误会散步到你的大数据集中，无论你有多么细心，错误总是存在。数据量越大，错误越多。
正确且清晰地认识以上的现状，是我们开始使用OpenRefine的前提。于是有了数据质量的说法。
下面先熟悉三个基础概念。

数据剖析Data Profiling：也叫做数据考古（Data Archeology），是数据集（Data Set）内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念，使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说，它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

数据清洗Data Cleaning：是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等，以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程，不可能在几天内完成，只有不断的发现问题，解决问题。对于是否过滤，是否修正一般要求客户确认。

IDTs：Interactive Data Transformation tools，交互数据转换工具，它可以对大数据进行快速、廉价的操作，使用单个的集成接口。

OpenRefine就是这样的IDT工具，可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件，但是工作方式更像是数据库，以列和字段的方式工作，而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码，而且功能还极为强大。

二、安装OpenRefine
要学习OpenRefine，首先需要下载最新版本的OpenRefine。
下载地址： http://openrefine.org/
OpenRefine最早是众所周知的Freebase Gridworks，随后又变成Google Refine，几年后又被社区接管，在2012年10月变成了彻底开源的OpenRefine。
OpenRefine 2.6版是它改名为OpenRefine的第一个发行版本。
如果你对OpenRefine的开发版感兴趣，可以访问：https://github.com/OpenRefine.OpenRefine
OpenRefine基于Java环境，因此是跨平台的。

OpenRefine 2.6版目前还处于Beta1版，也是所谓的开发版，不适合在生产环境中使用。如果要选择稳定版，那么还是该下载Google Refine 2.5版。

1、OpenRefine在Windows的安装
1）下载ZIP包，地址： https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip ；
2）解压到某个目录；
3）要运行OpenRefine，双击openrefine.exe文件。

2、OpenRefine在Mac的安装
1）下载DMG文件： https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg ；
2）打开磁盘镜像，拖动OpenRefine的图标到Applications目录；
3）双击图标以启动OpenRefine。

3、OpenRefine在Linux的安装
1）下载gzipped包： https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz ；
2）解压到当前用户的home目录；
3）在终端命令行环境，键入./refine以启动OpenRefine。

数据清洗工具OpenRefine

热门文章

最新文章

相关课程

相关电子书

相关实验场景