数据清洗工具OpenRefine

简介: 数据清洗工具OpenRefine 数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。 怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。
数据清洗工具OpenRefine

数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。
怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。

一、介绍OpenRefine
我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。
正确且清晰地认识以上的现状,是我们开始使用OpenRefine的前提。于是有了数据质量的说法。
下面先熟悉三个基础概念。

数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。

二、安装OpenRefine
要学习OpenRefine,首先需要下载最新版本的OpenRefine。
下载地址: http://openrefine.org/
OpenRefine最早是众所周知的Freebase Gridworks,随后又变成Google Refine,几年后又被社区接管,在2012年10月变成了彻底开源的OpenRefine。
OpenRefine 2.6版是它改名为OpenRefine的第一个发行版本。
如果你对OpenRefine的开发版感兴趣,可以访问:https://github.com/OpenRefine.OpenRefine
OpenRefine基于Java环境,因此是跨平台的。

OpenRefine 2.6版目前还处于Beta1版,也是所谓的开发版,不适合在生产环境中使用。如果要选择稳定版,那么还是该下载Google Refine 2.5版。

1、OpenRefine在Windows的安装
1)下载ZIP包,地址: https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip
2)解压到某个目录;
3)要运行OpenRefine,双击openrefine.exe文件。

2、OpenRefine在Mac的安装
1)下载DMG文件: https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg
2)打开磁盘镜像,拖动OpenRefine的图标到Applications目录;
3)双击图标以启动OpenRefine。

3、OpenRefine在Linux的安装
1)下载gzipped包: https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz
2)解压到当前用户的home目录;
3)在终端命令行环境,键入./refine以启动OpenRefine。










目录
相关文章
|
Java Windows 数据可视化
数据导入与预处理-第7章-数据清理工具OpenRefine
数据导入与预处理-第7章-数据清理工具OpenRefine
|
8月前
|
弹性计算 异构计算
阿里云服务器多少钱一小时?在哪查询1小时价格表?
阿里云服务器按量付费,1小时起计费。如2核2G的ECS经济型e实例仅0.094元/小时。不同配置价格各异,例如GPU计算型gn6v(64核256G)高达211.68元/小时。查询价格可访问阿里云ECS页面定制配置。包年包月更划算,2核2G服务器低至99元/年
675 4
|
Rust C++ NoSQL
在 VS Code 上配置Rust的调试环境
插件 在 VS Code 上进行 Rust 的开发,需要使用一下两个库 RLS(vscode搜索插件rls) lldb(vscode搜索插件codelldb) 安装很简单,不用说 配置 { // 使用 IntelliSense 了解相关属性。
6783 0
|
数据采集 存储 数据可视化
数据清洗
数据清洗
708 2
|
存储 NoSQL 网络协议
【赵渝强老师】MongoDB的安装与访问
本文介绍了在Linux系统上安装和部署MongoDB的详细步骤,包括安装依赖包、解压安装包、配置环境变量、创建数据目录及启动服务等。文中还提供了相关命令示例和注意事项,帮助用户顺利完成MongoDB的安装与配置。
294 0
|
数据可视化 算法 定位技术
Python数据可视化matplotlib和pyecharts参数详解
Python数据可视化matplotlib和pyecharts参数详解
549 0
|
数据可视化 Java Linux
数据导入与预处理-第7章-数据清理工具OpenRefine
数据导入与预处理-第7章-数据清理工具OpenRefine
|
存储 运维 网络安全
阿里云云效操作报错合集之推送代码到仓库报错:Could notread from remote repository.,如何解决
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。
|
JavaScript 前端开发
植物大战僵尸Javascript版web游戏源码
植物大战僵尸Javascript版web游戏源码,非常强大,1比1还原电脑版植物大战僵尸游戏,带背景音乐,玩法和原版一模一样。
695 2
|
Java
【MapStruct】引入MapStruct之后,项目启动java:找不到符号
SpringBoot项目,在引入MapStruct之前项目启动和运行的好好的,按照MapStruct官网推荐的方法引入MapStruct之后,本来正常的项目居然启动不了了。
751 1
【MapStruct】引入MapStruct之后,项目启动java:找不到符号