dataWrangler简介及使用方法

简介:

dataWrangler简介及使用方法

1. 工具简介

dataWrangler是一款由斯坦福大学开发的在线数据清洗、数据重组软件。主要用于去除无效数据,将数据整理成用户需要格式等。通过使用dataWrangler能节约用户花在数据整理上的时间,从而使其有更多的精力用于数据分析。

2. 主要特点

dataWrangler的操作极为简便,通过简单点击就能完成一系列的数据整理。与传统的数据处理软件相比,其独特的智能分析和建议功能,极大方便了用户的数据处理操作。dataWrangler还会列出数据修改的历史记录,用户可以极为方便地查看过去的修改,并可以撤销某一条修改操作。

同时,dataWrangler是一款在线工具,这为用户省去了安装软件的繁琐过程,也使用户摆脱了操作系统对软件使用的限制。

3. 工具界面(工作区、菜单、术语等)

在浏览器的地址栏中输入dataWrangler的地址并进入后,会进入dataWrangler获取输入数据的界面,如下图所示。

进入dataWrangler后的数据输入界面。

将CSV格式的数据拷贝并粘贴到数据输入区域后点击dataWrangle按钮,进入数据处理界面,开始数据的整理和修复。数据处理界面如下图所示。

数据处理主界面。

数据处理界面左侧的面板包括一个根据当前选中数据给出的数据修改建议列表和一个数据操作历史记录列表。点击修改建议列表中的粗体部分,就可以执行该条修改建议。界面的右侧是包含具体数据的数据表。

4. 操作流程(核心功能呈现)

下面介绍dataWrangler的主要功能。

->去除无效数据

点击无效数据的行号,这一行就会变成红色高亮状态,同时左侧的建议栏会给出一系列的修改建议。点击合适的修改建议后, 该修改操作将被执行。

删除空行操作。

如图所示,点击”Delete empty rows”的修改建议后,所有空白行将被删除。

->提取部分数据

在需要提取部分数据作为单独一列时,首先选中欲提取的数据,此时dataWrangler会自动分析用户的意图,并提取出相应数据。如果用户进行二次选取,则会对选取意图进行修正,以提取用户真正需要的数据。

下图是用户欲提取州名时,首先选取了”Alabama”,但此时dataWrangler认为用户想要提取相应长度的字符, 所以没有达到要求的”Alaska”并未被选取, 同时”California”等较长的字符也只被截取了一部分。

选择欲提取的数据。

此时,继续选取”Alaska”,dataWrangler通过二次选取获知用户想要提取的是这一位置的整个单词,进而成功提取出了州名。如下图所示。

通过二次选取修正提取结果。

->自动填充数据

提取出州名后,需要将其填充到每一行数据中。此时,只需点击一下州名数据列最上方的标题,左侧的智能建议栏中就会出现自动填充数据的建议。点击该建议,即可完成自动填充数据,如下图所示。

自动填充数据。

->删除无用数据

进行数据自动填充后,遗留下来的一些数据栏已经没有任何意义,需将其删除。点击欲删除数据中国的某一行,dataWrangler会自动给出删除建议。同时,将被删除的行将会高亮表示,如下图所示。

删除无用行。

点击左侧删除建议执行删除操作,结果如下图所示。

删除无用行后的结果。

->数据重构

在某些情况下,可能需要将数据重新组合成需要的格式。点击表格上方的绿色方块后,dataWrangler会给出多种数据重构建议。如下图所示。

对数据进行重构。

双击列名,可以对列名进行编辑, 图中的列名已经修改为”year”,”state”等有意义的文字。

点击左侧重构建议后,得到的数据结果如下图所示。

数据重构后的结果。

此时,每一行是一个州在不同年份的数据。 


本文作者:陈寻

来源:51CTO

相关文章
|
算法 Linux 数据处理
《操作系统》—— 处理机调度算法
《操作系统》—— 处理机调度算法
2635 1
|
调度
kettle开发篇-写日志
kettle开发篇-写日志
961 0
|
机器学习/深度学习 人工智能 负载均衡
基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化
本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。
|
存储 监控 Kubernetes
k8s诊断之记一次pod oom的异常shmem输出
客户反馈java设置xms,xmx参数固定8G内存,而pod的limit则为16G, 三番五次出现了pod oom的情况,且oom的时候他的业务进程输出也是8g, 同时promethus的监控对应pod的working_set_memory也是8个多g, 剩下的几个g的内存到底去哪里了呢?
4172 1
k8s诊断之记一次pod oom的异常shmem输出
|
Ubuntu Python
Ubuntu安装pip并切换国内源
Ubuntu安装pip并切换国内源
3866 0
Ubuntu安装pip并切换国内源
|
存储 SQL JSON
Spark - 一文搞懂 parquet
parquet 文件常见于 Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面主要讲parquet 文件在 spark 场景下的存储,读取与使用中可能遇到的坑。......
2718 0
Spark - 一文搞懂 parquet
|
3月前
|
数据可视化 测试技术 Go
Go 语言测试与调试:`go test` 工具用法
`go test` 是 Go 语言内置的测试工具,支持单元测试、基准测试、示例测试等功能。本文详解其常用参数、调试技巧及性能测试命令,并提供实际项目中的应用示例与最佳实践。
|
2月前
|
前端开发 JavaScript Java
如何开发项目管理系统中的统计分析看板?(附架构图+流程图+代码参考)
本文介绍如何通过项目管理系统的统计分析看板,提升项目管理效率与决策能力。内容涵盖客户分析、财务收支及项目综合看板的设计与实现,提供技术架构、业务流程和代码示例,帮助开发者快速构建数据驱动的项目管理平台。
|
11月前
|
数据可视化 JavaScript 数据挖掘
2024年最值得关注的5款数据可视化工具
在信息爆炸的时代,数据可视化工具帮助我们从海量数据中提取有价值的信息,并以直观、易于理解的方式展现。本文介绍五款主流工具:板栗看板、Power BI、Datawrapper、QlikView 和 Highcharts,从产品特色、使用场景等角度分析,帮助用户根据自身需求选择合适的工具。
1246 0
2024年最值得关注的5款数据可视化工具
|
11月前
|
Shell 开发者 iOS开发
Python 环境搭建之 conda
本文介绍了Python项目管理工具Conda的两种版本——Anaconda和Miniconda的安装方法及环境使用,特别针对MacOS系统。Anaconda为全量版,适合新手;Miniconda则为轻量级版本,适合有经验的开发者。文中还提供了具体的安装命令和路径说明,帮助用户顺利完成安装并验证安装结果。
465 0
Python 环境搭建之 conda