书籍:Data Cleaning数据清洗-基于shell和python - 2018.pdf

简介: 简介作为最畅销的口袋入门系列的一部分,本书旨在为程序员提供足够的数据清理知识,以便能够在自己的项目中工作。 它被设计为使用灵活,强大(和免费)的Unix / Linux shell命令和python来执行常见数据清理任务的实用介绍。

简介

图片.png

作为最畅销的口袋入门系列的一部分,本书旨在为程序员提供足够的数据清理知识,以便能够在自己的项目中工作。 它被设计为使用灵活,强大(和免费)的Unix / Linux shell命令和python来执行常见数据清理任务的实用介绍。 本书充满了现实的例子和大量的命令,说明了语法和命令如何协同工作。 带有源代码的伴随文件可从发布者处下载。

参考资料

相关文章
|
5天前
|
Python
Python办公自动化:删除任意页数pdf页面
Python办公自动化:删除任意页数pdf页面
15 1
Python办公自动化:删除任意页数pdf页面
|
7天前
|
数据采集 数据挖掘 数据处理
数据清洗,不只是清洁!Python教你如何挖掘数据中的隐藏价值!
在数据驱动的时代,数据被视为企业的核心资产。然而,这些宝贵的数据往往伴随着噪声、缺失值、异常值等问题,如同未经雕琢的璞玉,需要精心打磨才能展现出其内在的价值。数据清洗,这一看似简单的预处理过程,实则蕴含着挖掘数据深层价值的无限可能。今天,就让我们借助Python的力量,一同探索如何通过数据清洗来发现数据中的隐藏宝藏。
26 1
|
12天前
|
数据采集 机器学习/深度学习 数据挖掘
告别脏乱差!Python数据清洗秘籍,让你的数据比初恋还纯净!
在数据分析与机器学习领域,数据质量至关重要。本文将带你揭秘如何使用Python进行高效的数据清洗。面对缺失值,可以利用Pandas填充或删除;遇到异常值,可通过IQR方法识别并过滤;数据类型不一致时,需统一转换;重复记录则应被清除。通过这些步骤,让你的数据焕然一新,更加纯净可靠。以下是具体操作示例: - **处理缺失值**:使用Pandas的`fillna`或`dropna`方法。 - **识别异常值**:利用IQR方法过滤极端值。 - **统一数据类型**:确保所有数据列类型一致。 - **删除重复记录**:避免计算资源浪费和结果偏差。 让你的数据比初恋更纯净,从现在做起!
23 1
|
3天前
Python3.x常用时间的处理方法 和urlopen处理post请求,传值data 原创
Python3.x常用时间的处理方法和urlopen处理post请求,传值data 原创
11 0
|
5天前
|
数据安全/隐私保护 Python
Python办公自动化:给pdf加水印
Python办公自动化:给pdf加水印
|
5天前
|
Python
Python办公自动化:提取pdf文件中的图片
Python办公自动化:提取pdf文件中的图片
10 0
|
2月前
|
Linux Python Windows
Python PDF文件转Word格式,只需要3秒(附打包)
Python PDF文件转Word格式,只需要3秒(附打包)
63 3
Python PDF文件转Word格式,只需要3秒(附打包)
|
2月前
|
XML JSON 数据安全/隐私保护
PyMuPDF,Python处理PDF的宝藏库
PyMuPDF,Python处理PDF的宝藏库
|
2月前
|
数据安全/隐私保护 Python Windows
三种方法,Python轻松提取PDF中全部图片
三种方法,Python轻松提取PDF中全部图片
|
2月前
|
Unix Shell Python
在Shell中转换Python正则表达式
结合以上提到的注意事项与差异点,就能在Shell环境中巧妙地转换并使用Python正则表达式了。务实和节省时间的做法是,将一些常见Python正则模式记在手边,随时查阅并对照POSIX标准进行调整。同时,借助在线正则表达式测试器和文档也能有效地提升在Shell环境中处理正则表达式的能力。
33 5
下一篇
无影云桌面