用了的都说好 | 详解16个Pandas函数,让你的 “数据清洗” 能力提高100倍!(二)

简介: 用了的都说好 | 详解16个Pandas函数,让你的 “数据清洗” 能力提高100倍!(二)

⑩ slice_replace:使用给定的字符串,替换指定的位置的字符

df["电话号码"].str.slice_replace(4,8,"*"*4)


结果如下:

image.png


⑪ replace:将指定位置的字符,替换为给定的字符串

df["身高"].str.replace(":","-")


结果如下:

image.png


⑫ replace:将指定位置的字符,替换为给定的字符串(接受正则表达式)

replace中传入正则表达式,才叫好用;

先不要管下面这个案例有没有用,你只需要知道,使用正则做数据清洗多好用;

df["收入"].str.replace("\d+\.\d+","正则")


结果如下:

image.png


⑬ split方法+expand参数:搭配join方法功能很强大

# 普通用法
df["身高"].str.split(":")
# split方法,搭配expand参数
df[["身高描述","final身高"]] = df["身高"].str.split(":",expand=True)
df
# split方法搭配join方法
df["身高"].str.split(":").str.join("?"*5)


结果如下:

image.png


⑭ strip/rstrip/lstrip:去除空白符、换行符

df["姓名"].str.len()
df["姓名"] = df["姓名"].str.strip()
df["姓名"].str.len()


结果如下:

image.png


⑮ findall:利用正则表达式,去字符串中匹配,返回查找结果的列表

findall使用正则表达式,做数据清洗,真的很香!

df["身高"]
df["身高"].str.findall("[a-zA-Z]+")


结果如下:

image.png


⑯ extract/extractall:接受正则表达式,抽取匹配的字符串(一定要加上括号)

df["身高"].str.extract("([a-zA-Z]+)")
# extractall提取得到复合索引
df["身高"].str.extractall("([a-zA-Z]+)")
# extract搭配expand参数
df["身高"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True)


结果如下:

image.png

相关文章
|
1月前
|
数据采集 数据挖掘 数据处理
如何使用 Pandas 库进行数据清洗和预处理?
数据清洗和预处理是数据分析中至关重要的步骤,Pandas库提供了丰富的函数和方法来完成这些任务
74 8
|
6天前
|
数据采集 分布式计算 大数据
Pandas数据清洗:缺失值处理
本文详细介绍了Pandas库中处理缺失值的方法,包括检测缺失值、删除缺失值、填充缺失值和插值法填充缺失值。通过基础概念和代码示例,帮助读者理解和解决数据清洗中常见的缺失值问题。
123 80
|
1月前
|
Python
|
1月前
|
Python
|
1月前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
42 1
|
1月前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
20 1
|
1月前
|
数据采集 Python
Pandas 常用函数-数据清洗
Pandas 常用函数-数据清洗
26 2
|
1月前
|
BI Python
Pandas 常用函数-数据统计和描述
Pandas 常用函数-数据统计和描述
123 0
|
1月前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
20 0
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
75 0