Pandas数据分析:处理文本数据(str/object)各类操作+代码一文详解(三)

简介: Pandas数据分析:处理文本数据(str/object)各类操作+代码一文详解(三)

前言


Pandas处理字符文本等数据技术以及函数设计迭代的过程已经很长了,处理方法也多。很多时候我们是通过一系列需求或者想要实现的一个效果去搜寻答案和代码。或者是当获取到了这个实现功能的函数却不知道这个函数的使用方法和参数调整,这是实际开发常常遇到的问题,也是比较头疼。但是如果能够对Pandas对整个数据类型体系处理方法有个明确的认知和大体处理操作,那么久可以节省很多我们盲目搜索答案的时间,大大加快我们分析数据的效率。


此篇文章依旧紧接着上篇文章的内容,常用的处理方法已经将近讲述到过半了。处理字符文本的Pandas数据分析系列应该会随后完结。


Pandas数据分析系列专栏已经更新了很久了,基本覆盖到使用pandas处理日常业务以及常规的数据分析方方面面的问题。从基础的数据结构逐步入门到处理各类数据以及专业的pandas常用函数讲解都花费了大量时间和心思创作,如果大家有需要从事数据分析或者大数据开发的朋友推荐订阅专栏,将在第一时间学习到Pandas数据分析最实用常用的知识。此篇博客篇幅较长,涉及到处理文本数据(str/object)等各类操作,值得细读实践一番,我会将Pandas的精华部分挑出细讲实践。博主会长期维护博文,有错误或者疑惑可以在评论区指出,感谢大家的支持。


一、子串提取


提取匹配首位子串


在版本0.23之前,extract方法的参数扩展默认为False。当expand=False时,expand根据subject和正则表达式模式返回Series、Index或DataFrame。当expand=True时,它总是返回一个数据帧,从用户的角度来看,该数据帧更一致,更容易混淆。自0.23.0版以来,expand=True一直是默认值。


extract方法接受具有至少一个正则表达式。提取包含多个组的正则表达式将返回每个组一列的DataFrame。

pd.Series(
    ["a1", "b2", "c3"],
    dtype="string",
).str.extract(r"([ab])(\d)", expand=False)

b451b8e8c114445d984a1da613e28cf4.png

不匹配的元素返回一个填充有NaN的行。因此,一系列杂乱的字符串可以被“转换”成一个类似的索引序列或DataFrame,其中包含清理过的或更有用的字符串,而不需要get()来访问元组或re.match对象。结果的数据类型始终为object,即使未找到匹配项且结果仅包含NaN。


分组时列名设置:

pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(
    r"(?P<letter>[ab])(?P<digit>\d)", expand=False
)

9cac85746e964c86a37dabdf65008409.png


可选分组:

pd.Series(
    ["a1", "b2", "3"],
    dtype="string",
).str.extract(r"([ab])?(\d)", expand=False)

81a5a2eeece14a3b93696d0f7954b62d.png

正则表达式中的任何捕获组名称都将用于列名;否则将使用捕获组编号。


如果expand=True,提取一组正则表达式将返回一列DataFrame。

pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(r"[ab](\d)", expand=True)

886b1db1f5c649858ec960161c20daa5.png

如果expand=False,则返回为Series。


pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(r"[ab](\d)", expand=False)


885d181994ff4a2d8e0eb632f237a41e.png


如果expand=True,则使用正则表达式调用具有一个捕获组的索引将返回一个具有一列的DataFrame。


s = pd.Series(["a1", "b2", "c3"], ["A11", "B22", "C33"], dtype="string")
s.index.str.extract("(?P<letter>[a-zA-Z])", expand=True)

1f8ff9197eac412ba7229dc3f8e2b4fe.png

如果expand=False,则返回索引。


s.index.str.extract("(?P<letter>[a-zA-Z])", expand=False)

1c013dd9ff8246279634e3c41cb33ef9.png

如果expand=True,则使用具有多个捕获组的正则表达式调用索引将返回DataFrame。


s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=True)



2c91328690fa4eee88bb387edb209f7d.png

如果expand=False,则会引发ValueError。


s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=False)

1b65113985904c6994c8db3a9102ee18.png

下表总结了extract(expand=False)的情况(第一列中输入主题,第一行中regex中的组数)

image.png


提取所有匹配项(extractall)


与extract(仅返回第一个匹配)不同:

s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"], dtype="string")
s

4c59e530e0464169b920b7375d5f1c6d.png

two_groups = "(?P<letter>[a-z])(?P<digit>[0-9])"
s.str.extract(two_groups, expand=True)

6bbf2ea77bc54625a93117c65588f1b8.png


extractall方法返回每个匹配项。extractall的结果总是一个DataFrame,其行上有MultiIndex。多重索引的最后一级名为match,表示主题中的顺序。


s.str.extractall(two_groups)


7d522b16436046c7b93bfe213abef6a1.png

当Series中的每个subject中正好有一个匹配时,extractall(pat).xs(0,level='match')与extract(pat)将得到一样的结果:


1. s = pd.Series(["a3", "b3", "c2"], dtype="string")
2. s


91491517ba28461db9083aa828594aba.png

extract_result = s.str.extract(two_groups, expand=True)
extract_result

940f545251f144d5bb0a291a9448ef3f.png


extractall_result = s.str.extractall(two_groups)
extractall_result

53271480bbaf4a96a33718bf8d90b903.png

extractall_result.xs(0, level="match")

f050dc481ed24da3b03e83a99abf46f2.png


索引Index还支持.str.extractall。它返回一个DataFrame,其结果与带有默认索引(从0开始)的Series.str.extractall相同。


pd.Index(["a1a2", "b1", "c1"]).str.extractall(two_groups)

edb78ad947f0421bbe9917461aba602a.png


二、全局字符匹配


contain检验


使用contain函数可以检测series或者dataframe中是否包含检测字符:


pattern = r"[0-9][a-z]"
pd.Series(
    ["1", "2", "3a", "3b", "03c", "4dx"],
    dtype="string",
).str.contains(pattern)

26db9551f1384ed784ce8a6e15d9f438.png

match元素匹配

pd.Series(
    ["1", "2", "3a", "3b", "03c", "4dx"],
    dtype="string",
).str.match(pattern)

1cb8850d5876441fa927ea0df32db1ce.png

match、fullmatch和contains之间的区别在于严格性:


fullmatch测试整个字符串是否与正则表达式匹配;

match是否存在从字符串的第一个字符开始的正则表达式的匹配;

contain在字符串中的任何位置是否存在正则表达式的匹配。

这三种匹配模式的re包中的相应函数为re。完全匹配,重新。匹配,再重新。搜索。


match、fullmatch、contains、StartWith和endswith等方法采用额外的na参数,因此丢失的值可以被视为True或False:


s4 = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
)
s4.str.contains("A", na=False)

bf91fddab3a24785989542ec6ee12ea5.png

创建指标变量


可以从字符串列中提取虚拟变量。例如,如果它们由“|”分隔:


s = pd.Series(["a", "a|b", np.nan, "a|c"], dtype="string")
s.str.get_dummies(sep="|")


bae95ee3e1ae41d092a5a5dc34933196.png

字符串索引还支持get_dummies,它返回多索引。


1. idx = pd.Index(["a", "a|b", np.nan, "a|c"])
2. idx.str.get_dummies(sep="|")


63cc55ed1b524479a3b1c28a4863fab9.png



以上我们的处理文本数据(str/object)各类操作系列文章就讲完了。博主会长期维护博文,有错误或者疑惑可以在评论区指出,感谢大家的支持。

目录
打赏
0
0
0
0
33
分享
相关文章
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
148 71
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
243 92
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
82 21
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
161 73
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
89 22
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
107 5
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
126 0
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
155 1
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
90 2
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
125 3
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等