《Clojure数据分析秘笈》——2.2节使用正则表达式清洗数据

简介:

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第2章,第2.2节使用正则表达式清洗数据,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.2 使用正则表达式清洗数据
大概最基本、最普遍的数据清洗方式就是正则表达式了。尽管有时被滥用,但是很多时候正则表达式是完成一项工作最适合的工具。而且,Clojure内置编译正则表达式的语法,因此在Clojure中使用正则表达式也很方便。
本例将编写一个标准化美国电话号码的函数。

2.2.1 准备工作
本方法需要在脚本或REPL中使用clojure.string库。表达式如下:


10a4eadc9d6ef966fc2436139963591e1f61c3ac

2.2.3 实现原理
本方法中最复杂的部分是正则表达式,接下来对其详细讲解。
(?x):这是本身并不匹配任何内容的标识符。它允许展开正则表达式,并且它会忽略空格和注释。以这种方式编写正则表达式使它们具有相当好的可读性和可用性,特别是6个月后当你试图回忆它的作用时。
(d{3}):匹配三个数字。
D{0,2}:匹配0~2个非数字字符。这是为了允许在区号和前缀之间存在可选的分隔符。
(d{3}):匹配另外三个数字。
D?:这是一个可选的非数字字符。例如,允许一个破折号。
(d{4}):这是电话号码的最后4位数字。
圆括号中间的内容可以被正则表达式匹配。如果正则表达式的圆括号中没有组(groups),re-find仅返回匹配的字符串。如果有组,将返回一个向量。匹配的整个字符串是向量的第一个元素,正则表达式中组的内容存在于向量后面的元素中。本方法使用返回的组来构建输出。
2.2.4 更多信息
正则表达式很复杂,而且很多书对其做了介绍。这里有更多关于正则表达式的资源:
JavaDocs里关于Pattern类的内容可以在http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html找到。它总结了Java中使用正则表达式的语法。
关于正则表达式的Oracle Java教程可以在http://docs.oracle.com/javase/tutorial/essential/regex/找到。
RegexPlant的在线测试器,参见http://www.regexplanet.com/advanced/java/index.html。但REPL是我通常用来构建或测试正则表达式的工具。
2.2.5 参阅
Jamie Zawinski曾说过:
有一些人,当他们遇到难题的时候,会想“我知道,我将使用正则表达式”。然后他们就会有两个难题。
正则表达式是一个复杂的、愚钝的工具,而且通常需要精心设计。有时它们是合适的工具,但有时不是。2.11节将介绍一个更强大、更好用的工具。

相关文章
|
5月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
11月前
|
API 数据库 Python
除了正则表达式,还有哪些方法可以验证用户输入数据的格式?
除了正则表达式,还有哪些方法可以验证用户输入数据的格式?
399 79
|
4月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
10月前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
636 142
|
11月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
614 92
|
12月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
501 73
|
11月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
343 22
|
9月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
967 0
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
873 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
262 2