Python网络数据抓取(8):正则表达式

简介: Python网络数据抓取(8):正则表达式

引言

正则表达式是查找文本模式的强大工具。它们就像在 Word 文档上使用 Ctrl-F 一样,但功能比它们强大得多。

当您验证任何类型的用户输入时,尤其是在抓取网页时,这非常有帮助。正则表达式的应用范围非常大。

一开始这可能会很有挑战性,但一旦你准备好了,相信我,这会让你的工作更有效率。

实战

它的符号和语法在所有编程语言中都是通用的。为了理解正则表达式,我们将验证您在 Python 中进行网页抓取时可能遇到的某些字符串。

假设您想从网络上抓取电子邮件以用于公司的潜在客户开发流程。电子邮件的第一部分可以包括:

  • 大写字母 [A-Z]
  • 小写字母 [a-z]
  • 数字 [0–9]

现在,如果被抓取的电子邮件不遵循此模式,那么我们可以轻松忽略该电子邮件并可以继续处理另一封电子邮件。我们将用 python 编写一个简单的代码来识别此类电子邮件,并且我们将使用 python 的 re 库。

import re

pattern = "[a-zA-Z0-9]+@"

括号允许我们指定我们正在查找给定字符串(例如电子邮件)中的字符。我们将匹配模式,直到 @ 符号和括号后面的加号意味着我们正在寻找这些字符中的一个或多个字符的任意组合。

由于电子邮件是由许多域提供的,因此我们必须指定我们正在寻找一个或多个大写和小写字母。

pattern = "[a-zA-Z0-9]+@[a-zA-Z]"

现在,让我们检查一下这是否可以与 if 和 else 语句一起使用。

email = input()

if(re.search(pattern,email)):
 print(“Valid email”)
else:
 print(“invalid email”)

在终端上运行此文件进行检查。

现在,让我们试试 info@scrapingdog.com。

这是您识别正确电子邮件字符串的方法。现在,我们将学习如何使用正则表达式将一个字符替换为另一个字符

字符替换

当您对大型数据库进行更改(其中可能有数千个字符串需要更新)时,这会派上用场。

现在,假设我们需要将每个电话号码输入到不带连字符的连续数字字符串中,但我们希望保留单词形式的连字符。我们将为此编写正则表达式。

import re
pattern =(\d\d\d)-(\d\d\d)-(\d\d\d\d)

“\d”将匹配任何单个数字。每组括号类似于一个组。

new_pattern = r”\1\2\3

因此,从左到右我们分为三个不同的组。但我们需要编写我们想要这个模式变成的内容。让我们保留该组但删除连字符。

每个反斜杠数字代表一个组,因此我们的新模式是将三个组连接在一起,而不使用连字符。我们将 r 放在字符串之前,将其视为原始字符串。

现在,让我们接受用户的输入并检查它是否有效。

import re

pattern =(\d\d\d)-(\d\d\d)-(\d\d\d\d)”
new_pattern = r”\1\2\3"

phoneNumber = input()

final_output = re.sub(pattern, new_pattern, phoneNumber)

print(final_output)

这只是如何在 Python 数据抓取中使用正则表达式的基本示例。正则表达式适用于任何语言,并且响应速度相当快。

相关文章
|
3月前
|
机器学习/深度学习 算法 量子技术
GQNN框架:让Python开发者轻松构建量子神经网络
为降低量子神经网络的研发门槛并提升其实用性,本文介绍一个名为GQNN(Generalized Quantum Neural Network)的Python开发框架。
64 4
GQNN框架:让Python开发者轻松构建量子神经网络
|
2月前
|
机器学习/深度学习 算法 安全
【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测(Python代码实现)
【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测(Python代码实现)
|
6天前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
2月前
|
运维 Linux 开发者
Linux系统中使用Python的ping3库进行网络连通性测试
以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性,并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。
120 18
|
1月前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
|
3月前
|
JSON 网络安全 数据格式
Python网络请求库requests使用详述
总结来说,`requests`库非常适用于需要快速、简易、可靠进行HTTP请求的应用场景,它的简洁性让开发者避免繁琐的网络代码而专注于交互逻辑本身。通过上述方式,你可以利用 `requests`处理大部分常见的HTTP请求需求。
314 51
|
24天前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
|
2月前
|
机器学习/深度学习 算法 调度
基于遗传算法GA算法优化BP神经网络(Python代码实现)
基于遗传算法GA算法优化BP神经网络(Python代码实现)
103 0
|
2月前
|
机器学习/深度学习 数据采集 TensorFlow
基于CNN-GRU-Attention混合神经网络的负荷预测方法(Python代码实现)
基于CNN-GRU-Attention混合神经网络的负荷预测方法(Python代码实现)
|
2月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
112 0

推荐镜像

更多