Python网络数据抓取(8):正则表达式

简介: Python网络数据抓取(8):正则表达式

引言

正则表达式是查找文本模式的强大工具。它们就像在 Word 文档上使用 Ctrl-F 一样,但功能比它们强大得多。

当您验证任何类型的用户输入时,尤其是在抓取网页时,这非常有帮助。正则表达式的应用范围非常大。

一开始这可能会很有挑战性,但一旦你准备好了,相信我,这会让你的工作更有效率。

实战

它的符号和语法在所有编程语言中都是通用的。为了理解正则表达式,我们将验证您在 Python 中进行网页抓取时可能遇到的某些字符串。

假设您想从网络上抓取电子邮件以用于公司的潜在客户开发流程。电子邮件的第一部分可以包括:

  • 大写字母 [A-Z]
  • 小写字母 [a-z]
  • 数字 [0–9]

现在,如果被抓取的电子邮件不遵循此模式,那么我们可以轻松忽略该电子邮件并可以继续处理另一封电子邮件。我们将用 python 编写一个简单的代码来识别此类电子邮件,并且我们将使用 python 的 re 库。

import re

pattern = "[a-zA-Z0-9]+@"

括号允许我们指定我们正在查找给定字符串(例如电子邮件)中的字符。我们将匹配模式,直到 @ 符号和括号后面的加号意味着我们正在寻找这些字符中的一个或多个字符的任意组合。

由于电子邮件是由许多域提供的,因此我们必须指定我们正在寻找一个或多个大写和小写字母。

pattern = "[a-zA-Z0-9]+@[a-zA-Z]"

现在,让我们检查一下这是否可以与 if 和 else 语句一起使用。

email = input()

if(re.search(pattern,email)):
 print(“Valid email”)
else:
 print(“invalid email”)

在终端上运行此文件进行检查。

现在,让我们试试 info@scrapingdog.com。

这是您识别正确电子邮件字符串的方法。现在,我们将学习如何使用正则表达式将一个字符替换为另一个字符

字符替换

当您对大型数据库进行更改(其中可能有数千个字符串需要更新)时,这会派上用场。

现在,假设我们需要将每个电话号码输入到不带连字符的连续数字字符串中,但我们希望保留单词形式的连字符。我们将为此编写正则表达式。

import re
pattern =(\d\d\d)-(\d\d\d)-(\d\d\d\d)

“\d”将匹配任何单个数字。每组括号类似于一个组。

new_pattern = r”\1\2\3

因此,从左到右我们分为三个不同的组。但我们需要编写我们想要这个模式变成的内容。让我们保留该组但删除连字符。

每个反斜杠数字代表一个组,因此我们的新模式是将三个组连接在一起,而不使用连字符。我们将 r 放在字符串之前,将其视为原始字符串。

现在,让我们接受用户的输入并检查它是否有效。

import re

pattern =(\d\d\d)-(\d\d\d)-(\d\d\d\d)”
new_pattern = r”\1\2\3"

phoneNumber = input()

final_output = re.sub(pattern, new_pattern, phoneNumber)

print(final_output)

这只是如何在 Python 数据抓取中使用正则表达式的基本示例。正则表达式适用于任何语言,并且响应速度相当快。

相关文章
|
5天前
|
机器学习/深度学习 数据采集 算法
Python基于OpenCV和卷积神经网络CNN进行车牌号码识别项目实战
Python基于OpenCV和卷积神经网络CNN进行车牌号码识别项目实战
41 19
|
1天前
|
网络协议 安全 Shell
`nmap`是一个开源的网络扫描工具,用于发现网络上的设备和服务。Python的`python-nmap`库允许我们在Python脚本中直接使用`nmap`的功能。
`nmap`是一个开源的网络扫描工具,用于发现网络上的设备和服务。Python的`python-nmap`库允许我们在Python脚本中直接使用`nmap`的功能。
17 7
|
3天前
|
存储 算法 Python
Python图论实战:从零基础到精通DFS与BFS遍历,轻松玩转复杂网络结构
【7月更文挑战第11天】图论在数据科学中扮演关键角色,用于解决复杂网络问题。Python因其易用性和库支持成为实现图算法的首选。本文通过问答形式介绍DFS和BFS,图是节点和边的数据结构,遍历用于搜索和分析。Python中图可表示为邻接表,DFS用递归遍历,BFS借助队列。DFS适用于深度探索,BFS则用于最短路径。提供的代码示例帮助理解如何在Python中应用这两种遍历算法。开始探索图论,解锁更多技术可能!
18 6
|
5天前
|
机器学习/深度学习 数据采集 监控
Python基于BP神经网络算法实现家用热水器用户行为分析与事件识别
Python基于BP神经网络算法实现家用热水器用户行为分析与事件识别
|
1天前
|
机器学习/深度学习 TensorFlow API
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
7 0
|
1天前
|
网络协议 安全 Python
我们将使用Python的内置库`http.server`来创建一个简单的Web服务器。虽然这个示例相对简单,但我们可以围绕它展开许多讨论,包括HTTP协议、网络编程、异常处理、多线程等。
我们将使用Python的内置库`http.server`来创建一个简单的Web服务器。虽然这个示例相对简单,但我们可以围绕它展开许多讨论,包括HTTP协议、网络编程、异常处理、多线程等。
5 0
|
1天前
|
网络协议 Python
在Python中,我们使用`socket`模块来进行网络通信。首先,我们需要导入这个模块。
在Python中,我们使用`socket`模块来进行网络通信。首先,我们需要导入这个模块。
4 0
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战
Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战
|
5天前
|
机器学习/深度学习 数据采集 算法
Python基于卷积神经网络CNN模型和VGG16模型进行图片识别项目实战
Python基于卷积神经网络CNN模型和VGG16模型进行图片识别项目实战
|
移动开发 网络协议 Linux
Python网络编程(socketserver、TFTP云盘、HTTPServer服务器模型)
Python网络编程 Python小项目 Python网盘 Python HTTP请求服务端
2129 0