Python网络数据抓取(8):正则表达式

简介: Python网络数据抓取(8):正则表达式

引言

正则表达式是查找文本模式的强大工具。它们就像在 Word 文档上使用 Ctrl-F 一样,但功能比它们强大得多。

当您验证任何类型的用户输入时,尤其是在抓取网页时,这非常有帮助。正则表达式的应用范围非常大。

一开始这可能会很有挑战性,但一旦你准备好了,相信我,这会让你的工作更有效率。

实战

它的符号和语法在所有编程语言中都是通用的。为了理解正则表达式,我们将验证您在 Python 中进行网页抓取时可能遇到的某些字符串。

假设您想从网络上抓取电子邮件以用于公司的潜在客户开发流程。电子邮件的第一部分可以包括:

  • 大写字母 [A-Z]
  • 小写字母 [a-z]
  • 数字 [0–9]

现在,如果被抓取的电子邮件不遵循此模式,那么我们可以轻松忽略该电子邮件并可以继续处理另一封电子邮件。我们将用 python 编写一个简单的代码来识别此类电子邮件,并且我们将使用 python 的 re 库。

import re

pattern = "[a-zA-Z0-9]+@"

括号允许我们指定我们正在查找给定字符串(例如电子邮件)中的字符。我们将匹配模式,直到 @ 符号和括号后面的加号意味着我们正在寻找这些字符中的一个或多个字符的任意组合。

由于电子邮件是由许多域提供的,因此我们必须指定我们正在寻找一个或多个大写和小写字母。

pattern = "[a-zA-Z0-9]+@[a-zA-Z]"

现在,让我们检查一下这是否可以与 if 和 else 语句一起使用。

email = input()

if(re.search(pattern,email)):
 print(“Valid email”)
else:
 print(“invalid email”)

在终端上运行此文件进行检查。

现在,让我们试试 info@scrapingdog.com。

这是您识别正确电子邮件字符串的方法。现在,我们将学习如何使用正则表达式将一个字符替换为另一个字符

字符替换

当您对大型数据库进行更改(其中可能有数千个字符串需要更新)时,这会派上用场。

现在,假设我们需要将每个电话号码输入到不带连字符的连续数字字符串中,但我们希望保留单词形式的连字符。我们将为此编写正则表达式。

import re
pattern =(\d\d\d)-(\d\d\d)-(\d\d\d\d)

“\d”将匹配任何单个数字。每组括号类似于一个组。

new_pattern = r”\1\2\3

因此,从左到右我们分为三个不同的组。但我们需要编写我们想要这个模式变成的内容。让我们保留该组但删除连字符。

每个反斜杠数字代表一个组,因此我们的新模式是将三个组连接在一起,而不使用连字符。我们将 r 放在字符串之前,将其视为原始字符串。

现在,让我们接受用户的输入并检查它是否有效。

import re

pattern =(\d\d\d)-(\d\d\d)-(\d\d\d\d)”
new_pattern = r”\1\2\3"

phoneNumber = input()

final_output = re.sub(pattern, new_pattern, phoneNumber)

print(final_output)

这只是如何在 Python 数据抓取中使用正则表达式的基本示例。正则表达式适用于任何语言,并且响应速度相当快。

相关文章
|
15天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
190 55
|
1月前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
1月前
|
Python
Python中的异步编程:使用asyncio和aiohttp实现高效网络请求
【10月更文挑战第34天】在Python的世界里,异步编程是提高效率的利器。本文将带你了解如何使用asyncio和aiohttp库来编写高效的网络请求代码。我们将通过一个简单的示例来展示如何利用这些工具来并发地处理多个网络请求,从而提高程序的整体性能。准备好让你的Python代码飞起来吧!
82 2
|
25天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
130 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
25天前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
62 3
|
30天前
|
网络安全 Python
Python网络编程小示例:生成CIDR表示的IP地址范围
本文介绍了如何使用Python生成CIDR表示的IP地址范围,通过解析CIDR字符串,将其转换为二进制形式,应用子网掩码,最终生成该CIDR块内所有可用的IP地址列表。示例代码利用了Python的`ipaddress`模块,展示了从指定CIDR表达式中提取所有IP地址的过程。
46 6
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
60 8
|
1月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
1月前
|
Python
在Python中,可以使用内置的`re`模块来处理正则表达式
在Python中,可以使用内置的`re`模块来处理正则表达式
55 5
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
87 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络

热门文章

最新文章