1.python爬虫基础——正则表达式

简介: #python网络爬虫#通用网络爬虫(没有目的,爬去所有的URL) 聚焦网络爬虫(过滤无关的链接)#python数据分析与挖掘实战的正则表达式#正则表达式 世界上信息非常多,而我们关注的信息有限。
#python网络爬虫
#通用网络爬虫(没有目的,爬去所有的URL)  聚焦网络爬虫(过滤无关的链接)

#python数据分析与挖掘实战的正则表达式
#正则表达式  世界上信息非常多,而我们关注的信息有限。假如我们希望只提取出关注数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。

#原子
#原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。
#常见的原子类型有:普通字符作为原子,非打印字符作为原子,通用字符作为原子,原子表

import re
pat="yue"         #普通字符作为原子
string="http://yum.iqianyue.com"
rst=re.search(pat,string)
print(rst)

pat1="\n"  #\n  \t            #非打印字符作为原子
string1='''dsfjsdjf
sdfsdfsdfsdf'''
rst1=re.search(pat1,string1)
print(rst1)

pat2="\w\dpython\w"
#\w 通用字符,匹配任意字母,数字,下划线
#\d 匹配任意一个十进制数       #\S 除了十进制数的任意
#|s 匹配空白字符       #\S 除了空白字符的任意字符
#\W 匹配任意一个除了字母,数字,下划线的东西
string2="hsdlfsga7pythonkdfshdskjf"
rst2=re.search(pat2,string2)
print(rst2)

pat3="pyth[jsz]n"           #原子表  定义一组平等的字符
string3="fsdjfpythjnjslkdfpythsnjfsjpythjsnfsd"
rst3=re.search(pat3,string3)
print(rst3)

#元字符
#正则表达式中具有一些特殊含义的字符,比如重复N次前面的字符等
#. 匹配任意字符
#^ 匹配字符串中的开始位置
#$ 匹配字符串中结束的位置
#* 匹配0次 1次或者多次的前面的原子
#?匹配0次或者1次前面的原子
#+ 匹配一次或多次前面的原子
#{3} 前面的原子恰好出现了3次  并且连在一起的
#{n} 出现了n次
#{4,7} 至少出现4次  之多出现7次  {4,}
#t|s  出现t或者s
#() 提取某一个内容
pat4=".python..."
string4="sjslkdjfpythonslfjshf"
rst4=re.search(pat4,string4)
print(rst4)

pat5="python|php"
string5="jfsdjphpjsljfspythonfsd"
rst5=re.search(pat5,string5)
print(rst5)

#模式修正符
#可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能
#I 使正则表达式不区分大小写
#M 多行匹配
#L 本地化识别匹配
#U 根据Unicode解析字符
#S 让点也能匹配包括换行符
pat6="python"
pat7="python"
string6="sjljfaljafPythonsfjlsjfssfs"
rst6=re.search(pat6,string6)
print(rst6)

rst7=re.search(pat7,string6,re.I)    #模式修正符实例,不区分大小写
print(rst7)

#贪婪模式和懒惰模式
#贪婪模式尽可能的多的去匹配   #懒惰模式尽可能少的去匹配
pat8="p.*y"   #贪婪模式 更多的去覆盖
pat9="p.*?y"  #懒惰模式 更精准的定位
string8="jlsjfhspythonslfjshdpy"
rst8=re.search(pat8,string8)
rst9=re.search(pat9,string8)
print(rst8)
print(rst9)

#正则表达式函数
#正则表达式函数有re.match()函数,re.search()函数,全局匹配函数,re.sub()函数
#re.search()  从字符串中搜索出来
#re.match()   从头开始匹配,如果一开始没有,那么就返回None
#全局匹配函数
#re.sub()     主要用于替换

string10="phskfhskjhfkjshfjksgjfyskjhfksdh"
rst10=re.match(pat8,string10)
print(rst10)

rst11=re.compile(pat8).findall(string10)   #全局搜索函数  显示所有满足条件的  后面用的最多
print(rst11)

#常见正则表达式实例
#匹配.com .cn网址
pat="[a-zA-Z]+://[^\s]*[.com|.cn]"
string='<a href="http://www.baidu.com">fjsljflds</a>'
rst=re.compile(pat).findall(string)
print(rst)

#简单的爬虫,如何爬取csdn某个课程页面上的QQ群
pat="<p>(\d*?)</p>"
import urllib.request
data=urllib.request.urlopen("http://edu.csdn.net/huiyiCourse/detail/215").read()
rst=re.compile(pat).findall(str(data))
print(rst)

#作业:如何爬取豆瓣出版社列表并写入文件中
#豆瓣网址:https://read.douban.com/provider/all
import urllib.request
import re

data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8")
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
print(mydata)
fh=open("/Users/xubin/myapp/pythonfile/出版社file4.txt","w")
for i in range(0,len(mydata)):
    fh.write(mydata[i]+"\n")
fh.close()
目录
相关文章
|
16天前
|
数据采集 XML 数据处理
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页内容并进行简单的数据处理。通过学习本文,读者将了解Web爬虫的基本原理和Python爬虫库的使用方法。
|
6天前
|
数据采集 Web App开发 Java
Python 爬虫:Spring Boot 反爬虫的成功案例
Python 爬虫:Spring Boot 反爬虫的成功案例
|
6天前
|
数据采集 Python
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页上的信息。通过分析目标网页的结构,利用Python中的requests和Beautiful Soup库,我们可以轻松地提取所需的数据,并将其保存到本地或进行进一步的分析和处理。无论是爬取新闻、股票数据,还是抓取图片等,本文都将为您提供一个简单而有效的解决方案。
|
7天前
|
数据采集 存储 XML
如何利用Python构建高效的Web爬虫
本文将介绍如何使用Python语言以及相关的库和工具,构建一个高效的Web爬虫。通过深入讨论爬虫的基本原理、常用的爬虫框架以及优化技巧,读者将能够了解如何编写可靠、高效的爬虫程序,实现数据的快速获取和处理。
|
14天前
|
数据采集 Web App开发 数据可视化
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
|
15天前
|
数据采集 存储 大数据
Python爬虫:数据获取与解析的艺术
本文介绍了Python爬虫在大数据时代的作用,重点讲解了Python爬虫基础、常用库及实战案例。Python因其简洁语法和丰富库支持成为爬虫开发的优选语言。文中提到了requests(发送HTTP请求)、BeautifulSoup(解析HTML)、Scrapy(爬虫框架)、Selenium(处理动态网页)和pandas(数据处理分析)等关键库。实战案例展示了如何爬取电商网站的商品信息,包括确定目标、发送请求、解析内容、存储数据、遍历多页及数据处理。最后,文章强调了遵守网站规则和尊重隐私的重要性。
26 2
|
19天前
|
数据采集 定位技术 Python
Python爬虫IP代理技巧,让你不再为IP封禁烦恼了! 
本文介绍了Python爬虫应对IP封禁的策略,包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率,降低被封禁风险。
|
20天前
|
数据安全/隐私保护 Python
Python正则表达式:强大的文本处理工具
Python正则表达式:强大的文本处理工具
11 1
|
21天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
22 0
|
23天前
|
Python
Python中的正则表达式以及如何使用它们进行文本处理
正则表达式(Regex)是处理字符串的利器,Python通过`re`模块支持Regex操作,包括匹配模式(`re.match()`),查找模式(`re.search()`),替换内容(`re.sub()`),分割内容(`re.split()`),分组提取(使用括号)以及利用特殊字符创建复杂模式。学习和熟练掌握正则表达式能有效提升文本处理效率。
10 1