1.python爬虫基础——正则表达式-阿里云开发者社区

开发者社区> wsc449> 正文

1.python爬虫基础——正则表达式

简介: #python网络爬虫 #通用网络爬虫(没有目的,爬去所有的URL) 聚焦网络爬虫(过滤无关的链接) #python数据分析与挖掘实战的正则表达式 #正则表达式 世界上信息非常多,而我们关注的信息有限。
+关注继续查看
#python网络爬虫
#通用网络爬虫(没有目的,爬去所有的URL)  聚焦网络爬虫(过滤无关的链接)

#python数据分析与挖掘实战的正则表达式
#正则表达式  世界上信息非常多,而我们关注的信息有限。假如我们希望只提取出关注数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。

#原子
#原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。
#常见的原子类型有:普通字符作为原子,非打印字符作为原子,通用字符作为原子,原子表

import re
pat="yue"         #普通字符作为原子
string="http://yum.iqianyue.com"
rst=re.search(pat,string)
print(rst)

pat1="\n"  #\n  \t            #非打印字符作为原子
string1='''dsfjsdjf
sdfsdfsdfsdf'''
rst1=re.search(pat1,string1)
print(rst1)

pat2="\w\dpython\w"
#\w 通用字符,匹配任意字母,数字,下划线
#\d 匹配任意一个十进制数       #\S 除了十进制数的任意
#|s 匹配空白字符       #\S 除了空白字符的任意字符
#\W 匹配任意一个除了字母,数字,下划线的东西
string2="hsdlfsga7pythonkdfshdskjf"
rst2=re.search(pat2,string2)
print(rst2)

pat3="pyth[jsz]n"           #原子表  定义一组平等的字符
string3="fsdjfpythjnjslkdfpythsnjfsjpythjsnfsd"
rst3=re.search(pat3,string3)
print(rst3)

#元字符
#正则表达式中具有一些特殊含义的字符,比如重复N次前面的字符等
#. 匹配任意字符
#^ 匹配字符串中的开始位置
#$ 匹配字符串中结束的位置
#* 匹配0次 1次或者多次的前面的原子
#?匹配0次或者1次前面的原子
#+ 匹配一次或多次前面的原子
#{3} 前面的原子恰好出现了3次  并且连在一起的
#{n} 出现了n次
#{4,7} 至少出现4次  之多出现7次  {4,}
#t|s  出现t或者s
#() 提取某一个内容
pat4=".python..."
string4="sjslkdjfpythonslfjshf"
rst4=re.search(pat4,string4)
print(rst4)

pat5="python|php"
string5="jfsdjphpjsljfspythonfsd"
rst5=re.search(pat5,string5)
print(rst5)

#模式修正符
#可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能
#I 使正则表达式不区分大小写
#M 多行匹配
#L 本地化识别匹配
#U 根据Unicode解析字符
#S 让点也能匹配包括换行符
pat6="python"
pat7="python"
string6="sjljfaljafPythonsfjlsjfssfs"
rst6=re.search(pat6,string6)
print(rst6)

rst7=re.search(pat7,string6,re.I)    #模式修正符实例,不区分大小写
print(rst7)

#贪婪模式和懒惰模式
#贪婪模式尽可能的多的去匹配   #懒惰模式尽可能少的去匹配
pat8="p.*y"   #贪婪模式 更多的去覆盖
pat9="p.*?y"  #懒惰模式 更精准的定位
string8="jlsjfhspythonslfjshdpy"
rst8=re.search(pat8,string8)
rst9=re.search(pat9,string8)
print(rst8)
print(rst9)

#正则表达式函数
#正则表达式函数有re.match()函数,re.search()函数,全局匹配函数,re.sub()函数
#re.search()  从字符串中搜索出来
#re.match()   从头开始匹配,如果一开始没有,那么就返回None
#全局匹配函数
#re.sub()     主要用于替换

string10="phskfhskjhfkjshfjksgjfyskjhfksdh"
rst10=re.match(pat8,string10)
print(rst10)

rst11=re.compile(pat8).findall(string10)   #全局搜索函数  显示所有满足条件的  后面用的最多
print(rst11)

#常见正则表达式实例
#匹配.com .cn网址
pat="[a-zA-Z]+://[^\s]*[.com|.cn]"
string='<a href="http://www.baidu.com">fjsljflds</a>'
rst=re.compile(pat).findall(string)
print(rst)

#简单的爬虫,如何爬取csdn某个课程页面上的QQ群
pat="<p>(\d*?)</p>"
import urllib.request
data=urllib.request.urlopen("http://edu.csdn.net/huiyiCourse/detail/215").read()
rst=re.compile(pat).findall(str(data))
print(rst)

#作业:如何爬取豆瓣出版社列表并写入文件中
#豆瓣网址:https://read.douban.com/provider/all
import urllib.request
import re

data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8")
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
print(mydata)
fh=open("/Users/xubin/myapp/pythonfile/出版社file4.txt","w")
for i in range(0,len(mydata)):
    fh.write(mydata[i]+"\n")
fh.close()

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
分享录制的正则表达式入门、高阶以及使用 .NET 实现网络爬虫视频教程
我发布的「正则表达式入门以及高阶教程」,欢迎学习。 课程简介 正则表达式是软件开发必须掌握的一门语言,掌握后才能很好地理解到它的威力; 课程采用概念和实验操作 4/6 分隔,帮助大家理解概念后再使用大量的实例加深对概念的理解; 实例操作是对概念最好的理解,也是学习新语言最有效的办法; 在课程中也穿插着大量软件开发的技巧和大家分享; 应该是把晦涩的正则表达式讲解的最生动的课程; 掌握了正则表达式后,您一定会觉得这是一门最值得掌握的语言。
936 0
Java基础-14总结正则表达式,Pattern,Mactcher,Math,BigInteger,BigDeximal,System等
你需要的是什么,直接评论留言。 获取更多资源加微信公众号“Java帮帮” (是公众号,不是微信好友哦) 还有“Java帮帮”今日头条号,技术文章与新闻,每日更新,欢迎阅读 学习交流请加Java帮帮交流QQ群553841695 分享是一种美德,分享更快乐! 学正则表达式之前qq号问题: package cn.itcast_01;
2013 0
【转】零基础写Java知乎爬虫之进阶篇
转自:脚本之家   说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的。
927 0
python正则表达式匹配中文
# -*- coding: utf-8 -*- import re def findPart(regex, text, name): res=re.findall(regex, text) if res: print "There are %d %s par...
747 0
+关注
wsc449
python,c#,scala
232
文章
4
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载