Python正则表达式-总结

简介: Python正则表达式-总结

总结--常用正则表达式符号

  1. '.'     默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
  2. '^'     匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
  3. '$'     匹配字符结尾,或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
  4. '*'     匹配*号前的字符0次或多次,re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']
  5. '+'     匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
  6. '?'     匹配前一个字符1次或0
  7. '{m}'   匹配前一个字符m次
  8. '{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
  9. '|'     匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
  10. '(...)' 分组匹配,re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
  11. '\A'    只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的
  12. '\Z'    匹配字符结尾,同$
  13. '\d'    匹配数字0-9
  14. '\D'    匹配非数字
  15. '\w'    匹配[A-Za-z0-9]
  16. '\W'    匹配非[A-Za-z0-9]
  17. 's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
  18. '(?P<name>...)' 分组匹配
  19. re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city")
  20. 结果{'province': '3714', 'city': '81', 'birthday': '1993'}


  • 总结--最常用的匹配语法


  1. re.match 从头开始匹配
  2. re.search 匹配包含
  3. re.findall 把所有匹配到的字符放到以列表中的元素返回
  4. re.splitall 以匹配到的字符当做列表分隔符
  5. re.sub      匹配字符并替换


  • Python中字符串前面加上 r   表示原生字符串

 

  1. 在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,
  2. 不要转意backslash '\' 。
  3. 例如,\n 在raw string中,是两个字符,\和n, 而不会转意为换行符。
  4. 由于正则表达式和 \ 会有冲突,因此,当一个字符串使用了正则表达式后,最好在前面加上'r'


  • 反斜杠的困扰

       与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\\"表示。同样,匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。

 

  • 总结--最常用的几个匹配模式
  1. re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法,下同)
  2. M(MULTILINE): 多行模式,改变'^''$'的行为
  3. S(DOTALL): 点任意匹配模式,改变'.'的行为


正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。


  • re 模块--使 Python 语言拥有全部的正则表达式功能。
  • compile 函数--根据一个模式字符串可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
  • re 模块--也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。


本文主要介绍Python中常用的正则表达式处理函数。


re.match函数

  • re.match 尝试从字符串的开始匹配一个模式。
  • 函数语法
  1. re.match(pattern, string, flags=0)
  • 函数参数说明:    
参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
  • 匹配成功re.match方法返回一个匹配的对象,否则返回None
  • 我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法 描述
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。

实例:

  1. #!/usr/bin/python
  2. import re
  3. line = "Cats are smarter than dogs"
  4. matchObj = re.match(r'(.*) are (.*?) .*', line, re.M | re.I)
  5. if matchObj:
  6.    print ("matchObj.group() : ", matchObj.group())
  7.    print ("matchObj.group(1) : ", matchObj.group(1))
  8.    print ("matchObj.group(2) : ", matchObj.group(2))
  9. else:
  10.    print ("No match!!")


以上实例执行结果如下:

  1. matchObj.group() :  Cats are smarter than dogs
  2. matchObj.group(1) :  Cats
  3. matchObj.group(2) :  smarter


re.search方法

  • re.match 尝试从字符串的开始匹配一个模式。
  • 函数语法:    
  1. re.search(pattern, string, flags=0)


  • 函数参数说明:
参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
  • 匹配成功re.search方法方法返回一个匹配的对象,否则返回None。
  • 我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法 描述
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。


  • 实例:
  1. #!/usr/bin/python
  2. import re
  3. line = "Cats are smarter than dogs"
  4. searchObj = re.search(r'(.*) are (.*?) .*', line, re.M | re.I)
  5. if searchObj:
  6.    print ("searchObj.group() : ", searchObj.group())
  7.    print ("searchObj.group(1) : ", searchObj.group(1))
  8.    print ("searchObj.group(2) : ", searchObj.group(2))
  9. else:
  10.    print ("No search!!")

  • 以上实例执行结果如下:
  1. searchObj.group() :  Cats are smarter than dogs
  2. searchObj.group(1) :  Cats
  3. searchObj.group(2) :  smarter


re.match与re.search的区别

  • re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;
  • 而re.search匹配整个字符串,直到找到一个匹配。
  • 实例:
  1. #!/usr/bin/python
  2. import re
  3. line = "Cats are smarter than dogs";
  4. matchObj = re.match(r'dogs', line, re.M | re.I)
  5. if matchObj:
  6.    print ("match --> matchObj.group() : ", matchObj.group())
  7. else:
  8.    print ("No match!!")
  9. matchObj = re.search(r'dogs', line, re.M | re.I)
  10. if matchObj:
  11.    print ("search --> matchObj.group() : ", matchObj.group())
  12. else:
  13.    print ("No match!!")


  • 以上实例运行结果如下:
  1. No match!!
  2. search --> matchObj.group() :  dogs



检索和替换

  • Python 的re模块提供了re.sub用于替换字符串中的匹配项。


  • 语法:
  1. re.sub(pattern, repl, string, count=0, flags=0)


  • 返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现,字符将被没有改变地返回。
  • 可选参数 count 是模式匹配后替换的最大次数;count 必须是非负整数。缺省值是 0 表示替换所有的匹配。


  • 实例:
  1. # !/usr/bin/python
  2. import re
  3. phone = "2004-959-559 # This is Phone Number"
  4. # Delete Python-style comments
  5. num = re.sub(r'#.*$', "", phone)
  6. print ("Phone Num : ", num)
  7. # Remove anything other than digits
  8. num = re.sub(r'\D', "", phone)
  9. print ("Phone Num : ", num)

  • 以上实例执行结果如下:
  1. Phone Num :  2004-959-559
  2. Phone Num :  2004959559


正则表达式修饰符 - 可选标志

  • 正则表达式可以包含一些可选标志修饰符来控制匹配的模式。
  • 修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。
  • 如 re.I | re.M 被设置成 I 和 M 标志:
修饰符 描述
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

  • 模式字符串使用特殊的语法来表示一个正则表达式:
  • 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。
  • 多数字母和数字前加一个反斜杠时会拥有不同的含义。
  • 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。
  • 反斜杠本身需要使用反斜杠转义
  • 由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r'/t',等价于'//t')匹配相应的特殊字符。
  • 下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。

正则表达式的符号与方法

  1. 常用符号:点号,星号,问号与括号(小括号)
  2. . :匹配任意字符,换行符\n除外
  3. * :匹配前一个字符0次或无限次
  4. ? :匹配前一个字符0次或1
  5. .* :贪心算法
  6. .*? :非贪心算法
  7. () :括号内的数据作为结果返回
  8. 常用方法:findall, search, sub
  9. findall:匹配所有符合规律的内容,返回包含结果的列表
  10. search:匹配并提取第一个规律的内容,返回一个正则表达式对象(object)
  11. sub:替换符合规律的内容,返回替换后的值

表1.常用的元字符

代码 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

表2.常用的限定符

代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

表3.常用的反义代码

代码/语法 说明
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符


表4.常用分组语法

分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

表5.懒惰限定符

代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复


1)findall

a.点号.

  1. import re
  2. a = 'xzx23'
  3. b = re.findall('x.', a)
  4. print b

输出

  1. ['xz', 'x2']
  • .是一个占位符,一个.代表一个符号

b.星号*

  1. import re
  2. a = 'xyxy123'
  3. b = re.findall('x*', a)
  4. print(b)

输出

  1. ['x', '', 'x', '', '', '', '', '']

依次匹配字符,有则显示,无则显示''(空)。

c.问号?

  1. import re
  2. a = 'xy123'
  3. b = re.findall('x?', a)
  4. print(b)

输出

  1. ['x', '', '', '', '', '']

单独与 *一样,前面附加其他的符号将做非贪心限制

d.贪心.*

  1. import re
  2. secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
  3. b = re.findall('xx.*xx', secret_code)
  4. print(b)

输出

  1. ['xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxx']

只要满足条件全部显示,贪心算法


e.非贪心.*?

  1. import re
  2. secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
  3. b = re.findall('xx.*?xx', secret_code)
  4. print(b)

输出

  1. ['xxIxx', 'xxlovexx', 'xxyouxx']


以上只做了解,一般只用(.*?)

f.经典用法(.*?)

  1. import re
  2. secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
  3. b = re.findall('xx(.*?)xx', secret_code)
  4. print(b)

输出

  1. ['I', 'love', 'you']


()包围所需要的内容,括号内的内容作为结果返回,不需要的内容放在括号外面

2)re.S

  1. import re
  2. secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
  3. xxbvk14rgjhxxyouxxfj4286ykjhag2'''
  4. #love后有换行符
  5. b = re.findall('xx(.*?)xx', secret_code)
  6. print(b)
  7. # 因为.不能匹配换行符。所以会一行为一个搜索项去找。匹配任何字符除了新的一行

输出

  1. ['I', 'bvk14rgjh']

re.S

  1. import re
  2. secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
  3. xxbvk14rgjhxxyouxxfj4286ykjhag2'''
  4. #love后有换行符
  5. b = re.findall('xx(.*?)xx', secret_code, re.S)
  6. print(b)
  7. # re.S让.匹配所有行,包括了换行符(以\n的形式出现)

输出

  1. ['I', 'love\n', 'you']


3)search

对比search和findall的区别

  1. search 找到一个后返回,不继续,大大提高效率
  2. findall遍历全部,找到尽可能多的项
  3. import re
  4. s2 = '''ghkj08hs68xxIxx123xxlove
  5. xxbvk14rgjhxxfj4286ykjhag2'''
  6. b = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(1)
  7. print(b)
  8. c = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(2)
  9. print(c)
  10. d = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(3)
  11. print(d)

输出

  1. Traceback (most recent call last):
  2.  File "D:/WorkSpace/python/Django/test.py", line 7, in <module>
  3.    d = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(3)
  4. IndexError: no such group
  5. I
  6. 123


group是按括号顺序匹配

  1. import re
  2. s2 = '''ghkj08hs68xxIxx123xxlovexxbvk14rgjhxxfj4286ykjhag2'''
  3. f2 = re.findall('xx(.*?)xx123xx(.*?)xx', s2, re.S)
  4. print (f2)
  5. print (f2[0][1])

输出

  1. [('I', 'love')]
  2. love

每一个匹配项为第一级列表,括号为二级列表

4)sub

  1. re.sub(pattern, repl, string, count=0, flags=0)
  2. 找到 RE 匹配的所有子串,并将其用一个不同的字符串替换。
  1. 第一个参数:pattern
  2. pattern,表示正则中的模式字符串
  3. 第二个参数:repl
  4. repl,就是replacement,被替换,的字符串的意思。
  5. 第三个参数:string
  6. string,即表示要被处理,要被替换的那个string字符串。

  7. 第四个参数:可选参数 count 是模式匹配後替换的最大次数;count 必须是非负整数。
  8. 缺省值是0表示替换所有的匹配。如果无匹配,字符串将会无改变地返回。

  1. re.subn(pattern, repl, string, count=0, flags=0)
  2. re.sub方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。


  1. import re
  2. s = '123abcssfasdfas123'
  3. output = re.sub('123(.*?)123', '123789123', s)
  4. print (output)
  5. # sub将符合条件的()内内容提换

输出

  1. 123789123
  2. import re
  3. inputStr = "hello 123 world 456"
  4. replacedStr = re.sub("\d+", "222", inputStr)
  5. print (replacedStr)

输出

  1. hello 222 world 222


5)注意:

  1. from re import findall, search, S
  2. 最好不要引入,因为S等容易和变量等混淆,引起歧义

6)compile用法

  1. import re
  2. secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
  3. xxbvk14rgjhxxyouxxfj4286ykjhag2'''
  4. pattern = 'xx(.*?)xx'
  5. new_pattern = re.compile(pattern, re.S)
  6. b = re.findall(new_pattern, secret_code)
  7. print (b)

输出

  1. ['I', 'love\n', 'you']

因为findall自动调用compile方法,所以不先编译规律compile再匹配

7)匹配纯数字(\d+)

  1. import re
  2. a = 'dfhkgh43gfhja873y5t2167715'
  3. b = re.findall('(\d+)', a)
  4. print (b)

输出

  1. ['43', '873', '5', '2167715']


2.应用举例

1)用findall和search从大量文本中匹配内容

a.提取标题

  1. import re
  2. old_url = 'http://www.jikexueyuan.com/course/android/?pageNum=2'
  3. total_page = 20
  4. f = open('text.txt', 'r')
  5. html = f.read()
  6. f.close()
  7. title = re.search('<title>(.*?)</title>', html, re.S).group(1)
  8. print title


text.txt

  1. <html>
  2.    <head>
  3.        <title>极客学院爬虫测试</title>
  4.    </head>
  5.    <body>
  6.        <div class="topic"><a href="http://jikexueyuan.com/welcome.html">欢迎参加《Python定向爬虫入门》</a>
  7.            <div class="list">
  8.                <ul>
  9.                    <li><a href="http://jikexueyuan.com/1.html">这是第一条</a></li>
  10.                    <li><a href="http://jikexueyuan.com/2.html">这是第二条</a></li>
  11.                    <li><a href="http://jikexueyuan.com/3.html">这是第三条</a></li>
  12.                </ul>
  13.            </div>
  14.        </div>
  15.    </body>
  16. </html>

输出

  1. 极客学院爬虫测试


b.提取网址

  1. link = re.findall('href="(.*?)"', html, re.S)
  2. for each in link:
  3.    print each

输出

  1. http://jikexueyuan.com/welcome.html
  2. http://jikexueyuan.com/1.html
  3. http://jikexueyuan.com/2.html
  4. http://jikexueyuan.com/3.html


c.提取文字信息

先爬大再爬小

  1. text_fied = re.findall('<ul>(.*?)</ul>', html, re.S)[0]
  2. the_text = re.findall('">(.*?)</a>', text_fied, re.S)
  3. for every_text in the_text:
  4.    print every_text


2)用sub实现翻页功能

  1. for i inrange(2, total_page+1):
  2.    new_link = re.sub('pageNum=\d+', 'pageNum=%d'%i, old_url, re.S)
  3.    print new_link

完整代码

  1. import re
  2. a = 'xzx23'
  3. # . :匹配任意字符,换行符\n除外
  4. # 点.是一个占位符,一个.代表一个符号
  5. b = re.findall('x.', a)
  6. print(". :匹配任意字符,换行符\\n除外:",b)
  7. # * :匹配前一个字符0次或无限次
  8. # 依次匹配字符,有则显示,无则显示''(空)。
  9. c= re.findall('x*', a)
  10. print("* :匹配前一个字符0次或无限次:",c)
  11. # 问号?
  12. # ? :匹配前一个字符0次或1次
  13. # 单独与*一样,前面附加其他的符号将做非贪心限制
  14. d= re.findall('x?', a)
  15. print("? :匹配前一个字符0次或1次:",d)
  16. # 贪心.*
  17. # 只要满足条件全部显示,贪心算法
  18. secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
  19. e = re.findall('xx.*xx', secret_code)
  20. print ("贪心.*:",e)
  21. # 非贪心.*?
  22. secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
  23. f = re.findall('xx.*?xx', secret_code)
  24. print ("非贪心.*?:",f)
  25. # () :括号内的数据作为结果返回
  26. # ()包围所需要的内容,括号内的内容作为结果返回,不需要的内容放在括号外面
  27. secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
  28. g = re.findall('xx(.*?)xx', secret_code)
  29. print ("非贪心.*?:",g)
  30. # sub将符合条件的()内内容提换
  31. # sub:替换符合规律的内容,返回替换后的值
  32. s = '123abcssfasdfas123'
  33. output = re.sub('123(.*?)123', '123789123', s)
  34. print ('sub将符合条件的()内内容提换:',output)
  35. # re.S让.匹配所有行,包括了换行符(以\n的形式出现)
  36. # search 找到一个后返回,不继续,大大提高效率
  37. # findall遍历全部,找到尽可能多的项
  38. s2 = '''ghkj08hs68xxIxx123xxlove
  39. xxbvk14rgjhxxfj4286ykjhag2'''
  40. b = re.search('xx(.*?)xx(.*?)xx', s2, re.S)
  41. print ('search 找到一个后返回,不继续,大大提高效率:',b)
  42. #   输出
  43. # < _sre.SRE_Match
  44. # object;
  45. # span = (10, 20), match = 'xxIxx123xx' >
  46. # group是按括号顺序匹配
  47. b = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(1)
  48. print ('search 找到一个后返回,不继续,大大提高效率:',b)
  49. # .group(3)报错
  50. # Traceback (most recent call last):
  51. #   File "D:/WorkSpace/python/PycharmProjects/爬虫/代码/Python-master/ReDemo.py", line 61, in <module>
  52. #     b = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(3)
  53. # IndexError: no such group
  54. # 每一个匹配项为第一级列表,括号为二级列表
  55. s2 = '''ghkj08hs68xxIxx123xxlovexxbvk14rgjhxxfj4286ykjhag2'''
  56. f2 = re.findall('xx(.*?)xx123xx(.*?)xx', s2, re.S)
  57. print ('每一个匹配项为第一级列表,括号为二级列表:',f2[0][1])


参考来源: http://code.ziqiangxuetang.com/python/python-reg-expressions.html

参考来源:http://blog.csdn.net/SkyeyesXY/article/details/50837984



目录
相关文章
|
5月前
|
Python
"揭秘!Python如何运用神秘的正则表达式,轻松穿梭于网页迷宫,一键抓取隐藏链接?"
【8月更文挑战第21天】Python凭借其强大的编程能力,在数据抓取和网页解析领域表现出高效与灵活。通过结合requests库进行网页请求及正则表达式进行复杂文本模式匹配,可轻松提取网页信息。本示例展示如何使用Python和正则表达式解析网页链接。首先确保已安装requests库,可通过`pip install requests`安装。接着,利用requests获取网页内容,并使用正则表达式提取所有`&lt;a&gt;`标签的`href`属性。
58 0
|
2月前
|
Python
在Python中,可以使用内置的`re`模块来处理正则表达式
在Python中,可以使用内置的`re`模块来处理正则表达式
60 5
|
2月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
3月前
|
Python
【收藏备用】Python正则表达式的7个实用技巧
【收藏备用】Python正则表达式的7个实用技巧
35 1
|
3月前
|
数据安全/隐私保护 Python
Python实用正则表达式归纳
Python实用正则表达式归纳
22 3
|
3月前
|
Python
Python 正则表达式高级应用指南
正则表达式是文本模式匹配的强大工具,Python 的 `re` 模块支持其操作。本文介绍正则表达式的高级应用,包括复杂模式匹配(如邮箱、电话号码)、分组与提取、替换操作、多行匹配以及贪婪与非贪婪模式的区别。通过示例代码展示了如何灵活运用这些技巧解决实际问题。
35 7
|
3月前
|
JavaScript 前端开发 Scala
Python学习十:正则表达式
这篇文章是关于Python中正则表达式的使用,包括re模块的函数、特殊字符、匹配模式以及贪婪与非贪婪模式的详细介绍。
25 0
|
3月前
|
数据采集 开发者 Python
Python正则表达式之re.compile函数
`re.compile`是Python正则表达式处理中一个强大的工具,它通过预先编译正则表达式,不仅提升了执行效率,还增强了代码的组织性和可读性。掌握其使用,对于涉及文本分析、数据清洗、日志处理等领域的Python开发者来说,是非常必要的技能。正确并高效地应用这一功能,可以显著提升程序的性能和维护性。
173 0
|
4月前
|
索引 Python
30天拿下Python之正则表达式
30天拿下Python之正则表达式
21 0
|
4月前
|
数据采集 Python
Python正则表达式提取车牌号
Python正则表达式提取车牌号
54 0