网页标记,即htm超文本标记,一般都是成对出现的(换行<br>图片<img>等除外),如:
<html></html> ,<head></head>, <body></body>,<table></table>, <a></a>...等等
用<title></title>先举个例子,用正则表达式取出度娘首页的标题:
>>> import re >>> from urllib import request >>> data=request.urlopen("http://www.baidu.com/").read().decode() >>> pat=r'<title>(.*?)</title>' >>> result=re.search(pat,data) >>> result <re.Match object; span=(940, 964), match='<title>百度一下,你就知道</title>'> result.span() (940, 964) >>> result.group() '<title>百度一下,你就知道</title>' >>> result.groups() ('百度一下,你就知道',) >>> result.groups()[0] '百度一下,你就知道' >>>
... 待更新中...