BeautifulSoup基础-阿里云开发者社区

BeautifulSoup基础

2017-11-12 1062

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

MarkdownPad Document

BeautifulSoup

findAll函数
nameList = bsObj.findAll("span", {"class":"green"})
for name in namelist:
    print(name.get_text())

#找到所有属性class="green"的span标签,通常在你准备打印、存储和操作数据时，应该最后才使
用 .get_text() 。一般情况下，你应该尽可能地保留 HTML 文档的标签结构。

findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)

tag:可以传一个标签名称或者多个标签组成的列表
attributes:用字典封装一个标签的若干属性和对应的属性值
recursive:默认为True，递归查找子标签，设置为False则只查找一级标签
text：用标签的文本内容去匹配，而不是标签的属性
limit：对获取的项进行限制，find就是findall的limit=1
keyword：可以选择那些具有指定属性的标签（由于class在Python中是保留字，而在CSS中是属性名，所以不推荐用keyword）
例如：
allText = bsObj.findAll(id="text")

BeautifulSoup中的对象

BeautifulSoup对象——bsobj
标签Tag对象——bsObj.div.h1
NavigableString对象——标签里的文字
Comment对象——查找HTML文档的注释标签

bsObj.div.findAll("img") 会找出文档中第一个 div 标签，然后获取这个 div 后代里所有的 img 标签列表。

for child in bsObj.find("table",{"id":"giftList"}).children: print(child) #找table的子标签

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings: print(sibling) #找tr后面的兄弟标签
nextsiblings与previoussiblings 一组
nextsibling与previoussibling 一个
parent 找父标签

邮箱正则： [A-Za-z0-9._+]+@[A-Za-z]+.(com|org|edu|net)

通过正则表达式匹配内容：
images = bsObj.findAll("img",{"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})
#都是以 ../img/gifts/img 开头 以 .jpg 结尾
for image in images:
    print(image["src"])

获取属性

tag.attrs 得到属性字典
imgTag.attrs["src"] 获取图片标签的src属性的值
soup.findAll(lambda tag: len(tag.attrs) == 2)

本文转自 AltBoy 51CTO博客，原文链接:http://blog.51cto.com/altboy/1942172

BeautifulSoup基础

热门文章

最新文章

相关电子书