Beauiful Soup

简介: Beautiful Soup的简单使用

Beautiful Soup的基本用法

soup = BeautifulSoup(html, 'lxml')
print (soup.prettify())
print(soup.title.string)
简单解析:通过传入html字符串生成一个Beautiful对象,调用prettify可以输出并格式化,使其对其,但要注意,自动更正格式在对象初始化时就已经完成。调用soup.title.string就是输出HTML中title结点的文本内容。

结点选择器

直接调用结点的名称就可以选择结点元素,再调用string属性就可以得到结点的内容,如果结构非常清晰的话,可以选用这种方式 ,不仅可以用string来获取文本的值,还可以通过属性名称来获取属性的值,首先要获取名称,我们可以通过调用结点的name属性来获取属性名称,再根据属性名称来获取属性的值,获取属性时,每个结点可能又多个结点元素调用attrs来获取所有属性,也可以进行嵌套选择,比如获取head结点时,我们还可以继续获取head内部中的结点元素。
关联选择,当我们选择元素时并不能选到想要的结点元素,先选中一个元素,然后再以它的基准再选择它的子节点,父节点,兄弟结点,比如我们在获取p结点的所有直接子节点时,可以调用contents属性,返回结果是列表形式,p结点即包含文本,又包含结点,最后将他们以列表形式统一返回。

方法选择器

findall(),查询所有符合条件的元素,给他传入一些属性或文本,可以得到符合条件的元素
用法find_all(name,attrs,recursive,text,**kwags)
find()返回第一个元素,而不是一个列表。

相关文章
|
10月前
|
数据采集 SQL 移动开发
【Python爬虫】Beautifulsoup4中find_all函数
【Python爬虫】Beautifulsoup4中find_all函数
|
5月前
|
XML API 数据格式
Beautiful Soup
Beautiful Soup 是一个用于从网页中提取数据的 Python 库。它可以帮助用户轻松地解析 HTML 和 XML 文档,并从中提取所需的信息。Beautiful Soup 基于 Python 的标准库,因此无需安装任何额外的依赖包即可使用。
46 7
|
8月前
|
XML C语言 数据格式
七、使用BeautifulSoup4解析HTML实战(一)
七、使用BeautifulSoup4解析HTML实战(一)
|
12月前
|
XML 数据格式 Python
How to get text and corresponding tag with BeautifulSoup?
How to get text and corresponding tag with BeautifulSoup?
103 0
|
XML 前端开发 数据格式
bs4之Beautiful Soup
bs4之Beautiful Soup
149 0
bs4之Beautiful Soup
|
XML 数据采集 JavaScript
HTML解析之BeautifulSoup
HTML解析之BeautifulSoup
133 0
|
Python
Beautiful Soup库的介绍
本节中将介绍如何使用 Beautiful Soup 来解析 HTML 以获取我们想要的信息。
78 0
BeautifulSoup的基本使用
要使用BeautifulSoup4需要先安装lxml,再安装bs4
50 0
BeautifulSoup的基本使用
|
XML 数据格式 Python
每日一模块——BeautifulSoup4
每日一模块——BeautifulSoup4