Beauiful Soup

简介: Beautiful Soup的简单使用

Beautiful Soup的基本用法

soup = BeautifulSoup(html, 'lxml')
print (soup.prettify())
print(soup.title.string)
简单解析:通过传入html字符串生成一个Beautiful对象,调用prettify可以输出并格式化,使其对其,但要注意,自动更正格式在对象初始化时就已经完成。调用soup.title.string就是输出HTML中title结点的文本内容。

结点选择器

直接调用结点的名称就可以选择结点元素,再调用string属性就可以得到结点的内容,如果结构非常清晰的话,可以选用这种方式 ,不仅可以用string来获取文本的值,还可以通过属性名称来获取属性的值,首先要获取名称,我们可以通过调用结点的name属性来获取属性名称,再根据属性名称来获取属性的值,获取属性时,每个结点可能又多个结点元素调用attrs来获取所有属性,也可以进行嵌套选择,比如获取head结点时,我们还可以继续获取head内部中的结点元素。
关联选择,当我们选择元素时并不能选到想要的结点元素,先选中一个元素,然后再以它的基准再选择它的子节点,父节点,兄弟结点,比如我们在获取p结点的所有直接子节点时,可以调用contents属性,返回结果是列表形式,p结点即包含文本,又包含结点,最后将他们以列表形式统一返回。

方法选择器

findall(),查询所有符合条件的元素,给他传入一些属性或文本,可以得到符合条件的元素
用法find_all(name,attrs,recursive,text,**kwags)
find()返回第一个元素,而不是一个列表。

相关文章
|
1月前
|
XML 数据采集 API
MechanicalSoup与BeautifulSoup的区别分析
MechanicalSoup与BeautifulSoup的区别分析
MechanicalSoup与BeautifulSoup的区别分析
|
6月前
|
XML 数据格式
Beautiful Soup 库提供了许多常用的方法
【5月更文挑战第10天】Beautiful Soup库用于HTML/XML文档解析和操作,提供初始化、查找、提取信息及修改文档的方法。如:find()和find_all()查找元素,.string或.get_text()获取文本,.attrs获取属性,.append()、.insert()、.remove()、.replace_with()、.unwrap()和.wrap()修改文档结构。还有.prettify()格式化输出,.encode()和.decode()处理编码。这些功能组合使用可灵活处理文档信息。
38 1
WK
|
2月前
|
XML 数据采集 数据挖掘
什么是Beautiful Soup?有哪些特点?
Beautiful Soup,常被称为“美丽汤”,是用于解析HTML和XML文档的Python库,能自动修复不规范的标签,便于遍历、搜索及修改文档结构,适用于网页爬虫和数据采集。它提供直观的方法来处理文档,支持多种解析器,具备强大的搜索功能,包括find()和find_all()等方法,并兼容CSS选择器,简化了数据提取过程。广泛应用于网页爬虫、数据挖掘及网页内容分析等领域。
WK
130 1
|
3月前
|
数据采集 XML 前端开发
BeautifulSoup
【8月更文挑战第18天】
51 1
|
3月前
|
前端开发 Python
Beautiful Soup
【8月更文挑战第4】
58 9
|
5月前
bs4 beautifulsoup学习笔记
bs4 beautifulsoup学习笔记
26 0
|
6月前
|
数据采集 Web App开发 安全
Beautiful Soup和Requests
【5月更文挑战第7天】本文介绍了使用Python中的Requests和Beautiful Soup库创建网络爬虫的方法。Requests库简化了HTTP请求,Beautiful Soup则用于解析HTML和XML文档,便于提取信息。首先,文章解释了两个库的作用和安装步骤。接着,通过实例展示了如何提取网页标题和链接,以及如何下载并保存图片。对于动态加载的内容,文章推荐使用Selenium库模拟浏览器行为。此外,还介绍了如何处理登录认证,包括安全输入密码和从外部文件读取凭据。总结来说,本文提供了Python网络爬虫的基础知识和实用技巧。
61 6
|
XML 数据格式 Python
|
XML 前端开发 数据格式
bs4之Beautiful Soup
bs4之Beautiful Soup
193 0
bs4之Beautiful Soup
How to get text and corresponding tag with BeautifulSoup?
How to get text and corresponding tag with BeautifulSoup?
127 0