Beautiful Soup4数据解析与提取

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: Beautiful Soup是一个Python的库,用于解析HTML和XML文档,提供了方便的数据提取和操作功能。

Beautiful Soup4

概述

Beautiful Soup是一个Python的库,用于解析HTML和XML文档,提供了方便的数据提取和操作功能。它可以帮助从网页中提取所需的数据,例如标签、文本内容、属性等。

Beautiful Soup会自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

Beautiful Soup用来解析 HTML比较简单,API非常人性化,支持多种解析器。

文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

主要特点

灵活的解析方式:

Beautiful Soup支持多种解析器,包括Python标准库中的html.parser解析器,以及第三方库lxml和html5lib。这样,我们可以根据需要选择合适的解析器进行处理。

简单直观的API:

Beautiful Soup提供了简洁而友好的API,使得解析HTML文档变得非常容易。我们可以使用简洁的方法来选择特定的标签、获取标签中的文本内容、提取属性值等。

强大的文档遍历能力:

通过Beautiful Soup,我们可以遍历整个HTML文档树,访问、修改或删除各个节点,甚至可以通过嵌套选择器,快速地定位到需要的节点。

对破碎HTML的容错处理:

Beautiful Soup能够处理破碎的HTML文档,例如自动纠正未闭合的标签、自动添加缺失的标签等,使得提取数据更加稳定和可靠。

解析器

Beautiful在解析时依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方库。

支持的解析器:

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快 文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, ["lxml-xml"]) BeautifulSoup(markup, "xml") 速度快 唯一支持XML的解析器 需要安装C语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档 速度慢 不依赖外部扩展

由此可见:

lxml解析器可以解析HTML和XML文档,并且速度快,容错能力强,所有推荐使用它。如果使用lxml,那么在初始化的BeautifulSoup时候,把第二个参数设为lxml即可。

Beautiful Soup4的基本使用

安装库

pip install beautifulsoup4

pip install lxml

创建HTML文件

将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件。

这里创建一个test.html文件,以此创建一个文档对象。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
<div>
    <ul>
         <li class="class01"><span index="1">H1</span></li>
         <li class="class02"><span index="2" class="span2">H2</span></li>
         <li class="class03"><span index="3">H3</span></li>
     </ul>
 </div>
</body>
</html>

基本用法

# 导入模块
from bs4 import BeautifulSoup

# 创建 beautifulsoup对象,有2种方式创建
# 1.通过字符串创建, 第二个参数用于指定解析器
# soup = BeautifulSoup("html", 'lxml')
# 2.通过文件创建
soup = BeautifulSoup(open('test.html'), 'lxml')
# 打印输出
# print(soup.prettify())


# 获取元素标签元素,默认返回第一个元素
print(soup.li)

# 使用 .contents 或 .children 获取子元素
# 返回列表
print(soup.ul.contents)
# 返回迭代器
print(soup.li.children)

# 获取元素内容
print(soup.title.get_text())

# 获取元素属性值,默认取第一个元素属性值
print(soup.li.get('class'))

操作结果如下:

<li class="class01"><span index="1">H1</span></li>

['\n', <li class="class01"><span index="1">H1</span></li>, '\n', <li class="class02"><span class="span2" 
index="2">H2</span></li>, '\n', <li class="class03"><span index="3">H3</span></li>, '\n']

<list_iterator object at 0x000001C18E475F10>

Title

['class01']

Beautiful Soup4的对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment

Tag对象

在Beautiful Soup中,Tag对象是用于表示HTML或XML文档中的标签元素的对象,Tag对象与原生文档中的tag相同。Tag对象包含了标签元素的名称、属性和内容等信息,并提供了多种方法来获取、修改和操作这些信息。

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>

常用的Tag对象的属性和方法

属性 描述 示例
name属性 获取标签的名称 tag_name = tag.name
string属性 获取标签内的文本内容 tag_text = tag.string
attrs属性 获取标签的属性,以字典的形式返回 tag_attrs = tag.attrs
get()方法 根据属性名获取标签的属性值 attr_value = tag.get('attribute_name')
find()方法 查找并返回第一个满足条件的子标签元素 child_tag = tag.find('tag_name')
find_all()方法 查找并返回所有满足条件的子标签元素,以列表的形式返回 child_tags = tag.find_all('tag_name')
parent属性 获取当前标签的父标签 parent_tag = tag.parent
parents属性 获取当前标签的所有祖先标签,以生成器的形式返回 for parent in tag.parents:
print(parent)
children属性 获取当前标签的直接子标签,以生成器的形式返回 for child in tag.children:
print(child)
next_sibling属性 获取当前标签的下一个兄弟标签 next_sibling_tag = tag.next_sibling
previous_sibling属性 获取当前标签的上一个兄弟标签 previous_sibling_tag = tag.previous_sibling

NavigableString对象

NavigableString对象是Beautiful Soup库中的一种数据类型,用于表示在HTML或XML文档中的纯文本内容。它继承自Python的基本字符串类型,但具有额外的功能和特性,使其适用于处理文档中的文本内容。

假设有如下HTML代码片段:

<p>This is a <b>beautiful</b> day.</p>

使用Beautiful Soup将其解析为一个文档对象:

from bs4 import BeautifulSoup

html = '<p>This is a <b>beautiful</b> day.</p>'
soup = BeautifulSoup(html, 'html.parser')

获取

标签的内容,这实际上是一个NavigableString对象:

p_tag = soup.find('p')
content = p_tag.string
print(content)  # 输出:This is a
print(type(content))  # 输出:<class 'bs4.element.NavigableString'>

还可以对NavigableString对象进行一些操作,如获取文本内容、替换文本以及去除空白字符:

# 获取文本内容
text = content.strip()
print(text)  # 输出:This is a

# 替换文本
p_tag.string.replace_with('Hello')
print(p_tag)  # 输出:<p>Hello<b>beautiful</b> day.</p>

# 去除空白字符
text_without_spaces = p_tag.string.strip()
print(text_without_spaces)  # 输出:Hello
属性 描述 示例
string属性 用于获取NavigableString对象的文本内容 text = navigable_string.string
replace_with()方法 用于用另一个字符串或对象替换当前NavigableString对象 navigable_string.replace_with(new_string)
strip()方法 去除字符串两端的空白字符 stripped_text = navigable_string.strip()
parent属性 获取NavigableString对象所属的父节点(通常是一个Tag对象) parent_tag = navigable_string.parent
next_sibling属性 获取NavigableString对象的下一个兄弟节点 next_sibling = navigable_string.next_sibling
previous_sibling属性 获取NavigableString对象的上一个兄弟节点 previous_sibling = navigable_string.previous_sibling

BeautifulSoup对象

BeautifulSoup对象是Beautiful Soup库的核心对象,用于解析和遍历HTML或XML文档。

常用方法:

find(name, attrs, recursive, string, **kwargs):根据指定的标签名、属性、文本内容等查找第一个匹配的标签

find_all(name, attrs, recursive, string, limit, **kwargs): 根据指定的标签名、属性、文本内容等查找所有匹配的标签,并返回一个列表

select(css_selector): 使用CSS选择器语法查找匹配的标签,并返回一个列表

prettify():以美观的方式输出整个文档的内容,包括标签、文本和缩进

has_attr(name):检查当前标签是否具有指定的属性名,返回布尔值

get_text():获取当前标签和所有子标签的文本内容,并返回一个字符串

常用属性:

soup.title:获取文档中第一个<title>标签的内容

soup.head:获取文档中的<head>标签

soup.body:获取文档中的<body>标签

soup.find_all('tag'):获取文档中所有匹配的<tag>标签,并返回一个列表

soup.text:获取整个文档中的纯文本内容(去除标签等)

Comment对象

Comment对象是Beautiful Soup库中的一种特殊类型的对象,用于表示HTML或XML文档中的注释内容。

在解析HTML或XML文档时,Beautiful Soup将注释内容作为Comment对象来表示。注释是文档中的一种特殊元素,用于添加注解、说明或暂时删除一部分内容。Comment对象可以通过Beautiful Soup库的解析器自动识别和处理。

处理和访问HTML文档中的注释内容示例:

from bs4 import BeautifulSoup

# 创建包含注释的HTML字符串
html = "<html><body><!-- This is a comment --> <p>Hello, World!</p></body></html>"

# 解析HTML文档
soup = BeautifulSoup(html, 'html.parser')

# 使用type()函数获取注释对象的类型
comment = soup.body.next_sibling
print(type(comment))  # 输出 <class 'bs4.element.Comment'>

# 使用`.string`属性获取注释内容
comment_content = comment.string
print(comment_content)  # 输出 This is a comment

搜索文档树

Beautiful Soup提供了多种方式来查找和定位HTML文档中的元素。

方法选择器

使用Beautiful Soup的find()或find_all()方法可以通过标签名、结合属性名和属性值、结合文本内容等方式来选择元素。

两者区别:

find返回符合条件的第一个元素

find_all返回符合条件的所有元素列表

例如:soup.find('div')会返回第一个div标签的元素,soup.find_all('a')会返回所有的a标签元素。

1.通过标签或标签列表查找元素

# 查找第一个div标签的元素
soup.find('div')

# 查找所有的a标签元素
soup.find_all('a')

# 查找所有li标签
soup.find_all('li')

# 查找所有a标签和b标签
soup.find_all(['a','b'])

2.通过正则表达式查找元素

# 以sp开头的标签查找
import re
print(soup.find_all(re.compile("^sp")))

3.通过属性查找元素

find = soup.find_all(
    attrs={
   
         "属性名":"值"
    }
)
print(find)
# 查找第一个具有href属性的a标签元素
soup.find('a', href=True)

# 查找所有具有class属性的div标签元素
soup.find_all('div', class_=True)

4.通过文本内容查找元素

# 查找第一个包含"Hello"文本内容的元素
soup.find(text='Hello')

# 查找所有包含"World"文本内容的元素
soup.find_all(text="World")

5.通过关键词参数查找元素

soup.find_all(id='id01')

6.混合使用

soup.find_all(
 '标签名',
 attrs={
   
   "属性名":"值"
 },
 text="内容"
)

CSS选择器

使用Beautiful Soup的select()方法可以通过CSS选择器来查找元素。CSS选择器是一种强大而灵活的方式,可以根据标签名、类名、ID、属性以及它们的组合来定位元素。

1.类选择器

通过类名查找元素,使用.符号加上类名来查找元素

soup.select('.className')

2.ID选择器

通过ID查找元素,使用#符号加上ID来查找元素

soup.select('#id')

3.标签选择器

通过标签名查找元素,直接使用标签名来查找元素

soup.select('p')

4.属性选择器

通过属性查找元素:可以使用[属性名=属性值]的格式来查找具有特定属性及属性值的元素

soup.select('[属性="值"]')

soup.select('[href="example.com"]')

soup.select('a[href="http://baidu.com"]')

5.组合选择器

可以将多个选择器组合在一起以获得更精确的查找

# 返回所有在具有特定类名的div元素内的a标签元素
soup.select('div.class01 a')

soup.select('div a')

关联选择

在进行元素查找的过程中,有时候不能做到一步就获取到想要的节点元素,需要选取某一个节点元素,然后以这个节点为基准再选取它的子节点、父节点、兄弟节点等。

在Beautiful Soup中,可以通过使用CSS选择器语法来进行关联选择,需要借助Beautiful Soup的select()方法,它允许使用CSS选择器来选择元素。

1.后代选择器(空格):可以选择指定元素下的所有后代元素。

div a               /* 选择div元素下的所有a元素 */

.container p        /* 选择类名为container的元素下的所有p元素 */

2.直接子代选择器(>):可以选择指定元素的直接子代元素。

div > a             /* 选择div元素的直接子代的a元素 */

.container > p      /* 选择类名为container的元素的直接子代的p元素 */

3.相邻兄弟选择器(+):可以选择与指定元素紧邻的下一个同级元素。

h1 + p              /* 选择紧接在h1元素后的同级p元素 */

.container + p      /* 选择紧接在类名为container的元素后的同级p元素 */

4.通用兄弟选择器(~):可以选择与指定元素同级的所有后续元素。

h1 ~ p              /* 选择与h1元素同级的所有p元素 */

.container ~ p      /* 选择与类名为container的元素同级的所有p元素 */

5.混合选择器:可以结合多个不同类型的选择器来选择特定的元素

div , p   /* 选择所有div元素和所有p元素 */

.cls1.cls2     /*  选择类名是cls1并且类名是cls2 */

遍历文档树

在Beautiful Soup中,遍历文档树是一种常见的操作,用于访问和处理HTML或XML文档的各个节点

标签的子节点和父节点

contents:获取Tag的所有子节点,返回一个list

print(bs.tag.contents)
# 使用列表索引获取某一个元素
print(bs.tag.contents[1])

children:获取Tag的所有子节点,返回一个生成器

for child in tag.contents:
    print(child)

parent属性获取标签的父节点

parent_tag = tag.parent

标签的同级兄弟节点

可以使用.next_sibling和.previous_sibling属性获取标签的下一个或上一个同级兄弟节点。

next_sibling = tag.next_sibling
previous_sibling = tag.previous_sibling

递归遍历文档树

可以使用.find()和.find_all()方法在文档树中递归搜索匹配的标签。

可以使用.descendants生成器迭代器遍历文档树的所有子孙节点。

for tag in soup.find_all('a'):
    print(tag)

for descendant in tag.descendants:
    print(descendant)

遍历标签属性

可以使用.attrs属性获取标签的所有属性,并遍历它们。

for attr in tag.attrs:
    print(attr)
相关文章
|
2月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
57 8
|
2月前
|
数据采集 自然语言处理 搜索推荐
基于qwen2.5的长文本解析、数据预测与趋势分析、代码生成能力赋能esg报告分析
Qwen2.5是一款强大的生成式预训练语言模型,擅长自然语言理解和生成,支持长文本解析、数据预测、代码生成等复杂任务。Qwen-Long作为其变体,专为长上下文场景优化,适用于大型文档处理、知识图谱构建等。Qwen2.5在ESG报告解析、多Agent协作、数学模型生成等方面表现出色,提供灵活且高效的解决方案。
187 49
|
1月前
|
XML JSON JavaScript
HttpGet 请求的响应处理:获取和解析数据
HttpGet 请求的响应处理:获取和解析数据
|
10天前
|
数据采集 XML 数据格式
解析Amazon搜索结果页面:使用BeautifulSoup
解析Amazon搜索结果页面:使用BeautifulSoup
|
2月前
|
数据采集 JavaScript API
网页解析库:BeautifulSoup与Cheerio的选择
网页解析库:BeautifulSoup与Cheerio的选择
|
3月前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
4098 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
2月前
|
存储 分布式计算 Java
存算分离与计算向数据移动:深度解析与Java实现
【11月更文挑战第10天】随着大数据时代的到来,数据量的激增给传统的数据处理架构带来了巨大的挑战。传统的“存算一体”架构,即计算资源与存储资源紧密耦合,在处理海量数据时逐渐显露出其局限性。为了应对这些挑战,存算分离(Disaggregated Storage and Compute Architecture)和计算向数据移动(Compute Moves to Data)两种架构应运而生,成为大数据处理领域的热门技术。
70 2
|
2月前
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
130 1
|
2月前
|
数据采集 存储 自然语言处理
基于Qwen2.5的大规模ESG数据解析与趋势分析多Agent系统设计
2022年中国上市企业ESG报告数据集,涵盖制造、能源、金融、科技等行业,通过Qwen2.5大模型实现报告自动收集、解析、清洗及可视化生成,支持单/多Agent场景,大幅提升ESG数据分析效率与自动化水平。
121 0
|
3月前
|
XML 前端开发 数据格式
Beautiful Soup 解析html | python小知识
在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提取网页中的数据。本文将详细介绍 Beautiful Soup 的基础知识和常用操作,帮助初学者快速入门和精通这一强大的工具。【10月更文挑战第11天】
83 2

推荐镜像

更多