如何用Beautiful Soup解析HTML内容

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 如何用Beautiful Soup解析HTML内容

Beautiful Soup是一种Python的解析库,主要用于解析和处理HTML/XML内容。它是基于Python的标准库和第三方库的结合,能够提供简便的方式实现文本的查找、修改和提取操作。

HTML指的是超文本标记语言(Hypertext Markup Language),即一种用于描述网页内容的标记语言。在我们访问一个网页的时候,浏览器便会将HTML内容下载到本地并以可视化的形式展示给我们。但是,在程序员的世界里我们需要能够对HTML内容进行更多的操作,而Beautiful Soup就是这种工具之一。

Beautiful Soup能够解析HTML内容并转化成一个复杂的树结构,然后可以通过标签名、属性名等多种方式进行内容的查找和修改。使用Beautiful Soup不仅能够让我们更高效地处理HTML内容,而且还能避免很多手动操作引起的误差。

下面我们来详细介绍Beautiful Soup的使用方式和应用场景。

Beautiful Soup的使用

Beautiful Soup提供的解析器有bs3、bs4,其中bs3逐渐被弃用,目前bs4为最新版。我们主要介绍bs4的使用。

首先,我们需要安装Beautiful Soup库。在终端输入以下命令:

pip install beautifulsoup4

安装成功后,我们通过import语句将Beautiful Soup库引入程序中。

from bs4 import BeautifulSoup

接下来假设我们有一个HTML文本:

<html>
  <head>
    <title>Beautiful Soup Tutorial</title>
  </head>
  <body>
    <div class="article">
      <h1>Python BeautifulSoup Tutorial</h1>
      <p class="intro">这是一篇Beautiful Soup入门教程</p>
      <p class="content">它将介绍Beautiful Soup的基本用法以及一些高级的应用场景</p>
      <a class="link" href="http://www.example.com">点击访问示例网站</a>
    </div>
  </body>
</html>

我们可以通过以下语句将HTML文本解析成BeautifulSoup对象:

soup = BeautifulSoup(html_doc, 'html.parser')

其中,html_doc为上述HTML文本,'html.parser’为指定的解析器。

标签选择器

Beautiful Soup提供了多种标签选择器,能够便捷地从HTML文本中选择需要的内容。

  • 选择标签名为h1的元素:
soup.select('h1')

结果为:

[<h1>Python BeautifulSoup Tutorial</h1>]
  • 选择标签名为p且class属性为“intro”的元素:
soup.select('p.intro')

结果为:

[<p class="intro">这是一篇Beautiful Soup入门教程</p>]
  • 选择标签名为a且class属性为“link”的元素,其href属性的值为"http://www.example.com":
soup.select('a.link[href="http://www.example.com"]')

结果为:

[<a class="link" href="http://www.example.com">点击访问示例网站</a>]

标签树操作

我们可以通过Beautiful Soup的树型结构,对HTML文本进行各种查找与修改操作。

  • 嵌套选择标签

可以通过嵌套选择标签,定位到HTML文本中需要的标签,例如选择“div”标签下的所有“p”标签。

content = soup.select('div.article > p')

可以看到,选择结果为两个“p”标签。

[<p class="intro">这是一篇Beautiful Soup入门教程</p>, 
 <p class="content">它将介绍Beautiful Soup的基本用法以及一些高级的应用场景</p>]
  • .string/.text属性获取标签内容

可以通过.string属性或.text属性获取标签内的文本内容。

例如,获取标题“h1”标签内的文本内容:

title = soup.select('h1')[0].string
print(title)

输出结果为:

Python BeautifulSoup Tutorial

可以看到,.string相比于.text属性更加精确,可以避免获取到标签内的其他内容干扰。

  • .get()方法获取标签属性值

可以通过.get()方法获取标签内的属性值。例如,获取“a”标签的href属性值:

link = soup.select('a.link')[0].get('href')
print(link)

输出结果为:

http://www.example.com

修改HTML文本

除了查找与获取HTML文本的内容,我们还可以使用Beautiful Soup对HTML文本进行修改操作。

  • 修改标签属性值

通过tag对象的.attrs属性可以获取标签的属性,使用该属性进行修改操作。

例如,将“a”标签的href属性值修改为“http://www.newexample.com”:

link_tag = soup.select('a.link')[0]
link_tag['href'] = 'http://www.newexample.com'
print(link_tag)

可以看到,输出结果中href属性值已经被修改。

<a class = "link" href = "http://www.newexample.com">点击访问示例网站</a>
  • 修改标签文本内容

通过tag对象的.string属性或replace_with()方法可以修改标签的文本内容。

例如,将第一个“p”标签的文本修改为“欢迎来到Beautiful Soup教程”:

p_tag = soup.select('p.intro')[0]
p_tag.string = '欢迎来到Beautiful Soup教程'
print(p_tag)

输出结果为:

<p class = "intro">欢迎来到Beautiful Soup教程</p>
  • 增加标签和删除标签

我们可以使用Beautiful Soup提供的函数,例如new_tag()、new_string()、append()和insert()等方法,创建新标签或文本,并插入HTML文本当中。

例如,我们通过append()方法在“body”标签的末尾增加一个“div”标签:

new_div = soup.new_tag('div')
new_div.string = '这是Beautiful Soup教程的结尾'
soup.select('body')[0].append(new_div)
print(soup)

可以看到,输出结果中的HTML文本结尾增加了一个新的“div”标签。

应用场景

美食网站信息爬取

我们将以美食网站中的“热门排行榜”为例进行演示。

首先,我们需要通过requests库获取HTML文本。以“热门排行榜”页面为例:

import requests
from bs4 import BeautifulSoup
 
url = 'https://www.meishij.net/chufang/diy/diy_rmphb/'
html = requests.get(url)
soup = BeautifulSoup(html.text, 'html.parser')

我们可以通过观察HTML文本,发现热门排行榜的信息在“div”标签中,具体位置在“div.zg_wrap”标签中,而餐品名称在“div.zg_wrap > li > div > p > a”标签中。因此,我们可以使用以下语句提取美食名称:

for i, li in enumerate(soup.select('div.zg_wrap > li')):
    name = li.select('div > p > a')[0].get('title')
    print(f'{i+1}. {name}')

可以看到,我们已成功提取出了美食名称,输出结果如下:

1. 汉堡
2. 糯米饭
3. 明炉烤鸭
4. 龙虾
5. 火锅
6. 美式薯条
7. 叉烧肉
8. 红烧肉
9. 快手美食
10. 韩国泡菜

至此,我们已经成功通过Beautiful Soup解析库,提取出了美食网站的热门排行榜信息,演示了Beautiful Soup在爬虫数据抓取和处理中的重要应用。

总结

Beautiful Soup作为一种解析库,能够方便地解析HTML/XML文本,提供多种标签选择器并支持树型结构操作,可以快速定位和处理HTML/XML中需要的内容,提高了爬虫数据抓取和处理的效率。对于Python爬虫初学者来说,掌握Beautiful Soup的使用是十分重要的。同时需要注意的是,在使用Beautiful Soup时需要遵循网络道德规范,遵守网站的规定,避免对网站造成过度访问和其他影响。


相关文章
|
26天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
3天前
|
数据采集 XML 数据格式
解析Amazon搜索结果页面:使用BeautifulSoup
解析Amazon搜索结果页面:使用BeautifulSoup
|
27天前
|
数据采集 JavaScript API
网页解析库:BeautifulSoup与Cheerio的选择
网页解析库:BeautifulSoup与Cheerio的选择
|
1月前
|
XML JavaScript 前端开发
如何解析一个 HTML 文本
【10月更文挑战第23天】在实际应用中,根据具体的需求和场景,我们可以灵活选择解析方法,并结合其他相关技术来实现高效、准确的 HTML 解析。随着网页技术的不断发展,解析 HTML 文本的方法也在不断更新和完善,
|
1月前
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
122 1
|
2月前
|
XML 数据格式
HTML 实例解析
本文介绍了HTML中常见元素的使用方法,包括`&lt;p&gt;`、`&lt;body&gt;`和`&lt;html&gt;`等。详细解析了这些元素的结构和作用,并强调了正确使用结束标签的重要性。此外,还提到了空元素的使用及大小写标签的规范。
|
2月前
|
XML 前端开发 数据格式
Beautiful Soup 解析html | python小知识
在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提取网页中的数据。本文将详细介绍 Beautiful Soup 的基础知识和常用操作,帮助初学者快速入门和精通这一强大的工具。【10月更文挑战第11天】
75 2
|
28天前
|
前端开发 测试技术 定位技术
如何利用HTML和CSS构建企业级网站的全过程。从项目概述到页面结构设计,再到HTML结构搭建与CSS样式设计,最后实现具体页面并进行优化提升,全面覆盖了网站开发的关键步骤
本文深入介绍了如何利用HTML和CSS构建企业级网站的全过程。从项目概述到页面结构设计,再到HTML结构搭建与CSS样式设计,最后实现具体页面并进行优化提升,全面覆盖了网站开发的关键步骤。通过实例展示了主页、关于我们、产品展示、新闻动态及联系我们等页面的设计与实现,强调了合理布局、美观设计及用户体验的重要性。旨在为企业打造一个既专业又具吸引力的线上平台。
56 7
|
28天前
|
前端开发 JavaScript 搜索推荐
HTML与CSS在Web组件化中的核心作用及前端技术趋势
本文探讨了HTML与CSS在Web组件化中的核心作用及前端技术趋势。从结构定义、语义化到样式封装与布局控制,两者不仅提升了代码复用率和可维护性,还通过响应式设计、动态样式等技术增强了用户体验。面对兼容性、代码复杂度等挑战,文章提出了相应的解决策略,强调了持续创新的重要性,旨在构建高效、灵活的Web应用。
35 6

热门文章

最新文章

推荐镜像

更多