Beautiful Soup介绍

简介: Beautiful Soup介绍

前言


Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。通过Beautiful Soup库,我们可以将指定的class或id值作为参数,来直接获取到对应标签的相关数据。简单来说,就是把html或者xml源代码进行了格式化,方便我们对其中的节点、标签、属性等进行进一步的操作。


一、Beautiful Soup的安装以及导入


# 安装
pip install beautifulsoup4
# 看一下是否安装成功
pip list
# 导入beautifulsoup4模块,简称bs4
from bs4 import BeautifulSoup
# bs4库可以简单理解为是一个解析、遍历、维护、‘标签树’的功能库


二、Beautiful Soup的使用

#导入bs4模块
from bs4 import BeautifulSoup
html = """<html><head><title>The Dormouse's story</title></head>
<body> <p class='title'><b>The Dormouse's story</b></p> 
<p class='story'>Once upon a time there were three little sisters; 
and their names were http://example.com/elsie' class='sister' 
id='link1'>Elsie, http://example.com/lacie' class='sister' 
id='link2'>Lacie and http://example.com/tillie' class='sister' id='link3'>Tillie; 
and they lived at the bottom of a well.</p> <p class='story'>...</p> </html>
"""
# html:需要解析的内容,即网页源代码所构成的字符串
# html解析器:html.parser
soup = BeautifulSoup(html,'html.parser')
# 输出结果,即把html输出,排过版的,结构清晰。
print(soup.prettify())
# 输出title
soup.title
# 输出title的名字
soup.title.name
# 输出p标签
soup.p
# 找到所有的p标签
soup.find_all('p')
# 输出p标签的class属性
soup.p['class']



备注:更多关于Beautiful Soup介绍请看参考文章。

参考文章:


Beautiful Soup教程.

Beautiful Soup库(bs4)入门.

python bs4 库简介.


总结


下楼买了萝卜粉丝饼,好吃。

相关文章
WK
|
3月前
|
XML 数据采集 数据挖掘
什么是Beautiful Soup?有哪些特点?
Beautiful Soup,常被称为“美丽汤”,是用于解析HTML和XML文档的Python库,能自动修复不规范的标签,便于遍历、搜索及修改文档结构,适用于网页爬虫和数据采集。它提供直观的方法来处理文档,支持多种解析器,具备强大的搜索功能,包括find()和find_all()等方法,并兼容CSS选择器,简化了数据提取过程。广泛应用于网页爬虫、数据挖掘及网页内容分析等领域。
WK
202 1
|
4月前
|
数据采集 XML 前端开发
BeautifulSoup
【8月更文挑战第18天】
55 1
|
4月前
|
前端开发 Python
Beautiful Soup
【8月更文挑战第4】
65 9
|
7月前
|
数据采集 Web App开发 安全
Beautiful Soup和Requests
【5月更文挑战第7天】本文介绍了使用Python中的Requests和Beautiful Soup库创建网络爬虫的方法。Requests库简化了HTTP请求,Beautiful Soup则用于解析HTML和XML文档,便于提取信息。首先,文章解释了两个库的作用和安装步骤。接着,通过实例展示了如何提取网页标题和链接,以及如何下载并保存图片。对于动态加载的内容,文章推荐使用Selenium库模拟浏览器行为。此外,还介绍了如何处理登录认证,包括安全输入密码和从外部文件读取凭据。总结来说,本文提供了Python网络爬虫的基础知识和实用技巧。
|
7月前
|
数据采集 XML 前端开发
Python爬虫:BeautifulSoup
这篇内容介绍了Python中BeautifulSoup库的安装和使用。首先,通过在命令行输入`pip install bs4`进行安装,或使用清华源加速。接着讲解BeautifulSoup的基本概念,它是一个用于数据解析的工具,便于处理HTML和XML文档。与正则表达式不同,BeautifulSoup提供更方便的方式来查找和操作标签及其属性。 文章详细阐述了BeautifulSoup的两个主要方法:`find`和`find_all`。`find`方法用于查找单个指定标签,可结合属性字典进行精确选择;`find_all`则返回所有匹配标签的列表。通过这些方法,可以方便地遍历和提取网页元素。
73 0
Beauiful Soup
Beautiful Soup的简单使用
|
Python
Beautiful Soup库的介绍
本节中将介绍如何使用 Beautiful Soup 来解析 HTML 以获取我们想要的信息。
116 0
|
XML 数据格式 Python
每日一模块——BeautifulSoup4
每日一模块——BeautifulSoup4

热门文章

最新文章