BeautifulSoup库用法总结

简介: 0.写在前面在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。

0.写在前面

在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。以下便是我从各种网站搜集的资料,在这里做一个汇总。(我从不生产知识,我只是知识的搬运工)

1.基本介绍

img_50c5aed161c7a7c8bcd45de12e3659f9.png
beautifulsoup

2.安装/引用

安装:win平台中‘以管理员身份运行’cmd,执行pip install beautifulsoup4即可安装
引用:from bs4 import BeautifulSoupimport bs4即可

3.使用方法

img_a9e892fe7990c5bd0d3ba543b2694d66.png
先煲制一锅汤

img_c9a49023529b9a44da992ead43a0c897.png
解析器
img_87d47e8b6274f0a603f9e2019cedb4a6.png
基本元素

img_0cb2809155acda65b06bac86201798c2.png
对应各元素

img_04ed223ff98fb02880218ced2b1b0cd4.png
一个用于接下来分析的demo

img_70b0e58e902eb7170b49737676e58978.png
tag标签

img_84bd13768c34d9a4df42ed543038b661.png
tag.name

img_f7b2971b8785da3ae7314c48bd4c4c3b.png
attrs

img_af450964effdd8b033f0322933d643c3.png
string

img_db18eb4c2307a635d60ac3e5c7140d00.png
comment
如果不想输出内容的注释,可以写一个if语句:
if type(newsoup.b.string)==element.Comment:
    print (newsoup.b.string)

bs4库将任何HTML输入都变成utf-8编码,python3.x默认支持编码是utf-8编码,解析无障碍

img_f2b679ac340a60f10157641b47b7aed4.png
beautifulsoup库基本入门
img_00af021a65ac1621b39bc70e72ced0cb.png
HTML基本格式
img_2fcbf62276e9bc4a71da17cbe1913626.png
标签树的下行遍历
img_914afd0ccd81c9fc77e105d5cb6ee87a.png
标签树的上行遍历

img_2af4f37c6d9b53762521380340472a1e.png
标签树的平行遍历

本文参考中国大学MOOC / kikaylee的专栏

目录
相关文章
|
1月前
|
XML 数据采集 API
MechanicalSoup与BeautifulSoup的区别分析
MechanicalSoup与BeautifulSoup的区别分析
MechanicalSoup与BeautifulSoup的区别分析
|
6月前
|
XML 数据格式
Beautiful Soup 库提供了许多常用的方法
【5月更文挑战第10天】Beautiful Soup库用于HTML/XML文档解析和操作,提供初始化、查找、提取信息及修改文档的方法。如:find()和find_all()查找元素,.string或.get_text()获取文本,.attrs获取属性,.append()、.insert()、.remove()、.replace_with()、.unwrap()和.wrap()修改文档结构。还有.prettify()格式化输出,.encode()和.decode()处理编码。这些功能组合使用可灵活处理文档信息。
38 1
WK
|
2月前
|
XML 前端开发 API
Beautiful Soup有哪些支持功能
Beautiful Soup是一个强大的Python库,用于从HTML或XML文件中提取数据。它支持多种解析器,如html.parser、lxml和html5lib,能灵活应对不同格式的文档。通过丰富的API,可以轻松遍历解析树,按标签名、属性或字符串内容搜索和提取数据。此外,Beautiful Soup还支持简单的树修改操作,处理不同编码的文档,并具备良好的容错性。从4.0版本起,它引入了CSS选择器,使搜索更加便捷。详尽的官方文档和广泛的社区支持使其成为处理网页数据的理想选择。
WK
43 1
|
6月前
|
XML 前端开发 数据格式
​Beautiful Soup 4.12.0 文档(二)
​Beautiful Soup 4.12.0 文档(二)
|
6月前
|
XML 前端开发 数据格式
​Beautiful Soup 4.12.0 文档(一)
​Beautiful Soup 4.12.0 文档(一)
|
6月前
|
XML 机器学习/深度学习 移动开发
​Beautiful Soup 4.12.0 文档(三)
​Beautiful Soup 4.12.0 文档(三)
|
6月前
|
XML 数据格式
Beautiful Soup 库有哪些常用的方法
Beautiful Soup 库有哪些常用的方法
105 1
|
6月前
|
数据采集 XML 前端开发
Python爬虫 Beautiful Soup库详解#4
BeautifulSoup基础,节点选择器,方法选择器,css选择器【2月更文挑战第14天】
90 1
|
数据采集 前端开发 Python
【Python爬虫】用beautifulsoup4库遇到的错误及处理
在这里对使用beautifulsoup时遇到的问题进行汇总。
|
数据采集 SQL 移动开发
【Python爬虫】Beautifulsoup4中find_all函数
【Python爬虫】Beautifulsoup4中find_all函数