BeautifulSoup库用法总结

简介: 0.写在前面在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。

0.写在前面

在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。以下便是我从各种网站搜集的资料,在这里做一个汇总。(我从不生产知识,我只是知识的搬运工)

1.基本介绍

img_50c5aed161c7a7c8bcd45de12e3659f9.png
beautifulsoup

2.安装/引用

安装:win平台中‘以管理员身份运行’cmd,执行pip install beautifulsoup4即可安装
引用:from bs4 import BeautifulSoupimport bs4即可

3.使用方法

img_a9e892fe7990c5bd0d3ba543b2694d66.png
先煲制一锅汤

img_c9a49023529b9a44da992ead43a0c897.png
解析器
img_87d47e8b6274f0a603f9e2019cedb4a6.png
基本元素

img_0cb2809155acda65b06bac86201798c2.png
对应各元素

img_04ed223ff98fb02880218ced2b1b0cd4.png
一个用于接下来分析的demo

img_70b0e58e902eb7170b49737676e58978.png
tag标签

img_84bd13768c34d9a4df42ed543038b661.png
tag.name

img_f7b2971b8785da3ae7314c48bd4c4c3b.png
attrs

img_af450964effdd8b033f0322933d643c3.png
string

img_db18eb4c2307a635d60ac3e5c7140d00.png
comment
如果不想输出内容的注释,可以写一个if语句:
if type(newsoup.b.string)==element.Comment:
    print (newsoup.b.string)

bs4库将任何HTML输入都变成utf-8编码,python3.x默认支持编码是utf-8编码,解析无障碍

img_f2b679ac340a60f10157641b47b7aed4.png
beautifulsoup库基本入门
img_00af021a65ac1621b39bc70e72ced0cb.png
HTML基本格式
img_2fcbf62276e9bc4a71da17cbe1913626.png
标签树的下行遍历
img_914afd0ccd81c9fc77e105d5cb6ee87a.png
标签树的上行遍历

img_2af4f37c6d9b53762521380340472a1e.png
标签树的平行遍历

本文参考中国大学MOOC / kikaylee的专栏

目录
相关文章
|
2月前
|
XML 数据采集 API
MechanicalSoup与BeautifulSoup的区别分析
MechanicalSoup与BeautifulSoup的区别分析
50 2
MechanicalSoup与BeautifulSoup的区别分析
|
2月前
|
XML 前端开发 数据格式
Beautiful Soup 解析html | python小知识
在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提取网页中的数据。本文将详细介绍 Beautiful Soup 的基础知识和常用操作,帮助初学者快速入门和精通这一强大的工具。【10月更文挑战第11天】
77 2
|
7月前
|
XML 数据格式
Beautiful Soup 库提供了许多常用的方法
【5月更文挑战第10天】Beautiful Soup库用于HTML/XML文档解析和操作,提供初始化、查找、提取信息及修改文档的方法。如:find()和find_all()查找元素,.string或.get_text()获取文本,.attrs获取属性,.append()、.insert()、.remove()、.replace_with()、.unwrap()和.wrap()修改文档结构。还有.prettify()格式化输出,.encode()和.decode()处理编码。这些功能组合使用可灵活处理文档信息。
42 1
|
5月前
|
XML 前端开发 API
python中BeautifulSoup库使用小结
python中BeautifulSoup库使用小结
59 0
|
7月前
|
XML 数据格式
Beautiful Soup 库有哪些常用的方法
Beautiful Soup 库有哪些常用的方法
136 1
|
7月前
|
数据采集 XML 前端开发
Python爬虫 Beautiful Soup库详解#4
BeautifulSoup基础,节点选择器,方法选择器,css选择器【2月更文挑战第14天】
99 1
|
数据采集 前端开发 Python
【Python爬虫】用beautifulsoup4库遇到的错误及处理
在这里对使用beautifulsoup时遇到的问题进行汇总。
|
7月前
|
XML JavaScript 数据格式
Beautiful Soup 库是如何工作的
【2月更文挑战第22天】【2月更文挑战第68篇】Beautiful Soup 库是如何工作的
56 0
|
数据采集 数据安全/隐私保护 Python
Beautifulsoup解析库使用实际案例
Beautifulsoup解析库使用实际案例
|
XML 数据格式 Python
BeautifulSoup文档1-简介、安装和使用
BeautifulSoup文档1-简介、安装和使用
118 0