Python beautifulsoup4解析 数据提取 基本使用

简介: 文章目录Python beautifulsoup4解析 数据提取 使用介绍&常用示例前言二、from bs4 import BeautifulSoup1.pip install beautifulsoup42.Beautiful用法介绍2.1 解析html源码创建创建Beautifulsoup对象2.2 beautiful对象的常用属性和方法2.3 find、find_all、CSS选择器 根据条件提取元素3.常用代码4.对象类型介绍总结

Python beautifulsoup4解析 数据提取 使用介绍&常用示例

文章目录

前言

二、from bs4 import BeautifulSoup

1.pip install beautifulsoup4

2.Beautiful用法介绍

2.1 解析html源码创建创建Beautifulsoup对象

2.2 beautiful对象的常用属性和方法

2.3 find、find_all、CSS选择器 根据条件提取元素

3.常用代码

4.对象类型介绍

总结

前言

Beautiful Soup是Python的一个网页解析库,处理快捷; 支持多种解析器,功能强大。教程细致讲解Beautiful Soup的深入使用、节点选择器、CSS选择器、Beautiful Soup4的方法选择器等重要知识点,是学好爬虫的基础课程。


提示:以下是本篇文章正文内容,下面案例可供参考
建议把代码复制到编译工具中运行跑几次,认真看一下输出结果方便更好的理解, beautifulsoup4=4.11.1

二、from bs4 import BeautifulSoup

1.pip install beautifulsoup4

pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

2.Beautiful用法介绍

2.1 解析html源码创建创建Beautifulsoup对象

from bs4 import BeautifulSoup
web_html = """
<html>
<head>
    <title id="title">The Dormouse's story1</title>
</head>
<body>
    <p class="story">
        <a href="http://example.com/elsie1" class="link11" id="link1">EXI-XZ</a>,
        <a href="http://example.com/elsie2" class="link11" id="link2">Elsie</a>,
        <a href="http://example.com/lacie" class="link22" id="link3">Lacie</a> and
        <a href="http://example.com/tillie" class="link33" id="link4">Tillie</a>;
    </p>
    <ul class="ul_test", id="abc">
        <li class="li_test" href="http://example.com/li">AA</li>
        <li class="li_test" href="http://example.com/li">BB</li>
        <li class="li_test" href="http://example.com/li">CC</li>
    </ul>
    <div class="div_test">
        <p>div模块-p标签</p>
    </div>
</body>
</html>
"""
soup = BeautifulSoup(web_html, 'lxml')  # 解析网页源码创建Beautifulsoup对象 

2.2 beautiful对象的常用属性和方法

web_html = soup.prettify()  # 返回格式化后的源码,str类型
title_tag = soup.title  # 返回源码中第一个title标签(源码),element.Tag类型
print('title_tag:', title_tag, type(title_tag))
title_content = soup.title.string  # 提取title标签的文本, element.NavigableString,下面有多个标签内容则返回None
print('title_content:', title_content, type(title_content))
all_p_content = soup.body.get_text()  # 提取body下面的所有p标签,str类型
print('all_p_content:', all_p_content, type(all_p_content))
a_href = soup.a['href']  # 提取第一个a标签的href属性,str类型
print("a_href:", a_href, type(a_href))

2.3 find、find_all、CSS选择器 根据条件提取元素

# find -- 返回符合查询条件的第一个标签
# 组合条件一
find_group_result = soup.find(name='a', string='EXI-XZ')  # name(标签名),string(标签的文本),element.Tag类型
print('find_group_result:', find_group_result, type(find_group_result))
# 组合条件二,推荐第二种方式,字典方式key,value
find_attrs_result = soup.find(attrs={'class': 'link11', 'id': 'link1'})  # 指定属性,element.Tag类型,
print('find_attrs_result:', find_attrs_result, type(find_attrs_result))
find_attrs_result.get('href')  # 获取该对象的属性href
find_attrs_result.text  # 获取该对象标签的文本,不同于find_attrs_result.string,下面有多个标签会全部返回而不是None
find_ul_result = soup.find(attrs={'class': "ul_test", 'id': 'abc'})
print('ul_tag_result:', find_ul_result.text, type(find_ul_result))  # element.Tag

# find_all -- 返回符合查询条件的所有标签, list类型
find_li_list = soup.find_all(name='li', attrs={'class': "li_test"}, limit=2)  # limit(返回前两个标签)
find_li_list[0].attrs  # 提取标签的所有属性

# CSS选择器 -- list类型
div_tag = soup.select('div,.div_test')  # 取class为"div_test"的div标签,list类型,  #=id   .=class
print('div_tag:', div_tag, type(div_tag))
div_tag = soup.select('div[class="div_test"]')  # 等同于soup.select('div,.div_test')
print('div_tag:', div_tag, type(div_tag))
print("div下p标签的文本:", div_tag[0].select("p")[0].text)  # 取div中的第一个p标签的文本

3.常用代码

import requests
from bs4 import BeautifulSoup
url = "xxxxxxxxxxxxxxxxx"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'}
response = requests.get(url=url, headers=headers)
web_html = response.text
soup = BeautifulSoup(web_html, 'lxml')  # 解析网页源码创建Beautifulsoup对象

4.对象类型介绍

BeautifulSoup4四大对象种类
bs4.element.Tag 通俗点讲就是HTML中的一个个标签,有很多属性和方法可以更加详细的提取内容
NavigableString 得到了标签源码,通过对象的属性和方法可以提取标签内部文字(.string)和属性(xx['class'])
BeautifulSoup 表示一个文档的全部内容.
Comment 一个特殊类型的NavigableString对象,其输出的内容不包括注释符号。

总结

小洲提示:建议把代码复制到编译工具中运行跑几次,认真看一下输出结果方便更好的理解, beautifulsoup4=4.11.1

以上就是今天要讲的内容,本文仅仅简单介绍了beautifulsoup4解析web源码的使用,而beautifulsoup4提供了大量能使我们快速便捷地处理数据的函数和方法,后续有关于beautifulsoup4的常用代码会在这篇博客中持续更新。
Beautifulsoup4官方文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

目录
相关文章
|
6月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
4022 1
|
7月前
|
机器学习/深度学习 JSON Java
Java调用Python的5种实用方案:从简单到进阶的全场景解析
在机器学习与大数据融合背景下,Java与Python协同开发成为企业常见需求。本文通过真实案例解析5种主流调用方案,涵盖脚本调用到微服务架构,助力开发者根据业务场景选择最优方案,提升开发效率与系统性能。
1748 0
|
6月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
653 0
|
6月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
6月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
7月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
7月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
7月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
7月前
|
存储 大数据 Unix
Python生成器 vs 迭代器:从内存到代码的深度解析
在Python中,处理大数据或无限序列时,迭代器与生成器可避免内存溢出。迭代器通过`__iter__`和`__next__`手动实现,控制灵活;生成器用`yield`自动实现,代码简洁、内存高效。生成器适合大文件读取、惰性计算等场景,是性能优化的关键工具。
387 2
|
6月前
|
XML JSON 数据处理
超越JSON:Python结构化数据处理模块全解析
本文深入解析Python中12个核心数据处理模块,涵盖csv、pandas、pickle、shelve、struct、configparser、xml、numpy、array、sqlite3和msgpack,覆盖表格处理、序列化、配置管理、科学计算等六大场景,结合真实案例与决策树,助你高效应对各类数据挑战。(238字)
838 0

推荐镜像

更多