python爬虫BeautifulSoup模块解析数据入门

简介: python爬虫BeautifulSoup模块解析数据入门

python爬虫使用BeautifulSoup模块解析数据入门

1.准备

首先进行模块安装:

pip install BeautifulSoup4

因为BeautifulSoup4依赖于lxml库,所以也要安装lxml库才能正常使用。

代码示例

from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
"""

2.基本方法

首先需要用BeautifulSoup() 方法传递一个解析器

soup = BeautifulSoup(html_doc, 'lxml')
print(soup) # 查看

在这里插入图片描述
prettify() 方法 格式化输出:

print(soup.prettify())  # 代码的格式化

在这里插入图片描述

获取指定标签(只获取第一个匹配的)

print(soup.title)

在这里插入图片描述

获取指定标签的标签名

print(soup.title.name)  

在这里插入图片描述

获取指定标签的文本字符串

print(soup.title.string)

在这里插入图片描述

使用**find()**方法,获取指定标签(只获取第一个与之匹配的)

print(soup.find('p')) 

在这里插入图片描述

使用 find_all() 方法,获取全部与之匹配的标签,结果放在一个列表中

print(soup.find_all('a'))

在这里插入图片描述

找多个标签,给find_all()传入一个标签列表

print(soup.find_all(['a', 'p']))

在这里插入图片描述

get() 方法 获取标签的属性

links = soup.find_all('a')  # 'a'通过字符串传递字符串过滤器
for link in links:
    print(link.get('href'))

在这里插入图片描述
attrs 属性 获取标签的全部属性

links = soup.find_all('a')
a = links[0]
print(a.attrs)

在这里插入图片描述

3.对象种类

soup = BeautifulSoup(html_doc, 'lxml')
print(type(soup.title)) 
print(type(soup.p))  
print(type(soup.a))  
print(type(soup.find('a')))

在这里插入图片描述
得到的都是Tag标签类型,不是字符串。


title_head = soup.head
print(type(title_head.string))

在这里插入图片描述
可导航的字符串(可操纵的字符串)


print(type(soup))  # bs对象

在这里插入图片描述
bs对象。


此外,还有注释类型,指的是html文件的注释标签部分,形如

<b><!–xxxxxxxxx–><b>

这里不再具体展示,了解即可。

3.遍历文档树

● string获取标签里面的内容
● strings 返回是一个生成器对象用过来获取多个标签内容
● stripped_strings 和strings基本一致 但是它可以把多余的空格去掉

title_tag = soup.title
print(title_tag.string)
head_tag = soup.head
print(title_tag.string)  
html_tag = soup.html
print(html_tag.string)

在这里插入图片描述
如图,使用同级标签,可以找到同级数据,使用上级标签也可以,使用再上一级标签,因为这里边可以匹配的字符串有多个,所以不能再匹配到数据。
这个时候可以将string属性换为strings属性再尝试:

texts = soup.html.strings
print(texts)

在这里插入图片描述
如图输出结果是一个生成器。可遍历。

for i in texts:
    print(i)

在这里插入图片描述

但是如图,其中空行较多,不美观。于是可以切换使用stripped_strings属性,stripped_strings 和strings基本一致 但是它可以把多余的空格去掉。

texts = soup.html.stripped_strings
print(texts)

for i in texts:
    print(i)

在这里插入图片描述

目录
相关文章
|
4月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
2721 1
|
4月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
587 0
|
4月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
4月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
Python 人工智能 数据可视化
Python模块与包(八)
Python模块与包(八)
188 0
Python模块与包(八)
|
开发者 Python
如何在Python中管理模块和包的依赖关系?
在实际开发中,通常会结合多种方法来管理模块和包的依赖关系,以确保项目的顺利进行和可维护性。同时,要及时更新和解决依赖冲突等问题,以保证代码的稳定性和可靠性
621 159
|
Python
Python的模块和包
总之,模块和包是 Python 编程中非常重要的概念,掌握它们可以帮助我们更好地组织和管理代码,提高开发效率和代码质量
471 159
|
数据可视化 Python
如何在Python中解决模块和包的依赖冲突?
解决模块和包的依赖冲突需要综合运用多种方法,并且需要团队成员的共同努力和协作。通过合理的管理和解决冲突,可以提高项目的稳定性和可扩展性
|
持续交付 Python
如何在Python中自动解决模块和包的依赖冲突?
完全自动解决所有依赖冲突可能并不总是可行,特别是在复杂的项目中。有时候仍然需要人工干预和判断。自动解决的方法主要是提供辅助和便捷,但不能完全替代人工的分析和决策😉。

推荐镜像

更多