如何利用 Beautiful Soup 爬取网页数据

简介: 如何利用 Beautiful Soup 爬取网页数据

定义

Python中的一个库,主要用于从网页爬取数据;


安装

pip install beautifulsoup4

1

四大对象

Beautiful Soup将复杂的HTML文档转换成树形结构,树中的每个节点都是Python对象,对象可归纳为以下4种;


Tag

同XML或HTML中的标签tag相同,tag属性可被增删修改,操作方法和字典一样,最常用的属性如下;


name

attributes

NavigableString

获取标签之后,用于获取标签内部的文字;


BeautifulSoup

表示一个文档的全部内容,大多数情况下都可以将它当作Tag对象,是一个特殊的Tag对象,可用于分别获取其类型、名称及属性;


Comment

Comment是一个中枢类型的NavigableString对象,输出内容不含注释符号;


#!/usr/bin/python3
# -*- coding:utf-8 -*-
# @Time    : 2018-11-16 10:30
# @Author  : Manu
# @Site    : 
# @File    : beautiful_soup.py
# @Software: PyCharm
from bs4 import BeautifulSoup
html = """
<html>
<head>
<title>村雨</title>
</head>
<body>
<p class="title" name="blog"><b>村雨的博客</b></p>
<li><!--注释--></li>
<a href="https://blog.csdn.net/github_39655029/article/details/83933199" target="_blank">
        <span class="article-type type-1">
            原        </span>
        Python爬虫之网络请求      </a>
<a href="https://blog.csdn.net/github_39655029/article/details/84100458" target="_blank">
        <span class="article-type type-1">
            原        </span>
        爬虫实践--豆瓣电影当前上映电影信息爬取      </a>
</body>
</html>
"""
soup = BeautifulSoup(html, 'lxml')
print(soup.name)
print(soup.title.name)
print(soup.prettify())
# 获取title
print('title:', soup.title.text)
# 获取head
print('p:', soup.p.text)
a_list = soup.a.attrs
print(a_list.get('href'))
# 获取Title标签的文字内容
print(soup.title.string)
# 获取对象名称
print(soup.name)
# 获取对象属性
print(soup.attrs)
# 获取对象类型
print(type(soup.name))
if type(soup.li.string) == element.Comment:
    print('comment:', soup.li.string)

image.png

目录
相关文章
|
3月前
|
数据采集 开发者 Python
Python爬虫实战:利用Beautiful Soup解析网页数据
在网络爬虫的开发过程中,数据解析是至关重要的一环。本文将介绍如何利用Python的Beautiful Soup库来解析网页数据,包括解析HTML结构、提取目标信息和处理特殊情况,帮助开发者更好地实现爬虫功能。
|
5月前
|
数据采集
Beaustiful Soup爬虫案例
Beaustiful Soup爬虫案例
40 0
|
1月前
|
数据采集 存储 监控
Python爬虫实战:利用BeautifulSoup解析网页数据
在网络信息爆炸的时代,如何快速高效地获取所需数据成为许多开发者关注的焦点。本文将介绍如何使用Python中的BeautifulSoup库来解析网页数据,帮助你轻松实现数据抓取与处理的技术。
|
2月前
|
数据采集 XML 前端开发
Python爬虫 Beautiful Soup库详解#4
BeautifulSoup基础,节点选择器,方法选择器,css选择器【2月更文挑战第14天】
49 1
|
4月前
|
数据采集 XML 数据格式
python爬虫入门篇:如何解析爬取到的网页数据?试下最简单的BeautifulSoup库!
前面笔记解析了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇我们来如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。Beautiful Soup,简称bs4,是Python的一个HTML或XML的解析库,一般用它来从网页中提取数据。
58 1
|
9月前
|
数据采集 前端开发 Python
【Python爬虫】用beautifulsoup4库遇到的错误及处理
在这里对使用beautifulsoup时遇到的问题进行汇总。
|
9月前
|
数据采集 数据安全/隐私保护 Python
Beautifulsoup解析库使用实际案例
Beautifulsoup解析库使用实际案例
|
数据采集 XML 移动开发
爬虫学习:Beautiful Soup的使用
一个强大的解析工具——Beautiful Soup,只需简单的几段代码就可以完成网页中某个信息的提取,一起来见识一下它的强大之处叭!
134 0
爬虫学习:Beautiful Soup的使用
|
数据采集 XML 前端开发
Python爬虫入门BeautifulSoup模块
Python爬虫入门BeautifulSoup模块
114 0
|
数据采集 Python
python爬虫BeautifulSoup模块解析数据入门
python爬虫BeautifulSoup模块解析数据入门
165 0
python爬虫BeautifulSoup模块解析数据入门