python爬虫——Beautiful Soup库（数据解析）模块讲解-阿里云开发者社区

python爬虫——Beautiful Soup库（数据解析）模块讲解

2022-05-15 229

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

全局流量管理 GTM，标准版 1个月

云解析 DNS，旗舰版 1个月

简介： python爬虫——Beautiful Soup库（数据解析）模块讲解

本文转载：https://xiaochuhe.blog.csdn.net/article/details/123368545
一、概述

Beautiful Soup （简称bs4）是一个可以从HTML或XML文件中提取数据的Python库。提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
注：Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。所以仅仅只需要说明一下原始编码方式就可以。
二、数据解析

数据解析就是将爬取到的整个页面中的局部的内容进行提取。

python中常用的数据解析方式有以下三种：

    bs4（python中独有的）
    xpath（推荐，通用型强）
    正则

bs4数据解析原理

实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中。而将页面源码数据加载到该对象中有两种方式，一种是将本地得html文档加载，另一种是将互联网上获取的页面源码加载
通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取。
三、Beautiful Soup用法

举例说明：
html文件代码：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>爬虫的一天</title>
</head>
<body>
    <p class="a1" name="content1">
        <b>今天写一篇博客！</b>
    </p>
    <p class="a2" name="content2">
        <h3>什么！！！</h3>
        你现在就要看？算了，给你链接自己去看吧！
        <a class="a3" href="http://www.xiaofeng.press/">
            点开就可以看到博客哦！
        </a>
    </p>
</body>
</html>

python实例说明代码：

html ='''<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>爬虫的一天</title>
</head>
<body>
    <p class="a1" name="content1">
        <b>今天写一篇博客！</b>
    </p>
    <p class="a2" name="content2">
        <h3>什么！！！</h3>
        你现在就要看？算了，给你链接自己去看吧！
        <a class="a3" href="http://www.xiaofeng.press/">
            点开就可以看到博客哦！
        </a>
    </p>'''
from bs4 import BeautifulSoup
creep = BeautifulSoup(html,'lxml')#使用lxml解析库
#print (soup.prettify())#格式化代码，可以自动补全
print (creep.title.string)#输出网页title标签内容
print (creep.title)
print (type(creep.title))
print (creep.head) #输出网页head标签全部内容
print (creep.p) #这种方式只会输出第一个p标签
print (creep.title.name)#获取title标签名
print (creep.p['name'])#获取p标签中name的属性值
print (creep.p.attrs['name'])#获取p标签中name的属性值
print (creep.head.title.string)#嵌套输出网页title标签内容
print (creep.p.contents)#以列表形式输出第一个p标签的子节点和内容

输出结果：
图片.png

python爬虫——Beautiful Soup库（数据解析）模块讲解

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python爬虫——Beautiful Soup库（数据解析）模块讲解

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像