【安全合规】python爬虫从0到1 -beautifulsoup（bs4）的基本使用

2022-04-14 156

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python爬虫从0到1 -beautifulsoup（bs4）的基本使用

文章目录

（一）bs4基本简介

（二）安装以及创建

（三）节点定位

根据标签名查找结点

（四）bs4 的一些函数

（一）bs4基本简介

1. 功能

beautifulsoup简称bs4，和lxml一样是一个html的解析器，主要功能也是解析和获取数据。

2. 优缺点

缺点：效率总体来说没有lxml高

优点：接口设计人性化，使用方便

（二）安装以及创建

1. 安装.

2. 导入

from bs4 import beautifulsoup

3. 创建对象

服务器响应的文件生成对象

soup = BeautifulSoup(response.read().decode('utf-8'),'lxml')

本地文件生成对象

soup  = BeautifulSoup(open('beautiful.html',encoding='utf-8'),'lxml')

注：打开文件格式默认为gbk，因此我们需要指定编码为utf-8

（三）节点定位

根据标签名查找结点

以下实例由此HTML源码为基础：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
<div>
<ul>
    <li id="l1">北京</li>
    <li id = 'l2'>上海</li>
    <li class="cl3">重庆</li>
    <li  class="cl4">天津</li>
    <p>welcome</p>
    <a href="" id = 'i1' class="a1">python爬虫</a>
</ul>
</div>
<div id="i2">
    <p id = "p1">hello world</p>
    <a href="https://baidu.com"  id = 'i3' title="t2">baidu</a>
</div>
</body>
</html>

查找第一个符合条件的值:

print(soup.a)

查找标签的属性和属性值并以列表的形式展现

print(soup.a.attrs)

（五）获取节点信息

获取节点内容实例：

html代码

obj = soup.select('#i2')[0]
print(obj.string)
print(obj.get_text())

obj = soup.select('.cl3')[0]
# 获取标签的名字
print(obj.name)
# 获取属性值并以字典的形式显示
print(obj.attrs)

obj = soup.select('.cl3')[0]
print(obj.attrs.get('class'))
print(obj.get('class'))
print(obj['class'])

【安全合规】python爬虫从0到1 -beautifulsoup（bs4）的基本使用

文章目录

（一）bs4基本简介

1. 功能

2. 优缺点

（二）安装以及创建

1. 安装.

2. 导入

3. 创建对象

（三）节点定位

根据标签名查找结点

（五）获取节点信息

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【安全合规】python爬虫从0到1 -beautifulsoup（bs4）的基本使用

文章目录

（一）bs4基本简介

1. 功能

2. 优缺点

（二）安装以及创建

1. 安装.

2. 导入

3. 创建对象

（三）节点定位

根据标签名查找结点

（五）获取节点信息

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像