python爬虫时使用Bs4常见的问题

简介: python爬虫爬取网页的时候,可以使用BeautifulSoup语法来进行操作
  • 1.通过pip install bs4将bs4包进行安装
  • 2.导入包from bs4 import BeautifulSoup
  • 3.把页面源代码交给BeautifulSoup进行处理, 生成bs对象
    page = BeautifulSoup(resp.text, "html.parser") # 指定html解析器,如果不指定解析器不会报错,但是会爆红
  • 4.从bs对象中查找数据
    # find(标签, 属性=值)
    # find_all(标签, 属性=值)
  • 5.在指定属性的过程中,例如class和id等是python的关键字,所以直接使用python关键字会发现报错,有两种解决方式:

    第一种是在关键字后加_可解决问题,例如:class_
    table = page.find("table", class_="hq_table") 
    第二种是使用attrs{},例如:
    table = page.find("table", attrs={"class": "hq_table"})
    
相关文章
|
14天前
|
数据采集 JSON 算法
Python爬虫——模拟登录
Python爬虫——模拟登录
91 3
|
14天前
|
数据采集 JSON 算法
Python爬虫——基于JWT的模拟登录爬取实战
Python爬虫——基于JWT的模拟登录爬取实战
37 1
Python爬虫——基于JWT的模拟登录爬取实战
|
11天前
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
10天前
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门
|
14天前
|
数据采集 JavaScript 前端开发
JavaScript逆向爬虫——使用Python模拟执行JavaScript
JavaScript逆向爬虫——使用Python模拟执行JavaScript
20 2
|
14天前
|
数据采集 前端开发 NoSQL
Python编程异步爬虫实战案例
Python编程异步爬虫实战案例
27 2
|
15天前
|
数据采集 消息中间件 API
Python爬虫验证码识别——手机验证码的自动化处理
Python爬虫验证码识别——手机验证码的自动化处理
21 0
|
15天前
|
数据采集 JSON 网络协议
Python编程异步爬虫——aiohttp的使用
Python编程异步爬虫——aiohttp的使用
|
15天前
|
数据采集 调度 Python
Python编程异步爬虫——协程的基本原理(一)
Python编程异步爬虫——协程的基本原理(一)
10 0
|
15天前
|
数据采集 Python
Python编程异步爬虫——协程的基本原理(二)
Python编程异步爬虫——协程的基本原理(二)
17 0