Python爬虫:常用的爬虫工具汇总

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: Python爬虫:常用的爬虫工具汇总

按照网络爬虫的的思路:

image.png

一、页面下载器

requests(必学)


python爬虫入门requests模块

Python爬虫:requests库基本使用

Python爬虫:使用requests库下载大文件

Python爬虫:requests多进程爬取猫眼电影榜单

requests InsecureRequestWarning: Unverified HTTPS request is being made.

scrapy


Python网络爬虫之scrapy框架

scrapy学习

Python爬虫:关于scrapy模块的请求头

Python爬虫:scrapy框架请求参数meta、headers、cookies一探究竟

Python爬虫:scrapy辅助功能实用函数

selenium+chrome + PhantomJS(抓取动态网页,不推荐)


mac下安装selenium+phantomjs+chromedriver

Python爬虫:selenium模块基本使用

Python爬虫selenium模块

Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页

Python爬虫:利用selenium爬取淘宝商品信息

Python爬虫:selenium使用chrome和PhantomJS实用参数

Splash(抓取动态网页,推荐)


Python爬虫:splash的安装与简单示例

Python爬虫:splash+requests简单示例

Python爬虫:scrapy利用splash爬取动态网页

总结:

对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests能满足大部分测试+抓取需求,进阶工程化scrapy,动态网页优先找API接口,如果有简单加密就破解,实在困难就使用splash渲染


二、页面解析器

BeautifulSoup(入门级)


Python爬虫入门BeautifulSoup模块

pyquery (类似jQuery)


Python爬虫:pyquery模块解析网页

lxml


Python爬虫:使用lxml解析网页内容

parsel


Extract text using CSS or XPath selectors

scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)


选择器(Selectors)

python爬虫:scrapy框架xpath和css选择器语法

总结:

其实解析器学习一个就够了,其他都不用学,很多培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector 就行,简单、直接、高效


三、数据存储

txt文本

Python全栈之路:文件file常用操作

csv文件

python读取写入csv文件

sqlite3 (python自带)

Python编程:使用数据库sqlite3

MySQL

SQL:pymysql模块读写mysql数据

MongoDB

Python编程:mongodb的基本增删改查操作

总结:

数据存储没有什么可深究的,按照业务需求来就行,一般快速测试使用MongoDB,业务使用MySQL


四、其他工具

execjs :执行js

Python爬虫:execjs在python中运行javascript代码


pyv8: 执行js

mac安装pyv8模块-JavaScript翻译成python


html5lib

1. Python爬虫:scrapy利用html5lib解析不规范的html文本


五、关于xpath练习

本人的一个开源项目:PageParser

https://github.com/mouday/PageParser

用于解析网页,最终实现6行代码写爬虫,可以贡献代码,顺便练习网页解析的能力

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
4月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
5月前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
5月前
|
存储 缓存 测试技术
理解Python装饰器:简化代码的强大工具
理解Python装饰器:简化代码的强大工具
|
6月前
|
程序员 测试技术 开发者
Python装饰器:简化代码的强大工具
Python装饰器:简化代码的强大工具
254 92
|
4月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
5月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
861 19
|
4月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
5月前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
415 3
|
4月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
5月前
|
数据采集 存储 Web App开发
处理Cookie和Session:让Python爬虫保持连贯的"身份"
处理Cookie和Session:让Python爬虫保持连贯的"身份"

推荐镜像

更多