Python爬虫:常用的爬虫工具汇总

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: Python爬虫:常用的爬虫工具汇总

按照网络爬虫的的思路:

image.png

一、页面下载器

requests(必学)


python爬虫入门requests模块

Python爬虫:requests库基本使用

Python爬虫:使用requests库下载大文件

Python爬虫:requests多进程爬取猫眼电影榜单

requests InsecureRequestWarning: Unverified HTTPS request is being made.

scrapy


Python网络爬虫之scrapy框架

scrapy学习

Python爬虫:关于scrapy模块的请求头

Python爬虫:scrapy框架请求参数meta、headers、cookies一探究竟

Python爬虫:scrapy辅助功能实用函数

selenium+chrome + PhantomJS(抓取动态网页,不推荐)


mac下安装selenium+phantomjs+chromedriver

Python爬虫:selenium模块基本使用

Python爬虫selenium模块

Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页

Python爬虫:利用selenium爬取淘宝商品信息

Python爬虫:selenium使用chrome和PhantomJS实用参数

Splash(抓取动态网页,推荐)


Python爬虫:splash的安装与简单示例

Python爬虫:splash+requests简单示例

Python爬虫:scrapy利用splash爬取动态网页

总结:

对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests能满足大部分测试+抓取需求,进阶工程化scrapy,动态网页优先找API接口,如果有简单加密就破解,实在困难就使用splash渲染


二、页面解析器

BeautifulSoup(入门级)


Python爬虫入门BeautifulSoup模块

pyquery (类似jQuery)


Python爬虫:pyquery模块解析网页

lxml


Python爬虫:使用lxml解析网页内容

parsel


Extract text using CSS or XPath selectors

scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)


选择器(Selectors)

python爬虫:scrapy框架xpath和css选择器语法

总结:

其实解析器学习一个就够了,其他都不用学,很多培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector 就行,简单、直接、高效


三、数据存储

txt文本

Python全栈之路:文件file常用操作

csv文件

python读取写入csv文件

sqlite3 (python自带)

Python编程:使用数据库sqlite3

MySQL

SQL:pymysql模块读写mysql数据

MongoDB

Python编程:mongodb的基本增删改查操作

总结:

数据存储没有什么可深究的,按照业务需求来就行,一般快速测试使用MongoDB,业务使用MySQL


四、其他工具

execjs :执行js

Python爬虫:execjs在python中运行javascript代码


pyv8: 执行js

mac安装pyv8模块-JavaScript翻译成python


html5lib

1. Python爬虫:scrapy利用html5lib解析不规范的html文本


五、关于xpath练习

本人的一个开源项目:PageParser

https://github.com/mouday/PageParser

用于解析网页,最终实现6行代码写爬虫,可以贡献代码,顺便练习网页解析的能力

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
7天前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
29天前
|
存储 缓存 测试技术
理解Python装饰器:简化代码的强大工具
理解Python装饰器:简化代码的强大工具
|
2月前
|
数据采集 数据挖掘 测试技术
Go与Python爬虫实战对比:从开发效率到性能瓶颈的深度解析
本文对比了Python与Go在爬虫开发中的特点。Python凭借Scrapy等框架在开发效率和易用性上占优,适合快速开发与中小型项目;而Go凭借高并发和高性能优势,适用于大规模、长期运行的爬虫服务。文章通过代码示例和性能测试,分析了两者在并发能力、错误处理、部署维护等方面的差异,并探讨了未来融合发展的趋势。
168 0
|
2月前
|
程序员 测试技术 开发者
Python装饰器:简化代码的强大工具
Python装饰器:简化代码的强大工具
165 92
|
17天前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
108 3
|
19天前
|
数据采集 Web App开发 前端开发
处理动态Token:Python爬虫应对AJAX授权请求的策略
处理动态Token:Python爬虫应对AJAX授权请求的策略
|
19天前
|
数据采集 网络协议 API
协程+连接池:高并发Python爬虫的底层优化逻辑
协程+连接池:高并发Python爬虫的底层优化逻辑
|
2月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
444 1
|
2月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
27天前
|
算法 安全 数据安全/隐私保护
Python随机数函数全解析:5个核心工具的实战指南
Python的random模块不仅包含基础的随机数生成函数,还提供了如randint()、choice()、shuffle()和sample()等实用工具,适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践,帮助开发者高效利用随机数,提升代码质量与安全性。
134 0

推荐镜像

更多