Python爬虫:常用的爬虫工具汇总

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: Python爬虫:常用的爬虫工具汇总

按照网络爬虫的的思路:

image.png

一、页面下载器

requests(必学)


python爬虫入门requests模块

Python爬虫:requests库基本使用

Python爬虫:使用requests库下载大文件

Python爬虫:requests多进程爬取猫眼电影榜单

requests InsecureRequestWarning: Unverified HTTPS request is being made.

scrapy


Python网络爬虫之scrapy框架

scrapy学习

Python爬虫:关于scrapy模块的请求头

Python爬虫:scrapy框架请求参数meta、headers、cookies一探究竟

Python爬虫:scrapy辅助功能实用函数

selenium+chrome + PhantomJS(抓取动态网页,不推荐)


mac下安装selenium+phantomjs+chromedriver

Python爬虫:selenium模块基本使用

Python爬虫selenium模块

Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页

Python爬虫:利用selenium爬取淘宝商品信息

Python爬虫:selenium使用chrome和PhantomJS实用参数

Splash(抓取动态网页,推荐)


Python爬虫:splash的安装与简单示例

Python爬虫:splash+requests简单示例

Python爬虫:scrapy利用splash爬取动态网页

总结:

对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests能满足大部分测试+抓取需求,进阶工程化scrapy,动态网页优先找API接口,如果有简单加密就破解,实在困难就使用splash渲染


二、页面解析器

BeautifulSoup(入门级)


Python爬虫入门BeautifulSoup模块

pyquery (类似jQuery)


Python爬虫:pyquery模块解析网页

lxml


Python爬虫:使用lxml解析网页内容

parsel


Extract text using CSS or XPath selectors

scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)


选择器(Selectors)

python爬虫:scrapy框架xpath和css选择器语法

总结:

其实解析器学习一个就够了,其他都不用学,很多培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector 就行,简单、直接、高效


三、数据存储

txt文本

Python全栈之路:文件file常用操作

csv文件

python读取写入csv文件

sqlite3 (python自带)

Python编程:使用数据库sqlite3

MySQL

SQL:pymysql模块读写mysql数据

MongoDB

Python编程:mongodb的基本增删改查操作

总结:

数据存储没有什么可深究的,按照业务需求来就行,一般快速测试使用MongoDB,业务使用MySQL


四、其他工具

execjs :执行js

Python爬虫:execjs在python中运行javascript代码


pyv8: 执行js

mac安装pyv8模块-JavaScript翻译成python


html5lib

1. Python爬虫:scrapy利用html5lib解析不规范的html文本


五、关于xpath练习

本人的一个开源项目:PageParser

https://github.com/mouday/PageParser

用于解析网页,最终实现6行代码写爬虫,可以贡献代码,顺便练习网页解析的能力

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
2月前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
9天前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
66 18
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
5天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
4天前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
23 3
|
15天前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
16天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
25天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
30天前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
1月前
|
数据可视化 编译器 Python
Manim:数学可视化的强大工具 | python小知识
Manim(Manim Community Edition)是由3Blue1Brown的Grant Sanderson开发的数学动画引擎,专为数学和科学可视化设计。它结合了Python的灵活性与LaTeX的精确性,支持多领域的内容展示,能生成清晰、精确的数学动画,广泛应用于教育视频制作。安装简单,入门容易,适合教育工作者和编程爱好者使用。
318 7