Python爬虫：网络信息爬取与处理知识梳理-阿里云开发者社区

Python爬虫：网络信息爬取与处理知识梳理

2022-09-02 238

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：网络信息爬取与处理知识梳理

HTTP协议

应用层协议

无状态：每次连接，传输都是独立的

无连接：每次连接只处理一个请求

HTTP请求

GET：没有request body

POST: 有request body

HTTP状态码

2xx：成功

3xx：跳转

4xx: 客户端错误 403 Forbidden 没有登录，或ip被封

5xx：服务端错误

python urllib2会自动302跳转

爬取策略

种子站点

深度优先

广度优先

去重策略

1、数据库unique字段存访问过的url 效率太低

2、hashset存访问过的url O(1) 消耗内存

3、md5计算访问过的url后保存到hashset或数据库碰撞概率较小

4、bit-map，访问过的url的md5值再经过哈希函数映射到bitset某一位碰撞概率较大

5、bloom filter 使用多个哈希函数，创建一个m位的bitset,先初始化所有位为0，然后选择k个不同的哈希函数，第i个哈希函数对字符串str哈希的结果记为h(i, str),且h(i, str)的范围是0 - m-1

评估网页数量

百度：site:www.mafengwo.cn

google：site:www.mafengwo.cn/travel-scenic-spot

pip install murmurhash3 bitarray pybloomfilter

安装以下两个组件之后依然安装失败

visualcppbuildtools_full.exe

vc_redist.x64.exe

http://www.mafengwo.cn/robots.txt

Sitemap

top-down

pip install lxml

爬取工具

多线程：线程来回切换造成额外开销

多进程多ip，可以提高效率

数据库具有读写保护

分布式数据库 mongodb， redis， hbase

分布式爬虫

分布式系统 master - slave 主从模式

PageRank

数量：指向A页面的链接越多,A越重要

质量：指向A页面的页面质量越高,A越重要

有向图

A -> B -> c -> D

B -> A -> D

C -> A

D -> B -> C

A的PR值：

PR(A) = PR(B) + PR(c)

按照概率：

PR(A) = PR(B)/2 + PR(c)/1

网站如何发现爬虫

1、单一IP非常规的访问频次

2、单一IP非常规的数据流量

3、大量重复简单的网站浏览行为

4、只下载网页，没有后续的js，css请求

5、通过一些陷阱来发现爬虫，例如：一些通过css对用户隐藏的链接，只用爬虫才会访问

反爬：

1、User-Agent

2、基于流量的拒绝：开启带宽限制模块，设置访问最大带宽，每个IP最多3个链接，最大1M/s

3、基于Ip连接的拒绝

可能被发现网站发现

301, 4xx， 500

反爬应对措施

1、动态切换IP，代理服务器路由器断线重连

2、多主机策略

3、爬慢点，不要攻击主机，找到访问频次的临界点

4、把爬虫放到访问频繁的主站IP的子网下，例如教育网

5、频繁改变自己User-Agent

6、探测陷阱，比如nofollow， display:none

7、如果使用规则进行批量爬取，需要对规则进行组合

8、如果可能按照robots.txt文明爬取

动态网页

PhantomJS + selenium

browser.set_window_size(1280, 2400)

browser.close()

browser.quit()

ignore-image = True 不加载图片，加快速度

URL：

完整路径: http://www.baidu.com

绝对路径: //www.baidu.com

相对路径: /tieba

杀掉所有PhantomJS进程

subprocess.call(“pgrep phantomjs | xargs kill”)

重复网页

完全重复

内容重复

布局重复

部分重复

查重算法：文本相似度

特征提取：分词加权成向量

高维空间夹角越小相似度越高

v1 * v2 = |v1||v2|cosa

海明距离simhash：两个二进制串中不同位的数量

pip install simhash

验证码识别

pillow

pytesseract

正文提取

1、标签模板

2、 pygoose https://github.com/grangier/python-goose (py2)

文本分类

结巴分词jieba

tf-idf

pip install sklearn scipy numpy

搜索

elasticsearch

Python爬虫：网络信息爬取与处理知识梳理

HTTP协议

HTTP请求

HTTP状态码

去重策略

评估网页数量

爬取工具

PageRank

反爬：

动态网页

正文提取

文本分类

搜索

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python爬虫：网络信息爬取与处理知识梳理

HTTP协议

HTTP请求

HTTP状态码

去重策略

评估网页数量

爬取工具

PageRank

反爬：

动态网页

正文提取

文本分类

搜索

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像