爬虫基础简介
什么是爬虫:
--- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
爬虫的价值:
---实际应用
---就业
爬虫究竟是合法还是违法的?
---在法律中是不被禁止的
---具有违法风险
---善意爬虫 恶意爬虫
爬虫带来的风险可以体现在如下两个方面:
---爬虫干扰了被访问网站的正常运营
---爬虫抓取了收到法律保护的特定类型的数据或信息
如何在使用编写爬虫的过程中避免进入局子的厄运呢?
---时常优化自己的程序,避免感染被访问网站的正常运行
---在使用,传播爬取到的数据时间,审查抓取到的内容,如果发现了涉及到用户隐私,商业机密等敏感内容需要及时停止爬取或传播
爬虫在使用场景中的分类
一 通用爬虫:
抓取系统重要的组成部分,抓取的是一整张页面的数据
一 聚焦爬虫
是建立在通用爬虫的基础之上抓取的是页面中特定的局部内容
一 增量式爬虫
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。
爬虫的矛与盾
反爬机制
门户网站,可以通过制定相应的策略或者技术手段,阻止爬虫程序进行网站数据的爬取
反反爬策略
爬虫程序可以通过制定相应的策略或者技术手段,破解门户网站中具备的反爬机制 ,从而获取门户网站数据
robots.txt协议:
君子协议。规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取。
网站地址+robots.txt 例如:https://www.bilibili.com/robots.txt
http协议
一 概念:就是服务器和客户端进行数据交互的一种形式
常用请求头信息:
一 User-Agent :请求载体的身份标识
例如:user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36
一 Connection:请求完毕后,式断开连接还说保持连接
常用响应头信息:
一 Content-Type:服务器响应回客户端的数据类型
https协议:
一 安全的超文本传输(http)协议
加密方式:
一 对称密钥加密
一 非对称密钥加密
一 证书密钥加密