从零开始学爬虫2——爬虫基础

简介: 爬虫理论基础

本文为学习笔记,原教程:https://www.bilibili.com/video/BV1Db4y1m7Ho/?spm_id_from=333.999.0.0&vd_source=4cfa97d709226c94ec1c02fc78b760ec

1 什么是互联网爬虫

使用程序模拟浏览器,去向服务器发送请求,获取相应信息

2 爬虫核心

  1. 爬取网页:爬取整个网页,包含了网页中所有的内容
  2. 解析数据:将网页中得到的数据进行解析
  3. 难点:爬虫和反爬虫之间的博弈

3 爬虫用途

  • 数据分析/人工数据集
  • 社交软件冷启动
  • 舆情监控
  • 竞争对手监控

4 爬虫分类

  1. 通用爬虫:

    • 实例:百度、360、google、sougou等搜索引擎‐‐‐伯乐在线
    • 功能:访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务
    • robots协议:一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用,自己写的爬虫无需遵守
    • 网站排名(SEO)

      1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)
      2. 百度竞价排名
    • 缺点

      1. 抓取的数据大多是无用的
      2. 不能根据用户的需求来精准获取数据
  2. 聚焦爬虫

    • 功能:根据需求,实现爬虫程序,抓取需要的数据
    • 设计思路

      1. 确定要爬取的url:如何获取Url
      2. 模拟浏览器通过http协议访问url,获取服务器返回的html代码:如何访问
      3. 解析html字符串(根据一定规则提取需要的数据):如何解析

5 反爬手段

  1. User‐Agent(UA校验):

    User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

  2. 代理IP

    西次代理

    快代理

    什么是高匿名、匿名和透明代理?它们有什么区别?

    • 使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。
    • 使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。
    • 使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。
  3. 验证码访问

    打码平台:云打码平台、超级🦅

  4. 动态加载网页 网站返回的是js数据 并不是网页的真实数据

    selenium驱动真实的浏览器发送请求

  5. 数据加密:分析js代码
目录
相关文章
|
编解码 自然语言处理 算法
开源版图生视频I2VGen-XL:单张图片生成高质量视频
VGen是由阿里巴巴通义实验室开发的开源视频生成模型和代码系列,具备非常先进和完善的视频生成系列能力
|
Java
java8中List对象转另一个List对象
java8中List对象转另一个List对象
706 0
|
9月前
|
传感器 存储 人工智能
一文彻底搞清楚数字电路
数字电路是处理离散二进制信号(0和1)的电子电路,由逻辑门(如与门、或门等)组成,实现各种逻辑运算。它在计算机、通信、自动控制和数字信号处理等领域广泛应用。例如,CPU通过数字电路执行算术和逻辑运算,PLC用于工业自动化控制,数字滤波器则用于信号处理。数字电路以高电平(如5V)表示1,低电平(如0V)表示0,简化了信号处理并提高了系统的可靠性和抗干扰能力。
1283 0
一文彻底搞清楚数字电路
|
IDE 调度 开发工具
鸿蒙Flutter实战:08-如何调试代码
本文介绍了鸿蒙Flutter项目的开发环境搭建、配置、日志查看及调试方法。首先按照指南搭建开发环境,安装IDE插件;接着配置vscode的launch.json文件;通过IDE调试控制台或命令行查看日志;提供两种调试Flutter的方式,包括IDE直接运行和使用DevEco;最后介绍ArkTs和Webview的调试方法。
517 0
|
应用服务中间件 nginx
Nginx反向代理其他服务
Nginx反向代理其他服务
|
网络安全 数据安全/隐私保护 网络架构
|
人工智能 安全 Anolis
专访英特尔:开源与 AI 迅猛发展,龙蜥社区提供高效合作平台
龙蜥社区为开源技术、AI 技术提供了一个非常好的高效合作的平台。
|
网络安全 开发工具 git
[github全教程]github版本控制最全教学------- 大厂找工作面试必备!
[github全教程]github版本控制最全教学------- 大厂找工作面试必备!
181 0
|
Cloud Native
《ACE 区域技术发展峰会:云原生应用 DevSecOps 实践》电子版地址
ACE 区域技术发展峰会:云原生应用 DevSecOps 实践
150 0
《ACE 区域技术发展峰会:云原生应用 DevSecOps 实践》电子版地址
|
双11 开发者
有奖反馈 | 支付宝使用demo在线调试,小白也能轻松接入当面付
刚到公司一段时间就赶上双十一,大促在即,当面付的功能开发不知道怎么搞,奈何功能包接口太多,组合效果啥样子不清楚!能不能满足老板的“想象”还不知道!商家资质也没申请下来,环境搭建又很繁琐,文档写的还和教科书一样复杂,啊啊啊~有个demo可以让我先试试,学习一把就好了。开箱即用的当面付在线调试Demo玩起来,效果一目了然,这次我们还提供了大礼相送,学+实践+好礼,能力这趴不再是问题!
2414 0
有奖反馈 | 支付宝使用demo在线调试,小白也能轻松接入当面付