数据采集学习路线

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 【1月更文挑战第1篇】

数据采集篇
第1章 数据采集的发展历程
1.1 数据的发展史
1.1.1 数据的由来
1.1.2 数据的体量变化
1.1.3 数据的种类

1.2 数据采集的发展
1.2.1 数据采集-爬虫的概述
1.2.2 数据采集的作用
1.2.3 数据采集的方式
1.2.4 数据采集的分类
1.2.5 数据采集的工具
1.2.6 数据采集相关的环境和库
1.2.7 数据采集的流程原理

第2章 数据采集之HTTP
2.1 HTTP和HTTPS协议
2.1.1 HTTP协议
2.1.2 HTTPS协议

2.2 请求报文详解
2.2.1 请求报文的格式
2.2.2 请求报文常见请求头
2.2.3 Cookie的作用

2.3 请求报文详解
2.3.1 请求报文的格式
2.3.2 请求报文常见请求头
2.4 响应报文详解
2.4.1 响应报文的格式
2.4.2 响应报文常见响应头

2.5 响应状态码
2.5.1 响应状态码的作用
2.5.2 常见的响应状态码

第3章 Python自带的urllib
3.1 urllib
3.1.1 urllib的作用
3.1.2 urllib的基本使用
3.1.3 urllib的高阶爬取

3.2 urllib2
3.2.1 urllib2的使用

3.3 urllib3
3.3.1 urllib3的使用

第4章Reuqests库
4.1 Requests模块概述
4.1.1Requests模块介绍
4.1.2Requests模块的作用
4.2 Reuqests模块基本使用
4.2.1 Requests模块安装
4.2.2 Requests模块发送GET请求
4.2.3 Response响应对象解析
4.3 Get函数的参数使用
4.3.1携带headers
4.3.2反爬首项User-Agent
4.3.3 Cookies解析
4.3.4 CookieJar的使用
4.3.5 TimeOut超时参数
4.6 代理IP和忽略证书
4.6.1 代理机制介绍
4.6.2 代理IP种类
4.6.3 代理proxies使用
4.6.4 忽略CA证书
4.7 Requests模块发送post请求
4.7.1 分析案例参数
4.7.2 案例实现post请求
4.8 Requests模块Session使用
4.8.1分析Github案例
4.8.2解析相关参数
4.8.3使用session模拟登录  

第5章 数据清洗

5.1 清洗概述
5.1.1 结构化和非结构化数据
5.1.2 数据清洗的方法介绍

5.2 JSON数据清洗
5.2.1 Json解析json数据
5.3 正则 数据清洗
5.3.1 正则表达式概述
5.3.2 re模块的基本使用
5.3.3 正则清洗爬取的数据
5.4 HTML和XML 数据清洗
5.4.1了解lxml和xpath
5.4.2Xpath插件安装
5.4.3Xpath基本语法
5.4.4 Lxml模块的使用

第6章 动态数据采集
6.1 Selenium概述
6.1.1 Selenium的作用
6.1.2 Selenium的使用流程
6.1.3 Selenium的爬取原理

6.2 Selenium的下载和安装
6.2.1 Driver安装
6.2.2 Driver的加载
6.2.3 Selenium-python库安装
6.3 Selenium的简单使用
6.3.1 Selenium发送请求
6.3.2 Selenium解析响应Selenium
6.3.3 Selenium解析标签
6.3.4 Selenium退出
6.4 Driver对象的常用属性
6.4.1 Page_source属性
6.4.2 Current_url属性
6.4.3 Screen_shot截取屏幕

6.5 Driver对象定位标签
6.5.1 By 方法定位
6.5.2 提取文本内容和属性
6.6 斗鱼案例
6.6.1斗鱼首页直播间分析
6.6.2 斗鱼直播间xpath解析
6.6.3 斗鱼直播间Selenium爬取

第7章 反爬和反反爬方案
7.1常见反爬和反反爬策略
7.1.1 常见反爬
7.1.2 非常规反爬
7.2打码平台介绍
7.2.1云打码
7.2.2 极验验证码
7.3打码平台的使用
7.3.1打码平台注册-配置
7.3.2打码平台的调用和封装
7.4 JS逆向
7.4.1 JS代码定位
7.4.2 JS代码解析
7.4.3 JS代码模拟实现

第8章 Scrapy爬虫框架
8.1Scrapy的概念
8.1.1 Scrapy的作用
8.1.2 Scrapy的优缺点
8.2 Scrapy的架构

  1. 8.2.1 scrapy的架构组成
    8.3 Scrapy项目实现流程
    8.3.1创建项目
    8.3.2生成爬虫
    8.3.3 提取数据
    8.3.4 保存数据pipeline
    8.3.5 运行scrapy爬虫

8.4 解析数据额和响应对象
8.4.1 Response.xpath解析数据
8.4.2 Extract() 抽取数据
8.4.3 Pipeline中process_item
8.4.4 Response属性获取
8.5 Scrapy构造请求对象
8.5.1 Scrapy的Request的使用
8.5.2 Scrapy的Meta使用
8.5.3 Scrapy的Iitem的使用
8.6 Scrapy模拟登录
8.6.1 重构start_requests方法
8.6.2 Scrapy携带Cookie
8.6.3 Scrapy构建POST方法
8.7 Scrapy管道的使用
8.7.1 Pipeline常用方法
8.7.2 管道文件修改
8.7.3 开启管道Pipeline
8.8 MiddleWare中间件基本使用
8.8,1 Middleware的使用场景
8.8.2 MiddleWare添加User-Agent
8.8.3 MiddleWare添加Proxy
8.9 自定义MiddleWare中间件
8.9.1 使用Selenium自定义中间件
8.10 Scrapy日志
8.10.1 查看运行日志信息
8.11 Scrapy常用配置
8.11.1设置常用配置

第9章分布式爬取
9.1 分布式和集群
9.1.1 什么是分布式
9.1.2 什么是集群
9.2 Scrapy_Redis作用
9.2.1分布式爬取
9.2.2断点续爬
9.3 Scrapy_Redis的工作流程
9.3.1 Scrapy_Redis 架构组成
9.3.3 Scrapy_Redis的调度流程

9.4 DMOZ案例准备
9.4.1 Github下载DMOZ案例源码
9.4.2 观察DMOZ案例实现
9.5 DMOZ案例执行
9.5.1 Spider版dmoz执行
9.5.2 CrawlSpider版dmoz执行
9.5.3 分布式版dmoz执行

第10章 爬虫部署
10.1 scrapyd部署
10.1.1 scrpayd的安装
10.1.2 scrpayd 的部署

相关文章
|
设计模式 前端开发 C#
使用 Prism 框架实现导航.NET 6.0 + WPF
使用 Prism 框架实现导航.NET 6.0 + WPF
413 10
|
传感器 监控 物联网
新技术趋势与应用在科技日新月异的今天,新兴技术如物联网、虚拟现实等正以前所未有的速度改变着我们的生活。本文将深入探讨这些技术的发展趋势和应用场景,揭示它们如何塑造未来。
本文聚焦于物联网和虚拟现实等新兴技术的发展动态及其广泛应用。通过分析当前技术进展、实际应用案例以及未来发展的可能性,本文揭示了这些技术如何深刻影响各行各业,并对未来的趋势进行了展望。
|
监控 NoSQL 大数据
【MongoDB复制集瓶颈】高频大数据写入引发的灾难,如何破局?
【8月更文挑战第24天】在MongoDB复制集中,主节点处理所有写请求,从节点通过复制保持数据一致性。但在大量高频数据插入场景中,会出现数据延迟增加、系统资源过度消耗、复制队列积压及从节点性能不足等问题,影响集群性能与稳定性。本文分析这些问题,并提出包括优化写入操作、调整写入关注级别、采用分片技术、提升从节点性能以及持续监控调优在内的解决方案,以确保MongoDB复制集高效稳定运行。
423 2
|
Kubernetes 关系型数据库 分布式数据库
【PolarDB开源】PolarDB与Kubernetes集成:容器化部署的最佳实践
【5月更文挑战第21天】本文介绍了将阿里云的高性能数据库PolarDB与容器编排工具Kubernetes集成的步骤。首先,需准备Kubernetes集群和PolarDB Docker镜像,安装Helm。然后,通过Helm部署PolarDB,设置存储类和副本数。接着,应用配置PolarDB连接信息,打包成Docker镜像并在K8s集群中部署。此外,调整PolarDB参数以优化性能,并使用Prometheus和Grafana监控。本文为PolarDB在Kubernetes中的最佳实践提供了指导。
433 4
|
缓存 边缘计算 负载均衡
如何理解CDN?说说实现原理?
CDN(内容分发网络)是提升网络访问速度的关键技术,通过在全球或全国范围内设立边缘服务器,将内容缓存到靠近用户的地方。当用户访问网站时,DNS返回CNAME,引导用户连接到最近的CDN节点,而非直接到源站。CDN的负载均衡系统依据用户位置、运营商、节点负载等因素选择最佳边缘节点提供服务,而缓存系统则存储常用资源以提高命中率,减少回源请求。高命中率使得CDN能显著提高网站性能,降低网络拥塞。
3899 0
|
运维 监控 负载均衡
在Linux中,有三百台服务器,如何进行管理?
在Linux中,有三百台服务器,如何进行管理?
|
存储 固态存储 安全
服务器硬件基础知识
服务器硬件基础知识
1058 1
Anaconda 与 Jupyter notebook
Anaconda 与 Jupyter notebook
|
存储 数据采集 负载均衡
建立HTTP代理IP池的技术和工具支持
建立HTTP代理IP池的技术和工具支持
380 0
下一篇
开通oss服务