数据采集学习路线

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 【1月更文挑战第1篇】

数据采集篇
第1章 数据采集的发展历程
1.1 数据的发展史
1.1.1 数据的由来
1.1.2 数据的体量变化
1.1.3 数据的种类

1.2 数据采集的发展
1.2.1 数据采集-爬虫的概述
1.2.2 数据采集的作用
1.2.3 数据采集的方式
1.2.4 数据采集的分类
1.2.5 数据采集的工具
1.2.6 数据采集相关的环境和库
1.2.7 数据采集的流程原理

第2章 数据采集之HTTP
2.1 HTTP和HTTPS协议
2.1.1 HTTP协议
2.1.2 HTTPS协议

2.2 请求报文详解
2.2.1 请求报文的格式
2.2.2 请求报文常见请求头
2.2.3 Cookie的作用

2.3 请求报文详解
2.3.1 请求报文的格式
2.3.2 请求报文常见请求头
2.4 响应报文详解
2.4.1 响应报文的格式
2.4.2 响应报文常见响应头

2.5 响应状态码
2.5.1 响应状态码的作用
2.5.2 常见的响应状态码

第3章 Python自带的urllib
3.1 urllib
3.1.1 urllib的作用
3.1.2 urllib的基本使用
3.1.3 urllib的高阶爬取

3.2 urllib2
3.2.1 urllib2的使用

3.3 urllib3
3.3.1 urllib3的使用

第4章Reuqests库
4.1 Requests模块概述
4.1.1Requests模块介绍
4.1.2Requests模块的作用
4.2 Reuqests模块基本使用
4.2.1 Requests模块安装
4.2.2 Requests模块发送GET请求
4.2.3 Response响应对象解析
4.3 Get函数的参数使用
4.3.1携带headers
4.3.2反爬首项User-Agent
4.3.3 Cookies解析
4.3.4 CookieJar的使用
4.3.5 TimeOut超时参数
4.6 代理IP和忽略证书
4.6.1 代理机制介绍
4.6.2 代理IP种类
4.6.3 代理proxies使用
4.6.4 忽略CA证书
4.7 Requests模块发送post请求
4.7.1 分析案例参数
4.7.2 案例实现post请求
4.8 Requests模块Session使用
4.8.1分析Github案例
4.8.2解析相关参数
4.8.3使用session模拟登录  

第5章 数据清洗

5.1 清洗概述
5.1.1 结构化和非结构化数据
5.1.2 数据清洗的方法介绍

5.2 JSON数据清洗
5.2.1 Json解析json数据
5.3 正则 数据清洗
5.3.1 正则表达式概述
5.3.2 re模块的基本使用
5.3.3 正则清洗爬取的数据
5.4 HTML和XML 数据清洗
5.4.1了解lxml和xpath
5.4.2Xpath插件安装
5.4.3Xpath基本语法
5.4.4 Lxml模块的使用

第6章 动态数据采集
6.1 Selenium概述
6.1.1 Selenium的作用
6.1.2 Selenium的使用流程
6.1.3 Selenium的爬取原理

6.2 Selenium的下载和安装
6.2.1 Driver安装
6.2.2 Driver的加载
6.2.3 Selenium-python库安装
6.3 Selenium的简单使用
6.3.1 Selenium发送请求
6.3.2 Selenium解析响应Selenium
6.3.3 Selenium解析标签
6.3.4 Selenium退出
6.4 Driver对象的常用属性
6.4.1 Page_source属性
6.4.2 Current_url属性
6.4.3 Screen_shot截取屏幕

6.5 Driver对象定位标签
6.5.1 By 方法定位
6.5.2 提取文本内容和属性
6.6 斗鱼案例
6.6.1斗鱼首页直播间分析
6.6.2 斗鱼直播间xpath解析
6.6.3 斗鱼直播间Selenium爬取

第7章 反爬和反反爬方案
7.1常见反爬和反反爬策略
7.1.1 常见反爬
7.1.2 非常规反爬
7.2打码平台介绍
7.2.1云打码
7.2.2 极验验证码
7.3打码平台的使用
7.3.1打码平台注册-配置
7.3.2打码平台的调用和封装
7.4 JS逆向
7.4.1 JS代码定位
7.4.2 JS代码解析
7.4.3 JS代码模拟实现

第8章 Scrapy爬虫框架
8.1Scrapy的概念
8.1.1 Scrapy的作用
8.1.2 Scrapy的优缺点
8.2 Scrapy的架构

  1. 8.2.1 scrapy的架构组成
    8.3 Scrapy项目实现流程
    8.3.1创建项目
    8.3.2生成爬虫
    8.3.3 提取数据
    8.3.4 保存数据pipeline
    8.3.5 运行scrapy爬虫

8.4 解析数据额和响应对象
8.4.1 Response.xpath解析数据
8.4.2 Extract() 抽取数据
8.4.3 Pipeline中process_item
8.4.4 Response属性获取
8.5 Scrapy构造请求对象
8.5.1 Scrapy的Request的使用
8.5.2 Scrapy的Meta使用
8.5.3 Scrapy的Iitem的使用
8.6 Scrapy模拟登录
8.6.1 重构start_requests方法
8.6.2 Scrapy携带Cookie
8.6.3 Scrapy构建POST方法
8.7 Scrapy管道的使用
8.7.1 Pipeline常用方法
8.7.2 管道文件修改
8.7.3 开启管道Pipeline
8.8 MiddleWare中间件基本使用
8.8,1 Middleware的使用场景
8.8.2 MiddleWare添加User-Agent
8.8.3 MiddleWare添加Proxy
8.9 自定义MiddleWare中间件
8.9.1 使用Selenium自定义中间件
8.10 Scrapy日志
8.10.1 查看运行日志信息
8.11 Scrapy常用配置
8.11.1设置常用配置

第9章分布式爬取
9.1 分布式和集群
9.1.1 什么是分布式
9.1.2 什么是集群
9.2 Scrapy_Redis作用
9.2.1分布式爬取
9.2.2断点续爬
9.3 Scrapy_Redis的工作流程
9.3.1 Scrapy_Redis 架构组成
9.3.3 Scrapy_Redis的调度流程

9.4 DMOZ案例准备
9.4.1 Github下载DMOZ案例源码
9.4.2 观察DMOZ案例实现
9.5 DMOZ案例执行
9.5.1 Spider版dmoz执行
9.5.2 CrawlSpider版dmoz执行
9.5.3 分布式版dmoz执行

第10章 爬虫部署
10.1 scrapyd部署
10.1.1 scrpayd的安装
10.1.2 scrpayd 的部署

相关文章
|
5月前
|
数据采集 存储 开发者
Python爬虫实战:打造高效数据采集工具
本文将介绍如何利用Python编写一个高效的网络爬虫,实现对特定网站数据的快速抓取与处理,帮助开发者更好地应对大规模数据采集的需求。
|
5月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python技术应用:数据分析与可视化的利器
【2月更文挑战第7天】在当今信息爆炸的时代,数据分析和可视化已经成为各行业的核心竞争力。Python作为一种简洁、高效的编程语言,为数据分析带来了全新的可能性。本文将介绍Python在数据分析和可视化领域的应用,探讨其在实际工作中的重要性和价值。
56 2
|
5月前
|
搜索推荐 小程序 数据挖掘
数据分析思维导图
数据分析思维导图
数据分析思维导图
|
5月前
|
SQL 算法 数据可视化
萝卜爆肝数据分析自学学习路线
萝卜爆肝数据分析自学学习路线
|
Cloud Native OLAP BI
《实时数仓技术入门一本通》电子版下载
本书通过详细的图文介绍,指导读者搞定融合实时数仓&报表、数据仓库、传统OLAP迁移等10+个实战场景,助力实现服务和分析一体化实时数仓。
83 0
《实时数仓技术入门一本通》电子版下载
|
Cloud Native OLAP BI
《实时数仓技术入门一本通》电子版
本书通过详细的图文介绍,指导读者搞定融合实时数仓&报表、数据仓库、传统OLAP迁移等10+个实战场景,助力实现服务和分析一体化实时数仓。
166 0
《实时数仓技术入门一本通》电子版
|
数据挖掘 数据处理
动手学习数据分析(二)——数据处理
该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强 考虑填充新的值,比如-1 填充众数、平均数(需要取整),knn邻近(速度慢)
94 0
动手学习数据分析(二)——数据处理
|
数据可视化 数据挖掘
动手学习数据分析(四)——数据可视化
动手学习数据分析(四)——数据可视化
125 0
动手学习数据分析(四)——数据可视化
|
SQL 存储 数据采集
《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱
《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱
824 0
《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱
|
SQL 机器学习/深度学习 数据可视化
一套为你【量身定制】的数据分析学习路线
博主根据自己的真实学习经历列出了一个学习计划,拟定在星球中按照以下这个计划进行一步步的分享和讲解。
一套为你【量身定制】的数据分析学习路线
下一篇
无影云桌面