网络爬虫与 http+ssl(1)

简介: 网络爬虫与 http+ssl基本知识概述

端口
查看 IP 的方式:打开命令行输入 cmd,然后在端口中输入 ipconfig,可以看到 IP 地址

端口号 mysql 3306 mongodb 27017 nosql,端口号为独立标识

通讯协议

TCP 通信协议/IP 协议/Robot 协议(规定爬虫不能爬取这个协议的文件)在 srapy 框架

超文本传输协议,端口 80(HTTP 协议)设置—网络—属性—看到已安装的协议,可以在这里添加新的协议

osm 模型

⽬标 Objective;策略 Strategy;衡量指标 Measurement

OSM 模型,就是把宏⼤的⽬标拆解,对应到部门内各个⼩组具体的、可落地、可度量的⾏为上,从保证执⾏计划没有偏离⼤⽅向。

封包与解包的过程

http 访问更快因为是明文传输就是不需加密,国家税务总局就是 http,是没有加证书的

https=http+ssl 为加密的过程,是一个安全版的访问过程,是加了证书的

HTTP 请求与响应

客户端的请求与进行与服务器的请求与进行,个人手机电脑是客户端

全球统一资源定位符(URL)

html 文件,学了前端才能看懂源代码,网页会根据 HTML

css 文件处理格式,位置

js 处理跳转,点击事件,动画效果,走马灯

images 文件,图片存放点

(F12 弹出抓包工具)

(Ctrl+u 页面源码)

抓包工具

elements 元素

console 控制台,js 语法(全称 javascript)

sources 资源(js 解密用)

network 网络数据包 XHR 动态加载

这个如果是动态页面这个 request 就要使用 Ajax 请求动态加载 json 文件数据(Ajax 异步加载)静态页面的网页都在源代码中。

爬虫就是模拟人去访问浏览器,避免让系统默认为自动化的爬虫程序

general 全部的请求头

response headers 服务器的是交投

request headers 请求对象的请求头客户端的请求

host 主机和端口号

user—agent 标识,如果不带服务器,会认为你是一个自动化的爬虫程序

cookie 有时间限制(动态)记录用户信息

referer 副级的 URL

请求方式

GET 请求 (用于向服务器查询某些信息)

POST 请求(数据隐藏)Payload—form data 隐藏的数据,百度翻译为 post 请求

红点

stop recording network log 停止记录网络日志

clear,清空网络日志

preserve log,保留日志

disable cache 禁用缓存(js 逆向需要进行调试用)

目录
相关文章
|
1月前
|
域名解析 存储 安全
HTTP【网络】
HTTP协议格式、HTTP的方法 、HTTP的状态码、HTTP常见的Header
221 6
HTTP【网络】
|
2月前
|
数据采集
Haskell爬虫:连接管理与HTTP请求性能
Haskell爬虫:连接管理与HTTP请求性能
|
24天前
|
安全 应用服务中间件 Shell
nginx配置https的ssl证书和域名
nginx配置https的ssl证书和域名
|
27天前
|
JavaScript 安全 Java
谈谈UDP、HTTP、SSL、TLS协议在java中的实际应用
下面我将详细介绍UDP、HTTP、SSL、TLS协议及其工作原理,并提供Java代码示例(由于Deno是一个基于Node.js的运行时,Java代码无法直接在Deno中运行,但可以通过理解Java示例来类比Deno中的实现)。
53 1
|
2月前
|
数据采集 JSON API
🎓Python网络请求新手指南:requests库带你轻松玩转HTTP协议
本文介绍Python网络编程中不可或缺的HTTP协议基础,并以requests库为例,详细讲解如何执行GET与POST请求、处理响应及自定义请求头等操作。通过简洁易懂的代码示例,帮助初学者快速掌握网络爬虫与API开发所需的关键技能。无论是安装配置还是会话管理,requests库均提供了强大而直观的接口,助力读者轻松应对各类网络编程任务。
111 3
|
2月前
|
机器学习/深度学习 JSON API
HTTP协议实战演练场:Python requests库助你成为网络数据抓取大师
在数据驱动的时代,网络数据抓取对于数据分析、机器学习等至关重要。HTTP协议作为互联网通信的基石,其重要性不言而喻。Python的`requests`库凭借简洁的API和强大的功能,成为网络数据抓取的利器。本文将通过实战演练展示如何使用`requests`库进行数据抓取,包括发送GET/POST请求、处理JSON响应及添加自定义请求头等。首先,请确保已安装`requests`库,可通过`pip install requests`进行安装。接下来,我们将逐一介绍如何利用`requests`库探索网络世界,助你成为数据抓取大师。在实践过程中,务必遵守相关法律法规和网站使用条款,做到技术与道德并重。
46 2
|
2月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
64 3
|
2月前
|
数据采集 网络协议 API
HTTP协议大揭秘!Python requests库实战,让网络请求变得简单高效
【9月更文挑战第13天】在数字化时代,互联网成为信息传输的核心平台,HTTP协议作为基石,定义了客户端与服务器间的数据传输规则。直接处理HTTP请求复杂繁琐,但Python的`requests`库提供了一个简洁强大的接口,简化了这一过程。HTTP协议采用请求与响应模式,无状态且结构化设计,使其能灵活处理各种数据交换。
72 8
|
26天前
|
JSON API 开发者
深入解析Python网络编程与Web开发:urllib、requests和http模块的功能、用法及在构建现代网络应用中的关键作用
深入解析Python网络编程与Web开发:urllib、requests和http模块的功能、用法及在构建现代网络应用中的关键作用
14 0
|
2月前
|
JSON API 开发者
Python网络编程新纪元:urllib与requests库,让你的HTTP请求无所不能
【9月更文挑战第9天】随着互联网的发展,网络编程成为现代软件开发的关键部分。Python凭借简洁、易读及强大的特性,在该领域展现出独特魅力。本文介绍了Python标准库中的`urllib`和第三方库`requests`在处理HTTP请求方面的优势。`urllib`虽API底层但功能全面,适用于深入控制HTTP请求;而`requests`则以简洁的API和人性化设计著称,使HTTP请求变得简单高效。两者互补共存,共同推动Python网络编程进入全新纪元,无论初学者还是资深开发者都能从中受益。
48 7