网络爬虫与 http+ssl(1)

简介: 网络爬虫与 http+ssl基本知识概述

端口
查看 IP 的方式:打开命令行输入 cmd,然后在端口中输入 ipconfig,可以看到 IP 地址

端口号 mysql 3306 mongodb 27017 nosql,端口号为独立标识

通讯协议

TCP 通信协议/IP 协议/Robot 协议(规定爬虫不能爬取这个协议的文件)在 srapy 框架

超文本传输协议,端口 80(HTTP 协议)设置—网络—属性—看到已安装的协议,可以在这里添加新的协议

osm 模型

⽬标 Objective;策略 Strategy;衡量指标 Measurement

OSM 模型,就是把宏⼤的⽬标拆解,对应到部门内各个⼩组具体的、可落地、可度量的⾏为上,从保证执⾏计划没有偏离⼤⽅向。

封包与解包的过程

http 访问更快因为是明文传输就是不需加密,国家税务总局就是 http,是没有加证书的

https=http+ssl 为加密的过程,是一个安全版的访问过程,是加了证书的

HTTP 请求与响应

客户端的请求与进行与服务器的请求与进行,个人手机电脑是客户端

全球统一资源定位符(URL)

html 文件,学了前端才能看懂源代码,网页会根据 HTML

css 文件处理格式,位置

js 处理跳转,点击事件,动画效果,走马灯

images 文件,图片存放点

(F12 弹出抓包工具)

(Ctrl+u 页面源码)

抓包工具

elements 元素

console 控制台,js 语法(全称 javascript)

sources 资源(js 解密用)

network 网络数据包 XHR 动态加载

这个如果是动态页面这个 request 就要使用 Ajax 请求动态加载 json 文件数据(Ajax 异步加载)静态页面的网页都在源代码中。

爬虫就是模拟人去访问浏览器,避免让系统默认为自动化的爬虫程序

general 全部的请求头

response headers 服务器的是交投

request headers 请求对象的请求头客户端的请求

host 主机和端口号

user—agent 标识,如果不带服务器,会认为你是一个自动化的爬虫程序

cookie 有时间限制(动态)记录用户信息

referer 副级的 URL

请求方式

GET 请求 (用于向服务器查询某些信息)

POST 请求(数据隐藏)Payload—form data 隐藏的数据,百度翻译为 post 请求

红点

stop recording network log 停止记录网络日志

clear,清空网络日志

preserve log,保留日志

disable cache 禁用缓存(js 逆向需要进行调试用)

目录
相关文章
|
1月前
|
网络协议 Linux 网络安全
curl(http命令行工具):Linux下最强大的网络数据传输工具
curl(http命令行工具):Linux下最强大的网络数据传输工具
49 0
|
9天前
|
网络协议 Java API
深度剖析:Java网络编程中的TCP/IP与HTTP协议实践
【4月更文挑战第17天】Java网络编程重在TCP/IP和HTTP协议的应用。TCP提供可靠数据传输,通过Socket和ServerSocket实现;HTTP用于Web服务,常借助HttpURLConnection或Apache HttpClient。两者结合,构成网络服务基础。Java有多种高级API和框架(如Netty、Spring Boot)简化开发,助力高效、高并发的网络通信。
|
10天前
|
网络协议 安全 API
Android网络和数据交互: 什么是HTTP和HTTPS?在Android中如何进行网络请求?
HTTP和HTTPS是网络数据传输协议,HTTP基于TCP/IP,简单快速,HTTPS则是加密的HTTP,确保数据安全。在Android中,过去常用HttpURLConnection和HttpClient,但HttpClient自Android 6.0起被移除。现在推荐使用支持TLS、流式上传下载、超时配置等特性的HttpsURLConnection进行网络请求。
10 0
|
14天前
|
存储 JSON 前端开发
网络原理(4)HTTP协议(下)
网络原理(4)HTTP协议
25 0
|
29天前
|
前端开发 应用服务中间件 网络安全
http转为https,ssl证书安装及nginx配置
http转为https,ssl证书安装及nginx配置
48 1
|
1月前
|
Shell Linux 网络安全
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 httpd命令 使用指南
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 httpd命令 使用指南
30 0
|
1月前
|
Shell Linux Apache
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 apachectl命令 使用教程
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 apachectl命令 使用教程
162 1
|
1月前
|
网络协议 网络安全 API
Qt 网络编程之美:探索 URL、HTTP、服务发现与请求响应
Qt 网络编程之美:探索 URL、HTTP、服务发现与请求响应
48 1
|
1月前
|
监控 网络安全 C++
Qt 5.14.2 网络编程揭秘:构建高效HTTP客户端与文件下载器
Qt 5.14.2 网络编程揭秘:构建高效HTTP客户端与文件下载器