网络爬虫与 http+ssl(1)

简介: 网络爬虫与 http+ssl基本知识概述

端口
查看 IP 的方式:打开命令行输入 cmd,然后在端口中输入 ipconfig,可以看到 IP 地址

端口号 mysql 3306 mongodb 27017 nosql,端口号为独立标识

通讯协议

TCP 通信协议/IP 协议/Robot 协议(规定爬虫不能爬取这个协议的文件)在 srapy 框架

超文本传输协议,端口 80(HTTP 协议)设置—网络—属性—看到已安装的协议,可以在这里添加新的协议

osm 模型

⽬标 Objective;策略 Strategy;衡量指标 Measurement

OSM 模型,就是把宏⼤的⽬标拆解,对应到部门内各个⼩组具体的、可落地、可度量的⾏为上,从保证执⾏计划没有偏离⼤⽅向。

封包与解包的过程

http 访问更快因为是明文传输就是不需加密,国家税务总局就是 http,是没有加证书的

https=http+ssl 为加密的过程,是一个安全版的访问过程,是加了证书的

HTTP 请求与响应

客户端的请求与进行与服务器的请求与进行,个人手机电脑是客户端

全球统一资源定位符(URL)

html 文件,学了前端才能看懂源代码,网页会根据 HTML

css 文件处理格式,位置

js 处理跳转,点击事件,动画效果,走马灯

images 文件,图片存放点

(F12 弹出抓包工具)

(Ctrl+u 页面源码)

抓包工具

elements 元素

console 控制台,js 语法(全称 javascript)

sources 资源(js 解密用)

network 网络数据包 XHR 动态加载

这个如果是动态页面这个 request 就要使用 Ajax 请求动态加载 json 文件数据(Ajax 异步加载)静态页面的网页都在源代码中。

爬虫就是模拟人去访问浏览器,避免让系统默认为自动化的爬虫程序

general 全部的请求头

response headers 服务器的是交投

request headers 请求对象的请求头客户端的请求

host 主机和端口号

user—agent 标识,如果不带服务器,会认为你是一个自动化的爬虫程序

cookie 有时间限制(动态)记录用户信息

referer 副级的 URL

请求方式

GET 请求 (用于向服务器查询某些信息)

POST 请求(数据隐藏)Payload—form data 隐藏的数据,百度翻译为 post 请求

红点

stop recording network log 停止记录网络日志

clear,清空网络日志

preserve log,保留日志

disable cache 禁用缓存(js 逆向需要进行调试用)

目录
相关文章
|
25天前
|
存储 网络协议 算法
从HPACK到多路复用,揭秘HTTP/2如何终结网络拥堵
HTTP/2通过HPACK压缩头部冗余信息,提升传输效率;并利用多路复用技术,在单个TCP连接上并行处理多个请求,避免队头阻塞,显著提升性能。同时支持服务器推送和流优先级设置,优化资源加载体验。
87 7
|
3月前
|
网络安全 API CDN
如何将Cloudflare HTTPS的SSL证书更换为Google签发的
将Cloudflare HTTPS的SSL证书更换为Google签发的
|
4月前
|
JSON 中间件 Go
Go 网络编程:HTTP服务与客户端开发
Go 语言的 `net/http` 包功能强大,可快速构建高并发 HTTP 服务。本文从创建简单 HTTP 服务入手,逐步讲解请求与响应对象、URL 参数处理、自定义路由、JSON 接口、静态文件服务、中间件编写及 HTTPS 配置等内容。通过示例代码展示如何使用 `http.HandleFunc`、`http.ServeMux`、`http.Client` 等工具实现常见功能,帮助开发者掌握构建高效 Web 应用的核心技能。
257 61
|
5月前
|
数据采集 安全 网络安全
使用aiohttp实现异步HTTPS爬虫的SSL优化
使用aiohttp实现异步HTTPS爬虫的SSL优化
287 81
|
8月前
|
安全 算法 网络协议
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
|
4月前
|
JSON 编解码 API
Go语言网络编程:使用 net/http 构建 RESTful API
本章介绍如何使用 Go 语言的 `net/http` 标准库构建 RESTful API。内容涵盖 RESTful API 的基本概念及规范,包括 GET、POST、PUT 和 DELETE 方法的实现。通过定义用户数据结构和模拟数据库,逐步实现获取用户列表、创建用户、更新用户、删除用户的 HTTP 路由处理函数。同时提供辅助函数用于路径参数解析,并展示如何设置路由器启动服务。最后通过 curl 或 Postman 测试接口功能。章节总结了路由分发、JSON 编解码、方法区分、并发安全管理和路径参数解析等关键点,为更复杂需求推荐第三方框架如 Gin、Echo 和 Chi。
|
5月前
|
数据采集
Haskell编程中,利用HTTP爬虫实现IP抓取
以上就是利用Haskell编写IP抓取爬虫的详细步骤。希望这篇文章的演示对于理解在Haskell这种函数式编程语言中如何实现网络爬虫有所帮助,而其中的网络访问、标签解析和列表处理等技术在许多其他的问题中都有广泛的应用。
103 26
|
5月前
|
安全 网络协议 Linux
Linux网络应用层协议展示:HTTP与HTTPS
此外,必须注意,从HTTP迁移到HTTPS是一项重要且必要的任务,因为这不仅关乎用户信息的安全,也有利于你的网站评级和粉丝的信心。在网络世界中,信息的安全就是一切,选择HTTPS,让您的网站更加安全,使您的用户满意,也使您感到满意。
151 18
|
4月前
|
安全 网络安全 流计算
修改代码以确保对SSL和HTTP异常的正确处理。
记得,在海上和代码世界里,风暴总是突如其来。但只要你的代码准备妥当,合理地处理SSL和HTTP异常,你的小船就能安全航行,最终到达它的目的地。
109 12
|
5月前
|
域名解析 网络协议 网络安全
SSL证书验证全攻略:DNS/HTTP/手动解析怎么选?
SSL证书在网络安全中至关重要,1Panel提供三种验证方式:DNS验证、HTTP验证和手动解析。DNS验证便捷,适合CDN网站;HTTP验证快速,需服务器在线;手动解析灵活,但操作复杂。根据需求选择合适确认方式,定期检查证书状态。
652 2

热门文章

最新文章