爬虫介绍-css-js-html 等介绍|学习笔记

简介: 快速学习爬虫介绍-css-js-html 等介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)爬虫介绍-css-js-html等介绍】学习笔记与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/670/detail/11621


爬虫介绍-css-js-html等介绍

 

内容简介:

一、html介绍

二、js、png、jpg介绍

三、爬虫总结

 

一、html介绍

上节把 Queryao 的代码详细地介绍了一遍,接下来再往下看 html的,其代码如下所示:

public static void spiderHtml() throws Exception {

//1.指定目标网站

String url = “http://192.168.2.141/B2C40/modules/bookingnew/main/flightSelectDirect.html”;

//2.发起请求

HttpPost httpPost = new HttpPost(url));

//3.设置请求次数

httpPost.setHeader(Time-Local,getlocalDateTime());

//httpPost.setHeader(Request,POST /B2C40/query/jaxb/direct/query.ao.HTTP/

httpPost.setHeader(Request Method,”POST“);

httpPost.setHeader(Content-Type,

application/x-www-form-urlencoded;charset=UTF-8);

httpPost.setHeader(

Refer,

“http://b2c.csair.com/B2C40/modules/bookingnew/main/flightSelectDirect;

+ getGoTime() + &at=i&at=0&it=0);

httpPost.setHeader(Remote Address, 192.168.2.1);

httpPost.setHeader(

User-Agent,

Mozilla/5.0(Windows NT 10.0; Win64; X64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132

httpPost.setHeader(Time-Iso8601,getISO8601Timestamp(;

httpPost.setHeader(Server Address,243.45.78.132);

httpPost.setHeader(

Cookie,

JSESSIONID=882121159357898CA6112554Caaaaa150404198801193324bbbbb F44321E;sid=b5cc11e02e154ac5b0f36

+ getGoTime()

+%3B%E5%B9%BF%E5%B7%9E-%E6%88%90%%E9%83%BD%3B1%2c0%2C0%3B%26;JSESSIONID=882121159357B98CA6112554

+ getGoTime() + ));

//4.设置请求参数

ArrayList<BasicNameValuePair> paramters = new ArrayList<BasicNameValuePair>();

Parameters

.add(new BasicNameValuePair(

json

{\depcity\:\CAN\,\arrcity\:\WUH\,\flightdate\:\20180220\,\adultnum\:\1\,

httpPost.setEntity(new UrlEncodeFormEntity(parameters));

//5.发送请求

CloseableHttpClient httpClient = HttpClients.createDefault();

CloseableHttpResponse response = httpClient.execute(httpPost);

//6.获取返回值

System.out.println(response != null);

}

其里面设置 URL 、 httpPost  Time_local Request  Request method  Content-Type ,和上面的 Queryao 都是一模一样的,只不过区别在于 url 会发生变化,可以看到 url 里面请求IP 加了一个路径,格式是 HTML 格式,而上面的 Queryao 里面请求的 ip的格式是 Queryao 是以 .ao 为格式的路径,除此之外其他的内容与 Queryao 大致都相似,所以只需要搞定 Queryao 一个内容,其他的都一样,在这里就不重复了。

 

二、js、css、jpg、png介绍

1、js介绍

接下来看一下 Js 的, js 跳过来也是一样的 url 加 ip 加路径,只不过后面格式变成了 .js ,而下面的 Time_local Request、Request method  Content-Type ,还有 Referer 都和之前的Queryao 一样。 

2、css介绍

接着看 css ,也只有 url IP 加路径,格式是 .css 格式,其他的也都还是和 Queryao 一样的。

3、png介绍

接下来看 png , png 跳过来也是一样的 url 加 ip 加路径,只不过后面格式变成了 .png ,而下面的 Time_local Request 、Request method  Content-Type ,还有 Referer 都和之前的Queryao 一样。 

4、jpg介绍

接下来看 jpg ,也只有 url IP 加路径,格式是 .jpg 格式,其他的也都还是和 Queryao 一样的。

 

三、爬虫总结

实际上一个 for 循环里面走了六,而这六里面几乎每一步里面的95%以上的代码都一样,只有一小部分,比如 Queryao 的 ip 格式是以 .queryao 结尾, html 的 ip 格式最后以 .html 结尾,以及下面的 js 、 css 、 png 、 jpg 都有相应的结尾格式,其每一个循环都会把数据打入 kafka 里面,来看一下打入 kafka 里面的数据,

如下图所示:

image.png

上图中分别是 js 、 css 、 html 、 png 、 jpg 的数据。这些有了之后反爬虫也就介绍完了,也就是每一个循环会跑到6个数据,一次循环就把这六个数据相应参数就全部采集到了,采集到并且发送到后台,发送到 kafka 里面,上述是单程的。

往返的其实是一样的,有去的时间,有回的时间,然后其他的都一样,因为逻辑都一样,只不过往返里面的 http referer 变成了两个日期,而其他的和单的是一模一样的,就不做介绍了。

到这里为止就把反爬虫项目所需要用到的爬虫介绍完了,讲义当中,前面是请求参数,后面国内单程的爬虫查询,然后有很多代码,这个代码就是上述的这些代码,还有一个往返的爬虫,爬虫大概是有哪些内容?拿过去以后,只需要将访问路径里面的 IP 换成 nginx 里面 IP 就可以了,其他的基本上都不用,然后直接点击右键运行就可以了,这就是爬虫的介绍呢。

相关文章
|
7天前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
3月前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
4月前
|
数据采集 JavaScript 前端开发
初始爬虫13(js逆向)
初始爬虫13(js逆向)
|
5月前
|
JavaScript 前端开发 API
Vue学习笔记3:对比纯JavaScript和Vue实现数据更新的实时视图显示
Vue学习笔记3:对比纯JavaScript和Vue实现数据更新的实时视图显示
|
5月前
|
前端开发 容器
css布局-弹性布局学习笔记
这篇文章是关于CSS弹性布局的学习笔记,详细介绍了flex容器和元素的相关属性,包括flex-direction、flex-wrap、flex-flow、justify-content、align-items、align-content以及order、flex-grow、flex-shrink、flex-basis、flex和align-self等,解释了这些属性在弹性盒子布局中的作用和用法。
|
5月前
|
Web App开发 前端开发 JavaScript
HTML/CSS/JS学习笔记 Day3(HTML--网页标签 下)
HTML/CSS/JS学习笔记 Day3(HTML--网页标签 下)
|
4月前
|
JavaScript 前端开发
【干货分享】JavaScript学习笔记分享
【干货分享】JavaScript学习笔记分享
73 0
|
6月前
|
数据采集 资源调度 JavaScript
Node.js 适合做高并发、I/O密集型项目、轻量级实时应用、前端构建工具、命令行工具以及网络爬虫和数据处理等项目
【8月更文挑战第4天】Node.js 适合做高并发、I/O密集型项目、轻量级实时应用、前端构建工具、命令行工具以及网络爬虫和数据处理等项目
90 5
|
7月前
|
数据采集 JavaScript Python
【JS逆向课件:第十三课:异步爬虫】
回调函数就是回头调用的函数
|
8月前
|
数据采集 移动开发 前端开发
《智慧的网络爬虫》— HTML概述
网页是构成网站的基本元素,它是一个包含HTML标签的纯文本文件,通常是由图片;链接;视频;声音;文字等元素组成。通常我们所看到的网页,常以 .htm 或 .html 后缀结尾的文件,因此将其俗称为HTML文件。HTML;CSS;JS是学习爬虫的基础,是必须要了解的,此篇文章我讲述了HTML5对于爬虫所要必备的基础知识
69 1
《智慧的网络爬虫》—  HTML概述

热门文章

最新文章

  • 1
    当面试官再问我JS闭包时,我能答出来的都在这里了。
    40
  • 2
    【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
    27
  • 3
    Node.js 中实现多任务下载的并发控制策略
    32
  • 4
    【2025优雅草开源计划进行中01】-针对web前端开发初学者使用-优雅草科技官网-纯静态页面html+css+JavaScript可直接下载使用-开源-首页为优雅草吴银满工程师原创-优雅草卓伊凡发布
    26
  • 5
    【JavaScript】深入理解 let、var 和 const
    49
  • 6
    【04】Java+若依+vue.js技术栈实现钱包积分管理系统项目-若依框架二次开发准备工作-以及建立初步后端目录菜单列-优雅草卓伊凡商业项目实战
    47
  • 7
    【03】Java+若依+vue.js技术栈实现钱包积分管理系统项目-若依框架搭建-服务端-后台管理-整体搭建-优雅草卓伊凡商业项目实战
    57
  • 8
    【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
    57
  • 9
    如何通过pm2以cluster模式多进程部署next.js(包括docker下的部署)
    72
  • 10
    【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
    55