ssj兼职网部分

简介: ssj兼职网部分

一、scrapy模块

1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。

2、Scheduler(调度器): 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。

3、Downloader(下载器): 下载器负责获取页面数据并提供给引擎,而后提供给spider。

4、Spider(爬虫): Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。

5、Item Pipeline(管道): Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存储到数据库中)。

6、Downloader Middlewares(下载中间件): 下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

7、Spider Middlewares(Spider中间件): Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

二、网站分析

1、网站首页 获取城市信息

右键检查-->获取网站中城市url

1618237178449

2、选中城市获取分类

查看要获取的兼职标签

3、详情页数据

查看数据标签

三、代码模块编写

1、创建项目SSQ

2、setting文件进行设置-已备注

3、Scrapy为我们提供了Item类,这些Item类可以让我们自己来指定字段。比方说在我们这个Scrapy爬虫项目中,我们定义了一个Item类,这个Item里边包含了title、release_date、url等,这样的话通过各种爬取方法爬取过来的字段,再通过Item类进行实例化,这样的话就不容易出错了,因为我们在一个地方统一定义过了字段,而且这个字段具有唯一性。

这个Item有些类似我们常说的字典,但是它的功能要比字典更加齐全一些。同时当我们对Item进行实例化之后,在Spider爬虫主体文件里边,我们通过parse()函数获取到目标字段的Item类,我们直接将这个类进行yield即可,然后Scrapy在发现这是Item类的一个实例之后,它就会直接将这个Item载入pipeline中去。这样的话,我们就可以直接在pipeline中进行数据的保存、去重等操作。以上就是Item带给我们的好处。

4、主程序 --->重写了start_requests方法 将热点城市url传入函数

5、使用xpath ->解析获取的response使用xpath方法 获取//div[@class="dqa"]/ul/a 标签下的地区分类列表 和url xpat().getall()获取方法

6、其中也使用正则 获取详情页地址

7、使用xpath 获取想要的数据列表 最后将其传到管道 进行存储

目录
相关文章
|
前端开发
封装防抖函数和节流函数
封装防抖函数和节流函数
242 0
|
Web App开发 缓存 监控
|
存储 监控 测试技术
ClickHouse中的异步数据插入
ClickHouse中的异步数据插入
 ClickHouse中的异步数据插入
|
移动开发 小程序 前端开发
京东最新版taro3.5.4中使用vue3开发微信小程序的echarts图表
查看到github官网github.com/NervJS/taro… 前几天使用的3.5.3版本,是有这个bug的,将版本降低到3.5.2 果然就可以了。这几天taro官网出了3.5.4版本,也是没问题了。
1534 0
|
消息中间件 数据可视化 NoSQL
ELK+Kafka搭建分布式日志收集系统
ELK+Kafka搭建分布式日志收集系统
722 0
ELK+Kafka搭建分布式日志收集系统
|
存储
学习Pinia 第二章(初始化仓库Store)
这个名称,也称为id,是必要的,Pania 使用它来将商店连接到 devtools。将返回的函数命名为use...是可组合项之间的约定,以使其使用习惯。
297 0
|
新零售 人工智能 搜索推荐
了解电子商务系统中的回音室效应 | SIGIR论文解读
个性化推荐系统在为用户带来更精准商品的同时,也对消费者的兴趣偏好和行为造成影响,例如回音室效应。回音室是指用户不断接受相似的信息和内容, 从而使得他们的兴趣或者态度被不断强化。这种现实通常出现在社交媒体和网络平台,也同样可能出现在电子商务等推荐系统中。
了解电子商务系统中的回音室效应 | SIGIR论文解读
|
9天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34530 25
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
21天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45397 147
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw

热门文章

最新文章