备案控制台

开发者社区大数据文章正文

Scrapy框架--通用爬虫Broad Crawls（下，具体代码实现）

2018-07-13 1345

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过前面两章的熟悉，这里开始实现具体的爬虫代码广西人才网以广西人才网为例，演示基础爬虫代码实现，逻辑：配置Rule规则:设置allow的正则-->设置回调函数通过回调函数获取想要的信息具体的代码实现：import scrapyfrom scrapy.

通过前面两章的熟悉，这里开始实现具体的爬虫代码

广西人才网

以广西人才网为例，演示基础爬虫代码实现，逻辑：

配置Rule规则:设置allow的正则-->设置回调函数
通过回调函数获取想要的信息
具体的代码实现：


import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class GxrcSpider(CrawlSpider):
    name = 'gxrc'
    allowed_domains = ['www.gxrc.com']
    start_urls = ['http://www.gxrc.com/']

    rules = (
        Rule(LinkExtractor(allow=r'WebPage/Company.*'),follow=True,callback='parse_company'),  # 配置公司正则
        Rule(LinkExtractor(allow=r'WebPage/JobDetail.*'), callback='parse_item', follow=True),  # 配置职位正则
    )

    def parse_item(self, response):
        """ 获取职位信息 """
        i = {}
        i['job_name'] = response.css('h1#positionName::text').extract_first("")  # 职位名称

        return i

    def parse_company(self, response):
        """ 获取公司信息 """
        i = {}
        i['company_name'] = response.css('.inner h1::text').extract_first("")  # 公司名称

        return i

这样即可完成基础的正则和信息抓取工作，至于Item和Pepiline和之前的写法一样。

文章标签：

数据采集

Python

关键词：

爬虫代码

Scrapy框架

scrapy框架爬虫

框架爬虫

Scrapy爬虫

中乘风

目录

相关文章

小白学大数据

|

23天前

|

数据采集人工智能 JSON

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

小白学大数据

109 3 3

奔跑的数据

|

8月前

|

数据采集存储数据可视化

分布式爬虫框架Scrapy-Redis实战指南

本文介绍如何使用Scrapy-Redis构建分布式爬虫系统，采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略，实现高效数据抓取。结合价格动态趋势分析，助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储，提供完整的技术路线图与代码示例。

奔跑的数据

786 0 1

分布式爬虫框架Scrapy-Redis实战指南

小白学大数据

|

7月前

|

数据采集前端开发 JavaScript

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

小白学大数据

360 5 5

小白学大数据

|

4月前

|

数据采集存储数据库

Python爬虫开发：Cookie池与定期清除的代码实现

Python爬虫开发：Cookie池与定期清除的代码实现

小白学大数据

131 1 1

站大爷

|

4月前

|

数据采集监控网络协议

基于aiohttp的高并发爬虫实战：从原理到代码的完整指南

在数据驱动时代，传统同步爬虫效率低下，而基于Python的aiohttp库可构建高并发异步爬虫。本文通过实战案例解析aiohttp的核心组件与优化策略，包括信号量控制、连接池复用、异常处理等，并探讨代理集成、分布式架构及反爬应对方案，助你打造高性能、稳定可靠的网络爬虫系统。

站大爷

273 0 0

小白学大数据

|

6月前

|

数据采集存储监控

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy框架下地图爬虫的进度监控与优化策略

小白学大数据

180 3 3

奔跑的数据

|

7月前

|

数据采集存储 Web App开发

轻量级爬虫框架Feapder入门：快速搭建企业级数据管道

本教程基于Feapder框架，讲解如何构建轻量级爬虫采集豆瓣电影数据。通过配置代理IP、Cookie与User-Agent，实现企业级数据管道能力，包括动态请求与信息提取（如电影名称、导演、演员等）。适合具备Python基础及爬虫原理知识的读者，提供从环境搭建到代码实现的完整流程，并分析常见错误与解决方法，助力高效开发。

奔跑的数据

315 1 1

轻量级爬虫框架Feapder入门：快速搭建企业级数据管道

小白学大数据

|

数据采集中间件 API

在Scrapy爬虫中应用Crawlera进行反爬虫策略

在Scrapy爬虫中应用Crawlera进行反爬虫策略

小白学大数据

345 1 1

土木林森

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

502 6 6

bruce_xiaowei

|

数据采集中间件开发者

Scrapy爬虫框架-自定义中间件

Scrapy爬虫框架-自定义中间件

bruce_xiaowei

196 1 1

热门文章

最新文章

实战：Python爬虫如何模拟登录与维持会话状态

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

Python爬虫技术：从基础到实战的完整教程

Selenium爬虫部署七大常见错误及修复方案：从踩坑到避坑的实战指南

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

新闻热点一目了然：Python爬虫数据可视化

处理动态Token：Python爬虫应对AJAX授权请求的策略

解析Python爬虫中的Cookies和Session管理

高并发Java爬虫的瓶颈分析与动态线程优化方案

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

分布式爬虫框架Scrapy-Redis实战指南

BeautifulSoup VS Scrapy：如何选择适合的HTML解析工具？

用Scrapy精准爬取BOSS直聘特定行业职位

在Scrapy爬虫中应用Crawlera进行反爬虫策略

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

相关课程

更多

Python爬虫实战

Python网络爬虫实战

相关电子书

更多

Python第五讲——关于爬虫如何做js逆向的思路

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云对象存储OSS收费标准：500G存储118元1年、