crawlspider

简介: crawlspider

spider的子类,主要用于全站数据的爬取

使用

# 创建一个工程
scrapy startproject XXX

# 进工程路径
cd XXX

# 创建爬虫文件
scrapy genspider -t crawl XXX www.XXX.com

# 运行
scrapy crawl XXX

规则解析器遇到重复的会自动删掉,不需要手动

# 注意,该网站有反爬机制
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class SunSpider(CrawlSpider):
    name = 'sun'
    start_urls = ['https://wz.sun0769.com/political/index/politicsNewest']

    # 在起始页面中提取符合规则的链接,然后对其调用parse——item解析
    rules = (
        # 提取的还是源文件,不是动态加载的
        # follow=True:可以将链接提取器到提取到的链接中,从而爬取整个页码;设为false只能提取起始页面中的内容
        Rule(LinkExtractor(allow=r'id=1&page=\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response) #这里只能提取出html中有的两个链接
        # item = {}
        # #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        # #item['name'] = response.xpath('//div[@id="name"]').get()
        # #item['description'] = response.xpath('//div[@id="description"]').get()
        # return item
目录
相关文章
|
Linux Apache
百度搜索:蓝易云 ,Linux ps命令详解,Linux查看进程。
通过使用ps命令,您可以查看当前运行的进程,并获取有关进程的详细信息。根据您的需求,可以使用不同的选项来满足特定的进程查看和筛选要求。
1182 0
|
数据库 数据安全/隐私保护 .NET
在CMMI推广过程中EPG常犯的错误
1、对模型研究不够深入   模型是多年软件工程经验的总结,里面的每一句话,每个例子都不是随便写上去的,都有其内在的含义在里面,需要仔细琢磨,仔细体会。作为EPG的成员,在遇到问题时,首先要做的事情是要去读模型,在模型中查找答案。
1180 0
|
8天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201858 11
对话 | ECS如何构筑企业上云的第一道安全防线
|
16天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179632 22
|
3天前
|
弹性计算 人工智能 安全
|
3天前
|
安全 数据安全/隐私保护
阿里云 SASE 2.0 能力迭代|构建一体化办公数据安全解决方案
阿里云SASE能力全新升级,快速构建数据安全治理与运营体系。
1078 3
|
25天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9769 29
|
3天前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
362 30
Qwen2.5-7B-Instruct Lora 微调
|
5天前
|
机器学习/深度学习 人工智能 安全
阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测,机遇, 挑战与展望
本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个,同比增长5.2%,其中超过7000个具有利用代码,115个已被广泛利用,涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用,强调了数据集质量对模型性能的重要性,并展示了不同检测模型的工作原理与实现方法。此外,还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法,展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。