备案控制台

开发者社区云计算文章正文

crawlspider

2023-12-24 65

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： crawlspider

spider的子类，主要用于全站数据的爬取

使用

# 创建一个工程
scrapy startproject XXX

# 进工程路径
cd XXX

# 创建爬虫文件
scrapy genspider -t crawl XXX www.XXX.com

# 运行
scrapy crawl XXX

规则解析器遇到重复的会自动删掉，不需要手动

# 注意，该网站有反爬机制
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class SunSpider(CrawlSpider):
    name = 'sun'
    start_urls = ['https://wz.sun0769.com/political/index/politicsNewest']

    # 在起始页面中提取符合规则的链接，然后对其调用parse——item解析
    rules = (
        # 提取的还是源文件，不是动态加载的
        # follow=True:可以将链接提取器到提取到的链接中，从而爬取整个页码；设为false只能提取起始页面中的内容
        Rule(LinkExtractor(allow=r'id=1&page=\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response) #这里只能提取出html中有的两个链接
        # item = {}
        # #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        # #item['name'] = response.xpath('//div[@id="name"]').get()
        # #item['description'] = response.xpath('//div[@id="description"]').get()
        # return item

叶安义

目录

相关文章

蓝易云

|

Linux Apache

百度搜索：蓝易云，Linux ps命令详解，Linux查看进程。

通过使用ps命令，您可以查看当前运行的进程，并获取有关进程的详细信息。根据您的需求，可以使用不同的选项来满足特定的进程查看和筛选要求。

蓝易云

1182 0 0

嗯哼9925

|

数据库数据安全/隐私保护 .NET

SqlMembershipProvider.ChangePassword 方法（已测试）

嗯哼9925

1136 0 0

狂龙十八次

在CMMI推广过程中EPG常犯的错误

1、对模型研究不够深入　　模型是多年软件工程经验的总结，里面的每一句话，每个例子都不是随便写上去的，都有其内在的含义在里面，需要仔细琢磨，仔细体会。作为EPG的成员，在遇到问题时，首先要做的事情是要去读模型，在模型中查找答案。

狂龙十八次

1180 0 0

弹性计算-百晓生

|

8天前

|

弹性计算人工智能安全

对话 | ECS如何构筑企业上云的第一道安全防线

随着中小企业加速上云，数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目，汇聚产品技术专家，探讨云上安全问题及应对策略。首期节目聚焦ECS安全性，提出三道防线：数据安全、网络安全和身份认证与权限管理，确保用户在云端的数据主权和业务稳定。此外，阿里云还推出了“ECS 99套餐”，以高性价比提供全面的安全保障，帮助中小企业安全上云。

弹性计算-百晓生

201858 11 12

对话 | ECS如何构筑企业上云的第一道安全防线

弹性计算-百晓生

|

16天前

|

调度云计算芯片

云超算技术跃进，阿里云牵头制定我国首个云超算国家标准

近日，由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批，不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求，为云超算服务产品的设计、实现、应用和选型提供指导，为云超算在HPC应用和用户的大范围采用奠定了基础。

弹性计算-百晓生

179632 22 25

云安全专家

|

3天前

|

弹性计算人工智能安全

对话 | ECS如何构筑企业上云的第一道安全防线

保障用户上云用云安全

云安全专家

1047 4 4

云安全专家

|

3天前

|

安全数据安全/隐私保护

阿里云 SASE 2.0 能力迭代｜构建一体化办公数据安全解决方案

阿里云SASE能力全新升级，快速构建数据安全治理与运营体系。

云安全专家

1078 3 3

阿里云云原生

|

25天前

|

人工智能自然语言处理前端开发

从0开始打造一款APP：前端+搭建本机服务，定制暖冬卫衣先到先得

通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI，再配合简单易懂的方法，只要你会打字，就能真正做出一个完整的应用。

阿里云云原生

9769 29 80

不要葱姜蒜

|

3天前

|

搜索推荐物联网 PyTorch

Qwen2.5-7B-Instruct Lora 微调

本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。

不要葱姜蒜

362 30 32

Qwen2.5-7B-Instruct Lora 微调

周周的奇妙编程

|

5天前

|

机器学习/深度学习人工智能安全

阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测，机遇, 挑战与展望

本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个，同比增长5.2%，其中超过7000个具有利用代码，115个已被广泛利用，涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用，强调了数据集质量对模型性能的重要性，并展示了不同检测模型的工作原理与实现方法。此外，还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法，展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。

周周的奇妙编程

542 14 14

热门文章

最新文章

为什么说流处理即未来？

【实战】锐捷AC+AP配置WLAN基本服务系列

丰富、连接、待集成—MaxCompute 生态再出发

securecrt克隆会话与sshd 的 MaxSessions

阿里云云端即时渲染技术带您“云考古”

Console-算法[for]-输出等腰三角形

asp.net日期显示问题

MFC单文档应用程序显示图像

最新10款精美的免费PSD网站模板下载

嵌入式系统工程师的十个不要

《docker基础篇：5.本地镜像发布到阿里云》

《人工智能可视化：数据洞察的新窗口》

《揭秘人工智能数据安全风险评估方法：守护数字未来的关键》

《探秘人工智能之关联规则挖掘：解锁数据背后的隐藏联系》

《数据质量评估方法大揭秘：精准衡量数据价值的关键》

《数据质量：人工智能模型的成败关键》

发现API安全风险，F5随时随地保障应用和API安全

机器学习在网络安全中的防护：智能化的安全屏障

基于AI的运维资源调度：效率与智能的双重提升

2024年终总结：选择错误、加班三月、降薪、面试无果...

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月