文档备案控制台

开发者社区问答正文

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

展开

收起

OSC开源社区 2024-05-28 23:25:05 233 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

OSC小助手

如果是使用非框架的爬虫，可以通过判断其URL或者数据的唯一性进行去重，若是scrapy，默认是开启去重设置的。

对于超时，scrapy可以设置超时的时限，若发生超时，默认情况下会重新发送请求。若是非框架的爬虫，可以通过判断响应内容或HTTP状态码。

2024-05-30 08:33:12

赞同展开评论

问答分类：

数据采集 Python

问答标签：

Python爬虫 Python去重 Python解决方案 Python超时爬虫超时

问答地址：

开发者社区 > 大数据 > 问答

相关问答

爬虫如何只爬取更新数据

280

1

0

用python写爬虫，有什么好的建议？数据量大了有什么好的处理方式？

191

1

0

如何写爬虫程序爬取内容经常变化的网站的内容？

203

1

0

python 除了做爬虫，人工智能，机器学习之外。还在哪些方面有优势？

204

1

0

在阿里云RPA我用编码的方式写，用来爬虫，最后怎么把爬取的数据返出去？

324

2

0

python爬虫的方法有哪些？

925

0

0

python爬虫的好方法都有哪些

1068

0

0

我用最基础的Hello world用例测了一下，发现python的函数执行速度比java快很多【py

1488

2

0

请问Python写的函数可以在中台调用吗? 数据中台为什么不支持pandas包?

1237

1

0

函数运行 /opt/python/scrapy crawl pubs 提示没有权限怎么办呢？直接使用

1262

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

Qoder的搜索/索引进程rg.exe占满CPU

QoderWork的Credit是如何计算的？固定Token量吗？如何查看我消耗了多少Token？

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

相关文章

政务许可定向钓鱼攻击特征识别与闭环防御技术研究 —— 基于麦迪逊市酒类经营商户诈骗预警案例

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

政务敏感信息机构钓鱼邮件泄露风险与多维防御体系研究 —— 以康涅狄格州 DCF 攻击事件为实证

阿里云全域采集与增长分析（Quick Tracking）对接使用完全指南

Django静态文件收集一键脚本与阿里云ECS云服务器线上部署完整实战指南

还有其他疑问?