文档备案控制台

开发者社区问答正文

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

展开

收起

OSC开源社区 2024-05-28 23:25:05 235 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

OSC小助手

如果是使用非框架的爬虫，可以通过判断其URL或者数据的唯一性进行去重，若是scrapy，默认是开启去重设置的。

对于超时，scrapy可以设置超时的时限，若发生超时，默认情况下会重新发送请求。若是非框架的爬虫，可以通过判断响应内容或HTTP状态码。

2024-05-30 08:33:12

赞同展开评论

问答分类：

数据采集 Python

问答标签：

Python爬虫 Python去重 Python解决方案 Python超时爬虫超时

问答地址：

开发者社区 > 大数据 > 问答

相关问答

modelscope-funasr有没有python版实时转写并发解决方案？

301

0

0

ModelScope中，迁移到业务的更大的模型上，有没有别的解决方案，最好还是升级python版本?

232

1

0

爬虫如何只爬取更新数据

281

1

0

用python写爬虫，有什么好的建议？数据量大了有什么好的处理方式？

195

1

0

如何写爬虫程序爬取内容经常变化的网站的内容？

207

1

0

我用最基础的Hello world用例测了一下，发现python的函数执行速度比java快很多【py

1491

2

0

请问Python写的函数可以在中台调用吗? 数据中台为什么不支持pandas包?

1242

1

0

函数运行 /opt/python/scrapy crawl pubs 提示没有权限怎么办呢？直接使用

1262

1

0

请问我的一个python脚本想直接在函数计算中跑，这个脚本是一直运行的状态，但创建函数我看到都有执行

1301

1

0

Fc 函数能在构建环境的时候预装指定的 linux 包么，python sdk调用需要依赖

1573

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于国际版和国内版客户端购买套餐问题

Pro试用版是只有300的Credits么？

Qoder REPO WIKI使用优化

Qoder Work是个好家伙，但是什么时候能支持自定义模型API？

idea qoder cn报错

相关文章

208技能分类体系：从L0到L4的Skill框架与YAML模板

零基础保姆级教程：阿里云ECS部署OpenClaw，百炼Token Plan完整配置实操

百炼 Qwen3.7-Max 详解：百万上下文、工具调用计费、限流参数、Python 流式调用 Demo

实战获取1688选品API接口：从数据采集到智能选品决策

金融智能：AI如何重构银行业未来

还有其他疑问?