开发者社区> 问答> 正文

分布式爬虫框架的设计

如题,用python有没有好的实现方案。
95d9d23308f24d0ead066e609bef0b1f_1_1490582008.897808.jpg

展开
收起
1521290000233953 2017-03-27 10:33:30 5102 0
3 条回答
写回答
取消 提交回答
  • scrapy + redis + mongodb
    2019-07-17 20:58:32
    赞同 展开评论 打赏
  • 做分布式爬虫,一站式解决数据爬取、解析、存储,可以用Nutch,基于MapReduce实现的,再配合Solr做个索引和检索就好了

    2019-07-17 20:58:32
    赞同 展开评论 打赏
  • 你这个问题太大了;用一种语言很难设计出优异的分布式爬虫。里面有爬去,筛选,去重,索引,存储,查询等一系列的模块服务。比如存储就不是Python擅长的,索引,查询等都需要其他语言搭配设计,比如java ,ES等进行整合。

    2019-07-17 20:58:32
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
基于社区的分布式 风险感知模型 立即下载
如何利用Redisson分布式化传统Web项目 立即下载
Python第五讲——关于爬虫如何做js逆向的思路 立即下载