开发者社区> 问答> 正文

分布式爬虫框架的设计

如题,用python有没有好的实现方案。
95d9d23308f24d0ead066e609bef0b1f_1_1490582008.897808.jpg

展开
收起
1521290000233953 2017-03-27 10:33:30 4992 0
3 条回答
写回答
取消 提交回答
  • scrapy + redis + mongodb
    2019-07-17 20:58:32
    赞同 展开评论 打赏
  • 做分布式爬虫,一站式解决数据爬取、解析、存储,可以用Nutch,基于MapReduce实现的,再配合Solr做个索引和检索就好了

    2019-07-17 20:58:32
    赞同 展开评论 打赏
  • 你这个问题太大了;用一种语言很难设计出优异的分布式爬虫。里面有爬去,筛选,去重,索引,存储,查询等一系列的模块服务。比如存储就不是Python擅长的,索引,查询等都需要其他语言搭配设计,比如java ,ES等进行整合。

    2019-07-17 20:58:32
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
FLASH:大规模分布式图计算引擎及应用 立即下载
图计算专场 大规模分布式图计算、学习和推理技术 及创新应用论坛 立即下载
分布式流处理框架——功能对比和性能评估 立即下载