分布式爬虫框架的设计-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

分布式爬虫框架的设计

1521290000233953 2017-03-27 10:33:30 2437

如题,用python有没有好的实现方案。
95d9d23308f24d0ead066e609bef0b1f_1_1490582008.897808.jpg

数据采集 Python
分享到
取消 提交回答
全部回答(3)
  • 1189704817355341
    2019-07-17 20:58:32
    scrapy + redis + mongodb
    0 0
  • lovery
    2019-07-17 20:58:32

    做分布式爬虫,一站式解决数据爬取、解析、存储,可以用Nutch,基于MapReduce实现的,再配合Solr做个索引和检索就好了

    0 0
  • ancin
    2019-07-17 20:58:32

    你这个问题太大了;用一种语言很难设计出优异的分布式爬虫。里面有爬去,筛选,去重,索引,存储,查询等一系列的模块服务。比如存储就不是Python擅长的,索引,查询等都需要其他语言搭配设计,比如java ,ES等进行整合。

    0 0
添加回答
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题