Python+MongoDB 爬虫实战-阿里云开发者社区

Python+MongoDB 爬虫实战

2013-03-04 3264

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 MongoDB，独享型 2核8GB

简介：

工具准备及爬虫搭建

Scrapy(python写成的爬虫框架)

在前一篇 Scrapy爬虫入门里有写到Scrapy的安装和基本使用，他的特点是每个不同的page都自己定制一个不同的Spider，通过

scrapy crawl spidername -o file -t json

的方法运行爬虫程序并且以json形式保存到目标文件里（当然后面 -o -t 两项可以省略）。而且python代码很少，实现很方便。简单看下python的语法就可以轻松上手。

顺便以Java开发者和python小白用户的角度阐述下我对python语法的总结：

句末不带分号
if，while，for不带大括号
变量不用声明，比js声明还简单
三个主要数据结果：字典，列表，元组
没有好的IDE，全靠自己声明：包的导入要自己声明，异常要自己声明
代码短小，给我很强烈的空虚感

MongoDB(带上pymongo和mongo-java-driver)

很早以前就想实践下MongoDB，早早的看过《MongoDB权威指南》，却一直没有机会实战，亏得毕设可以让我有了需求驱动。因为MongoDB以BSON的形式存储对象，所以我觉得蛮适合存储Scrapy的json爬取结果，由pymongo进行交互。爬取到的数据后期会交由solr搭建搜索服务，所以也装上了java的driver看看读取结果。

java-driver的简单操作

pymongo的简单操作

数据尝试

以CSDN博客里的数据练手，爬取CSDN各博客内的博文内容数据。先爬取热门文章页面上的一些博主名字和url：

{
    'username' : 'xxx',
    'url' : 'http://blog.csdn.net/xxx/article/list/n'
}

然后爬取该博主所有的文章url链接，再爬取每份url链接里的内容，存到MongoDB里：

{
    'user' : 'xxx',
    'title' : 'xxxxx',
    'tag' : ['xx', 'xx', 'xx'],
    'content' : 'xxxxxxxxxxxxxxxxxxxxxxxx' 
}

总结

有一些技术是由需求驱动才去尝试学习；有一些问题只要具备一定的执行力就能发现。

MongoDB读取性能如何？他的自动分片怎么得以体现？自带的js版mapreduce如何利用？

如何将Scrapy做成一种服务？python语言的各种实践？

今后的数据会设计论文，个人主页，这里的CSDN博客数据只是整条道路的铺垫。不过对整个学习和探索过程我还是充满期待，哈哈。

项目地址: https://github.com/zbf8441372/VerticleSearchEngine

相关实践学习

MongoDB数据库入门

MongoDB数据库入门实验。

快速掌握 MongoDB 数据库

本课程主要讲解MongoDB数据库的基本知识，包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用（唯一索引、地理索引、过期索引、全文索引等）、MapReduce操作实现、用户管理、Java对MongoDB的操作支持（基于2.x驱动与3.x驱动的完全讲解）。通过学习此课程，读者将具备MongoDB数据库的开发能力，并且能够使用MongoDB进行项目开发。   相关的阿里云产品：云数据库 MongoDB版云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构，具备安全审计，时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。云数据库MongoDB版（ApsaraDB for MongoDB）完全兼容MongoDB协议，基于飞天分布式系统和高可靠存储引擎，提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。产品详情: https://www.aliyun.com/product/mongodb

Python+MongoDB 爬虫实战

工具准备及爬虫搭建

Scrapy(python写成的爬虫框架)

MongoDB(带上pymongo和mongo-java-driver)

数据尝试

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python+MongoDB 爬虫实战

工具准备及爬虫搭建

Scrapy(python写成的爬虫框架)

MongoDB(带上pymongo和mongo-java-driver)

数据尝试

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像