存储大量爬虫数据的数据库,了解一下?

简介: "当然, 并不是所有数据都适合"在学习爬虫的过程中, 遇到过不少坑.今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增.

"当然, 并不是所有数据都适合"

在学习爬虫的过程中, 遇到过不少坑.

今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增.

怎么个骤增法?

Intro 引例

在爬虫入门的时候, 我们爬取豆瓣电影Top250这些数据量并不是很大的网页时(仅计算文本数据量), 通常无需考虑数据存储的效率问题, 使用MySQL这些关系型数据库, 或者用TXT, CSV等文本格式存储, 都可以很快地存储完毕, Spider也可以跟着快速关闭. 因此我们感觉不到上述方式的弊端.

起初, 我爬的数据量在几千条时, 我选择用MySQL作为数据存储的数据库,
爬取结束时, 存储的时间花了几秒, 我还没有太在意.

爬取数据

但是当我爬取的数据量到了200M左右时, 问题非常明显了. 此时用MySQL存储, 半小时都无法关闭Spider! 如果添加了查重, 时间将会指数增长.

而使用CSV存储, 虽然关闭花不了特别多时间, 但是打开关闭文件所需的时间同样不少! Excel直接无法打开, Sublime和VS Code则要花费十几秒的时间来打开.

数据打开缓慢

图 : 正在打开CSV的Sublime Text

在后续对CSV中的数据进行基本的格式化后发送到Django可视化时, 打开网页的处理时间接近1分30秒. 速度感人.

感人的速度让我意识到要换一种方式来存储和处理数据, 本文仅对数据存储部分做过相应测试.

我将眼光瞄准了NoSQL中的MongoDB.

What's NoSQL

关系型数据库一直是计算机相关专业的必修课, 在过去的很长时间, 占据了互联网数据量的很大一部分. 但是随着大数据时代到来, 关系型数据库已然满足不了某些大数据的处理要求.

数据量变化
image.png

NoSQL,指的是非关系型的数据库。NoSQL也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。

NoSQL用于超大规模数据的存储。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。

What's MongoDB

  • MongoDB是一种非关系型数据库, 是一个面向文档存储的数据库,操作起来比较简单和容易.
  • 可以通过本地或者网络创建数据镜像,这使得MongoDB有更强的扩展性.
  • MongoDB支持RUBY,Python,Java,C++,PHP,C#等多种语言
  • Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组
  • 内建支持Map和Reduce函数, 可对数据进行批量和聚合操作.

Why MongoDB

将目光放在MongoDB这样的文档型NoSQL身上, 是因为爬取的数据

  • 对一致性要求不高
  • 读写的速度要求较高
  • 遇到数据字段发生变化时, 可以更方便的添加字段, 无需改变以前的数据结构.

How TO

1. Step 1 安装MongoDB

安装MongoDB, 参考文档https://docs.mongodb.com/manual/administration/install-community/

安装pymongo, 如果你使用pip安装方式, 直接在终端中键入
pip install pymongo

安装成功的检测, 在python的shell中import pymongo不报错即可.

2. Step 2 添加项目配置

添加配置信息
在Scrapy项目的settings.py中添加以下代码

MONGO_HOST = "127.0.0.1" #主机IP
MONGO_PORT = 27017       #端口号
MONGO_DB = "Spider"      #库名
MONGO_COLL = "jobinfo"   #collection名
# MONGO_USER = ""
# MONGO_PSW = ""

代码片中的端口号为默认端口号, 如果安装后进行了修改, 以修改后为准, 库名及Collection名同上.

MongoDB支持动态创建, 因此你并不需要提前创建数据库和下属的Collection

3. Step 3 启用MongoDB存储Pipeline

在你Scrapy项目的pipelines.py中添加以下的方法(注意函数要写在某个Pipeline类中, 并在settings.py中启用对应的Pipeline, 如果你已经启用, 直接添加即可):

# 在Python中使用mongoDB的所需的包
import pymongo

# 配置mongoDB所需的包
from scrapy.conf import settings

def __init__(self):
        # connect to db
        self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])
        # ADD if NEED account and password
        # 当需要使用数据库的用户名和密码, 取消以下的注释, MongoDB支持直接查询, 无需登录
        # self.client.admin.authenticate(host=settings['MONGO_USER'], settings['MONGO_PSW'])
        # 设置数据库客户端类型
        self.db = self.client[settings['MONGO_DB']]
        # 取得数据库句柄
        self.coll = self.db[settings['MONGO_COLL']]

然后在同个文件下处理item的函数末尾中添加以下代码:

def process_item(self, item, spider):
    # .....
    postItem = dict(item)
    self.coll.insert(postItem)
    # 在终端中显示你的爬取数据
    return item
4. Step 4 Enjoy

在终端中运行你的爬虫, 待数据爬取完毕, Spider迅速关闭, 而数据已经写入数据库!
在终端中键入

# 切换数据库
use Spider
# 查找所有数据, pretty()函数用于格式化数据显示
# jobinfo为collection名称
db.jobinfo.find().pretty()
image.png

QQ联系: 994342122(不闲聊)
邮箱: fesonx@foxmail.com

目录
相关文章
|
7月前
|
存储 JSON 关系型数据库
【干货满满】解密 API 数据解析:从 JSON 到数据库存储的完整流程
本文详解电商API开发中JSON数据解析与数据库存储的全流程,涵盖数据提取、清洗、转换及优化策略,结合Python实战代码与主流数据库方案,助开发者构建高效、可靠的数据处理管道。
|
7月前
|
存储 Oracle 关系型数据库
服务器数据恢复—光纤存储上oracle数据库数据恢复案例
一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。 通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。 将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。
|
5月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
6月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
5月前
|
人工智能 Java 关系型数据库
使用数据连接池进行数据库操作
使用数据连接池进行数据库操作
165 11
|
6月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL数据库的WAL日志与数据写入的过程
PostgreSQL中的WAL(预写日志)是保证数据完整性的关键技术。在数据修改前,系统会先将日志写入WAL,确保宕机时可通过日志恢复数据。它减少了磁盘I/O,提升了性能,并支持手动切换日志文件。WAL文件默认存储在pg_wal目录下,采用16进制命名规则。此外,PostgreSQL提供pg_waldump工具解析日志内容。
619 0
|
5月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
442 158
|
5月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
5月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
1032 152