网络爬虫(2):存储

简介:

目前我想到的存储方案有两种:单文件单页面存储和单文件多页面存储。

单文件单页面存储就是一个页面存储在一个文件中,文件名称可以使用页面编号doc_id。这种方案查找的时候容易定位,直接使用文件名就可以,缺点是会产生大量琐碎的文件,管理、冗余和查询感觉都不太方便。

单文件多页面存储即一个文件存储多个页面,写满一个文件后,自动开始写下一个。每个文件有一个编号store_file_id,在查找某一个页面的时候,通过页面的编号doc_id,可以找到对应的store_file_id及页面在文件中的位置position,然后就能找个这个页面。每个文件的大小是可以定制的,默认200M一个。一个页面的数据不会分在两个文件中,只会在一个页面写入完成后,才会发生写新文件的操作,所以存储实际的大小会是200M多几十K。

目前采用的就是单文件多页面的存储方式。其中的每个页面又按以下格式存放数据:

  1. doc_id:页面文档编号,unsigned int,该页面的url的md5签名。
  2. timestamp:页面的抓取时间,time_t类型。
  3. is_analyzed:该页面是否已经分析,bool(short)类型。
  4. url_length:该页面url的长度,unsigned int。
  5. url:该页面的url,长度为url_length的char数组。
  6. domain_length:域名的长度,unsigned int,类似url_length。
  7. domain:域名,长度为domain_length的char数组,类似url。
  8. response_length:响应的长度,unsigned int,类似url_length。
  9. response:响应的内容,长度为response_length的char数组,类似url。

存储格式图示如下(单一存储文件):

页面存储

store模块中的主要函数如下:

/*
 * 初始化文件存储,在调用store_page方法前,必须先调用此方法。
 *     @store_path               存储路径
 *     @store_file_max_length    存储文件的最大长度,单位是字节
 */
extern int initial_store(char* store_path, unsigned long store_file_max_length);
/*
 * 关闭文件存储
 */
extern int close_store();
/*
 * 将页面存储到磁盘
 *     @page    要储存的页面
 */
extern int store_page(page* page);
/*
 * 取得下一个未分析的页面
 *     @page   用于存在数据的页面
 *     @return 成功返回0,出错返回-1,没有未分析的页面,返回1
 */
extern int get_page_to_parse(page* page);

initial_store和close_store这对方法用于开始和结束。initial_store会根据给出的store_path自动计算出下一个要写入的文件的编号和位置。close_store负责关闭文件指针,这两个函数在主程序中出现,且只出现一次:initial_store在出程序的开始,close_store在主程序的结束。

store_page和get_page_to_parse这对方法用于写入和读出。store_page将给出的page结构体写入文件,同时负责新存储文件的创建等。get_page_to_parse则负责读取下一个要分析的页面,存储在page指针中。get_page_to_parse还会将这次读取给出的文件在磁盘中标记为已分析。

这里的分析的含义仅指提取页面中的url。

本文转自冬冬博客园博客,原文链接:http://www.cnblogs.com/yuandong/archive/2008/06/24/Web_Spider_Store.html,如需转载请自行联系原作者

相关文章
|
4月前
|
存储 NoSQL MongoDB
Python爬虫之非关系型数据库存储#5
MongoDB、Redis【2月更文挑战第18天】
59 1
|
4月前
|
存储 分布式计算 Hadoop
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
193 3
|
14天前
|
消息中间件 存储 Serverless
函数计算产品使用问题之怎么访问网络附加存储(NAS)存储模型文件
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
254 2
|
22天前
|
存储 网络协议 搜索推荐
在Linux中,如何配置和管理虚拟机的网络和存储?
在Linux中,如何配置和管理虚拟机的网络和存储?
|
12天前
|
数据采集 存储 JavaScript
构建你的首个Python网络爬虫:抓取、解析与存储数据
【8月更文挑战第31天】在数字时代的浪潮中,数据成为了新的石油。了解如何从互联网的海洋中提取有价值的信息,是每个技术爱好者的必备技能。本文将引导你通过Python编程语言,利用其强大的库支持,一步步构建出你自己的网络爬虫。我们将探索网页请求、内容解析和数据存储等关键环节,并附上代码示例,让你轻松入门网络数据采集的世界。
|
29天前
|
存储 Kubernetes 调度
使用 Kubeadm 部署 Kubernetes(K8S) 安装 -- 持久化存储(NFS网络存储)
使用 Kubeadm 部署 Kubernetes(K8S) 安装 -- 持久化存储(NFS网络存储)
43 0
|
3月前
|
存储 缓存 NoSQL
Redis为什么速度快:数据结构、存储及IO网络原理总结
Redis为什么速度快:数据结构、存储及IO网络原理总结
|
4月前
|
存储 负载均衡 监控
|
4月前
|
SQL 存储 分布式计算
Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
【4月更文挑战第6天】Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
102 1