使用代码查看Nutch爬取的网站后生成的SequenceFile信息

简介:

必须针对data文件中的value类型来使用对应的类来查看(把这个data文件,放到了本地Windows的D盘根目录下).

代码:

复制代码
 1 package cn.summerchill.nutch;
 2 import java.io.IOException;
 3 
 4 import org.apache.hadoop.conf.Configuration;
 5 import org.apache.hadoop.fs.FileSystem;
 6 import org.apache.hadoop.fs.Path;
 7 import org.apache.hadoop.io.SequenceFile;
 8 import org.apache.hadoop.io.Text;
 9 import org.apache.nutch.crawl.CrawlDatum;
10 import org.apache.nutch.crawl.Inlinks;
11 import org.apache.nutch.parse.ParseData;
12 import org.apache.nutch.parse.ParseText;
13 import org.apache.nutch.protocol.Content;
14 /**
15  * 读取nutch生成的sequencefile文件
16  * @author Administrator
17  *
18  */
19 public class SeFileReader {
20     public static void main(String[] args) throws IOException {  
21         Configuration conf=new Configuration();  
22         Path dataPath=new Path("D:\\data");  
23         FileSystem fs=dataPath.getFileSystem(conf);  
24         SequenceFile.Reader reader=new SequenceFile.Reader(fs,dataPath,conf);  
25         Text key=new Text();  
26         CrawlDatum value=new CrawlDatum();  
27         //Content value = new Content();
28         //Inlinks value = new Inlinks();
29         //ParseText value = new ParseText();
30         //ParseData value = new ParseData();
31         while(reader.next(key,value)){  
32             System.out.println("key->\n"+key);  
33             System.err.println("value->\n"+value); 
34             try {
35                 Thread.sleep(1000);
36             } catch (InterruptedException e) {
37                 e.printStackTrace();
38             }
39             System.out.println("=======================================");
40         }
41         reader.close();  
42     } 
43 }
复制代码

运行结果:

复制代码
key->
http://bbs.superwu.cn/
value->
Version: 7
Status: 2 (db_fetched)
Fetch time: Tue Nov 08 08:31:30 CST 2016
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 1.6153846
Signature: 22defcd7cb4e7b1dc8a16a0a2f339ecb
Metadata: 
     Content-Type=application/xhtml+xml
    _pst_=success(1), lastModified=0
    _rs_=610

=======================================
value->
Version: 7
Status: 1 (db_unfetched)
Fetch time: Sun Oct 09 08:31:35 CST 2016
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 0.23076925
Signature: null
Metadata: 
 
key->
http://bbs.superwu.cn/archiver/
=======================================
key->
http://bbs.superwu.cn/forum.php
value->
Version: 7
Status: 1 (db_unfetched)
Fetch time: Sun Oct 09 08:31:35 CST 2016
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 0.15384616
Signature: null
Metadata: 
 
=======================================
复制代码

 


本文转自SummerChill博客园博客,原文链接:http://www.cnblogs.com/DreamDrive/p/5944073.html,如需转载请自行联系原作者

相关文章
|
2月前
|
数据采集 存储 Web App开发
利用Puppeteer-Har记录与分析网页抓取中的性能数据
在现代网页抓取中,性能数据的记录与分析至关重要。本文介绍如何使用Puppeteer-Har工具记录和分析抓取过程中的性能数据。Puppeteer-Har结合了Puppeteer和Har的优势,简化了性能数据分析流程。首先确保已安装Node.js和npm,并通过`npm install puppeteer puppeteer-har`安装所需库。为了规避IP限制,本文还介绍了如何配置代理IP。最后,通过一个完整示例展示了如何使用Puppeteer-Har抓取今日头条的性能数据,并对生成的HAR文件进行解析和存储。希望本文能为您的网页抓取工作提供帮助。
利用Puppeteer-Har记录与分析网页抓取中的性能数据
|
6月前
|
前端开发 Java
基于Java爬取微博数据(二) 正文长文本+导出数据Excel
【5月更文挑战第12天】基于Java爬取微博数据,正文长文本+导出数据Excel
|
1月前
|
数据采集 存储
爬虫案例—根据四大名著书名抓取并存储为文本文件
爬虫案例—根据四大名著书名抓取并存储为文本文件
|
5月前
|
数据采集 存储 分布式计算
Nutch爬虫在大数据采集中的应用案例
Nutch爬虫在大数据采集中的应用案例
|
6月前
|
数据采集 存储 分布式计算
使用Hadoop和Nutch构建音频爬虫:实现数据收集与分析
使用Hadoop和Nutch构建音频爬虫:实现数据收集与分析
|
11月前
|
XML JavaScript 测试技术
学会XPath,轻松抓取网页数据
# 一、定义 XPath(XML Path Language)是一种用于在 XML 文档中定位和选择节点的语言。XPath的选择功能非常强大,可以通过简单的路径选择语法,选取文档中的任意节点或节点集。学会XPath,可以轻松抓取网页数据,提高数据获取效率。 ## 二、XPath基础语法 节点(Nodes): XML 文档的基本构建块,可以是元素、属性、文本等。 路径表达式: 用于定位 XML 文档中的节点。路径表达式由一系列步骤组成,每个步骤用斜杠 / 分隔。 XPath的节点是指在XML或HTML文档中被选择的元素或属性。XPath中有7种类型的节点,包括元素节点、属性节点、文本节点、命
132 1
学会XPath,轻松抓取网页数据
|
6月前
|
存储 数据采集 JSON
Scrapy爬虫数据存储为JSON文件的解决方案
Scrapy爬虫数据存储为JSON文件的解决方案
|
数据采集
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
309 0
|
存储 数据采集 Python
爬虫系列:存储 CSV 文件
爬虫系列:存储 CSV 文件
133 0
爬虫系列:存储 CSV 文件
|
数据采集 Python
Python网络爬虫之爬取百思不得姐视频并保存至文件
项目说明 使用Python写网络爬虫之爬取百思不得姐视频并保存至文件示例 使用工具 Python2.7.X、pycharm 使用方法 在pycharm中创建一个爬取百思不得姐视频.
1730 0