转 nutch 插件开发[资料整理]

简介:

plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。

nutch使用这样的plugin系统有什么好处:

1:可扩展性       通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:我们在NUTCH里使用LOADBALANCE进行下载的插件,它就是一个对protocol这个接口的实现。

2:灵活性      因为每个人都可以根据自己的需求而写自己的plugin,这样plugin就会有一个很强大的资源库。这样对应用nutch程序员来说,他可以在自己的搜索引擎上安装符合自己需求的插件,而这些插件就在nutch的plugins中。这对于正在应用nutch的开发者来说应该是一个巨大的福音,因为你有了更多的关于内容抽取的算法来选择,很容易就增加了各种过滤规则、下载方式、解析文件类型等。


3:可维护性
每个开发者只要关注自己的问题。对于内核的开发者在为引擎内核扩展的同时,为plugin添加一个描述它的接口就可以了。一个plugin的开发者只要关注这个plugin所要实现的功能,而不需要知道整个系统是怎么工作的。它们仅仅需要知道的是plugin和plug之间交换的数据类型。这使得内核更加简单,更容易维护。

plugin的工作原理

nutch的plugin系统是基于Eclipse 2.x中对插件的使用。plugins对nutch的工作是很重要的。nutch中的fetch(下载)、parsing(分析),indexing(索引),searching(查询)等都是通过不同的plugins来实现的。

在编写一个plugin的时候,要为一个扩展点添加一个或者更多的扩展项。这些Nutch的扩展点是Nutch在一个plugin中已经定义好了,这个plugin是NutchExtensionPoints(所有的扩展点都会在NutchExtensionPoints 的plugin.xml这个文件中列出)。每一个扩展点都定义了一个接口,这个接口在扩展时必须被实现。

nutchExtensionPoints
这些扩展点如下:
indexingFiltering:
org.apache.nutch.indexer.IndexingFilter
允许为所索引中的Field添加元数据。所有的实现了这个接口plugin会在分析的过程中顺序的逐个运行.

Parser:
org.apache.nutch.parse.Parser    如果你要在nutch中扩展分析一个新内容类型或者从现有的可分析的内容摘取更多的数据。可实现接口parser,读取所抓取的document,摘取将被索引的数据。

HtmlParseFilter:
org.apache.nutch.parse.HtmlParseFilter
为html parser添加额外的元数据
这个接口是对以DOM树为基础的HTML文档的分析器的扩展点,它允许你向这个HTMLParsers添加metadata.


protocol:
org.apache.nutch.protocol.Protocol
实现Protocol的plugin可以使得nutch能使用更多的网络协议(ftp,http)去抓取数据

URLFileter:
org.apache.nutch.net.URLFilter
实现这个扩展点的plugin会对nutch要抓取的网页的urls进行限制,RegexURLFilter提供了通过正则表达式来对Nutch爬行网页的urls的控制。如果你对urls还有更加复杂的控制要求,你可以编写对这个urlfilter的实现

URLNormalizer:
org.apache.nutch.net.URLNormalizer
URL规范化

ScoringFilter:
org.apache.nutch.scoring.ScoringFilter
Nutch分数计算接口,可通过实现该接口以影响Nutch分数的计算方式,其默认的OPIC分数计算方法由类 OPICScoringFilter 提供。此外,参与计算分数的类还有 ScoringFilters,ParseOutputFormat。其中 ScoringFilters 负责将各个计分插件加载到系统中,并实现链式计分的过程;而ParseOutputFormat在解析结果输出之前,将页面的分数分配到该页面的各个子页面中,使得Nutch的更新模块可以使用这些数据更新CrawlDB数据库。

SegmentMergeFilter:
org.apache.nutch.segment.SegmentMergeFilter

segment合并过滤接口。按一定的规则将多个SEGMNET进行合并、过滤。

plugin的内部结构


protocol扩展点插件开发

以protocol扩展点为例,我们对NUTCH中的数据下载方式进行改变,使用我们的方式进行下载。
首先,新建源码目录,目录中包含3个xml,一个源程序目录。

plugin.xml :向nutch描述这个plugin的信息
build.xml :告诉ant怎样编译这个plugin
Ivy.xml:这个plugin的ivy配置信息
源程序有两个JAVA类:

Http.java:实现protocol接口 ,这里为简便,继承自httpbase类,httpbase类是一个API意义的类,实现了protocol接口,这样我们可减少很多工作。



HttpReponse.java:用于实现下载并返回信息。

图1:


图2,接上图:


plugin.xml说明
<plugin
   id="protocol-http-netty"  插件ID
   name="protocol http netty Plug-in" 插件名称
   version="1.0.0" 插件版本
   provider-name="pycredit"> 插件提供者的ID

   <runtime>
      <library name="protocol-http-netty.jar"> 发布的JAR包
         <export name="*"/> 
      </library>
   </runtime>

   <requires>
      <import plugin="nutch-extensionpoints"/> 依赖的插件
 <import plugin="lib-http">
   </requires>

   <extension id="org.apache.nutch.protocol.netty.http" 扩展的插件ID
              name="HttpProtocol" 扩展的插件名
              point="org.apache.nutch.protocol.Protocol"> 插件的扩展点ID
      <implementation id="org.apache.nutch.protocol.netty.http.Http" 插件实现ID
                      class="org.apache.nutch.protocol.netty.http.Http"> 实现类
        <parameter name="protocolName" value="http"/>插件的参数
      </implementation>
      -->
   </extension>
</plugin>

实现接口编写代码完毕后修改配置步骤如下:

1、src/plugin/build.xml中,在
<target name="deploy">;
<target name="test">;
<target name="clean">;
分别增加相应配置,将我们新开发的插件添加进去,如:
<ant dir="protocol-http-netty" target="deploy">

 2、修改nutch/build.xml文件在
<target name="release" depends="compile-core" description="generate the release distribution">
中增加配置如:
<packageset dir="${plugins.dir}/protocol-http-netty/src/java"/>
 3、 注意检查${plugins.dir}/protocol-http-netty/src/build.xml,其project标签name值要为"protocol-http-netty"

在Nutch使用plugin

如果要在Nutch使用一个给定的plugin,你需要对conf/nutch-site.xml进行编辑并且把plugin的名字添加到plugin.includes中

<property>
<name>searcher.dir</name>
<value>I:/nutch-0.7.1/crawled</value>
</property>
<property>
<name>plugin.includes</name>
<value>nutch-extensionpoints|protocol-http|urlfilter-regex|parse-(text|html)|index-basic|query-(basic|site|url)|recommended
</value>



目录
相关文章
|
Web App开发 存储 监控
全网最详细的谷歌插件开发小册📚(2)
使用tabs API chrome.tabs API 允许插件操作浏览器的标签页,例如创建新的标签页,关闭标签页,切换标签页,修改标签页的URL等。以下是一个创建新标签页的示例:
480 1
|
SQL 前端开发 JavaScript
不可不知的八个出色的Java项目
不可不知的八个出色的Java项目
232 0
|
监控 Java 测试技术
JAVA项目开发从0到1的心路历程
JAVA项目开发是一个复杂而有挑战性的过程,它需要经历从项目规划到需求分析、设计、编码、测试、部署和维护等多个阶段。下面我将分享一下从0到1的心路历程。
462 0
|
Web App开发 移动开发 JSON
谈一谈|谷歌插件入门
谈一谈|谷歌插件入门
320 0
|
存储 Java 数据安全/隐私保护
Java开发必学知识合集(一)
Java开发过程中,常用且重要的知识点是开发中最基本的,尤其是刚接触Java开发不久的开发者来说,基本功很重要,是直接做Java工作的基本,那么本文就来分享一下在Java开发过程中的常用的知识点,由于篇幅问题,这里只分享一部分内容,没有分享到的会在后面的博文中分享。
100 0
Java开发必学知识合集(一)
|
移动开发 小程序 JavaScript
讲真,这几个完整的开源Java项目能让你的能力提高一大截
前言 今天有一个读者问了,一个很神奇的问题:
189 0
|
消息中间件 Kubernetes JavaScript
讲真,这几个完整的开源Java项目能让你的能力提高一大截(下)
前言 今天有一个读者问了,一个很神奇的问题:
247 0
|
数据可视化 数据安全/隐私保护 Python
开发了一款小众开源工具,没想到还有这么多人用!
由于 Gitee Pages 的访问速度很快,很多朋友会选择 Gitee Pages 部署项目(如:个人博客、开源项目国内镜像站点)。但是它不像 GitHub Pages 那样,一提交代码就能自动更新 Pages,因为 Gitee 的自动部署属于 Gitee Pages Pro 的服务。
314 0
开发了一款小众开源工具,没想到还有这么多人用!
|
消息中间件 Dubbo NoSQL
今年我读了四个开源项目的源码,来分享下心得(上)
今年我读了四个开源项目的源码,来分享下心得(上)
今年我读了四个开源项目的源码,来分享下心得(上)
|
消息中间件 Dubbo 应用服务中间件
今年我读了四个开源项目的源码,来分享下心得(下)
今年我读了四个开源项目的源码,来分享下心得(下)
今年我读了四个开源项目的源码,来分享下心得(下)

相关实验场景

更多