开发者社区> 涂作权> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2

简介: 前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。 目录: Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1 Cygwin,Nutch安装配置
+关注继续查看

前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。

目录:

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4



一、开发环境介绍(以我个人为例):

个人开发端:windows Server 2003 + Cygwin + Eclipse3.2

二、具体步骤:

<1>.下载nutch1.2(http://labs.renren.com/apache-mirror//nutch/)

下载完成后解压到指定的文件夹。

在开始测试Nutch是否搭建成功之前,请先确保本机安装了JDK,并且设置了正确的JAVA_HOME环境变量,注意:环境变量的设置中一定要将JDK的安装根目录设置为JAVA_HOME,然后再设置CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib,千万不要设置为绝对目录,否则在执行Nutch命令时会出现错误

点击查看详情

<2>.开始配置Nutch:

第一:修改nutch目录下的conf子目录下的两个文件:

在nutch-site.xml的configuration下增加一个http.agent.name节点(如不修改则不能抓取)

     <configuration>

            <property>

             <name>http.agent.name</name>

             <value>HD nutch agent</value>

             </property>

              <property>

              <name>http.agent.version</name>

              <value>1.2</value>

               </property>

      </configuration>

在crawl-urlfilter.txt中将如下语句改成需要的形式:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/

注:“+”号前不要有空格

第二:执行抓取操作

(1).在Nutch根目录下新建一个url.txt文件,其每一行输入你想要爬去的网站域名。

例如:

http://www.qq.com/

http://www.sina.com.cn/

注:以行为单位,每行输入一个域名,且域名格式遵从上述例子,最后要加"/"

接着修改:apache-nutch-1.2-bin.zip\nutch-1.2\conf\nutch-default.xml中内容:

<property>
  <name>http.agent.name</name>
  <value>sina</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty -
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

    http.robots.agents
    http.agent.description
    http.agent.url
    http.agent.email
    http.agent.version

  and set their values appropriately.

  </description>
</property>

红色标记的地方不能为空,可以随便写一个


解决方法:在cygwin中输入:export LANG="zh_CN.GBK"
,而后回车
其实就是设置下linux的环境变量

一定要写:否则出现如下错误:

Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)

(2).打开cygwin,执行命令行:

注:作者的Nutch放置在G:/nutch

命令行:cd g:      (其中g表示你的apache-nutch-1.2-bin的存放位置)

image

apache-nutch-1.2-bin重命名为:nutch

命令行: cd nutch          

image 

命令行: bin/nutch crawl url.txt –dir localweb –depth 3 –threads 4

注:该命令行中的参数请自行学习参考,这里不多做解释。

此时,Nutch就开始执行抓取操作了,配置成功。

经过以上的步骤,后端的操作基本完毕,此时可以在cygwin中到nutch根目录下

执行下面命令进行简单的查询测试:

bin/nutch org.apache.nutch.searcher.NutchBean 关键字

<3>Tomcat的配置

(1).将tomcat安装目录下的\webapps下的ROOT删除;

(2).将nutch目录的nutch-1.2.war复制到tomcat\webapps下,并将其改名为ROOT.war;

     如果Tomcat正在运行,那么ROOT.war会自动生成ROOT文件夹;如果没有运行,那么启动Tomcat之后,会自动生成ROOT文件夹。

(3.)打开ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式:

    <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

  <!-- Put site-specific property overrides in this file. -->

  <nutch-conf>

   <property>

    <name>searcher.dir</name>

    <value>g:/nutch/localweb</value>

   </property>

  </nutch-conf>

  其中的"<value>g:/nutch/localweb</value>"部分,应根据自己的设置进行相应修改,是nutch抓取结果存放目录。

启动Tomcat,打开浏览器在地址栏中输入:http://localhost:8080/,即可看见nutch的搜索页面。

image

至此,Nutch的简单配置完毕,接下来说说如何在eclipse中导入并调试Nutch,

请点击查看文章




版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
安卓开发环境的搭建(本文由本人根据网上的资料整理的成功版本)
本文的版权归文章写的人所有,本人负责整理,如有侵权,请联系我删除,谢谢! 最近公司要开始进行安卓系统的开发,所以我也要学习一下如何搭建安卓的开发环境了,这里我选择的路线是jdk+adt这种模式来搭建的,因为比较简单,所以就选择,接下来我们来看看如何搭建: 以下为该文件夹下文件的使用手册: 现在Android开发的环境搭建主要有以下几种方案: 1.jdk+eclipse+adt 2.Jdk+adt-bundle 3.Jdk+android studio jdk要去官网下载。
875 0
【原创】linux命令-Axel命令 - linux多线程下载 - 费元星 - 未来星开发团队
【费元星版权Q:9715234】 Axel 是 Linux 下一个不错的HTTP/FTP高速下载工具。支持多线程下载、断点续【费元星版权Q:9715234】传,且可以从多个地址或者从一个地址的多个连接来下载同一个文件。
755 0
使用github + Octopress 搭建免费博客 + 碰到问题的解决方法
使用github + Octopress 搭建免费博客,先说碰到的问题,具体创建方法见下面。 问题1, 添加ruby淘宝链接问题,显示无法获取, 解决: source “http://ruby.taobao.
1119 0
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。 目录: Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1 Cygwin,Nutc
845 0
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。 目录: Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1 Cygwin,Nutch安装
948 0
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1 Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2 Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3 Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4
1023 0
【转】小生我怕怕工具包[2010.06.17](转自52破解论坛)
该破解工具包是52破解论坛的斑竹小生我怕怕搜集制作,喜欢的可以下了啊……----------------------------------------------------------------------以上为软件扫描的目录……工具繁多啊……下载地址: http://u.
1563 0
+关注
涂作权
java,架构,编程语言相关专家
文章
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载