Nutch 1.0 完全配置笔记

简介: 下载Nutch 1.0。(Require JDK 1.5 or later release) 1.   linux环境下解压到本地目录,手动添加 日志文件夹----/log/log.txt URL文件夹----/urls/url.txtIndex文件夹-----/indexs 2.   修改nutch-1.0"conf"nutch-site.xml文件 在中添加 不修改也无所谓,这里的设置,是因为nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。

下载Nutch 1.0(Require JDK 1.5 or later release)

1.   linux环境下解压到本地目录,手动添加

日志文件夹----/log/log.txt

URL文件夹----/urls/url.txt
Index文件夹-----/indexs

2.   修改nutch-1.0"conf"nutch-site.xml文件

<configuration></configuration>中添加

<property><name></name><value></value></property>

不修改也无所谓,这里的设置,是因为nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。

3.   修改nutch-1.0"conf"crawl-urlfilter.txt文件
MY.DOMAIN.NAME字符替换为url.txt内的域名(比如我改成了“+^http://([a-z0-9]*".)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*".)*这几个字就可以了,表示所有http的网站都同意爬行)。

4.   确保JAVA环境变量path正确;

5.   Linux Shell控制台下运行nutch 命令行:

Sudo bin/nutch crawl urls -dir indexs -depth 2 -threads 4 -topN 1000 >&LOGS/log.txt

这里-dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件

运行结束后,你可以打开日志文件查看爬虫运行的详细过程。

6.   部署搜索工程--tomcat上运行Nutch

nutch-1.0.war拷贝到Tomcat""webapps"下面,修改nutch-1.0.warnutch-1.0/WEB-INF/classes/nutch-site.xml 文件,在<configuration></configuration>中添加

<property>

<name>search.dir</name>

<value>/indexs</value>(windows下也输入绝对路径)

</property>

7.   为了支持中文的搜索,修改Tomcat"conf"server.xml
<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"/>

      添加属性 URIEncoding="UTF-8"

                    useBodyEncodingForURI="true"

8.   启动tomcat ,输入http://localhost:8080/nutch-1.0/ 进行搜索。

目录
相关文章
|
存储 分布式计算 资源调度
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(上)
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】
480 0
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(上)
|
消息中间件 Kafka 分布式数据库
111 Storm源码下载及目录熟悉
111 Storm源码下载及目录熟悉
141 0
|
存储 分布式计算 资源调度
膜拜!华为内部都在强推的783页大数据处理系统:Hadoop源代码pdf
大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎么实现的。
|
分布式计算 资源调度 Hadoop
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(下)
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(下)
159 0
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(下)
|
数据采集 Windows 数据挖掘
|
开发工具 Windows 数据格式
|
搜索推荐 Android开发