这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。
要在Windows上让Heritrix跑起来,下面三步就OK了:
1) 下载最新版的Heritrix并解压到一个指定文件夹下(^-^废话。。。)
2) 建立如下的windows命令脚本文件并运行。
title Heritrix
set HERITRIX_HOME=C:\Program Files\Heritrix
cd "C:\Program Files\Heritrix"
set classpath=%HERITRIX_HOME%\heritrix-1.12.1.jar;
%HERITRIX_HOME%\lib\ant-1.6.2.jar;
%HERITRIX_HOME%\lib\commons-cli-1.0.jar;
%HERITRIX_HOME%\lib\commons-codec-1.3.jar;
%HERITRIX_HOME%\lib\commons-collections-3.1.jar;
%HERITRIX_HOME%\lib\commons-httpclient-3.0.1.jar;
%HERITRIX_HOME%\lib\commons-logging-1.0.4.jar;
%HERITRIX_HOME%\lib\commons-net-1.4.1.jar;
%HERITRIX_HOME%\lib\commons-pool-1.3.jar;
%HERITRIX_HOME%\lib\dnsjava-2.0.3.jar;
%HERITRIX_HOME%\lib\itext-1.2.0.jar;
%HERITRIX_HOME%\lib\jasper-compiler-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\jasper-runtime-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\javaswf-CVS-SNAPSHOT-1.jar;
%HERITRIX_HOME%\lib\je-3.2.23.jar;%HERITRIX_HOME%\lib\jetty-4.2.23.jar;
%HERITRIX_HOME%\lib\junit-3.8.2.jar;%HERITRIX_HOME%\lib\poi-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\poi-scratchpad-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\servlet-tomcat-4.1.30.jar;
HERITRIX_HOME%\lib\bsh-2.0b4.jar;
HERITRIX_HOME%\lib\commons-lang-2.3.jar;
HERITRIX_HOME%\lib\fastutil-5.0.3-heritrix-subset-1.0.jar;
HERITRIX_HOME%\lib\jericho-html-2.3.jar;
HERITRIX_HOME%\lib\jets3t-0.5.0.jar;
HERITRIX_HOME%\lib\libidn-0.5.9.jar;
HERITRIX_HOME%\lib\mg4j-1.0.1.jar;
java -Xmx512m org.archive.crawler.Heritrix --admin=dyk:111
命令的含义也十分明显,就是设置环境变量,把Home和classpath设置好就行了,在linux里面也是一样的工作。--admin=dyk:111这里的“dyk:111”是我设置的用户名和密码,是你下面用来进入Adimin Console的。
Heritrix启动后结果如图所示:
2007101801.jpg
3) 在浏览器中打开http://127.0.0.1:8080来访问Heritrix的Web用户接口(注意它默认的端口是8080,所以如果你用tomcat等,记得把端口改了)。输入前面说的用户名和密码就可以看到下面的配置界面了:
在“Reports”栏目下面可以看到有5方面的report,哈哈,注意到了没有,就是很多讲解web爬虫的资料上那经典的5个组件。。。
本文转自Phinecos(洞庭散人)博客园博客,原文链接:http://www.cnblogs.com/phinecos/archive/2007/10/18/929506.html,如需转载请自行联系原作者