Heritrix研究笔记(一)

简介:
 这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。

      要在Windows上让Heritrix跑起来,下面三步就OK了:

1)     下载最新版的Heritrix并解压到一个指定文件夹下(^-^废话。。。)

2)     建立如下的windows命令脚本文件并运行。

title Heritrix

set HERITRIX_HOME=C:\Program Files\Heritrix

cd "C:\Program Files\Heritrix"

set classpath=%HERITRIX_HOME%\heritrix-1.12.1.jar;
%HERITRIX_HOME%\lib\ant-1.6.2.jar;
%HERITRIX_HOME%\lib\commons-cli-1.0.jar;
%HERITRIX_HOME%\lib\commons-codec-1.3.jar;
%HERITRIX_HOME%\lib\commons-collections-3.1.jar;
%HERITRIX_HOME%\lib\commons-httpclient-3.0.1.jar;
%HERITRIX_HOME%\lib\commons-logging-1.0.4.jar;
%HERITRIX_HOME%\lib\commons-net-1.4.1.jar;
%HERITRIX_HOME%\lib\commons-pool-1.3.jar;
%HERITRIX_HOME%\lib\dnsjava-2.0.3.jar;
%HERITRIX_HOME%\lib\itext-1.2.0.jar;
%HERITRIX_HOME%\lib\jasper-compiler-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\jasper-runtime-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\javaswf-CVS-SNAPSHOT-1.jar;
%HERITRIX_HOME%\lib\je-3.2.23.jar;%HERITRIX_HOME%\lib\jetty-4.2.23.jar;
%HERITRIX_HOME%\lib\junit-3.8.2.jar;%HERITRIX_HOME%\lib\poi-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\poi-scratchpad-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\servlet-tomcat-4.1.30.jar;
HERITRIX_HOME%\lib\bsh-2.0b4.jar;
HERITRIX_HOME%\lib\commons-lang-2.3.jar;
HERITRIX_HOME%\lib\fastutil-5.0.3-heritrix-subset-1.0.jar;
HERITRIX_HOME%\lib\jericho-html-2.3.jar;
HERITRIX_HOME%\lib\jets3t-0.5.0.jar;
HERITRIX_HOME%\lib\libidn-0.5.9.jar;
HERITRIX_HOME%\lib\mg4j-1.0.1.jar;

java -Xmx512m org.archive.crawler.Heritrix --admin=dyk:111
    命令的含义也十分明显,就是设置环境变量,把Home和classpath设置好就行了,在linux里面也是一样的工作。--admin=dyk:111这里的“dyk:111”是我设置的用户名和密码,是你下面用来进入Adimin Console的。


    Heritrix启动后结果如图所示:

2007101801.jpg

3)     在浏览器中打开http://127.0.0.1:8080来访问Heritrix的Web用户接口(注意它默认的端口是8080,所以如果你用tomcat等,记得把端口改了)。输入前面说的用户名和密码就可以看到下面的配置界面了:

   2007101802.jpg
      在“Reports”栏目下面可以看到有5方面的report,哈哈,注意到了没有,就是很多讲解web爬虫的资料上那经典的5个组件。。。


本文转自Phinecos(洞庭散人)博客园博客,原文链接:http://www.cnblogs.com/phinecos/archive/2007/10/18/929506.html,如需转载请自行联系原作者
目录
相关文章
|
10月前
|
Java 程序员
GitHub最新发布Java面试突击手册+P5-P8学习图谱,一夜直接竟爆火
什么是金九银十? “金九银十指的是每年的九十月份都是人才招聘的高峰期,因为跟春节和春运紧接,到人才市场,人都是满的,所以称为金九;伴随的十月则称为银十。”
|
5月前
|
Java 关系型数据库 MySQL
太牛了! GitHub大牛呕心沥血整理的5000页Java学习手册文档
今天整理了一套 5000 页的 Java 学习手册,,新鲜出炉,分享给大家!此手册内容专注 Java技术,包括 JavaWeb,SSM,Linux,Spring Boot,MyBatis,MySQL,Nginx,Git,GitHub,Servlet,IDEA,多线程,集合,JVM,DeBug, Dubbo,Redis,算法,面试题等相关内容。
|
6月前
|
并行计算 PyTorch 算法框架/工具
关于在安装caffe2环境中遇到的坑整理(欢迎入坑讨论)
关于在安装caffe2环境中遇到的坑整理(欢迎入坑讨论)
|
7月前
|
JSON JavaScript 前端开发
CocosCreator3.8研究笔记(四)CocosCreator 脚本说明及使用(上)
CocosCreator3.8研究笔记(四)CocosCreator 脚本说明及使用(上)
165 0
CocosCreator3.8研究笔记(四)CocosCreator 脚本说明及使用(上)
|
7月前
|
JavaScript 前端开发 API
CocosCreator3.8研究笔记(五)CocosCreator 脚本说明及使用(下)
CocosCreator3.8研究笔记(五)CocosCreator 脚本说明及使用(下)
|
7月前
|
API iOS开发 MacOS
CocosCreator3.8研究笔记(九)CocosCreator 场景资源的理解
CocosCreator3.8研究笔记(九)CocosCreator 场景资源的理解
CocosCreator3.8研究笔记(九)CocosCreator 场景资源的理解
|
7月前
|
缓存 前端开发 算法
CocosCreator3.8研究笔记(十六)CocosCreator 2D对象
CocosCreator3.8研究笔记(十六)CocosCreator 2D对象
136 0
|
8月前
|
SQL 机器学习/深度学习 Java
8款最新宝藏IDEA插件「含ChatGPT」,不容错过,赶紧试试吧
工欲善其事必先利其器,Intellij IDEA是一款十分流行的编程工具,不仅提供了非常强大的基础功能,还构建了一套插件市场生态,让用户可以根据自己需要安装插件,提升开发效率,这里介绍几款好用的插件,感兴趣的小伙伴赶紧试试吧!
|
9月前
|
算法 Java 数据库
Alibaba官方最新发布的这份Java学习导图+彩版手册,真不是吹的
最近一直有小伙伴催小编更新一份有关于Java快速学习捷径的资料,小编想说“书山有路勤为径”,从古至今这句话大家都应该懂的! 不过为了小伙伴能更好的学习,小编特意给大家整理了一份比较详细的Java学习路线和《Java核心知识点总结》一书在手天下我有!
84 1
|
测试技术 Java 开发工具
BAT程序员们常用的开发神器(附代码、教程)
工欲善其事必先利其器,善于利用各种开发工具同样可以事半功倍。
5320 0