Heritrix研究笔记(一)

简介:
 这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。

      要在Windows上让Heritrix跑起来,下面三步就OK了:

1)     下载最新版的Heritrix并解压到一个指定文件夹下(^-^废话。。。)

2)     建立如下的windows命令脚本文件并运行。

title Heritrix

set HERITRIX_HOME=C:\Program Files\Heritrix

cd "C:\Program Files\Heritrix"

set classpath=%HERITRIX_HOME%\heritrix-1.12.1.jar;
%HERITRIX_HOME%\lib\ant-1.6.2.jar;
%HERITRIX_HOME%\lib\commons-cli-1.0.jar;
%HERITRIX_HOME%\lib\commons-codec-1.3.jar;
%HERITRIX_HOME%\lib\commons-collections-3.1.jar;
%HERITRIX_HOME%\lib\commons-httpclient-3.0.1.jar;
%HERITRIX_HOME%\lib\commons-logging-1.0.4.jar;
%HERITRIX_HOME%\lib\commons-net-1.4.1.jar;
%HERITRIX_HOME%\lib\commons-pool-1.3.jar;
%HERITRIX_HOME%\lib\dnsjava-2.0.3.jar;
%HERITRIX_HOME%\lib\itext-1.2.0.jar;
%HERITRIX_HOME%\lib\jasper-compiler-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\jasper-runtime-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\javaswf-CVS-SNAPSHOT-1.jar;
%HERITRIX_HOME%\lib\je-3.2.23.jar;%HERITRIX_HOME%\lib\jetty-4.2.23.jar;
%HERITRIX_HOME%\lib\junit-3.8.2.jar;%HERITRIX_HOME%\lib\poi-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\poi-scratchpad-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\servlet-tomcat-4.1.30.jar;
HERITRIX_HOME%\lib\bsh-2.0b4.jar;
HERITRIX_HOME%\lib\commons-lang-2.3.jar;
HERITRIX_HOME%\lib\fastutil-5.0.3-heritrix-subset-1.0.jar;
HERITRIX_HOME%\lib\jericho-html-2.3.jar;
HERITRIX_HOME%\lib\jets3t-0.5.0.jar;
HERITRIX_HOME%\lib\libidn-0.5.9.jar;
HERITRIX_HOME%\lib\mg4j-1.0.1.jar;

java -Xmx512m org.archive.crawler.Heritrix --admin=dyk:111
    命令的含义也十分明显,就是设置环境变量,把Home和classpath设置好就行了,在linux里面也是一样的工作。--admin=dyk:111这里的“dyk:111”是我设置的用户名和密码,是你下面用来进入Adimin Console的。


    Heritrix启动后结果如图所示:

2007101801.jpg

3)     在浏览器中打开http://127.0.0.1:8080来访问Heritrix的Web用户接口(注意它默认的端口是8080,所以如果你用tomcat等,记得把端口改了)。输入前面说的用户名和密码就可以看到下面的配置界面了:

   2007101802.jpg
      在“Reports”栏目下面可以看到有5方面的report,哈哈,注意到了没有,就是很多讲解web爬虫的资料上那经典的5个组件。。。


本文转自Phinecos(洞庭散人)博客园博客,原文链接:http://www.cnblogs.com/phinecos/archive/2007/10/18/929506.html,如需转载请自行联系原作者
目录
相关文章
|
7月前
|
数据采集 人工智能 机器人
微软37页论文逆向工程Sora,得到了哪些结论?
【2月更文挑战第14天】微软37页论文逆向工程Sora,得到了哪些结论?
109 3
微软37页论文逆向工程Sora,得到了哪些结论?
|
7月前
|
人工智能 供应链 监控
面向企业的 ChatGPT 究极手册:附录 B 到参考文献
面向企业的 ChatGPT 究极手册:附录 B 到参考文献
76 0
|
4月前
|
Ubuntu Linux Docker
OrangePi 学习摘录
OrangePi 学习摘录
31 1
|
自然语言处理 前端开发 Java
网上投票系统的设计与实现(论文+源码)_kaic
随着全球Internet的迅猛发展和计算机应用的普及,特别是近几年无线网络的广阔覆盖以及无线终端设备的爆炸式增长,使得人们能够随时随地的访问网络,以获取最新信息、参与网络活动、和他人在线互动。为了能及时地了解民情民意,把握人们近期关注的内容,政府机构以及各大门户网站等单位会将一些热点话题以投票的形式发布到他们的网站上面,供人们在线投票。因此,网络在线投票系统应运而生。 本文在此情况下设计了一款网上线投票系统。首先,结合实际的应用开发情况,对该系统做了详细的需求分析。然后给出该系统的结构和各功能模块的分析,通过详细的结构和数据库表的设计,最终构建出一个基于Web的、以Struts2框架和MySQ
|
人机交互 容器
Web开发及人机交互导论 实验二 格式化文件
Web开发及人机交互导论 实验二 格式化文件
136 0
Web开发及人机交互导论 实验二 格式化文件
程序人生 - 艾滋病的深度科普
程序人生 - 艾滋病的深度科普
93 0
程序人生 - 艾滋病的深度科普
|
机器学习/深度学习 人工智能 自然语言处理
撒花!《神经网络与深度学习》中文教程正式开源!全书 pdf、ppt 和代码一同放出
撒花!《神经网络与深度学习》中文教程正式开源!全书 pdf、ppt 和代码一同放出
3614 0
撒花!《神经网络与深度学习》中文教程正式开源!全书 pdf、ppt 和代码一同放出
老外的个人网站原来是这样设计的:17个最佳范例给你灵感
作家写书,歌手出唱片,人们选择各种方式呈现最佳的自己。对于UI/UX设计师而言,我想,一个设计精美的个人网站,一定会是一种相当不错的方式。无论你是想要展示自己的设计作品,还是分享自己的设计经验和理念,还是吸引互动增加灵感,还是渴望获得一份更好的工作,一个能充分展示你设计才能的个人网站,一定能够让人更好的了解你,并且记住你。
1601 0
|
测试技术
微软产品组里的十一类人
导读:本文来自86pm.com,作者分享了关于微软产品的设计和开发人员的分类。那么微软究竟是如何划分的呢?且看内容如下: 第一种是产品规划人员。产品规划人员主要任务是调查,包括调查你的竞争对手,客户,以及其他市场需求。
1226 0

相关实验场景

更多