Heritrix研究笔记(一)

简介:
 这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。

      要在Windows上让Heritrix跑起来,下面三步就OK了:

1)     下载最新版的Heritrix并解压到一个指定文件夹下(^-^废话。。。)

2)     建立如下的windows命令脚本文件并运行。

title Heritrix

set HERITRIX_HOME=C:\Program Files\Heritrix

cd "C:\Program Files\Heritrix"

set classpath=%HERITRIX_HOME%\heritrix-1.12.1.jar;
%HERITRIX_HOME%\lib\ant-1.6.2.jar;
%HERITRIX_HOME%\lib\commons-cli-1.0.jar;
%HERITRIX_HOME%\lib\commons-codec-1.3.jar;
%HERITRIX_HOME%\lib\commons-collections-3.1.jar;
%HERITRIX_HOME%\lib\commons-httpclient-3.0.1.jar;
%HERITRIX_HOME%\lib\commons-logging-1.0.4.jar;
%HERITRIX_HOME%\lib\commons-net-1.4.1.jar;
%HERITRIX_HOME%\lib\commons-pool-1.3.jar;
%HERITRIX_HOME%\lib\dnsjava-2.0.3.jar;
%HERITRIX_HOME%\lib\itext-1.2.0.jar;
%HERITRIX_HOME%\lib\jasper-compiler-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\jasper-runtime-tomcat-4.1.30.jar;
%HERITRIX_HOME%\lib\javaswf-CVS-SNAPSHOT-1.jar;
%HERITRIX_HOME%\lib\je-3.2.23.jar;%HERITRIX_HOME%\lib\jetty-4.2.23.jar;
%HERITRIX_HOME%\lib\junit-3.8.2.jar;%HERITRIX_HOME%\lib\poi-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\poi-scratchpad-2.0-RC1-20031102.jar;
%HERITRIX_HOME%\lib\servlet-tomcat-4.1.30.jar;
HERITRIX_HOME%\lib\bsh-2.0b4.jar;
HERITRIX_HOME%\lib\commons-lang-2.3.jar;
HERITRIX_HOME%\lib\fastutil-5.0.3-heritrix-subset-1.0.jar;
HERITRIX_HOME%\lib\jericho-html-2.3.jar;
HERITRIX_HOME%\lib\jets3t-0.5.0.jar;
HERITRIX_HOME%\lib\libidn-0.5.9.jar;
HERITRIX_HOME%\lib\mg4j-1.0.1.jar;

java -Xmx512m org.archive.crawler.Heritrix --admin=dyk:111
    命令的含义也十分明显,就是设置环境变量,把Home和classpath设置好就行了,在linux里面也是一样的工作。--admin=dyk:111这里的“dyk:111”是我设置的用户名和密码,是你下面用来进入Adimin Console的。


    Heritrix启动后结果如图所示:

2007101801.jpg

3)     在浏览器中打开http://127.0.0.1:8080来访问Heritrix的Web用户接口(注意它默认的端口是8080,所以如果你用tomcat等,记得把端口改了)。输入前面说的用户名和密码就可以看到下面的配置界面了:

   2007101802.jpg
      在“Reports”栏目下面可以看到有5方面的report,哈哈,注意到了没有,就是很多讲解web爬虫的资料上那经典的5个组件。。。


本文转自Phinecos(洞庭散人)博客园博客,原文链接:http://www.cnblogs.com/phinecos/archive/2007/10/18/929506.html,如需转载请自行联系原作者
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 算法
GitHub星标破千!斯坦福大学的284个机器学习小抄(漫画中文版)
说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算、大数据等,渗透到我们的生活、工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅仅是数据统计、分析,我们还强调数据挖掘、预测。 机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。 机器学习的核心是”使用算法解析数据,从中学习,然后对新数据作出决定或预测”。也就是说计算机利用已获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。
GitHub星标破千!斯坦福大学的284个机器学习小抄(漫画中文版)
|
6月前
|
Python
小白入门必备!计科教授的Python精要参考PDF开放下载!
随着互联网产业的高速发展,在网络上早已积累了极其丰富的Python学习资料,任何人都可以基于这些资源,自学掌握 Python。 但实际上,网络上充斥的资源太多、太杂且不成体系,在没有足够的编程/工程经验之前,仅靠“看”线上资源自学,的确是一件非常困难的事。
|
5月前
技术笔记:tcolorbox宏包简明教程
技术笔记:tcolorbox宏包简明教程
164 0
|
机器学习/深度学习 人工智能 自然语言处理
Nature:提idea,总结笔记,GPT-3竟成当代「科研民工」
Nature:提idea,总结笔记,GPT-3竟成当代「科研民工」
123 0
|
机器学习/深度学习 人工智能 自然语言处理
撒花!《神经网络与深度学习》中文教程正式开源!全书 pdf、ppt 和代码一同放出
撒花!《神经网络与深度学习》中文教程正式开源!全书 pdf、ppt 和代码一同放出
3066 0
撒花!《神经网络与深度学习》中文教程正式开源!全书 pdf、ppt 和代码一同放出
[雪峰磁针石博客]python GUI工具书籍下载-持续更新
python测试开发项目实战-目录 python工具书籍下载-持续更新 python 3.7极速入门教程 - 目录 Python GUI Programming Cookbook 2nd - 2017.
|
测试技术 Java 开发工具
BAT程序员们常用的开发神器(附代码、教程)
工欲善其事必先利其器,善于利用各种开发工具同样可以事半功倍。
5359 0
|
Java Spring 开发工具
Java开发之上帝之眼系列教程前言和章节目录汇总
如果您正在为Java后端庞大的体系所困扰,如果您正在为各种繁出不穷的技术和各种框架所迷茫,那么本系列文章将带您窥探Java庞大的体系。本系列教程希望您能站在上帝的角度去观察(了解)Java体系。使Java的各种后端技术在你心中模块化;让你在工作中能将Java各个技术了然于心;能够即插即用。
2035 0
下一篇
无影云桌面