Heritrix1.14.4 Web后台使用简介

简介:

   启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:

 console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给HeritrixHeap使用情况

   JobsHeritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

   Profiles:Heritrix抓取任务相关的配置

   Logs:Heritrix的运行日志

   Reports:Heritrix的统计报表

   Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

   Help:Heritrix的使用帮助文档

 

 首先我们需要切到Jobs界面,创建一个Job,如图:

 

  根据一个已经存在的job创建抓取任务

2.   根据一个抓取任务备份来创建抓取任务

3.   根据配置创建抓取任务

4.   按照默认方式创建抓取任务

asd   

    一般我们选择第3种创建方式:

 

 

 

 
关于Settings里相关配置项的含义解释说明请看下面这张图:

 
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取

 

 
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:

 
虽然Heritrixweb后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:

 

  益达的GitHub地址请猛戳我,用力,吃点劲儿!!!

益达的新浪微博:看这里,看这里

益达的技术交流社区:码农们,I want you!!!

 

   益达Q-Q:                7-3-6-0-3-1-3-0-5

 

 

   益达的Q-Q群:      1-0-5-0-9-8-8-0-6

 

转载:http://iamyida.iteye.com/blog/2236804

目录
相关文章
|
1月前
|
安全 数据库 开发者
Python Web框架简介
【2月更文挑战第10天】Python Web框架简介。
90 2
|
3月前
|
XML 移动开发 前端开发
HTML5简介(什么是网页、什么是 HTML、Web标准)
网站是指在因特网上根据一定的规则,使用 HTML 等制作的用于展示特定内容相关的网页集合。
37 0
|
6月前
|
JavaScript Java
14 SpringBoot的Web开发简介
14 SpringBoot的Web开发简介
34 0
|
15天前
|
云安全 数据采集 安全
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
阿里云提供两种关键安全产品:Web应用防火墙和云防火墙。Web应用防火墙专注网站安全,防护Web攻击、CC攻击和Bot防御,具备流量管理、大数据防御能力和简易部署。云防火墙是SaaS化的网络边界防护,管理南北向和东西向流量,提供访问控制、入侵防御和流量可视化。两者结合可实现全面的网络和应用安全。
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
|
5月前
|
XML 存储 JSON
web前后台数据交互的四种方式
web前后台数据交互的四种方式
|
4月前
|
算法 Java Python
Python【算法中心 01】Web框架Django入门(安装+项目创建+应用创建+服务启动)Python搭建算法中心后台实例分享
Python【算法中心 01】Web框架Django入门(安装+项目创建+应用创建+服务启动)Python搭建算法中心后台实例分享
47 0
|
5月前
|
移动开发 前端开发 JavaScript
JavaScript简介:探索Web开发中的魔力
JavaScript简介:探索Web开发中的魔力
29 0
|
7月前
|
容器
web 应用在线编辑器 glitch 简介
web 应用在线编辑器 glitch 简介
83 0
|
9月前
|
数据库 Python
01-Django-基础篇-Web框架简介
01-Django-基础篇-Web框架简介
|
9月前
|
Java API
启动springboot web后台项目
启动springboot web后台项目