centos nutch 安装

简介:

先安装svn 

yum install svn

通过svn 构建构建源代码结构

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

下载好后进入文件夹目录进行编译

在这里 需要安装 ant 所以在下载的同时 可以再开一个窗口去下载ant

++++++++++++++++++++++++++ 注意 +++++++++++++++++++++++++++++++++++++++

因为 直接yum安装会安装openjdk

而我使用的是oracle jdk

所以我的选择是通过apache ant主页去下载ant

在 /etc/profile 里面设置 

ANT_HOME

以及 添加 ANT_HOME/bin 路径到PATH当中去

并且 需要你设置添加 JAVA_HOME环境变量

看自己需要咯吧

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

直接解压就能用 添加环境变量后就能用

cd release-1.6

ant

会自动解决依赖包并且编译文件


cd runtime/local

这里面会有单机模式运行nutch 所需要的东西


mkdir urls

vi urls/url.txt 并输入 你需要爬的那个网站 网址

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

使用nohup去后台运行程序 在当前目录会生成一个 nohup.out 运行记录文件

可以使用 tail -f nohup.out 去实时查看运行情况

这时后会发现出错 http.agent.name 缺少这个配置

然后我们使用firefox 中的 firebug 中的网络 去查看我们的 User-Agent

  Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0  

我的是这个 然后看回来

在 release-1.6 目录中的 conf/conf/nutch-default.xml  去查找 http.agent.name 值 然后 复制这块 写到 conf/nutch-site.xml 中 在value 中添加 我们刚在firefox当中查看的自己user-agent值

回到 release-1.6 

ant

再进入 runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

因为 之前我们出错过一次 当时声成了一个文件夹 里面是没有数据的

只是后面读取数据的时候会出现问题

然后 我们只需要 把报错的文件夹删除即可

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &


基本安装和测试就是这样 

跟到视频学习的 大家喜欢可以自己看的

连接: http://yangshangchuan.iteye.com/blog/1837935

欢迎交流

本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1210182

相关文章
|
3月前
|
存储 Ubuntu Linux
VMware-安装CentOS系统教程及安装包
虚拟机相当于是一个独立于你电脑的环境,在这个环境上面,你可以安装Linux、Windows、Ubuntu等各个类型各个版本的系统,在这个系统里面你不用担心有病读等,不用担心文件误删导致系统崩溃。 虚拟机也和正常的电脑系统是一样的,也可以开关机,不用的时候,你关机就可以了,也不会占用你的系统资源,使用起来还是比较方便 这里也有已经做好的CentOS 7系统,下载下来解压后直接用VMware打开就可以使用
768 69
|
2月前
|
存储 分布式计算 Linux
安装篇--CentOS 7 虚拟机安装
VMware 装 CentOS 7 不知道从哪下手?这篇超详细图文教程手把手教你在 VMware Workstation 中完成 CentOS 7 桌面系统的完整安装流程。从 ISO 镜像下载、虚拟机配置,到安装图形界面、设置用户密码,每一步都有截图讲解,适合零基础新手快速上手。装好之后无论你是要搭 Hadoop 集群,还是练 Linux ,这个环境都够你折腾一整天!
1073 2
|
3月前
|
Ubuntu Linux 索引
Centos 7、Debian及Ubuntu系统中安装和验证tree命令的指南。
通过上述步骤,我们可以在CentOS 7、Debian和Ubuntu系统中安装并验证 `tree`命令。在命令行界面中执行安装命令,然后通过版本检查确认安装成功。这保证了在多个平台上 `tree`命令的一致性和可用性,使得用户无论在哪种Linux发行版上都能使用此工具浏览目录结构。
387 78
|
2月前
|
安全 关系型数据库 MySQL
CentOS 7 yum 安装 MySQL教程
在CentOS 7上安装MySQL 8,其实流程很清晰。首先通过官方Yum仓库来安装服务,然后启动并设为开机自启。最重要的环节是首次安全设置:需要先从日志里找到临时密码来登录,再修改成你自己的密码,并为远程连接创建用户和授权。最后,也别忘了在服务器防火墙上放行3306端口,这样远程才能连上。
571 16
|
4月前
|
Linux 网络安全 Apache
针对在Centos/Linux安装Apache过程中出现的常见问题集锦
以上每个问题的解决方案应深入分析错误日志、系统消息和各种配置文件,以找到根本原因并加以解决。务必保持系统和Apache软件包更新到最新版本,以修复已知的bugs和安全漏洞。安装和管理Web服务器是一项需要细致关注和不断学习的任务。随着技术的发展,推荐定期查看官方文档和社区论坛,以保持知识的更新。
239 80
|
3月前
|
存储 关系型数据库 MySQL
在CentOS 8.x上安装Percona Xtrabackup工具备份MySQL数据步骤。
以上就是在CentOS8.x上通过Perconaxtabbackup工具对Mysql进行高效率、高可靠性、无锁定影响地实现在线快速全量及增加式数据库资料保存与恢复流程。通过以上流程可以有效地将Mysql相关资料按需求完成定期或不定期地保存与灾难恢复需求。
331 10
|
4月前
|
人工智能 数据挖掘 Linux
Centos安装Python3.7(亲测可用)
本指南详细介绍了在基于Linux(以CentOS系统为例,使用yum包管理器)的系统上安装Python 3.7版本的完整流程。Python是一种广泛使用的高级编程语言,在各种领域如软件开发、数据分析、人工智能和区块链开发等都有着重要的应用。
489 2
|
5月前
|
机器人 Linux
CentOS 7系统中安装特定版本CMake 3.21.2的方法。
到这里,过程已经全部完成。如果你跟随上面的步骤来,那么你现在已经拥有了一个全新的CMake版本在你的CentOS 7系统上了。这个过程就像是你通过一系列仪式,唤醒了一个沉睡已久的古老机器人,它现在完全按照你的意愿来帮你构建和编译软件了。
499 18
|
3月前
|
运维 网络协议 Linux
CentOS下Bind服务的安装与故障排查
通过以上的步骤,您应该能够在CentOS系统上安装并配置BIND DNS服务,并进行基本的故障排查。
373 0
|
3月前
|
存储 Ubuntu Linux
安卓手机免root安装各种Linux系统:Ubuntu, Centos,Kali等
此外还可以安装Slackware、Archstrike等系统,还可以通过github查找方法安装更多有趣的东西。 昨日小编就是通过Termux安装的Kali Linux工具包。