大快DKH大数据网络爬虫安装教程(详细图文步骤)

简介: 爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。
+关注继续查看

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeperrediselasticsearchmysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

6f79095854f11eab6a39e52024972cdc6c4bcab9 

3e9bf77d5cb8350fd7e834b04f6d0109052c4246 

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

aaabec84ced05629269579753de764bb829674ef 

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

11f2963c9334c43a85a47770017cdd629b028052 

Redis相关配置看如下界面:

dd8ddd213e98737056f2906ae561b382d61e6f4c 

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes(这下面有一个没有改好的直接替换)

0a30ff9bf9199b07e8cdfc8f2d767231ffa726fb 

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

b1fe576c499a3b32503232a40b728f4a854ba245 

 

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

df12f5d0585492c77f05f4877db76433569cbc09 

使用cd  crawler  命令进入  crawler 文件夹下

83233dd08f5c7e25e465dce046bbeaac0d5d07df 

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

dabcf897b4b7765b5fc2f7fb7a37ec4fab7c28cd 

5、分发爬虫文件

1324055b03081e974d086f6922af5d7a9ab0be85 

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

1758be6f486781c70c7937e3c69e05745fd685d6 

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

 330cd92f505ffbe4a8e2c18ef2355835e5907519

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

 747993b51002d4e763783b8550607fd3a96ee214

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

1f21d1223281df31dab865f8a923afe343c7bc9e 

 

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

 

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

 

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
8月前
|
Java 大数据 Linux
搭建大数据集群linux服务器配置步骤
使用下面命令修改添加示例内容 命令: ``` vi /etc/sysconfig/network-scripts/ifcfg-ensXX ``` 修改添加的内容示例:
92 0
|
11月前
|
算法 安全 大数据
大数据入门系列 1:全网最全,Windows 安装 VMware Workstation 虚拟机完整步骤及需要注意的问题
大数据入门系列 1:全网最全,Windows 安装 VMware Workstation 虚拟机完整步骤及需要注意的问题
364 0
大数据入门系列 1:全网最全,Windows 安装 VMware Workstation 虚拟机完整步骤及需要注意的问题
|
11月前
|
分布式计算 Ubuntu Hadoop
大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析
大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析
129 0
大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析
|
11月前
|
Ubuntu 大数据 Linux
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
317 0
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
|
11月前
|
分布式计算 大数据 Hadoop
大数据学习之使用ambari动态添加主机的详细步骤
大数据学习之使用ambari动态添加主机的详细步骤
236 0
大数据学习之使用ambari动态添加主机的详细步骤
|
12月前
|
机器学习/深度学习 分布式计算 大数据
大数据学习的五大步骤
大数据学习的五大步骤
112 0
|
12月前
|
机器学习/深度学习 存储 数据采集
大数据智能平台的构建策略与步骤
大数据智能平台的构建策略与步骤
179 0
大数据智能平台的构建策略与步骤
推荐文章
更多