大快DKH大数据网络爬虫安装教程(详细图文步骤)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeperrediselasticsearchmysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

6f79095854f11eab6a39e52024972cdc6c4bcab9 

3e9bf77d5cb8350fd7e834b04f6d0109052c4246 

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

aaabec84ced05629269579753de764bb829674ef 

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

11f2963c9334c43a85a47770017cdd629b028052 

Redis相关配置看如下界面:

dd8ddd213e98737056f2906ae561b382d61e6f4c 

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes(这下面有一个没有改好的直接替换)

0a30ff9bf9199b07e8cdfc8f2d767231ffa726fb 

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

b1fe576c499a3b32503232a40b728f4a854ba245 

 

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

df12f5d0585492c77f05f4877db76433569cbc09 

使用cd  crawler  命令进入  crawler 文件夹下

83233dd08f5c7e25e465dce046bbeaac0d5d07df 

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

dabcf897b4b7765b5fc2f7fb7a37ec4fab7c28cd 

5、分发爬虫文件

1324055b03081e974d086f6922af5d7a9ab0be85 

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

1758be6f486781c70c7937e3c69e05745fd685d6 

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

 330cd92f505ffbe4a8e2c18ef2355835e5907519

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

 747993b51002d4e763783b8550607fd3a96ee214

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

1f21d1223281df31dab865f8a923afe343c7bc9e 

 

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

 

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

 

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
764 56
|
24天前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
分布式计算 安全 大数据
别等被黑客敲门才醒悟:大数据如何帮你防住网络攻击?
别等被黑客敲门才醒悟:大数据如何帮你防住网络攻击?
155 32
|
7月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
441 4
|
6月前
|
监控 数据可视化 大数据
Axure设计的“广东省网络信息化大数据平台”数据可视化大屏
本文介绍由Axure设计的“广东省网络信息化大数据平台”数据可视化大屏。大屏分为左中右三区域,共九个模块,涵盖设备占比、数据异常、地市排名、关键指标、地图分布、订单信息等。通过环形图、柱状图、饼图等多种图表形式,将复杂数据直观呈现,助力决策者全面掌握数据动态,推动广东省网络信息化建设发展。
587 135
|
9月前
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
362 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
4月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
7月前
|
大数据
“你朋友圈的真面目,大数据都知道!”——用社交网络分析看透人情世故
“你朋友圈的真面目,大数据都知道!”——用社交网络分析看透人情世故
255 16
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
293 13
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
|
9月前
|
机器学习/深度学习 编解码 数据可视化
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
617 11
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)

热门文章

最新文章