大数据脚本合集

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 大数据脚本合集

大数据脚本合集

本篇MarkDown整理大数据相关组件的常用脚本命令,随时补充

本小组大数据平台采用Hdp部署方式,故其他框架的启动停止脚本未编纂在内,通过Hdp平台一键启动与停止即可

Hdp

启动ambari server

ambari-server start

重启ambari server

ambari-server restart

关闭ambari server

ambari-server stop

启动ambari agent

ambari-agent start

重启ambari agent

ambari-agent restart

关闭ambari agent

ambari-agent stop

Hadoop

查看指定目录下内容

hadoop dfs –ls [文件目录]

将本地文件存储至hadoop

hadoop fs –put [本地地址] [hadoop目录]

将hadoop上某个文件down至本地已有目录下

hadoop fs -get [文件目录] [本地目录]

删除hadoop上指定文件

hadoop fs –rm [文件地址]

在hadoop指定目录内创建新目录

hadoop fs –mkdir [hadoop目录]

在hadoop指定目录下新建一个空文件

hadoop  fs  -touchz  [hadoop目录/文件名]

将hadoop上某个文件重命名

hadoop  fs  –mv  /user/test.txt  /user/ok.txt   (将test.txt重命名为ok.txt)

将hadoop指定目录下所有内容保存为一个文件,同时down至本地

hadoop dfs –getmerge /user /home/t

将正在运行的hadoop作业kill掉

hadoop job –kill  [job-id]

Yarn

杀死Yarn进程

yarn application -kill application_Id

Kafka

Kafka_home(测试环境)

/opt/kafka

查看topic

$kafka_home/bin/kafka-topics --zookeeper  $host:2181 --list

查看消费者组信息

$kafka_home/bin/kafka-consumer-groups --bootstrap-server host:9092 --list

创建topic

$kafka_home/bin/kafka-topics --zookeeper  $host1:2181, $host2:2181, $host3:2181  --create --replication-factor 1 --partitions 1 --topic <主题名>

生产消息

$kafka_home/bin/kafka-console-producer --broker-list  $host:9092 --topic <主题名>

消费消息

$kafka_home/bin/kafka-console-consumer --bootstrap-server  $host:9092 --from-beginning --topic <主题名>

删除topic

$kafka_home/bin/kafka-topics --delete --zookeeper  $host1:2181, $host2:2181, $host3:2181 --topic <主题名>

查看kafka分区数

$kafka_home/bin/kafka-topics --describe --zookeeper  $host1:2181, $host2:2181, $host3:2181 --topic pro_tbk_real_time_data

增加kafka分区数

$kafka_home/bin/kafka-topics --alter --zookeeper  $host1:2181, $host2:2181, $host3:2181 --topic pro_tbk_real_time_data --partitions 6

查看消费者的offset

$kafka_home/bin/kafka-consumer-groups.sh  --bootstrap-server   $host:9092 --describe  --group linkmcn-data-support-group 

Spark

yarn模式启动应用程序

spark2-submit --class <主类名> --master yarn --deploy-mode client --driver-memory 2g --executor-memory 2g --executor-cores 3 <jar包>

集群通用脚本

注意修改脚本的权限

集群分发脚本(xsync.sh)

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历所有目录,挨个发送
for file in $@
do
    #3. 获取父目录
    pdir=$(cd -P $(dirname $file); pwd)
    
    #4. 获取当前文件的名称
    fname=$(basename $file)
    
    #5. 遍历集群所有机器,拷贝
    for host in hadoop102 hadoop103 hadoop104
    do
        echo ====================    $host    ====================
        rsync -e 'ssh -p 2822' -av $pdir/$fname $USER@$host:$pdir
    done
done

集群同步脚本(xcall.sh)

#! /bin/bash
for i in host1 host2 host3
do
        echo --------- $i ----------
        ssh $i "$*"
done

集群进程查看脚本(jpsall.sh)

#!/bin/bash
for i in host1 host2 host3
do 
  echo =====================  $i  =====================
  ssh -p 2822 root@$i "source /etc/profile && jps $@ | grep -v Jps"
done
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
5月前
|
存储 物联网 大数据
助力工业物联网,工业大数据之脚本开发【五】
助力工业物联网,工业大数据之脚本开发【五】
41 0
|
12天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之大数据计算MaxCompute如何实现通过离线同步脚本模式
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
分布式计算 大数据 Shell
大数据开发中常用组件服务的集群管理脚本整理集合
在大数据开发中,需要对各个组件服务集群进行管理,为了效率和可靠性,可以编写shell脚本来统一管理和维护集群,确保系统的稳定性和可靠性。
82 0
|
11月前
|
资源调度 分布式计算 Hadoop
大数据 | (六)Hadoop集群启停脚本
大数据 | (六)Hadoop集群启停脚本
125 0
|
SQL 运维 Oracle
【大数据开发运维解决方案】sqoop避免输入密码自动增量job脚本介绍
上一篇文章介绍了sqoop增量同步数据到hive,同时上一篇文章也给出了本人写的hadoop+hive+hbase+sqoop+kylin的伪分布式安装方法及使用和增量同步实现的连接, 本篇文章将介绍如何将上一篇文章介绍的增量方式同sqoop自带的job机制和shell脚本以及crontab结合起来实现自动增量同步的需求。
【大数据开发运维解决方案】sqoop避免输入密码自动增量job脚本介绍
|
运维 Oracle 关系型数据库
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
上面是总结的定时自动重启weblogic脚本以及如果不慎用root启动weblogic后如何恢复oracle用户的运维。 1、通过ps-ef |grep命令找到想要杀死的进程信息,然后配合awk和sed组织好要杀死的进程清单对应的shell语句,并通过sh命令自动执行kill: ps -ef |grep /home/apache-tomcat-7.0.76/|awk 'NR&amp;gt;1 {print $2}' | sed -e &quot;s/^/kill -9 /g&quot; | sh -
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
|
分布式计算 Hadoop 大数据
大数据常用管理集群脚本集合
大数据常用管理集群脚本集合
110 0
大数据常用管理集群脚本集合
|
SQL 数据采集 分布式计算
MaxCompute - ODPS重装上阵 第九弹 - 脚本模式与参数视图
MaxCompute提供了新的脚本模式与参数化视图,可以明显提高开发者的编程效率,提高代码的可重用性,与此同时,也提高了性能!
2110 1
MaxCompute - ODPS重装上阵 第九弹 - 脚本模式与参数视图

热门文章

最新文章