大数据脚本合集

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 大数据脚本合集

大数据脚本合集

本篇MarkDown整理大数据相关组件的常用脚本命令,随时补充

本小组大数据平台采用Hdp部署方式,故其他框架的启动停止脚本未编纂在内,通过Hdp平台一键启动与停止即可

Hdp

启动ambari server

ambari-server start

重启ambari server

ambari-server restart

关闭ambari server

ambari-server stop

启动ambari agent

ambari-agent start

重启ambari agent

ambari-agent restart

关闭ambari agent

ambari-agent stop

Hadoop

查看指定目录下内容

hadoop dfs –ls [文件目录]

将本地文件存储至hadoop

hadoop fs –put [本地地址] [hadoop目录]

将hadoop上某个文件down至本地已有目录下

hadoop fs -get [文件目录] [本地目录]

删除hadoop上指定文件

hadoop fs –rm [文件地址]

在hadoop指定目录内创建新目录

hadoop fs –mkdir [hadoop目录]

在hadoop指定目录下新建一个空文件

hadoop  fs  -touchz  [hadoop目录/文件名]

将hadoop上某个文件重命名

hadoop  fs  –mv  /user/test.txt  /user/ok.txt   (将test.txt重命名为ok.txt)

将hadoop指定目录下所有内容保存为一个文件,同时down至本地

hadoop dfs –getmerge /user /home/t

将正在运行的hadoop作业kill掉

hadoop job –kill  [job-id]

Yarn

杀死Yarn进程

yarn application -kill application_Id

Kafka

Kafka_home(测试环境)

/opt/kafka

查看topic

$kafka_home/bin/kafka-topics --zookeeper  $host:2181 --list

查看消费者组信息

$kafka_home/bin/kafka-consumer-groups --bootstrap-server host:9092 --list

创建topic

$kafka_home/bin/kafka-topics --zookeeper  $host1:2181, $host2:2181, $host3:2181  --create --replication-factor 1 --partitions 1 --topic <主题名>

生产消息

$kafka_home/bin/kafka-console-producer --broker-list  $host:9092 --topic <主题名>

消费消息

$kafka_home/bin/kafka-console-consumer --bootstrap-server  $host:9092 --from-beginning --topic <主题名>

删除topic

$kafka_home/bin/kafka-topics --delete --zookeeper  $host1:2181, $host2:2181, $host3:2181 --topic <主题名>

查看kafka分区数

$kafka_home/bin/kafka-topics --describe --zookeeper  $host1:2181, $host2:2181, $host3:2181 --topic pro_tbk_real_time_data

增加kafka分区数

$kafka_home/bin/kafka-topics --alter --zookeeper  $host1:2181, $host2:2181, $host3:2181 --topic pro_tbk_real_time_data --partitions 6

查看消费者的offset

$kafka_home/bin/kafka-consumer-groups.sh  --bootstrap-server   $host:9092 --describe  --group linkmcn-data-support-group 

Spark

yarn模式启动应用程序

spark2-submit --class <主类名> --master yarn --deploy-mode client --driver-memory 2g --executor-memory 2g --executor-cores 3 <jar包>

集群通用脚本

注意修改脚本的权限

集群分发脚本(xsync.sh)

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历所有目录,挨个发送
for file in $@
do
    #3. 获取父目录
    pdir=$(cd -P $(dirname $file); pwd)
    
    #4. 获取当前文件的名称
    fname=$(basename $file)
    
    #5. 遍历集群所有机器,拷贝
    for host in hadoop102 hadoop103 hadoop104
    do
        echo ====================    $host    ====================
        rsync -e 'ssh -p 2822' -av $pdir/$fname $USER@$host:$pdir
    done
done

集群同步脚本(xcall.sh)

#! /bin/bash
for i in host1 host2 host3
do
        echo --------- $i ----------
        ssh $i "$*"
done

集群进程查看脚本(jpsall.sh)

#!/bin/bash
for i in host1 host2 host3
do 
  echo =====================  $i  =====================
  ssh -p 2822 root@$i "source /etc/profile && jps $@ | grep -v Jps"
done
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
6月前
|
存储 物联网 大数据
助力工业物联网,工业大数据之脚本开发【五】
助力工业物联网,工业大数据之脚本开发【五】
80 0
|
1月前
|
大数据 网络安全 数据安全/隐私保护
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
104 5
|
1月前
|
XML 大数据 网络安全
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
62 4
|
1月前
|
消息中间件 大数据 Java
大数据-55 Kafka sh脚本使用 与 JavaAPI使用 topics.sh producer.sh consumer.sh kafka-clients
大数据-55 Kafka sh脚本使用 与 JavaAPI使用 topics.sh producer.sh consumer.sh kafka-clients
24 2
|
1月前
|
缓存 分布式计算 NoSQL
大数据-43 Redis 功能扩展 Lua 脚本 对Redis扩展 eval redis.call redis.pcall
大数据-43 Redis 功能扩展 Lua 脚本 对Redis扩展 eval redis.call redis.pcall
25 2
|
6月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之大数据计算MaxCompute如何实现通过离线同步脚本模式
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之是否可以将5个资源包统一写到同一个python UDF脚本
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
SQL 分布式计算 前端开发
MaxCompute操作报错合集之SQL脚本设置参数set odps.mapred.reduce.tasks=18;没有生效,是为什么
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
158 5
|
5月前
|
SQL 分布式计算 大数据
MaxCompute产品使用问题之建了一个python 的 UDF脚本,生成函数引用总是说类不存在,是什么导致的
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。