实时流处理框架之Storm的安装与部署

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
简介: 实时流处理框架之Storm的安装与部署

0x00 教程内容


  1. 下载Storm
  2. 安装与配置Storm
  3. 启动并校验Storm

前提:

先安装好Zookeeper,请查看教程:

D003 复制粘贴玩大数据之安装与配置Zookeeper集群


0x01 下载Storm


1. 下载Storm

a. 为了统一,此处下载apache-storm-1.2.2.tar.gz版本:

http://storm.apache.org/downloads.html


2. 上传安装包到节点

a. 上传到master的/home/hadoop-sny/software上,没有目录则创建:

mkdir ~/software


0x02 安装与配置Storm


1. 解压Storm

a. 解压Storm

tar -zxvf apache-storm-1.2.2.tar.gz -C ~/bigdata/


2. 配置Storm

a. 新建Storm数据文件夹,在每台机器上创建文件目录:

mkdir /home/hadoop-sny/bigdata/storm-data

b. 修改Storm配置

cd ~/bigdata/apache-storm-1.2.2/conf

vi storm.yaml

配置一:配置ZK存储Storm的状态信息(协调Storm的每一个组件)


storm.zookeeper.servers:
    - "master"
    - "slave1"
    - "slave2"


配置二:配置Nimbus和Supervisor在本地磁盘上存储小量的数据(如jars,配置等)

storm.local.dir: "/home/hadoop-sny/bigdata/storm-data"


配置三:配置Nimbus所在的机器名

nimbus.seeds: ["master"]


配置四:配置每个Supervisor节点最多可以启动多少个workers,(一个worker对应一个端口用于接收数据)默认是4个


supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703


如图所示:


image.png


c. 同步到安装包到slave1和slave2

scp -r /home/hadoop-sny/bigdata/apache-storm-1.2.2 hadoop-sny@slave1:~/bigdata/

scp -r /home/hadoop-sny/bigdata/apache-storm-1.2.2 hadoop-sny@slave2:~/bigdata/


0x03 启动并校验Storm


1. 启动Storm

前提:

先启动Zookeeper(三个节点都要启动):

zkServer.sh start


image.png


a. 在master上启动Nimbus和Web UI

cd ~/bigdata/apache-storm-1.2.2

nohup bin/storm nimbus 2>&1 &

然后回车,切换终端2,执行:

nohup bin/storm ui 2>&1 &

然后回车

b. 在slave1和slave2上启动Supervisor

cd ~/bigdata/apache-storm-1.2.2

nohup bin/storm supervisor 2>&1 &


2. 校验Storm

a. 查看各节点进程


image.png


b. Web UI端口查看

打开端口:http://master:8080,看到下面的界面表示成功:

微信图片_20220618191246.png


0xFF 总结


  1. Flume、Kafka、Storm的综合小案例,请留意后期教程
  2. 后期教程还会加上Kafka、Storm、Kafka的piplines的实现教程
相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
18天前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
64 5
|
1月前
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
|
4月前
|
消息中间件 Kafka 数据处理
Kafka与Flink:构建高性能实时数据处理系统的实践指南
Apache Kafka 和 Apache Flink 的结合为构建高性能的实时数据处理系统提供了坚实的基础。通过合理的架构设计和参数配置,可以实现低延迟、高吞吐量的数据流处理。无论是在电商、金融、物流还是其他行业,这种组合都能为企业带来巨大的价值。
|
消息中间件 算法 固态存储
主流实时流处理计算框架Flink初体验。
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。
主流实时流处理计算框架Flink初体验。
|
消息中间件 SQL Kafka
使用 Kafka 和 Flink 构建实时数据处理系统
引言 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。
13046 0