实时流处理框架之Storm的安装与部署

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介: 实时流处理框架之Storm的安装与部署

0x00 教程内容


  1. 下载Storm
  2. 安装与配置Storm
  3. 启动并校验Storm

前提:

先安装好Zookeeper,请查看教程:

D003 复制粘贴玩大数据之安装与配置Zookeeper集群


0x01 下载Storm


1. 下载Storm

a. 为了统一,此处下载apache-storm-1.2.2.tar.gz版本:

http://storm.apache.org/downloads.html


2. 上传安装包到节点

a. 上传到master的/home/hadoop-sny/software上,没有目录则创建:

mkdir ~/software


0x02 安装与配置Storm


1. 解压Storm

a. 解压Storm

tar -zxvf apache-storm-1.2.2.tar.gz -C ~/bigdata/


2. 配置Storm

a. 新建Storm数据文件夹,在每台机器上创建文件目录:

mkdir /home/hadoop-sny/bigdata/storm-data

b. 修改Storm配置

cd ~/bigdata/apache-storm-1.2.2/conf

vi storm.yaml

配置一:配置ZK存储Storm的状态信息(协调Storm的每一个组件)


storm.zookeeper.servers:
    - "master"
    - "slave1"
    - "slave2"


配置二:配置Nimbus和Supervisor在本地磁盘上存储小量的数据(如jars,配置等)

storm.local.dir: "/home/hadoop-sny/bigdata/storm-data"


配置三:配置Nimbus所在的机器名

nimbus.seeds: ["master"]


配置四:配置每个Supervisor节点最多可以启动多少个workers,(一个worker对应一个端口用于接收数据)默认是4个


supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703


如图所示:


image.png


c. 同步到安装包到slave1和slave2

scp -r /home/hadoop-sny/bigdata/apache-storm-1.2.2 hadoop-sny@slave1:~/bigdata/

scp -r /home/hadoop-sny/bigdata/apache-storm-1.2.2 hadoop-sny@slave2:~/bigdata/


0x03 启动并校验Storm


1. 启动Storm

前提:

先启动Zookeeper(三个节点都要启动):

zkServer.sh start


image.png


a. 在master上启动Nimbus和Web UI

cd ~/bigdata/apache-storm-1.2.2

nohup bin/storm nimbus 2>&1 &

然后回车,切换终端2,执行:

nohup bin/storm ui 2>&1 &

然后回车

b. 在slave1和slave2上启动Supervisor

cd ~/bigdata/apache-storm-1.2.2

nohup bin/storm supervisor 2>&1 &


2. 校验Storm

a. 查看各节点进程


image.png


b. Web UI端口查看

打开端口:http://master:8080,看到下面的界面表示成功:

微信图片_20220618191246.png


0xFF 总结


  1. Flume、Kafka、Storm的综合小案例,请留意后期教程
  2. 后期教程还会加上Kafka、Storm、Kafka的piplines的实现教程
相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
2月前
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
166 0
|
5月前
|
消息中间件 Kafka 数据处理
Kafka与Flink:构建高性能实时数据处理系统的实践指南
Apache Kafka 和 Apache Flink 的结合为构建高性能的实时数据处理系统提供了坚实的基础。通过合理的架构设计和参数配置,可以实现低延迟、高吞吐量的数据流处理。无论是在电商、金融、物流还是其他行业,这种组合都能为企业带来巨大的价值。
|
消息中间件 算法 固态存储
主流实时流处理计算框架Flink初体验。
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。
主流实时流处理计算框架Flink初体验。
|
消息中间件 SQL 分布式计算
LinkedIn 开源其专用于实时数据的处理分布式流处理框架 Samza
最近LinkedIn 开源其专用于实时数据的处理分布式流处理框架 Samza——Samza,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。
215 0
LinkedIn 开源其专用于实时数据的处理分布式流处理框架 Samza
|
分布式计算 监控 Java
02. Spark Streaming实时流处理学习——分布式日志收集框架Flume
2. 分布式日志收集框架Flume 2.1 业务现状分析 如上图,大量的系统和各种服务的日志数据持续生成。用户有了很好的商业创意想要充分利用这些系统日志信息。比如用户行为分析,轨迹跟踪等等。如何将日志上传到Hadoop集群上?对比方案存在什么问题,以及有什么优势? 方案1: 容错,负载均衡,高延时等问题如何消除? 方案2: Flume框架 2.
2444 0