在文件存储HDFS版上使用 Apache Flink

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
对象存储 OSS,内容安全 1000次 1年
简介: 本文档主要介绍如何在挂载文件存储HDFS版的 Hadoop 集群上安装及使用 Flink。

一 前言

本文档主要介绍如何在挂载文件存储HDFS版的 Hadoop 集群上安装及使用 Flink。

二 准备工作

  1. 开通文件存储HDFS服务并创建文件系统实例和挂载点,详情请参见:快速入门
  2. 在 Hadoop 集群所有节点上安装JDK。版本不能低于1.8。
  3. 下载 Apache Hadoop 压缩包,下载地址:官方链接。建议您选用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为 Apache Hadoop 2.7.2。
  4. 下载 Apache Flink 压缩包,下载地址:官方链接。本文档中使用的版本为官方提供的预编译版本 Apache Flink 1.12.5。

三 配置 Hadoop

  1. 执行如下命令解压 Hadoop 压缩包到指定目录。
tar -zxf hadoop-2.7.2.tar.gz -C /usr/local/
  1. 修改 hadoop-env.sh 配置文件。
  • 执行如下命令打开 hadoop-env.sh 配置文件。
vim /usr/local/hadoop-2.7.2/etc/hadoop/hadoop-env.sh
  • 配置 JAVA_HOME 目录,如下所示。
exportJAVA_HOME=/usr/java/default
  1. 修改 core-site.xml 配置文件。
  • 执行如下命令打开 core-site.xml 配置文件。
vim /usr/local/hadoop-2.7.2/etc/hadoop/core-site.xml
  • 在 core-site.xml 配置文件中,配置如下信息,详情请参见挂载文件系统
<configuration><property><name>fs.defaultFS</name><value>dfs://x-xxxxxxxx.cn-xxxxx.dfs.aliyuncs.com:10290</value><!-- 该地址填写您的挂载点地址 --></property><property><name>fs.dfs.impl</name><value>com.alibaba.dfs.DistributedFileSystem</value></property><property><name>fs.AbstractFileSystem.dfs.impl</name><value>com.alibaba.dfs.DFS</value></property></configuration>
  1. 修改 yarn-site.xml 配置文件。
  • 执行如下命令打开 yarn-site.xml 配置文件。
vim /usr/local/hadoop-2.7.2/etc/hadoop/yarn-site.xml
  • 在 yarn-site.xml 配置文件中,配置如下信息。
<configuration><property><name>yarn.resourcemanager.hostname</name><value>xxxx</value><!-- 该地址填写集群中resourcemanager的hostname --></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>16384</value><!-- 根据您当前的集群能力进行配置此项 --></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>4</value><!-- 根据您当前的集群能力进行配置此项 --></property><property><name>yarn.scheduler.maximum-allocation-vcores</name><value>4</value><!-- 根据您当前的集群能力进行配置此项 --></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>3584</value><!-- 根据您当前的集群能力进行配置此项 --></property><property><name>yarn.scheduler.maximum-allocation-mb</name><value>14336</value><!-- 根据您当前的集群能力进行配置此项 --></property></configuration>
  1. 修改 slaves 配置文件。
  • 执行如下命令打开 slaves 配置文件。
vim /usr/local/hadoop-2.7.2/etc/hadoop/slaves
  • 在 slaves 配置文件中,配置集群计算节点的 hostname。
cluster-header-1
cluster-worker-1
  1. 配置环境变量。
  • 执行如下命令打开 /etc/profile 配置文件。
vim /etc/profile
  • 在 /etc/profile 配置文件中,配置如下信息。
exportHADOOP_HOME=/usr/local/hadoop-2.7.2
exportHADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
exportPATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  • 执行如下命令使配置生效。
source /etc/profile
  1. 配置文件存储HDFS的Java SDK。

您可以单击此处,下载文件存储HDFS最新的Java SDK,将其部署在Hadoop生态系统组件的CLASSPATH上,详情请参见挂载文件系统

cp aliyun-sdk-dfs-x.y.z.jar  /usr/local/hadoop-2.7.2/share/hadoop/hdfs
  1. 执行如下命令将${HADOOP_HOME}文件夹同步到集群的其他节点的相同目录下,并按照本章节步骤 6对集群其他节点配置Hadoop的环境变量。
scp -r hadoop-2.7.2/ root@cluster-worker-1:/usr/local/

四 验证 Hadoop 配置

完成 Hadoop 配置后,不需要格式化 NameNode,也不需要使用 start-dfs.sh 来启动HDFS相关服务。如需使用 YARN 服务,只需在 ResourceManager 节点启动 YARN 服务,验证 Hadoop 配置成功的方法请参见文档:验证安装。

五 配置 Flink

  1. 执行如下命令解压Flink压缩包到指定目录。
tar -zxf flink-1.12.5-bin-scala_2.11.tgz -C /usr/local/
  1. 注意事项
  • 在使用 Flink 之前必须在您的集群环境变量中配置HADOOP_HOME,HADOOP_CLASSPATH和HADOOP_CONF_DIR,详情请参见本文档第三章节中的步骤 6。
  • 如果您需要对 Flink 进行额外的配置,请参考官方文档:配置操作指南

六 验证 Flink 配置

## 在文件存储HDFS版上生成测试数据${HADOOP_HOME}/bin/hadoop jar  ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
randomtextwriter \
-D mapreduce.randomtextwriter.totalbytes=10240 \
-D mapreduce.randomtextwriter.bytespermap=1024 \
dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/input


## 使用Flink自带的WordCount.jar对文件存储HDFS版上的数据进行读取计算,并将结果写回到文件存储HDFS版## 检查环境变量中是否包含 HADOOP_CLASSPATHecho$HADOOP_CLASSPATH## 如果环境变量中不包含 HADOOP_CLASSPATHexportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$($HADOOP_HOME/bin/hadoop classpath)## 启动 yarn session./flink-1.12.5/bin/yarn-session.sh --detached## 执行WordCount.jar./flink-1.12.5/bin/flink run \
./flink-1.12.5/examples/batch/WordCount.jar \
--input dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/flink-test/input \
--output dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/flink-test/output
## 查看输出在文件存储HDFS版实例上的部分结果${HADOOP_HOME}/bin/hadoop fs -cat dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/flink-test/output | tail -20


了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
8天前
|
SQL 消息中间件 关系型数据库
Apache Doris Flink Connector 24.0.0 版本正式发布
该版本新增了对 Flink 1.20 的支持,并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。
|
22天前
|
消息中间件 监控 数据挖掘
基于RabbitMQ与Apache Flink构建实时分析系统
【8月更文第28天】本文将介绍如何利用RabbitMQ作为数据源,结合Apache Flink进行实时数据分析。我们将构建一个简单的实时分析系统,该系统能够接收来自不同来源的数据,对数据进行实时处理,并将结果输出到另一个队列或存储系统中。
86 2
|
19天前
|
Java 微服务 Spring
驾驭复杂性:Spring Cloud在微服务构建中的决胜法则
【8月更文挑战第31天】Spring Cloud是在Spring Framework基础上打造的微服务解决方案,提供服务发现、配置管理、消息路由等功能,适用于构建复杂的微服务架构。本文介绍如何利用Spring Cloud搭建微服务,包括Eureka服务发现、Config Server配置管理和Zuul API网关等组件的配置与使用。通过Spring Cloud,可实现快速开发、自动化配置,并提升系统的伸缩性和容错性,尽管仍需面对分布式事务等挑战,但其强大的社区支持有助于解决问题。
31 0
|
21天前
|
Prometheus 监控 Cloud Native
实时计算 Flink版产品使用问题之怎么关闭HDFS的Web界面
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
24天前
|
分布式计算 流计算
美团 Flink 大作业部署问题之Checkpoint Replicate Service 跨 HDFS 集群的副本制作是如何实现的
美团 Flink 大作业部署问题之Checkpoint Replicate Service 跨 HDFS 集群的副本制作是如何实现的
|
24天前
|
消息中间件 Java 数据处理
揭秘Apache Flink的Exactly-Once神技:如何在数据流海中确保每条信息精准无误,不丢不重?
【8月更文挑战第26天】Apache Flink 是一款先进的流处理框架,其核心特性 Exactly-Once 语义保证了数据处理的精准无误。尤其在金融及电商等高要求场景下,该特性极为关键。本文深入解析 Flink 如何实现 Exactly-Once 语义:通过状态管理确保中间结果可靠存储;利用一致的检查点机制定期保存状态快照;以及通过精确的状态恢复避免数据重复处理或丢失。最后,提供一个 Java 示例,展示如何计算用户访问次数,并确保 Exactly-Once 语义的应用。
38 0
|
SQL 架构师 API
《Apache Flink 知其然,知其所以然》系列视频课程
# 课程简介 目前在我的公众号新推出了《Apache Flink 知其然,知其所以然》的系列视频课程。在内容上会先对Flink整体架构和所适用的场景做一个基础介绍,让你对Flink有一个整体的认识!然后对核心概念进行详细介绍,让你深入了解流计算中一些核心术语的含义,然后对Flink 各个层面的API,如 SQL/Table&DataStreamAPI/PythonAPI 进行详细的介绍,以及
1345 0
《Apache Flink 知其然,知其所以然》系列视频课程
|
24天前
|
存储 消息中间件 Java
Apache Flink 实践问题之原生TM UI日志问题如何解决
Apache Flink 实践问题之原生TM UI日志问题如何解决
31 1
|
24天前
|
消息中间件 分布式计算 Hadoop
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
34 3
|
24天前
|
消息中间件 运维 Kafka
Apache Flink 实践问题之达到网卡的最大速度如何解决
Apache Flink 实践问题之达到网卡的最大速度如何解决
34 2

热门文章

最新文章

推荐镜像

更多