大数据组件-Flink环境搭建

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 大数据组件-Flink环境搭建

1.Flink组件介绍


Flink(Apache Flink)是一个开源的流处理和批处理框架,它具有高性能、低延迟、容错性和灵活性的特点。Flink拥有强大而灵活的数据处理能力,用户可以根据自己的需求选择合适的组件和API来构建复杂的数据处理流程和批处理任务。以下是 Flink 的一些重要组件的介绍:


Flink Core: Flink核心组件提供了任务调度、作业管理、资源管理、容错机制和数据传输等基础功能。它负责将用户提交的作业进行解析、分配任务并对其进行执行。

DataStream API: DataStream API 是 Flink提供的用于处理无界流式数据的高级API。它允许用户定义有状态的流处理操作,如转换、过滤、聚合、窗口操作等。DataStream API支持事件时间和处理时间,并且具备低延迟和高吞吐量的能力。

DataSet API: DataSet API 是 Flink 用于处理有界静态数据集的API。它提供了类似于传统编程模型的操作符,如Map、Reduce、Join、GroupBy 等。DataSet API 适用于离线批处理任务,具有良好的可扩展性和优化能力。

Table API 和 SQL: Table API 和 SQL 提供了类似于关系型数据库的查询语言和操作符。用户可以使用 SQL查询和操作流或批数据,也可以在 Table API 中使用类似的操作符来处理数据。这种方式使得数据处理更加直观和易用。

CEP(Complex Event Processing): Flink 提供了复杂事件处理的能力。CEP库允许用户定义规则来监测数据流中的模式和事件,并触发相应的操作。它可以用于实时监控、异常检测、欺诈检测等场景。

Gelly: Gelly 是 Flink的图处理库,支持执行图算法和操作。它提供了一组高级算法,如图遍历、连通性分析、最短路径等。Gelly 可以在图结构数据上进行大规模的并行计算。

Connectors: Flink 提供了与各种数据源和数据存储的连接器,如 Kafka、Hadoop HDFS、AmazonS3、Elasticsearch 等。这些连接器使得 Flink 可以方便地与外部系统集成,读取和写入数据。


2.环境准备


本次用到的环境有:

1.Oracle Linux 7.4
2.JDK 1.8
3.Flink 1.13.0


3.Flink搭建


1.解压flink压缩文件至/opt目录下

tar -zxvf /root/experiment/file/flink-1.13.0-bin-scala_2.11.tg -C /opt

2.修改解压后为文件名为flink

mv /opt/flink-1.13.0 /opt/flink

3.修改环境变量

vim /etc/profile

4.按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码

export FLINK_HOME=/opt/flink
export PATH=$PATH:$FLINK_HOME/bin


5.按键Esc,按键:wq保存退出

6.刷新配置文件

source /etc/profile

7.启动flink。

start-cluster.sh

8.查看flink版本信息。

flink --version



9.关闭flink。

stop-cluster.sh

至此,Flink搭建就到此结束了

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6天前
|
资源调度 Java API
[flink 实时流基础] flink组件栈以及任务执行与资源划分
[flink 实时流基础] flink组件栈以及任务执行与资源划分
|
7天前
|
SQL 大数据 数据处理
[AIGC大数据基础] Flink: 大数据流处理的未来
[AIGC大数据基础] Flink: 大数据流处理的未来
|
2月前
|
分布式计算 网络安全 流计算
Flink【环境搭建 01】(flink-1.9.3 集群版安装、配置、验证)
【2月更文挑战第15天】Flink【环境搭建 01】(flink-1.9.3 集群版安装、配置、验证)
77 0
|
3月前
|
消息中间件 监控 安全
【天衍系列 05】Flink集成KafkaSink组件:实现流式数据的可靠传输 & 高效协同
【天衍系列 05】Flink集成KafkaSink组件:实现流式数据的可靠传输 & 高效协同
|
3月前
|
JSON 流计算 数据格式
【天衍系列 04】深入理解Flink的ElasticsearchSink组件:实时数据流如何无缝地流向Elasticsearch
【天衍系列 04】深入理解Flink的ElasticsearchSink组件:实时数据流如何无缝地流向Elasticsearch
|
3月前
|
缓存 算法 BI
【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入
【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入
|
3月前
|
算法 大数据 数据处理
【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理
【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理
|
3月前
|
Java Linux 流计算
【极数系列】Flink环境搭建&Docker版本(04)
【极数系列】Flink环境搭建&Docker版本(04)
|
3月前
|
Java Linux 网络安全
【极数系列】Flink环境搭建&Linux版本 (03)
【极数系列】Flink环境搭建&Linux版本 (03)
|
3月前
|
SQL 大数据 API
大数据技术之Flink---day01概述、快速上手
大数据技术之Flink---day01概述、快速上手