数据湖实操讲解【OSS 访问加速】第七讲:Flink 高效 sink 写入 OSS

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【OSS 访问加速】第七讲


主题:Flink 高效 sink 写入 OSS


讲师:重湖,阿里巴巴计算平台事业部 EMR 高级工程师


内容框架:

  • 背景介绍
  • 功能介绍
  • 如何配置
  • 如何使用


直播回放链接:(7/8讲)

https://developer.aliyun.com/live/246851



一、背景介绍


Apache Flink 简介

Apache Flink 是新一代大数据计算引擎的代表,以分布式流计算为核心,同时支持批处理。特点:

  • 低延时:Flink 流式计算可以做到亚秒甚至毫秒级延时,相比之下 Spark 流计算很难达到秒级
  • 高吞吐:Flink 以分布式快照算法实现容错,对吞吐量的影响很小
  • 高容错:基于分布式快照算法,Flink 实现了低代价、高效的容错表现,以及 Exactly_Once 语义保证

image.png


JindoFS Flink Connector 产生背景


阿里云对象存储 Object Storage Service(OSS):

  • 海量:无限容量,弹性伸缩
  • 安全:12个9的数据安全性,多种加密方式
  • 低成本:远低于云磁盘,且有多种存储方式、生命周期管理等节约成本
  • 高可靠:服务可用性 99.9%
  • 已服务于海量用户


Flink 应用广泛:

  • 流计算领域业内主要解决方案
  • Apache 基金会最活跃项目之一
  • 未来:流批一体、在线分析


Flink 使用痛点:

  • 开源 ApacheFlink 尚不支持直接写入 OSS
  • Hadoop OSS SDK 写入性能不一定满足需求


JindoFS Flink Connector 介绍


整体架构:

两阶段 Checkpoint (检查点) 机制:

  • 第一阶段 MPU (MultiPartUpload,分片上传) 写入 OSS
  • 第二阶段 MPU 提交


Recoverable Writer 可恢复性写入:

  • 临时文件以普通文件格式上传 OSS
  • Sink 节点状态快照


image.png

写入 OSS vs.  写入 亚马逊S3:

  • Native 实现:数据写入以 C++ 代码实现,相比 Java 更高效
  • 高速读写:多线程读写临时文件,对大于1MB的文件优势尤其明显
  • 数据缓存:读写 OSS 实现本地缓存,加速外部访问


OSS 访问加速,JindoFS 提供新支持


image.png


二、如何配置


如何配置 JindoFS Flink Connector

环境要求:

  • 集群上有开源版本 Flink 软件,版本不低于1.10.1


SDK 配置:

下载所需 SDK 文件:


将两个 jar 放置于集群 Flink 目录下 lib 文件夹:

  • Flink 根目录通常可由 $FLINK_HOME 环境变量获取
  • 集群所有节点均需配置


Java SPI:自动加载资源,无需额外配置

⭐文档链接(Github):

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/flink/jindofs_sdk_on_flink_for_oss.md


在程序中使用 JindoFS Flink Connector

确保集群能够访问 OSS Bucket


使用合适的路径,流式写入OSS Bucket

  • 写入 OSS 须使用 oss:// 前缀路径,类似于:

oss://<user-bucket>/<user-defined-sink-dir>


更多优化!用 JindoFS SDK 加速 OSS 访问,参考

⭐Github:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_vs_hadoop_sdk.md



在程序中使用 JindoFS Flink Connector:Java

在程序中开启 Flink Checkpoint

  • 前提:使用可重发的数据源,如 Kafka


  • 通过 StreamExecutionEnvironment 对象打开 Checkpoint(示例):

建立:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

打开:

env.enableCheckpointing(<userDefinedCheckpointInterval>, CheckpointingMode.EXACTLY_ONCE);


示例程序

  • 下文中,outputStream 是一个预先形成的 DataStream 对象,若需写入 OSS,则可以这样添加 sink:
String outputPath = "oss://<user-bucket>/<user-defined-sink-dir>";
StreamingFileSink<String> sink= StreamingFileSink.forRowFormat(
        new Path(outputPath),
        new SimpleStringEncoder<String>("UTF-8")
).build();
outputStream.addSink(sink);
  • 上述程序指定将 outputStream 中的String 内容写入 OSS 路径 oss:///,最后还需用 env.execute() 语句执行 Flink 作业,env 是已建立的 StreamExecutionEnvironment 对象
  • 最后,将 Java 作业打包为 jar 文件,并用 flink run 在集群提交即可



在程序中使用 JindoFS Flink Connector:Pyflink

与Java 示例类似,在 Pyflink 中使用 JindoFS Flink Connector 与写入 HDFS 等其他介质方式相同,只需:

  • 将写入路径写作合适的 OSS 路径
  • 注意打开 Checkpoint 功能


例如,下列 Python 程序定义了一张位于 OSS 的表:

sink_dest = "oss://<user-bucket>/<user-defined-sink-dir>"
sink_ddl = f""" 
        CREATE TABLE mySink (
                uid INT,
                pid INT
        ) PARTITIONED BY (
                pid
        ) WITH (
                'connector' = 'filesystem',
                'fpath' = '{sink_dest}',
                'format' = 'csv',
                'sink.rolling-policy.file-size' = '2MB',
                'sink.partition-commit.policy.kind' = 'success-file'
        )
"""


然后将其添加到 StreamTableEnvironmentt_env 中即可:t_env.sql_update(sink_ddl)


在程序中使用 JindoFS Flink Connector:更多配置

用户通过 flink run 提交 java 或 pyflink 程序时,可以额外自定义一些参数,格式:

     flink run -m yarn-cluster -yD key1=value1 -yD key2=value2 ...

目前支持“熵注入”及“分片上传并行度”两项配置


熵注入(entropyinjection):

  • 功能:将写入路径的一段特定字符串匹配出来,用一段随机的字符串进行替换
  • 效果:削弱所谓 “片区” (sharding) 效应,提高写入效率
  • 配置参数:

 oss.entropy.key=<user-defined-key>

 oss.entropy.length=<user-defined-length>


分片上传并行度

  • 配置参数:oss.upload.max.concurrent.uploads
  • 默认值:当前可用的处理器数量



直接观看第四课(7/8讲)视频回放,获取实例讲解~

https://developer.aliyun.com/live/246851





Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!


image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
2月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
209 0
|
2月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
200 0
|
4月前
|
SQL Java Apache
实时计算 Flink版操作报错合集之使用parquet时,怎么解决报错:无法访问到java.uti.Arrays$ArrayList类的私有字段
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
4月前
|
消息中间件 Kubernetes 监控
实时计算 Flink版操作报错合集之在编译源码时遇到报错:无法访问,该如何处理
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
4月前
|
SQL 关系型数据库 测试技术
实时数仓 Hologres操作报错合集之执行Flink的sink操作时出现报错,是什么原因
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
4月前
|
存储 Java 关系型数据库
实时计算 Flink版产品使用问题之以jar包方式同步数据是否需要定义存储oss的位置
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
存储 SQL Java
实时数仓 Hologres产品使用合集之如何使用Flink的sink连接
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
5月前
|
消息中间件 NoSQL Redis
实时计算 Flink版产品使用问题之配置了最大连续失败数不为1,在Kafka的精准一次sink中,如果ck失败了,这批数据是否会丢失
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
NoSQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之如何确保多并发sink同时更新Redis值时,数据能按事件时间有序地更新并且保持一致性
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。