Flink1.4 用于外部数据访问的异步IO

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 原文来源:Flink1.4 用于外部数据访问的异步IO1. 异步IO操作的必要性当与外部系统交互时(例如,使用存储在数据库中数据丰富流事件),需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。

原文来源Flink1.4 用于外部数据访问的异步IO

1. 异步IO操作的必要性

当与外部系统交互时(例如,使用存储在数据库中数据丰富流事件),需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。访问外部数据库中的数据(例如在 MapFunction 中)通常意味着同步交互:将请求发送到数据库,MapFunction 会等待直到收到响应。在许多情况下,这个等待时间占了该函数绝大部分时间。

与外部数据库进行异步交互意味着一个并行函数实例可以并发地处理多个请求和并发地接收多个响应。那样的话,可以通过发送其他请求和接收响应来重叠等待时间。至少,等待时间可以被多个请求平摊,这在很多情况下会导致更高的流吞吐量。

通过扩展 MapFunction 到一个很高的并发度来提高吞吐量在一定程度上是可行的,但是常常会导致很高的资源成本:有更多的并行 MapFunction 实例意味着更多的任务、线程、Flink内部网络连接、与数据库之间的网络连接、缓存以及通常的内部开销。

2. 前提条件

如上面的部分所述,实现数据库(或key/value存储系统)适当的异步I/O访问需要该数据库的客户端支持异步请求。许多流行的数据库提供这样的客户端。在没有这样的客户端的情况下,可以尝试创建多个客户端并使用线程池处理同步调用,从而将同步客户端转换为有限的并发客户端。但是,这种方法通常比适当的异步客户端效率低。

3. Async I/O API

Flink 的异步 I/O API允许用户在数据流中使用异步请求客户端。API处理与数据流的集成,以及处理顺序,事件时间,容错等。

假设有一个用于目标数据库的异步客户端,要实现一个通过异步I/O来操作数据库还需要三个步骤:

  • 实现调度请求的 AsyncFunction
  • 获取操作结果并把它传递给 ResultFuture 的 callBack
  • 将异步 I/O 操作作为转换操作应用于 DataStream

以下代码示例说明了基本模式:

Java版本:

// This example implements the asynchronous request and callback with Futures that have the
// interface of Java 8's futures (which is the same one followed by Flink's Future)

/**
 * An implementation of the 'AsyncFunction' that sends requests and sets the callback.
 */
class AsyncDatabaseRequest extends RichAsyncFunction<String, Tuple2<String, String>> {

    /** The database specific client that can issue concurrent requests with callbacks */
    private transient DatabaseClient client;

    @Override
    public void open(Configuration parameters) throws Exception {
        client = new DatabaseClient(host, post, credentials);
    }

    @Override
    public void close() throws Exception {
        client.close();
    }

    @Override
    public void asyncInvoke(final String str, final ResultFuture<Tuple2<String, String>> resultFuture) throws Exception {

        // 发出异步请求,返回结果的 Future
        Future<String> resultFuture = client.query(str);

        // 一旦客户端的请求完成,执行回调函数
        // 回调函数只是将结果转发给 resultFuture
        resultFuture.thenAccept( (String result) -> {

            resultFuture.complete(Collections.singleton(new Tuple2<>(str, result)));

        });
    }
}

// create the original stream
DataStream<String> stream = ...;

// apply the async I/O transformation
DataStream<Tuple2<String, String>> resultStream =
    AsyncDataStream.unorderedWait(stream, new AsyncDatabaseRequest(), 1000, TimeUnit.MILLISECONDS, 100);

Scala版本:

/**
 * An implementation of the 'AsyncFunction' that sends requests and sets the callback.
 */
class AsyncDatabaseRequest extends AsyncFunction[String, (String, String)] {

    /** The database specific client that can issue concurrent requests with callbacks */
    lazy val client: DatabaseClient = new DatabaseClient(host, post, credentials)

    /** The context used for the future callbacks */
    implicit lazy val executor: ExecutionContext = ExecutionContext.fromExecutor(Executors.directExecutor())


    override def asyncInvoke(str: String, resultFuture: ResultFuture[(String, String)]): Unit = {

        // issue the asynchronous request, receive a future for the result
        val resultFuture: Future[String] = client.query(str)

        // set the callback to be executed once the request by the client is complete
        // the callback simply forwards the result to the result future
        resultFuture.onSuccess {
            case result: String => resultFuture.complete(Iterable((str, result)))
        }
    }
}

// create the original stream
val stream: DataStream[String] = ...

// apply the async I/O transformation
val resultStream: DataStream[(String, String)] =
    AsyncDataStream.unorderedWait(stream, new AsyncDatabaseRequest(), 1000, TimeUnit.MILLISECONDS, 100)

重要提示
ResultFuture是在第一次调用 ResultFuture.complete 时已经完成。所有后续的 complete 调用都将被忽略。

以下两个参数控制异步操作:

  • 超时:超时定义了异步请求在被认为失败之前可能需要多长时间。该参数防止死亡/失败请求。
  • 容量:该参数定义可以同时进行多少个异步请求。尽管异步I/O方法通常会有更好的吞吐量,但是算子仍然可能是流应用程序中的瓶颈。限制并发请求的数量可以确保算子不会积压不断增长的未处理请求,但一旦容量耗尽,它将触发背压。

4. 结果顺序

由 AsyncFunction 发出的并发请求经常是以无序的形式完成,取决于哪个请求先完成。为了控制结果记录发出的顺序,Flink 提供了两种模式:

  • Unordered:异步请求结束后立即输出结果记录。在经过异步I/O算子之后,流中记录的顺序与之前会不一样。当使用处理时间作为基本时间特性时,该模式具有最低延迟和最低开销的特性。在这种模式下使用 AsyncDataStream.unorderedWait(...)函数。
  • Ordered:在这种情况下,保留流的顺序。结果记录输出的顺利与异步请求触发的顺序(算子输入记录的顺序)一致。为此,算子必须缓冲结果记录,直到其前面所有的记录输出(或超时)为止。这通常会导致在检查点中出现一定量的额外延迟和一些开销,因为与 Unordered 模式相比,结果的记录在检查点状态中保持较长的一段时间。在这种模式下使用 AsyncDataStream.orderedWait(...) 函数。

5. 事件时间

当流式应用程序使用事件时间时,异步 I/O 算子能正确处理 watermarks。这意味着对于两个顺序模式具体如下:

  • Unordered: watermarks 不会超过记录,反之亦然,这意味着 watermarks 建立起顺序边界。记录只在 watermarks 之间无序排列。只有在发布 watermarks 后才会发出某个 watermarks 后发生的记录。反过来,只有在发布 watermarks 前的所有输入结果记录之后才会发送 watermarks。这意味着,在有 watermarks 的情况下,Unordered 模式与 Ordered 模式一样,都引入了延迟和开销。该开销取决于 watermarks 发送频率。
  • Ordered:保存记录的 watermarks 顺序,就像保存记录之间的顺序一样。与处理时间相比,开销没有显着变化。

请记住,提取时间是事件时间的特例,自动生成的 watermarks 基于数据源的处理时间。

6. 容错保证

异步 I/O 算子提供 exactly-once 语义容错保证。它将检查点中正在进行的异步请求记录存储起来,并在从故障中恢复时恢复/重新触发请求。

原文: https://ci.apache.org/projects/flink/flink-docs-release-1.4/dev/stream/operators/asyncio.html


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
1月前
|
并行计算 数据处理 Python
Python并发编程迷雾:IO密集型为何偏爱异步?CPU密集型又该如何应对?
在Python的并发编程世界中,没有万能的解决方案,只有最适合特定场景的方法。希望本文能够为你拨开迷雾,找到那条通往高效并发编程的光明大道。
42 2
|
2月前
|
开发框架 并行计算 算法
揭秘Python并发神器:IO密集型与CPU密集型任务的异步革命,你竟还傻傻分不清?
揭秘Python并发神器:IO密集型与CPU密集型任务的异步革命,你竟还傻傻分不清?
42 4
|
1月前
|
运维 数据处理 Apache
数据实时计算产品对比测评报告:阿里云实时计算Flink版
数据实时计算产品对比测评报告:阿里云实时计算Flink版
|
1月前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
56 1
|
1月前
|
消息中间件 Java Kafka
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
46 1
|
1月前
|
SQL 分布式计算 大数据
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
46 0
|
1月前
|
大数据 流计算
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
45 0
|
2月前
|
SQL 安全 数据处理
揭秘数据脱敏神器:Flink SQL的神秘力量,守护你的数据宝藏!
【9月更文挑战第7天】在大数据时代,数据管理和处理尤为重要,尤其在保障数据安全与隐私方面。本文探讨如何利用Flink SQL实现数据脱敏,为实时数据处理提供有效的隐私保护方案。数据脱敏涉及在处理、存储或传输前对敏感数据进行加密、遮蔽或替换,以遵守数据保护法规(如GDPR)。Flink SQL通过内置函数和表达式支持这一过程。
74 2
|
2月前
|
算法 Java 程序员
解锁Python高效之道:并发与异步在IO与CPU密集型任务中的精准打击策略!
在数据驱动时代,高效处理大规模数据和高并发请求至关重要。Python凭借其优雅的语法和强大的库支持,成为开发者首选。本文将介绍Python中的并发与异步编程,涵盖并发与异步的基本概念、IO密集型任务的并发策略、CPU密集型任务的并发策略以及异步IO的应用。通过具体示例,展示如何使用`concurrent.futures`、`asyncio`和`multiprocessing`等库提升程序性能,帮助开发者构建高效、可扩展的应用程序。
104 0