【Flink-API】数据交换和Redistribute

本文涉及的产品
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
云数据库 Tair(兼容Redis),内存型 2GB
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
简介: 【Flink-API】数据交换和Redistribute

在Flink中,是TaskManager而不是task在网络上交换数据.比如,处于同一个TM内的task,他们之间的数据交换是在- -个网络连接(TaskManager 创建并维护)上基于多路复用的。


2020092508242182.png



ExecutionGraph:执行图是- -个包含job计算的逻辑的数据结构.它包含节点(ExecutionVertex, 表示计算任务),以及中间结果(IntermnediateResultPartition,表示任务产生的数据).节点通过ExecutionEdge(EE)来连接到它们要消费的中间结果:

20200925082313430.png



这些都是存在与JobManager 中的逻辑数据结构(描写信息) . 它们在TaskManager中存在运行时等价的数据结构,用来应对最终的数据处理.在运行时,IntermediateResultPartition 的等价数据结构被称为ResultPartition.

ResultPartition (RP) 表示BufferWriter 写人的data chunk.十个RP是ResultSubpartition (RS) 的集合.这是为了区别被不同接收者定义的数据,例如针对一个reduce或- -个join的分区shufl:的场景。

ResultPariion (RP) 表示BuffrWriter 写人的data chuink.I千个RP是ResulSubparition (RS) 的集合.这是为了区别被不同接收者定义的数据,例如针对一个reduce或-一个join的分区shuffle 的场景。

ResultSubparition (RS) 表示- -个operator创建的数据的- -个分区, 跟要传输的数据逻辑-起传输给接收operator. RS的特定的实现决定了最终的数据传输逻辑.它被设计为插件化的机制来满足系统各种各样的数据传输需求。例如,PipelinedSubpartition 就是- -种支持流数据交换的pipeline的实现。而SpillableSubparition是- 个支持批处理的块数据实现.

InputGate:在接收端,逻辑上等价于RP.它用于处理并收集来自上游的buffer中的数据.

InputChannel:在接收端,逻辑上等价于RS.用于接收某个特定的分区的数据.序列化器、反序列化器用于可靠得将类型化的数据转化为纯粹的二二进制数据,处理跨buffer的数据.

20200925090136296.png

上图表示一个简单的map-reduce job并具有两个并行的task.我们有两个TaskManager.每个TaskManager都有两个task (- -个map,-一个 reduce),这两个TaskManager运行在两个不同的节点上,有一个JobManager运行在第三方节点上。我们聚焦在task MI和R2之间的传输初始化。数据传输使用粗箭头表示,消息使用细箭头表示.首先,MI 生产一个ResultParition (P1) (箭头 1).当RP对于消费端变得可访问(我们后面会讨论),它 会通知JobManager (简头2) . JobManager 通知想要接收这个分区数据的接收者(taskRI 和R2)分区当前已经准备好了。如果接收者还没有被调度,这将会触发task的deployment (箭头3a,3b) .然后接收者将会向RP请求数据(箭头4a,4b) .这将会初始化任务之间的数据传输(5a,5b) ,这 个初始化要么是本地的(5a),或者通过TaskManager的网络栈传输(5b).这种机制给了RP在决定什么时候通知JobManager自己已经处于准备好状态的时机上拥有充分的自由度.例如,如果RPI希望在通知JM之前,等行数据完整地传输完( 比如它将数据写到一个临时文件里),这种数据交换机制粗略来看等同于批处座数据交换。就像在Hadoop中实现的那样。而如果RP1一旦在其第- -条记录准备好时就通知JobManager,那么我就拥有了一个流式的数据交换.

20200925090111157.png


上面这张图展示了一个更细节的过程,描述了数据从生产者传输到消费者的完整生命周期.最初,MapDriver生产数据记录(通过Collector收集),这 些记录被传给RecordWriter对象。RecordWriter包含- -组序列化器(RecordSerializer 对象)。.消费 者task 可能会消费这些数据. -个ChannelSelector选择一个或者多个序列化器来处理记录。如果记录在broadcast中,它们将被传递给每- -个序列化器.如果记录是基于hash分区的,ChannelSelector 将会计算记录的hash值,然后选择合适的序列化器。

序列化器将数据记录序列化成二进制的表示形式.然后将它们放到大小合适的buffer中(记录也可以被切割到多个buffer中)。这些buffer首先会被传递给BufferWriter, 然后被写到一个ResuleParition(RP)中. -一个RP包含多个subpartition (ResultSubparition-RS),用于为特定的消费者收集buffer数据.在上图中这个buffer是为TaskManager2中的reducer定义的,然后被放到RS2中.既然首个buffer进来了, RS2就对消费者变成可访问的状态了(注意, 这个行为实现了一个streaming shuffle) ,然后它通知JobManager.

JobManager查找RS2的消费者,然后通知TaskManager2一个数据块已经可以访问了.通知TM2的消息会被发送到InputChannel,该inputchannel被认为是接收这个buffer的,接着通知RS2可以初始化一一个网络传输了。然后,RS2通过TM1的网络栈请求该buffer,然后双方基于netty准备进行数据传输。网络连接是在TaskManager (而非特定的task)之间长时间存在的.一旦buffer被TM2接收,它会穿过一一个类似的对象栈,起始于InputChannel (接收端等价于IRPQ),进入InputGate (它包含多个IC) ,最终进入一个RecordDeserializer,它用于从buffer中还原成类型化的记录,然后将其传递给接收task,这个例子中ReduceDriver.

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
Sqoop 企业级大数据迁移方案实战
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 本课程主要讲解了Sqoop的设计思想及原理、部署安装及配置、详细具体的使用方法技巧与实操案例、企业级任务管理等。结合日常工作实践,培养解决实际问题的能力。本课程由黑马程序员提供。
目录
相关文章
|
1天前
|
SQL 缓存 API
在API接口数据获取过程中,如何确保数据的安全性和隐私性?
在API接口数据获取过程中,确保数据的安全性和隐私性至关重要。本文介绍了身份认证与授权、防止SQL注入和XSS攻击、加密传输、API版本控制、限流与熔断、压力测试与性能优化、备份与恢复以及法律和伦理考量等关键措施,帮助开发者和管理者有效保护API接口的数据安全和隐私性。
|
8天前
|
前端开发 JavaScript API
探索GraphQL:如何构建高效的数据API
【10月更文挑战第25天】在现代Web开发中,API的效率和灵活性至关重要。本文探讨了如何利用GraphQL构建高效的数据API。GraphQL通过声明式查询方式,允许客户端精确指定所需数据,减少数据传输量,提高API效率。文章介绍了设置GraphQL服务器、设计API Schema、实现解析函数及调整前后端交互的具体步骤,展示了GraphQL的优势和应用场景。
23 2
|
13天前
|
缓存 监控 测试技术
获取API接口数据的最佳实践详解
在开发过程中,与API进行交互是获取数据和服务的关键步骤。本文详细介绍了10个最佳实践,包括明确需求和文档、错误处理、数据验证、性能优化、安全性、日志和监控、版本控制、代码复用和维护、测试以及遵守法律和道德规范,帮助开发者更高效地从API获取数据,确保数据的准确性、安全性和性能。
|
12天前
|
存储 数据可视化 API
API接口数据获取流程的细化
本文概述了API的基础知识、获取API访问权限的方法、编写代码调用API的步骤、数据处理与分析技巧以及数据安全与合规的重要性,并提供了社交媒体数据分析、天气预报应用和电商数据分析等API数据获取的应用实例,旨在帮助读者全面了解和实践API接口数据获取的流程。
|
13天前
|
缓存 监控 API
抖音抖店 API 请求获取宝贝详情数据的调用频率限制如何调整?
抖音抖店API请求获取宝贝详情数据的调用频率受限,需遵循平台规则。开发者可通过提升账号等级、申请更高配额、优化业务逻辑(如缓存数据、异步处理、批量请求)及监控调整等方式来应对。
|
14天前
|
缓存 负载均衡 API
抖音抖店API请求获取宝贝详情数据、原价、销量、主图等参数可支持高并发调用接入演示
这是一个使用Python编写的示例代码,用于从抖音抖店API获取商品详情,包括原价、销量和主图等信息。示例展示了如何构建请求、处理响应及提取所需数据。针对高并发场景,建议采用缓存、限流、负载均衡、异步处理及代码优化等策略,以提升性能和稳定性。
|
21天前
|
Prometheus 监控 Cloud Native
如何查看商品销量 API 接口的性能指标数据?
要查看商品销量 API 接口的性能指标数据,可以通过以下几种方法:1. 使用第三方或开源 API 监控工具,如 Datadog、New Relic、Prometheus 和 Grafana;2. 在代码中手动记录时间戳或使用性能测量库;3. 查看 API 提供商的文档和报告;4. 进行负载测试,使用工具如 Apache JMeter 和 Gatling。这些方法可以帮助你全面评估 API 的性能表现。
41 2
|
22天前
|
运维 数据处理 Apache
数据实时计算产品对比测评报告:阿里云实时计算Flink版
数据实时计算产品对比测评报告:阿里云实时计算Flink版
|
29天前
|
存储 JavaScript 前端开发
Blazor 调用 Clipboard API 读写剪贴板数据
【10月更文挑战第14天】Blazor 是一个使用 .NET 和 C# 构建交互式 Web UI 的框架。由于浏览器安全策略,直接访问某些原生 API(如 Clipboard API)受限。通过 JavaScript 互操作性(JS Interop),可在 Blazor 中调用这些 API。首先在 HTML 定义 JavaScript 函数,再通过 `IJSRuntime` 调用。此外,需注意不同浏览器对 Clipboard API 的支持程度及用户隐私授权问题。
|
29天前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
52 1