《Storm分布式实时计算模式》——1.6　有保障机制的数据处理-阿里云开发者社区

《Storm分布式实时计算模式》——1.6　有保障机制的数据处理

2017-07-03 1318

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介：

本节书摘来自华章计算机《Storm分布式实时计算模式》一书中的第1章，第1.6节,作者：（美）P. Taylor Goetz　Brian O’Neill 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6　有保障机制的数据处理

Storm提供了一种API能够保证spout发送出来的每个tuple都能够执行完整的处理过程。在我们上面的例子中，不担心执行失败的情况。可以看到在一个topology中一个spout的数据流会被分割生成任意多的数据流，取决于下游bolt的行为。如果发生了执行失败会怎样？举个例子，考虑一个负责将数据持久化到数据库的bolt。怎样处理数据库更新失败的情况？
1.6.1　spout的可靠性

在Storm中，可靠的消息处理机制是从spout开始的。一个提供了可靠的处理机制的spout需要记录它发射出去的tuple，当下游bolt处理tuple或者子tuple失败时spout能够重新发射。子tuple可以理解为bolt处理spout发射的原始tuple后，作为结果发射出去的tuple。另外一个视角来看，可以将spout发射的数据流看作一个tuple树的主干（如图1-6所示）。

5e42ffdaf06c0c7f31118735cb156125c51cac13

在图中，实线部分表示从spout发射的原始主干tuple，虚线部分表示的子tuple都是源自于原始tuple。这样产生的图形叫做tuple树。在有保障数据的处理过程中，bolt每收到一个tuple，都需要向上游确认应答（ack）者报错。对主干tuple中的一个tuple，如果tuple树上的每个bolt进行了确认应答，spout会调用ack方法来标明这条消息已经完全处理了。如果树中任何一个bolt处理tuple报错，或者处理超时，spout会调用fail方法。
Storm的ISpout接口定义了三个可靠性相关的API：nextTuple，ack和fail。

1cdce6884d19b527490e0a3a5e5ad22b3c8b1100

前面讲过，Storm通过调用Spout的nextTuple()发送一个tuple。为实现可靠的消息处理，首先要给每个发出的tuple带上唯一的ID,并且将ID作为参数传递给SpoutOutputCollector的emit()方法：

4bdaa83c2dc38b9ffacbf9e1659c4f72a99abf14

给tuple指定ID告诉Storm系统，无论执行成功还是失败，spout都要接收tuple树上所有节点返回的通知。如果处理成功，spout的ack()方法将会对编号是ID的消息应答确认，如果执行失败或者超时，会调用fail()方法。
1.6.2　bolt的可靠性
bolt要实现可靠的消息处理机制包含两个步骤：
1.当发射衍生的tuple时，需要锚定读入的tuple
2.当处理消息成功或者失败时分别确认应答或者报错
锚定一个tuple的意思是，建立读入tuple和衍生出的tuple之间的对应关系，这样下游的bolt就可以通过应答确认、报错或超时来加入到tuple树结构中。
可以通过调用OutputCollector中emit()的一个重载函数锚定一个或者一组tuple：

0853b3acf6b27a6e8456aa4e9f58c85e5cd127a4

这里，我们将读入的tuple和发射的新tuple锚定起来，下游的bolt就需要对输出的tuple进行确认应答或者报错。另外一个emit()方法会发射非锚定的tuple：

f89e219942ac224114cf9288ba5a2194d2c67dfe

非锚定的tuple不会对数据流的可靠性起作用。如果一个非锚定的tuple在下游处理失败，原始的根tuple不会重新发送。
当处理完成或者发送了新tuple之后，可靠数据流中的bolt需要应答读入的tuple：

https://yqfile.alicdn.com/f567f6a8769cb4cb85f0659816df3f741650d9a2.png
" >

如果处理失败，这样的话spout必须发射tuple，bolt就要明确地对处理失败的tuple报错：

01bbb0d088188d6058ba5e810b30c41fdf77d1c3

如果因为超时的原因，或者显式调用OutputCollector.fail()方法，spout都会重新发送原始tuple。后面很快有例子。
1.6.3　可靠的单词计数
为了进一步说明可控性，让我们增强SentenceSpout类，支持可靠的tuple发射方式。需要记录所有发送的tuple，并且分配一个唯一的ID。我们使用HashMap来存储已发送待确认的tuple。每当发送一个新的tuple，分配一个唯一的标识符并且存储在我们的hashmap中。当收到一个确认消息，从待确认列表中删除该tuple。如果收到报错，从新发送tuple：

9267e37a3d027f0027ee941ee3ac16b767a1ce8b

06d89335cf4c266c7d187494d11e92caa57078c8

为支持有保障的处理，需要修改bolt，将输出的tuple和输入的tuple锚定，并且应答确认输入的tuple：

7f3215b3bd87abe5bfcb8e7abfe14bab345dff89

《Storm分布式实时计算模式》——1.6　有保障机制的数据处理

1.6　有保障机制的数据处理

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《Storm分布式实时计算模式》——1.6 有保障机制的数据处理

1.6 有保障机制的数据处理

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Storm分布式实时计算模式》——1.6　有保障机制的数据处理

1.6　有保障机制的数据处理