我实现了一个rich sink函数,它根据调用的对象执行一些网络调用。我希望能够计算这些事件的一些元数据,这些事件由事件中包含的某些上下文信息(事件的batchID)键入,并将此元数据公开给外部系统。
例如,事件如下所示:
case class MyEvent(batchId: String, eventId: String, moreInformation: ...)
class MySink(...) extends RichSinkFunction[MyEvent]
{
override def open(parameters: Configuration): Unit = {
...
}
override def close(): Unit = {
...
}
override def invoke(event: MyEvent) = {
// some processing is done here
....
//
...
if (success) {
I want to save the meta data here per event.batchId
state.count.number.of.events.processed.for.event.batchId
}
}
}
在另一个地方,我想以某种方式能够查询为batchId处理的事件数量的值
计划A:使用Metric对象和MetricReporter将数据公开给外部系统。这样做的缺点是指标不是检查点,如果有很多batchIds,你可能最终会用许多无法获得GC的指标污染指标系统。
计划B:将RichSinkFunction重写为RichFlatMap(或ProcessFunction),它发出一个元组流(batchId,number.of.events.in.batchId)。您可以通过batchId键入此流,然后在KeyedProcessFunction(例如)中使用键控状态来通过可查询状态存储和公开此状态。这具有以下缺点:可查询状态仅允许点查询(一次一个键)。
计划C:在此变体中,外部系统可以通过将查询注入到广播到KeyedBroadcastProcessFunction的流中来查询在计划B中创建的状态,该KeyedBroadcastProcessFunction保存有键的state.count.number.of.events.processed.for.event.batchId数据。然后,您可以在KeyedBroadcastProcessFunction的processBroadcastElement方法中使用ctx.applyToKeyedState来响应这些查询。
计划D:将结果从B(或C)写入redis,elasticsearch或其他一些可查询数据存储,并让外部系统从那里获取此信息。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。