ES Rollup Pipeline是什么?_问答-阿里云开发者社区

Rollup，即数据上卷，图中左边大家看到数据有三种颜色，这些数据表示的是一个点击事件，记录某一些用户点击的事件，性别。在原始的数据里，我们可以想象，假设做一个网站或系统，pv、uv 的统计，每天可能有上 10 亿的数据量，但是我们分析需求的时候实际上只需要分析今天什么时候哪个域名点击了多少次，这个我们可以通过 Rollup 这个概念把数据做一次转换，压缩。到右边，我们的数据就已经精确到天或者按小时。对于 ES 来说，它其实也是遵循三个关键步骤：第一，原始数据输入到 Elasticsearch 里存起来，中间开启一个 Rollup 实时计算的能力，然后把数据经过一定的折叠之后，输出到另外一个索引，这样就完全满足了 Pipeline 的思维，也完全满足了实时计算。所以在这个领域， ES 算做了一个伟大的创新，只需要一套去处理，就可以把管道模型深切地融入到自己的数据里。如果基于 Flink 做数据统计，上游会先用 Kafka 输入数据，然后中间用 Flink 计算，比如每 1000 条，每 1 万条数据就 Rollup 一下，然后输出到另外一个下游又会放到 ES 里来存储，这就会带来技术的成本，实施的代价。

资料来源于《开源与云Elasticsearch应用剖析》下载地址：https://developer.aliyun.com/topic/download?id=1169

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ES Rollup Pipeline是什么?